用户兴趣模型在垂直搜索引擎检索模块中的应用:搜索引擎的功能模块及作用

  摘 要: 在Lucene的基础上设计了垂直搜索引擎模型的检索模块,以提高检索的质量,改变文档的排名,改善用户体验。该模型在检索模块中综合了四个方面来计算文档得分,即主题相关度得分、网页重要性得分、用户兴趣计算得分、关键词位置权值得分。为了让检索结果更能体现用户的实际需要,特别加重了用户兴趣部分的权重分值,并通过实验证明了改进的检索模块比传统的检索更有实际效果,增强了垂直搜索的个性化。
  关键词: 用户兴趣; Lucene; 检索; 个性化
  中图分类号:TP393 文献标志码:A 文章编号:1006-8228(2012)12-34-02
  Application of user interest model in retrieval module of vertical search engine
  Li Xiaohong, Li Maolin
  (Center of Computer; Shaoyang Medical College, Shaoyang, Hunan 422200, China)
  Abstract: In this paper, retrieval module of vertical search engine model based on Lucene is designed, in order to improve the retrieval quality, change the document rank and improve the user’s experience. Four aspects are combined in this module to calculate the document score, that is, subject correlation score, webpage importance score, user interest score, key words position weight score. In order to make the retrieval results better reflect the actual needs of users, user interest part is especially aggravated. The results prove that the improved retrieval module has more practical effect than the traditional retrieval, and it enhances the vertical search personalization.
  Key words: user interest; Lucene; retrieval; individualization
  0 引言
  搜索引擎作为网络信息查询的主要工具已经在人类生活中占据了主导地位,搜索引擎的搜索质量直接影响到用户体验。垂直搜索在专业性上略胜与传统的搜索引擎。本文主要改进垂直搜索引擎的检索模块,在传统的Lucene检索模块中加入Pagerank得分,关键词得分,并特别加入了用户兴趣得分,建立了一个个性化的垂直搜索检索模块模型,从而使垂直搜索在个性化上更贴近用户的使用习惯和兴趣。
  1 用户兴趣模型的建立
  用户兴趣作为垂直搜索引擎当中的一项个性化服务,直接影响到了用户使用该垂直搜索的体验[1]。用户兴趣模型的建立应从两个方面分析:一是用户兴趣模型能否反映用户的真实兴趣爱好;二是针对用户查询兴趣的多变性,该模型是否能满足变化的用户兴趣。
  1.1 常用的用户建模技术
  现今的用户建模技术分为三类:用户手工定制建模、示例用户建模和自动用户建模。
  ⑴ 用户手工定制建模
  用户自己动手在网页上选择或者手动输入自己的兴趣爱好。该方法实现简单,得到的用户兴趣结果可靠。但是存在不足:①影响用户体验,一般用户对频繁的输入和选择缺乏兴趣;②更新用户模型困难,一旦用户的兴趣发生转移,而又让用户重新提交网页文档会给用户造成负担;③反映用户兴趣不全面,提供给用户的选择项本身就带有主观性,另外用户选择时也存在不能准确表达的情况,这些将直接导致收集的用户兴趣不够准确[2]。
  ⑵ 示例用户建模
  示例用户模型的建模是用户自己提供相关的兴趣爱好示例及其类别属性。用户在浏览网页时标注对页面的感兴趣程度即可得到用户建模的示例。
  ⑶ 自动用户建模
  通过留意用户浏览网页的内容和浏览网页时的行为自动为用户构建一个用户模型[5],这种建模无需用户主动参与,通过用户上网时的行为采用数据挖掘技术自动获取用户的兴趣爱好。虽然这种方法会带来一定的噪声,影响用户浏览时的速度,对建立高质量的用户模型也有一定的影响,但是该方法无需用户主动提供信息,不干扰用户的其他操作,从用户体验的角度来说是比较好的建模方法。因此,未来建模技术的发展方向都会采用自动建模技术。
  1.2 用户兴趣行为的量化表示
  通过对自动用户建模的相关研究发现,用户的兴趣与用户的行为是紧密相连的。用户兴趣可以通过用户浏览该页面的时间和拖动滚动条的时间来有效地反映。而通过用户阅读页面平均速度能帮助建模时确定用户兴趣的等级。另外用户查询、标记书签、浏览页面、点击鼠标、反馈信息、拖动滚动条、后退、前进等这些行为都可以暗示用户的爱好。用户访问页面时的停留时间、访问次数、保存、编辑、修改等动作都能够揭示用户兴趣[3]。
  通过以上分析,将用户行为用二维表格来记录,称用户行为数据表[3]。数据表又分为两种类型:基于关键词的用户行为数据表和基于文档的用户行为数据表。前者描述用户在关键词上的行为,其结构如表1所示;后者描述用户在一篇文档上的行为,其结构如表2所示。   表1中的数据为:用户id号(uid)、关键词(kw)、所属主题(t)、关键词因被选中而高亮显示的次数(hlt)、关键词被用户圈住的次数(cir)和在该关键词下画下划线的次数(udl)。
  表2中的数据为:文档id(did)、文档所属主题(t)、关键词的单击次数(clk)、浏览该文档时间(time)、在该文档中添加书签的数目(bmk)、批注次数(ant)。
  由于浏览时间受一些客观因素的影响,因此以上时间是修正后的时间。
  1.3 用户兴趣度的计算
  由于用户在浏览网页的过程中有自己固定的爱好和使用方法,因此可以针对不同的用户用不同的权重值来表示用户的不同行为[4]。
  ⑴ 基于关键词的用户兴趣计算
  用户行为权重,
  ,表示用户对某主题下n个关键词的行为。两者的乘积定义为:
  kw(t)=bkw*bk(t)=(kw1,kw2,…,kwn)T
  基于关键词的用户兴趣度为:
  基于文本的用户兴趣度计算方法类同。
  2 检索模块设计与应用
  将用户兴趣应用到检索模块以改善用户体验,同时考虑了其他一些相关因素。
  ⑴ 主题相关性。
  Lucene排序算法:以关键词在文档中出现的次数排序。
  ⑵ 关键词在文档中的位置。
  可以通过关键词在文档中出现的位置和频率得出网页或文档的权重值。
  ⑶ 用户兴趣。
  ⑷ 网页的重要性。
  网页重要性的分值可以通过PageRank算法得到[4]。
  将这四个因素综合考虑,可设计网页的排序算法如下:
  Score_f=d1*luceneScore+d2*PagerankScore+
  d3*keyScore+d4*yhxqScore
  Score_f:文档f总得分;
  luceneScore:主题相关度得分;
  PagerankScore:网页重要性得分;
  keyScore:关键词位置权值得分;
  yhxqScore:用户兴趣计算得分;
  d1,d2,d3,d4表示权重系数,d1+d2+d3+d4=1。
  3 实验
  将改进的检索算法与原Lucene检索算法对比查全率,查准率和系统响应时间。其中改进算法的权值设置为d1=0.35,d2=0.2,d3=0.13,d4=0.32。加大了用户兴趣的得分权值。我们测试的数据量为20万条,得到如下结果:
  ⑴ 查全率
  估值计算,改进算法得到的结果为n1;Lucene算法得到的结果为n2。
  Recall=n1(n2)/(n1+n2)
  ⑵ 查准率
  查准率的计算为:
  p=k0/k
  k0:正确的数据;k:全部相似数据。
  ⑶ 系统响应时间
  Lucene基础排序算法平均响应时间在35ms左右,而改进的搜索平均响应时间在46ms左右。
  两种检索在三个方面得到的结果对比如表3所示。
  4 结束语
  本文主要改进了垂直搜索引擎的检索模块,在该模块中综合了主题相关度得分、网页重要性得分、用户兴趣计算得分、关键词位置权值得分四个方面来计算网页文档得分。特别将用户兴趣得分部分设置了较重的权重值,使得本文的垂直搜索更具有个性化。通过实验证明,该模型从用户的角度提高了搜索质量,改善了用户体验。该模型还存在一定的局限性,在权重值的分配上还需要大量的实验来验证更合理地分配方案,以达到更合理的搜索效果。
  参考文献:
  [1] 黄国华.基于相对高度的曲线特征提取算法[J].邵阳学院学报(自然科
  学版),2011.1:29-33
  [2] 杨永毅.基于Lucene的二手汽车交易信息垂直搜索引擎的研究与实
  现[D].重庆大学,2009:21-24
  [3] LEWANDOWSKI D. A three-year study on the freshness of web
  search engine databases[J].J.Inf.Sci.,2008.34 (6):817-831
  [4] 盛振华,吴羽,江锦华等.InfoSigs:一种面向Web对象的细粒度聚类算
  法[J].计算机研究与发展,2010.5:796-804
  [5] 邱哲,符滔滔.开发自己的搜索引擎一Lueene2.0+Heritrix[M].人民
  邮电出版社,2007.

推荐访问:垂直 模块 模型 兴趣