基于语义的文献检索系统研究 世界三大科技文献索引检索系统

  摘要:为引导用户沿着感兴趣的文献快速找到相关文献,提出了基于语义的文献检索系统。通过对文献和文献间的语义关系进行分析,构建出文献领域本体,定义了推理规则,并利用Jena提供的推理机制,实现了文献领域本体的语义推理。从而帮助和引导用户快速有效地查找到相关文献。
  关键词:语义;文献检索;本体;语义推理;Jena
  中图分类号:TP303文献标识码:A文章编号:1672-7800(2012)003-0003-03
  
  
  作者简介:涂春梅(1985-),女,重庆人,硕士,重庆信息技术职业学院软件学院助教,研究方向为语义技术、信息检索。
  
  0引言
   随着信息技术的发展,网络资源快速增长,人们已经越来越习惯于在网络上检索自己所需要的学术文献资源。对于文献的浏览和检索,传统的基于关键字的文献检索和浏览方式难以对大量信息进行多角度揭示,同时,关注的文献信息形式单一,忽视了文献之外的信息及关系,使得浏览和检索效率不高。
   特别是对于初次进入某个研究领域的人员,由于对该领域的认识还比较模糊,总是希望能从一篇本领域的文献中找到与之关联的文献,这些文献间的关联关系包括:引用文献、被引用文献、同引文献、同被引文献等。引用和被引用这两种关联用来描述文献实体之间的关系,引导用户沿着感兴趣的文献找到相关文献,从而帮助用户尽快定位到目标文献。本文通过对文献和文献间的关联关系进行分析,研究文献间存在的语义关系,构建文献领域本体,为科研人员提供适合的文献信息,帮助研究人员快速有效地查找文献信息。
  1基于语义的文献检索模型
  1.1语义网环境下的语义检索
   语义网是一套包括网络信息存储、组织、表示、安全认证等各个方面的完整体系,涉及XML、Ontology、数字签名等技术和方法,本体是概念模型的明确的规范说明。
   在语义网环境下实现语义检索实际上就是要将Ontology所反映的语义关系应用到对信息资源的标引和检索中,具体就是要通过对相关文件的解析和推理在语义层面实现信息检索,并以适当和友好的界面与用户进行交互。要实现语义网环境下的语义检索,关键是要解决以下5个问题:
   (1)Ontology的建立问题。这要求有本领域专家的参与,并且要借助于辅助工具。目前基于统计学的Ontology自动创建技术正在研究之中。
   (2)Ontology的存储问题。Ontology主要以RDFS文件或者OWL文件的形式存储,当然这些文件可以由相关专家根据标准格式以XML基本语法手工编辑,也可以由相关工具自动导出生成。
   (3)信息资源的标引和存储问题。主要是要解决怎样利用Ontology中的概念来标引相关的信息资源并以特定的格式存储,当然标引的过程与传统的方法类似,可以用手工标引,也可以采用自动和半自动的方式,而结果通常是以RDF文档的方式以特定格式存储。
   (4)对RDF、RDFS、OWL等相关文件的解析和推理问题。目的是为了将以一般文件存储的Ontology和信息资源信息从文件中读取出来存储在特定的模型中以便于程序处理,并可以根据一定的推理规则基于Ontology进行语义推理,这是实现语义检索的关键一步,该过程可以通过本文介绍的Jena开发包来实现。
   (5) 用户交互界面。为用户提供一个友好的检索交互界面,这主要通过一定的程序设计技术来设计和实现。
   在上述问题中,第四个问题是实现语义检索最关键和直接的一步,本文主要通过Jena开发包来实现。
  1.2基于语义的文献检索模型
   基于语义的文献检索系统,包括了文献领域的重要信息及相互关系,其体系结构如图1所示。
   在该模型中,用户首先向系统发出的检索请求,系统对用户的检索请求进行信息提取,根据检索信息和所定义的语义规则对文献领域本体进行语义推理,可以从检索出的文献引用关系中推理出它的同引和同被引文献,从而检索出满足用户需求的信息。
  
  
  其中,文献的同引文献是指与本文有相同参考文献的文献,即同引文献与本文有共同研究背景或依据。文献的同被引文献是指与本文同时被作为参考文献引用的文献,即同被引文献与本文共同作为进一步研究的基础。
  2文献检索领域本体的构建
   文献检索领域本体描述了文献中的实体、实体之间的各种关联以及实体的属性和关联的属性。基于语义的文献检索系统中关注文献、作者和出版社三种重要的实体。实体间存在的关联,表示实体间的基于某种语义的联系。本系统所关注的关联包括3类:①引用关联:表示文献与其参考文献的有序关系,反映当前文献的研究背景、研究依据及相关工作;②被引用关联:表示文献与引用它的文献之间的有序关系,反映当前文献研究工作的发展;③著作关联:这种关联用来描述作者实体与文献实体之间的关系。
   其中,引用和被引用这两种关联用来描述文献实体之间的关系,从这两种关系中可以通过定于的语义规则,推理出文献的同引和同被引文献,引导用户沿着感兴趣的文献找到相关文献。
   文献检索领域本体的结构如图2。
  
  图2中相应的概念描述及属性描述如表1所示。图2中的文献检索领域本体包括:文章、作者和出版社3个概念。3个概念又通过相应的属性关联起来。用户通过检索文献可以了解到文献的作者、内容、出版社、关键词、引用和被引用的文献等。而同引和同被引可以通过文献的引用和被引用情况推理出来。
   针对这个问题,在Jena推理机的基础上,加入自己设计的规则,只要输入限定条件,就可以输出满足该条件的雇员。由于可以根据实际环境加入相应的规则,从而使算法具有更好的灵活性和适应性。
  3基于语义的文献检索系统的语义推理
   基于语义的文献检索系统,是基于概念及其概念之间的关系进行的语义层面的检索,其关键在于概念之间的推理。Jena提供基于规则的推理机,它包含了一般的推理功能,此外用户可以根据需要自定义推理规则,也可以注册使用第三方推理引擎。
  3.1Jena推理机子系统
   Jena是来自于惠普实验室语义网研究项目的开放资源,是用于创建语义网应用系统的Java框架结构。它为RDF、RDFS、OWL提供一个程序开发环境,包括用于检索过程的基于规则推理机子系统,用于对Ontology进行处理和操作的Ontology子系统,用于信息检索的RDQL查询语言。
   Jena推理机子系统的目的就是把推理机制和推理机引入到Jena中。通过公理和规则与推理机关联起来,推理机就可以推理出本体中隐含的语义信息。
  3.2基于语义的文献检索系统中的语义推理
   在基于语义的文献检索系统中使用Jena推理机制实现这种查询功能,必须做好两方面的工作:第一,把图2中所有与数据库相关的概念、关系和实例用OWL表示处理,存储成XML文档,文本将文献领域本体存为artical.owl;第二,根据查询条件构造两条规则实现查询功能:
   bothCiting: (?a Citing ?c), (?b Citing ?c ), notEqual(?a, ?b) ->(?a bothCiting ?b)
   bothCited: (?a Citing ?b), (?a Citing ?c ), notEqual(?b, ?c) ->(?b bothCited ?c)
   bothCiting规则说明,如果文献a和文献b都同时引用了文献c,并且文献a和文献b不是同一篇文章,那么文献a和文献b就是同引(bothCiting)的关系。
   bothCited规则说明,如果文献a同时引用了文献b和文献c,并且文献b和为文献c不是同一篇文章,那么文献b和c就是同被引(bothCited)的关系。
  
  4文献检索系统原型
   本系统以Java EE技术平台为基础,引入Jena软件开发包设计并实现了基于语义的文献检索系统原型。
   如图3所示,系统由上至下包括4层。①界面层。提供了终端用户的系统访问界面,用户可以通过Web浏览器访问系统。基于语义的文献检索提供三种检索途径:按文献名检索、按作者检索、按关键词检索;②页面服务层。由一些运行在Web服务器上的JSP和JavaBean组件构成。它响应客户端的HTTP请求,根据请求将数据传递给后端的应用逻辑层,并负责将处理结果回送给用户;③业务逻辑层。主要由Servlet和Java应用程序组成,它负责处理基于语义的文献检索,根据用户提交的请求对文献本体进行操作和推理;④数据层。包括文献元数据和文献检索领域本体。检索时,借助文献元数据的帮助在文献领域本体库中进行语义推理,检索出的相应的文献个体集合。
  
  
  图3基于语义的文献检索系统层次结构图4检索结果
  
   例如,在基于语义的文献检索系统中检索文献“基于层叠隐马模型的汉语词法分析”,系统的检索结果如图4所示。检索结果,除了包括该文献的基本信息外,还包括了与该文献关联的同引和同被引文献。
  
  5结束语
   基于语义的文献检索系统按照领域信息规范要求,构建出文献检索领域的本体,用户向系统输入查询请求可以通过对本体的推理,检索出与该文献具有同引和同被引关系的文献。由于本体可以为网络资源提供确切的语义,因此一直被认为是语义网和信息自动化处理中的一项关键技术,下一步工作是要进一步深入探索用户在文献检索过程中的需求,对用户输入的检索请求进行语法和语义分析,使得文献领域本体能和自然语言处理技术结合,从而快速高效地检索出满足用户需求的信息。
  参考文献:
  \[1\]BRESTOL.Jena2 a semantic web framework\[EB/OL\]. http//Jena.省略(Accessed Oct 12,2004).
  \[2\]GRUBER T R. A translation approach to portable ontology specifications\[J\]. Knowledge Acquisition, 1993(2).
  \[3\]DAVE REYNOLDS. Jena2 inference support\[EB/OL\]. http://jena.省略/inference/index html(Accessed Oct 17,2004 )
  \[4\]王志华,赵伟.基于本体的语义网检索模型及关键技术研究\[J\].计算机工程与设计,2011(1).
  \[5\]向阳,王敏,马强.基于Jena的本体构建方法研究\[J\].计算机工程,2007(14).
  \[6\]秦兵, 刘挺.基于常问问题集的中文问答系统研究\[J\].哈尔滨工业大学学报,2003(10).
  
  (责任编辑:杜能钢)
  
  
   Research on Semantic Search System for Literatures
  
  Abstract:Semantic search system for literatures was proposed to guide the users along the interested literature.quickly find the target literatures. Studied the semantic relationships between literatures, created literature ontology, defined inference rules and achieved reasoning use Jena inference mechanism to realize the semantic reasoning in literature area. To help and guide users quickly and effectively to locate the related literature.
  Key Words: Semantic; Literature Retrieval; Ontology; Semantic Reasoning; Jena

推荐访问:语义 文献 检索系统 研究