电子商务工资一般多少 面向电子商务的关键信息抽取方法

  [摘 要]本文以知网知识库为基础,运用语义分析方法,通过语义的相似度计算实现在电子文档中抽取到有用的关键句和关键信息。  [关键词]电子商务 语义 关键信息 抽取
  一、前言
  近年,我国电子商务投资规模和发展处于快速增长和爆发时期,电子商务已经成为企业和个人商务活动中不可或缺的组成部分。面对海量的商品信息,消费者如何从这些电子文档中快速有效的找到有用的信息,成为信息检索领域的重要研究方向。信息抽取是一个有效的解决方法,是具有较高实用价值的关键技术。从已有研究看,运用语义方法做信息抽取还相对较少,而信息抽取不可能完全摆脱自然语言模型的影响,语义关系仍然是实现信息抽取的基础,比较其他信息抽取技术,能够提高查全率和查准率,并降低复杂度。本文将通过语义分析方法,对电子商务网站的自由文本做相应处理和语义相似度计算,实现关键信息抽取。
  二、相似度计算
  大部分基于语义做自然语言处理的研究,都是以知网为基础。知网是一个以汉语和英语的词语所代表的概念为描述对象,以揭示概念与概念之间以及概念所具有的属性之间的关系为基本内容的常识知识库。在知网中,词汇语义的描述被定义为义项(概念),每一个词可以表达为几个义项,义项又是由一种知识表示语言来描述的,这种知识表示语言所用的词汇称作义原。其语义树并不涵盖所有词语,而将描述词汇语义的义原用树状结构组织起来,义原根据义原之间的属性关系分为多棵义原树,树与树之间存在一定的关系,形成网状知识结构。其义原数量很少,但组合起来可以表达数以万计词语。所以将词语相似度计算转换为义原相似度计算可以提高计算效率,有利于知识库的扩展。
  1.词语相似度计算
  根据知网的义项描述和义原结构,算法可做如下表达,设定两个词语■有n个义项表示■,…,■,■有m个义项表示,■…,■,本计算中默认所有义项的相似度最大值为词语之间相似度,具体表达式为:
  ■ (1)
  其中■为■和■的相似度,■为■和■的相似度。这样就通过计算义项的相似度值得到义项所对应的词语之间的相似度,最后由计算义原相似度来实现。这样就将相似度计算由词语转换为义项最终转换为基本单位义原。通过计算语义距离及义原之间相对位置关系得到义原相似度。知网结构中,语义距离是影响义原相似度的基本因素,于是得到经验公式通过语义距离计算义原之间相似度:
  ■(2)
  其中p为义原;d为义原层次结构中路径长度;为可调节参数。
  分析发现,义原的相对位置也是义原之间相对关系的很大影响因素,对(2)式做出改进,加入义原相对位置的影响因素h(义原在义原树中的深度):
  ■(3)
  具体处理文本时总结发现,实词在文本中表达本质含义,而虚词主要作为词语之间的连接等。所以,为提高效率,本文在计算相似度时只计算实词部分。
  依据知网结构,将实词相似度计算用下面的计算完成。
  (1) 第一独立义原计算:对两个义项计算第一独立义原相似度可由式(3)的计算方法算出,这里记第一独立义原为:■。
  (2) 其他独立义原计算:相似度记作■,计算表达式如下:
  ■(4)
  (3) 关系义原计算:两个义项的相似度记为■,计算表达式如下:
  ■(5)
  (4) 符号义原计算:相似度记作■,基于在义原结构中表示形式相同的原因,符号义原计算与关系义原计算相近,如下式:
  ■(6)
  于是,两个义项语义表达式的整体相似度记为
  ■(7)
  鉴于知网结构和描述,第一独立义原之外的其他义原相似度是相对独立的,对公式进行改进:
  ■(8)
  至此可计算出两个实词的相似度。
  2.句子相似度计算
  这里计算句子相似度计算时只计算实词,包括动词(Verb)、名词(Noun)、代词(Pron)、副词(Adv)、形容词(Adj)、数词(Num)、量词(Quan)等。即,一个句子可根据上述分类得到如下集合:{Verb,Noun,Pron,Adv,Adj,Num,Quan}
  设句子Sen经过分词之后包含m 个词:
  ■(9)
  再根据实词分类,得到分类集合:
  ■(10)
  根据各个实词在句子中所做的成分及作用分析,句子之间相同词性的词汇之间相似度可以衡量句子之间的相似度,这里设两个句子的实词分类集合分别为:
  ■。
  设动词集合V的两个集合为:
  ■(11)
  ■(12)
  设句子■和■的相似度矩阵为■,
  ■(13)
  其中■为两词相似度。
  两句子动词集合的相似度:
  ■(14)
  根据这种方法,即可得到其他分类集合的相似度。那么全句的相似度如下表示(为权系数):
  ■(15)
  三、关键句抽取算法
  对于目前我们所遇到的绝大多数电子商务网页中的电子文本都具有一定的模式,它的特点是基本符合对商品描述的基本模式,一般包含的基本信息是:品牌、质地、颜色、细节等。而这些梗概信息也正是要抽取的关键元素。通过对大量文本的观察、统计发现,在一个完整的文本中,会存在一个句子完全包含这些关键元素,即关键句。抽取的基本思想是,一个完整文本中的句子,与其它句子或者相关,或者完全不相关。关键句作为信息量最大的句子与其他句子一定具有相关性;非关键句之间则是相互独立的。根据这个思想,关键句的抽取有如下算法:输入:包含自由文本的文档 ;输出:代表该文档的关键信息
  步骤:
  Step1 将输入的文档进行句子划分,得到其句子集D(W)。
  Step2 对D(W)的每一个句子进行分词处理,过滤虚词,形成实词集合W{ W1 , W2 ,…, Wn },其中Wi, i=1,2,…n, 为第i个句子对应的实词集合。
  Step3利用公式(15)计算任意两个由词集合表示的句子■的语义相似度,设为■
  Step4 对每个句子与其他所有句子的语义相似度值求和,设句子■对应和值为■则■,n为句子数目。
  Step5 计算■,并将其对应的句子作为关键句输出。
  四、实验结果及分析
  为评价本算法性能,本实验使用中国科学院计算机技术研究所研制的ICTCLAS系统的中文分词和词性标注功能,用Java语言实现算法。使用的语料为电子商务网页上摘录的200段文本。以召回率和准确率作为算法评价指标:
  ■(16)
  ■(17)
  具体实验结果如图所示。
  从实验结果看,本文算法对处理文本的类型具有一定的依赖性,对于主题比较鲜明的文本具有较高的抽取率。而对于同类型语料,不同语料数量的测试结果差别不大,因此算法对语料输入数量并不敏感,可见本算法能够保持较高的稳定性。体现了语义在自然语言处理中的优势。
  参考文献:
  [1]董振东,董强.知网[EB/OL]. http://www.keenage.com., 2003-
  07-12.
  [2]刘群,李素建.基于《知网》的词汇语义相似度计算[A].第三届汉语词汇语义学研讨会论文集[C],台北: [s n], 2002. 59-76
  [3]牛之贤,白鹏洲,段富.基于框架语义标注的自由文本信息抽取研究[J].计算机工程与应用.2008,44(25) 143~145
  [4]金博,史彦君.基于语义理解的文本相似度算法[J].大连理工大学学报, Mar,2005,Vol.45,No.2 292~297
  [5]ZHANG Hua-ping,Yu Hong-kui,Xiong De-yi,etal. HHMM-based Chinese lexical analyzer ICTCLAS[A]. 41st Annual Meeting of the Association for Computational Linguistics[C]. Sapporo: [s n],2003

推荐访问:抽取 面向 关键 电子商务