【基于谱聚类的文本相似性研究】 spss聚类分析

  摘要:为了克服自然语言表达形式的多样性和文本分类的粗略性,将潜在语义分析和谱聚类方法结合起来对语料库进行处理,构造一个语义空间,最终使用向量空间模型对文本进行相似性计算。实验证明,该方法可有效提高语义相似性计算的准确度。
  关键词:语义相似性;语义结构;潜在语义分析;谱聚类;语义空间
  中图分类号:TP301文献标识码:A文章编号:1672-7800(2012)003-0049-03
  
  
  基金项目:江苏省基础研究计划项目(自然科学基金项目)(BK2009093);中国矿业大学科技基金项目(0D080313)
  
  作者简介:戴斌(1982-),男,湖北黄石人,中国矿业大学计算机科学与技术学院硕士生,研究方向为数据挖掘、机器学习等。
  
  1语义空间
  1.1潜在语义分析
  潜在语义分析(Latent Semantic Analysis,简称LSA)的主要思想是:将文档视为以词汇为坐标系构成的多维空间中的点,这些点的分布并非是随机无规律的,而是服从某种语义结构。它将词条文档矩阵进行奇异值分解,经过处理并保留原矩阵M的最佳二次逼近后,可以将原来的高维文档映射到低维的语义向量空间中,从而呈现出一些潜在的语义结构。
  由于词语关系矩阵的维数比较高,将原始的词语关系矩阵Mm*n按照奇异值分解为M=U∑XT,其中Um*m,∑m*n,Vn*n给后续计算处理带来了极大的困难。因此本文对原始的词语关系矩阵进行潜在语义分析,利用近似矩阵来逼近M,即为M找到一个合适的秩r来逼近M。是Frobenius范数意义下的M的最小二次逼近,其定义如下:
  
  =r∑~rTr
  minM-F≡∑-U∑~VTF≡
  min∑ni=1(σi-si)2=min∑ni=r+1σ2i
  其中,∑~仅包含了Σ的前r个元素,即∑~的秩为r,而且秩可以根据应用问题所要求的精度进行调整。
  在代数矩阵理论中,小奇异值对应着小的特征向量,取∑前r大个奇异值实际上就把一些很小的奇异值对应的特征向量“忽略”了,即忽略了语义相关性较弱的词,保留了语义相关性较强的词,达到了去除冗余特征和噪音的目的。
  1.2相似度矩阵优化
  谱聚类算法对于相似矩阵而言其性能非常敏感,所以构造相似矩阵的好坏对谱聚类算法是非常重要的。词-词矩阵反映的仅仅只是词与词之间的关联关系,即二值邻接矩阵。但二值邻接矩阵并不能反映出词与词之间在语义上的相似性度量,所以使用谱聚类算法对语义相似的词语进行聚类并不能得到比较理想的结果,本文在此对词-词关联矩阵采用空间向量和余弦法进行优化。
  空间向量:词-词矩阵的第i行表示第i个词的n维向量,即第i个词与其它n个词的相关性,用Vi来表示。
  余弦法:词与词之间语义上的相似性度量S可表示为(其中词语本身的相似性度量为1):
  S(i,j)=S(j,i)=Vi・Vjnorm(Vi)�norm(Vj) i≠j
   1i=j
  优化后的词-词语义相似度矩阵W表示为:
  W=1S(1,2)S(1,3)…S(1,n)
  S(2,1)1S(2,3)…S(2,n)
  S(3,1)S(3,2)1…S(3,n)
  �����
  S(n,1)S(n,2)S(n,3)…1
  该矩阵反映的是词与词之间在语义上的近似程度,这就为从语义上分析文本相似度奠定了很好的基础。
  1.3语义空间构造
  通过谱聚类的算法对上述词-词语义相似度矩阵W进行聚类,即语义相近或相关的词聚为一类,使聚类结果投影到N维平面中,通过N维平面中点与点之间的欧氏距离来衡量词与词的语义相似性程度,该距离则为词语间的语义距离。下文将详细论述如何通过拉普拉斯谱聚类计算二维平面中的语义距离。
  拉普拉斯矩阵定义为L=D-W,其中D为G的度矩阵,W为G的二值邻接矩阵。依据拉普拉斯矩阵的定义:L=D-W,在本文中D为相似度矩阵W的度数矩阵:
  D=diag(kn),kn=sum(Wn*n)
  其中向量kn为相似度矩阵Wn*n行向量的和,D为向量kn构成的对角矩阵。
  
  d为特征值向量满足关系:{0=λ1≤λ2≤λ3≤…≤λn},v为对应的特征向量矩阵。
  假设λi为向量d中第一个不为0的特征值,则取v中特征值贡献率最大的两列所对应的特征向量第i列vi与第i+1列vi+1,令X= vi,Y=vi+1,即X,Y为特征向量矩阵中最主要的特征向量,将X,Y投影到二维平面上,平面上点与点之间的距离即为词语间语义相似性度量。点与点间距离越小,说明语义越近似或越相关;反之,点与点之间距离越大,则词与词越不相关。经过谱聚类算法投影后,在二维平面上很直观地反映了词之间在语义上的相似关系。
  将任意两点间的距离求出,可得一个N*N的对称矩阵U。
  
  本文将词之间的语义距离构造成对称矩阵,通过奇异值分解进行降维,得到特征向量空间即语义空间。因为语义空间潜在地利用了词语间的语义距离,所以每一个词通过语义空间映射成的K维向量,也都潜在的反映了语义距离,这就为使用余弦法计算两个N维向量的语义相似性提供了主要的理论依据。最终,文本间的语义相似性计算就可以基于词语的语义相似性来计算。
  但是考虑到某些点(不属于同一类簇的点)之间的距离相对来说足够大,而大部分的点(同一类簇的点)则相对集中,距离非常小,相比之下可以忽略不计了,使得有细微语义差别的词变得完全等同,即距离为0,影响到计算的精度,所以需要通过大量实验分析来设置一个阈值F,提高相似性计算的精度。
  2文本相似性计算
  本文最终的目的就是要找到n×k维语义空间,该语义空间将文本中的每一个词转化成k维向量,那么文本向量最终可以由n个词的k维向量加权平均求和得到,即文本向量化。文本向量化是进行文本相似性计算的必要步骤,所以只有文本向量比较好的表达和保存了原有文本的重要信息,文本相似性才有可能取得令人满意的结果。
  任意文本经过分词(ICTCLAS汉语分词系统)后,文本中的每一个词在语义空间中都可以映射为一个k维向量,最终文本可用向量空间模型表示为:
  T=(λ1ω1+λ2ω2+λ3ω3…+λnωn)/n
  T为文本在语义空间映射的k维向量;ω为词语在语义空间映射的k维向量,即ω=(α1α2α3…αk);λ为词语在文本中的权重,本文中λ由TF-IDF得出。
  那么文本相似性最终可用余弦法求出:
  Sim(T1,T2)=T1・T2norm(T1)×norm(T2)
  3实验及结果
  本文实验部分由两部分组成:①构造语义空间;②通过实际数据对文本进行相似性计算并进行分类,依据实验结果来验证:语义空间能否在语义上提高计算文本相似性的准确度,以及构造语义空间算法的有效性。
  3.1构造语义空间
  《现代汉语词典》包含词条完整而全面,且在词语解释方面具有较高的权威性和普遍性。本文实验选取中文文本数据集《现代汉语词典》,从中摘取8 000个词条进行分词、去停用词处理,最后得到8 000×10 624的0-1二值矩阵。矩阵中1表示该词条包含该词语,否则0表示不包含该词语,该0-1二值矩阵表示词与词之间的潜在语义关系矩阵。
  对该矩阵进行LSA处理获得词与词之间最主要的语义上的潜在关系,消除冗余的的特征,然后再用谱聚类算法进行聚类降维后,最终可得到8 000×1 800的语义空间。该语义空间表示可以将这8 000个词语中的任一词语映射为一个由语义词构成的一个1 800的向量,这1 800个语义词是确定且未知的,即该语义空间是一个黑盒函数。因为输入和输出是确定的函数关系:y=f(x),但函数f的处理过程却是未知的。
  3.2实际语料测试
  本文选取的中文文本测试集是《文本分类语料库(复旦)测试语料》,从中选取5个类别共200篇文本进行测试(语料来源:复旦大学计算机信息与技术系国际数据库中心自然语言处理小组)。
  
  图1实验结果是以文本23为参照文本与其它200篇文本(包含文本23)进行相似度计算的柱状图,其中Y轴表示相似性度量百分比(单位:%),X轴表示文本序号。图1显示文本23与1-40篇文本的相似度在25%左右,而与其它文本相似度趋于8%左右。该实验说明:同一类别文本中相似性比较结果高于不同类文本比较结果,基本符合文本实际所属类别,表明本文算法的有效性
  图2则是从各类文本中随机抽取2篇文本作为参照文本进行相似度比较,实验结果说明:通过10组随机实验验证本文算法性能比较稳定。
  图1和图2的实验结果定量分析了文本相似性的程度,为了说明实验结果的准确性,将在下文通过计算文本分类的回归率来进行验证。
  表1则是通过采用召回率σ来评价文本分类结果的好坏。因为文本所属的类别已知,σ表示的是算法在已知类别文本中实际分类的的准确率,即指标σ越大说明分类效果越好,其定义为:
  σk=αα+β=∑ni=1αi∑ni=1(αi+βi)
  其中k为类别数,n表示类别中的文本数,αi表示算法判定属于第i类且实际属于第i类的文本数,βi表示算法判定不属于第i类而实际属于第i类的文本数。
  本文实验从各领域文本中随机选取两份文本作为参照文本。与参照文本相似性>25%,则认为属于同一领域,反之,两份文本相似性<25%,则认为不属于同一领域。
  表1文本分类召回率
  文化教育经济政治法律
  α2922323520
  σ0.7250.5500.8000.8750.500
  实验结果表明文化类、经济类、政治类文本分类结果较好,而教育类和法律类文本分类较差,因为教育类与文化类和经济类概念渗透性和相关性较大,区分度不明显,所以教育类文本分类召回率偏低。同样,法律类与政治类也存在很强的概念渗透性和相关性,这也导致了法律类的文本分类召回率偏低。
  4结束语
   本文使用了LSA和SVD达到了实验的目的,且实际数据显示取得较好结果:①通过LSA技术和余弦相似度显著提高了相似度矩阵所反映的语义相似性;②结合LSA的谱聚类算法在构造语义空间上取得了很好的实验结果;③实验结果也表明该方法在语义上能有效地反映出文本相似度量,文本分类回归率也达到了较好的结果,且表现稳定。
  
  参考文献:
  \[1\]G.SALTON,A.WANG AND C.S.YANG. A vector space model for automatic indexing[J].Information Retrieval and Language Processing,1975.
  [2]DEERWESTER S, DUMAIS S T, FURNAS G W, et al. Indexing by latent semantic analysis[J]. Journal of the American Society For Information Science, 1990(41).
  [3]周志华,王钰.机器学习及其应用[M].北京:清华大学出版社,2007.
  [4]暴自强.结合 LSA 的文本谱聚类算法的研究[D].重庆:重庆大学,2010.
  [5]ULRIKE VON LUXBURG. A tutorial on spectral clustering[J].Max Planck Institute for Biological Cybernetics Statistics and Computing, 2007(4).
  [6]HAN J, KAMBER M.数据挖掘概念与技术[M].范明,孟小峰,等,译.北京.机械工业出版社
  
  (责任编辑:余晓)

推荐访问:相似性 文本 研究 谱聚类