语音识别方法【一种基于MFCC和SVM的语音识别方法】

  摘 要:提出了以Mel频率倒谱系数(Mel Frequency Cepstrum Coefficients,MFCC)作为特征提取技术,以支持向量机(Support Vector Machine,SVM)作为分类器的语音识别方法,实验结果表明,对于容易混淆的英文单词,该方法语音识别准确率较高。�
  关键词:Mel频率倒谱系数;支持向量机;语音识别;特征提取�
  中图分类号:TP399 文献标识码:A 文章编号:1672-7800(2012)003-0153-02��
  �
  作者简介:李玲俐(1977-),女,湖北洪湖人,硕士,广东司法警官职业学院讲师,研究方向为数据挖掘与模式识别。
  
  
  0 引言�
  语音识别是一种模式识别,就是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的技术。语音识别技术主要包括特征提取技术、模式匹配准则及模型训练技术3个方面。目前一些语音识别系统的适应性比较差,主要体现在对环境依赖性强,因此要提高系统鲁棒性和自适应能力。支持向量机(Support Vector Machine,SVM)是基于统计学理论发展起来的新的机器学习方法,采用将数据从低维空间映射到高维空间的思想,由支持向量来决定最优分割线,SVM先自动找出对分类有较好区分能力的支持矢量,然后构造出分类器来最大化类与类的间隔,因此有较好的适应能力和较高的分准率。�
  本文在现有语音识别技术基础上,提出一种MFCC(Mel Frequency Cepstrum Coefficients,Mel频率倒谱系数)+SVM的语音识别方法,实现对几种英文单词的分类。实验结果表明,该识别方法具有较高的准确率。�
  1 语音识别系统�
  语音识别过程一般分为3个阶段:信号处理、特征提取和模式识别,如图1所示。
  
  1.1 MFCC特征提取�
  特征提取是数据挖掘和模式识别中的一个重要步骤。其目的是从原有特征数据中提取出与特定任务,如分类、压缩、识别等密切相关的新特征(或特征子集),以有效地完成特定任务或进一步减少计算量。�
  研究者通常使用经典的特征提取技术,如MFCC、连续小波变换(Continuous Wavelet Transform,CWT)和短时傅里叶变换(Short-Time Fourier Transform,STFT)来提取语音片段的特征。Mel频率是基于人耳听觉特性提出来的,它与Hz频率成非线性对应关系。MFCC则是利用它们之间的这种关系,计算得到的Hz频谱特征。由于MFCC具有良好的识别性能和抗噪能力,在语音识别中得到广泛的使用,而且研究人员仍在对MFCC的各种参数进行实验和调整,并通过同其它模型的协同工作来找出提高识别率的方法。�
  MFCC参数的提取包括以下几个步骤(如图2所示):�
  
  
  (1)预加重。通过一个一阶有限激励响应高通滤波器,使信号的频谱变得平坦,不易受到有限字长效应的影响。 �
  (2)分帧。根据语音的短时平稳特性,语音可以以帧为单位进行处理。n为每一帧语音采样序列的点数,本系统取n=256。 �
  (3)加窗。为了减小语音帧的截断效应,降低帧两端的坡度,使语音帧的两端不引起急剧变化而平滑过渡,需要让语音帧乘以一个窗函数。目前常用的窗函数是�Hamming�窗。�
  (4)对每帧序列s(n)进行预加重、分帧加窗后,然后经过离散�FFT�变换,将s(n)取模的平方得到离散功率谱S(n)。�
  (5)计算S(n)通过M个滤波器H�m(n)后所得的功率谱,即计算S(n)和H�m(n)在各离散频率点上的乘积之和,得到M个参数P�m,m=0,1,…,M-1。�
  (6)计算P�m的自然对数,得到L�m,m=0,1,…,M-1。�
  (7)对L�0,L�1,…,L��m-1�计算其离散余弦变换,得到D�m,m=0,1,…,M-1。�
  (8)舍去代表直流成分的L�0,L�1,…,L��m-1�,取L�0,L�1,…,L��m-1�作为�MFCC�参数。�
  1.2 SVM分类器设计�
  在线性可分的情况下,�SVM�构造一个超平面H,设线性可分样本集为(x�i,y�i),i=1,2,…,n,U∈{+1,-1} 是类别标号。所有在这个超平面上的点x满足:
  ��w・x+b=0��
   其中:w为权重向量,b为分类阈值。根据结构风险最小化原则,在保证分类间隔最大,即寻找最优分类面的条件下,w和b必须满足如下条件:
  ��y�i[(w・x�i)+b]≥1��
   x�i为训练样本,在此约束下,求解最优超平面问题可以转换为求函数:�Φ(w)=12‖w‖�2=12(w・w)�的最小值。最优问题的解由�Lagrange�函数的极值点给出:
  ��L(w,b,α)=12‖w‖�2-�∑li=1α�i{y�i[(w・x�i)+b]-1}��
   α�i为�Lagrange�乘子,对w和b求偏导,并令所求式为零,求得:
  ��∑li=1y�iα�i=0��
   对于线性不可分的情况,可以通过非线性变换转化为某个高维空间中的线性问题。即将�SVM�中的内积x・y由核函数K(x,y)所取代。常用的核函数有:�
  (1)多项式核函数K(x,x�i)=[(x・x�i)+b]�d,其中d是多项式的阶数。�
  (2)�Gauss�核函数K(x,x�i)=�exp�-‖x-x�i‖σ�2 ,其中σ是�Gauss�函数的宽度。�
  (3)�Sigmoid�核函数K(x,x�i)=�tanh�[v(x,x�i)+c],其中v和c是尺度和偏置参数。�
  由经验观察可知,�Gauss核函数比其它两种核函数优越,所以本文选用Gauss�核函数,对于给定的核函数。最优分类函数为:
  ��y�i=�sgn�∑x�i∈w�iy�ik(x�i,x�j)+��
  2 实验设置及结果分析�
  本实验使用的语音信号采用Windows自带的录音软件录制,录音背景为普通环境,录制的语音以Wave 格式保存,采样频率为8KHz,16bit量化,单声道。对10(5男5女)个人进行录音,语音样本分别为6个单词,并且每个人每个词发音9遍,得到540个采样数据。随机抽取2/3的采样作为训练样本集,1/3作为测试样本集。�
  由上述语音识别系统得到每一种语音的正确分类的样本数,并采用
  ��识别准确率=正确识别的样本数样本总数×100�%���
   得到表1所示的识别结果,包括每种待识别单词以及总计得到的正确识别数和识别准确率。�
  
  3 结束语�
  本文提出了一种采用MFCC特征提取参数,以SVM作为分类器识别几种容易混淆的单词的方法,结果表明,该语音识别方法具有结构简单、高识别精度的特点,可以在语音识别系统中得到实际应用。当然,今后的工作中还要考虑将SVM理论和其它分类方法结合起来,如SVM和隐马尔可夫模型(HMM)相结合、将多类SVM等综合方法应用于更多的语音识别领域。
  参考文献:�
  \[1\] VAPNIK V. The nature of statistical learning theory\[M\].New York:Springer-Verlag,1995.�
  \[2\] 陈刚,陈莘萌.一种考虑类别信息的音频特征提取方法\[J\].计算机研究与发展,2006(11).�
  \[3\] 俸云,景新幸,叶懋.MFCC 特征改进算法在语音识别中的应用\[J\].计算机工程与科学,2009(12).�
  \[4\] 陈婷敖,茂尧 陈贺璋.基于Mel 系数和SVM 的语音识别技术研究\[J\].广西职业技术学院学报,2010(5).�
  (责任编辑:杜能钢)

推荐访问:语音识别 方法 MFCC SVM