一种新的艺术嗓音客观评价方法

李延华，曹辉，张若雨，陈文韬，曹娜，范翔

（陕西师范大学物理学与信息技术学院，陕西西安 710119）

艺术嗓音是指经过长期系统、专业的声乐训练且具有一定音乐和嗓音天赋的特定人群，在特定场合中用特殊方式表现出来的嗓音[1]。艺术嗓音可以用来衡量歌手唱歌水平的高低，在歌手的选拔和培养过程中，如何客观准确地评价艺术嗓音是我们面临最直接的问题，解决此问题对艺术院校的招生、教学和考核环节也有重大意义。

目前，国内外艺术嗓音的评价方法主要为主观听感知评价，该方法存在主观性强、耗时、费力且准确率低等缺陷。因此科研人员对艺术嗓音的研究逐渐转向客观评价，王修信[2]、罗兰娥[3]等人使用平均能量、平均音域误差、共振峰、共振峰微扰等多种声学参数以及BP 网络进行评价。吴媛[4]提取第一共振峰、第三共振峰、基频三个声学参数，用机器学习的方法对样本做出评价，与评委老师评价相比一致性达90%。上述方法均存在以下两点不足：①供评测的样本只有一首歌曲，较单一，不具有普遍性；
②准确率较低。

声谱图是一种二维图像，可以直接体现语音频谱随时间的变化[5]。横轴对应时间，纵轴对应频率，每个坐标点的值对应某一频率分量在某一时刻的能量。因此，语音由于时间变化而产生的不同谐振频谱可以在声谱图中呈现出不同的视觉图像纹理[6]。近几年，声谱图在众多科研项目中都有应用，如文献[7]提出利用声谱图来进行江西方言的分区研究，文献[8]采用声谱图进行声乐分类研究等。相比于传统机器学习，卷积神经网络（Convolutional Neural Network,CNN）的网络结构更复杂，隐藏层更多，因此学习特征和表达特征的能力更强，被较好地运用于处理大规模分类识别任务。

鉴于卷积神经网络自动学习特征的能力和适用二维图像数据的特点，该文将嗓音样本转化为梅尔声谱图，将梅尔声谱图与深度学习相结合用于艺术嗓音评价，使嗓音评价问题转化为图像分类问题，为艺术嗓音客观评价提供了一种新思路和新方法，经实验证明该方法的准确率优于传统方法。

可采用时域和频域两种不同方法对一段语音进行分析，但若单独分析的话，这两种方法均有局限性。大量的理论与实验研究表明，语音信号的发出过程是复杂的非线性过程，可认为由具有固有非线性动力学特性的系统产生。语音信号是时变信号，因此其频谱会随时间发生变化，而声谱图将语音信号随时间变化的关系很好地表现出来，同时也获得了语音信号的频率变化。根据语音信号的短时平稳性，对其做短时傅里叶变换，展开得到的二维信号就是声谱图。

声谱图将语音信号的时、频域信息在一张图上综合表现出来，对其进行研究，提取的图像特征克服了传统声学单一的缺陷。通过对时、频域的联合分析，可以得到更多传统声学特征难以表征的语音信息，在语音识别领域也取得了很多有意义的成果[9-12]。

鉴于声谱图的广泛应用和卷积神经网络在图像识别上的良好表现[13]，该文拟将深度学习的方法用于嗓音评价，提高了分类准确率。

艺术嗓音客观评价的传统方法与该文所提方法如图1 所示。

图1 艺术嗓音客观评价传统方法与该文所提方法比较

声波是一维的，无法直接看出频率变化的规律，而声谱图解决了这个问题。再通过梅尔标度滤波器组将其转换为梅尔声谱图，从而更好地将音频信号的时域信息、频域信息与能量信息表现出来。

在获取艺术嗓音的音频样本之后，对样本进行预处理，主要包括预加重、加窗、分帧等步骤[14]。一般通过传递函数为一阶的FIR 高通数字滤波器来实现预加重，其传递函数如式（1）所示：

式中，μ为预加重系数，通常取0.98[15]。

分帧可以获得音频文件的短时平稳信号。相比于矩形窗和海宁窗，汉明窗的频谱泄露最小[16]，加窗处理就是让每一帧信号都乘以汉明窗函数。加窗处理过程如式（2）所示：

式中，S(n)表示原始信号，ω(n)表示所用的加窗函数。

汉明窗表达式如式（3）所示：

式中，wlen为帧长。

图2 和图3 随机选取了样本库中评价较差和评价较好的嗓音样本的波形图和梅尔声谱图。

图2 评价结果较差的嗓音波形图和梅尔声谱图

图3 评价结果较好的嗓音波形图和梅尔声谱图

通过观察梅尔声谱图可以发现，不同评价结果的嗓音样本所对应的声谱图图像风格迥异。借助于机器视觉领域的研究发现，对梅尔声谱图进行识别，从而将嗓音评价问题转换为对图像的分类。

CNN 是一种带有卷积结构的深度神经网络[17]。卷积结构在有效减少网络参数的同时，又缓解了模型的过拟合问题[18]。

考虑到梅尔声谱图含有时域、频域、能量等多种信息的特性，在经过多次实验与训练后，对构建的卷积神经网络进行了参数优化，并加入了数据增强模块和Dropout 层，使得该网络的损失值更小，训练时间更短，在保证感受野的同时可有效提取细粒度特征。该文所构造的CNN 模型如图4 所示。

图4 CNN网络模型参数

1）卷积层

卷积层用来识别图像里的空间模式，如线条和物体局部。卷积运算可以提取并增强图像特征的同时降低噪声。该文构造的CNN 网络含三个卷积层，分别包含32、32、64 个内核，卷积核大小均为3×3。为了解决梯度消失问题，在输入层和隐藏层使用Relu 激活函数。

2）池化层

池化层进行降采样，减少参数量的同时可以获得平移和形变的鲁棒性。相比于平均池化[19]，最大值池化可以减少卷积层参数误差造成估计均值的偏移，更多地保留纹理信息，故这里采用最大值池化。为将特征图下采样两倍，该架构选择了大小均为2×2的池化层，设置步幅为2。

3）全连接层

为减少特征信息的丢失,使用全连接层进一步加强特征。该实验中含有两个全连接层，它们的输出个数分别为64 和1，其中，1 为输出的类别个数。

相比于一般卷积神经网络，该文添加了数据增强模块，以此来增加数据特征的多样性。采用几何变换、颜色变换等随机变换生成可信图像，进行样本扩增，这样可在训练模型的过程中获取更深层次的特征，从而具有更强的泛化能力[20]。在Keras 中，通过对ImageDataGenerator 读取的图像执行多次随机变换来实现数据增强。

同时为了进一步降低过拟合，在分类器之前添加一个Dropout 层，主要用于权重衰减，解决了分类器带来的参数冗余的数值问题。

4.1 实验方法

目前，国内外并没有开源的标准嗓音样本库用于研究，故在陕西师范大学音乐学院进行了建库工作。该实验所用嗓音样本由陕西师范大学音乐学院声乐专业研究生和本科生41 名同学录制，其中男生15 名，女生26 名，近3 个月均无喉病及上呼吸道感染。嗓音样本在陕西师范大学音乐学院录音室录制，录音环境噪声小于45 dB。录制前对歌唱者进行培训，演唱时口距麦克风10 cm，录音前先进行发声练习，同时有专业钢琴演奏者进行伴奏，歌唱者重复多次演唱/a/、/i/、/o/音，直至达到稳定的演唱状态，之后依次演唱《花非花》、《康定情歌》。计算机采样频率为48 kHz，16 bit量化，单声道方式，数据存储为wav格式。在歌曲录制完毕之后，用Audacity 软件逐一进行剪切，最终每个音频时长为25 s。为验证该文所提客观评价方法的实用性，由五名音乐学院资深声乐教师及声乐专业研究生凭借丰富的声乐知识和经验，对样本歌声做出评价，嗓音样本最终分为较好和较差两类。

利用librosa 工具包，对语音样本经过分帧、加窗和短时离散傅里叶变换处理得到声谱图，再通过梅尔标度滤波器组变换为梅尔声谱图。将得到的梅尔声谱图按照评价结果分为较好和较差两类，同时按照8∶2划分为训练集和测试集。最后输入搭建的CNN神经网络中，设置迭代次数为500，在训练集上训练模型，调节参数，然后在测试集上评价模型结果。

4.2 结果分析

损失函数曲线如图5 所示，从图5 可以看出，损失函数的值随迭代次数的增加逐渐减小，识别准确率如图6 所示，从图6 可以看出，准确率随迭代次数的增加逐渐提高，经过多次实验验证，最终准确率平均可达95.5%。

图5 测试集损失函数曲线

图6 测试集识别准确率曲线

该文也利用传统的评价方法，对该数据库的音频样本提取基频、第一、第三共振峰，分别输入BP 神经网络和SVM 支持向量机[21]，得到分类结果，与利用卷积神经网络建立的艺术嗓音客观评价模型评价结果对比。单一歌曲《花非花》、《康定情歌》和两首歌全体评价准确率如表1 所示。

表1 客观评价分类准确率

从表1 可以看出，该文所提出的艺术嗓音客观评价方法在单一歌曲和混合歌曲的评价中均具有良好的表现，优于传统方法，为客观高效地评估艺术嗓音提供了新视角。

该文针对艺术嗓音客观评价研究，提出了一种基于卷积神经网络的评价方法。该方法将音频信号转化为梅尔声谱图，构建了多层CNN 神经网络的深度学习模型并进行了参数优化，在此基础上进行了嗓音分类研究，对艺术嗓音分类的准确率达到了95.5%，相比于BP 神经网络和SVM 评价方法，分别提高了8.9%和16.9%。结果表明，以梅尔声谱图的图像特征作为输入的深度学习模型在艺术嗓音客观评价任务上具有良好的表现，为客观地评价艺术嗓音质量提供了一个新的思路，有助于科学准确地选拔和培养艺术嗓音人才。受实验条件的限制，训练数据不够充分，未来将继续扩充艺术嗓音样本的数量，探索更加客观、准确的评价方法。

猜你喜欢梅尔嗓音卷积基于梅尔频谱分离和LSCNet的声学场景分类方法哈尔滨工业大学学报(2022年5期)2022-04-19基于3D-Winograd的快速卷积算法设计及FPGA实现北京航空航天大学学报(2021年9期)2021-11-02卷积神经网络的分析与设计电子制作(2019年13期)2020-01-14从滤波器理解卷积电子制作(2019年11期)2019-07-04梅尔维尔鲸红领巾·探索(2019年2期)2019-04-19“熊”视眈眈畅谈(2018年17期)2018-10-28基于傅里叶域卷积表示的目标跟踪算法北京航空航天大学学报(2018年1期)2018-04-20黄绮珊：我的嗓音为什么是这样?海峡姐妹(2017年12期)2018-01-31“世界嗓音日”——中央音乐学院嗓音研究中心在行动歌剧(2017年6期)2017-07-062016年第七届友谊嗓音疾病诊治高级研讨班暨首期北京友谊医院嗓音检测和嗓音训练学习班通知听力学及言语疾病杂志(2016年4期)2016-02-10

推荐访问:嗓音客观评价