语音的质量评价方法-网上读书园地

processor 发表于 2007-6-4 21:06:25

语音的质量评价方法

语音质量包括两方面内容：可懂度和自然度。前者对应语音的辨识水平。而后者则是是衡量语音中字、单词和句的自然流畅程度。总体上看可以将语音质量评价可分为两大类:主观评价和客观评价。

1、主观评价

主观评价以人为主体来评价语音的质量。主观评价方法的优点是符合人类听话时对语音质量的感觉，目前得到了广泛的应用。常用的方法有平均意见得分(Mean Opinion Score，MOS得分)，诊断韵字测试(Diagnostic Rhyme Test，DRT得分)，诊断满意度测量(Diagnostic Acceptability Measure,DAM得分)等。语音质量的主观评价要求大量的人、大量次数的测听实验，以便能得到普遍接受的结果。但是由于主观评价耗费大、经历时间长，因此语音质量的主观评价不容易实现。

为了克服主观评价缺点，人们寻求一种能够方便，快捷地给出语音质量评价的客观评价方法。不过值得注意的是，研究语音客观评价的目的不是要用客观评价来完全替代主观评价，而是使客观评价成为一种既方便快捷并能够准确预测出主观评价价值的语音质量评价手段。尽管客观评价具有省时省力等优点，但它还不能反映人对语音质量的全部感觉，而且当前的大多客观评价方法都是以语音信号的时域、频域及变换域等特征参量作为评价依据，没有涉及到语义、语法、语调等影响语音质量主观评价的重要因素。

MOS评分：
MOS得分方法是由CCITT推荐的主观评价方法，现已广泛作为不同系统之间的比较标准。它采用五级评分制。
MOS评分五级标准：
MOS判分质量级别失真级别
5       优不觉察
4       良刚有觉察
3       一般    有觉察且稍觉可厌
2       差明显觉察，可厌仍可忍受
1       极差    不可忍受
MOS评分中质量优表示重建语音和原始语音只有很少的细节差异，且若不进行对照听比就觉察不出这种差异；质量良表示重建语音的畸变或失真不明显，不注意听感觉不到；质量一般表示重建语音有比较明显可感知的畸变成失真，但语音自然度和清晰度仍很好，且听起来没有疲劳感；质量差表示重建语音有较强的畸变或失真，听起来已有疲劳感；质量极差表示重建语音的质量极差，听觉无法忍受。

在数字语音通信中，通常认为MOS分为4.0 4.5为高质量数字化语音，达到长途电话网的质量要求，接近于透明信道编码，也常称之为网络质量。MOS分为3.5分左右称为通信质量，这时能感到重建话音质量有所下降，但不妨碍正常通话，可以满足多数语音通信系统使用要求。MOS分3.0以下常称为合成语音质量，系指一些声码器合成的语音所能达到的质量。它虽然有较高的可懂度，但自然度较差。

MOS得分法的优点是：
一、由于编码系统的质量是按数值大小等级排列，所以不同失真类型的编码系统就可以相互比较；
二、评测者只需实现进行简单训练，就可直接参与评测，因而容易完成。

其缺点是：它把不同种类的失真混为一谈，没有指出失真的原因，不利于算法的改进。另外，测试条件的选择及其他一些因素会影响MOS方法的结果。

诊断韵字测试（Diagnostic Rhyme Test）
判断韵字测试是反映语音清晰度或可懂度的一种测试方法，它主要用于低速率语音编码的质量测试，因为这时可懂度已成为主要问题。这种测试方法使用若干对（通常是96对）同韵母进行测试，例如中文的“为”和“费”，英文的’fast’和’vast’等。让受试者每次听到一对韵字中的某个音，然后让他判断所听到的音是哪一个字，全体实验者判断正确的百分比就是DRT得分，通常认为DRT为95%以上时清晰度为优，85%-94%为良，75%-84%为中，65%-75%为差而65%以下为不可接受。在实际通话中，清晰度为50%时，整句的可懂度大约为80%，这是因为整句中具有较高的冗余度，即使个别字听不清楚，人们也能理解整句话的意思。当清晰度为90%时，整句话的可懂度已接近100%，所以对于低速率语音编码，一般要求其清晰度能达到90%或以上。

诊断满意度测量(Diagnostic Acceptability Measure)
DAM是对语音质量的综全评估，它是在多种条件下对话音质量的接受程度的一种度量。这种评分体系相当全面，也相当复杂，这里就不再赘述。

2、客观评价

语音质量客观评价方法采用某个特定的参数去表征语音通过增强或编码系统后的失真程度，并以此来评估处理系统的性能优劣。

信噪比(Signal-to-Noise Ratio，SNR)
SNR一直是衡量针对宽带噪声失真的语音增强算的常规方法。但要计算信噪比必需知道纯净语音信号，但在实际应用中这是不可能的。因此，SNR主要用于纯净语音信号和噪声信号都是己知的算法的仿真中。
信噪比计算整个时间轴上的语音信号与噪声信号的平均功率之比。由于语音信号是一种缓慢变化的短时平稳信号，因而在不同时间段上的信噪比也应不一样。为了改善上面的问题，可以采用分段信噪比。

坂仓距离测度(Itakura-Saito Distortion, ISD)
坂仓距离测度是通过语音信号的线性预测分析来实现的。ISD基于两组线性预测参数(分别从原纯净语音和处理过的语音的同步帧得到)之间的差异。

对数似然比测度（Log Likelihood Ratio Measure,LLR）
LLR可以看成一种坂仓距离（Itakura Distance,IS），但IS距离需要考虑模型增益。而LLR不考虑模型增益引起的幅度位移，更重视整体谱包络的相似度。

对数谱距离（log spectral distance，LSD）

PESQ(Perceptual Evaluation of Speech Quality)
2001年2月，ITU-T推出了P.862 标准《窄带电话网络端到端语音质量和话音编解码器质量的客观评价方法》,推荐使用语音质量感知评价PESQ算法，该建议是基于输入-输出方式的典型算法，效果良好。
PESQ算法需要带噪的衰减信号和一个原始的参考信号。开始时将两个待比较的语音信号经过电平调整、输入滤波器滤波、时间对准和补偿、听觉变换之后, 分别提取两路信号的参数, 综合其时频特性, 得到PESQ分数, 最终将这个分数映射到主观平均意见分(MOS)。PESQ得分范围在-0.5 -- 4.5之间。得分越高表示语音质量越好。

参考文献：
张雄伟，陈亮，杨吉斌， “现代语音处理技术及应用”，机械工业出版社2003年8月
John H.L.Hansen, Bryan L.Pellom. “An effective quality evaluation protocol for speech enhancement algorithms”.

页: [1]

网上读书园地's Archiver

语音的质量评价方法