连续音频流分类的国内外研究现状

processor · 发表于 2007-6-4 15:40:05

连续音频流分类技术主要包括两个方面的内容：（1）将连续音频流分割成类别单一的子段，即音频分段；（2）对已经切分的音频片段进行分类。自20世纪90年代中期以来，研究者们纷纷从上述两个方面出发，对连续音频流分类作了深入细致的研究。

  早期的一些连续音频流分类方法通常按固定长度的音频片段将连续音频流进行切分，其研究的重点是如何从音频片段中提取反映各音频类自身特点的特征参数，消除音频内容信息对分类的影响。这些音频流分类系统，多以时域和频域的短时参数在较长时间窗内的均值或一些简单的函数关系，作为系统的特征参数。如：1996年，Saunders提出在2.4s时间窗内统计过零率和短时能量落在给定阈值范围内的帧数，以此来分辨广播中的语音和音乐，平均识别率可以达到98%；1997年，Schierer测试了低能量帧比、滚降点频率和谱通量等13种时、频域特征，相比于文献（J. Saunders, “Real-time Discrimination of Broadcast Speech/Music,” Proc. ICASSP96, Vol. II, pp. 993-996, 1996）误识率进一步下降至1.4%。语音和音乐片段在信号波形和频谱结构方面有着明显的差异，因此上述分类算法都获得了相当不错的效果。然而当分类窗长减小以及更多复杂的音频类型被考虑进来时，这些简单的特征将无法胜任；2002年，微软亚洲研究院Lie Lu和Hong-Jiang Zhang等基于子带周期性和线谱对距离等特征，以分级判决方式对语音、音乐和环境音进行分类，当分类单元为1s时上述3类声音的识别率分别为97.45%、93.04%和84.43%；随后他们把语音进一步分成纯语音和带背景语音，同时加入8阶倒谱参数均值和方差，也获得了不错的效果；Tong Zhang等考虑了带音乐背景的语音、歌声和带音乐背景的环境音之间的分类，他们提取基频和共振峰轨迹、能量函数以及平均过零率，采用基于阈值的判决方式，平均识别率可以达到90%。

  长时窗特征参数虽然在一定程度上消除了声音内容对分类结果的影响，但它对短时特征取均值的方式会丢掉频谱分布的细节信息。而高斯混合模型（Gaussian Mixture Model, GMM）能够很好刻画多维矢量在特征空间的分布，具有很强的与文本内容无关的建模能力，是连续音频流分类技术中比较常用的分类器模型。如：Hain等（1998年）和Gauvain等（2002年）建立Mel倒谱参数的GMM模型，分别在美国国防部高级研究项目中心（Defense Advanced Research Projects Agency，DRPPA ）的广播新闻数据集（Broadcast News，BN）和美国国家标准和技术署（National Institute of Standards and Technology，NIST）评测数据集上，采用维特比搜索（Viterbi Search）方式分离语音、环境音和音乐片段，该方法对语音的识别率较高。2006年，R.Huang 和J.Hansen采用Hain的算法，并用长时频谱通量和过量率的预判结果对GMM输出概率评分进行加权，在DAPPA BN’97数据集上语音和非语音的平均测试精度相比于提高了约3.5%。

  上述基于长时窗特征参数音频分类算法，由于按定长的测试单元切分音频流，分界点位置不够精确；而基于GMM模型和维特比搜索的方法虽然能够给出精确的分界点位置，但是它需要设定各类模型间的转移惩罚系数，小尺度数据集条件下难以实现，并且对非语音的识别率不高，一般仅适用于从大语料库中提取出语音片段。2005年，台湾省成功大学Chung Hsien Wu等采用最小描述长度（Minimum Description Length，MDL）准则，对音频流进行多层二元分段，然后采用类似文献（E. Scheirer, M. Slaney, “Construction and Evaluation of a Robust Multifeature Music/Speech
Discriminator,” Proc. of ICASSP 97,vol II, pp 1331–1334, April 1997.）的分类器模型对分割后的片段进行分类，相比于测试单元固定时，平均识别率提高到88%；另外，1997年IBM沃森研究中心S.S.Chen等人采用贝叶斯信息准则（Bayesian Information Criterion，BIC）对音频流进行分段，采用自底向上（bottom-up）聚类算法将分割后的子段进行类别标注；针对BIC对短时窗分段效果不佳的缺点，2005年Bowen Zhou和John H. L. Hansen等[22]提出在短时段采用T2统计量和BIC结合的方法进行分段。

  国内，除了前面提到的微软亚洲研究院以外，国防科技大学]、哈尔滨工业大学]等近年来也逐步开展了与连续音频流分类相关的研究工作。

newchomsky · 发表于 2007-6-4 16:01:52

有没有相关算法的源码(vc++最好)阿，很想学习学习。自己直接编写是不可能拉，能力还达不到呢：）在网上看到一些，都要收费，下载不下来。向楼主学习！多多交流！

processor · 发表于 2007-6-4 19:02:04

假如从学习角度考虑的话，验证算法的有效性，完全可以采用matlab呀。还方便不少呢:-)
newchomsky兄台谦虚了，大家是互相学习呢。

我对语音和音频方面的知识比较感兴趣，所以也有一些调研的东西。
对于具体的算法，过于细化，我估计“偏门了点”。就不在版面上大篇幅的贴了，估计看的人很少很少。

我的想法是贴一点自己从国内外文献or书籍调研的东西。对有兴趣的人，应该还是有一点帮助的吧。
最起码也可以对相关方面知识体系有一个粗框架的了解。

用户名		自动登录	找回密码
密码			注册

[【理工类原创】] 连续音频流分类的国内外研究现状