语音增强研究概况
语音增强的主要目标是从带噪语音信号中提取尽可能纯净的原始语音。然而,由于干扰通常都是随机的,从带噪语音中提取完全纯净的语音几乎不可能。因此实际语音增强的目标主要有:改善语音质量,消除背景噪声,使听者乐于接受,不感到疲倦;提高语音的自然度、可懂度和舒适度,方便听者理解。到目前为止,还没有哪种语音增强系统可以同时很好的改善语音质量和可懂度这两个指标。从语音增强的研究目的和应用领域看来,最初一般是作为语音通信和识别系统中信号处理过程的预处理环节。相应的在这个阶段语音增强的研究相对于语音识别,语音编码,语音合成等领域而言是独立进行的。由于噪声特性各异,语音信号增强方法也各不相同。这个时期提出的算法主要有基于自适应滤波的噪声对消法和基于短时谱估计的频谱减法。Lim和Oppenheim在七十年代末提出了语音增强的维纳滤波方法。语音增强作为语音信息处理中的一个重要分支开始了与其他语音技术分支的融合。80年代末以来,针对加性宽带噪声提出了一系列有效的方法:
1、谐波增强法:
考虑到语音信号的浊音段具有明显的周期性,采用自适应梳状滤波器来提取语音分量,抑制噪声。谐波增强法的关键是要准确地估计出基音周期。
2、基于短时谱估计的增强算法:
语音信号是非平稳随机过程,但在10 30ms的分析帧内可以近似看成是平稳的。如果能从带噪语音的短时谱中估计出“纯净”语音的短时谱,则即可达到增强的目的。由于噪声也是随机过程,因此这种估计只能建立在统计模型基础上。由于人耳对语音相位感受不敏感,因此目前的增强算法主要针对短时谱幅度。
3、基于信号子空间的增强算法:
语音信号处理的大量实验表明,语音矢量的协方差阵有很多零特征值,这说明干净语音信号矢量的能量只分布在它对应空间的某个子集中。而语音信号处理中,噪声的方差通常都假设为已知、且严格正定。噪声矢量存在于整个带噪信号张成的空间中。因此带噪语音信号的矢量空间可以认为由一个信号加噪声的子空间和一个纯噪声子空间构成。可以利用信号子空间处理技术,消除纯噪声子空间,并对语音信号进行估计,实现语音增强。
4、基于语音生成模型的增强算法:
语音发生过程可以模型化为激励源作用于一个线性时变滤波器,根据激励源 是否具有周期性,可以分为清音和浊音两大类,线性时变滤波器即声道模型。通常认为声道模型是一个全极点模型(AR滤波器),滤波器的参数可以通过LPC分析得到。若考虑在发生某些鼻音的情况,还应该考虑鼻腔的作用,从而得到更精确的零极点模型(ARMA滤波器)。如果能够从带噪语音中准确的估计出语音的生成模型的参数,则可以通过该模型重建发生过程得到较为纯净的语音信号,起到语音增强,滤除噪声的目的。基于LPC模型,有最大后验概率估计法和Kalman滤波法。
5、基于神经网络的增强算法:
语音增强在一定意义上也是一种说话人区分问题,只不过所区分的是在背景中的噪声。因此可以利用神经网络等技术来实现语音的增强。80年代中期Tamura和Waibel等人就利用了四层的全连接BP网应用于语音增强。
6、基于HMM的增强算法:
为了更好地描述信号的非平稳性,可以采用基于状态空间的变换方法,对不同类别的语音和噪声信号建立不同的模型。目前主要有两种转换方法,一种是构造分类器,利用分类器对当前信号进行最佳匹配。另一种方法就是利用隐马尔科夫模型(HMM)。使用这种方法,HMM的各个状态可以对语音、噪声信号所有不同的区域进行充分的建模。利用HMM可以对状态转移概率进行建模,将可能为噪声的信号部分滤除就可以做到语音增强。基于HMM的方法也可以和扩展的卡尔曼滤波器联合使用。
7、基于听觉掩蔽的增强算法:
近年来许多语音增强算法都利用了听觉特性,例如模仿噪声掩蔽效应,当信号能量低于噪声能量时,令所有滤波器的输出等于噪声电平。或者将语音谱分成一些符合人耳听觉特性的子带,在每个子带中分别估计噪声特性和滤波。
8、基于多分辨率分析的语音增强算法:
将小波去噪(小波域内区分污染语音的清浊音,分别用门限进行不同的处理,然后将去噪后的小波系数反变换)等新技术引入到语音增强当中。
参考文献:
J.S.Lim, A.V.Oppenheim, “Enhancement and Bandwidth Compression of Noisy Speech,” Proc. Of the IEEE, vol. 67, pp.1586-1604,1979
J.S.Lim,A.V.Oppenheim, “Evaluation of an Adaptive Comb Filtering Method for Enhanceing Speech Degraded by White Noise Addition”, IEEE Trans. on ASSP. Aug. 1978
Y.Ephraim,”Statistical-Model-Based Speech Enhancement Systems”, Proc. IEEE,Vol. 80, No.10. pp.1526-1555. Oct. 1992
Y.Ephraim and H.L.Van.Trees, “A Signal Subspace Approach for Speech Enhancement”, IEEE Trans.on Speech and Audio Processing,Vol.3, No.4, Jul.1995.
J.S.Lim, A.V.Oppenheim, “All Pole Modeling of Degraded Speech”, IEEE Trans.on Speech and Audio Processing, Vol.26, No.3, pp197-210, 1978.
K.K.Paliwal, A.Basu, “Speech Enhancement Method Based On Kalman Filtering”, Proc. IEEE Int. Conf. Acoustic, Speech, Signal Processing, vol. 12, pp.177-180, Apr.1987
S.Tamura, M.Nakamura, “Improvements to The Noise Reduction Neural Network”, ICASSP pp.993-996, 1991.
Y.Ephraim, “On the Application of Hidden Markov Models for Enhanceing Noisy Speech”, IEEE Trans. on ASSP, Vol.37, No.1, Dec,1989.
N. Virag. “Speech enhancement based on masking properties of the auditory system”, International Conference on Acoustics, Speech and Signal Processing, volume 1, pages 796-799, 1995.
D.L.Donoho, “Denoising by soft threshold”, IEEE Trans on Information Theory, Vol.21, No.3, pp.613-627, 1995.
S.Mallat, W.L.Hwang, “Singularity detection and processing with wavelets”, IEEE Trans. on Information Theory, Vol.38, No.2, pp.617-643, 1992.
页:
[1]