找回密码
 注册
搜索
热搜: 超星 读书 找书
查看: 3418|回复: 7

[【理工类原创】] 语音信号、人耳感知和噪声信号的特性

[复制链接]
发表于 2007-6-4 19:10:30 | 显示全部楼层 |阅读模式
语音信号

    语音信号是时变的、非平稳的随机信号。语音的生成与发音器官的运动过程密切相关,而人类发音系统的生理结构的变化速度是有一定限度的,即在一段时间内(10-30ms),人的声带和声道形状是相对稳定的,可以认为其特征是不变的,因而语音的短时谱具有相对稳定性。在语音分析中,可利用短时谱的这种平稳特性作相应的分析。

    语音有许多分类方式,根据进入声道的声源的不同可将语音分为清音和浊音两大类。浊音在时域上呈现出明显的周期性,是由周期性声门波激励产生的,在频域上有共振峰结构,而且能量大部分集中在较低频段内。而清音段没有明显的时域和频域特征,类似于白噪声。在语音增强研究中,可利用浊音的周期性特征,采用梳状滤波器提取语音分量或者抑制非语音信号,而清音则难以与宽带噪声区分。

    语音信号可以用统计分析特性来描述。由于语音是非平稳的随机过程,所以长时间的时域统计特性在语音增强的研究中意义不大。语音的短时谱幅度的统计特性是时变的,只有当分析帧长趋于无穷大时,根据中心极限定理,才能近似认为其具有高斯分布。实际应用时只能将其看作是在有限帧长下的近似描述。在宽带噪声污染的语音增强中,可将这种假设作为分析的前提。

人耳感知特性对于语音增强的影响

    语音感知对语音增强研究有重要作用。这是因为语音增强效果的最终度量是人的主观感受。人耳对背景噪声有着惊人的抑制功能,了解其中机理将大大有助于语音增强技术的发展。人的听觉系统具有复杂的功能。实践证明,语音虽然客观存在,但是人的主观感觉(听觉)和客观实际(语音波形)并不完全一致。任何复杂的声音对于人耳的感觉,都可以用响度、音调和音色三个特性来描述。其中响度是人耳对声音轻或重的主观反应,它取决于声音的幅度,主要是声压的函数,与频率和波形也有关。音调是人耳对声音频率的感受。音调与声音的频率有关,频率高的声音听起来感觉它的音调“高”,而频率低的声音听起来感觉它的音调“低”。但音调与声音频率并不成正比,它还与声音的强度及波形有关。音色是由于波形和泛音不同而造成的声音属性,人据此在主观感觉上区别具有相同响度和音调的两个声音。音色是由混入基音的泛音所决定的,每个基音有其固有的频率和不同音强的泛音,因而每个声音具有各自不同的音色。
    语音感知问题涉及到生理学、心理学、声学和语音学等诸多领域,这是一个复杂的问题,有待进一步研究。尽管如此,目前己有一些有用的结论可以应用于语音增强:
(1)、人耳对语音的感知是通过语音信号中各频谱分量幅度获取的,对各分量的相位则不敏感;
(2)、人耳对频谱分量强度的感受是频率与能量谱的二元函数,响度与频谱幅度的对数成正比;
(3)、人耳对频率高低的感受近似与该频率的对数值成正比;
(4)、人耳有掩蔽效应,即会产生一个声音由于另一个声音的出现而导致该声音能被感知的阈值提高的  现象。掩蔽的程度是声音强度与频率的二元函数。对频率临近分量的掩蔽要比频差大的分量有效得多;
(5)、短时谱中的共振峰对语音的感知十分重要,特别是第二共振峰比第一共振峰更为重要,因此对语音信号进行一定程度的高通滤波不会对可懂度造成影响;
(6)、人耳在两人以上的讲话环境中有能力分辨出需要聆听的声音。这种分辨能力来源于人的双耳输入效应,称为“鸡尾酒会效应”。

噪声特性
    噪声来源于实际的应用环境,因而其特性变化无穷。噪声可以是加性的,也可以是非加性的。考虑到加性噪声更普遍且易于分析问题,并且对于有些非加性噪声,可以通过变换转变为加性噪声,例如,乘法性噪声或卷积性噪声可以通过同态变换而成为加性噪声。因而,在这里我们仅讨论加性噪声。加性噪声通常分为周期性噪声、冲激噪声、宽带噪声和语音干扰噪声等。非加性噪声有残响及传送网络的电路噪声等。
(1)、周期性噪声
周期性噪声的特点是有许多离散的线谱,它往往来源于发动机等周期运转的机械。如50或60Hz交流电会引起周期性噪声。周期性噪声引起的问题通常可以通过陷波器方法将其去掉。
(2)、冲激噪声
冲激噪声表现为时域波形中突然出现的窄脉冲,它通常是放电的结果。消除这种噪声,可以根据带噪语音信号幅度的平均值确定阈值。当信号幅度超过这一阈值时,判为冲激噪声,然后进行消除。
(3)、宽带噪声
宽带噪声的来源很多,热噪声、气流(如风、呼吸等)噪声及各种随机噪声源,量化噪声也可视为宽带噪声。由于宽带噪声与语音信号在时域和频域上完全重叠,因而消除它最为困难。这种噪声只有在语音间歇期才单独存在。对于平稳的宽带噪声,通常可以认为是白色高斯噪声。不具有白色频谱的噪声,可以先进行白化处理。对于非平稳的宽带噪声,情况就更为复杂一些。
(4)、同声道语音干扰
干扰语音信号和待传语音信号同时在一个信道中传输所造成的语音干扰称之同声道语音干扰。区别干扰噪声和有用语音的基本方法是利用它们的基音差别。考虑到一般情况下两种语音的基音不同也不成整数倍,这样可以用梳状滤波器提取基音的各次谐波,再恢复出有用信号。
(5)、背景噪声对发音的影响
噪声破坏了语音信号原有的声学特征和模型参数,模糊了不同语音之间的差别,使语音质量下降,可懂度减低。强噪声会使人产生听觉疲劳。不仅如此,强噪声环境还对讲话人产生影响,使讲话人改变在安静环境或低噪声环境中的发音方式,从而改变了语音的特征参数,这称为Lombard效应。

参考文献:
杨行峻、迟惠生等,“语音信号数字处理”, 北京, 电子工业出版社, 1995年8月
赵力, “语音信号处理”,机械工业出版社,2003年3月
回复

使用道具 举报

发表于 2007-6-4 19:34:29 | 显示全部楼层
两个参考文献就整一篇综述?
回复

使用道具 举报

 楼主| 发表于 2007-6-4 20:03:06 | 显示全部楼层
这并不是什么新的知识了,只是做一个相关内容的梳理。
两本书上面都有更加详细的进一步介绍。
付上书名,只是觉得想看的人,会进一步去看罢了。

我很奇怪版主为什么会觉得奇怪呢? :-)
要说到综述,也远非这么几个字吧。而且也不是这样的结构吧。
回复

使用道具 举报

发表于 2007-6-4 20:08:33 | 显示全部楼层
我觉得楼主的帖子放到读书参考比较合适。
期待楼主更多的介绍。
回复

使用道具 举报

 楼主| 发表于 2007-6-4 20:21:42 | 显示全部楼层
之所以没有放到读书参考,主要是考虑到书里面的内容过于全面,几乎涉及语音信号的方方面面。
而我仅仅是抽取其中的一小块内容,做一些揉合罢了。
这点工作量实在不敢作为对全书的一个阅读体会 :-)
回复

使用道具 举报

发表于 2007-6-4 20:22:02 | 显示全部楼层
引用第2楼processor于2007-06-04 20:03发表的 :
这并不是什么新的知识了,只是做一个相关内容的梳理。
两本书上面都有更加详细的进一步介绍。
付上书名,只是觉得想看的人,会进一步去看罢了。

我很奇怪版主为什么会觉得奇怪呢? :-)
.......

我倒是奇怪你奇怪我为什么奇怪了?

参考答案:版主是菜鸟。
回复

使用道具 举报

发表于 2007-6-4 20:43:04 | 显示全部楼层
引用第4楼processor于2007-06-04 20:21发表的 :
之所以没有放到读书参考,主要是考虑到书里面的内容过于全面,几乎涉及语音信号的方方面面。
而我仅仅是抽取其中的一小块内容,做一些揉合罢了。
这点工作量实在不敢作为对全书的一个阅读体会 :-)


抽取其中的一小块内容,做一些揉合,正符合读书参考版的精神啊。
如果是全书内容,那不就变成发书版了。
回复

使用道具 举报

 楼主| 发表于 2007-6-4 20:49:23 | 显示全部楼层
引用第5楼醉乡常客于2007-06-04 20:22发表的 :


我倒是奇怪你奇怪我为什么奇怪了?

参考答案:版主是菜鸟。


哪里哪里,版主才是牛人呢:-)

我那句话是调侃的意思,呵呵 :-P
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 注册

本版积分规则

Archiver|手机版|小黑屋|网上读书园地

GMT+8, 2024-11-15 04:24 , Processed in 0.112207 second(s), 18 queries .

Powered by Discuz! X3.5

© 2001-2024 Discuz! Team.

快速回复 返回顶部 返回列表