连续音频流分类的研究背景 [原创首发]

processor · 发表于 2007-6-4 12:23:16

音频流媒体是信息、信号处理领域的主要媒体形式之一，随着计算机技术、网络技术和通讯技术的不断发展，信息获取方式、存储手段的不断进步和多样化，音频数据量以极高的速度增加。然而一直以来，音频数据本身仅仅是一连串非语义符号表示的不透明二进制流，缺乏对声音类型结构化组织和高层语义的描述，给音频信号的深入处理和分析工作带来了诸多困难，使自动语音识别（Automatic Speech Recognition，ASR）和基于内容的音频检索（Content-Based Audio Retrieval，CBAR）等应用受到了极大限制。如何从连续音频流信号中提取音频类型的结构化信息，将其按语音、音乐和环境音等不同的声学类型切分成类别单一的音频片段，标注出各音频片段的分界点位置和类型信息，即连续音频流分类，是解决音频信息深度处理、分析和检索等问题的关键技术和基础前提，同时也是辅助视频信号自动切分和分类的强有力的工具，有着广泛的应用前景。

利用连续音频流分类技术可以为ASR提供单一的语音片段，是现有语音识别系统走向实际应用的先决条件之一。现有的连续语音识别系统对输入语音信号的要求近乎苛刻，一般不仅不能包含诸如音乐、环境音等其它种类的声音，而且要有较高的信噪比。ASR则要求对现实生活中的音频流如广播新闻，影视、会议、演讲等录音进行自动转录（Transcribe），生成包含语义内容、位置和其它信息的“抄本”（Transcription）。我们知道，以上列举出的这些音频流通常由语音和其它类型的声音连接而成，如果不对其预先分段并去除非语音部分，必定会对语音识别系统的性能产生严重的影响。

连续音频流分类给出的音频类型结构化信息，是建立音频数据库索引、实现底层结构单元向高层语义结构单元关联的基础。CBAR技术通常要分析音频流的结构和语义，从不同类型的音频信号中提取高层语义信息，如对语音部分抽取关键词，建立它们的结构化的组织和索引，使“无序”的音频流变得“有序”，以便于用户的检索和浏览。可见，如果不知道音频流的所包含的声音类别和及其位置信息，高层语义的提取根本无从谈起。

连续音频流分类技术可以作为视频镜头自动分割和分类的有效的辅助工具。由于受技术发展的限制，单独依靠现有的图像和视频处理技术还不能使计算机“理解”视频的内容，视频镜头切分精确度也不高，不能对故事单元进行基于内容的分类。如果利用连续音频流分类技术将视频流所对应的音频进行切分，利用较实用的语音识别技术对其中的语音部分进行语音识别，利用已经比较成熟的全文检索技术对语音识别结果进行处理，提取文本摘要，则可以较好地解决这些问题。音视频编辑领域的知识和一些基本规则告诉我们，如果视频流所对应的音频类型没有发生变化，其对应的视频可以不进行分割处理。因此通过对音频流恰当的切分，可以大大提高视频的分割效率和准确率。

此外，连续流音频流分类技术还可以用在音频内容理解（Audio Content Understanding）、音频监测（Audio Surveillance）和音频场景分析（Audio Scene Analysis）等领域。总之，音频数据自身的特点和现有技术的制约，使得对音频流的进一步处理受到了限制，而连续音频流分类技术可以很好解决这一问题，为音频流结构化和音频信息深度分析和利用提供了坚实的基础。

newchomsky · 发表于 2007-6-4 16:08:25

有沒有給出相關文獻供參考？

晓菁 · 发表于 2007-6-4 22:55:12

使音频数据获得生命活力的连续音频流分类技术 [根据主题帖改编]

不管是使人陶醉的优美动听的抒情曲，还是令人亢奋的激情热烈的摇滚乐，越来越多的音频资料在因特网上传输着，在成千成万的硬盘中堆积着。昨天还在于心不忍地删除一首旧歌，今天，虽然刚刚更新换代了一台电脑，200G的容量很快又被滚滚而来的音乐填满了。音乐是有生命的，但是，音乐一旦被堆放到硬盘里，就变成了一长串枯燥无味的0和1。人们看不懂这貌似无生命的01符号，也就无法像看照片的缩略图那样一眼就了解照片的内容。想要了解一段音乐，人们就得把她从硬盘中邀请出来，让她复活，重新展示她生命的力量。否则，要在浩瀚的音频资料中找寻知音，或许要耗费一个人毕生的精力。

要是人们掌握了连续音频流的分类技术，能够把枯燥的连续音频流信号按照语音、音乐和环境音等不同的声音类别分解和归纳成一个个对应着特定含义的单一的音频片段，那么，音乐也就可以像图片那样被自动检索，被自动剪辑，甚至还可以被用来辅助影视资料的自动切分和分类。当人们想哭，想笑，想平静，想疯狂时，随手就可以从成千上万个曲子中剪辑出音乐片段，谱写出一首新曲。

连续音频流分类技术还可以用于语音识别。我们在影片中常常可以看到这样的镜头：为了防止谈话被窃听而把播放音乐的音响设备音量开得很大。因为现有的连续语音识别系统对输入的语音信号的要求很高，音乐声一大，就把语音信号给淹没了。但是，采用了连续音频流分类技术之后，在计算机的眼里，语音信号和音乐信号，不管谁强谁弱，统统都是0和1。连续音频流分类技术可以把连续的音频信号中的音乐信号和其他非语言信号进行分段和识别并加以剔除。如果这一技术得以实现，必将极大地提高语音识别系统的性能。人们不禁会期待，在今后的007系列中，可以有更可靠的反窃听技术，也使得人们的个人隐私不被随意偷听。

（太晚了，就写到这里了。）

		自动登录	找回密码
密码			注册

[【理工类原创】] 连续音频流分类的研究背景 [原创首发]