汉语信息处理的“瓶颈”与突破(原创首发)

dolphin4000 · 发表于 2007-1-21 17:50:12

[原创首发]

　　摘要：汉语信息处理是一门新兴的应用性交叉学科，二十年来该学科的研究取得了很大进展，但仍有一些卡脖子的问题未能解决或解决方案不很理想。本文重点分析了汉语信息处理中出现的“瓶颈”问题，并提出了一些建设性解决方案，希望能对这些问题的最终解决有所启示或帮助。
　　关键词：汉语信息处理瓶颈汉字编码自动分词语句自动切分
　　信息处理是用计算机对文本、声音、图像等信息进行处理。汉语信息处理，就是利用计算机对汉语信息（包括书面的和口头的）进行处理，也叫中文信息处理。汉语信息处理技术对我国社会的信息化进程和信息产业发展具有极其重大的意义。然而汉语信息处理进程中存在各种各样的难题，就目前所遇到的并正在攻关的主要有三大“瓶颈”，即汉字处理、词语处理和语句处理。
　　一、汉字处理。
　　汉语信息处理的开端是由字处理阶段入手的。这个阶段是汉语信息处理所特有的，可以说它是汉语信息处理的第一个“瓶颈”问题。汉字处理中的汉字输入计算机问题是其主要方面，而汉字输入中的汉字键盘输入是技术主攻方面，也是技术难关。
　　汉字键盘输入遇到的首要问题是汉字“字符集”的确定。用于信息处理的汉字字符集所收字符种数既受实用字数限制又受硬件条件限制。在字频统计基础上，参照有关国际标准，我国在1981年公布了《信息交换用汉字编码字符集。基本集》（GB2312-80），确定了国际交换码，收字6763个，之后又根据需要研制出五个《辅助集》。但是“基本字符集”只能在一定范围内解决现代汉语信息处理对字种的需要，它根本无法满足“全汉字信息处理系统”包括所有使用汉字的国家和地区汉字信息处理的需要。如我国人名地名用字、少数民族用字、其他使用汉字国家用字等很少收入。1992年，中国（大陆和台湾）、日本、韩国共同制定了《CJK统一汉字编码字符集》。但CJK只提供了使三国四方当前的汉字信息处理能够兼容的一个新平台，它对任何一方现实用户来说都存在大量冗余字，会造成系统开销的增加和浪费，而且它也有欠缺，如不能完全适应中文“三古”（古代汉语、古典文学、古籍整理）信息处理的需要。解决对策是一方面要“在现有DOS管理平台上开发单方用户使用的汉字库” ，另一方面研制更大规模的汉字字符集，并加强二者的结合，实现信息的交换和传输。
　　在输入方法上，汉字编码是核心问题，也是汉语信息处理字处理阶段的热门研究问题。汉字编码类型主要有音码、形码两种。音码是“按汉字的读音将其转换成汉语拼音的声母、韵母或将双字母声母、复合韵母用单字母代替组成的编码” .如智能ABC输入法、微软拼音输入法、全拼输入法等。音码的优点是易学，但存在四个问题：1、重码多。这由汉字中同音字多造成，它导致输入效率低下；2、汉语拼音拼式太长。这也造成效率低下；3、对用户发音要求较高；4、难处理生字。读不出来的字就打不出来。形码是“将汉字分解为部件或笔划，并按照规定的顺序排列，用相应的字母数字符号替代，按一定的规则取舍的符号组合” .如郑码输入法、王码五笔型输入法等。形码的优点是重码率低，但也有缺点：1、学习起来较困难，一般需进行专门培训，不常用又容易忘记；2、大多数形码系统对字根的归类，与人们头脑中的汉字认知结构不统一，缺乏规范化；3、拆形输入与人们的思维习惯相左，形成对思维的干扰。这些问题使形码很难在大众中普及。
　　实践证明，字处理的“瓶颈”与突破无法在字的平面上单独完成，需要借助词处理来解决。
　　二、词语处理。
　　词语处理可说是汉语信息处理的一个新发展阶段，其中自动分词与词性、语义标注是两大难题。
　　自动分词是“用计算机软件将文本或语音串中的词切开” .书面汉语是以字为单位的，字与字之间有间隔，而词与词之间没有空档作标志。同时，字与词又不是相对应的，一个字有时独立成词，有时只是一个词的组成部分，有时连语素也算不上。我们理解句子实际上是通过词而不是字面，但让计算机正确地进行词切分是十分困难的。首先什么是词什么不是词，这是一个语言学界没有定论的问题，尤其是一些既可单独使用又经常与其它字结合成词使用字如何切分是一个大问题，而机器很难做出正确的判断。中文信息处理界在“七五”期间制定了《信息处理用现代汉语分词规范》，对现代汉语的13类词的分词原则作了详细规定，作为计算机自动分词的规范依据。经过18年的努力，汉语自动分词技术已有较大突破。目前我国已相继推出了十几个自动分词系统，在机械切分的基础上采取了各种不同技术及语言知识规范，正确切分率不断提高。据1995年评测，最高正确率达89.4%.但这种结果距离一个真正意义的高质量的实用化的分词系统还有相当差距。解决这剩余10%的问题比解决纳90%的问题难度大得多，且关键不在计算机技术，而在语言学。
　　信息自动标注是词处理中又一大难题，它包括汉语词性标注和语义标注。词性自动标注是“利用计算机给语料库中的每个分词赋予一个合适的词性标记” .词性自动标注的难题是词性语义消解。语义自动标注是“计算机利用逻辑运算推理机制，对出现在一定上下文中的词语的义项进行正确判断和标注” .一词多义是一种最常见的的语言现象，但在一定的上下文种，一个词又只能有一种解释。要让缺乏语言知识和生活知识的现阶段的计算机来判定一个多义词在特定句子中的义项相当困难。因此，语义自动标注是世界计算语言学和汉语信息处理的一大难题。词性、语义标注的关键在如何处理兼类词或多义词。与西方语言相比，汉语词性标注主要困难是缺乏形态，词类判定对上下文依赖特别严重。现在一般用统计方法来标注词性，据说可获90%以上正确率，但各个兼类词的消歧效果怎样尚未见具体报道。语义标注难度更大，因为不少多义词的区分度很低，用统计方法作语义标注不易获取适当规模的训练资料，目前还处于实验阶段。
　　汉语信息处理并不仅仅是汉字输入问题，在机器翻译、自然语言理解、人机对话等领域，都迫切需要根据汉语语法规则来分析把握汉语的语句意义，于是必然发展到对汉语语句处理“瓶颈”的突破。
　　三、语句处理。
　　语句处理指以语句为单位进行汉语信息的处理，涉及语与词之间的语法组合规律。现代汉语语法研究相对于信息处理的需要来说无论在理论还是实践方面都是落后一步的。汉语信息处理的许多课题，目前都无法直接从传统语言学理论中找到切合使用的答案，必须认真探索研究。语句处理方面问题很多，最大问题在语句自动分析。
　　语句分析是自然语言理解的关键技术。自动分析语句在全世界都是一个难题，困难主要在句法歧义问题，汉语句法歧义问题尤为严重。汉语句法、语义灵活，句子语序上词语排列顺序相当自由，句法结构上嵌套结构引起的短语界定困难，汉语时态、语态和语气由于缺乏严格的形式标记而难以辨别，汉语文本中大量省略、指代的句子等等，这些问题使汉语语句分析这一关键技术迟迟未取得突破。语句处理“瓶颈”的根本出路在于创立“汉语语料库语言学”。它是汉语信息处理的一个重要基础和核心，涉及到大规模真实语料库的建立以及词语、语法、语义属性的标注等大量基础研究工作。
　　从根本上说，要想使计算机项人脑那样工作，就要按照人脑运用语言时的活动机制“武装”计算机。迄今为止，我国人脑科学没有取得可供计算机使用的成果，计算机界和语言学界对人脑科学关心也很不够。当前实际是我们只能集中力量在语言学和计算机科学的结合上下功夫，以期为解决汉语信息处理“瓶颈”问题做出阶段性成绩。然而，当前实际是现代汉语研究与计算机领域的隔绝状态一直未出现根本改变，所以，消除汉语信息处理的“瓶颈”，首要的关键是要汉语言学界和计算机两支队伍紧密联合起来，开展面向汉语信息处理基础研究和应用研究。同时，汉语信息处理需要语言学、数学、认知科学、计算机科学等多学科的相互融合，现在最缺乏的是文理兼通的人才，应加强培养。我们应采取集体攻关的办法，多个单位、多种人才、多种方法互相结合、紧密合作，努力突破汉语信息处理“瓶颈”，促进汉语信息处理技术的发展。

1. 引自《庆祝文集》编委会.庆祝殷焕先生执教五十周年论文集[C].山东:山东大学出版社,1997.P311
2.引自侯敏.计算语言学与汉语自动分析[M].北京:北京广播学院出版社,1999.P89
3. 引自侯敏.计算语言学与汉语自动分析[M].北京:北京广播学院出版社,1999.P89
4.引自陈小荷.中文信息处理概况[J].南京师范大学文学院专报,2002,3（1）.P3
5.引自侯敏.计算语言学与汉语自动分析[M].北京:北京广播学院出版社,1999.P161
6.引自侯敏.计算语言学与汉语自动分析[M].北京:北京广播学院出版社,1999.P162
参考文献：
1.《庆祝文集》编委会.庆祝殷焕先生执教五十周年论文集[C].山东:山东大学出版社,1997.
2.侯敏.计算语言学与汉语自动分析[M].北京:北京广播学院出版社,1999.
3.俞士汶朱学锋.关于汉语信息处理的认识及其研究方略[J].语言文学应用,2002.（2）.
4.许嘉璐.中文信息处理与现代汉语研究的现状与设想——试论中文信息处理与现代汉语研究[J].中国语文,2000.（6）.
5.陈小荷.中文信息处理概况[J].南京师范大学文学院专报,2002,3（1）.
6.胡明扬.语言学概论[M].北京:语文出版社,2000.
7.苏培成.现代汉字学纲要（增订本）[M].北京:北京大学出版社,2001.
8.林允富.汉字规范化论纲[M].西安:山西师范大学出版社,1999.

adang181017 · 发表于 2007-1-22 16:14:56

欧这几天是憋足了劲发文章呀,不过自己对汉语信息处理相当的陌生,所以没有发言权

louselice^_^ · 发表于 2007-1-22 16:33:36

引用第0楼dolphin4000于2007-01-21 17:50发表的“汉语信息处理的“瓶颈”与突破(原创首发)”:
汉语信息处理需要语言学、数学、认知科学、计算机科学等多学科的相互融合

顾曰国先生有个很好的项目在寻求合作者，但是因为需要花费很长时间才能出成果，找到的几个单位都不愿意做，国外一些机构有意向，不过顾先生说这个项目是汉语的，一定要和中国人合作。当时我们听了很感动，同时大家在都很感慨。。。。。。要是国家能多给些钱就好了。

补充个我做的笔记。

认知科学
http://www.readfree.net/bbs/read-htm-tid-274764-keyword-.html

认知语言学（这个和认知科学的观点是有很大区别的）
http://www.readfree.net/bbs/read-htm-tid-281074-keyword-.html

钱一文 · 发表于 2007-1-22 17:21:42

　　欧丁现在平步青云，步泓的后尘，可惜偶看不懂你的文章，纯支持！！

slough98 · 发表于 2007-1-22 19:20:04

　　楼主谈到“首先什么是词什么不是词，这是一个语言学界没有定论的问题，尤其是一些既可单独使用又经常与其它字结合成词使用字如何切分是一个大问题，而机器很难做出正确的判断。”解决语言实际应用问题不可能等到把语言本体结构完全弄清楚了再进行，这涉及到本体语言学和应用语言学之间的接口问题，偶认为在形成一个合适接口的同时，两者仍可保持各自不完全相同的学科追求目标。中文信息处理完全可以在已有的本体语言学理论基础上，在解决实际问题过程中建构起自己的语言分析和生成体系，而实际上学者们也是这样做的。接口应当是双向互动的，但本体研究学界非常自觉地关注中文信息处理的学者不够多，搞本体研究的懂计算机的不够多。而计算机学界许多人已经对汉语语法著作吃得很透，于是出现了这样一种情况：中文信息处理界大部分是理工背景出身，他们将自身知识结构扩充整合后开发出许多成功的处理系统，而本体语言学界对这一块总的来说比较“隔”，当然也有两方专家学者协作的情况，但并不常见。
　　从根子上讲，这与我们的文理分科制度有关。楼主提到“汉语信息处理需要语言学、数学、认知科学、计算机科学等多学科的相互融合”，这是就学科层面而言的，就人才培养层面而言，就需要培养出跨学科的复合型人才。但我们看一看目前中文系的课程设置，有多少高校在本科阶段为语言专业学生开设认知科学、专业计算机科学的课程？这又引出了一个并不新鲜的话题：中文系的语言学专业到底要不要都分出来和外文系的语言学专业重新整合为语言学系？如果这是必要的，那么重新整合之可行性如何，阻力又来自何处？请各位赐教。

dolphin4000 · 发表于 2007-1-22 19:34:01

　　回楼上兄弟：阻力来自醉版和R版！
　　我发文章，最直接目的之一就是获得威望！
　　若无威望可得，还是到茶馆喝兔兄和老板娘的茶好了！

偶啥时候成了反面角色啦？偶和醉版可一直都是火箭队的支持者呀。

slough98 · 发表于 2007-1-22 19:48:13

楼主大不必太为威望之事上心了，有了5两银子，去求书版买本好书静夜坐读，不亦乐乎？

louselice^_^ · 发表于 2007-1-22 22:23:01

引用第4楼slough98于2007-01-22 19:20发表的“”:
楼主谈到“首先什么是词什么不是词，这是一个语言学界没有定论的问题，尤其是一些既可单独使用又经常与其它字结合成词使用字如何切分是一个大问题，而机器很难做出正确的判断。”解决语言实际应用问题不可能等到把语言本体结构完全弄清楚了再进行，这涉及到本体语言学和应用语言学之间的接口问题，偶认为在形成一个合适接口的同时，两者仍可保持各自不完全相同的学科追求目标。中文信息处理完全可以在已有的本体语言学理论基础上，在解决实际问题过程中建构起自己的语言分析和生成体系，而实际上学者们也是这样做的。接口应当是双向互动的，但本体研究学界非常自觉地关注中文信息处理的学者不够多，搞本体研究的懂计算机的不够多。而计算机学界许多人已经对汉语语法著作吃得很透，于是出现了这样一种情况：中文信息处理界大部分是理工背景出身，他们将自身知识结构扩充整合后开发出许多成功的处理系统，而本体语言学界对这一块总的来说比较“隔”，当然也有两方专家学者协作的情况，但并不常见。
从根子上讲，这与我们的文理分科制度有关。楼主提到“汉语信息处理需要语言学、数学、认知科学、计算机科学等多学科的相互融合”，这是就学科层面而言的，就人才培养层面而言，就需要培养出跨学科的复合型人才。但我们看一看目前中文系的课程设置，有多少高校在本科阶段为语言专业学生开设认知科学、专业计算机科学的课程？这又引出了一个并不新鲜的话题：中文系的语言学专业到底要不要都分出来和外文系的语言学专业重新整合为语言学系？如果这是必要的，那么重新整合之可行性如何，阻力又来自何处？请各位赐教。

“而计算机学界许多人已经对汉语语法著作吃得很透”，the case for case 差不多是八九十年代计算机系的人必读书，但是是否吃得很透，还不好说。

“有多少高校在本科阶段为语言专业学生开设认知科学、专业计算机科学的课程”，现在开得比较多的是认知语言学，可是这跟认知科学相去甚远。

很多中文系的人，包括一些英语专业的人都不喜欢生成语法，而偏向功能语法。以下是我总结的几门学科的关系，不对的地方请指正。

功能语法－－－－认知语言学
生成语法－－－－认知科学－－－－计算机模型

现在的生成语法中的优选论就是提出假设，然后编程验证的。还可以反过来输入数据，然后利用程序归纳筛选机制。

所以从根本上讲，目前这种脱节的情况跟我们国内搞语言学的方向有关系，不只是文理分科制度（也许文理分科造成了文科看那种数理意味很浓的生成语法的困难），

另外，还有经费的问题，语言学界提出的设想，不一定就有机构帮忙实现，因为他们追求眼前的利益，这也是没有办法的。

acdacd · 发表于 2007-1-22 23:12:12

1.

汉字处理中的汉字输入计算机问题是其主要方面，而汉字输入中的汉字键盘输入是技术主攻方面，也是技术难关。

解决对策是一方面要“在现有DOS管理平台上开发单方用户使用的汉字库” ，另一方面研制更大规模的汉字字符集，并加强二者的结合，实现信息的交换和传输。

不同意. 首先, 键盘输入不是技术难关, 反而是较易处理的问题. 正因如此, 才有这么多的研究及产品开发出来. 输入问题今天虽然没有完全解决, 但总体来说, 要求输入得快的用户会用学习时间较长的形码, 一般用户会选用音码. 只要经过一段时间, 一般人也够用了. 字集是比较难处理的问题. 早期的GB及BIG5以及近期的UNICODE都不能满足汉语的需要. 引文解决对策基本上是以增大字符量去处理问题, 只是以量取胜, 根本完全没有解决电脑构造汉字的方法.

slough98 · 发表于 2007-1-22 23:21:32

　　优选论萌生于生成语法体系，但现在基本上已形成了一个独立的理论框架，其中的“筛选”模块充分考虑各因素的相互作用，比传统生成语法更具灵活性和包容力。
　　不光是《"格"辨》，经典的汉语语法著作计算机学界很多人也都读过了，所以他们对词类等老大难问题能够形成自己独到的处理方式。
　　目前的计算机模型确实和生成语法渊源很深，不过传统语法对计算机语言处理模型贡献也很大，胡明扬先生曾在《语言科学》创刊号上撰文谈到，1990年电子工业部高级工程师吴蔚天研制的“HY-1型汉英机译系统”通过专家审议，在该领域具有突破性的价值，这个系统采用的是黎锦熙先生的传统语法体系，在此基础上建立了一个“入句辨品”和“完全语法树”模型，取得了成功。

robertchrs · 发表于 2007-1-23 00:12:17

哈哈，二位同行擦出了火花~~恭喜一下。

醉乡常客 · 发表于 2007-1-23 00:34:29

引用第5楼dolphin4000于2007-01-22 19:34发表的“”:
　　回楼上兄弟：阻力来自醉版！
.......

哥又咋了啊？

对你们来说，威望很容易得吧。

cshlhh · 发表于 2007-1-23 02:01:11

　　呵呵，欧丁发飙了，谁也不能小看。
　　另：怎么有些帖子都被r版动了手脚的？嘻嘻

dolphin4000 · 发表于 2007-1-23 08:08:38

引用第13楼cshlhh于2007-01-23 02:01发表的“”:
呵呵，欧丁发飙了，谁也不能小看。

另：怎么有些帖子都被r版动了手脚的？嘻嘻

哈哈,偶开醉版和小R滴玩笑捏!

robertchrs · 发表于 2007-1-23 08:55:05

引用第13楼cshlhh于2007-01-23 02:01发表的“”:
　　呵呵，欧丁发飙了，谁也不能小看。
　　另：怎么有些帖子都被r版动了手脚的？嘻嘻

那是因为有些回帖的格式和排版有问题，偶一般都是排版，没有贴主的“许可”，小R一般不会随意修改帖子内容的。

robertchrs · 发表于 2007-1-23 08:55:49

引用第14楼dolphin4000于2007-01-23 08:08发表的“”:

哈哈,偶开醉版和小R滴玩笑捏!

哈哈，原来如此，吓了偶一跳，吓了醉版两跳~~：）

cshlhh · 发表于 2007-1-23 09:05:34

引用第15楼robertchrs于2007-01-23 08:55发表的“”:

那是因为有些回帖的格式和排版有问题，偶一般都是排版，没有贴主的“许可”，小R一般不会随意修改帖子内容的。

吓了偶一跳，不过很让人起嫌疑之心

，小r版千万莫怪啊。

cshlhh · 发表于 2007-1-23 09:08:36

引用第14楼dolphin4000于2007-01-23 08:08发表的“”:

哈哈,偶开醉版和小R滴玩笑捏!

欧丁可知道偶是谁？嘻嘻

怎么你写这种文章的，学理科的啊？

dolphin4000 · 发表于 2007-1-23 10:01:06

引用第18楼cshlhh于2007-01-23 09:08发表的“”:

欧丁可知道偶是谁？嘻嘻

.......

哈哈！是谁？老实交代！
我是从文的，交叉学科的文章，有时候也弄一些！
ＰＳ：小Ｒ和醉版跳啥？园地有顶棚不？

		自动登录	找回密码
密码			注册

[【计算机类原创】] 汉语信息处理的“瓶颈”与突破(原创首发)