找回密码
 注册
搜索
热搜: 超星 读书 找书
查看: 1463|回复: 0

切词技术——中文搜索的核心

[复制链接]
和凤细雨 该用户已被删除
发表于 2004-9-15 12:42:55 | 显示全部楼层 |阅读模式
切词技术——中文搜索的核心
【本文内容来源于:www.zhongsou.com
有个真实的笑话,某人为寻一大师墨宝而软磨硬泡,大师终拗不过,赠字一幅,曰“不可随处小便”,尴尬之时,亏一才子将字切拆,重新组合成“小处不可随便”,某人大喜。通过这个故事,我们可以感到中文的博大精深,估计全世界也没有这么有复杂多变的文字了。所以,中文“搜索引擎”要面对网上庞大的中文信息,除了具有英文“搜索引擎”的特征之外,还需要一些特别的功能,这就是切词技术。
中文搜索引擎重要的是具有中文信息的“切词”功能。西文单词之间用空格分隔,很方便计算机的检索,而中文的字词则不能简单地进行分隔,因此检索起来很麻烦。这个问题的解决需要很高的技术实力。否则会给用户造成很大的麻烦。一般有两种处理方法,一个是完全单汉字全文检索,即将网页中的每一个汉字都录入索引库,而将用户的检索提问根据单汉字匹配的原则去进行检索。此法虽然能够保持有很高的查全率,但由于中文中存在歧义的地方很多,基于字的检索很容易返回一些跟用户输入无关的结果。
另一种是根据一定的原则和方法来对文章进行自动“切词”,然后按词建库,将用户的检索结果按词汇匹配来进行查询,这种处理方法拥有较高的查询命中率,但对“切词”技术的要求极高,中国搜索在这方面具有很强的技术实力。要做好切词,技术是一方面,更重要的是对中文甚至中国文化的深刻理解,没有深厚的中文文化基础是不可能做好中文搜索引擎的,这一点中国搜索比国外的公司(比如GOOGLE)具备先天优势。  

现代常用搜索有:中国搜索(www.zhongsou.com)
           搜狐(www.sohu.com)
           狗狗(www.google.com)
           百度(www.baidu.com.cn)
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 注册

本版积分规则

Archiver|手机版|小黑屋|网上读书园地

GMT+8, 2024-11-2 13:26 , Processed in 0.116703 second(s), 7 queries , Redis On.

Powered by Discuz! X3.5

© 2001-2024 Discuz! Team.

快速回复 返回顶部 返回列表