找回密码
 注册
搜索
热搜: 超星 读书 找书
查看: 793|回复: 0

[[学习策略]] WordSmith 其实可以处理中文

[复制链接]
发表于 2007-12-6 08:25:18 | 显示全部楼层 |阅读模式
如果不知道wordsmith或语料库的,可以到此止步了。

1.先用FreeICTCLAS(汉语文本词性标注标记工具)(ICTCLAS所有的源代码、论文和技术文档都可以在www.nlp.org.cn 或者 www.ict.ac.cn/freeware/上免费得到。)对一个中文纯文本进行分词处理。

2.然后用WordSmith就可以检索了.wordsmith 5可以免费从http://www.lexically.net/downloads/version5/all_wordsmith_5.zip下载,压缩包中有个readme文件,里面有注册码,可以免费使用。

所以,基于英文的Concordancer之所以不能处理汉语一个重要的原因是因为汉语词与词之间没有space。分词处理(segmentation)之后这个问题就解决了。
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 注册

本版积分规则

Archiver|手机版|小黑屋|网上读书园地

GMT+8, 2024-11-15 03:27 , Processed in 0.147602 second(s), 18 queries .

Powered by Discuz! X3.5

© 2001-2024 Discuz! Team.

快速回复 返回顶部 返回列表