tmdyzc007 发表于 2007-12-6 08:25:18

WordSmith 其实可以处理中文

如果不知道wordsmith或语料库的,可以到此止步了。

1.先用FreeICTCLAS(汉语文本词性标注标记工具)(ICTCLAS所有的源代码、论文和技术文档都可以在www.nlp.org.cn 或者 www.ict.ac.cn/freeware/上免费得到。)对一个中文纯文本进行分词处理。

2.然后用WordSmith就可以检索了.wordsmith 5可以免费从http://www.lexically.net/downloads/version5/all_wordsmith_5.zip下载,压缩包中有个readme文件,里面有注册码,可以免费使用。

所以,基于英文的Concordancer之所以不能处理汉语一个重要的原因是因为汉语词与词之间没有space。分词处理(segmentation)之后这个问题就解决了。
页: [1]
查看完整版本: WordSmith 其实可以处理中文