找回密码
 注册
搜索
热搜: 超星 读书 找书
查看: 3919|回复: 4

[【外语类】] 牛津高阶英汉双解词典(第四版)-汉语词频统计

[复制链接]
发表于 2008-12-3 16:01:57 | 显示全部楼层 |阅读模式
曾经有个想法,将《牛津高阶英汉双解词典》编译成汉英词典。
用最简单的办法,就是拿着本汉英或现代汉语词典,一条一条搜索出相对应的词语或表达,相信可以kill 掉不少时间。不过,这样的事情,退休后去做比较好。

前段时间baidu+google 红楼梦英译,发现语言的统计分析,语料库蛮好玩的。前几天,刚好找到北京语言大学的一个软件。
带结构的词频统计工具(含11年《人民日报》统计结果)大小:19000 KB
下载地址:http://clip.blcu.edu.cn/DownView.Asp?id=22

又想起了曾经有过编汉英词典的念想。干脆就拿牛津高阶英汉双解词典(第四版)开练了。
并将生成的结果txt文件导入excel表格中。方便查看。

仍有几个问题没解决:
第一、样本问题。
牛津高阶英汉双解词典的样本经过繁简转换,有些字没有完美转换为标准简化字。
第二、词频统计软件切分词好像并不那么可靠。不过我对这款软件相当满意,除了词频统计,还给出词语结构分析。
第三、还没明白统计分析的方法,目的,意义。俺现在还处于“觉得好玩”,似懂非懂的阶段。不知道该看点啥书充电?


采用统计样本:
Oxford Advanced Learner's English-Chinese Dictionary
牛津高阶英汉双解词典(第四版)
作者: (英)霍恩比
李北达译
出版社: 商务印书馆


附录:
牛津高阶英汉双解词典(第四版)-词典样本.rar 5.04MB 解压后为txt格式
http://www.brsbox.com/filebox/do ... 8b26c47f05eade14916

牛津高阶英汉双解词典(第四版)-词频统计结果txt+excel.rar
http://www.brsbox.com/filebox/do ... 7d324972028bfc853d3

使用软件:带结构的词频统计工具(含11年《人民日报》统计结果)大小:19000 KB
下载地址:http://clip.blcu.edu.cn/DownView.Asp?id=22
回复

使用道具 举报

 楼主| 发表于 2008-12-7 22:50:33 | 显示全部楼层
有顶贴之嫌
因为要请教wdscxsj兄一些技术问题,又不便在文学原创版里继续讨论,借这个帖子说明遇到的一些问题。如能得到wdscxsj兄的指点,将不胜感激。


http://www.readfree.net/bbs/read.php?tid=4675316#2027492
俺关注的是文章中的《正则表达式的菜鸟教程》

为什么要学习正则表达式?

俺想把楼上的牛津高阶英汉双解词典(第四版):
按照词条、词性、语法标志、释义、例句、短语、用法/辨析来定义不同字段进而建立一个数据库,并且中英文要对应。【考虑到font字体文件有时稍嫌麻烦,所以音标可以退而求其次。】

俺想要的数据库是啥样子地:可以中英文任意检索,比如根据语法标志查询该词典里的所有法律或科技词汇。可以查看词典中的所有形容词,可数或不可数名词。如果可能俺还想学习中英文的逆序/倒序排列,比如检索*菜。可以检索到相应的中英文。

小白菜/大白菜/乌白菜/洋白菜/圆白菜/黑白菜/结球白/冬菜/布菜/年菜/饭菜/壳菜/花菜/芹菜/苋菜/芥菜/芥菜/青菜/油菜/刺儿菜/泡菜/择菜/咸菜/荇菜/荠菜/香菜/洋菜/盆菜/韭菜/荤菜/素菜/海菜/凉菜/酒菜

俺想查“吃”、“喝”,“好”,“坏”,俺希望能在词典中查到所有的表达方式,并按自己的喜好来选择一个需要具体应用的词语表达。而不仅仅是像汉英词典那样通过词条来选择相对应的一个词。

英文逆序就不示范了,参照新东方的《GRE词汇逆序记忆小词典》。

外语界的“功能意念”概念,眼下貌似没有以前热闹了。这是俺作为外行+外界人士的主观感觉,说错勿怪。

将来可能想找一个功能意念的分类标准,为上述数据库添加新字段。眼下认为非常好的标准是《朗文多功能分类词典》。

鉴于眼下自身热情无限膨胀,让俺红着脸表达一句的豪言壮语,我不介意手工来添加新字段。

最近因为上网会有些不便,如未能及时回复,请多多原谅。
回复

使用道具 举报

发表于 2008-12-8 14:55:03 | 显示全部楼层
真是计划赶不上变化,上周末不期而至的一些散事占去了我大部分时间,正则表达式教程看来无法在今天完成了,实在不好意思。不过肯定能在本周五之前写好,请少安毋躁。

我学的不是计算机专业,平时也不怎么用数据库。不过您的设想看起来比较容易实现,比如SQLite就是一个超轻型的数据库开源软件,它也提供了正则表达式的语法支持,不过要求自己链入外部库的实现,如PCRE、Boost.xpressive等。这些应该都不难,我先写完这个教程再说。
回复

使用道具 举报

发表于 2008-12-14 17:56:51 | 显示全部楼层
好东西 谢谢分享
回复

使用道具 举报

发表于 2009-5-6 15:26:13 | 显示全部楼层
,谢谢了。
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 注册

本版积分规则

Archiver|手机版|小黑屋|网上读书园地

GMT+8, 2024-5-13 19:30 , Processed in 0.320832 second(s), 5 queries , Redis On.

Powered by Discuz! X3.5

© 2001-2024 Discuz! Team.

快速回复 返回顶部 返回列表