homestudy 发表于 2013-5-22 16:24:59

利用印象笔记 Evernote 进行跨平台双语语料检索

本文是在与kill兄交流的过程中产生的想法——inspired by kill.
特此鸣谢!

kill兄理想中的跨平台检索,类似有道词典的双语例句,可惜太需要技术,时间,精力。

俺这法子还达不到那个水平,但是胜在简单,技术门槛低,自己定制内容。

用一句话总结:利用印象笔记的跨平台,文字搜索以及高亮功能,进行双语语料的跨平台全文检索。
再简单点说——可以用手机/平板进行双语语料全文检索。

如图:
搜索关键词:inspired by

http://img142.poco.cn/mypoco/myphoto/20130522/16/6426289720130522160258078.jpg


http://img142.poco.cn/mypoco/myphoto/20130522/16/6426289720130522160706072.jpg

这里是供测试的双语文本(文本数量4993个),所有内容来自:http://www.cuyoo.com/home/portal.php


测试文本下载链接:http://pan.baidu.com/share/link?shareid=561435&uk=3744946970
密码:vl9k

为什么选择 cuyoo?
1、cuyoo 很多内容来自英国《金融时报》中文网。
2、主要是因为cuyoo的文章 ,网址规律性强,便于快速,大量采集。
备注:试过用采集工具(spider/crawler 之类的工具)下载,下载后的文件无法实现段落对齐(就是一段英语,一段中文),最后改用监视剪贴板的树状笔记软件(keynote nf)手工复制收集而得。

作为一个跨平台检索的实验,俺提供的测试样本是什么还不是最重要的。重要的是利用约5000篇文章这样一个数量级,对各种云笔记进行测试。考察各家云笔记的运行速度,检索速度/质量,稳定性。

经过测试,最后的赢家是印象笔记。(测试过麦库,有道,wiz),有的没有高亮功能,有的不能导入文本。

【鉴于各家云笔记软件都更新很快,或许有些功能现在已经有了或以后会有,但以俺开始测试为节点那个时刻用其他云笔记做双语语料检索,功能上是无法实现的。比如高亮,我就非常奇怪,是很需要高技术手段吗?同样以高亮为例,有的云笔记web端没有高亮,手机上有高亮的情况,这样技术上不均衡的云笔记,也被俺淘汰】

当然印象笔记的缺点就是空间太小。免费60m。
另外一个缺点就是,免费手机客户端用户好像不能离线访问笔记本,所以请在wifi环境下进行测试,以免因为网络流量产生费用。


为什么要段落对齐?
那是因为句子对齐(一句英文,一句中文)难度太大了。退而求其次,就段落对齐好了。

俺是用excel表格实现文本的段落对齐。
为方便起见,直接做了excel的双语样例。可下载附件查看。(如果想先一段中文后接一段英文的话,把中文放在第一列即可。)打开样例后,全选ctrl+A 然后复制粘贴到文本件中即可实现段落对齐。

当然,一些完美主义者可能需要在文本工具中使用正则表达式\\t替换为\\n(把 tab 分隔符替换为新行,看起来才是真正的一行英文加一行中文。)但实际上我认为没有必要。手机上真的木有影响。反正这就看各人不同需要了。

当然仍有一些细节没有提到,比如用文本导入后,外国人名,比如杰克·伦敦,中间的点都是? 就是文本编码(unicode, utf-8)的问题。

比如印象笔记导入文本文件会提取文本中的第一行作为标题。

比如说,如何检索英文词组,说实话,我也在研究印象笔记的检索语法中。

比如说,为什么不用 html,那是因为俺对纯文本的偏好,个人习惯而已。

双语长篇小说的话,建议拆分为n个文本,每个文本大约2-3k比较合适,不然手机屏幕上任你怎么划拉也找不到要找的词了。
bla...bla...

打住!

杯具的发生​:
最近一次印象笔记pc端软件升级后,居然自动重复导入测试用的双语文本,原来5000数量级的文本,现在10000数量级了。果断关掉pc客户端,现在都不敢开启PC客户端了。

仅以此文献给喜欢折腾,爱好实验的语言学子。
据说好的创意可以到 evernote 去换取更大空间,尽管我觉得我的创意不错,可惜没时间陪他们玩。

killl 发表于 2013-5-23 21:33:14

那个网址的东西应该能批量下载的,要不手动太麻烦。这种跨平台缺点就是自己的数据库太小了,扩充不方便。要是能有海量的高质量对照文本供学习就太妙了

homestudy 发表于 2013-5-23 23:36:32

引用第1楼killl于2013-05-23 21:33发表的 :
那个网址的东西应该能批量下载的,要不手动太麻烦。这种跨平台缺点就是自己的数据库太小了,扩充不方便。要是能有海量的高质量对照文本供学习就太妙了
完全同意killl兄的看法。

印象笔记的空间实在是太小了,慢慢观察是否有替代产品吧。

真正的海量语料库还需要更加专业的技术来实现。(突然想起可能会涉及版权问题)


俺觉得先鼓励大家自己动手先建立自己的双语语料库,需要的童鞋先用起来,海量高质量的语料我想需要大家合作,交流分享,共同建设维护才能实现。凭一己之力比较困难。

先下想到的,比较容易获取文本的方式。
1、本专业的双语文章。(专业书籍)
2、英语课本的中英文(包括新概念英语)
3、考试试题(四级,六级,八级,托福,雅思,gre,考研等等)
4、国外媒体中文网
5、中国英文媒体(China Daily等)
6、小说(英译中,中译英)等文学作品,以及非文学作品。
7、政府文件(白皮书,毛选,邓选等等)

当然质量控制是个大麻烦,译文质量,ocr质量等等。
页: [1]
查看完整版本: 利用印象笔记 Evernote 进行跨平台双语语料检索