找回密码
 注册
搜索
热搜: 超星 读书 找书
查看: 502|回复: 5

[【品茶论道】] 打造自己的专题检索

[复制链接]
发表于 2015-6-18 10:44:44 | 显示全部楼层 |阅读模式
先得感谢老马。无所不能的老马让我们许多枯燥无味的工作变得生动有趣起来。

每每感叹DX的全文检索非常快捷。想找个人物立马就有,而且白纸黑字,引用方便。这是度娘等等无法比拟的。但这种检索往往一找一大堆,有用的信息夹杂其中,鱼龙混杂,分辨也不易。

今年应约整理我们淮安府明清进士资料。过去这些资料也有,但不全、不准、不细。我们想在前人基础上,整理出更为详细的进士资料。这些资料应包括中式时间、生卒、字号、籍贯、履历、著作等。我想提高效率,加快进度,于是这么弄的:

1.找到相关清晰pdg(清晰版转成pdf,ocr更准确些吧),用老马的Pdg2Pic做成双层pdf。转换时要注意简体繁体,对应ocr(繁体模块在这:http://www.readfree.net/bbs/read.php?tid=5638716)。过程很简单,试两下就明白了。因是粗线条检索,没校对(校对方法老马也有介绍:http://www.comicer.com/stronghorse/water/software/proofpdf.htm)。
2.把这些pdf统一放在一个目录下,方便检索。
3.用 pcrobat pro 随便打开一pdf,按ctrl+shift+F,指定你的pdf目录,输入关键字检索吧。这时可用简繁体分别检索下。

这样的检索,再加上DX全文,明实录、清实录等一些文本文件的检索,就够了。一些著名人物,还可先在台北中研院史语所那两个传记资料库中检索下。

比如我的进士检索目录暂放了这些:

贡举志五种(合)_12434186.pdf
光绪淮安府志_13299191.pdf
翰林掌故五种_12431021.pdf
淮安人名辞典_13333441.pdf
江南通志 尹继善黄之隽 清乾隆元年[1736]_国图文本.pdf
江苏省通志稿·选举志_10380777.pdf
明代科举与文学编年_合.pdf
明清江苏文人年表_10287952.pdf
明清进士录_11569435.pdf
明清进士题名碑录索引 (全三册)_10324721.pdf
乾隆淮安府志_13302798.pdf
清朝进士题名录_12049597.pdf
清代官员履历档案全编 30 目录_11459595.pdf
清代吏治史料·目录_合.pdf
清代人物生卒年表_12111293.pdf
清人诗文集总目提要 合_11356601.pdf
山阳诗徵续编 合_13294176.pdf
山阳诗徵 合_12296256.pdf
山阳志遗 吴玉搢 民国11年[1922]_国图文本.pdf
续纂清河县志 刘寿范冕 民国17年[1928]_国图文本.pdf
续纂山阳县志 邱沅王元章段朝端 民国10年[1921]_国图文本.pdf
宣统江苏通志 缪荃孙冯煦 清宣统间[1909-1911]_国图文本.pdf
中国科举辞典_11779299.pdf
中国学术编年 明代卷_13446293.pdf
中国学术编年 清代卷_13429558.pdf

我是想请大家看看,这种检索还有啥可改进的地方?明清人物检索还有什么好书?
回复

使用道具 举报

发表于 2015-6-18 10:47:57 | 显示全部楼层
赞一个。
有个建议:将每一种资料的出版年代标注出来。我一般是在文件名前标注公元纪年
回复

使用道具 举报

发表于 2015-6-18 10:54:12 | 显示全部楼层
既然ocr了就是文本了,为啥还要用pdf?pdf不是适合搜索的。既然是文本,可以转成txt,全文搜索效果最好大概是专门的全文搜索软件(主要是汉语的断词比较麻烦),一般的用windows search也够了。如果只是找关键词,搜索速度最快的是sql server,如果不想为了搜索专门装这个大家伙,可以用UltraEdit,速度也挺快。
另外,楼主说用微软的office做ocr的。个人经验,准确率还是ABBYY Fine Reader高些。楼主说没有校对,那么肯定有无数错字,影响到检索结果的精确性。
回复

使用道具 举报

 楼主| 发表于 2015-6-18 10:58:08 | 显示全部楼层
引用第2楼agent124于2015-06-18 10:54发表的 :
既然ocr了就是文本了,为啥还要用pdf?pdf不是适合搜索的。既然是文本,可以转成txt,全文搜索效果最好大概是专门的全文搜索软件(主要是汉语的断词比较麻烦),一般的用windows search也够了。如果只是找关键词,搜索速度最快的是sql server,如果不想为了搜索专门装这个大家伙,可以用UltraEdit,速度也挺快。
另外,楼主说用微软的office做ocr的。个人经验,准确率还是ABBYY Fine Reader高些。楼主说没有校对,那么肯定有无数错字,影响到检索结果的精确性。
没时间校对时最好做成这种双层pdf。否则都不知咋引用错的。
文本检索我用editplus,它指定目录检索也快。
回复

使用道具 举报

 楼主| 发表于 2015-6-18 11:11:48 | 显示全部楼层
这种专题检索,文理科通用。且制作一本双层pdf,用老马的pdg2pic只是分分种的事,很方便。
回复

使用道具 举报

发表于 2016-1-27 21:32:45 | 显示全部楼层
非常好的应用心得,赞!
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 注册

本版积分规则

Archiver|手机版|小黑屋|网上读书园地

GMT+8, 2024-11-17 21:45 , Processed in 0.176590 second(s), 18 queries .

Powered by Discuz! X3.5

© 2001-2024 Discuz! Team.

快速回复 返回顶部 返回列表