Gossudar 发表于 2007-10-20 12:05:45

Dasha扫描OCR之图书(20071020)

1,汉语书籍,无法OCR成双层PDF,而后来超星大多电子化,甚感徒劳;
2,西文均以Abbyy7进行OCR并制作;
3,日文则以e.typist V12做OCR,但未手工校对;
4,存目而已,聊以纪录自己在电脑前的机械劳动;
5,校对中,似乎阅读得更加仔细,如果每人精校一本图书……
5,基本都在版权保护期内,需要者请私下联系。

http://www.douban.com/spic/s2745510.jpg Deutsche Verslehre. Ein Abri

tiantian 发表于 2007-10-20 23:14:27

佩服!第一条没看懂。(“双曾”当为“双层”。)
引用第0楼Gossudar于2007-10-20 12:05发表的 Dasha扫描OCR之图书(20071020) :
1,汉语书籍,无法OCR成双曾PDF,而后来超星大多电子化,甚感徒劳;
.......

funclub 发表于 2007-10-23 09:14:51

厉害,校对的工作量应该大的惊人吧

我自个儿 发表于 2007-10-24 16:22:04

大傻兄好。向你致敬!!!!!

redhat028 发表于 2007-10-24 17:46:09

自己手工校对一次,对书籍内容印象挺深刻的

费资本 发表于 2007-10-24 21:28:21

好像以前在在哪里看过,记不起是谁说的了,书非校,不能读也!

amish 发表于 2007-10-24 21:46:45

貌似都是外文的
看不懂啊

valery 发表于 2007-10-27 09:10:58

DASHA兄令人佩服!德文不懂,英文和中文的很想一看

resonance 发表于 2007-10-27 18:50:25

厉害啊,厉害,
佩服佩服
曾经也想自己OCR一些书籍,
无奈手艺太差,加上耗时巨大,
结果一本都没有成功过

Gossudar 发表于 2007-10-27 19:20:41

引用第7楼valery于2007-10-27 09:10发表的 :
DASHA兄令人佩服!德文不懂,英文和中文的很想一看

傻发此贴,岂炫耀也哉。张列名目,本就欲为往圣继续绝学、为同道提供便捷

valery兄请开列所欲书名、并收20M附件的邮箱,Dasha给兄转发

兄弟ID是valery,奇怪,为什么不要法语的

resonance兄,正像redhat028兄所说“自己手工校对一次,对书籍内容印象挺深刻的”,傻曰:

校对中,似乎阅读得更加仔细——如同凝神禅定、修心养性——如果每人精校一本图书……

valery 发表于 2007-10-28 22:57:02

当年做硕士论文时,顺便注册了VALERY这个名字,记着还方便就没改,不好意思。我的法语是二外,用功不够,惭愧惭愧!

DASHA兄水平高,肯花功夫扫描并OCR的书必是好书,不过,还是别太贪心了,呵呵,最想要的是:
The Unknown RilkeRainer Maria Rilke / 1991-03 / Oberlin College Press / USD 12.95 / Paperback
Selected Poems and Fragments (Penguin Classics)Friedrich Holderlin / 1998-09-01 / Penguin Classics / USD 18.00 / Paperback

另,不知马尔特手记的方瑜译本比起曹元勇译本如何?

我的邮箱jiukuang0121@126.com ,可以接收20M附件,多谢DASHA兄!

Gossudar 发表于 2007-10-29 00:01:39

http://www.douban.com/mpic/s2745517.jpghttp://www.douban.com/mpic/s2746969.jpg

如上二种已经发送,另,Dasha对第二种十分不满:http://www.douban.com/review/1226628/
因此再送兄一种

http://www.douban.com/lpic/s2745530.jpg


引用第10楼valery于2007-10-28 22:57发表的 :
.......
另,不知马尔特手记的方瑜译本比起曹元勇译本如何?
.......

用傻所在地方的方言说就是:俩鸡巴炒菜——一个鸡巴味儿。
一个德语水平甚是可疑,外子用四种日译本校也不免其误;一个不通德语,据率性发挥的John Linton英译本转译,其自身英语水平:见到“humour”就只知道“幽默”,真是很“humour”,且Linton译本似未过版权保护期。

是以,Dasha附送M. D. Herter Norton的英译本:

http://www.douban.com/mpic/s2750074.jpghttp://www.douban.com/mpic/s1802133.jpg

Norton译笔,虽嫌有类当年“地球村”、如今的“金山快译”,但一能够看出德文的原貌,二比较准确可信。

hong 发表于 2007-10-29 09:53:20

只有两个字——致敬!!!!!

valery 发表于 2007-10-29 22:05:40

引用第11楼Gossudar于2007-10-29 00:01发表的 :
http://www.douban.com/mpic/s2745517.jpghttp://www.douban.com/mpic/s2746969.jpg

如上二种已经发送,另,Dasha对第二种十分不满:http://www.douban.com/review/1226628/
因此再送兄一种

.......

收到,多谢DASHA兄!!听兄一席话,胜读十年书,受教!

哲人王 发表于 2007-10-30 03:14:59

“汉语书籍,无法OCR成双层PDF”什么意思?现在Acrobat 8.0可以OCR汉语图像文件,保存一下即是双层PDF,可惜没有校对的功能。

又,V下载的PDG转成的PDF文件为何突然无法使用箭头的选择键,是不是因为阅读过双层PDF,默认属性更改,只有在出现文本内容时显示箭头键,对图像部分则没反应?

parivraj 发表于 2007-10-30 08:21:57

Dasha兄的外子?

Gossudar 发表于 2007-10-30 12:10:56

回V,没有校对的OCR要它何益?“检索”不出有用的来!您说的Acrobat8的OCR功能Dasha知道,DJVU其实早有这个功能了;PDG转成的PDF文件应该使用箭头的选择键,但选择的是“图像区域”。

回parivraj,那是她的原话,发帖时引号不知道弄哪儿去啦,她的外子李永炽(傻读过其弄得日本史),在台湾似乎也很有名气呢,不清楚,这里有许多宝岛学兄,他们或许知道。

parivraj 发表于 2007-10-30 13:43:24

原来是引文~还以为这话也是承着dasha兄所在地方言的一脉而来的呢~~

哲人王 发表于 2007-10-30 19:46:47

PDG转成的PDF文件应该使用箭头的选择键,但选择的是“图像区域”。


——但现在的问题就是“箭头的选择键”无法选择“图像区域”。Dasha可以找本PDG转成的PDF试试,先OCR其中的一页,存储,再打开OCR其他页面,看能不能用”带箭头的选择键”选择“图像区域”。

哲人王 发表于 2007-10-30 19:53:54

没有校对的OCR其实也有用,阅读时先OCR一次(尽量找清晰的版本),读到要紧的话则拷出来校对,这适用于文本摘录量比较低的时候。超星给读书者设置了无数障碍,甚至他们的阅读软件故意OCR识别率低下,唉,给V这种喜爱抄书的人带了大量麻烦,有时下载书处理书的时间超过阅读时间。
页: [1] 2 3
查看完整版本: Dasha扫描OCR之图书(20071020)