横槊赋诗 发表于 2023-8-27 23:08:02

书籍清晰度问题

网上流传的电子书,有时存在不清晰之处,有一次,我看一本1981年出版的书,有个标题以为是“侧”,后来看到了它2014年的版本,发现其实是“倒”。

我手头有本2017年出版的书,看上去足够清晰了,但里面有个字,似乎是谷的繁体字,但死活看不清,和这个字类似的字也有好些个,上下文也推断不出,看来都得去找实体书了。

agent124 发表于 2023-8-27 23:16:21

文字pdf,又叫矢量pdf,印前pdf,就基本不存在清晰度的问题了。不过个别pdf里,有的生僻字用扫描的图片代替,也碰到过。

gongqi 发表于 2023-8-27 23:25:57

agent124 发表于 2023-8-27 23:16
文字pdf,又叫矢量pdf,印前pdf,就基本不存在清晰度的问题了。不过个别pdf里,有的生僻字用扫描的图片代替 ...

有种双层pdf不错。一层扫描,另一层文字。


西文的pdf,很多都可以copy文字,应该和ocr容易有关。

agent124 发表于 2023-8-27 23:27:26

gongqi 发表于 2023-8-27 23:25
有种双层pdf不错。一层扫描,另一层文字。




双层pdf,如果是用老马的工具pdg2pic制作的,调用的是modi来ocr,那个识别率好像不算特别高(和abby比起来)

横槊赋诗 发表于 2023-8-27 23:27:45

gongqi 发表于 2023-8-27 23:25
有种双层pdf不错。一层扫描,另一层文字。




有些字母复杂的,似乎ocr也有难度。

gongqi 发表于 2023-8-27 23:29:16

agent124 发表于 2023-8-27 23:27
双层pdf,如果是用老马的工具pdg2pic制作的,调用的是modi来ocr,那个识别率好像不算特别高(和abby比起 ...

双层pdf读的不多。不太知道。


读的那几本,文字还是听准确的。

gongqi 发表于 2023-8-27 23:32:00

横槊赋诗 发表于 2023-8-27 23:27
有些字母复杂的,似乎ocr也有难度。

应该是。总之罗马字母最容易识别,阿拉伯文、天城文、泰文就应该差一些,汉字可能最难。

agent124 发表于 2023-8-27 23:37:12

gongqi 发表于 2023-8-27 23:25
有种双层pdf不错。一层扫描,另一层文字。




如果是所谓的印前pdf,那应该不是ocr的,就是电脑排好版之后转的pdf

gongqi 发表于 2023-8-27 23:41:57

agent124 发表于 2023-8-27 23:37
如果是所谓的印前pdf,那应该不是ocr的,就是电脑排好版之后转的pdf

嗯。西文很多书都是印前pdf,都是出版社流出来的,有的还特意标明了版权和处罚。


中文的这种好像很少。

agent124 发表于 2023-8-27 23:43:16

gongqi 发表于 2023-8-27 23:41
嗯。西文很多书都是印前pdf,都是出版社流出来的,有的还特意标明了版权和处罚。




现在也很多了。本坛求书版有很多,读秀,畅想之星,书香,可知等都有大量这样的书

gongqi 发表于 2023-8-27 23:57:53

agent124 发表于 2023-8-27 23:43
现在也很多了。本坛求书版有很多,读秀,畅想之星,书香,可知等都有大量这样的书

主要从独秀找书。印象里一本这种书都没遇到过。

agent124 发表于 2023-8-28 00:05:09

gongqi 发表于 2023-8-27 23:57
主要从独秀找书。印象里一本这种书都没遇到过。

读秀里没有,要从汇雅进去,有“pdf阅读”按钮的就是

aabbccli 发表于 2023-8-28 14:42:16

以前超星扫的书都二值化处理过了,现在不做二值化了。
页: [1]
查看完整版本: 书籍清晰度问题