书籍清晰度问题
网上流传的电子书,有时存在不清晰之处,有一次,我看一本1981年出版的书,有个标题以为是“侧”,后来看到了它2014年的版本,发现其实是“倒”。我手头有本2017年出版的书,看上去足够清晰了,但里面有个字,似乎是谷的繁体字,但死活看不清,和这个字类似的字也有好些个,上下文也推断不出,看来都得去找实体书了。 文字pdf,又叫矢量pdf,印前pdf,就基本不存在清晰度的问题了。不过个别pdf里,有的生僻字用扫描的图片代替,也碰到过。 agent124 发表于 2023-8-27 23:16
文字pdf,又叫矢量pdf,印前pdf,就基本不存在清晰度的问题了。不过个别pdf里,有的生僻字用扫描的图片代替 ...
有种双层pdf不错。一层扫描,另一层文字。
西文的pdf,很多都可以copy文字,应该和ocr容易有关。
gongqi 发表于 2023-8-27 23:25
有种双层pdf不错。一层扫描,另一层文字。
双层pdf,如果是用老马的工具pdg2pic制作的,调用的是modi来ocr,那个识别率好像不算特别高(和abby比起来)
gongqi 发表于 2023-8-27 23:25
有种双层pdf不错。一层扫描,另一层文字。
有些字母复杂的,似乎ocr也有难度。
agent124 发表于 2023-8-27 23:27
双层pdf,如果是用老马的工具pdg2pic制作的,调用的是modi来ocr,那个识别率好像不算特别高(和abby比起 ...
双层pdf读的不多。不太知道。
读的那几本,文字还是听准确的。
横槊赋诗 发表于 2023-8-27 23:27
有些字母复杂的,似乎ocr也有难度。
应该是。总之罗马字母最容易识别,阿拉伯文、天城文、泰文就应该差一些,汉字可能最难。
gongqi 发表于 2023-8-27 23:25
有种双层pdf不错。一层扫描,另一层文字。
如果是所谓的印前pdf,那应该不是ocr的,就是电脑排好版之后转的pdf
agent124 发表于 2023-8-27 23:37
如果是所谓的印前pdf,那应该不是ocr的,就是电脑排好版之后转的pdf
嗯。西文很多书都是印前pdf,都是出版社流出来的,有的还特意标明了版权和处罚。
中文的这种好像很少。
gongqi 发表于 2023-8-27 23:41
嗯。西文很多书都是印前pdf,都是出版社流出来的,有的还特意标明了版权和处罚。
现在也很多了。本坛求书版有很多,读秀,畅想之星,书香,可知等都有大量这样的书
agent124 发表于 2023-8-27 23:43
现在也很多了。本坛求书版有很多,读秀,畅想之星,书香,可知等都有大量这样的书
主要从独秀找书。印象里一本这种书都没遇到过。
gongqi 发表于 2023-8-27 23:57
主要从独秀找书。印象里一本这种书都没遇到过。
读秀里没有,要从汇雅进去,有“pdf阅读”按钮的就是
以前超星扫的书都二值化处理过了,现在不做二值化了。
页:
[1]