鬼笔环肽 发表于 2024-8-20 13:25:50

Ballistic 发表于 2024-8-20 12:15
您需要满足以下条件才能访问这个版块

访问条件:


一般点开板块后,会提示本版要求和自己目前的信息,然后缺啥补啥

myl892 发表于 2024-8-20 13:48:16

本帖最后由 myl892 于 2024-8-20 13:57 编辑

我用上面帖子附加的一页清晰pdg截图,送去OCR识别,生成了可以复制文字的pdf。请见附件。除下标字体有错误以外,其他文字可以复制。又测试了paddleOcr,目前看来直接使用paddleOcr没有识别出下标和横线。看来借助OCR能做到图像PDF生成可复制文字的PDF。猜测是在图片上附加了一层识别出来的透明的文字。这样看到的是图片,复制的时候复制到了识别的文字。试着复制识别出来的小标,看看能不能复制到正确的值可以看到OCR的准确程度。眼睛看的还是图片层。以后可以写个程序干这个活。

Davy 发表于 2024-8-20 23:38:18



应该是在扫描版的基础上,用WPS转的,WPS有个转Word的功能,先转成word后再转成PDF,样例见链接,效果有部分比你发的还要好:),的确没想到WPS还有这个功能

PDF:

https://davy.lanzoue.com/iu0TL27zlx9i
密码:b6ed
Word:

https://davy.lanzoue.com/iFrSy27zngwb
密码:5ruf

fydy01 发表于 2024-8-21 08:08:14

本帖最后由 fydy01 于 2024-8-21 08:10 编辑

strnghrs 发表于 2024-8-20 09:13
这个PDF的中文字体使用了内嵌的仿宋、黑体、宋体、幼圆,如果说它不是从印前排版文件转出来的,我是不会信 ...
的确可以用ocr制作出这种高仿的印前版。曾经在某读书群里见到有人做过,不得不承认很牛逼,印象中用的是福昕ocr。个人对扫描版的pdf转文字版不感兴趣,所以没详细了解。

jotis 发表于 2024-8-21 11:59:57

fydy01 发表于 2024-8-21 08:08
的确可以用ocr制作出这种高仿的印前版。曾经在某读书群里见到有人做过,不得不承认很牛逼,印象中用的是福 ...
我也没兴趣,但福昕没有云OCR功能,效果垃圾的一笔

但老马认为是印前转出来的,看来受骗了,自己应该也可以内嵌字体的吧?
这个PDF的中文字体使用了内嵌的仿宋、黑体、宋体、幼圆,如果说它不是从印前排版文件转出来的,我是不会信的


jotis 发表于 2024-8-21 12:02:00

鬼笔环肽 发表于 2024-8-20 13:25
一般点开板块后,会提示本版要求和自己目前的信息,然后缺啥补啥

那这本书到底有没有印前,有人看过了吗?@鬼笔环肽

fydy01 发表于 2024-8-21 14:47:39

jotis 发表于 2024-8-21 11:59
我也没兴趣,但福昕没有云OCR功能,效果垃圾的一笔

但老马认为是印前转出来的,看来受骗了,自己应该也可 ...

不是云OCR,是本地电脑处理的。

aabbccli 发表于 2024-8-21 21:20:51

数学公式多的书真不适合OCR,除非你愿意花精力去精校。

luojineng 发表于 2024-8-21 23:04:56

很明显是OCR的,但是这种OCR的遇到公式如果不是截图,会出错的概率非常之大。目前没看到一个完美识别公式的。

沧海一声笑 发表于 2024-8-22 03:29:18

目前高等教育出版社很少有印前PDF,只能OCR制作双层PDF

沧海一声笑 发表于 2024-8-22 03:42:14

本帖最后由 沧海一声笑 于 2024-8-22 04:01 编辑

检查了下你分享的完整文件,应该是OCR后双层PDF后去除背景图片制作的
目录中第10章上面Ⅳ错误OCR成N,这明显是OCR错误造成的,还有正文12页下面的注释2明显字体不符,正文14页中表格标题缺失,等等.......
所以此类文件除非有印前PDF,还是制作双层PDF为好,复制的同时可以快速发现其中的问题。




cnbook 发表于 2024-8-22 09:31:07

Ciber 发表于 2024-8-20 09:28
这一页恰好有真印前,与这个差别还挺大的。

样本细看可以看到很多识别瑕疵


特殊字符之间有空格 明显就是OCR,那是OCR不出的效果 ,如果印前应该一模一样。

dscer 发表于 2024-8-23 10:38:52

OCR转换分为转换为可复制的PDF和可编辑的PDF两种,最早时候我也喜欢转换成可编辑PDF,但渐渐发现有些毛病无法解决,比如特殊字体无法相同字体替换显示效果很差、特殊符号公式容易出错,最关键的是需要校对,识别精度总无法百分之百的,所以现在我都是转换成可复制的PDF

tenelims 发表于 2024-8-23 17:00:34

Ballistic 发表于 2024-8-20 12:15
您需要满足以下条件才能访问这个版块

访问条件:


52好像有个每周几开注的。
其实买个官方的邀请也不贵。
看个人需求了。

之前@鬼笔环肽 说的那个图片识别,我也有看到,最后有人说联网OCR目前WPS最强,有可能其确实有很多独到之处?


tenelims 发表于 2024-8-23 17:05:39

dscer 发表于 2024-8-23 10:38
OCR转换分为转换为可复制的PDF和可编辑的PDF两种,最早时候我也喜欢转换成可编辑PDF,但渐渐发现有些毛病无 ...

谢谢指导,不知道园子里面有没有关于PDF软件与各种基础知识的普及帖子。

总感觉PDF这个格式很常见,但是一看你们介绍与应用,又觉得一点也不了解,只能吃别人送过来的现成的菜。

meibf 发表于 2024-8-24 09:52:04

扫描版pdf比pdg文件大了将近一倍,不知道是怎么回事,照理说应该差不多大的。

linsx 发表于 2024-8-24 10:10:36

meibf 发表于 2024-8-24 09:52
扫描版pdf比pdg文件大了将近一倍,不知道是怎么回事,照理说应该差不多大的。 ...

帖子里分享的扫描版pdf不是论坛里的清晰PDG版本转换的,估计是个人扫描的?
页: 1 [2]
查看完整版本: 真✔矢量文字的扫描版PDF(非双层pdf)是怎么制作的?