您需要满足以下条件才能访问这个版块
访问条件:
一般点开板块后,会提示本版要求和自己目前的信息,然后缺啥补啥 本帖最后由 myl892 于 2024-8-20 13:57 编辑
我用上面帖子附加的一页清晰pdg截图,送去OCR识别,生成了可以复制文字的pdf。请见附件。除下标字体有错误以外,其他文字可以复制。又测试了paddleOcr,目前看来直接使用paddleOcr没有识别出下标和横线。看来借助OCR能做到图像PDF生成可复制文字的PDF。猜测是在图片上附加了一层识别出来的透明的文字。这样看到的是图片,复制的时候复制到了识别的文字。试着复制识别出来的小标,看看能不能复制到正确的值可以看到OCR的准确程度。眼睛看的还是图片层。以后可以写个程序干这个活。
应该是在扫描版的基础上,用WPS转的,WPS有个转Word的功能,先转成word后再转成PDF,样例见链接,效果有部分比你发的还要好:),的确没想到WPS还有这个功能
PDF:
https://davy.lanzoue.com/iu0TL27zlx9i
密码:b6ed
Word:
https://davy.lanzoue.com/iFrSy27zngwb
密码:5ruf
本帖最后由 fydy01 于 2024-8-21 08:10 编辑
strnghrs 发表于 2024-8-20 09:13
这个PDF的中文字体使用了内嵌的仿宋、黑体、宋体、幼圆,如果说它不是从印前排版文件转出来的,我是不会信 ...
的确可以用ocr制作出这种高仿的印前版。曾经在某读书群里见到有人做过,不得不承认很牛逼,印象中用的是福昕ocr。个人对扫描版的pdf转文字版不感兴趣,所以没详细了解。 fydy01 发表于 2024-8-21 08:08
的确可以用ocr制作出这种高仿的印前版。曾经在某读书群里见到有人做过,不得不承认很牛逼,印象中用的是福 ...
我也没兴趣,但福昕没有云OCR功能,效果垃圾的一笔
但老马认为是印前转出来的,看来受骗了,自己应该也可以内嵌字体的吧?
这个PDF的中文字体使用了内嵌的仿宋、黑体、宋体、幼圆,如果说它不是从印前排版文件转出来的,我是不会信的
鬼笔环肽 发表于 2024-8-20 13:25
一般点开板块后,会提示本版要求和自己目前的信息,然后缺啥补啥
那这本书到底有没有印前,有人看过了吗?@鬼笔环肽
jotis 发表于 2024-8-21 11:59
我也没兴趣,但福昕没有云OCR功能,效果垃圾的一笔
但老马认为是印前转出来的,看来受骗了,自己应该也可 ...
不是云OCR,是本地电脑处理的。 数学公式多的书真不适合OCR,除非你愿意花精力去精校。 很明显是OCR的,但是这种OCR的遇到公式如果不是截图,会出错的概率非常之大。目前没看到一个完美识别公式的。 目前高等教育出版社很少有印前PDF,只能OCR制作双层PDF 本帖最后由 沧海一声笑 于 2024-8-22 04:01 编辑
检查了下你分享的完整文件,应该是OCR后双层PDF后去除背景图片制作的
目录中第10章上面Ⅳ错误OCR成N,这明显是OCR错误造成的,还有正文12页下面的注释2明显字体不符,正文14页中表格标题缺失,等等.......
所以此类文件除非有印前PDF,还是制作双层PDF为好,复制的同时可以快速发现其中的问题。
Ciber 发表于 2024-8-20 09:28
这一页恰好有真印前,与这个差别还挺大的。
样本细看可以看到很多识别瑕疵
特殊字符之间有空格 明显就是OCR,那是OCR不出的效果 ,如果印前应该一模一样。
OCR转换分为转换为可复制的PDF和可编辑的PDF两种,最早时候我也喜欢转换成可编辑PDF,但渐渐发现有些毛病无法解决,比如特殊字体无法相同字体替换显示效果很差、特殊符号公式容易出错,最关键的是需要校对,识别精度总无法百分之百的,所以现在我都是转换成可复制的PDF Ballistic 发表于 2024-8-20 12:15
您需要满足以下条件才能访问这个版块
访问条件:
52好像有个每周几开注的。
其实买个官方的邀请也不贵。
看个人需求了。
之前@鬼笔环肽 说的那个图片识别,我也有看到,最后有人说联网OCR目前WPS最强,有可能其确实有很多独到之处?
dscer 发表于 2024-8-23 10:38
OCR转换分为转换为可复制的PDF和可编辑的PDF两种,最早时候我也喜欢转换成可编辑PDF,但渐渐发现有些毛病无 ...
谢谢指导,不知道园子里面有没有关于PDF软件与各种基础知识的普及帖子。
总感觉PDF这个格式很常见,但是一看你们介绍与应用,又觉得一点也不了解,只能吃别人送过来的现成的菜。
扫描版pdf比pdg文件大了将近一倍,不知道是怎么回事,照理说应该差不多大的。 meibf 发表于 2024-8-24 09:52
扫描版pdf比pdg文件大了将近一倍,不知道是怎么回事,照理说应该差不多大的。 ...
帖子里分享的扫描版pdf不是论坛里的清晰PDG版本转换的,估计是个人扫描的?
页:
1
[2]