找回密码
 注册
搜索
热搜: 超星 读书 找书
楼主: linsx

[【其它】] 真✔矢量文字的扫描版PDF(非双层pdf)是怎么制作的?

[复制链接]
发表于 2024-8-20 13:25:50 来自手机 | 显示全部楼层
Ballistic 发表于 2024-8-20 12:15
您需要满足以下条件才能访问这个版块

访问条件:

一般点开板块后,会提示本版要求和自己目前的信息,然后缺啥补啥

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?注册

×
回复

使用道具 举报

发表于 2024-8-20 13:48:16 | 显示全部楼层
本帖最后由 myl892 于 2024-8-20 13:57 编辑

我用上面帖子附加的一页清晰pdg截图,送去OCR识别,生成了可以复制文字的pdf。请见附件。除下标字体有错误以外,其他文字可以复制。又测试了paddleOcr,目前看来直接使用paddleOcr没有识别出下标和横线。看来借助OCR能做到图像PDF生成可复制文字的PDF。猜测是在图片上附加了一层识别出来的透明的文字。这样看到的是图片,复制的时候复制到了识别的文字。试着复制识别出来的小标,看看能不能复制到正确的值可以看到OCR的准确程度。眼睛看的还是图片层。以后可以写个程序干这个活。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?注册

×
回复

使用道具 举报

发表于 2024-8-20 23:38:18 | 显示全部楼层


应该是在扫描版的基础上,用WPS转的,WPS有个转Word的功能,先转成word后再转成PDF,样例见链接,效果有部分比你发的还要好,的确没想到WPS还有这个功能

PDF:

https://davy.lanzoue.com/iu0TL27zlx9i
密码:b6ed
Word:

https://davy.lanzoue.com/iFrSy27zngwb
密码:5ruf

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?注册

×
回复 1 0

使用道具 举报

发表于 2024-8-21 08:08:14 | 显示全部楼层
本帖最后由 fydy01 于 2024-8-21 08:10 编辑
strnghrs 发表于 2024-8-20 09:13
这个PDF的中文字体使用了内嵌的仿宋、黑体、宋体、幼圆,如果说它不是从印前排版文件转出来的,我是不会信 ...

的确可以用ocr制作出这种高仿的印前版。曾经在某读书群里见到有人做过,不得不承认很牛逼,印象中用的是福昕ocr。个人对扫描版的pdf转文字版不感兴趣,所以没详细了解。
回复

使用道具 举报

发表于 2024-8-21 11:59:57 | 显示全部楼层
fydy01 发表于 2024-8-21 08:08
的确可以用ocr制作出这种高仿的印前版。曾经在某读书群里见到有人做过,不得不承认很牛逼,印象中用的是福 ...

我也没兴趣,但福昕没有云OCR功能,效果垃圾的一笔

但老马认为是印前转出来的,看来受骗了,自己应该也可以内嵌字体的吧?
这个PDF的中文字体使用了内嵌的仿宋、黑体、宋体、幼圆,如果说它不是从印前排版文件转出来的,我是不会信的



回复

使用道具 举报

发表于 2024-8-21 12:02:00 | 显示全部楼层
鬼笔环肽 发表于 2024-8-20 13:25
一般点开板块后,会提示本版要求和自己目前的信息,然后缺啥补啥

那这本书到底有没有印前,有人看过了吗?@鬼笔环肽
回复

使用道具 举报

发表于 2024-8-21 14:47:39 | 显示全部楼层
jotis 发表于 2024-8-21 11:59
我也没兴趣,但福昕没有云OCR功能,效果垃圾的一笔

但老马认为是印前转出来的,看来受骗了,自己应该也可 ...

不是云OCR,是本地电脑处理的。
回复

使用道具 举报

发表于 2024-8-21 21:20:51 | 显示全部楼层
数学公式多的书真不适合OCR,除非你愿意花精力去精校。
回复

使用道具 举报

发表于 2024-8-21 23:04:56 | 显示全部楼层
很明显是OCR的,但是这种OCR的遇到公式如果不是截图,会出错的概率非常之大。目前没看到一个完美识别公式的。
回复

使用道具 举报

发表于 2024-8-22 03:29:18 | 显示全部楼层
目前高等教育出版社很少有印前PDF,只能OCR制作双层PDF

评分

1

查看全部评分

回复

使用道具 举报

发表于 2024-8-22 03:42:14 | 显示全部楼层
本帖最后由 沧海一声笑 于 2024-8-22 04:01 编辑

检查了下你分享的完整文件,应该是OCR后双层PDF后去除背景图片制作的
目录中第10章上面Ⅳ错误OCR成N,这明显是OCR错误造成的,还有正文12页下面的注释2明显字体不符,正文14页中表格标题缺失,等等.......
所以此类文件除非有印前PDF,还是制作双层PDF为好,复制的同时可以快速发现其中的问题。




评分

1

查看全部评分

回复

使用道具 举报

发表于 2024-8-22 09:31:07 | 显示全部楼层
Ciber 发表于 2024-8-20 09:28
这一页恰好有真印前,与这个差别还挺大的。

样本细看可以看到很多识别瑕疵

特殊字符之间有空格 明显就是OCR,那是OCR不出的效果 ,如果印前应该一模一样。
回复

使用道具 举报

发表于 2024-8-23 10:38:52 | 显示全部楼层
OCR转换分为转换为可复制的PDF和可编辑的PDF两种,最早时候我也喜欢转换成可编辑PDF,但渐渐发现有些毛病无法解决,比如特殊字体无法相同字体替换显示效果很差、特殊符号公式容易出错,最关键的是需要校对,识别精度总无法百分之百的,所以现在我都是转换成可复制的PDF
回复

使用道具 举报

发表于 2024-8-23 17:00:34 | 显示全部楼层
Ballistic 发表于 2024-8-20 12:15
您需要满足以下条件才能访问这个版块

访问条件:

52好像有个每周几开注的。
其实买个官方的邀请也不贵。
看个人需求了。

之前@鬼笔环肽 说的那个图片识别,我也有看到,最后有人说联网OCR目前WPS最强,有可能其确实有很多独到之处?


回复

使用道具 举报

发表于 2024-8-23 17:05:39 | 显示全部楼层
dscer 发表于 2024-8-23 10:38
OCR转换分为转换为可复制的PDF和可编辑的PDF两种,最早时候我也喜欢转换成可编辑PDF,但渐渐发现有些毛病无 ...

谢谢指导,不知道园子里面有没有关于PDF软件与各种基础知识的普及帖子。

总感觉PDF这个格式很常见,但是一看你们介绍与应用,又觉得一点也不了解,只能吃别人送过来的现成的菜。

回复

使用道具 举报

发表于 2024-8-24 09:52:04 来自手机 | 显示全部楼层
扫描版pdf比pdg文件大了将近一倍,不知道是怎么回事,照理说应该差不多大的。
回复

使用道具 举报

 楼主| 发表于 2024-8-24 10:10:36 | 显示全部楼层
meibf 发表于 2024-8-24 09:52
扫描版pdf比pdg文件大了将近一倍,不知道是怎么回事,照理说应该差不多大的。 ...

帖子里分享的扫描版pdf不是论坛里的清晰PDG版本转换的,估计是个人扫描的?
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 注册

本版积分规则

Archiver|手机版|小黑屋|网上读书园地

GMT+8, 2024-11-15 14:22 , Processed in 0.409930 second(s), 29 queries .

Powered by Discuz! X3.5

© 2001-2024 Discuz! Team.

快速回复 返回顶部 返回列表