欧阳静茹 发表于 2024-9-16 23:37:37

图片文字转换成文本

一本书,图片版本,比较模糊一些,想将其转成文字可编辑版本,然后重新校核,可是用OCR软件一页一页识别文字太麻烦了,弄了两页感觉效率太低了。

agent124 发表于 2024-9-16 23:39:15

你需要引用哪段文字时,再ocr那段。或者你看一遍书,有用的地方ocr一下。

zytxs 发表于 2024-9-17 00:06:47

直接全本转为word格式或者OCR成可复制版本。

欧阳静茹 发表于 2024-9-22 19:38:37

zytxs 发表于 2024-9-17 00:06
直接全本转为word格式或者OCR成可复制版本。

没有这样子的软件,都是只能将某个页面OCR为文字。

zytxs 发表于 2024-9-22 19:56:59

欧阳静茹 发表于 2024-9-22 19:38
没有这样子的软件,都是只能将某个页面OCR为文字。

Google一下PDF XEdit 10或abbyy15或金山PDF等下载绿色版基本都能实现以上功能,另外很多网盘会员其实也支持PDF转Word,如百度网盘、夸克网盘等。我目前用过最好的转换工具是wps的SVIP自带的,转换效果与OCR效果都还不错。

小可拉好 发表于 2024-9-22 21:33:15

欧阳静茹 发表于 2024-9-22 19:38
没有这样子的软件,都是只能将某个页面OCR为文字。

abbyy 就可以
不过如果页面不清晰,
ocr的效果就不好


MeiZone 发表于 2024-9-22 21:56:02

zytxs 发表于 2024-9-22 19:56
Google一下PDF XEdit 10或abbyy15或金山PDF等下载绿色版基本都能实现以上功能,另外很多网盘会员其实也支 ...

金山的OCR效果很好,不知道SVIP价格如何,性价比还不错么?


如果有会员的,可以帮忙批量转换,方便大家。

1994 发表于 2024-9-23 10:59:22

欧阳静茹 发表于 2024-9-22 19:38
没有这样子的软件,都是只能将某个页面OCR为文字。

怎么可能没有

欧阳静茹 发表于 2024-9-23 11:09:02

1994 发表于 2024-9-23 10:59
怎么可能没有

你是说有软件能将PDF扫描图片版大图书籍PDF文件一键转换生成文本吗?不妨推荐几款好用的识别正确率高的软件

1994 发表于 2024-9-23 11:19:34

本帖最后由 1994 于 2024-9-23 11:21 编辑

欧阳静茹 发表于 2024-9-23 11:09
你是说有软件能将PDF扫描图片版大图书籍PDF文件一键转换生成文本吗?不妨推荐几款好用的识别正确率高的软 ...
大多pdf软件均有ocr功能,福昕、文电通、acrobat、万兴、泰比以及wps等都可以

至于识别率,可能还要看谁的ai用的好,现在的反馈是wps好像效果不错

另外,还有一些网站可以用,例如Doc2X (noedgeai.com),不过现在好像不能用了

strnghrs 发表于 2024-9-23 11:21:00

可以试试看先把图像处理得清晰一点,然后再OCR

“伪·高清”制作二例 - strnghrs - 博客园 (cnblogs.com)

小可拉好 发表于 2024-9-23 11:22:01

欧阳静茹 发表于 2024-9-23 11:09
你是说有软件能将PDF扫描图片版大图书籍PDF文件一键转换生成文本吗?不妨推荐几款好用的识别正确率高的软 ...

abbyy ocr 编辑器

打开这个就可以识别整本书。
正确率和图片清晰度清洁情况有关系

西屋主人 发表于 2024-9-23 11:23:33

花钱大法

欧阳静茹 发表于 2024-9-23 11:28:18

小可拉好 发表于 2024-9-23 11:22
abbyy ocr 编辑器

打开这个就可以识别整本书。


目前也是用这个软件对单个页面进行识别,因为原文并不都是很清晰一致,还有图文混排、黑边、黑点、渐变、背透等情况,导致识别时出现些错误字符,还是得人工校对。

小可拉好 发表于 2024-9-23 11:35:27

欧阳静茹 发表于 2024-9-23 11:28
目前也是用这个软件对单个页面进行识别,因为原文并不都是很清晰一致,还有图文混排、黑边、黑点、渐变、 ...

这个不是软件的问题,是你提供文件的问题

现在没有识别后不需要人工校对的软件
再优秀的软件识别出来也需要人工校对
我自己ocr过近百本书,有的书经过文字三校
按照楼上有老马先生的教程处理页面。

tenelims 发表于 2024-9-23 15:47:40

本帖最后由 tenelims 于 2024-9-23 22:30 编辑

OCR最麻烦的不是文字校对,而是图文混排后的格式调整。
不知道有什么好方法没有,果然不是最好的选择。


前面打错字了。

meibf 发表于 2024-9-23 17:51:23

花钱买pdf转ocr的服务,只要钱到位一切都好说。

小可拉好 发表于 2024-9-23 17:55:19

tenelims 发表于 2024-9-23 15:47
OCR最麻烦的不是文字校对,而是图文党坚势盛后的格式。
不知道有什么好方法没有,果然还是最好的选择。
...

你ocr的目的什么?
要文字还是要图?

tenelims 发表于 2024-9-23 22:31:18

小可拉好 发表于 2024-9-23 17:55
你ocr的目的什么?
要文字还是要图?

图文混排的OCR目的是方便搜索,但是校对太麻烦,双层PDF也许是更优选择。

前面打错字,千万了理解偏差。
页: [1]
查看完整版本: 图片文字转换成文本