找回密码
 注册
搜索
热搜: 超星 读书 找书
查看: 260|回复: 18

[【心情日记】] 图片文字转换成文本

[复制链接]
发表于 2024-9-16 23:37:37 | 显示全部楼层 |阅读模式
一本书,图片版本,比较模糊一些,想将其转成文字可编辑版本,然后重新校核,可是用OCR软件一页一页识别文字太麻烦了,弄了两页感觉效率太低了。
回复

使用道具 举报

发表于 2024-9-16 23:39:15 | 显示全部楼层
你需要引用哪段文字时,再ocr那段。或者你看一遍书,有用的地方ocr一下。
回复

使用道具 举报

发表于 2024-9-17 00:06:47 | 显示全部楼层
直接全本转为word格式或者OCR成可复制版本。
回复

使用道具 举报

 楼主| 发表于 2024-9-22 19:38:37 | 显示全部楼层
zytxs 发表于 2024-9-17 00:06
直接全本转为word格式或者OCR成可复制版本。

没有这样子的软件,都是只能将某个页面OCR为文字。
回复

使用道具 举报

发表于 2024-9-22 19:56:59 | 显示全部楼层
欧阳静茹 发表于 2024-9-22 19:38
没有这样子的软件,都是只能将某个页面OCR为文字。

Google一下PDF XEdit 10或abbyy15或金山PDF等下载绿色版基本都能实现以上功能,另外很多网盘会员其实也支持PDF转Word,如百度网盘、夸克网盘等。我目前用过最好的转换工具是wps的SVIP自带的,转换效果与OCR效果都还不错。
回复

使用道具 举报

发表于 2024-9-22 21:33:15 | 显示全部楼层
欧阳静茹 发表于 2024-9-22 19:38
没有这样子的软件,都是只能将某个页面OCR为文字。

abbyy 就可以
不过如果页面不清晰,
ocr的效果就不好


回复

使用道具 举报

发表于 2024-9-22 21:56:02 | 显示全部楼层
zytxs 发表于 2024-9-22 19:56
Google一下PDF XEdit 10或abbyy15或金山PDF等下载绿色版基本都能实现以上功能,另外很多网盘会员其实也支 ...

金山的OCR效果很好,不知道SVIP价格如何,性价比还不错么?


如果有会员的,可以帮忙批量转换,方便大家。
回复

使用道具 举报

发表于 2024-9-23 10:59:22 | 显示全部楼层
欧阳静茹 发表于 2024-9-22 19:38
没有这样子的软件,都是只能将某个页面OCR为文字。

怎么可能没有
回复

使用道具 举报

 楼主| 发表于 2024-9-23 11:09:02 | 显示全部楼层

你是说有软件能将PDF扫描图片版大图书籍PDF文件一键转换生成文本吗?不妨推荐几款好用的识别正确率高的软件
回复

使用道具 举报

发表于 2024-9-23 11:19:34 | 显示全部楼层
本帖最后由 1994 于 2024-9-23 11:21 编辑
欧阳静茹 发表于 2024-9-23 11:09
你是说有软件能将PDF扫描图片版大图书籍PDF文件一键转换生成文本吗?不妨推荐几款好用的识别正确率高的软 ...

大多pdf软件均有ocr功能,福昕、文电通、acrobat、万兴、泰比以及wps等都可以

至于识别率,可能还要看谁的ai用的好,现在的反馈是wps好像效果不错

另外,还有一些网站可以用,例如Doc2X (noedgeai.com),不过现在好像不能用了
回复

使用道具 举报

发表于 2024-9-23 11:21:00 | 显示全部楼层
可以试试看先把图像处理得清晰一点,然后再OCR

“伪·高清”制作二例 - strnghrs - 博客园 (cnblogs.com)

评分

2

查看全部评分

回复

使用道具 举报

发表于 2024-9-23 11:22:01 | 显示全部楼层
欧阳静茹 发表于 2024-9-23 11:09
你是说有软件能将PDF扫描图片版大图书籍PDF文件一键转换生成文本吗?不妨推荐几款好用的识别正确率高的软 ...

abbyy ocr 编辑器

打开这个就可以识别整本书。
正确率和图片清晰度清洁情况有关系

回复

使用道具 举报

发表于 2024-9-23 11:23:33 | 显示全部楼层
花钱大法
回复

使用道具 举报

 楼主| 发表于 2024-9-23 11:28:18 | 显示全部楼层
小可拉好 发表于 2024-9-23 11:22
abbyy ocr 编辑器

打开这个就可以识别整本书。

目前也是用这个软件对单个页面进行识别,因为原文并不都是很清晰一致,还有图文混排、黑边、黑点、渐变、背透等情况,导致识别时出现些错误字符,还是得人工校对。
回复

使用道具 举报

发表于 2024-9-23 11:35:27 | 显示全部楼层
欧阳静茹 发表于 2024-9-23 11:28
目前也是用这个软件对单个页面进行识别,因为原文并不都是很清晰一致,还有图文混排、黑边、黑点、渐变、 ...

这个不是软件的问题,是你提供文件的问题

现在没有识别后不需要人工校对的软件
再优秀的软件识别出来也需要人工校对
我自己ocr过近百本书,有的书经过文字三校
按照楼上有老马先生的教程处理页面。

回复

使用道具 举报

发表于 2024-9-23 15:47:40 | 显示全部楼层
本帖最后由 tenelims 于 2024-9-23 22:30 编辑

OCR最麻烦的不是文字校对,而是图文混排后的格式调整
不知道有什么好方法没有,果然不是最好的选择。


前面打错字了。
回复

使用道具 举报

发表于 2024-9-23 17:51:23 来自手机 | 显示全部楼层
花钱买pdf转ocr的服务,只要钱到位一切都好说。
回复

使用道具 举报

发表于 2024-9-23 17:55:19 | 显示全部楼层
tenelims 发表于 2024-9-23 15:47
OCR最麻烦的不是文字校对,而是图文党坚势盛后的格式。
不知道有什么好方法没有,果然还是最好的选择。
...

你ocr的目的什么?
要文字还是要图?

回复

使用道具 举报

发表于 2024-9-23 22:31:18 | 显示全部楼层
小可拉好 发表于 2024-9-23 17:55
你ocr的目的什么?
要文字还是要图?

图文混排的OCR目的是方便搜索,但是校对太麻烦,双层PDF也许是更优选择。

前面打错字,千万了理解偏差。
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 注册

本版积分规则

Archiver|手机版|小黑屋|网上读书园地

GMT+8, 2024-12-23 23:50 , Processed in 0.243945 second(s), 5 queries , Redis On.

Powered by Discuz! X3.5

© 2001-2024 Discuz! Team.

快速回复 返回顶部 返回列表