用户名  找回密码
 注册
搜索
热搜: 超星 读书 找书
查看: 552|回复: 32

[【心情日记】] ocr文字识别问题请教

[复制链接]
发表于 2025-2-19 08:33:26 | 显示全部楼层 |阅读模式
本帖最后由 jkllll 于 2025-2-19 08:55 编辑

我的需求很简单,将pdf文件识别生成txt格式,以便听书


一直是用abbyy finread14,用了多年了,但错误率太高
(我现在想听的基本上多是简体中文的现代书)

问题有二:
1,不知道现在有没有更好的识别软件?
2,听说有在线扫描识别服务,不知有木有用? 上哪去找?


预谢
回复

举报

发表于 2025-2-19 08:55:05 | 显示全部楼层
花钱最好,但是错误率是避不开的
回复

举报

 楼主| 发表于 2025-2-19 08:57:31 | 显示全部楼层
西屋主人 发表于 2025-2-19 08:55
花钱最好,但是错误率是避不开的

去哪找,花钱安都不知上哪花
回复

举报

 楼主| 发表于 2025-2-19 09:28:58 | 显示全部楼层
去淘宝,闲鱼看看?
回复

举报

发表于 2025-2-19 10:04:03 | 显示全部楼层
jkllll 发表于 2025-2-19 08:57
去哪找,花钱安都不知上哪花

微信读书有很多书啊,可以读
还有其他的电子书平台,多找找,什么epub、mobi、azw3格式
当然,也许,你要听的书没有文本。
那就只能自己做,
ocr的话,有钱的话,可以找那种收费的商业化ocr模型
也可以用abbyy,我用的是15,如果是纯中文文字的,我也觉得还可以。


评分

1

查看全部评分

回复

举报

 楼主| 发表于 2025-2-19 10:32:39 | 显示全部楼层
小可拉好 发表于 2025-2-19 10:04
微信读书有很多书啊,可以读
还有其他的电子书平台,多找找,什么epub、mobi、azw3格式
当然,也许,你要 ...

是的,现在文本版的很多,方便多了
很多都不用自己去识别了

刚好碰到一个没文本版的,所以问一下

回复

举报

发表于 2025-2-19 10:43:11 | 显示全部楼层
jkllll 发表于 2025-2-19 10:32
是的,现在文本版的很多,方便多了
很多都不用自己去识别了

论坛求助一下,看看其他人是否可以找到文本。
回复

举报

发表于 2025-2-19 14:59:56 | 显示全部楼层
微信识别就不错啊
回复

举报

发表于 2025-2-19 15:06:04 | 显示全部楼层
用wps吧,横排简体的OCR几乎无敌的。
回复

举报

 楼主| 发表于 2025-2-19 17:36:55 | 显示全部楼层
goldharp 发表于 2025-2-19 15:06
用wps吧,横排简体的OCR几乎无敌的。

wps好像不满足我的要求


图象只能一页一页的提取文字

没办法把整本书转换

可以转成word 格式,但还是图象的
回复

举报

 楼主| 发表于 2025-2-19 17:49:01 | 显示全部楼层
wps识别准确率高,可惜只能一页页的操作

是不是我没操作好
回复

举报

 楼主| 发表于 2025-2-19 18:44:46 | 显示全部楼层
小可拉好 发表于 2025-2-19 10:43
论坛求助一下,看看其他人是否可以找到文本。

弄了一天都不灵,看来只好求助了
回复

举报

发表于 2025-2-20 10:47:12 | 显示全部楼层
我上次也是看园地介绍,测试了doc2x,各种语言混排的,还不错,你可以试试。https://doc2x.noedgeai.com/pricing
回复

举报

 楼主| 发表于 2025-2-20 11:28:15 | 显示全部楼层
xuxiao 发表于 2025-2-20 10:47
我上次也是看园地介绍,测试了doc2x,各种语言混排的,还不错,你可以试试。https://doc2x.noedgeai.com/pr ...

谢谢,我现在找到一将就的办法,能满足基本需求,就不折腾了
回复

举报

发表于 2025-2-20 17:37:20 | 显示全部楼层
推荐提高识别率的方法,可以一试:

因好多PDF书都是扫描来的,扫描的质量不一,因此造成OCR时识别率降低。目前我采取的办法是:一把手里的PDF书尽量换成清晰版的,咨询来的一般页面大,分辨率低,体积大。如实在找不到更清晰的,只能用老马的CEP或者Real-ESRGAN技术变清晰后,再进行切边处理。如不喜欢无边书可裁时再加上。这样的书页本身从头至尾都比较规整,然后再OCR就可以提高识别率了。不妨试试看。
回复

举报

发表于 2025-2-20 22:03:59 | 显示全部楼层
目前国内的在线识别里面合合做的是不错的
https://b.intsig.com/ocr
回复

举报

发表于 2025-2-20 22:06:18 | 显示全部楼层
WPS就可以识别简体中文PDF,质量很是可以。
回复

举报

 楼主| 发表于 2025-2-21 00:28:22 | 显示全部楼层
本帖最后由 jkllll 于 2025-2-21 03:05 编辑
shujiyuandi 发表于 2025-2-20 22:06
WPS就可以识别简体中文PDF,质量很是可以。

wps识别准确率高,
可惜只能一页页的操作
图象只能一页一页的提取文字
没办法把整本书转换
不满足我的要求
主要是我的要求比较特别

点评

需要会员,会员是可以直接整本转换为word还不限制次数。  发表于 2025-2-21 11:45
回复

举报

发表于 2025-2-21 08:23:18 | 显示全部楼层
jkllll 发表于 2025-2-21 00:28
wps识别准确率高,
可惜只能一页页的操作
图象只能一页一页的提取文字

白描之类的也可以,每次可以识别50页。
回复

举报

 楼主| 发表于 2025-2-21 09:57:42 来自手机 | 显示全部楼层
shujiyuandi 发表于 2025-2-21 08:23
白描之类的也可以,每次可以识别50页。

听来不错,怎么操作呢?白描怎么选?好像又有扫描件这一选项
回复

举报

您需要登录后才可以回帖 登录 | 注册

本版积分规则

Archiver|手机版|小黑屋|网上读书园地

GMT+8, 2025-4-5 01:43 , Processed in 0.089473 second(s), 6 queries , Redis On.

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表