找回密码
 注册
搜索
热搜: 超星 读书 找书
查看: 658|回复: 33

[【原创】] 几种ocr软件对比

[复制链接]
发表于 2024-12-7 16:39:05 | 显示全部楼层 |阅读模式

将同一本书《有机反应机理的书写艺术》,用不同的ocr识别软件识别。下面将书中的一页作为例子展示。


1.umi-ocr 识别速度较快,这本书360页,识别完成约14分钟。
软件有rapid和paddle两种识别引擎。两个识别结果相差不大,单这一页来说,paddle识别更好。

rapid引擎识别结果

卡宾
有机反应机理的书写艺术
类短暂存在的有机物,形式上既亲核又亲电,尽管亲电性占主导。卡宾,二
价,六电子含碳化合物(CR2),有一对未共用电子对。你可以把它们看作士CR2或:CR2。(形
式电荷不用“士"符号表示!)最常见的卡宾是CCI2,由CHCl3:和强碱反应生成,用于从烯烃制备
被视为特别稳定的卡宾。卡宾在第2章和第5章会有更详细的讨论。
3.酸性和碱性反应条件以及 pKa 规则
极性反应通常发生在酸性或碱性条件下,两种条件下发生反应的机理特点完全不同
学会分辨极性反应在酸性或碱性条件下进行非常重要,为了确定特定的反应条件,按照这些
步骤的顺序进行操作:
(1)如果存在酸,则反应条件为酸性。以下是你通常会遇到的酸:
质子酸,H+。
无机酸,如 HCl 或 H2SO4。
羧酸(RCO2 H),如 HCO2 H、CH, CO2 H(AcOH)或 CF, CO2 H(TFA)
磺酸(RSO; H),如 MsOH、TsOH、CSA 或 CF;SO, H(TfOH)。
具有+N一H键的铵盐,如 NH4CI或吡啶对甲苯磺酸盐(PPTS)。
Lewis 酸,如BF3、AlCl、TiCl4、ZnClz、SnCl4、FeCl,Ag(I)盐,镧系盐,如
Sc(OTf)3,或具有金属-碳键的某些化合物,其中金属不足八电子,如Me3A1、Et2AlCl和
Et2Zn.
(2) 如果反应条件不是酸性的,则可能是碱性的,寻找下列碱性条件指标
未指定正离子的负离子,如HO或-CN。
碱金属盐,如NaOH、KCN或LiCl。在这些情况下,金属-非金属键异裂,产生金属
正离子和非金属负离子。
·氢与电正性金属之间成键的化合物(如NaH、NaBH4和LiAIH4)。
·碳与电正性金属之间成键的化合物(如CHLi和PhMgBr),假设你还没有确定这种
化合物是Lewis酸。
·不带电的胺、酰胺和类似化合物。
(3) 如果上述指标均不存在,但反应的一个产物是强酸,如无机酸或磺酸,则反应条件
为隐性酸性。(使用术语“隐性酸性”,因为反应方程式通常省略酸性副产物。)例如,Me;CCI
在MeOH中加热反应生成MeOCMe3,在极性非质子溶剂中加热反应生成H2C=CMe2。这
两种反应都是在隐性酸性条件下进行的,因为在这两种情况下反应都会生成HC1副产物。
(4);如果仍然没有上述指标,那么寻找含有重原子的化合物,通常是不带电的和非质子
的,如在Me2S或PhgP中。如果反应混合物含有这样的化合物,那么你可以认为反应条件
是碱性的。
常见错误提醒:水和醇本身并不表示酸性或碱性条件。在酸性或碱性条件下都可以
存在。
有些亲核试剂是强碱,则在酸性条件下进行的反应它们是不能用的;在这些条件下,它
们只会与酸或H+反应,变得不太亲核。相反,有些亲电试剂是强酸,则它们在碱性条件下


paddle引擎识别结果

卡宾
有机反应机理的书写艺术
类短暂存在的有机物,形式上既亲核文亲电:尽管亲电性占主导。卡宾,二,
价,六电子含碳化合物(CR),有一对未共用电子对。你可以把它付看作士CR。2或:CR².(形
式电荷不用“士”符号表示!最常见的卡宾是CCI2,由CHCl3 和强碱反应生成,用于从烯烃制备,
二氯环丙烷。一氧化碳(:O=C:→:O=C:)和异腈(R一N=C:→R—N=C:)可
被视为特别稳定的卡宾。卡宾在第 2 章和第 5 章会有更详细的讨论。
3.酸性和碱性反应条件以及 pKa规则
极性反应通常发生在酸性或碱性条件下,两种条件下发生反应的机理特点完全不同
学会分瓣极性反应在酸性或碱性条件下进行非常重要,为了确定特定的反应条件,按照这些
步骤的顺序进行操作:
(1) 如果存在酸,则反应条件为酸性。以下是你通常会遇到的酸:
质子酸,H+,
无机酸,如 HCl 或 H2SO4
羧酸(RCO2 H),如 HCO2H,CH3 CO H(AcOH)或 CF3CO2H(TFA)
磺酸(RSOH)如 MsOH、TsOH、CSA 或 CF,SO H(TfOH)。
具有+N一H键的铵盐,如 NH4Cl或吡啶对甲苯磺酸盐(PPTS)。
Lewis 酸,如BF3、AlCl3、TiCl4、ZnClz、SnCl4、FeCl3:Ag(1)盐,镧 系 盐,如
Sc(OI)3,或具有金属-碳键的某些化合物,其中金属不足八电子,如Me3 Al、Et2AlCl 和
Et2Zn。
(2) 如果反应条件不是酸性的,则可能是碱性的,寻找下列碱性条件指标
,未指定正离子的负离子,如 HO~或一CN。
碱金属盐,如 NaOH、KCN或LiCl。在这些情况下,金属-非金属键异裂,产生金属
正离子和非金属负离子,
,氢与电正性金属之间成键的化合物(如 NaH、NaBH4和LiAIH4),
,碳与电正性金属之间成键的化合物(如CH3Li和 PhMgBr),假设你还没有确定这科
化合物是 Lewis 酸。
,不带电的胺、酰胺和类似化合物。
(3) 如果上述指标均不存在,但反应的一个产物是强酸,如无机酸或磺酸,则反应条件
为隐性酸性。(使用术语“隐性酸性”,因为反应方程式通常省略酸性副产物。)例如,Me3CCI
在 MeOH 中加热反应生成 MeOCMe3,在极性非质子溶剂中加热反应生成 H2CCMe2。这
两种反应都是在隐性酸性条件下进行的,因为在这两种情况下反应都会生成 HCl副产物
(4) 如果仍然没有上述指标,那么寻找含有重原子的化合物,通常是不带电的和非质子
的,如在 Me2S或Ph3P中。如果反应混合物含有这样的化合物,那么你可以认为反应条件
是碱性的。
常见错误提醒:水和醇本身并不表示酸性或碱性条件。在酸性或碱性条件下都可以
存在。 
有些亲核试剂是强碱,则在酸性条件下进行的反应它们是不能用的;在这些条件下,它
们只会与酸或H+反应,变得不太亲核。相反,有些亲电试剂是强酸,则它们在碱性条件下


2.Acrobat 识别速度较快,错误较多。
识别结果:

卡宾一一类短暂存在的有机物,形式上既亲核又亲电,尽管亲电性占主导。卡宾,二
价,六电子含碳化合物(CR2) ,有一对未共用电子对。你可以把它们看作士C凡或: C凡。(形
式电荷不用“土“符号表示!)最常见的卡宾是CCl2 ,由CHCb 和强碱反应生成,用于从烯经制备
二氯环丙烧。一氧化碳C : O=C : ------ : O二C: )和异腊(R-N=C: ------R— N圭c
被视为特别稳定的卡宾。卡宾在第2 章和第5 章会有更详细的讨论。
3. 酸性和碱性反应条件以及pKa 规则
极性反应通常发生在酸性或碱性条件下,两种条件下发生反应的机理特点完全不同。
学会分辨极性反应在酸性或碱性条件下进行非常重要,为了确定特定的反应条件,按照这些
步骤的顺序进行操作:
(1) 如果存在酸,则反应条件为酸性。以下是你通常会遇到的酸:
·质子酸, H勹
·无机酸,如HCl 或H2S04o
·狻酸(RC0卫),如HCO卫、CH3C02HCAcOH) 或CF3C02H(TFA) 。
·磺酸(RS03H) ,如MsOH 、TsOH 、CSA 或CF3S03H(TfOH) 。
·具有十N-H 键的按盐,如NH4Cl 或毗唗对甲苯磺酸盐(PPTS) 。
• Lewis 酸,如BF3 、AlC从TiC14 、ZnCl2 、SnCl4 、FeCl3, Ag C I) 盐,铡系盐,如
Sc(OTf)3 ,或具有金属-碳键的某些化合物,其中金属不足八电子,如Me3Al 、Et2 AlCl 和
Et2Zn 。
(2) 如果反应条件不是酸性的,则可能是碱性的,寻找下列碱性条件指标:
·未指定正离子的负离子,如HO一或- CN 。
·碱金属盐,如NaOH 、KCN 或LiCl 。在这些情况下,金属-非金属键异裂,产生金属
正离子和非金属负离子。
·氢与电正性金属之间成键的化合物(如NaH 、NaB比和LiAlH4) 。
·碳与电正性金属之间成键的化合物(如CH3Li 和PhMgBr) ,假设你还没有确定这种
化合物是Lewis 酸。
·不带电的胺、酰胺和类似化合物。
(3) 如果上述指标均不存在,但反应的一个产物是强酸,如无机酸或磺酸,则反应条件
为隐性酸性。(使用术语“隐性酸性”,因为反应方程式通常省略酸性副产物。)例如, Me3CCl
在MeOH 中加热反应生成MeOCMe3 ,在极性非质子溶剂中加热反应生成压C=CMe2 。这
两种反应都是在隐性酸性条件下进行的,因为在这两种情况下反应都会生成HCl 副产物。
(4) 如果仍然没有上述指标,那么寻找含有重原子的化合物,通常是不带电的和非质子
的,如在Me2S 或Ph3P 中。如果反应混合物含有这样的化合物,那么你可以认为反应条件
是碱性的。
常见错误提醒:水和醇本身并不表示酸性或碱性条件。在酸性或碱性条件下都可以
存在。
有些亲核试剂是强碱,则在酸性条件下进行的反应它们是不能用的;在这些条件下,它
们只会与酸或H十反应,变得不太亲核。相反,有些亲电试剂是强酸,则它们在碱性条件下


3.pdf24 tools (在线识别网站)识别与acrobat结果相差不大。不知道为何每个字之间有空格。
识别结果:
机 反应 机 理 的 书写 艺术
卡宾 一 一 一 类 短暂 存在 的 有 机 物 ,形式 上 既 亲 核 又 亲 电 ,尽管 亲 电 性 占 主导 。 卡 宾 , 二
价 , 六 电子 含 碳化 合 物 (CR2 ,有 一 对 未 共用 电子 对 。 你 可 以 把 它们 看 作 士 CR。 或 : CR: 。( 形
式 电 从 不 用 士 ” 符 号 表示 1 最 常 抑 的 卡宾 是 CCl ,由 CHCl 和 强 碱 反应 生成 ,用 于 从 贤 烃 制备
二毛 环 两 烧 。 一 氧化 碳 ( :OO=C: <_ > : O=C 和 异 且 (R-N=C: >< =R一 N= CG
被 视 为 特别 稳定 的 卡宾 。 卡 宾 在 第 2 章 和 第 5 章 会 有 更 详细 的 讨论 。
3. 酸性 和 碱 性 反应 条 件 以 及 PKa 规则
极 性 反应 通常 发 生 在 酸性 或 碱 性 条 件 下 , 两 种 条 件 下 发 生 反 应 的 机 理 特 点 完全 不 同 。
学 会 分 辨 极 性 反应 在 酸性 或 碱 性 条 件 下 进行 非常 重要 ,为 了 确定 特定 的 反应 条 件 ,按照这 些
步的 骤顺序 进行 操作 :
(1) 如 果 存 在 酸 , 则 反应 条 件 为 酸性 。 以 下 是 你 通常 会 遇 到 的 酸 :
。 质子 酸 ,H”。
。 无 机 酸 ,如 HRCI 或 有 :SO 。
。 羧 酸 (RCO,H) ,如 HCO,H.CHsCO, HICAcOH) 或 CF:CO HOTFA) 。
。 磺酸 ( RSO:H) ,如 MsOH .TsOH .CSA 或 CF:SO;,HCTIOHD) 。
。 具 有”* N 一 键的 镁 盐 , 如 NH.CIl 或 吡啶 对 甲苯 磺 酸 盐 (PPTS) 。
", Lewis 酸 , 如 BF 、AlCl 、TiCl 、ZnCl 、SnCl 、FeCl, Ag ( 工 ) 盐 , 铜 系 起, 如
Sc(OTf)i ,或 具有 金属 - 碳 键 的 某 些 化 合 物 , 其 中 金属 不 足 八 电子 ,如 Mes Al、Ets AlCl 和
了 上 tzZn。
《2) 如 果 反 应 条 件 不 是 酸性 的 , 则 可 能 是 碱 性 的 ,寻找 下 列 碱 性 条 件 指标
”未 指定 正 离子 的 负离子 ,如 HO或- “C N。
。 碱 金属盐 , 如 NaOH KCN 或 LiCl。 在 这 些 情 况 下 ,金属 - 非 金 属 键 异 裂 , 产 生 金 属
正 离 子 和 非 金属 负离子 。
。 氢 与 电 正 性 金属 之 间 成 键 的 化 合 物 ( 如 NaH NaBH: 和 LiAIH4)。
。 碳 与 电 正 性 金属 之 间 成 键 的 化 合 物 ( 如 CHi 和 PhMgBr) ,假你 还 没设有 确定 这 种
化 合 物 是 Lewis 酸 。
。 不 带电 的 胺 .酰胺 和 类 似 化 合 物 。
《3) 如 果 上 述 指标 均 不 存在 ,但 反应 的 一 个 产物 是 强酸 ,如 无 机 酸 或 磺 酸 , 则 反应 条 件
为 隐 性 酸性 。( 使 用 术语 “ 隐 性 酸性 ”, 因为 反应 方程 式 通常 省 略 酸性 副 产 物 .) 例 如 ,Mes CCl
在 MeOH 中 加 热 反应生 成 MeOCMes ,在 极 性 非 质子 溶剂 中 加 热 反应生 成 Hz一C CM es 。 这
两 种 反应 都 是 在 隐 性 酸性 条 件 下 进行 的 ,因为 在 这 两 种 情况 下 反应 都 会 生成 HC1 副 产 物 。
《4) 如 果 仍 然 没 有 上 述 指标 ,那么 寻找 含有 重 原 子 的 化 合 物 ,通常 是 不 带电 的 和 非 质子
的 ,如 在 MesS 或 PhP 中 。 如 果 反 应 混合 物 含有 这 样 的 化 合 物 ,那么 你 可 以 认为 反应 条 件
是碱 性 的 。
常见 错误 提醒 :水 和 醇 本 身 并 不 表示 酸性 或 碱 性 条 件 。 在 酸性 或 碱 性 条 件 下 都 可 以
存在 。
有 些 亲 核 试剂 是 强 碱 , 则 在 酸性 条 件 下 进行 的 反应 它们 是 不 能 用 的 ;在 这 些 条 件 下 , 它
们 只 会 与 酸 或 H 反 应 , 变 得 不 太 亲 核 。 相 反 , 有 些 亲 电 试剂 是 强酸 , 则 它们 在 碱 性 条 件 下
32


4.MinerU (可在线也有客户端):识别效果最好,但是只能输出md格式,不知道能不能制作双层pdf

识别结果(在线识别)



本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?注册

×

评分

1

查看全部评分

本帖被以下淘专辑推荐:

回复

使用道具 举报

发表于 2024-12-7 16:55:50 | 显示全部楼层
doc2x不错
回复

使用道具 举报

 楼主| 发表于 2024-12-7 17:20:28 | 显示全部楼层

试了一下,效果最好,但是要收费



本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?注册

×

点评

看着确实不错,效果好收费也能接受,但是它这个年费会员限制额度太小了,不够用的  发表于 2024-12-8 13:39
回复

使用道具 举报

发表于 2024-12-7 18:37:32 | 显示全部楼层
wps楼主试过没?听说联网准确率挺高。
回复

使用道具 举报

 楼主| 发表于 2024-12-7 18:49:31 | 显示全部楼层
horsebojack 发表于 2024-12-7 18:37
wps楼主试过没?听说联网准确率挺高。

wps试了一下 结果如下


有机反应机理的书写艺术
卡宾———类短暂存在的有机物,形 式上既亲核又亲电,尽管亲电性占主导。卡宾,二 价,六电子含碳化合物(CR₂ ) ,有一对未共用电子对。你可以把它们看作±CR₂ 或 CR (形 式电荷不用“±”符号表示!)最常见的卡宾是CCl₂, 由 CHClg 和强碱反应生成,用于从烯烃制备 二氯环丙烷。一氧化碳( : Ö= C ! ~ → : =C : )和异腈(R-N=C : → R-k=C : )可 被视为特别稳定的卡宾。卡宾在第2章和第5章会有更详细的讨论。
3.  酸性和碱性反应条件以及 pKa规则
极性反应通常发生在酸性或碱性条件下,两种条件下发生反应的机理特点完全不同 。 学会分辨极性反应在酸性或碱性条件下进行非常重要,为了确定特定的反应条件,按照这些  步骤的顺序进行操作:
(1) 如果存在酸,则反应条件为酸性 。以下是你通常会遇到的酸:
·  质子酸H+
·   HCl H SO
·  羧酸(RCO₂ H) , HCO₂H、CH₃ CO₂H(AcOH)或 CF₃ CO₂H(TFA) 。
·  磺酸(RSO₃H) , MsOH、TsOH、CSA或 CF₃SO₃H(TfOH) 。
·  具有+N — H键的铵盐,如 NH₄ Cl或吡啶对甲苯磺酸盐(PPTS) 。
·   Lewis 酸,如  BF₃ AlCl₃ TiCl.、ZnCl₂ SnCl FeCl₃,Ag ( I ) 盐,镧 系 盐,如 Sc(OTf)₃,或具有金属-碳键 的某些化合物,其 中金 属不足八电子,如 Me₃Al、Et₂AlCl 和
EtZn
(2) 如果反应条件不是酸性的,则可能是碱性的,寻找下列碱性条件指标:
·  未指定正离子的负离子,如 HO~ - CN。
·  碱金属盐,如 NaOH、KCN或 LiCl。在这些情况下,金属 -非金属键异裂,产生金属 正离子和非金属负离子。
·  氢与电正性金属之间成键的化合物(如 NaH、NaBH₄ LiAlH₄ )。
·  碳与电正性金属之间成键的化合物(如 CH₃ Li和 PhMgBr) ,假设你还没有确定这种 化合物是Lewis 酸 。
·  不带电的胺、酰胺和类似化合物。
(3) 如果上述指标均不存在,但反应的一个产物是强酸,如无机酸或磺酸,则反应条件 为隐性酸性 (使用术语“隐性酸性”, 因为反应方程式通常省略酸性副产物。)例如,Me₃CCl MeOH 中加热反应生成MeOCMeg,在极性非质子溶剂中加热反应生成H₂ C=CMe₂ 。这 两种反应都是在隐性酸性条件下进行的,因为在这两种情况下反应都会生成 HCl副产物。
(4) 如果仍然没有上述指标,那么寻找含有重原子的化合物,通常是不带电的和非质子 的,如在 Me₂S或 Ph₃P中。如果反应混合物含有这样的化合物,那 么你可以认为反应条件 是碱性的。
常见错误提醒:水 和醇本身并不表示酸性或碱性条件 。在 酸性或碱性条件下都可以 存在 。
有些亲核试剂是强碱,则在酸性条件下进行的反应它们是不能用的;在这些条件下,它 们只会与酸或H+反应,变得不太亲核。相反,有些亲电试剂是强酸,则 它们在碱性条件下
32

回复

使用道具 举报

发表于 2024-12-7 18:55:50 | 显示全部楼层
中文文本领域,常见字和生僻字的识别率都是合合最好,其它依次是有道、谷歌、阿里、百度、火山

如果识别公式,有收费、在线、支持中英文的 mathpix,和免费、本地、仅支持英语的 nougat。没比较过这俩,本地的我用着挺香

建议展示更少的数据,比如一两行,一眼就能看出区别
回复

使用道具 举报

 楼主| 发表于 2024-12-7 19:03:34 | 显示全部楼层
中文文本领域,常见字和生僻字的识别率都是合合最好,其它依次是有道、谷歌、阿里、百度、火山
这几个能制作双层PDF吗?

建议展示更少的数据,比如一两行,一眼就能看出区别
好的  我是怕展示少了 看不出区别来
回复

使用道具 举报

发表于 2024-12-7 19:41:56 | 显示全部楼层
随着AI技术的进步,准确率会越来越高的。在线识别过PDF文件,还可以接受,修改一些就行了
回复

使用道具 举报

 楼主| 发表于 2024-12-7 20:18:55 | 显示全部楼层
neuche 发表于 2024-12-7 19:41
随着AI技术的进步,准确率会越来越高的。在线识别过PDF文件,还可以接受,修改一些就行了 ...

是的 等着就行了 10年前是abbyy的天下
回复

使用道具 举报

发表于 2024-12-7 20:19:05 来自手机 | 显示全部楼层
fffzyzh 发表于 2024-12-7 17:20
试了一下,效果最好,但是要收费

如果是abbyy呢?
回复

使用道具 举报

 楼主| 发表于 2024-12-7 20:19:49 | 显示全部楼层

abbyy对于生僻字还是不大行
回复 1 0

使用道具 举报

发表于 2024-12-7 20:24:31 | 显示全部楼层
收藏学习一下。谢谢分享。
回复

使用道具 举报

 楼主| 发表于 2024-12-7 20:39:41 | 显示全部楼层
usays 发表于 2024-12-7 20:24
收藏学习一下。谢谢分享。

互相学习
回复

使用道具 举报

发表于 2024-12-7 20:39:41 | 显示全部楼层
我现在更想要识别的是抄本,即手写的,草书的,不规范的。
这些应该都不行吧。
回复

使用道具 举报

发表于 2024-12-7 20:42:32 | 显示全部楼层
小可拉好 发表于 2024-12-7 20:39
我现在更想要识别的是抄本,即手写的,草书的,不规范的。
这些应该都不行吧。 ...

草书你还想识别?
回复

使用道具 举报

 楼主| 发表于 2024-12-7 20:42:47 | 显示全部楼层
本帖最后由 fffzyzh 于 2024-12-7 20:45 编辑
小可拉好 发表于 2024-12-7 20:39
我现在更想要识别的是抄本,即手写的,草书的,不规范的。
这些应该都不行吧。 ...


可以用这个试试效果
https://ocr.wdku.net/index_handwriting



审核人:
黄海池
日期:
2023年11月10日
批准人:
陈凯
日期:
2023年11月10日

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?注册

×

评分

1

查看全部评分

回复

使用道具 举报

发表于 2024-12-7 20:50:10 | 显示全部楼层
fffzyzh 发表于 2024-12-7 20:42
可以用这个试试效果
https://ocr.wdku.net/index_handwriting

这种还是很简单的。
草书如果是规范的话,
也不是不可以ocr的,
当然也不是一般ocr软件和程序可以做到


回复

使用道具 举报

发表于 2024-12-7 21:09:57 | 显示全部楼层
fffzyzh 发表于 2024-12-7 20:42
可以用这个试试效果
https://ocr.wdku.net/index_handwriting

刚才测试了一张,没法看。
这种应该就是那种常规的吧。
稍微复杂一些的,就无办法了。


回复

使用道具 举报

发表于 2024-12-7 22:39:55 | 显示全部楼层
fffzyzh 发表于 2024-12-7 17:20
试了一下,效果最好,但是要收费

效果真不错,对理工生很友好。ocr时候的公式和符号简直头疼
回复

使用道具 举报

发表于 2024-12-8 03:30:26 | 显示全部楼层
aabby之前用的时候准确率比Acrobat好点,但是比较特殊的排版,准确率也不行,不知是不是版本的问题。但是速度还可以
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 注册

本版积分规则

Archiver|手机版|小黑屋|网上读书园地

GMT+8, 2024-12-22 23:13 , Processed in 0.247194 second(s), 7 queries , Redis On.

Powered by Discuz! X3.5

© 2001-2024 Discuz! Team.

快速回复 返回顶部 返回列表