anna图书馆-网上读书园地 - Powered by Discuz! Archiver

路飞发表于 2024-2-23 10:42:54

anna图书馆

有没有人关注这个？意思是以后读秀的书都可以从anna下载了？不知道是哪个大神提供了300T的书给anna:lol

zbyglls 发表于 2024-2-23 10:56:14

是的
他们要开发这个半成品的语料库
用于ai训练
恐怕
很可能chatgpt早就完成了这一步
遥遥领先
不是随便来的

鬼笔环肽 发表于 2024-2-23 11:00:25

前天他们刚把书表整理出来，文件有88g，太多了以至于看不出来有没有新书，大概包含中美百万和独秀各种秒传码里的内容，至于书籍文件啥时候能放出来，就不知道了，并且他们还想做OCR

zbyglls 发表于 2024-2-23 11:03:45

本帖最后由 zbyglls 于 2024-2-23 11:09 编辑

ocr这一步就是个问题
以超星那差强人意的扫描质量
对比
zlib现存的优质超大
英文优质书库（epub等）
就算是图片的pdf
ocr起来也要轻松
准确的多

横槊赋诗 发表于 2024-2-23 11:06:15

zbyglls 发表于 2024-2-23 11:03
ocr这一步就是个问题
以超星那差强人意的扫描质量

超星扫描哪里不好？一般的书似乎也够了吧

路飞发表于 2024-2-23 11:07:29

鬼笔环肽发表于 2024-2-23 11:00
前天他们刚把书表整理出来，文件有88g，太多了以至于看不出来有没有新书，大概包含中美百万和独秀各种秒传 ...

如果有2020-2023年的新书就好了

agent124 发表于 2024-2-23 11:14:21

zbyglls 发表于 2024-2-23 11:03
ocr这一步就是个问题
以超星那差强人意的扫描质量
对比

据说基于云而不是单机的ocr，识别率很高。有人说甚至150dpi都行。没试过。

david8866 发表于 2024-2-23 11:18:16

本帖最后由 david8866 于 2024-2-23 11:20 编辑

359T.......目前看不怎么多啊
++++++++++++++++++++++++++++++++++

独家访问：全球最大的中文非虚构图书馆藏，仅限LLM公司使用annas-blog.org, 2023-11-04, English version
独家访问：全球最大的中文非虚构图书馆藏，仅限LLM公司使用 - Anna’s Blog (annas-blog.org)

这是一篇简短的博客文章。我们正在寻找一些公司或机构，以换取独家早期访问权限，帮助我们处理我们收购的大量图书的OCR和文本提取。

高质量的学术文本对于培训LLMs非常有用。虽然我们的收藏是中文的，但这对于培训英语LLMs仍然有用：模型似乎编码概念和知识，而不考虑源语言。

为此，需要从扫描中提取文本。安娜档案馆从中获得了什么？为其用户提供了全文搜索的书籍。

因为我们的目标与LLM开发人员的目标相一致，所以我们正在寻找合作伙伴。如果您能够进行适当的OCR和文本提取，我们愿意为您提供一年的大规模独家访问权限。如果您愿意与我们分享整个流程的代码，我们愿意将该收藏品禁运更长时间。

按照这个表述，等到个人可以访问应该至少是一年以后了。

关于安娜的档案：Anna’s Archive 是一个非盈利性的开源搜索引擎，专门用于搜索“影子图书馆”。安娜的档案备份了 zlib、scihub以及libgen的书籍资源。并提供不限次数的下载。如需访问安娜的档案，请参考：安娜的档案（annas-archive）最新地址以及使用教程。 - 易书计划 (ssdown.org)

+++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++
关于收藏品的更多信息。读秀是由超星数字图书馆集团创建的大量扫描图书的数据库。大多数是学术图书，扫描以使它们可以数字化提供给大学和图书馆。对于我们的英语读者，普林斯顿大学和华盛顿大学有很好的概述。还有一篇关于此的优秀文章：“Digitizing Chinese Books: A Case Study of the SuperStar DuXiu Scholar Search Engine”（在Anna's Archive中查找）。读秀的图书长期以来一直在中国互联网上被盗版。通常它们被转售商以不到一美元的价格出售。它们通常使用中国版的Google Drive进行分发，该版曾经被黑客攻击以允许更多的存储空间。一些技术细节可以在这里和这里找到。尽管这些图书已经被半公开地分发，但是批量获取它们相当困难。我们将其列为我们的TODO清单中的重要事项，并为此分配了多个月的全职工作。然而，最近一位不可思议、了不起、才华横溢的志愿者联系了我们，告诉我们他们已经完成了所有这些工作，付出了巨大的代价。他们与我们分享了整个收藏品，没有期望任何回报，除了长期保存的保证。真正了不起。他们同意通过这种方式寻求帮助来进行OCR。这个收藏品有7,543,702个文件。这比Library Genesis的非虚构图书（约5.3百万）还要多。总文件大小约为359TB（326TiB）。我们对其他提议和想法持开放态度。只需联系我们。请访问Anna's Archive，了解有关我们的收藏品、保护工作以及您如何提供帮助的更多信息。谢谢！- Anna和团队

鬼笔环肽 发表于 2024-2-23 11:21:48

agent124 发表于 2024-2-23 11:14
据说基于云而不是单机的ocr，识别率很高。有人说甚至150dpi都行。没试过。
...

识别率高的贵，这种大批量的不可能有预算做很精准的ocr，之前见过一个更厉害的，可以完美识别竖版古籍的，一页要好几块

zbyglls 发表于 2024-2-23 11:24:46

鬼笔环肽发表于 2024-2-23 11:21
识别率高的贵，这种大批量的不可能有预算做很精准的ocr，之前见过一个更厉害的，可以完美识别竖版古籍的 ...

那是直接加人眼比对了:lol

zbyglls 发表于 2024-2-23 11:32:12

本帖最后由 zbyglls 于 2024-2-23 11:35 编辑

https://www.textin.com/experience/text_recognize_3d1
https://ai.baidu.com/tech/ocr/general

这两个是国内领先的新一代（算法、ai、大数据）ocr代表
有时间的话你可以测试一下
从pdg里面提取一下图片
图片选择，分类如下
简体中文
繁体竖拍
繁体横排
其他古籍以及版式复杂的报刊先算了

鬼笔环肽 发表于 2024-2-23 11:41:51

zbyglls 发表于 2024-2-23 11:24
那是直接加人眼比对了

古联OCR：https://ocr.ancientbooks.cn/index

https://txcdn.shuge.org/wp-content/uploads/hm_bbpui/78721/b0u03l8nmwhy83e4ensq2qw0jojr058n.png

https://txcdn.shuge.org/wp-content/uploads/hm_bbpui/78721/qyalx87jz8pipp21bk81kfw1yz8l47lx.png

linsx 发表于 2024-2-23 12:17:11

基本都是流出来的512w库的，没啥大用

superax 发表于 2024-2-23 12:28:12

鬼笔环肽发表于 2024-2-23 11:41
古联OCR：https://ocr.ancientbooks.cn/index

这个OCR质量看起来挺高的

小可拉好 发表于 2024-2-23 12:40:42

zbyglls 发表于 2024-2-23 11:32
https://www.textin.com/experience/text_recognize_3d1
https://ai.baidu.com/tech/ocr/general

试了一下第一个，用清代档案测试，效果还算可以，不能算差，也不算优秀。

小可拉好 发表于 2024-2-23 12:50:48

鬼笔环肽发表于 2024-2-23 11:41
古联OCR：https://ocr.ancientbooks.cn/index

和上面一位书友提供的ocr比较了一下
测试同一页

还是这个识别率好，毕竟是做古籍出身的
就是价格1.5页，量少也可以，量大的话，看个人经济能力吧。
有课题的适合，毕竟可以通过项目基金支付。

zbyglls 发表于 2024-2-23 14:02:32

本帖最后由 zbyglls 于 2024-2-23 14:04 编辑

小可拉好发表于 2024-2-23 12:50
和上面一位书友提供的ocr比较了一下
测试同一页

这个古联ocr
也是白给
:dizzy:
连九十年代出品老汉王都不如

小可拉好 发表于 2024-2-23 14:38:28

zbyglls 发表于 2024-2-23 14:02
这个古联ocr
也是白给

我测试的文件是手写的，不是这种。

xiazaiall 发表于 2024-2-23 16:46:19

这个anna只是久闻其名，未见其身。

小可拉好 发表于 2024-2-23 17:05:55

zbyglls 发表于 2024-2-23 14:02
这个古联ocr
也是白给

这个古联ocr基本上针对中国古籍识别，刻本，手写这种，市场上一般ocr软件都是不行。

页: [1] 2

网上读书园地's Archiver

anna图书馆