路飞 发表于 2024-2-23 10:42:54

anna图书馆



有没有人关注这个?意思是以后读秀的书都可以从anna下载了?不知道是哪个大神提供了300T的书给anna:lol

zbyglls 发表于 2024-2-23 10:56:14

是的
他们要开发这个半成品的语料库
用于ai训练
恐怕
很可能chatgpt早就完成了这一步
遥遥领先
不是随便来的

鬼笔环肽 发表于 2024-2-23 11:00:25

前天他们刚把书表整理出来,文件有88g,太多了以至于看不出来有没有新书,大概包含中美百万和独秀各种秒传码里的内容,至于书籍文件啥时候能放出来,就不知道了,并且他们还想做OCR

zbyglls 发表于 2024-2-23 11:03:45

本帖最后由 zbyglls 于 2024-2-23 11:09 编辑

ocr这一步就是个问题
以超星那差强人意的扫描质量
对比
zlib现存的优质超大
英文优质书库(epub等)
就算是图片的pdf
ocr起来也要轻松
准确的多

横槊赋诗 发表于 2024-2-23 11:06:15

zbyglls 发表于 2024-2-23 11:03
ocr这一步就是个问题
以超星那差强人意的扫描质量

超星扫描哪里不好?一般的书似乎也够了吧

路飞 发表于 2024-2-23 11:07:29

鬼笔环肽 发表于 2024-2-23 11:00
前天他们刚把书表整理出来,文件有88g,太多了以至于看不出来有没有新书,大概包含中美百万和独秀各种秒传 ...

如果有2020-2023年的新书就好了

agent124 发表于 2024-2-23 11:14:21

zbyglls 发表于 2024-2-23 11:03
ocr这一步就是个问题
以超星那差强人意的扫描质量
对比


据说基于云而不是单机的ocr,识别率很高。有人说甚至150dpi都行。没试过。

david8866 发表于 2024-2-23 11:18:16

本帖最后由 david8866 于 2024-2-23 11:20 编辑

359T.......目前看不怎么多啊
++++++++++++++++++++++++++++++++++

独家访问:全球最大的中文非虚构图书馆藏,仅限LLM公司使用annas-blog.org, 2023-11-04, English version
独家访问:全球最大的中文非虚构图书馆藏,仅限LLM公司使用 - Anna’s Blog (annas-blog.org)

这是一篇简短的博客文章。我们正在寻找一些公司或机构,以换取独家早期访问权限,帮助我们处理我们收购的大量图书的OCR和文本提取。

高质量的学术文本对于培训LLMs非常有用。虽然我们的收藏是中文的,但这对于培训英语LLMs仍然有用:模型似乎编码概念和知识,而不考虑源语言。

为此,需要从扫描中提取文本。安娜档案馆从中获得了什么?为其用户提供了全文搜索的书籍。

因为我们的目标与LLM开发人员的目标相一致,所以我们正在寻找合作伙伴。如果您能够进行适当的OCR和文本提取,我们愿意为您提供一年的大规模独家访问权限。如果您愿意与我们分享整个流程的代码,我们愿意将该收藏品禁运更长时间。

按照这个表述,等到个人可以访问应该至少是一年以后了。

关于安娜的档案:Anna’s Archive 是一个非盈利性的开源搜索引擎,专门用于搜索“影子图书馆”。安娜的档案备份了 zlib、scihub以及libgen的书籍资源。并提供不限次数的下载。如需访问安娜的档案,请参考:安娜的档案(annas-archive)最新地址以及使用教程。 - 易书计划 (ssdown.org)

+++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++
关于收藏品的更多信息。 读秀是由超星数字图书馆集团创建的大量扫描图书的数据库。大多数是学术图书,扫描以使它们可以数字化提供给大学和图书馆。对于我们的英语读者,普林斯顿大学和华盛顿大学有很好的概述。还有一篇关于此的优秀文章:“Digitizing Chinese Books: A Case Study of the SuperStar DuXiu Scholar Search Engine”(在Anna's Archive中查找)。读秀的图书长期以来一直在中国互联网上被盗版。通常它们被转售商以不到一美元的价格出售。它们通常使用中国版的Google Drive进行分发,该版曾经被黑客攻击以允许更多的存储空间。一些技术细节可以在这里和这里找到。尽管这些图书已经被半公开地分发,但是批量获取它们相当困难。我们将其列为我们的TODO清单中的重要事项,并为此分配了多个月的全职工作。然而,最近一位不可思议、了不起、才华横溢的志愿者联系了我们,告诉我们他们已经完成了所有这些工作,付出了巨大的代价。他们与我们分享了整个收藏品,没有期望任何回报,除了长期保存的保证。真正了不起。他们同意通过这种方式寻求帮助来进行OCR。这个收藏品有7,543,702个文件。这比Library Genesis的非虚构图书(约5.3百万)还要多。总文件大小约为359TB(326TiB)。我们对其他提议和想法持开放态度。只需联系我们。请访问Anna's Archive,了解有关我们的收藏品、保护工作以及您如何提供帮助的更多信息。谢谢!- Anna和团队

鬼笔环肽 发表于 2024-2-23 11:21:48

agent124 发表于 2024-2-23 11:14
据说基于云而不是单机的ocr,识别率很高。有人说甚至150dpi都行。没试过。
...

识别率高的贵,这种大批量的不可能有预算做很精准的ocr,之前见过一个更厉害的,可以完美识别竖版古籍的,一页要好几块

zbyglls 发表于 2024-2-23 11:24:46

鬼笔环肽 发表于 2024-2-23 11:21
识别率高的贵,这种大批量的不可能有预算做很精准的ocr,之前见过一个更厉害的,可以完美识别竖版古籍的 ...

那是直接加人眼比对了:lol

zbyglls 发表于 2024-2-23 11:32:12

本帖最后由 zbyglls 于 2024-2-23 11:35 编辑

https://www.textin.com/experience/text_recognize_3d1
https://ai.baidu.com/tech/ocr/general

这两个是国内领先的新一代(算法、ai、大数据)ocr代表
有时间的话你可以测试一下
从pdg里面提取一下图片
图片选择,分类如下
简体中文
繁体竖拍
繁体横排
其他古籍以及版式复杂的报刊先算了

鬼笔环肽 发表于 2024-2-23 11:41:51

zbyglls 发表于 2024-2-23 11:24
那是直接加人眼比对了

古联OCR:https://ocr.ancientbooks.cn/index


https://txcdn.shuge.org/wp-content/uploads/hm_bbpui/78721/b0u03l8nmwhy83e4ensq2qw0jojr058n.png


https://txcdn.shuge.org/wp-content/uploads/hm_bbpui/78721/qyalx87jz8pipp21bk81kfw1yz8l47lx.png

linsx 发表于 2024-2-23 12:17:11

基本都是流出来的512w库的,没啥大用

superax 发表于 2024-2-23 12:28:12

鬼笔环肽 发表于 2024-2-23 11:41
古联OCR:https://ocr.ancientbooks.cn/index

这个OCR质量看起来挺高的

小可拉好 发表于 2024-2-23 12:40:42

zbyglls 发表于 2024-2-23 11:32
https://www.textin.com/experience/text_recognize_3d1
https://ai.baidu.com/tech/ocr/general



试了一下第一个,用清代档案测试,效果还算可以,不能算差,也不算优秀。

小可拉好 发表于 2024-2-23 12:50:48

鬼笔环肽 发表于 2024-2-23 11:41
古联OCR:https://ocr.ancientbooks.cn/index

和上面一位书友提供的ocr比较了一下
测试同一页

还是这个识别率好,毕竟是做古籍出身的
就是价格1.5页,量少也可以,量大的话,看个人经济能力吧。
有课题的适合,毕竟可以通过项目基金支付。


zbyglls 发表于 2024-2-23 14:02:32

本帖最后由 zbyglls 于 2024-2-23 14:04 编辑

小可拉好 发表于 2024-2-23 12:50
和上面一位书友提供的ocr比较了一下
测试同一页


这个古联ocr
也是白给
:dizzy:
连九十年代出品老汉王都不如


小可拉好 发表于 2024-2-23 14:38:28

zbyglls 发表于 2024-2-23 14:02
这个古联ocr
也是白给



我测试的文件是手写的,不是这种。


xiazaiall 发表于 2024-2-23 16:46:19

这个anna只是久闻其名,未见其身。

小可拉好 发表于 2024-2-23 17:05:55

zbyglls 发表于 2024-2-23 14:02
这个古联ocr
也是白给



这个古联ocr基本上针对中国古籍识别,刻本,手写这种,市场上一般ocr软件都是不行。
页: [1] 2
查看完整版本: anna图书馆