本帖最后由 david8866 于 2024-2-23 11:20 编辑
359T.......目前看不怎么多啊
++++++++++++++++++++++++++++++++++
独家访问:全球最大的中文非虚构图书馆藏,仅限LLM公司使用
独家访问:全球最大的中文非虚构图书馆藏,仅限LLM公司使用 - Anna’s Blog (annas-blog.org)
这是一篇简短的博客文章。我们正在寻找一些公司或机构,以换取独家早期访问权限,帮助我们处理我们收购的大量图书的OCR和文本提取。
高质量的学术文本对于培训LLMs非常有用。虽然我们的收藏是中文的,但这对于培训英语LLMs仍然有用:模型似乎编码概念和知识,而不考虑源语言。
为此,需要从扫描中提取文本。安娜档案馆从中获得了什么?为其用户提供了全文搜索的书籍。
因为我们的目标与LLM开发人员的目标相一致,所以我们正在寻找合作伙伴。如果您能够进行适当的OCR和文本提取,我们愿意为您提供一年的大规模独家访问权限。如果您愿意与我们分享整个流程的代码,我们愿意将该收藏品禁运更长时间。
按照这个表述,等到个人可以访问应该至少是一年以后了。
关于安娜的档案:Anna’s Archive 是一个非盈利性的开源搜索引擎,专门用于搜索“影子图书馆”。安娜的档案备份了 zlib、scihub以及libgen的书籍资源。并提供不限次数的下载。如需访问安娜的档案,请参考:安娜的档案(annas-archive)最新地址以及使用教程。 - 易书计划 (ssdown.org)
+++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++
读秀的图书长期以来一直在中国互联网上被盗版。通常它们被转售商以不到一美元的价格出售。它们通常使用中国版的Google Drive进行分发,该版曾经被黑客攻击以允许更多的存储空间。一些技术细节可以在这里和这里找到。 尽管这些图书已经被半公开地分发,但是批量获取它们相当困难。我们将其列为我们的TODO清单中的重要事项,并为此分配了多个月的全职工作。然而,最近一位不可思议、了不起、才华横溢的志愿者联系了我们,告诉我们他们已经完成了所有这些工作,付出了巨大的代价。他们与我们分享了整个收藏品,没有期望任何回报,除了长期保存的保证。真正了不起。他们同意通过这种方式寻求帮助来进行OCR。 这个收藏品有7,543,702个文件。这比Library Genesis的非虚构图书(约5.3百万)还要多。总文件大小约为359TB(326TiB)。 我们对其他提议和想法持开放态度。只需联系我们。请访问Anna's Archive,了解有关我们的收藏品、保护工作以及您如何提供帮助的更多信息。谢谢! - Anna和团队
|