找回密码
 注册
搜索
热搜: 超星 读书 找书
查看: 4345|回复: 74

[【心情日记】] 在zlib做审核的一天

[复制链接]
发表于 2024-3-2 12:34:28 | 显示全部楼层 |阅读模式
本帖最后由 鬼笔环肽 于 2024-3-2 18:35 编辑

zlibrary的书籍除了它自己从libgen爬过来的,基本来源都是由普通用户上传、由moderator逐个审核文件并确认发布。

经常看到很多网友抱怨说广告引流的书太多,我个人有空会做做Moderation,也对这种现象挺无力的。

一、现状是绝大部分书都是由少量用户使用FTP folders批量上传的,而审核却需要moderator人工挨个下载并查阅书籍。

可以看这两张我今天的截图。

先看左图,单是今天你一上午,由300多名用户上传了接近2w本书,而今天接近300位干活的moderator却只能审核并发布完2k本。为了让网友能尽快下载到,剩下大批量新上传的书,如果一直没被人工审核到,也会自动上架,由之后下载了这本书的用户提供评分和审核意见。
再看右图,zlib有奖励机制,多上传、多审核、多更正,都会奖励月会员。在榜的uploader每月人均15~20w本,而在榜的moderator每月最多人均审核几千本,就算不负责,一个劲点通过不看内容,也得每本手动下载、点“通过”,才能审下一本。

参与审核的用户基数太少,认真一本书最起码也得一两分钟,由于zlib允许上传多种格式的书籍(pdf, fb2, epub, lit, lrf, mobi, odt, rtf, snb, djvu, azw3, azw),每本书都需要moderator下载并调用合适的软件打开,需要查看书籍内容是否完整
,需要评判书籍排版和显示质量,需要校对上传者编辑的书籍信息是否有误,需要补充不完整的书籍信息,审核效率相比于上传效率,要低很多很多。

畅销书还好点,网上随手一搜都有完整的书籍信息,不管是上传者已经顺手填写好了,还是需要审核者再行补充,都相对容易一些。但更多扫描书、老书、小众书,网上都不一定搜得到出版信息,需要花时间从书里找相关信息并补充。





二、现在无良书贩子太多太多了,比如我今天审了大概30本,有六七成都是公众号引流垃圾书。

比如这30本里,有一个上传网络涩图写真的,有一个上传佛经的,有几个上传普通书的,剩下的单是今天这30本内,我就遇到了七八个ID,批量上传了下图这种垃圾文件(PDF体积只有几M,一二十页,仅包含封面、目录,无正文内容或只有很少一部分,每页都有引流信息,诱导你找对方付费获取。)

这只是举个栗子,类似的无良书贩子很多很多,给各种网站、公众号、个体户引流打广告,如果只是在书里加个水印插几条广告也就算了,但更多都是类似这种,拿垃圾文件恶心别人。

遇到认真的moderator肯定就把它们都拒了并举报上传者,但它们完全可以自己一边做uploader一边做moderator,跳过其他uploader的内容,只审核自己人的内容,然后直接通过,其他moderator根本无力阻拦。

并且很多moderator,为了加快审核进度,一般都会根据自己会的语言,选择不止一种语言的书籍进行审核,遇到非母语的书籍,很难快速并准确辨认出书籍内容是否完整。





评分

3

查看全部评分

回复

使用道具 举报

发表于 2024-3-2 12:36:27 | 显示全部楼层
我觉得电子书网站也可以转型,允许分享网页、软件、音乐什么的,像Internet archive那样。本坛也可以考虑。
回复

使用道具 举报

 楼主| 发表于 2024-3-2 12:43:17 | 显示全部楼层
横槊赋诗 发表于 2024-3-2 12:36
我觉得电子书网站也可以转型,允许分享网页、软件、音乐什么的,像Internet archive那样。本坛也可以考虑。 ...

但是我觉得功能越杂,用户粘性越低。Internet archive成立比较早,资源完善一些,所以才能得到大家的认可。其他的站子,就跟现在随便一个分享各种网盘资源的频道和群,资源烂大街,没有任何大区别。
回复

使用道具 举报

发表于 2024-3-2 13:02:37 | 显示全部楼层
鬼笔环肽 发表于 2024-3-2 12:43
但是我觉得功能越杂,用户粘性越低。Internet archive成立比较早,资源完善一些,所以才能得到大家的认可 ...

目前大部分电子书站点似乎不能实现全文检索,archive抓取的网页也不行,不知道技术上是不是有什么困难。按理说搜索引擎既然能查询网页内容,一个一般网站应该也行吧。
回复

使用道具 举报

 楼主| 发表于 2024-3-2 13:06:56 | 显示全部楼层
横槊赋诗 发表于 2024-3-2 13:02
目前大部分电子书站点似乎不能实现全文检索,archive抓取的网页也不行,不知道技术上是不是有什么困难。 ...

全文检索是什么意思,全部OCR吗
回复

使用道具 举报

发表于 2024-3-2 13:15:32 | 显示全部楼层
zlib在去年11月份左右完全停止同步libgen的书籍,不知道这里面发生的了什么事情,zlib网页上传有50MB的上限, 超过这个的我会上传到libgen等待同步过来,但是去年11月份这种同步完全停止了。zlib上传超过50mb的书籍要用ftp工具传,但是每个用户名的ftp处理完成状态变READY后貌似再也没法用了,要传的话又要新增一个ftp用户名。
回复

使用道具 举报

发表于 2024-3-2 13:33:56 | 显示全部楼层
早期百度网盘公开个人主页链接,此类书贩引流就不少。
公众号引流,有完整内容的以epub格式为主,版权页和封底有引流信息(这种算好的)。
公众号引流,pdf格式,“无正文内容或只有很少一部分,每页都有引流信息”。
b站有类似引流,发视频,大量发动态新书,除了pdf压缩包名称不同,文件体积大小都差不多。
这种大量上传zlibrary垃圾文件,也有引流目的,毕竟zlibrary流量大。
回复

使用道具 举报

发表于 2024-3-2 13:35:02 | 显示全部楼层
品牌是解决这种问题的一个方法。就是某些uploader有足够的积分和信任做成了品牌,然后对品牌免检(他们一旦做广告就会失去积分和信任),把审核的重点放到非品牌uploader上。

这其实就是普通产品市场上品牌的意义。
回复

使用道具 举报

发表于 2024-3-2 13:43:45 | 显示全部楼层
gongqi 发表于 2024-3-2 13:35
品牌是解决这种问题的一个方法。就是某些uploader有足够的积分和信任做成了品牌,然后对品牌免检(他们一旦 ...

是的,
opensubtitles就是这样


回复

使用道具 举报

发表于 2024-3-2 13:50:59 | 显示全部楼层
建议
以zlib最有价值的原版文本书为例(azw3、epub、mobi)
存在大量的重复
简单的举一例
基本上所有的mobi格式
都可以删除
只要这本书还有azw3和epub
还有就是很多被calibre代码污染的书
需要挑出来删除
前提是已经存在原版azw3
或者原版unpack的epub
回复

使用道具 举报

发表于 2024-3-2 13:52:20 | 显示全部楼层
好奇楼主做审核多久了?
回复

使用道具 举报

发表于 2024-3-2 14:07:04 | 显示全部楼层
还有就是
zlib的搜索功能
不怎么样
命中率低
而且不够醒目
随便找个书名
对比一下
annas的搜索
一目了然
回复

使用道具 举报

发表于 2024-3-2 14:59:03 | 显示全部楼层
学习了......................................................
回复

使用道具 举报

发表于 2024-3-2 15:35:44 | 显示全部楼层
学习了..............学习了..............
回复

使用道具 举报

发表于 2024-3-2 15:58:28 | 显示全部楼层
我很认同“人人为我,我为人人”的理念。
回复

使用道具 举报

发表于 2024-3-2 16:36:01 | 显示全部楼层
在zlib下载了很多书,感谢像楼主这样的热心志愿者辛苦付出。
回复

使用道具 举报

发表于 2024-3-2 16:42:49 来自手机 | 显示全部楼层
楼主辛苦了
回复

使用道具 举报

发表于 2024-3-2 17:20:52 | 显示全部楼层
谢谢楼主分享经验,前来学习。
回复

使用道具 举报

发表于 2024-3-2 17:36:26 | 显示全部楼层
本帖最后由 南兰献伯 于 2024-3-2 17:37 编辑

zlib上面各种格式重复存在,比如一本书有来自亚马逊的azw3,及由此转成的epub、mobi、pdf,另外还有来自其他平台(掌阅、得到、微信读书、QQ阅读、华艺、读墨等)的epub、mobi,然后还有大量dx中pdg转换成的pdf,甚至存在手机自拍、自带app扫描(如扫描全能王)、手持扫描仪、高拍仪等扫描制作的pdf,极少数还有图片打包的zip、rar、cbz、cbr等格式,当然手打、ocr后的文本txt也非常泛滥。所以有时候找到了一本书很高兴,下下来却是一团乱麻,整理得头昏脑胀,对楼主说到的那些,还是有一定感触的。


今天还观察到一点,有些印前pdf也给传上去了,引发了版权方的投诉,看到过几本社科文库的。看来版权方对于印前pdf看管更严,其他非原貌的格式也就听之任之了。

最后一点,不给zlib传资源,因为它不同步给libgen,反而它自身在大量同步/扒libgen的资源。

回复

使用道具 举报

发表于 2024-3-2 17:58:42 | 显示全部楼层
南兰献伯 发表于 2024-3-2 17:36
zlib上面各种格式重复存在,比如一本书有来自亚马逊的azw3,及由此转成的epub、mobi、pdf,另外还有来自其 ...

细说印前pdf投诉
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 注册

本版积分规则

Archiver|手机版|小黑屋|网上读书园地

GMT+8, 2024-12-28 21:32 , Processed in 0.274355 second(s), 5 queries , Redis On.

Powered by Discuz! X3.5

© 2001-2024 Discuz! Team.

快速回复 返回顶部 返回列表