一夜五车书收录的书目及版本数量
一夜五车书收录的书目来自于 dx1 ~ dx5(不包含dx6), 512w去重及删除没有书名者得到不同的ssid 392万
由于一个ssid 可能有好几个秒传版本 (如 .pdf .zip .7z)
所以得到秒传 561万 一个ssid 有好几个秒传: 那肯定优先选择PDF啊,省的制作咯,如果都是PDF那就更香了。 dx6五千多册后期也可以加入 legence 发表于 2023-9-23 20:37
那肯定优先选择PDF啊,省的制作咯,如果都是PDF那就更香了。
pdg我到时候也是转PDF的
legence 发表于 2023-9-23 20:58
pdg我到时候也是转PDF的
现在很多超星电子书页码效果很差,需要软件进行处理,
最新版uv可以处理,或者转化成jpg,然后cep处理,
保留所有格式吧,越多越好 本帖最后由 legence 于 2023-9-23 22:36 编辑
小可拉好 发表于 2023-9-23 21:05
现在很多超星电子书页码效果很差,需要软件进行处理,
最新版uv可以处理,或者转化成jpg,然后cep处理, ...说的好专业,不是很懂,大佬!!
在哪购买 NMR 发表于 2023-9-23 23:48
在哪购买
邮件联系老马大侠
DX的书清晰度都一般,转换后的PDF也比较大 已经报名了,期待大侠的正式版,提个建议,能不能添加ISBN搜索 去重及删除没有书名者得到不同的ssid 392万这跟豆瓣收录的公开出版过的书(有ISBN号的)数量很接近也是350万册左右。
我觉得如果能把豆瓣的ISBN(超星的很多缺几位数)、书籍评分(星号)、评分人数(人气值)(需要豆瓣这三项值的数据库),结合起来,对于找到有阅读价值的好书,会有重大意义。
lforl 发表于 2023-9-24 09:39
这跟豆瓣收录的公开出版过的书(有ISBN号的)数量很接近也是350万册左右。
我觉得如果能把豆瓣的ISBN( ...
卧槽,你不知道豆瓣限流量的么,访问多了直接IP屏蔽的
还是pdg格式的好一点。 乐天无极 发表于 2023-9-24 20:53
卧槽,你不知道豆瓣限流量的么,访问多了直接IP屏蔽的
豆瓣不用登陆,还是比较简单,可以用轮换代理的方法收集
好像防止自动程序发送请求的网站有不少,以至于隔三差五都要验证(换ip有时候也会这样) 横槊赋诗 发表于 2023-9-24 22:58
好像防止自动程序发送请求的网站有不少,以至于隔三差五都要验证(换ip有时候也会这样)
换ip再清cookie,应该问题就不大了
乐天无极 发表于 2023-9-24 20:53
卧槽,你不知道豆瓣限流量的么,访问多了直接IP屏蔽的
啊?我还真不知道有这个
鬼笔环肽 发表于 2023-9-25 11:34
啊?我还真不知道有这个
严重的,你换账号,都直接账号异常的。
页:
[1]
2