todo 发表于 2023-9-23 19:45:55

一夜五车书收录的书目及版本数量

一夜五车书收录的书目来自于 dx1 ~ dx5(不包含dx6), 512w
去重及删除没有书名者得到不同的ssid 392万
由于一个ssid 可能有好几个秒传版本 (如 .pdf .zip .7z)
所以得到秒传 561万

todo 发表于 2023-9-23 19:47:13

一个ssid 有好几个秒传:

legence 发表于 2023-9-23 20:37:50

那肯定优先选择PDF啊,省的制作咯,如果都是PDF那就更香了。

东写西读 发表于 2023-9-23 20:54:10

dx6五千多册后期也可以加入

legence 发表于 2023-9-23 20:58:21

legence 发表于 2023-9-23 20:37
那肯定优先选择PDF啊,省的制作咯,如果都是PDF那就更香了。

pdg我到时候也是转PDF的

小可拉好 发表于 2023-9-23 21:05:05

legence 发表于 2023-9-23 20:58
pdg我到时候也是转PDF的

现在很多超星电子书页码效果很差,需要软件进行处理,
最新版uv可以处理,或者转化成jpg,然后cep处理,


toyton 发表于 2023-9-23 21:37:44

保留所有格式吧,越多越好

legence 发表于 2023-9-23 22:35:19

本帖最后由 legence 于 2023-9-23 22:36 编辑

小可拉好 发表于 2023-9-23 21:05
现在很多超星电子书页码效果很差,需要软件进行处理,
最新版uv可以处理,或者转化成jpg,然后cep处理, ...说的好专业,不是很懂,大佬!!



NMR 发表于 2023-9-23 23:48:13

在哪购买   

safengine 发表于 2023-9-24 07:09:16

NMR 发表于 2023-9-23 23:48
在哪购买

邮件联系老马大侠

cored 发表于 2023-9-24 07:33:28

DX的书清晰度都一般,转换后的PDF也比较大

wa136 发表于 2023-9-24 07:44:50

已经报名了,期待大侠的正式版,提个建议,能不能添加ISBN搜索

lforl 发表于 2023-9-24 09:39:53

去重及删除没有书名者得到不同的ssid 392万这跟豆瓣收录的公开出版过的书(有ISBN号的)数量很接近也是350万册左右。

我觉得如果能把豆瓣的ISBN(超星的很多缺几位数)、书籍评分(星号)、评分人数(人气值)(需要豆瓣这三项值的数据库),结合起来,对于找到有阅读价值的好书,会有重大意义。

乐天无极 发表于 2023-9-24 20:53:51

lforl 发表于 2023-9-24 09:39
这跟豆瓣收录的公开出版过的书(有ISBN号的)数量很接近也是350万册左右。

我觉得如果能把豆瓣的ISBN( ...

卧槽,你不知道豆瓣限流量的么,访问多了直接IP屏蔽的

aabbccli 发表于 2023-9-24 21:17:27

还是pdg格式的好一点。

agent124 发表于 2023-9-24 22:46:40

乐天无极 发表于 2023-9-24 20:53
卧槽,你不知道豆瓣限流量的么,访问多了直接IP屏蔽的

豆瓣不用登陆,还是比较简单,可以用轮换代理的方法收集

横槊赋诗 发表于 2023-9-24 22:58:53

好像防止自动程序发送请求的网站有不少,以至于隔三差五都要验证(换ip有时候也会这样)

agent124 发表于 2023-9-24 23:00:14

横槊赋诗 发表于 2023-9-24 22:58
好像防止自动程序发送请求的网站有不少,以至于隔三差五都要验证(换ip有时候也会这样)

换ip再清cookie,应该问题就不大了

鬼笔环肽 发表于 2023-9-25 11:34:28

乐天无极 发表于 2023-9-24 20:53
卧槽,你不知道豆瓣限流量的么,访问多了直接IP屏蔽的

啊?我还真不知道有这个

乐天无极 发表于 2023-9-25 12:28:56

鬼笔环肽 发表于 2023-9-25 11:34
啊?我还真不知道有这个

严重的,你换账号,都直接账号异常的。
页: [1] 2
查看完整版本: 一夜五车书收录的书目及版本数量