教你下载日本国立国会图书馆“贵重画像”
最近一直在研究怎样下载这里的图片,虽然找到一些规律,但时间有限,一直没有完全成功。但从这里的图片可以反映出日本在科技、文化、风俗、民族意识、审美情趣等方面的内容。从而使我们窥见日本文化的一角。http://rarebook.ndl.go.jp/pre/servlet/pre_com_menu.jsp
前些日子一直使用flashget下载,很麻烦,现在好了论坛里的高手写了AutoDownload,从而简化了很多的嗅探和设置时间。
具体使用和下载请看下面的链接。
http://www.readfree.net/bbs/read.php?tid=179714
现在,我把自己的一些心得和那里图片地址的规律总结一下,不足之处还请大伙补充。
那里的图片地址一般为
http://rarebook.ndl.go.jp/pre/image/gazou/W000000A/w000000B/w000000C/w0000001.jpg(因为总被误认为图片,改成全角的了)
A我猜测是整理人或整理组的数字代号
B为藏品的次序编号
C一般是0,但如果出现多本书的情况,则不为0,从1开始有几本到几本。
下面开始
设置AutoDownload
如果我要下载
A=1所整理的藏品,我应该做如下设置
1、在http://rarebook.ndl.go.jp/pre/image/gazou/W0000001/w00000(*)/w0000000/w0000001.jpg 通配符设置为两位从01到20(你要是觉得不保险可以设置为99,也可以设置通配符为三位到999,不过据我的探测要到A=07,B才会=100)
2、下载后大家会发现是从_W0000001_w0000002_w0000000开始下载的,那_W0000001_w0000001_w0000000哪里去了呢?其实第一个藏品的编号地址是
http://rarebook.ndl.go.jp/pre/image/gazou/W0000001/w0000001/w0000001/w0000001.jpg(因为总被误认为图片,改成全角的了)
那么就需要再一次增加批量任务
格式为
http://rarebook.ndl.go.jp/pre/image/gazou/W0000001/w0000001/w00000(*)/w0000001.jpg通配符设置为两位从01到20
遇到这种情况,大家可以先看看W000000A/w00000B/w0000001/w0000001.jpg,一般上面的文字说明表明有几个分册。比如写着“两帖”那么这个藏品就会有W000000A/w00000B/w0000001/和W000000A/w00000B/w0000002/两文件目录
下载完A=1后再依上面的设置下载A=2、A=……
下载完了之后还需要校对一下,因为有时有的藏品分为上下册,下册文件夹中的图片不是从w0000001.jpg开始而是接着上一个文件夹的编号开始的。也就是说如果你看到下载文件中出现这样的情况:有W000000A/w00000B/w0000001文件夹,没有W000000A/w00000B/w0000002文件夹,那么需要你使用flashget的批量功能下载W000000A/w00000B/w0000002文件夹下的图片。
祝大家顺利并愉快。 敬礼,把日本的东西拿出来 feng兄对日本文化以及日本资料的下载方面可说是我们论坛的顶尖高手,就不知道以前我怎么会没看到这么精彩的内容
页:
[1]