linjpz 发表于 2004-12-16 18:46:45

我好笨啊,做个数据库这么难

  老是听大家议论数据库,时间长了,我也想自己做一回数据库。前些天,我终于下决心做上海馆的。
  先是看BOOKISH大侠在新手版的帖子,又看了某某某关于网络蜘蛛的帖子。因为网络蜘蛛可直接收集链接,所以想,用网络蜘蛛完成任务。但是经过长时间运行,发现网络蜘蛛不可能完成这样的任务。于是,自然想到把网页下载后利用时空服务器本地收集。很快,上海馆的目录网页到手了,全是search(*).asp格式的。利用excel和本论坛的发帖功能,我很快又做了个index.asp页,内含所有需要的http://127.0.0.1/search(*).asp链接。但是,设置好时空服务器和网络蜘蛛并启动运行后发现,网络蜘蛛只能下一页的链接。这是什么原因呢?后来又找帖子看,才知道时空服务器不支持asp格式的网页。这样,把asp格式的网页转化为htm格式的网页成了新课题。多次问别人,这个问题也没能解决。受bookish大侠的帖子启发,我在dos下试用类似copysearch*.asp search*.htm 的命令,这个问题果然得到了满意的解决。
  这回该成功了吧?电脑三天也没完成,还死机!困为要收集的链接太多了!
  没办法,只好想办法减少网页中的链接。这回想到了网页批量修改工具。经过试验,发现批量修改网页中的链接此路不通,因为电脑极容易出错。但这难不倒我!我把网页全部改为txt格式然后修改。事后表明这个可行。在txt格式下,<a到 </a>中间的内容就是链接。我只要把<a 批量改为aa,所有链接就都失效了。然后再批量把aa....book...asp改为<a....book...asp 这个工作完成后,再把txt格式全部改回htm格式。这回,新的htm网页中只有我要的书址了!每页30本书!30个链接!这回再启动时空服务器和网络蜘蛛,等待,得到全部book......地址。共计108115个,大小12M
 OK,我总算成功了,尽管在别人看来好笑。

lidonglvyan 发表于 2005-1-12 20:02:17

没关系,好好看看,我想你能行的,可惜我不会,真想好好帮你。

linjpz 发表于 2005-1-14 22:10:42

看明白了你也就会了:)就是太累了。

Mickey008 发表于 2005-3-27 19:30:20


这么麻烦,怎么不用ultraedit或者自己编个简单的程序来做?

zhyuxibj 发表于 2005-4-13 23:22:08

万事开头难,以后就好了,我还不知道你说的东西了,见笑了

coolsila 发表于 2005-4-13 23:47:27

总版主构造的算法的效率有待提高。

草民一丁 发表于 2005-12-4 23:48:59

很羡慕总斑有条件试手.老土只能在地瓜里运行程序 :)

zhupf 发表于 2006-1-9 01:49:51

厉害,怎么做的??
页: [1]
查看完整版本: 我好笨啊,做个数据库这么难