找回密码
 注册
搜索
热搜: 超星 读书 找书
查看: 5522|回复: 7

[【本版存档】] 我好笨啊,做个数据库这么难

  [复制链接]
发表于 2004-12-16 18:46:45 | 显示全部楼层 |阅读模式
  老是听大家议论数据库,时间长了,我也想自己做一回数据库。前些天,我终于下决心做上海馆的。
  先是看BOOKISH大侠在新手版的帖子,又看了某某某关于网络蜘蛛的帖子。因为网络蜘蛛可直接收集链接,所以想,用网络蜘蛛完成任务。但是经过长时间运行,发现网络蜘蛛不可能完成这样的任务。于是,自然想到把网页下载后利用时空服务器本地收集。很快,上海馆的目录网页到手了,全是search(*).asp格式的。利用excel和本论坛的发帖功能,我很快又做了个index.asp页,内含所有需要的http://127.0.0.1/search(*).asp链接。但是,设置好时空服务器和网络蜘蛛并启动运行后发现,网络蜘蛛只能下一页的链接。这是什么原因呢?后来又找帖子看,才知道时空服务器不支持asp格式的网页。这样,把asp格式的网页转化为htm格式的网页成了新课题。多次问别人,这个问题也没能解决。受bookish大侠的帖子启发,我在dos下试用类似copy  search*.asp search*.htm 的命令,这个问题果然得到了满意的解决。
  这回该成功了吧?电脑三天也没完成,还死机!困为要收集的链接太多了!
  没办法,只好想办法减少网页中的链接。这回想到了网页批量修改工具。经过试验,发现批量修改网页中的链接此路不通,因为电脑极容易出错。但这难不倒我!我把网页全部改为txt格式然后修改。事后表明这个可行。在txt格式下,<a  到 </a>中间的内容就是链接。我只要把<a 批量改为aa,所有链接就都失效了。然后再批量把aa....book...asp改为<a....book...asp 这个工作完成后,再把txt格式全部改回htm格式。这回,新的htm网页中只有我要的书址了!每页30本书!30个链接!这回再启动时空服务器和网络蜘蛛,等待,得到全部book......地址。共计108115个,大小12M
 OK,我总算成功了,尽管在别人看来好笑。
回复

使用道具 举报

发表于 2005-1-12 20:02:17 | 显示全部楼层
没关系,好好看看,我想你能行的,可惜我不会,真想好好帮你。
回复

使用道具 举报

 楼主| 发表于 2005-1-14 22:10:42 | 显示全部楼层
看明白了你也就会了:)就是太累了。
回复

使用道具 举报

发表于 2005-3-27 19:30:20 | 显示全部楼层

这么麻烦,怎么不用ultraedit或者自己编个简单的程序来做?
回复

使用道具 举报

发表于 2005-4-13 23:22:08 | 显示全部楼层
万事开头难,以后就好了,我还不知道你说的东西了,见笑了
回复

使用道具 举报

发表于 2005-4-13 23:47:27 | 显示全部楼层
总版主构造的算法的效率有待提高。
回复

使用道具 举报

发表于 2005-12-4 23:48:59 | 显示全部楼层
很羡慕总斑有条件试手.  老土只能在地瓜里运行程序
回复

使用道具 举报

发表于 2006-1-9 01:49:51 | 显示全部楼层
厉害,怎么做的??  
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 注册

本版积分规则

Archiver|手机版|小黑屋|网上读书园地

GMT+8, 2024-5-8 01:22 , Processed in 0.350517 second(s), 6 queries , Redis On.

Powered by Discuz! X3.5

© 2001-2024 Discuz! Team.

快速回复 返回顶部 返回列表