heritrix使用经验

1:create  based on existing job 会把order.xml这个文件copy进去,对于在setting中没有可更改的选项会和existing Job 一样。

2:对于上次说的那个 seed report 中抛出的那个domain...异常(种子下载异常)过一段时间种子也许可以继续下载下来。

3:如果把800多个种子一股脑的放到种子列表中的话会出现一系列我不明白的异常,而且有很多网页没有爬下来,后来我先吧50个种子放到seed列表并把线程限制为10,结果却下了比800多个种子爬取的更多的网页。

虽然可能网页下载不一定完全,但是没必要追求完美,合适就可以了。

今天应该可以完成下载,明天开始对网页处理。有时间要看看它的代码才行。

猜你喜欢

转载自fffdd.iteye.com/blog/377456
今日推荐