nutch 更新url.txt无法执行新的抓取

nutch在使用中经常会修改url.txt中要抓取的目标网站,但是我们在二次开发的时候经常发现url但是仍然在抓取丢的配置网站,后来发现是索引文件夹得问题,在每次从新抓取的时候切忌要删掉索引文件夹,如果不删除目前我们发现会出现两个方面的问题

1:修改url从新抓取的时候不会根据新的url抓取,依然是抓取上次配置的url

2: 有时候会在抓取的执行到最后时候创建linked包错误,具体类型记得不是太清楚,大概就是linked xxxxx已经存在

猜你喜欢

转载自zha-zi.iteye.com/blog/647594
今日推荐