继续抓取的一些问题及解决方案

采用哪个继续抓取会遇到一些小问题,
1.recover.gz在每次启动的时候会删除原有的,然后重建。丢失以前所存储的链接!
2.每次启动的时候,会丢失很多页面,因为heritrix抓取过的页面是不会在抓取,这样的话也不会在解析,比如报价这类页面,那我们就无法更新了!
3.如何启动heritrix的UI

第一个问题只要改一下order.xml
下面几个值这样设置

<string name="recover-path"></string> recover.gz的绝对路径


  <boolean name="checkpoint-copy-bdbje-logs">true</boolean>
    <boolean name="recover-retain-failures">false</boolean>
    <boolean name="recover-scope-includes">true</boolean>
    <boolean name="recover-scope-enqueues">true</boolean>

第二个问题的解决方案就是 Extractor或者Scheduler 写入你要重新抓取的正则,让后调用CandidateURI.setIsSeed(true)这种url抓取过,还会继续抓取

第三个问题没解决,

猜你喜欢

转载自wangwei3.iteye.com/blog/630650