继续抓取的一些问题及解决方案 - 代码天地

继续抓取的一些问题及解决方案

编程语言 2018-05-14 15:16:59 阅读次数: 2

采用哪个继续抓取会遇到一些小问题，
1.recover.gz在每次启动的时候会删除原有的，然后重建。丢失以前所存储的链接！
2.每次启动的时候，会丢失很多页面，因为heritrix抓取过的页面是不会在抓取，这样的话也不会在解析，比如报价这类页面，那我们就无法更新了！
3.如何启动heritrix的UI

第一个问题只要改一下order.xml
下面几个值这样设置

<string name="recover-path"></string> recover.gz的绝对路径

<boolean name="checkpoint-copy-bdbje-logs">true</boolean>
    <boolean name="recover-retain-failures">false</boolean>
    <boolean name="recover-scope-includes">true</boolean>
    <boolean name="recover-scope-enqueues">true</boolean>

第二个问题的解决方案就是 Extractor或者Scheduler 写入你要重新抓取的正则，让后调用CandidateURI.setIsSeed(true)这种url抓取过，还会继续抓取

第三个问题没解决，

猜你喜欢

转载自wangwei3.iteye.com/blog/630650

继续抓取的一些问题及解决方案

缓存的一些问题与解决方案

记录一些问题的解决方案

关于MySQL的一些问题及解决方案

Anaconda的一些问题的解决方案

最近遇到一些问题的解决方案

python一些问题的解决方案（编码问题，numpy等等）

移植解决方案到中标麒麟（一）——遇到的一些问题

appium-一些问题和解决方案

ios9新特性及遇到的一些问题解决方案

Navicat连接MySQL数据库的一些问题与解决方案

开启VPN的一些问题解决方案

使用layui遇到的一些问题及解决方案

Ubuntu18.04上遇到的一些问题及解决方案

spring-boot 使用中的一些问题解决方案

跨域解决方案等一些问题（jsonp,nginx代理等）

比较好的一些问题解决方案合集（待补充）。

python中遇到的一些问题及解决方案

Android scroview 系列遇到的一些问题和解决方案

java遇到的一些问题及解决方案（持续更新）

关于电脑连接蓝牙耳机出现的一些问题，以及解决方案

php运行时遇到的一些问题和解决方案

【API知识】ElementUI一些问题的解决方案

移动前端开发遇到的一些问题及解决方案

数据库大作业中的一些问题记录及解决方案

AspNet Core 2.2使用Mysql一些问题及解决方案

Android Studio与 Android SDK的安装和配置（以及一些问题的解决方案）

Rdeis做缓存使用的一些问题和解决方案

iOS BugFix｜接入 UIScene 遇到的一些问题及解决方案

PX4+XTdrone仿真环境搭建时候的一些问题与解决方案

今日推荐

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

周排行

循环神经网络（rnn）讲解

Tigao教程四：单独的关节运动

金蝶K3WISE15.0-注册套打教程

如何在Mac上配置Kubernetes

Android应用结束自身进程的方法

SpringMVC学习十三拦截器栈

中国驻洛杉矶总领馆举行新春招待会

HttpClient get post 发送

11 - three.js 笔记 - 绘制三维字体模型

Mysql递归获取某个父节点下面的所有子节点和子节点上的所有父节点

每日归档

更多

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)