Nutch入门白话版 - 代码天地

Nutch入门白话版

编程语言 2018-05-12 06:01:55 阅读次数: 2

不得不说，Nutch的入门官方文档写的真不清晰明了。害的我按照官方文档折腾半天。

Nutch现在已经到了2.2.2版本，而且版本1.x已经更新到了1.8，这里以1.7为例，1.8中的部分命令行工具的API有变，入门时不是很容易。

#安转运行Nutch#

- 下载安装Nutch

- 在${NUTCH_HOME}下，mkdir urls

- cd urls

- touch seed.txt

- edit seed.txt ,write :http://nutch.apache.org

- edit ${NUTCH_HOME}/conf/regex.urlfilter.txt

- replace

```

'#accept anything else

+.

```

with

```

+^http://([a-z0-9]\.)nutch.apache.org/

```

- 爬取网页： bin/nutch crawl urls -dir crawl -depth 3 -topN 5

注意：此命令1.8版本有改变

#安装Solr#

- 下载安装Solr,我使用的时最新版的4.8

- cd ${SOLR_HOME}/example

- java -jar start.jar

- 验证安装：http://localhost:8983/solr/

#Nutch和Solr集成#

这里要注意：文档说了那么多其实只有两件事：

+ 使用${NUTCH_HOME}/conf/schema-solr4.xml 替换掉${SOLR_HOME}/example/solr/collection1/conf/schema.xml ,并将schema-solr4.xml改名为schema.xml

+ 在schema.xml中第351行后面(其实只要添加在types标签中即可)添加：<field name="_version_" type="long" indexed="true" stored="true"/>

到这里集成就完成了。现在只要重新启动solr，并用下面的命令将Nutch爬取的数据索引到solr即可。

在${NUTCH_HOME}下，运行：

```

bin/nutch solrindex http://127.0.0.1:8983/solr/ crawl/crawldb -linkdb crawl/linkdb crawl/segments/*

```

然后访问：http://localhost:8983/solr/

猜你喜欢

转载自king-sky-wjb.iteye.com/blog/2070217

Nutch入门白话版

nutch入门

nutch

paxos白话版

PHP入门前的白话

Nutch2.3.1+HBase单机版

nutch入门之本地安装运行

Nutch使用入门（四）——添加中文分词

白话版SAP HR(ZT)

CRNN之utils白话版

Redux大白话版

区块链入门（白话易懂）

nutch入门教程[更新视频下载连接]

Nutch 使用入门(三）——配置文件的加载

Nutch 使用入门(二）——互联网抓取

Nutch 使用入门(一）——准备工作及Intranet抓取

《安士全书》原文及白话版

《2008版白话C++》实时目录

[SAP - HCM] 白话版SAP HR

CRNN代码之dataset白话版

JS之防抖与节流白话版

多标签学习之白话版

大白话Docker入门（一）

大白话Docker入门（二）

白话Hadoop入门-WordCount详细讲解（2）

白话数据产品（二）——SQL入门

「白话区块链入门」专题之挖矿

pytorch白话入门笔记1.13-GAN

pytorch白话入门笔记1.5-分类

1.2版本之后，Nutch专注的只是爬取数据

今日推荐

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

《2024 年一季度互联网投融资运行情况》研究报告

报告：Django 仍然是 74% 开发者的首选

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

周排行

记一下去大梅沙的准备（2018-05-26）

Spring 注解事务

基于HTTP协议的客户端缓存

阿里云rds 备份和还原

[PHP] 几个拖慢 PHP 程序/API 运行速度的点

python 代码风格------------PEP8规则

js控制json生成菜单——自制菜单（一）

将字符串: 'k:1|k1:2|k2:3|k3:4 ' ,处理成 python 字典: {'k':1, 'k1':2, ...}

微信小程序转支付宝小程序

Qt551.窗口滚动条

每日归档

更多

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)