windows平台下，使用nutch，得需要cygwin工具作为其模拟linux的运行环境

1，在windows平台下，使用nutch，得需要cygwin工具作为其模拟linux的运行环境，cygwin在这里的安装就不多说了，可以到http://www.cygwin.com/下下载，直接点击setup.exe即可下载，然后就点下一步下一步安装就可以了。

2，安装完cygwin，确定配置好环境变量，可以输入cygcheck -c cygwin查看版本
[img][/img]，正确之后
就可以进行下一步了。

3，到nutch官网下载nutch1.6的版本(目前最新的版本为2.1)，1.6的自带编译好的bin，所以可以省去像nutch2.1配置的时候，需要用Ant进行编译。

4，在cygwin的根目录下建一个urls文件夹，里面把你想要抓取的url地址写上即可，可以是txt后缀名，也可以无后缀，然后再建一个抓取网页后生成数据的文件夹xxx。

5,然后在在cygwin中找到nutch1.6的根目录，执行bin/nutch
如果正确无误，则会在cygwin中打印一系列nutch命令，

6,下一步就可以抓取网页了执行 bin/nutch crawl urls -dir xxx -depth 2 -threads 2 -topN 2 会在xxx文件夹中生成3个文件夹crawldb，linkdb，segments，里面放的是数据信息
另外需要注意的是在1.2后的版本之后没有index，indexing文件夹，以及打包好的war包，关于这一点，笔者认为，可能是为了让nutch跟solr更专注自己的业务，nutch主要爬取数据，而solr主要用来搜索数据。

7,在抓取成功之后，会有上面一步的3个文件夹生成，然后就可以映射成solr索引了，笔者使用的是solr3.6的，4.x的solr笔者还没测试，在cygwin中执行bin/nutch solrindex http://localhost:8080/solr/ myfile/crawldb -linkdb myfile/linkdb myfile/segments/* 即可，在这之前，一定要确保自己的solr服务是启动的，并可以正常访问，如果出现某些失败，最大的原因可能是映射的字段不一致造成的，检查nutch下面的的solrindex-mapping.xml文件把相对应的字段配置在solr的scheaml.xml中即可.

8,映射成功后即可以访问了solr主页，点击查询，会看到刚才抓取的结果!

windows平台下，使用nutch，得需要cygwin工具作为其模拟linux的运行环境

猜你喜欢