sparkler安装、solr 集成sparkler安装文档(sparkcrawler)

一、版本说明:

sparkler:
git clone https://github.com/USCDataScience/sparkler.git  
通过上命令获取最新版本的sparkler  当前安装版本为0.2.1 版
solr 版本: solr-6.4.0
安装命令为:
Mac : curl -O http://archive.apache.org/dist/lucene/solr/6.4.0/solr-6.4.0.tgz
other: wget "http://archive.apache.org/dist/lucene/solr/6.4.0/solr-6.4.0.tgz"  
maven : apache-maven-3.5.3

二、安装步骤

2.1 solr

首先需要先安装solr
以我的安装路径说明
在/opt 路径下执行 wget “http://archive.apache.org/dist/lucene/solr/6.4.0/solr-6.4.0.tgz
下载solr
下载后路径为:/opt/ solr-6.4.0.tgz
解压命令: tar –zxvf solr-6.4.0.tgz

进入文件夹:
vi /opt/solr-6.4.0/server/solr-webapp/webapp/WEB-INF/ web.xml

这里写图片描述
放开注解
这里写图片描述

并在 中指定solr home 路径 如果用自带jetty启动 安装图中路径配置即可。
此时,我们开始配置 sparkler 。solr 暂时先放下

2.2 maven

先安装 maven 安装完后下载 sparker 安装包。

修改${maven.home}/conf/setting.xml
将地址指向阿里

<mirror>
  <id>alimaven</id>
  <name>aliyun maven</name>
  <url>http://maven.aliyun.com/nexus/content/groups/public/</url>
  <mirrorOf>central</mirrorOf>
</mirror>

否则打包sparkler 项目时会报找不到问题的错误
修改完成后需要手动下载两个jar包并导入(原因是阿里服务器不可访问)

mvn install:install-file -Dfile=/usr/apache-maven-3.5.3/lib/banana-1.5.1.war -DgroupId=com.lucidworks -DartifactId=banana -Dversion=1.5.1 -Dpackaging=war -DgeneratePom=true -DcreateChecksum=true

mvn install:install-file -Dfile=/root/.m2/repository/org/apache/maven/maven-model/2.0.9/maven-model-2.0.9.jar -DgroupId=org.apache.maven -DartifactId=maven-model -Dversion=2.0.9 -Dpackaging=jar -DgeneratePom=true -DcreateChecksum=true


2.3 sparkler 下载安装sparkler

cd /opt/sparkler/sparkler-ui
mvn clean package

cd /opt/sparkler
mvn clean install –DskipTests
mvn clean package –Pcore

2.4 solr combain with sparkler

cp -r /opt/sparkler/sparkler-ui/ /opt/solr-6.4.0/server/solr-webapp/
cp -r /opt/sparkler/ /opt/solr-6.4.0/server/solr-webapp/
cp /opt/sparkler/conf/solr/sparkler-jetty-context.xml  /opt/solr-6.4.0/server/contexts/
cp /opt/sparkler/conf/solr/crawldb/ /opt/solr-6.4.0/server/solr/configsets/
cp /opt/solr-6.4.0/server/solr/configsets/crawldb/ /opt/solr-6.4.0/server/solr

最后两条命令可能是程序启动报错。可以先这样写报错后查看日志就能找到

2.5 启动solr

cd /opt/solr-6.4.0/bin/
./solr start –force
说明force 为强制启动,solr不推荐用root用户启动solr
浏览器访问http://localhost:8983/solr/#/~cores/
新增(add Core) —>name和instanceDir两个字段值都为crawldb

这里写图片描述

浏览器访问http://localhost:8983/banana/#/dashboard

将/opt/sparkler 移动到
进入到sparkler源码根目录
cp -r /opt/sparkler /opt/solr-6.4.0/server/solr-webapp/


cd opt/solr-6.4.0/server/solr-webapp/sparkler/build/bin/
./sparkler.sh inject -su http://www.sina.com.cn/
执行会返回一个jobId值,请记录它(sjob-1496713811764)
bin/sparkler.sh crawl -id sjob-1496713811764 -m local[*] -i 1

我们就可以通过访问http://localhost:8983/banana/#/dashboard就可以看到数据了
也可以访问http://localhost:8983/solr/#/~cores/crawldb查看相关数据

这里写图片描述

这个地方没有找到。

参考记录:https://blog.csdn.net/yinzhiyan43/article/details/72878375
https://blog.csdn.net/kezhong_wxl/article/details/77543423
https://blog.csdn.net/liuzhenwen/article/details/4060922
https://blog.csdn.net/u013087513/article/details/76034373
https://github.com/uscdataScience/sparkler/wiki/sparkler-0.1#requirements
http://irds.usc.edu/sparkler/dev/development-environment-setup.html

猜你喜欢

转载自blog.csdn.net/sinat_32867867/article/details/80761195