一、版本说明:
sparkler:
git clone https://github.com/USCDataScience/sparkler.git
通过上命令获取最新版本的sparkler 当前安装版本为0.2.1 版
solr 版本: solr-6.4.0
安装命令为:
Mac : curl -O http://archive.apache.org/dist/lucene/solr/6.4.0/solr-6.4.0.tgz
other: wget "http://archive.apache.org/dist/lucene/solr/6.4.0/solr-6.4.0.tgz"
maven : apache-maven-3.5.3
二、安装步骤
2.1 solr
首先需要先安装solr
以我的安装路径说明
在/opt 路径下执行 wget “http://archive.apache.org/dist/lucene/solr/6.4.0/solr-6.4.0.tgz”
下载solr
下载后路径为:/opt/ solr-6.4.0.tgz
解压命令: tar –zxvf solr-6.4.0.tgz
进入文件夹:
vi /opt/solr-6.4.0/server/solr-webapp/webapp/WEB-INF/ web.xml
放开注解
并在 中指定solr home 路径 如果用自带jetty启动 安装图中路径配置即可。
此时,我们开始配置 sparkler 。solr 暂时先放下
2.2 maven
先安装 maven 安装完后下载 sparker 安装包。
修改${maven.home}/conf/setting.xml
将地址指向阿里
<mirror>
<id>alimaven</id>
<name>aliyun maven</name>
<url>http://maven.aliyun.com/nexus/content/groups/public/</url>
<mirrorOf>central</mirrorOf>
</mirror>
否则打包sparkler 项目时会报找不到问题的错误
修改完成后需要手动下载两个jar包并导入(原因是阿里服务器不可访问)
mvn install:install-file -Dfile=/usr/apache-maven-3.5.3/lib/banana-1.5.1.war -DgroupId=com.lucidworks -DartifactId=banana -Dversion=1.5.1 -Dpackaging=war -DgeneratePom=true -DcreateChecksum=true
mvn install:install-file -Dfile=/root/.m2/repository/org/apache/maven/maven-model/2.0.9/maven-model-2.0.9.jar -DgroupId=org.apache.maven -DartifactId=maven-model -Dversion=2.0.9 -Dpackaging=jar -DgeneratePom=true -DcreateChecksum=true
2.3 sparkler 下载安装sparkler
cd /opt/sparkler/sparkler-ui
mvn clean package
cd /opt/sparkler
mvn clean install –DskipTests
mvn clean package –Pcore
2.4 solr combain with sparkler
cp -r /opt/sparkler/sparkler-ui/ /opt/solr-6.4.0/server/solr-webapp/
cp -r /opt/sparkler/ /opt/solr-6.4.0/server/solr-webapp/
cp /opt/sparkler/conf/solr/sparkler-jetty-context.xml /opt/solr-6.4.0/server/contexts/
cp /opt/sparkler/conf/solr/crawldb/ /opt/solr-6.4.0/server/solr/configsets/
cp /opt/solr-6.4.0/server/solr/configsets/crawldb/ /opt/solr-6.4.0/server/solr
最后两条命令可能是程序启动报错。可以先这样写报错后查看日志就能找到
2.5 启动solr
cd /opt/solr-6.4.0/bin/
./solr start –force
说明force 为强制启动,solr不推荐用root用户启动solr
浏览器访问http://localhost:8983/solr/#/~cores/
新增(add Core) —>name和instanceDir两个字段值都为crawldb
浏览器访问http://localhost:8983/banana/#/dashboard
将/opt/sparkler 移动到
进入到sparkler源码根目录
cp -r /opt/sparkler /opt/solr-6.4.0/server/solr-webapp/
在
cd opt/solr-6.4.0/server/solr-webapp/sparkler/build/bin/
./sparkler.sh inject -su http://www.sina.com.cn/
执行会返回一个jobId值,请记录它(sjob-1496713811764)
bin/sparkler.sh crawl -id sjob-1496713811764 -m local[*] -i 1
我们就可以通过访问http://localhost:8983/banana/#/dashboard就可以看到数据了
也可以访问http://localhost:8983/solr/#/~cores/crawldb查看相关数据
这个地方没有找到。
参考记录:https://blog.csdn.net/yinzhiyan43/article/details/72878375
https://blog.csdn.net/kezhong_wxl/article/details/77543423
https://blog.csdn.net/liuzhenwen/article/details/4060922
https://blog.csdn.net/u013087513/article/details/76034373
https://github.com/uscdataScience/sparkler/wiki/sparkler-0.1#requirements
http://irds.usc.edu/sparkler/dev/development-environment-setup.html