三、爬虫辅助工具 SeimiAgent

(一)作用
  简单点说,有些页面元素是靠js动态加载的,那么我们在使用爬虫时,无法直接取到这些动态加载的DOM元素。而使用 SeimiAgent 工具以后,它会在我们取DOM元素之前,预先将js动态加载的部分先加载出来,这样我们就可以向取普通DOM元素一样进行处理。

(二)安装

1、先去SeimiAgent官网下载最新的工具包

2、centos上操作

yum -y install gcc gcc-c++ make flex bison gperf ruby openssl-devel freetype-devel fontconfig-devel libicu-devel sqlite-devel libpng-devel libjpeg-devel

3、开启8000端口防火墙(供远程访问)
下面演示是基于centos7系统,不同于centos6.5

//开启端口
firewall-cmd --zone=public --add-port=80/tcp --permanent

//重启防火墙
firewall-cmd --reload

4、./seimiagent -p 8000
在8000端口启动 seimiagent

猜你喜欢

转载自blog.csdn.net/panchang199266/article/details/85267986