GooSeeker爬取动态页面 看一遍就会啦

简介

这次我将演示使用GooSeeker,这是一个优秀的爬虫软件,整个生态我觉得也是不错的,相比于庞大复杂的scrapy,GooSeeker的GUI操作绝对是一大亮点和优势,而且GooSeeker不光能够爬取静态页面,动态页面也一样可以覆盖。

对于python小白,或者只是需要使用爬虫功能的非编程爱好者,这绝对是值得入坑的一款软件。对了,对于非企业级的爬虫,基本是免费的。

对了需要注册账号,但是不要觉得麻烦,注册之后就很方便了,又不需要交钱。

下载地址

官网
传送门

点击下载就好,安装方面没有什么坑。

爬取目标分析

首先找到我们的目标网页:
在这里插入图片描述
我们目标爬取电影名字和评分,但是我希望实现模拟点击的效果:
首先点击加载更多,然后在进行爬取。
在这里插入图片描述

具体操作

具体操作步骤如下所示:
首先需要先建立一个模拟点击的规则,但是一条规则必须要有关键内容才能确保执行,所以首先找一个关键内容:

在这里插入图片描述

然后制作翻页区映射,也就是相当于点击了:
在这里插入图片描述
然后将“加载更多”这四个字作为翻页记号:
在这里插入图片描述
在这里插入图片描述
得到如上图结果,但是这里需要修改目标任务名,这么做是为了能保证将两条规则联系在一起:

在这里插入图片描述

这样能够做到有顺序的执行。
注:这里的任务名相当于是预留的,还没有创建。

然后存储规则:

在这里插入图片描述

新建另一条规则,这时候需要点击加载更多,然后刷新页面的读取结构,进入的二级规则的制定:
去掉内容定位的对勾,然后点击加载更多,再恢复内容定位的对勾。

在这里插入图片描述

刷新页面结构:
在这里插入图片描述

然后创建规则,这里注意主题名一定要使用刚才预留的主题名:
在这里插入图片描述

评分也是一样:

在这里插入图片描述

然后
在这里插入图片描述
在这里插入图片描述

列表循环标记,这里首先用同样的方法标记第二部电影:
在这里插入图片描述
样例复制映射:
在这里插入图片描述
在这里插入图片描述
测试:
在这里插入图片描述

结果正确。保存规则。

打开DS打数机,修改
在这里插入图片描述
然后运行爬虫。
在这里插入图片描述
上图显示运行爬虫后,本来最后一个电影是“何以为家”,然后经过模拟点击,出现了更多的电影。
上传xml进行解析:
注:爬取的数据是xml格式的,放在你本地的默认存储路径下面,所以你要找到这个xml,然后登陆官网,进入你的个人页面选择导入数据。
在这里插入图片描述
导入数据之后就会点亮左边的“导出数据”按钮
导出数据:

在这里插入图片描述

结果展示

在这里插入图片描述

大家共勉~~

猜你喜欢

转载自blog.csdn.net/qq_40742298/article/details/105179707