零代码爬取全国高校信息(火车采集器)

我们以阳光高考网为例,用火车爬取器零代码爬取全国高校的部分信息

链接:https://pan.baidu.com/s/10aw0_yi4DVJdtpAPtCivtA 密码:tnwx

  1. 进入阳光高考网的院校库,随便点进去一个学校,看他的url,比如
    第一个北大(https://gaokao.chsi.com.cn/sch/schoolInfoMain--schId-1.dhtml),
    第二个人大(https://gaokao.chsi.com.cn/sch/schoolInfoMain--schId-2.dhtml),
    最后一个新疆工业职业技术学院(https://gaokao.chsi.com.cn/sch/schoolInfoMain--schId-1677831015.dhtml)。
    很有规律的是,每个url除了左后的数字不一样,其他的都一样,那么,就可以开始了
  2. 进入火车采集器,我们在分组的一栏右键新建一个分组,选择分组新建一个任务在这里插入图片描述
  3. 添加起始网址
    在这里插入图片描述
    选择添加,这里进入批量/多页,把北京大学的url复制到地址格式中,把数字一框选,点击右方的(*)替换为变量,在下面的等差数列设置中设置首项为1,公差为1,项数为了快一点,这里就设置了100,实际应该是1677831015。设置完后点击添加,点击完成
    在这里插入图片描述
  4. 可以通过测试网页采集查看会去采集的网页,然后设置一个cookie,点击旁边的浏览器登录获取,随便复制一个网页的url进去就行了,完了就切换到第二步
    在这里插入图片描述
  5. 先把预设的全部删除,然后点击添加
    在这里插入图片描述
  6. 回到北京大学的网页,按F12和使用右键查看网页的源代码,使用左边的工具,指向感兴趣的内容,下方的代码就会跳转到这个内容的地方
    在这里插入图片描述
    这时候可以源代码网页中使用ctrl+f看看这些标签是否重复,找到北京大学上面最近的唯一的标签
    在这里插入图片描述
    然后回到火车采集器,新建名为学校名的标签,内容可以按照如下填写,可以更具需求设置数据处理,这里我选择了HTML标签过滤,可以过滤掉北京大学前面的<a href="/sch/schoolInfoMain--schId-1.dhtml">标签
    在这里插入图片描述
  7. 其他需要什么信息按如此添加标签进行设置就行了,添加了可以在右边使用其他的url进行测试,完了之后来到第三步
  8. 下面按照此设置,模板不要用默认的,按它默认模板的位置在你的电脑上找到默认的模板,复制一份出来
    在这里插入图片描述
    按记事本打开模板进行修改,按他的格式,用逗号分隔,每一块都改为自己的标签名,第二行不变,比如这里就是这样的。完了之后在火车头中使用这个修改过的模板
    在这里插入图片描述
  9. 完了之后保存,在主界面的任务列表树下面找到自己的分组,点击+号看到自己的任务,把三个框都勾上,就可以点击上面的开始
    在这里插入图片描述
  10. 运行的时候就是这个鸟样,等他就行了
    在这里插入图片描述
  11. 完了就打开那个csv看看吧,差不多了
    额。。。好像手贱删了,就不用看了,大概就是这样的
发布了39 篇原创文章 · 获赞 48 · 访问量 4万+

猜你喜欢

转载自blog.csdn.net/qq_39798423/article/details/86760635