火车头采集器使用

介绍一下爬取网页的神器,火车头采集器的使用教程

下面以电商网站tophatter电商网站为例

  1. 新建任务
    在这里插入图片描述

  2. 向导添加
    在这里插入图片描述

  3. 批量网址
    在这里插入图片描述
    地址设为上图格式
    地址参数为1开始 (就是商品的id编号) 我从115697202开始测的后面1000条 基本100条无效

  4. 点击设置
    在这里插入图片描述

  5. 填写任务名保存
    在这里插入图片描述

  6. 内容采集
    设置需要爬取的字段
    这里采用前后截取,购买过的可以使用json提取。
    在这里插入图片描述
    所有字段格式与上图相同
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    保存并退出
    字段来源:https://tophatter.com/api/v1/lots/115697202

  7. 主界面开始任务
    在这里插入图片描述

  8. 等待采集完成后
    点击数据 复制内容到excel即可

在这里插入图片描述

猜你喜欢

转载自blog.csdn.net/qq_35257875/article/details/89448110
今日推荐