使用 Selenium 实现万能的爬虫

在 SPA 时代,我们在爬取网页数据的时候,大部分是可以通过分析页面请求地址来分页抓取数据的,但有一部分是非 SPA 网站,有的是采用了加密或混淆等技术很难通过请求识别出。

本 Chat 主要目的是通过 Selenium 解决这一难题,无论你页面是通过按钮翻页,还是到底部自动加载。Selenium 都可以很好的解决。任何网站都可以抓取,因为它可以模拟人操作页面。

本 Chat 内容包括:

  1. Selenium 是什么;
  2. 安装 Selenium;
  3. 安装 WebDriver;
  4. 基础按钮点击,文本获取,输入框写入实践讲解;
  5. 登录模拟;
  6. 分页获取数据;
  7. 操作iframe;
  8. 模拟页面滚动到尾部;
  9. 异常截屏;
  10. 源码和答疑。

阅读全文: http://gitbook.cn/gitchat/activity/5c23346d2d9af74729495d51

一场场看太麻烦?成为 GitChat 会员,畅享 1000+ 场 Chat !点击查看

猜你喜欢

转载自blog.csdn.net/valada/article/details/85729294