在 SPA 时代,我们在爬取网页数据的时候,大部分是可以通过分析页面请求地址来分页抓取数据的,但有一部分是非 SPA 网站,有的是采用了加密或混淆等技术很难通过请求识别出。
本 Chat 主要目的是通过 Selenium 解决这一难题,无论你页面是通过按钮翻页,还是到底部自动加载。Selenium 都可以很好的解决。任何网站都可以抓取,因为它可以模拟人操作页面。
本 Chat 内容包括:
- Selenium 是什么;
- 安装 Selenium;
- 安装 WebDriver;
- 基础按钮点击,文本获取,输入框写入实践讲解;
- 登录模拟;
- 分页获取数据;
- 操作iframe;
- 模拟页面滚动到尾部;
- 异常截屏;
- 源码和答疑。
阅读全文: http://gitbook.cn/gitchat/activity/5c23346d2d9af74729495d51
一场场看太麻烦?成为 GitChat 会员,畅享 1000+ 场 Chat !点击查看