随着网络的迅速发展,万维网成为大量信息的载体,如何有效地提取并利用这些信息成为一个巨大的挑战。本场 Chat 就是为了高效整理数据而诞生的,从分析你要提取的网站开始,到获取数据,再到数据的持久化储存。
本场 Chat 即将学到一下内容:
- 网站分析及项目设计;
- 使用 Beautifulsoup 爬取所有推荐城市信息;
- 使用 Xpath 爬取热门旅游信息;
- 爬取免费代理 IP 并测试质量;
- 正则表达式处理 URL;
- 配置 URL 字典动态设置请求头;
- 躲避爬虫蜜罐;
- Excel 分 Sheet 存取。
阅读全文: http://gitbook.cn/gitchat/activity/5c244915e153e3519c7200f4
一场场看太麻烦?成为 GitChat 会员,畅享 1000+ 场 Chat !点击查看