从零开始学爬虫,活着终会无敌

诸神缄默不语-个人CSDN博文目录

(标题是参考番茄爆文起的,是玩梗,别太在乎)

最近更新时间:2023.2.6
最早更新时间:2023.2.5

1. 非编程的爬虫实现工具

  1. 八爪鱼:这个我用过,对简单的网站来说很好用,比编程要简单多了
    八爪鱼采集器 - 免费网络爬虫软件_网页大数据抓取工具
  2. screen-scraper: Data extraction software and services
  3. 爬山虎

2. 编程爬虫

2.1 IP代理

在网上可以找到一些免费代理池,我之前就是因为免费代理池实在是都用不了,所以找了一家付费的,一台(一次产生一个IP地址,有效性3-5分钟)一月150元。我也不知道这个价位怎么样,没试过别人家的。

没有试过:
扒代理池的网站(需要上外网):Eeyhan/IPproxy: 代理ip池,爬取主流免费代理,自动做去重处理,自动测试代理可用性,并已附带了常用请求头

2.2 robots协议

2.3 Python爬虫辅助工具

re
json
BeautifulSoup:解析HTML代码(比正则表达式更好用嘛) Beautiful Soup 4.4.0 文档 — Beautiful Soup 4.2.0 中文 文档
requests
urllib2
scrapy
Scrapy Tutorial Series: Web Scraping Using Python | AccordBox
Scrapy入门教程 — Scrapy 0.24.1 文档

fiddler:抓包分析
wireshark

2.4 Python爬虫示例

因为CSDN不让发,所以现在只放卫星,具体项目估计不会继续更新了

  1. 豆瓣
    1. 爬取通过关键词搜索的豆瓣书籍信息:从0开始的爬虫实践项目 (1):豆瓣用关键词搜索书籍 - 掘金如何写爬虫程序爬取豆瓣网或者新浪微博里的内容? - 风霜刀剑严相逼的回答 - 知乎
  2. 晋江
  3. 起点
  4. 番茄
  5. 新浪新闻
  6. 雪球
  7. 东方财富网

2.5 其他爬虫学习资料

  1. python高级—— 从趟过的坑中聊聊爬虫、反爬、反反爬,附送一套高级爬虫试题 - Eeyhan - 博客园:这篇写得不错,很细节
  2. 这可能是你见过的最全的网络爬虫干货总结! - 腾讯云开发者社区-腾讯云:这篇是崔庆才大神写的
  3. 爬虫爬取动态网页的三种方式简介 | K0rz3n’s Blog:主要关注动态网页的爬取,在我的豆瓣那篇项目里面用的就是直接逆向回溯的方法

猜你喜欢

转载自blog.csdn.net/PolarisRisingWar/article/details/128891012