Python库之网络爬虫

版权声明:大佬们转载时别忘了我哦!!! https://blog.csdn.net/sun9979/article/details/89059450

1、Requsets:最友好的网络爬虫功能库

http://www.python-requests.org/

  • 提供了简单易用的类HTTP协议网络爬虫功能
  • 支持连接池、SSL,Cookies,HTTP(S)代理等
  • Python最主要的页面级网络爬虫功能库
import requests
r=requests.get('http://api.github.com/user',auth=('user','pass'))
r.status_code
r.headers['content-type']
r.encoding
r.text

2、Scrapy:优秀的网络爬虫框架

http://scrapy.org

  • 体哦概念股了构建网络爬虫系统的框架功能,功能半成品
  • 支持批量和定时网页爬取、提供数据处理流程等
  • Python最主要且最专业的网络爬虫框架
  • 这是一个Python数据分析高层次应用库

3、pyspider:强大的Web页面爬取系统

http://docs.pyspider.org

  • 提供了完整的网页爬取系统构建功能
  • 支持数据库后端、消息队列、优先级、分布式架构等
  • Python重要的网络爬虫类第三方库

猜你喜欢

转载自blog.csdn.net/sun9979/article/details/89059450
今日推荐