Python爬虫环境搭建大全

在《Python3网络爬虫开发实战》中,第一章主要是配置爬虫的各种环境,这里来记载一下简单的安装过程

Python3:
	下载安装包安装(https://www.python.org/)
	笔者下载的为3.6版本
	下载安装包以后安装即可

requests(请求库):
	pip install requests

Selenium(自动化测试工具):
	pip install selenium

ChromeDriver(配合浏览器,驱动浏览器):
	下载地址(http://chromedriver.storage.googleapis.com/index.html)
	下载安装完成以后,直接将 chromedriver.exe 文件拖到 Python 的 Scripts 目录下,也可以单独将其路径配置环境变量

GeckoDriver(火狐的驱动,配合Selenium):
	下载地址(https://github.com/mozilla/geckodriver/releases)
	下载安装完成以后,直接将 chromedriver.exe 文件拖到 Python 的 Scripts 目录下,也可以单独将其路径配置环境变量

PhantomJS:
	到官网下载对应的安装包
	下载完成后,将 PhantomJS 可执行文件所在的路径配置到环境变盘里。 比如在 Windows 下,将下
载的文件解压之后并打开,会看到一个 bin 文件夹,里面包括一个可执行文件 phantomjs.exe ,我们需
要将它直接放在配置好环境变量的路径下或者将它所在的路径配置到环境变盘里。 比如,我们既可以
将它直接复制到 Python 的 Scripts 文件夹,也可以将它所在的 bin 目录加入到环境变量
	(可能PhantomJS与自动化工具存在问题,PhantomJS好像已经被抛弃了,需要自行百度解决)

aiohttp(web服务的库,可以提高效率):
	pip install aiohttp
	pip install cchardet aiodns

lxml(python的解析库):
	pip install lxml

Beautiful Soup(python的解析库):
	pip install beautifulsoup4

pyquery(强大的网页解析工具):
	pip install pyquery

tesserocr(验证码识别工具):
	先下载tesseract
	下载地址: https://digi.bib.uni-mannheim.de/tesseract/
	安装tesserocr(pip install tesserocr pillow)

MySQL(轻量级的关系数据库):
	可在腾讯软件中心直接下载安装
	安装完成后,我们可以在“计算机”→“管理”→“服务”页面开启和关闭 MySQL 服务

MongoDB(非关系型数据库,类似于python的字典):
	在官网或其他地址下载安装包
	找到软件安装位置
	在bin目录下创建data文件夹
	
	创建start.bat文件,里面写:
	mongod --dbpath ./data

	启动mongode的时候就可以直接点start.bat文件,然后数据库就启动了

RoboMongo/Robo 3T(mongo的的可视化工具):
	下载: 官网或者其他地址

Redis(基于内存的高效非关系型数据库,类似mongode):
	 下载地址:https://gi thub.com/MSOpenTech/redis/re l eases
	 安装

Redis Desktop Manager(redis数据库的可视化工具):
	下载: https: //redisdesktop.com/download

PyMySQL(python连接MySQL的包):
	pip install pymysql

PyMongo(python中操作mongode的第三方包):
	pip install pymongo

redis-py(python中操作redis数据库的第三方包):
	pip install redis

RedisDump(用于对redis数据导入导出的工具):
	首先安装Ruby(参考:https://www.runoob.com/ruby/ruby-installation-windows.html)

	gem install redis-dump
	即可完成RedisDump的安装

Flask(轻量级的web服务程序):
	pip install flask

Tornado(高效支持异步的web框架):
	pip install tornado

Charles(可在手机端的抓包工具):
	安装破解都可参考(https://www.cnblogs.com/littlek1d/p/9351705.html)

mitmproxy(支持HTTP,HTTPS的抓包程序,通过控制台操作):
	安装操作参考(https://www.cnblogs.com/lsdb/p/10106655.html)

Appium(移动端的自动化测试工具):
	安装下载参考(https://blog.csdn.net/qq_16206535/article/details/79586818)

pyspider(国人编写,网络爬虫框架):
	pip install pyspider

Scrapy(强大的静态页面的爬虫框架):
	首先在python中安装
	lxml	pyOpenSSL	Twisted	PyWin32(pip直接安装不上的,可以去https://pypi .python.org/pypi/下载安装)

	最后直接
	pip install scrapy

Scrapy-Splash(Scrapy中支持JS渲染的工具):
	首先安装docker
	参见:https://blog.csdn.net/qq_39629343/article/details/80182135
	
	安装完成docker后:
	docker run -p 8050:8050 scrapinghub/splash
	即可完成安装

Scrapy-Redis(Scrapy对redis数据库操作的拓展):
	pip install scrapy-redis

在部署分布式爬虫的时候,需要安装另外一些库:
Scrapyd	Scrapyd-Client	Scrapyd API	Scrapyrt	Gerapy
这里编者水平有限,暂时用不到这些东西,用到的时候会进行更新

这里仅仅是罗列出需要安装的软件及一些第三方的库,如果通过上述方式无法安装请百度,或者在文章下方评论留言,我会尽力解决这些问题。

吃糖

猜你喜欢

转载自blog.csdn.net/qq_40258748/article/details/89138872