在《Python3网络爬虫开发实战》中,第一章主要是配置爬虫的各种环境,这里来记载一下简单的安装过程
Python3:
下载安装包安装(https://www.python.org/)
笔者下载的为3.6版本
下载安装包以后安装即可
requests(请求库):
pip install requests
Selenium(自动化测试工具):
pip install selenium
ChromeDriver(配合浏览器,驱动浏览器):
下载地址(http://chromedriver.storage.googleapis.com/index.html)
下载安装完成以后,直接将 chromedriver.exe 文件拖到 Python 的 Scripts 目录下,也可以单独将其路径配置环境变量
GeckoDriver(火狐的驱动,配合Selenium):
下载地址(https://github.com/mozilla/geckodriver/releases)
下载安装完成以后,直接将 chromedriver.exe 文件拖到 Python 的 Scripts 目录下,也可以单独将其路径配置环境变量
PhantomJS:
到官网下载对应的安装包
下载完成后,将 PhantomJS 可执行文件所在的路径配置到环境变盘里。 比如在 Windows 下,将下
载的文件解压之后并打开,会看到一个 bin 文件夹,里面包括一个可执行文件 phantomjs.exe ,我们需
要将它直接放在配置好环境变量的路径下或者将它所在的路径配置到环境变盘里。 比如,我们既可以
将它直接复制到 Python 的 Scripts 文件夹,也可以将它所在的 bin 目录加入到环境变量
(可能PhantomJS与自动化工具存在问题,PhantomJS好像已经被抛弃了,需要自行百度解决)
aiohttp(web服务的库,可以提高效率):
pip install aiohttp
pip install cchardet aiodns
lxml(python的解析库):
pip install lxml
Beautiful Soup(python的解析库):
pip install beautifulsoup4
pyquery(强大的网页解析工具):
pip install pyquery
tesserocr(验证码识别工具):
先下载tesseract
下载地址: https://digi.bib.uni-mannheim.de/tesseract/
安装tesserocr(pip install tesserocr pillow)
MySQL(轻量级的关系数据库):
可在腾讯软件中心直接下载安装
安装完成后,我们可以在“计算机”→“管理”→“服务”页面开启和关闭 MySQL 服务
MongoDB(非关系型数据库,类似于python的字典):
在官网或其他地址下载安装包
找到软件安装位置
在bin目录下创建data文件夹
创建start.bat文件,里面写:
mongod --dbpath ./data
启动mongode的时候就可以直接点start.bat文件,然后数据库就启动了
RoboMongo/Robo 3T(mongo的的可视化工具):
下载: 官网或者其他地址
Redis(基于内存的高效非关系型数据库,类似mongode):
下载地址:https://gi thub.com/MSOpenTech/redis/re l eases
安装
Redis Desktop Manager(redis数据库的可视化工具):
下载: https: //redisdesktop.com/download
PyMySQL(python连接MySQL的包):
pip install pymysql
PyMongo(python中操作mongode的第三方包):
pip install pymongo
redis-py(python中操作redis数据库的第三方包):
pip install redis
RedisDump(用于对redis数据导入导出的工具):
首先安装Ruby(参考:https://www.runoob.com/ruby/ruby-installation-windows.html)
gem install redis-dump
即可完成RedisDump的安装
Flask(轻量级的web服务程序):
pip install flask
Tornado(高效支持异步的web框架):
pip install tornado
Charles(可在手机端的抓包工具):
安装破解都可参考(https://www.cnblogs.com/littlek1d/p/9351705.html)
mitmproxy(支持HTTP,HTTPS的抓包程序,通过控制台操作):
安装操作参考(https://www.cnblogs.com/lsdb/p/10106655.html)
Appium(移动端的自动化测试工具):
安装下载参考(https://blog.csdn.net/qq_16206535/article/details/79586818)
pyspider(国人编写,网络爬虫框架):
pip install pyspider
Scrapy(强大的静态页面的爬虫框架):
首先在python中安装
lxml pyOpenSSL Twisted PyWin32(pip直接安装不上的,可以去https://pypi .python.org/pypi/下载安装)
最后直接
pip install scrapy
Scrapy-Splash(Scrapy中支持JS渲染的工具):
首先安装docker
参见:https://blog.csdn.net/qq_39629343/article/details/80182135
安装完成docker后:
docker run -p 8050:8050 scrapinghub/splash
即可完成安装
Scrapy-Redis(Scrapy对redis数据库操作的拓展):
pip install scrapy-redis
在部署分布式爬虫的时候,需要安装另外一些库:
Scrapyd Scrapyd-Client Scrapyd API Scrapyrt Gerapy
这里编者水平有限,暂时用不到这些东西,用到的时候会进行更新
这里仅仅是罗列出需要安装的软件及一些第三方的库,如果通过上述方式无法安装请百度,或者在文章下方评论留言,我会尽力解决这些问题。