python3 2018分布式爬虫教程 -1 环境配置

安装内容：

python3

pycharm

pyton3 2018分布式爬虫视频+源码下载地址（崔庆才）：https://download.csdn.net/download/qymufeng/10842007

1.安装python3

（1）windows下安装python3

下载python3

官方网址： https://www.python.org/downloads/

解压之后，配置环境变量

运行-cmd 输入 python 出现以下字样代表安装成功

扫描二维码关注公众号，回复： 4588196 查看本文章

（2）linux下载安装python3

命令行安装：

1）ubuntu安装python命令

1）安装基础库：
sudo apt-get install -y python3-dev build-essential libssl-dev lib fi-dev libxml2 libxml2-dev libxsltl-dev zlib1g-dev libcurl4-openssl-dev

2）安装python3：

sudo apt-get install -y python3

提示：安装指定版本python 如安装python3.5用一以下命令即可

sudo apt-get install -y python35

3）安装pip

sudo apt-get install -y python3-pip 

4）测试输入python 和 pip3 即可

2）centos安装python命令

以安装python3.5为例：
sudo yum install -y https://centos7.iuscommunity .org/ius-release .rpm
sudo yum update
sudo yum install y python35u python35u libs python35u-devel python35u-pip

2.安装pycharm

官方下载地址：http://www.jetbrains.com/pycharm/

3.安装库

（1）requests：请求库

使用pip安装requests库命令：

pip3 install requests

requests库方法介绍：

方法	说明
requests.request()	构造一个请求，支撑一下各方法的基础方法
requests.get()	获取HTML网页的主要方法，对应于HTTP的GET
requests.head()	获取HTML网页头信息的方法，对应于HTTP的HEAD
requests.post()	向HTML网页提交POST请求的方法，对应于HTTP的POST
requests.put()	向HTML网页提交PUT请求的方法，对应于HTTP的PUT
requests.patch()	向HTML网页提交局部修改请求，对应于HTTP的PATCH
requests.delete()	向HTML页面提交删除请求，对应于HTTP的DELETE

（2）Selenium：是一个自动化测试工具，利用它我们可以驱动浏览器执行特定的动作，如点击、下拉等操作对于一些 JavaScript 谊染的页面来说，这种抓取方式非常有效。

安装命令：

pip3 install selenium

（3）aiohttp：的 requests 库是一个阻塞式 HTTP 请求库，当我们发出一个请求后，程序会一直等待服器响应，直到得到响应后，程序才会进行下步处理其实，这个过程比较耗费时间如果程序可以在这个等待过程中做一些其他的事情，如进行请求的调度响应的处理等，那么爬取效率一定会大大提高 1.3 解析库的安装 19 iohttp 就是这样一个提供异步 We 服务的库，从 Python 本开始 on 中加入了 asy c/awa 关键字，使得回调的写法更加直观和人性 aioh即的异步操作借助于 asy nc await 关键字的写法变 ’ 得更加简情，架构更加清晰使用异步请求库进行数据抓取时，会大大提高效率。

pip3 install aiohttp

（4）lxml：解析库，支持html和xml的解析

安装命令：

pip3 install lxml

（5）Beautiful Soup：是python的一个 html 和 xml 的解析库，拥有强大的api

Beautiful Soup解析器是依赖于 lxml 库的，所以在此之前请确保已经成功安装好了 lxml 库，具体的安装方式参见上面

安装命令：

pip3 install beautifulsoup4

（6）pyquery：pyquery 同样是个强大的网页解析工具，它提供了和 jQuery 类似的语法来解析 HTML 文梢，支持 css 选择器，使用非常方便。

安装命令：

p1p3 install pyquery

（7）tesserocr：是python 的一个 OCR 识别库，其实是对 tesseract 做的一层python api 封装，所以其核心是 tesseract 。因此安装 tesserocr 之前需要先安装 tesseract

OCR ：即 Optical Character Recognition ，光学字符识别，是指通过扫描字符，然后通过其形状将其翻译成电子文本的过程。在爬虫过程中，难免会遇到各种各样的验证码，而大多数验证码还是罔形验证码，这时候我们以直接用 OCR 来识别。

安装命令：

pip3 install tesserocr pillow