安装内容:
python3
pycharm
pyton3 2018分布式爬虫视频+源码下载地址(崔庆才):https://download.csdn.net/download/qymufeng/10842007
1.安装python3
(1)windows下安装python3
下载python3
官方网址: https://www.python.org/downloads/
解压之后,配置环境变量
运行-cmd 输入 python 出现以下字样代表安装成功
(2)linux下载安装python3
命令行安装:
1)ubuntu安装python命令
1)安装基础库:
sudo apt-get install -y python3-dev build-essential libssl-dev lib fi-dev libxml2 libxml2-dev libxsltl-dev zlib1g-dev libcurl4-openssl-dev
2)安装python3:
sudo apt-get install -y python3
提示:安装指定版本python 如安装python3.5用一以下命令即可
sudo apt-get install -y python35
3)安装pip
sudo apt-get install -y python3-pip
4)测试输入python 和 pip3 即可
2)centos安装python命令
以安装python3.5为例:
sudo yum install -y https://centos7.iuscommunity .org/ius-release .rpm
sudo yum update
sudo yum install y python35u python35u libs python35u-devel python35u-pip
2.安装pycharm
官方下载地址:http://www.jetbrains.com/pycharm/
3.安装库
(1)requests:请求库
使用pip安装requests库命令:
pip3 install requests
requests库方法介绍:
方法 | 说明 |
requests.request() | 构造一个请求,支撑一下各方法的基础方法 |
requests.get() | 获取HTML网页的主要方法,对应于HTTP的GET |
requests.head() | 获取HTML网页头信息的方法,对应于HTTP的HEAD |
requests.post() | 向HTML网页提交POST请求的方法,对应于HTTP的POST |
requests.put() | 向HTML网页提交PUT请求的方法,对应于HTTP的PUT |
requests.patch() | 向HTML网页提交局部修改请求,对应于HTTP的PATCH |
requests.delete() | 向HTML页面提交删除请求,对应于HTTP的DELETE |
(2)Selenium:是一个自动化测试工具,利用它我们可以驱动浏览器执行特定的动作,如点击、下拉等 操作 对于一些 JavaScript 谊染的页面来说,这种抓取方式非常有效。
安装命令:
pip3 install selenium
(3)aiohttp:的 requests 库是一个阻塞式 HTTP 请求库,当我们发出一个请求后,程序会一直等待服 器响应,直到得到响应后,程序才会进行下 步处理 其实,这个过程比较耗费时间 如果程序可以在 这个等待过程中做一些其他的事情,如进行请求的调度 响应的处理等,那么爬取效率一定会大大提高 1.3 解析库的安装 19 iohttp 就是这样一个提供异步 We 服务的库,从 Python 本开始 on 中加入了 asy c/awa 关键字,使得回调的写法更加直观和人性 aioh即的异步操作借助于 asy nc await 关键字的写法变 ’ 得更加简情,架构更加清晰 使用异步请求库进行数据抓取时, 会大大提高效率。
pip3 install aiohttp
(4)lxml:解析库,支持html和xml的解析
安装命令:
pip3 install lxml
(5)Beautiful Soup:是python的一个 html 和 xml 的解析库,拥有强大的api
Beautiful Soup解析器是依赖于 lxml 库的,所以在此之前请确保已经成功安装 好了 lxml 库,具体的安装方式参见上面
安装命令:
pip3 install beautifulsoup4
(6)pyquery:pyquery 同样是 个强大的网页解析工具,它提供了和 jQuery 类似的语法来解析 HTML 文梢, 支持 css 选择器,使用非常方便。
安装命令:
p1p3 install pyquery
(7)tesserocr:是python 的一个 OCR 识别库,其实是对 tesseract 做的一层python api 封装,所以其核心是 tesseract 。因此安装 tesserocr 之前需要先安装 tesseract
OCR :即 Optical Character Recognition ,光学字符识别, 是指通过扫描字符,然后通过其形状将 其翻译成电子文本的过程。在爬虫过程中,难免会遇到各种各样的验证码,而大多数验证码还是罔形验证码,这时候我们 以直接用 OCR 来识别。
安装命令:
pip3 install tesserocr pillow