python3 2018分布式爬虫教程 -1 环境配置

安装内容:

python3

pycharm

pyton3 2018分布式爬虫视频+源码下载地址(崔庆才):https://download.csdn.net/download/qymufeng/10842007

1.安装python3

(1)windows下安装python3

         下载python3

         官方网址: https://www.python.org/downloads/

         解压之后,配置环境变量

         运行-cmd  输入 python 出现以下字样代表安装成功

 

扫描二维码关注公众号,回复: 4588196 查看本文章

(2)linux下载安装python3

         命令行安装:

         1)ubuntu安装python命令

1)安装基础库:
sudo apt-get install -y python3-dev build-essential libssl-dev lib fi-dev libxml2 libxml2-dev libxsltl-dev zlib1g-dev libcurl4-openssl-dev

2)安装python3:

sudo apt-get install -y python3

提示:安装指定版本python 如安装python3.5用一以下命令即可

sudo apt-get install -y python35

3)安装pip

sudo apt-get install -y python3-pip 

4)测试输入python 和 pip3 即可

            2)centos安装python命令

以安装python3.5为例:
sudo yum install -y https://centos7.iuscommunity .org/ius-release .rpm
sudo yum update
sudo yum install y python35u python35u libs python35u-devel python35u-pip 

 

2.安装pycharm

            官方下载地址:http://www.jetbrains.com/pycharm/

3.安装库

(1)requests:请求库

使用pip安装requests库命令:

pip3 install requests

requests库方法介绍:

              方法                                         说明
requests.request() 构造一个请求,支撑一下各方法的基础方法
requests.get() 获取HTML网页的主要方法,对应于HTTP的GET
requests.head() 获取HTML网页头信息的方法,对应于HTTP的HEAD
requests.post() 向HTML网页提交POST请求的方法,对应于HTTP的POST
requests.put() 向HTML网页提交PUT请求的方法,对应于HTTP的PUT
requests.patch() 向HTML网页提交局部修改请求,对应于HTTP的PATCH
requests.delete() 向HTML页面提交删除请求,对应于HTTP的DELETE

(2)Selenium:是一个自动化测试工具,利用它我们可以驱动浏览器执行特定的动作,如点击、下拉等 操作 对于一些 JavaScript 谊染的页面来说,这种抓取方式非常有效。

安装命令:

pip3 install selenium 

(3)aiohttp:的 requests 库是一个阻塞式 HTTP 请求库,当我们发出一个请求后,程序会一直等待服 器响应,直到得到响应后,程序才会进行下 步处理 其实,这个过程比较耗费时间 如果程序可以在 这个等待过程中做一些其他的事情,如进行请求的调度 响应的处理等,那么爬取效率一定会大大提高 1.3 解析库的安装 19 iohttp 就是这样一个提供异步 We 服务的库,从 Python 本开始 on 中加入了 asy c/awa 关键字,使得回调的写法更加直观和人性 aioh即的异步操作借助于 asy nc await 关键字的写法变 ’ 得更加简情,架构更加清晰 使用异步请求库进行数据抓取时, 会大大提高效率。

 

pip3 install aiohttp 

 

(4)lxml:解析库,支持html和xml的解析

安装命令:

pip3 install lxml

(5)Beautiful Soup:是python的一个 html 和 xml 的解析库,拥有强大的api

Beautiful Soup解析器是依赖于 lxml 库的,所以在此之前请确保已经成功安装 好了 lxml 库,具体的安装方式参见上面

安装命令:

pip3 install beautifulsoup4 

(6)pyquery:pyquery 同样是 个强大的网页解析工具,它提供了和 jQuery 类似的语法来解析 HTML 文梢, 支持 css 选择器,使用非常方便。

安装命令:

p1p3 install pyquery 

(7)tesserocr:是python 的一个 OCR 识别库,其实是对 tesseract 做的一层python api 封装,所以其核心是 tesseract 。因此安装 tesserocr 之前需要先安装 tesseract

OCR :即 Optical Character Recognition ,光学字符识别, 是指通过扫描字符,然后通过其形状将 其翻译成电子文本的过程。在爬虫过程中,难免会遇到各种各样的验证码,而大多数验证码还是罔形验证码,这时候我们 以直接用 OCR 来识别。

安装命令:

pip3 install tesserocr pillow 

 

 

 

 

 

 

猜你喜欢

转载自blog.csdn.net/QYmufeng/article/details/84966378