Python 爬虫常用库的安装

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/u011033906/article/details/90737639

安装方法

C:\Users\username\AppData\Local\Programs\Python\Python37\Scripts
pip.exe
pip3.7.exe
pip3.exe

这三个命令其实完全一致,只是名字不一样而已,建议添加到环境变量中去,方便实用。

安装第三方库:

pip install libraryname

1. urllib

python 自带,不用额外安装

import urllib
import urllib.request
response=urllib.request.urlopen("http://www.baidu.com")
print(response)

返回如下结果表示请求成功:
<http.client.HTTPResponse object at 0x0000021B8D6D8CF8>

2. request

import requests
response=requests.get("http://www.baidu.com")
print(response)

返回如下结果表示请求成功:
<Response [200]>

3. 正则表达式模块

re, python 自带,不用额外安装, 直接 import 不报错,证明该库正确安装

4. selenium

主要是用来做驱动浏览器的一个库,一般用来做自动化测试。我们在做爬虫的时候,会遇到一些 JS 渲染的网页,这时候用 requests 做请求的时候无法获取正确的请求内容。这时候我们用 selenium 就可以直接驱动浏览器,用浏览器直接执行 JS 的渲染,之后得到的结果就是渲染之后的界面,就可以拿到 JS 渲染之后的内容了。

5. chromedriver

下载时候注意版本问题。下 32位的,解压之后放到一个已经配置好环境变量的地方。

import selenium
from selenium import webdriver

driver = webdriver.Chrome()
driver.get("http://www.baidu.com")
print(driver.page_source)

6. plantomjs or headless

selenium 打开的时有界面的浏览器,plantomjs 打开的就是无界面的浏览器。

但是貌似废弃掉了, =-=,换成 headless

import selenium
from selenium import webdriver
from selenium.webdriver.chrome.options import Options

options = Options()
options.add_argument('--headless')
options.add_argument('--disable-gpu')
driver = webdriver.Chrome(options=options)
driver.get("https://cnblogs.com/")
print(driver.page_source)

7. LXML

网页解析用

8. beautifulsoup4

9. pyquery

解析DOM树和jQuery选择器

10. pymysql | pymongo | redis | flask | jango | jupyter

猜你喜欢

转载自blog.csdn.net/u011033906/article/details/90737639