+ --- threaded crawler using python asynchronous multitasking coroutine, selenium crawler module
Dian + a single-threaded multi-tasking asynchronous coroutine
Special Functions
# 如果一个函数的定义被async修饰后,则该函数就是一个特殊的函数
async def get_request(url):
print('正在请求~~', url)
await asyncio.sleep(2)
print('请求结束!!', url)
Coroutine objects
# - 对象: 特殊函数被调用后,函数内部的实现语句不会被立即执行,然后该函数调用会返回一个协程对象。
# - 结论: 协程对象==特殊的函数调用
### c 是 协程对象
# 函数调用: 返回的是一个协程对象
c = get_request(url) # <generator object get_request at 0x000001C626DCF048
The task object
# 任务对象
- 1.起始就是对协程对象的进一步封装。
- 2.结论:任务对象==高级的协程对象==特殊的函数调用
- 3.绑定回调:
- 回调函数什么时候被执行?
- 任务对象执行结束后执行回调函数
- task.add_done_callback(func)
- func必须要有一个参数,该参数表示的是该回调函数对应的任务对象
- 回调函数的参数.result():任务对象对应特殊函数内部的返回值
### 任务对象
task = asyncio.ensure_future(c)
### 绑定回调函数 parase ,传入函数名即可
task.add_done_callback(parase)
Object event loop
# 事件循环对象
- 作用:将其内部注册的任务对象进行异步执行。
### 创建一个事件循环对象
loop = asyncio.get_event_loop()
# 循环执行 , 将任务对象注册到事件循环对象中并且开启事件循环
loop.run_until_complete(asyncio.wait(tasks_list))
Coding process
# 编码流程
- 定义特殊函数
- 创建协程对象
- 封装任务对象
- 创建事件循环对象
- 将任务对象注册到事件循环中且开启事件循环对象
Precautions***
- 注意:在特殊函数内部的实现语句中不可以出现不支持异步的模块对应的代码,否则
就是终止多任务异步协程的异步效果
- 注意重点:requests模块不支持异步,在多任务的异步协程中不可以使用requests
Use aiohttp module
- 概念:支持异步的网络请求模块
- 编码流程:
- 写基本架构:
with aiohttp.ClientSession() as s:
with s.get(url) as response:
page_text = response.text()
return page_text
- 补充细节:
- 添加async关键字
- 每一个with前加上async
- 添加await关键字
- 加载每一步的阻塞操作前加上await
- 请求
- 获取响应数据
# -*-coding:utf-8-*-
# Author:Ds
'''
多任务的异步爬虫
'''
import asyncio
import time
# aiohttp 异步网络请求模块
import aiohttp
from lxml import etree
async def get_request(url):
# 开启一个连接请求
async with aiohttp.ClientSession() as s:
# 发送一个连接请求
async with s.get(url=url) as response:
# await 的使用情况:
# 请求和响应都存在网络传输,
page_text =await response.text()
return page_text
def parase(task):
'''
# 解析page_text
:param task:
:return:
'''
# 获取 执行函数调用的结果
page_text=task.result()
# 实例化etree解析对象
tree=etree.HTML(page_text)
page_data=tree.xpath('//*[@id="page"]/a[1]/span[1]/i/@class')[0]
print(page_data)
urls = [
'http://127.0.0.1:5000/ip01',
'http://127.0.0.1:5000/ip02',
'http://127.0.0.1:5000/ip01',
'http://127.0.0.1:5000/ip02',
'http://127.0.0.1:5000/ip01',
'http://127.0.0.1:5000/ip02',
]
start_time = time.time()
# 列表 协程对象列表
coroutine_list = []
# 列表 任务对象列表
tasks_list = []
for url in urls:
### c 是 协程对象
# 函数调用: 返回的是一个协程对象
c = get_request(url) # <generator object get_request at 0x000001C626DCF048
### 任务对象
task = asyncio.ensure_future(c)
### 绑定回调函数
task.add_done_callback(parase)
tasks_list.append(task)
coroutine_list.append(c)
# print(coroutine_list)
# print(tasks_list)
### 创建一个事件循环对象
loop = asyncio.get_event_loop()
# 循环执行 , 将任务对象注册到事件循环对象中并且开启事件循环
loop.run_until_complete(asyncio.wait(tasks_list))
print('总耗时:', time.time() - start_time)
loop.close()
Two Dian selenium module
Outline
- 概念:基于浏览器自动化的一个模块。
- Appium是基于手机的自动化的模块。
- selenium和爬虫之间的关联
- 便捷的爬取到动态加载的数据
- 可见即可得
- 便捷的实现模拟登陆
Basic use
- 基本使用:
- 环境安装
- pip install selenium
- 下载浏览器的驱动程序
- http://chromedriver.storage.googleapis.com/index.html
- 浏览器版本和驱动程序的映射关系:
https://blog.csdn.net/huilan_same/article/details/51896672
Dynamic data capture
# -*-coding:utf-8-*-
# Author:Ds
from selenium import webdriver
import time
from lxml import etree
options=webdriver.ChromeOptions()
options.binary_location = r"E:\Program Files (x86)\Google\Chrome\Application\chrome.exe"
browser=webdriver.Chrome('chromedriver.exe',options=options)
url='https://www.fjggfw.gov.cn/Website/JYXXNew.aspx'
browser.get(url)
time.sleep(1)
# page_source : 获取页面资源 所有数据
page_text=browser.page_source
# 列表存储页面源码数据
all_page_text=[]
for i in range(3):
next_page_btn=browser.find_element_by_xpath('//*[@id="kkpager"]/div[1]/span[1]/a[7]')
next_page_btn.click()
time.sleep(1)
# 往列表里添加一整页数据
all_page_text.append(browser.page_source)
for page_text in all_page_text:
tree=etree.HTML(page_text)
# 获取页面指定动态数据的第一条数据
title=tree.xpath('//*[@id="list"]/div[1]/div/h4/a/text()')[0]
print(title)
Action Chain
- 动作链
- 在使用find系列的函数进行标签定位的时候如果出现了NoSuchElementException如何处理?
- 如果定位的标签是存在于iframe标签之下的,则在进行指定标签定位的时候
必须使用switch_to.frame()的操作才可。
# -*-coding:utf-8-*-
# Author:Ds
from selenium import webdriver
import time
from lxml import etree
options=webdriver.ChromeOptions()
options.binary_location = r"E:\Program Files (x86)\Google\Chrome\Application\chrome.exe"
browser=webdriver.Chrome('chromedriver.exe',options=options)
browser.get('https://www.runoob.com/try/try.php?filename=jqueryui-api-droppable')
time.sleep(1)
# 传入iframe的ID #frame的参数为iframe标签的id属性值
browser.switch_to.frame('iframeResult')
# 找到要执行动作的标签元素
div_tag=browser.find_element_by_id('draggable')
# 实例化一个动作链对象, 传入浏览器对象
action=webdriver.ActionChains(browser)
action.click_and_hold((div_tag))
for i in range(3):
# 执行动作链 , perform() 表示立即执行
action.move_by_offset(5,0).perform()
time.sleep(0.1)
browser.quit()
Headless browser
- 无头浏览器
- phantomjs
- 谷歌无头浏览器(推荐)
# -*-coding:utf-8-*-
# Author:Ds
from selenium.webdriver.chrome.options import Options
from selenium import webdriver
import time
from lxml import etree
# 设置浏览器无头信息
chrome_options=Options()
chrome_options.add_argument('--headless')
chrome_options.add_argument('--disable-gpu')
chrome_options.binary_location=r"E:\Program Files (x86)\Google\Chrome\Application\chrome.exe"
browser=webdriver.Chrome('chromedriver.exe',chrome_options=chrome_options)
browser.get('https://www.taobao.com')
# 截图保存
browser.save_screenshot('./taobao_index.png')
print(browser.page_source)
How to avoid the risk of selenium to be monitored
- 如何规避selenium被监测到的风险
- 网站可以根据:'window.navigator.webdriver' 的返回值鉴定是否使用了selenium
- undefind:正常
- true:selenium
# -*-coding:utf-8-*-
# Author:Ds
from selenium.webdriver.chrome.options import Options
from selenium import webdriver
import time
from lxml import etree
# 设置浏览器无头信息
chrome_options=Options()
chrome_options.binary_location=r"E:\Program Files (x86)\Google\Chrome\Application\chrome.exe"
### 设置 不被监测
# console输入: 'window.navigator.webdriver' 为true则检查出是使用的 selenium .
chrome_options.add_experimental_option('excludeSwitches', ['enable-automation'])
browser=webdriver.Chrome('chromedriver.exe',chrome_options=chrome_options)
browser.get('https://www.taobao.com')
Login Wed and simulation of 12306