Python之旅.第九章.并发编程.

socketserver = 多进程 + 多线程 + IO模型

一、上节课复习及作业讲解

a、spawn用法复习

from gevent import monkey,spawn;monkey.patch_all()

import time

def f1():

print('from f1 1')

time.sleep(3) # 直接调用gevent模块实现遇到IO切换+保持状态

print('from f1 2')

def f2():

print('from f2 1')

time.sleep(2)

print('from f2 2')

def f3():

print('from f3 1')

time.sleep(5)

print('from f3 2')

g1=spawn(f1)

g2=spawn(f2)

g3=spawn(f3)

# time.sleep(10) # spawn 默认为异步调用，如果不加time.sleep或 g.join()，spawn提交后不在原地等待执行，程序直接结束

g1.join()

g2.join()

g3.join()

b、作业讲解

服务端：

from gevent import monkey,spawn;monkey.patch_all()

from threading import Thread

from socket import *

def talk(conn):

while True:

try:

data=conn.recv(1024)

if not data:break

conn.send(data.upper())

except ConnectionResetError:

break

conn.close()

def server(ip,port,backlog=5):

s = socket()

s.bind((ip,port))

s.listen(backlog)

while True:

conn, addr = s.accept()

print(addr)

# 通信

g=spawn(talk,conn)

s.close()

if __name__ == '__main__':

spawn(server,'127.0.0.1',8080).join() # spawn 默认为异步调用，如果不加time.sleep或 g.join()，spawn提交后不在原地等待执行，程序直接结束

# server('127.0.0.1',8080) # 效果等用于spawn(server,'127.0.0.1',8080).join()

客户端：

from threading import Thread,current_thread

from socket import *

import os

def client():

client = socket()

client.connect(('127.0.0.1', 8080))

while True:

data = '%s hello' % current_thread().name

client.send(data.encode('utf-8'))

res = client.recv(1024)

print(res.decode('utf-8'))

if __name__ == '__main__':

for i in range(1000): #开启1000个线程，以提高效率

t=Thread(target=client)

t.start()

二、网络IO操作之wait data和copy data

网路IO的两个阶段（copy data阶段 + wait data阶段），换言之，所有IO都围绕这两个阶段

服务端：

from socket import *

s = socket() # 等同于s=socket(AF_INET, SOCK_STREAM) 默认AF_INET 及 SOCK_STREAM

s.bind(('127.0.0.1',8080))

s.listen(5)

while True:

conn, addr = s.accept() # wait data (wait的时间取决于客户端和网络两方面因素)+ copy data(app <=> kernel)；accept可感觉到明显的阻塞

print(addr)

while True:

try:

data = conn.recv(1024) # wait data + copy data(app <=> kernel) ；recv可感觉到明显的阻塞

if not data: break # for linux, do not pop ConnectionResetError

print('from client msg: ',data)

except ConnectionResetError: # for windows

break

conn.close()

客户端：

from socket import *

client = socket() # s=socket(AF_INET, SOCK_STREAM) 默认AF_INET 及 SOCK_STREAM

client.connect(('127.0.0.1', 8080))

while True:

data = input('>>: ').strip()

if not data:continue # if just enter, ask to re-input

client.send(data.encode('utf-8')) # copy data(app <=> kernel) only

#send（只有copy data阶段）是IO操作，但有时可能感觉不到明显的阻塞，一是因为传输的数据量少，二是因为是本地copy操作不经历网络过程；但如果send的数据量特别大，是有可能感受到阻塞的。

print('has send')

讲IO模型的目的：自己实现gevent模块，解决单线程下的IO问题（网络IO，不含time.sleep），从而得到高性能。（之前讲的多进程和多线程并没有解决IO）

三、阻塞IO模型

wait data和copy data阶段一个都不能少，完完整整的等下来即为阻塞IO模型

之前所接触的多进程、多线程、进程池、线程池（除了gevent模块以外）都是阻塞IO模型。

四、非阻塞IO模型（更好的利用wait data阶段）

非阻塞IO只能监测网络IO，不监测time.sleep()这种IO

非阻塞IO有可能大规模占用CPU做无用操作，所以不推荐使用非阻塞IO

a、非阻塞IO模型（基础bug版）

服务端：

from socket import *

import time

s = socket()

s.bind(('127.0.0.1',8080))

s.listen(5)

s.setblocking(False) # 不设置默认是True；将其设置成False，即将所有阻塞编程非阻塞（遇到等不到数据的情况，不阻塞，会抛出信息：BlockingIOError）

#gevent模块中 monkey.patch_all() 即 s.setblocking(False)

r_list=[]

while True:

try:

conn, addr = s.accept()

r_list.append(conn)

except BlockingIOError:

# time.sleep(3) # 非阻塞IO即完全没有阻塞，不应该人为加入time.sleep()

print('可以去干其他的活了')

print('rlist: ',len(r_list))

for conn in r_list:

try:

data=conn.recv(1024)

conn.send(data.upper())

except BlockingIOError: #如果等不到数据，报出的错误为BlockingIOError

continue

客户端：

from socket import *

import os

client = socket()

client.connect(('127.0.0.1', 8080))

while True:

data='%s say hello' %os.getpid()

client.send(data.encode('utf-8'))

res=client.recv(1024)

print(res.decode('utf-8'))

b、非阻塞IO模型（修正）

服务端：

from socket import *

import time

s = socket()

s.bind(('127.0.0.1',8080))

s.listen(5)

s.setblocking(False)

r_list=[]

w_list=[]

while True:

try:

conn, addr = s.accept()

r_list.append(conn)

except BlockingIOError:

# time.sleep(0.05) #非阻塞模型不应该加time.sleep(); 加上time.sleep(0.05) 即把非阻塞IO模型变成IO多路复用模型

print('可以去干其他的活了')

print('rlist: ',len(r_list))

# 收消息

del_rlist=[]

for conn in r_list:

try:

data=conn.recv(1024)

if not data: # for linux，不抛出ConnectionResetError，监测是否收到数据

conn.close()

del_rlist.append(conn)

continue

# conn.send(data.upper()) # 错误做法： send亦有可能阻塞，所以不推荐放在这个位置，宜分到下面发消息模块独立完成

w_list.append((conn,data.upper())) # 正确做法：收集待send数据信息；以小元组的形式写入列表

except BlockingIOError:

continue

except ConnectionResetError:

conn.close()

# r_list.remove(conn) # 错误做法：在循环期间不推荐改变所循环对象（list，dict等）的结构

del_rlist.append(conn) # 正确做法：在循环期间不推荐改变所循环对象（list，dict等）的结构

# 发消息

del_wlist=[]

for item in w_list:

try:

conn=item[0] # 将小元组中数据依次取出

res=item[1] # 将小元组中数据依次取出

conn.send(res)

del_wlist.append(item)

except BlockingIOError:

continue

except ConnectionResetError:

conn.close()

del_wlist.append(item)

# 回收无用连接

for conn in del_rlist:

r_list.remove(conn) # 正确做法：在循环期间不推荐改变所循环对象（list，dict等）的结构

for item in del_wlist:

w_list.remove(item)

客户端：

from socket import *

import os

client = socket()

client.connect(('127.0.0.1', 8080))

while True:

data='%s say hello' %os.getpid()

client.send(data.encode('utf-8'))

res=client.recv(1024)

print(res.decode('utf-8'))

五、IO多路复用

IO多路复用可同时监测多个套接字，循环询问操作系统是否已准备好数据。在之前修正版的非阻塞IO模型中加入time.sleep() 即将非阻塞IO模型转化成IO多路复用模型

当只监测一个套接字时，多路复用比阻塞IO的效率还要低。

一般会使用select模块帮忙完成IO多路复用模型。（注意： select不能监测到ConnectionResetError，只能监测到BlockingIOError）

服务端：

from socket import *

import select

s = socket()

s.bind(('127.0.0.1',8080))

s.listen(5)

s.setblocking(False)

# print(s)

r_list=[s,]

w_list=[]

w_data={}

while True:

print('被检测r_list： ',len(r_list))

print('被检测w_list： ',len(w_list))

rl,wl,xl=select.select(r_list,w_list,[],) #r_list=[server,conn] rl等存放等到数据的对象

# print('rl: ',len(rl)) #rl=[conn,]

# print('wl: ',len(wl))

# 收消息

for r in rl: #r=conn

if r == s: #r l为已经有等到信息的对象，可能为s，亦可为conn；当为s时，执行accept，当为conn时，执行recv

conn,addr=r.accept()

r_list.append(conn) # 建立好连接后，将连接丢入r_list中监测

else:

try:

data=r.recv(1024)

if not data: # select模块不帮忙捕捉ConnectionResetError，此操作针对linux系统

r.close()

r_list.remove(r)

continue

# r.send(data.upper())

w_list.append(r)

w_data[r]=data.upper()

except ConnectionResetError: #select模块不帮忙捕捉ConnectionResetError，此操作针对windows系统

r.close()

r_list.remove(r)

continue

# 发消息

for w in wl:

w.send(w_data[w])

w_list.remove(w)

w_data.pop(w)

客户端：

from socket import *

import os

client = socket()

client.connect(('127.0.0.1', 8080))

while True:

data='%s say hello' %os.getpid()

client.send(data.encode('utf-8'))

res=client.recv(1024)

print(res.decode('utf-8'))

六、异步IO模型

异步IO模型的效率最高

之前设计到的异步调用+回调即用到了异步IO模型。具体的实现操作会在爬虫中详细介绍

from concurrent.futures import ThreadPoolExecutor

from threading import current_thread

import time

import os

def task(n):

print('%s is running' %current_thread().name)

time.sleep(2)

return n**2

def parse(obj):

res=obj.result()

print(res)

if __name__ == '__main__':

t=ThreadPoolExecutor(4)

future1=t.submit(task,1)

future1.add_done_callback(parse) #parse函数会在future1对应的任务执行完毕后自动执行，会把future1自动传给parse

future2=t.submit(task,2)

future2.add_done_callback(parse)

future3=t.submit(task,3)

future3.add_done_callback(parse)

future4=t.submit(task,4)

future4.add_done_callback(parse)

七、重点知识归纳（网络编程+ 并发编程）

一网络编程

目标：编写一个C/S或B/S架构的基于网络通信的软件

1、C/S,B/S（*****）

server<===============>client

服务端特点：

1、不间断地提供服务

2、服务端要支持并发+高性能

2、互联网

互联网=物理连接介质+互联网协议（OSI七层***）

tcp三次握手，四次挥手（*****）

tcp可靠，但不如udp效率高（*****）

udp不可靠，但效率高（*****）

3、socket（*****）

socket抽象层位于传输层与应用层之间

4、基于tcp协议的套接字通信（*****）

加上连接循环

加上通信循环

5、粘包问题：（*****）

tcp流式协议独有的粘包问题

解决方法：自定义报头

udp数据报协议没有粘包问题

6、远程执行命令的小程序/上传下载文件的程序（*****）

7、基于udp协议的套接字通信（***）

二并发编程

目标：让服务端能够支持高并发+高性能

1、操作系统发展史

多道技术（*****）

产生背景

多道技术的核心：

1、空间上的复用

2、时间上的复用

*****

并发：看起来同时运行

并行：真正意义上的同时运行，一个cpu同一时刻只能做一件事

只有多核才能同时做多件事，即并行的效果

2、进程

1、进程理论（*****）

2、开启进程的两种方式（*****）

3、守护进程（**）

4、互斥锁与信号量（**）

5、IPC机制：队列，管道（*）

6、进程queue=管道+锁（***）

7、生产者消费者模型（*****）

3、线程

1、线程理论（*****）

2、开启线程的两种方式（*****）

3、守护线程（**）

4、互斥锁与信号量（**）

5、GIL vs 互斥锁（*****）

6、Cpython的解释器下（*****）

多个任务是IO密集型：多线程

多个任务是计算密集型：多进程

7、死锁现象与递归锁（**）

8、线程queue（***）

9、Event事件（**）

4、池（*****）

为何要用池：

操作系统无法无限开启进程或线程

池作用是将进程或线程控制操作系统可承受的范围内

什么时候用池：

当并发的任务数要远超过操作系统所能承受的进程数或

线程数的情况应该使用池对进程数或线程数加以限制

如何用池？

池内装的东西有两种：

装进程：进程池

装线程：线程池

进程线程池的使用

提交的两种方式：

同步调用

异步调用+回调机制

任务执行的三种状态：

阻塞

非阻塞：

就绪

运行

5、单线程下实现并发（****）

协程：在应用程序级别实现多个任务之间切换+保存状态

高性能：

单纯地切换，或者说么有遇到io操作也切换，反而会降低效率

检测单线程下的IO行为，实现遇到IO立即切换到其他任务执行

gevent

6、IO模型（主要掌握理论****）

阻塞IO

非阻塞IO

IO多路复用

异步IO

Python之旅.第九章.并发编程.

猜你喜欢