从内核看io_uring的实现---第一篇（基于5.9.9）

其他 2021-11-22 14:28:11 阅读次数: 0

前言：最近研究了一下Linux的高性能异步IO框架io_uring，并尝试引入Node.js中应用起来。所以本文打算介绍一下io_uring在内核的实现，因为io_uring实现代码量大，逻辑复杂，所以只能慢慢分析。这一篇介绍io_uring初始化接口io_uring_setup的实现。

io_uring_setup的声明非常简单，但是实现的细节却非常复杂，下面我们开始分析。

static long io_uring_setup(u32 entries, struct io_uring_params __user *params)
{
    
    
	struct io_uring_params p;
	int i;

	if (copy_from_user(&p, params, sizeof(p)))
		return -EFAULT;
	// 支持的flag
	if (p.flags & ~(IORING_SETUP_IOPOLL | IORING_SETUP_SQPOLL |
			IORING_SETUP_SQ_AFF | IORING_SETUP_CQSIZE |
			IORING_SETUP_CLAMP | IORING_SETUP_ATTACH_WQ))
		return -EINVAL;

	return  io_uring_create(entries, &p, params);
}

io_uring_setup是对io_uring_create的封装。第一个参数entries指定请求队列的长度，第二个参数params是用于调用方和内核通信的结构体。我们看一下定义。

struct io_uring_params {
    
    
	// 定义请求队列长度（2的sq_entries次方），调用方定义
	__u32 sq_entries;
	// 完成队列长度，默认是2 * 请求队列长度
	__u32 cq_entries;
	// 控制内核行为的标记
	__u32 flags;
	// poll模式下开启的内核线程绑定的cpu
	__u32 sq_thread_cpu;
	// poll模式下开启的内核线程空闲时间，之后会挂起。
	__u32 sq_thread_idle;
	// 内核当前支持的能力，内核设置
	__u32 features;
	__u32 wq_fd;
	__u32 resv[3];
	// 记录内核数据的结构体，调用方后续调用mmap需要用到。
	struct io_sqring_offsets sq_off;
	struct io_cqring_offsets cq_off;
};

我们接着看io_uring_create。

static int io_uring_create(unsigned entries, struct io_uring_params *p,
			   struct io_uring_params __user *params)
{
    
    
	struct user_struct *user = NULL;
	struct io_ring_ctx *ctx;
	bool limit_mem;
	int ret;

	p->sq_entries = roundup_pow_of_two(entries);
	// 自定义完成队列长度
	if (p->flags & IORING_SETUP_CQSIZE) {
    
    
		p->cq_entries = roundup_pow_of_two(p->cq_entries);
		// 完成队列不能小于请求队列
		if (p->cq_entries < p->sq_entries)
			return -EINVAL;
		// 超过阈值则需要设置IORING_SETUP_CLAMP标记
		if (p->cq_entries > IORING_MAX_CQ_ENTRIES) {
    
    
			if (!(p->flags & IORING_SETUP_CLAMP))
				return -EINVAL;
			p->cq_entries = IORING_MAX_CQ_ENTRIES;
		}
	} else {
    
    
		// 默认是两倍的请求队列长度
		p->cq_entries = 2 * p->sq_entries;
	}
	// 用户信息
	user = get_uid(current_user());
	// 分配一个ctx记录上下文，因为调用方只能拿到fd，后续操作fd的时候会拿到关联的上下文
	ctx = io_ring_ctx_alloc(p);
	ctx->user = user;
	// 和poll模式相关的数据结构
	ctx->sqo_task = get_task_struct(current);
	// 分配一个io_rings
	ret = io_allocate_scq_urings(ctx, p);
	// 处理poll模式的逻辑
	ret = io_sq_offload_start(ctx, p);
	// 后面还有很多，一会分析
}

io_uring_create代码比较多，我们分步分析。首先分配了一个io_ring_ctx结构体，这是核心的数据结构，用于记录io_uring实例的上下文，不过我们暂时不需要了解它具体的定义，因为实在太多，只关注本文相关的字段。

1 分配一个io_rings结构体

接着调用io_allocate_scq_urings分配一个io_rings结构体，这是非常核心的逻辑，我们看一下io_rings的定义。

struct io_rings {
    
    
	struct io_uring		sq, cq;
	u32			sq_ring_mask, cq_ring_mask;
	u32			sq_ring_entries, cq_ring_entries;
	u32			sq_dropped;
	u32			sq_flags;
	u32         cq_flags;
	u32			cq_overflow;
	struct io_uring_cqe	cqes[];
};

io_rings主要用于记录请求和完成队列的信息。我们继续看io_allocate_scq_urings。

static int io_allocate_scq_urings(struct io_ring_ctx *ctx,
				  struct io_uring_params *p)
{
    
    
	struct io_rings *rings;
	size_t size, sq_array_offset;
	// 记录请求和完成队列大小到ctx
	ctx->sq_entries = p->sq_entries;
	ctx->cq_entries = p->cq_entries;
	/* 
		计算结构体和额外数组的大小，sq_array_offset保存结构体大小，
		size保存结构体+额外数组+另一个额外数组的大小
	*/
	size = rings_size(p->sq_entries, p->cq_entries, &sq_array_offset);
	// 分配内存
	rings = io_mem_alloc(size);
	// ...
}

io_allocate_scq_urings细节比较多，我们分开分析，我们看一下rings_size的逻辑。

static unsigned long rings_size(unsigned sq_entries, unsigned cq_entries,
				size_t *sq_offset)
{
    
    
	struct io_rings *rings;
	size_t off, sq_array_size;
	// 计算结构体和格外数组的大小，见io_rings定义
	off = struct_size(rings, cqes, cq_entries);
	// sq_offset记录结构体大小
	if (sq_offset)
		*sq_offset = off;
	// 计算多个u32元素的数组的大小
	sq_array_size = array_size(sizeof(u32), sq_entries);
	// 计算结构体大小 + sq_array_size的大小保存到off
	if (check_add_overflow(off, sq_array_size, &off))
		return SIZE_MAX;
	return off;
}

struct_size是计算结构体和额外字段大小的宏，我们刚才看到io_rings结构体的定义中，最后一个字段是struct io_uring_cqe cqes[]，看起来是个空数组，其实他的内存是紧跟着结构体后面分配的，结构如下。

下面我们看struct_size是如何计算的。

#define struct_size(p, member, count)					\
	__ab_c_size(count,						\
		    sizeof(*(p)->member) + __must_be_array((p)->member),\
		    sizeof(*(p)))

static inline __must_check size_t __ab_c_size(size_t a, size_t b, size_t c)
{
    
    
	size_t bytes;
	// 计算a * b保存到bytes
	if (check_mul_overflow(a, b, &bytes))
		return SIZE_MAX;
	// 计算bytes + c保存搭配bytes
	if (check_add_overflow(bytes, c, &bytes))
		return SIZE_MAX;

	return bytes;
}

我们看到计算方式就是数组元素大小*元素个数+结构体本身的大小。计算完结构体大小后又通过array_size计算了另一个数组的大小并加起来，所以io_rings的结构体如下所示。

分配了io_rings之后我们继续看接下来的逻辑。

static int io_allocate_scq_urings(struct io_ring_ctx *ctx,
				  struct io_uring_params *p)
{
    
    
	// ...
	// 记录到ctx中
	ctx->rings = rings;
	// sq_array记录rings结构体中，u32数组的首地址
	ctx->sq_array = (u32 *)((char *)rings + sq_array_offset);
	// 用于回环处理
	rings->sq_ring_mask = p->sq_entries - 1;
	rings->cq_ring_mask = p->cq_entries - 1;
	// 队列长度
	rings->sq_ring_entries = p->sq_entries;
	rings->cq_ring_entries = p->cq_entries;
	ctx->sq_mask = rings->sq_ring_mask;
	ctx->cq_mask = rings->cq_ring_mask;
	// 请求队列的数组大小
	size = array_size(sizeof(struct io_uring_sqe), p->sq_entries);
	// 分配内存并记录到sq_sqes
	ctx->sq_sqes = io_mem_alloc(size);
	return 0;
}

进行了一系列设置后，架构如下。

创建完io_rings结构体后，我们继续回到io_uring_create中。

2 设置io_uring_params

内核申请完系列结构体后，需要通过io_uring_params结构体返回给调用方。

static int io_uring_create(unsigned entries, struct io_uring_params *p,
			   struct io_uring_params __user *params) {
    
    
	ret = io_allocate_scq_urings(ctx, p);
	// 初始化poll模式相关逻辑，如果开启了的话
	ret = io_sq_offload_start(ctx, p);
	memset(&p->sq_off, 0, sizeof(p->sq_off));
	// 记录字段在结构体的偏移
	p->sq_off.head = offsetof(struct io_rings, sq.head);
	p->sq_off.tail = offsetof(struct io_rings, sq.tail);
	p->sq_off.ring_mask = offsetof(struct io_rings, sq_ring_mask);
	p->sq_off.ring_entries = offsetof(struct io_rings, sq_ring_entries);
	p->sq_off.flags = offsetof(struct io_rings, sq_flags);
	p->sq_off.dropped = offsetof(struct io_rings, sq_dropped);
	p->sq_off.array = (char *)ctx->sq_array - (char *)ctx->rings;
	
	memset(&p->cq_off, 0, sizeof(p->cq_off));
	p->cq_off.head = offsetof(struct io_rings, cq.head);
	p->cq_off.tail = offsetof(struct io_rings, cq.tail);
	p->cq_off.ring_mask = offsetof(struct io_rings, cq_ring_mask);
	p->cq_off.ring_entries = offsetof(struct io_rings, cq_ring_entries);
	p->cq_off.overflow = offsetof(struct io_rings, cq_overflow);
	p->cq_off.cqes = offsetof(struct io_rings, cqes);
	p->cq_off.flags = offsetof(struct io_rings, cq_flags);
	// 内核支持的属性
	p->features = IORING_FEAT_SINGLE_MMAP | IORING_FEAT_NODROP |
			IORING_FEAT_SUBMIT_STABLE | IORING_FEAT_RW_CUR_POS |
			IORING_FEAT_CUR_PERSONALITY | IORING_FEAT_FAST_POLL |
			IORING_FEAT_POLL_32BITS;

	copy_to_user(params, p, sizeof(*p))
	// 获取fd
	ret = io_uring_get_fd(ctx);
	return ret;
}

io_uring_create继续进行了一系列赋值，赋值完后架构如下。

3 获取文件描述符

内核通过io_uring_get_fd获取文件描述符返回给调用方。

static int io_uring_get_fd(struct io_ring_ctx *ctx)
{
    
    
	struct file *file;
	// 获取一个可用fd
	int ret = get_unused_fd_flags(O_RDWR | O_CLOEXEC);
	// 分配一个file结构体，设置函数集为io_uring_fops，并关联上下文ctx
	file = anon_inode_getfile("[io_uring]", &io_uring_fops, ctx,
					O_RDWR | O_CLOEXEC);

	// 关联fd和file结构体
	fd_install(ret, file);
	return ret;
}

io_uring_get_fd申请了一个fd和file，这是遵循vfs的设计，最重要的是把io_uring的函数集挂在到file上，后续通过fd操作的io_uring实例的时候，经过vfs后就会执行对应的函数，另外还需要把ctx和file关联起来，因为后续通过fd操作io_uring时，需要拿到fd对应的io_uring上下文。至此。

io_uring_setup就分析完了，但是还不能使用。io_uring在设计中，为了减少系统调用和用户、内核数据通信的成本，实现了用户、内核共享数据结构的方式，这样用户和内核就可以操作同一份数据结构达到通信目的，而不用通过系统调用，更不需要设计来回复制。为了达到这个目的，用户拿到io_uring实例后，还需要调用mmap获取对应的内存映射。我们通过liburing库的逻辑来分析。

4 从liburing库看io_uring的使用

int io_uring_queue_init_params(unsigned entries, struct io_uring *ring,
			       struct io_uring_params *p)
{
    
    
	int fd, ret;
	// 调用io_uring_setup，拿到fd
	fd = __sys_io_uring_setup(entries, p);
	if (fd < 0)
		return -errno;
	// 内存映射
	ret = io_uring_queue_mmap(fd, p, ring);
	// 保存系统支持的属性
	ring->features = p->features;
	return 0;
}

我们重点看一下io_uring_queue_mmap。

int io_uring_queue_mmap(int fd, struct io_uring_params *p, struct io_uring *ring)
{
    
    
	int ret;

	memset(ring, 0, sizeof(*ring));
	ret = io_uring_mmap(fd, p, &ring->sq, &ring->cq);
	// 记录flags和fd
	if (!ret) {
    
    
		ring->flags = p->flags;
		ring->ring_fd = fd;
	}
	return ret;
}

继续看io_uring_mmap。

static int io_uring_mmap(int fd, struct io_uring_params *p,
			 struct io_uring_sq *sq, struct io_uring_cq *cq)
{
    
    
	size_t size;
	int ret;
	// 请求队列需要映射的内存大小，即整个结构体struct io_rings结构体的大小
	sq->ring_sz = p->sq_off.array + p->sq_entries * sizeof(unsigned);
	// 请求队列和完成队列映射的内存大小一样，等于请求队列的
	cq->ring_sz = sq->ring_sz;
	// 映射并拿到虚拟地址，大小是sq->ring_sz
	sq->ring_ptr = mmap(0, sq->ring_sz, PROT_READ | PROT_WRITE,
			MAP_SHARED | MAP_POPULATE, fd, IORING_OFF_SQ_RING);
	cq->ring_ptr = sq->ring_ptr;
	// 通过首地址和偏移拿到对应字段的地址
	sq->khead = sq->ring_ptr + p->sq_off.head;
	sq->ktail = sq->ring_ptr + p->sq_off.tail;
	sq->kring_mask = sq->ring_ptr + p->sq_off.ring_mask;
	sq->kring_entries = sq->ring_ptr + p->sq_off.ring_entries;
	sq->kflags = sq->ring_ptr + p->sq_off.flags;
	sq->kdropped = sq->ring_ptr + p->sq_off.dropped;
	sq->array = sq->ring_ptr + p->sq_off.array;
	// 映射保存请求队列节点的内存
	size = p->sq_entries * sizeof(struct io_uring_sqe);
	sq->sqes = mmap(0, size, PROT_READ | PROT_WRITE,
				MAP_SHARED | MAP_POPULATE, fd,
				IORING_OFF_SQES);
	// 同上
	cq->khead = cq->ring_ptr + p->cq_off.head;
	cq->ktail = cq->ring_ptr + p->cq_off.tail;
	cq->kring_mask = cq->ring_ptr + p->cq_off.ring_mask;
	cq->kring_entries = cq->ring_ptr + p->cq_off.ring_entries;
	cq->koverflow = cq->ring_ptr + p->cq_off.overflow;
	cq->cqes = cq->ring_ptr + p->cq_off.cqes;
	if (p->cq_off.flags)
		cq->kflags = cq->ring_ptr + p->cq_off.flags;
	return 0;
}

io_uring_mmap除了保存一些常用的字段信息外，最重要的是做了内存映射。我们看看mmap的最后一个参数分别是IORING_OFF_SQ_RING和IORING_OFF_SQES，接下来我们看看io_uring的mmap钩子的实现。


static int io_uring_mmap(struct file *file, struct vm_area_struct *vma)
{
    
    
	size_t sz = vma->vm_end - vma->vm_start;
	unsigned long pfn;
	void *ptr;

	ptr = io_uring_validate_mmap_request(file, vma->vm_pgoff, sz);
	
	pfn = virt_to_phys(ptr) >> PAGE_SHIFT;
	return remap_pfn_range(vma, vma->vm_start, pfn, sz, vma->vm_page_prot);
}

static void *io_uring_validate_mmap_request(struct file *file,
					    loff_t pgoff, size_t sz)
{
    
    
	struct io_ring_ctx *ctx = file->private_data;
	loff_t offset = pgoff << PAGE_SHIFT;
	struct page *page;
	void *ptr;

	switch (offset) {
    
    
	case IORING_OFF_SQ_RING:
	case IORING_OFF_CQ_RING:
		ptr = ctx->rings;
		break;
	case IORING_OFF_SQES:
		ptr = ctx->sq_sqes;
		break;
	default:
		return ERR_PTR(-EINVAL);
	}

	page = virt_to_head_page(ptr);
	if (sz > page_size(page))
		return ERR_PTR(-EINVAL);

	return ptr;
}

这里设计的内容涉及到了复杂的内存管理，从代码中我们大概知道，返回的地址分别是ctx->rings和ctx->sq_sqes。即我们操作mmap返回的虚拟地址时，映射到内核的数据结构是ctx的字段。这样就完成了数据共享。最后形成的架构图如下。

至此，分析就告一段落，io_uring的实现实在是复杂，需要反复阅读和思考，才能慢慢理解和了解它的原理。

后记：io_uring作为新一代IO框架，未来应该会在各大软件中使用，尤其是对性能有极高要求的服务器，所以是非常值得关注和学习的。最近也尝试在Node.js中引入io_uring，目前支持文件的读写，有兴趣的同学可以了解一下https://github.com/theanarkh/nodejs_io_uring。