经典高并发服务器设计逻辑

都是面试必问的八股，不管理不理解用不用得上，背就完事了。

服务器模型

对于并发量比较大的服务器，即listen监听端口一直忙碌于处理新建连接的场景，一般在主线程里面accept新的客户端连接并生成新连接的socket，然后将这些新连接的socket按既定规则（如轮询、哈希等）传递给工作线程池；每个工作线程各自持有一个epollfd，管理主线程分配过来的socket事件，由这些工作线程处理新连接上的网络IO事件（即收发数据+处理数据）。此外，工作线程还处理系统中的另外一些事务，如定时器等。

总体来说就是1+N+M模型，一个主线程专门用于处理新建连接事件，N个工作线程处理网络消息，M个线程做数据加工（如操作数据库等）。

经典服务器的优点在于：

主线程只关注处理新连接，不用处理网络IO事件，可以尽快响应新建客户端请求。主线程接受的新连接（每个连接对应一个socket fd）可以根据配置的负载均衡策略分配给各个工作线程。主线程记录各个工作线程上在线的socket fd数量，平衡服务器资源。此外还可以在工作线程做其他的处理逻辑。

如果不是高并发类的业务场景，listenfd所在的主线程比较空闲，可以不让listenfd独占一个线程，即主线程也参与clientfd的读写事件处理。新版本redis的多线程实现方式就是这样的。

工作线程设计逻辑

每个工作线程函数里面有一个循环流程，这些循环流程里面做的都是相同的事情。这个线程函数的内容细节如下：

//工作线程
void thread_func(void* thread_arg)
{
//这初始化资源
  while (没有接收到主线程发送过来的要求工作线程退出的信号)
  {
    //检查定时器，定时器任务一般放在最开始处理，保证时间间隔更精确
    check_and_handle_timers();
    //调用select/poll/epoll等多路复用接口，分离出读写事件
    epoll_or_select_func();
    //处理读事件或写事件
    handle_io_events();
    //其他的事情放最后做
    handle_other_things();
  }
//执行线程退出的资源清理工作
}

一些额外的工作如定时任务、信号处理任务等可以放到 handle_other_thing() 中处理，这些事件采用特殊的唤醒策略。如管道fd、enevtfd、socketpair。为什么epoll能管理这些异构的fd呢？在设备驱动层面实现了file_operations.poll方法的fd可以交给epoll管理，包括：socket、eventfd、timerfd。相反，反而是文件系统fd没有实现file_operations.poll方法，无法由epoll管理。

业务处理

void handle_io_events()
{
  //收发数据
  recv_or_send_data();
  //解包并处理数据
  decode_packages_and_process();
}

如果解析包及处理数据比较耗时，需要将业务处理逻辑单独拆出来交给另外的业务工作线程池处理。

发消息逻辑设计

处理后的数据需要从业务线程交给网络线程发送。

1、最简单的办法就是直接调用相应的发数据的接口，此时可能出现多个线程同时调用该socket的send函数。一个socket描述符如果在多个线程之间共享，就会出现竞态条件。为了保证数据正确性，需要对该socket发送加锁，确保同一时刻只有一个线程调用socket send方法。相当于业务线程做了网络线程的事。

2、业务线程将需要发送的数据放入共享区域，由定时器定时从共享区域取出来，再发送出去。缺点是存在延迟。

3、使用pipe等通知机制，唤醒epoll，在工作线程循环体的handle_other_things()中完成处理发送工作。这里发送数据也可以使用缓冲区缓存。

如果业务不耗时，可以直接放在网络IO工作线程中处理，直接在网络线程中发送。

可写事件与可读事件不太一样，有新连接到来时可以立即设置可读，但是只有有数据需要发送时才设置可写。所以在数据都发出去以后，要移除可写事件。

缓冲区设计

每一个socket连接都需要配置各自的缓冲区，业务层的缓冲区分为读缓冲区和写缓冲区，缓存的本质就是空间换时间。接收缓冲区主要用于HTTP等协议解析，写缓冲区用于业务层可持续追加发送数据。

如何设置大小呢？可以参考redis的设置，读缓冲限制大小，防止客户端乱搞。写缓冲不设置大小，使用链表或者vector自动适配，毕竟是自己生成的数据。

缓冲区内存的有效时间必须比I/O操作的时间要长，实现方式为：连接类需要继承自enabled_shared_from_this，然后在内部保存它需要的缓冲区，而且每次异步调用都要传递一个智能指针（shared_from_this()）给this操作。

流量控制

使用流量统计可以对所有客户端或者某一个客户端做一个限速。

当客户端连接数目比较多的时候，服务器在处理网络数据的时候，如果同时有多个socket上有数据要处理，由于cpu核数有限，根据上面先检测iO事件再处理IO事件可能会出现工作线程一直处理前几个socket的事件，直到前几个socket处理完毕后再处理后面几个socket的数据。

对于epollwait返回的客户端可读事件，对客户端进行流量统计，如果同时触发的可读事件超过某个阈值（按CPU核数设置），且某个客户端流量超过阈值，那么该轮循环不处理这个客户端的读事件。同时启动一个100ms的定时器，100ms后清除该客户端的流量统计值，该客户端又可以被服务器处理了。该项优化不适用于某些要求强顺序性的业务如游戏对战等业务场景。

异步connect实现方式

一般业务场景是不会调用connect接口的，但是代理服务器等场景会用到。为了让多路复用IO支持异步connect事件，流程如下：

1.创建socket，并将socket设置成非阻塞模式；

2.调用connect函数，此时无论是否连接成功都会立即返回；如果返回-1且错误码是EINPROGRESS，说明在连接中；

3. 接着调用select/epoll函数，在指定的时间内判断该socket是否可写，如果可写说明连接成功，反之则为连接失败。

setsockopt、bind、accept等接口的最后一个参数socklen_t既是入参又是出参，需要根据该参数来决定读取的用户内存区长度，因此传入的值需要初始化。这一点容易忽视。

Writev加速写的逻辑

也就是IO向量机制。

write操作的是连续内存块，writev操作的是分散的数据块，两个函数的最终操作结果都是将内容写入连续的空间。writev的固有开销比write大，因此对于小内存的写而言，很可能也没有copy+write高效。

wirte返回值处理

write经常不能够一次写完，此时会返回已经写了多少字节，如果业务继续写，此时就会阻塞；对于非阻塞socket而言，write会在buf不可写时返回的EAGAIN，那么在下一次write时，便可通过之前返回的值重新确定基址和长度。

writev也会返回已经写入的长度或者EAGAIN(errno)。此时writev并不是每次传同样的iovec就能解决问题，需要调用者重新处理iovec，即需要通过遍历iovec来计算新的基址。

writev适用于磁盘IO，对于写socket，尤其是非阻塞socket，尽量不要用writev，实现连续的内存块反而可以简化实现。

信号创建

在handle_other_thing()中需要对一些信号进行响应。采用signation，而不是signal调用来设置信号处理函数，因为signal调用会有一些未解决的已知问题。此外在使用signation设置信号处理函数时，可以设置SA_RESTART来自动恢复被信号中断的系统调用。如果不设置自动恢复，在有信号时read/write会返回-1且errno被设置为 EINTR，表示被信号打断，需要手动重新调用。

SIGPIPE

对一个已经收到FIN包的socket调用recv方法，如果接收缓冲已空，则返回0，表明连接关闭。
对一个已经收到FIN包的socket第一次调用send方法时，如果发送缓冲区未阻塞，则send调用会返回写入的数据量，同时进行数据发送。但是发送出去的报文会触发对端发回RST报文，因为对端的socket已经调用了close进行了完全关闭（不然本端不会收到FIN报文）。所以第二次调用send方法时（需要在收到RST之后）会触发SIGPIPE信号，这就是为什么第二次send才能触发 SIGPIPE的原因。

可以使用signation对SIGPIPE信号进行捕获，这样当第二次调用write方法时，会返回 -1，同时 errno错误码会被设置成 EPIPE，而不是直接杀死进程。

NONBLOCK

为避免返回值0具有二义性，对一个非阻塞的描述符如果无数据可读，则read返回-1，而且errno被设置为 EAGAIN。返回0，表示接收到对端的FIN，即对端写关闭。

Unix域协议

Unix域协议并不是一个网络协议族，而是在单个主机上执行客户/服务通信的一种方式。是进程间通信（IPC）的一种方式。
它提供了两类套接字：字节流套接字（类似TCP）和数据报套接字（类似UDP，但是是可靠的）。
UNIX域数据报服务是可靠的，不会丢失消息，也不会传递出错。（如何实现可靠的？）

线程安全

1、当一个进程正在阻塞在epoll_wait的时候，另一个线程调用epoll_ctl是否安全？eventpoll中有mutex互斥锁，添加、修改或者删除监听fd的时候, 以及epoll_wait返回, 向用户空间传递数据时都会持有这个互斥锁。

2、在ET模式下，如果用多线程epoll_wait同一个epoll-fd，那么当其监听的fd产生了事件，此时epoll采用的排它式唤醒，也就是仅唤醒等待队列的第一个线程。

如果此时fd又触发了新的事件，那么就会唤醒新的线程，这将会导致多个线程操作同一个fd，可能导致线程安全问题。

解决方案是使用EPOLLNESHOT标志，即在一次wait返回后禁止fd再产生事件，并在处理完成后使用epoll_ctl的MOD操作重新开启。

综上，可以说epoll_wait是多线程安全的。

3、对于客户端，只会有一个异步操作在等待。假如在某些情况，一个客户端有两个异步方法在等待，就需要互斥量了。这是因为两个等待的操作可能正好在同一个时间完成，然后会在两个不同的线程中间同时调用他们的完成处理函数。

io_service

io_service就是基于select/epoll等多路复用IO实现的I/O事件循环的框架，它提供了对同步异步I/O，定时器以及信号等事件的支持。

io_service可以将需要操作的文件描述符socket、定时器、信号等注册到epoll实例中，如下所示：

epoll_create(1)

epoll_ctl(epfd, EPOLL_CTL_ADD, socket1, &event1);

epoll_ctl(epfd, EPOLL_CTL_ADD, socket2, &event2);// ...

然后，io_service不断地调用epoll_wait函数阻塞在事件循环中，直到某个文件描述符有事件被触发。在每个循环迭代中，io_service会检查是否有“就绪”(ready)的I/O事件，并将其添加到事件队列中。这样，io_service就可以调度这些事件的回调函数来处理I/O操作。在回调函数中，可以使用socket.async_read_some、socket.async_write_some等函数来启动异步读写操作，然后将读写缓冲区和回调函数的handler参数一起传递给底层的I/O系统函数，比如read和write等。

为什么一个io_service实例可以有多个处理线程呢？推测是内部io_service采用经典服务器模型实现了1+N的线程模型，通过特定的分发策略将新事件分发至多个线程处理。

关于io_service::strand

strand实现有序的原理是，内部维护一个任务队列，将所有异步操作包装成handler回调函数，并将这些回调函数绑定到strand上。

惊群现象

商用服务器系统如CentOS7中使用多线程对同一listenfd调用accept接口是没有惊群现象的，不过也可以参考一下。

1、由一个主进程进行accept监听，接受一个新连接之后再fork出一个子进程，把连接丢给子进程去进行业务处理，然后主进程继续监听。此时只有一个进程监听，无惊群现象。

2、由主进程fork出一批子进程，子进程继承了父进程的这个监听端口，多进程/线程共享该listenfd，然后都调用accept监听。多个子进程的PID挂在fd的waitqueue队列上，当全连接队列触发唤醒accept时，内核采用exclusive排他唤醒，即只唤醒队列头的PID，不会将waitqueue队列上的所有线程唤醒。

排他唤醒机制

linux对进程/线程唤醒提供了两种模式，一种是prepare_to_wait，一种是prepare_to_wait_exclusive。linux大部分接口都通过调用__wake_up_common唤醒任务等，该函数都会判断waitflags是否互斥，也就是通过prepare_to_wait_exclusive( )进行排他唤醒，不会有惊群现象。

综上，linux解决epoll惊群的方式如下：

1、给epoll添加一个EPOLLEXCLUSIVE的标志位，如果设置了这个标志位，那epoll将进程挂到等待队列时将会设置一下互斥标志位，此时内核在唤醒时判断该标志位，完成排他唤醒。

2、给socket提供SO_REUSEPORT标志，该flag允许不同进程的socket绑定到同一个端口。不同于父子进程共享socket监听的方式，此时每个进程的监听socket将指向open_file_tables下的不同节点，即不同的socket，也就是说不同进程是在自己的设备等待队列waitqueue下被挂起的，不存在共享fd的问题。内核中将设置了SO_REUSEPORT并且绑定同一端口的这些socket分到同一个group中，当有tcp连接事件到达的时候，内核将会对源IP+源端口取hash然后指定这个group中其中一个进程来接受连接，相当于内核实现了一个负载均衡。

epoll相关API使用注意点

epoll_create

epoll_create采用红黑树实现，为毛不用hashtable呢，hashtable insert可能触发rehash，时间不固定, 可能造成某些IO请求超时。epoll_create 的参数max_size在新版本内核中没有处理，但是必须大于0，小于等于0会返回EINVAL。

epoll_ctl

epollfd是文件句柄，是持有file文件结构的。所以epoll_ctl里面会做判断，不能监听epollfd自身，否则会形成嵌套。但是其他epollfd可以监听该epollfd。

在做增删改eventpoll结构的rbtree之前，会调用互斥锁eventpoll.mtx，所以该函数是线程安全的。

epoll_ctl会有最大监听数限制，超过会返回错误。

往epollfd增加监听的fd时，会将对应的epitem挂载到fd对应的file结构的链表上，即fd与epollfd相互指向，以O(1)的复杂度相互找到对方。

epoll_wait

int epoll_wait(int epfd, struct epoll_event* events, int maxevents, int timeout);

函数中的 struct epoll_event 数量设置多少个才合理？使用vector动态设置，比如初始值为4096，增长阈值为0.75，达到阈值时自动增长1倍。events会拷贝至内核，不是使用mmap进行映射。

epoll_wait何种情况下会返回？至少一个注册的事件发生；

1、被信号中断；

2、超时，此时返回值为0；

3、正常捕获事件，此时返回值为返回事件的个数.

epollwait可以管理的相关事件

EPOLLOUT

只有在socket需要写数据时才注册该事件，写完后移除该事件，否则会一直触发可写事件。一般listen socket不需要注册可写事件。

EPOLLRDHUP

判断对端是否关闭，需要通过调用recv函数且返回为0进行判断，当有EPOLLIN事件且recv返回值为0说明读到了fin标志，对端已经关闭了socket，此时可以调用close关闭本端的socket。如果系统支持也可以注册EPOLLRDHUP事件。

EPOLLONESHOT

采用EPOLLONESHOT事件的文件描述符上的注册事件只触发一次，要想重新注册事件则需要调用 epoll_ctl 重置文件描述符上的事件，这样 socketfd 就不会出现竞态了。
备注：不能将监听描述符listenfd设置EPOLLONESHOT，否则会丢失客户端连接。