Software Performance Testing - Nginx压测优化

Nginx优化的思路

Nginx响应请求的主要过程是：1、建立Socket连接；2、打开文件，并沿Socket返回

排查问题时，要注意观察上面这两点。

问题现象

Socket/File: Can’t open so many files

原因分析：

Linux是有文件句柄限制的，而且Linux默认不是很高，一般都是1024，生产服务器用其实很容易就达到这个数量。

解决办法：

下面是修改 ulimit 限制数的方法：

1.首先你得修改nginx.conf配置文件，在定义error.log日志路径的位置添加一行

worker_rlimit_nofile 65535;

2.在/etc/profile文件最后面添加下面内容

ulimit -n 65535

3.在/etc/security/limits.conf文件最后面添加下面内容

* soft nofile 65535

* hard nofile 65535

*代表所有用户，如果想代表某个用户的话，则user soft nofile 65535

soft代表软连接 hard代表硬限制

查看软限制数量 ulimit -Sn

查看硬限制数量 ulimit -Hn

4.要使 limits.conf 文件配置生效，必须要确保 pam_limits.so 文件被加入到启动文件中

在/etc/pam.d/login 文件最后面添加下面内容

session required /lib/security/pam_limits.so

或者也可以在/etc/profile后面加上ulimit -n 65535

完成上面操作后，再用在退出当前会话，重新登录ulimit -n 查看文件限制数已经被修改为65535了。

Waiting状态的连接过多

解决办法：

keepalive_timeout = 0;

即：请求结果后，不保留Tcp连接。在高并发的情况下，keepalive会占据大量的Socket连接。

Nginx运行过程中，发现无法访问Nginx：1024 worker_connections is not enough while accepting new connection

原因分析：

当前Nginx中 worker_connections 值是1024，worker_processes 值是4，按反向代理模式下最大连接数的理论计算公式：

最大连接数 = worker_processes * worker_connections / 4

算出当前每台Nginx理论上最多只支持1024个连接。但观察Nginx历史性能数据，发现活动连接数经常是大于1024，并且最高达到5000左右，因而会导致连接数不够，直到Nginx无法再处理新的连接请求。

解决办法：

worker_processes 4; # Nginx进程数，建议按照CPU数目来指定，一般为它的倍数。
worker_connections 1024O; # 尽量调大一些，如果不知道系统的详细参数可以设为auto。

生产环境中worker_connections 建议值最好超过9000；可以将一台Nginx设置为10240，再观察一段时间。

常用的Nginx优化配置项

worker_rlimit_nofile 102400;

这个指令是指一个Nginx进程打开的最多文件描述符数目，理论值应该是最多打开文件数（ulimit -n）与Nginx进程数相除，但是Nginx分配请求并不是那么均匀，所以最好与 ulimit -n 的值保持一致。

use epoll;

使用epoll的I/O模型。

worker_connections 102400;

每个进程允许的最多连接数，理论上每台Nginx服务器的最大连接数为 worker_processes * worker_connections 。

keepalive_timeout 60;

keepalive超时时间。

client_header_buffer_size 4k;

客户端请求头部的缓冲区大小，这个可以根据你的系统分页大小来设置，一般一个请求的头部大小不会超过1k。不过由于一般系统分页都要大于1k，所以这里设置为分页大小。分页大小可以用命令 getconf PAGESIZE 取得。

open_file_cache max=102400 inactive=20s;

这个将为打开文件指定缓存，默认是没有启用的。max指定缓存数量，建议和打开文件数一致，inactive是指经过多长时间文件没被请求后删除缓存。

open_file_cache_valid 30s;

这个是指多长时间检查一次缓存的有效信息。

open_file_cache_min_uses 1;

open_file_cache指令中的inactive参数时间内文件的最少使用次数，如果超过这个数字，文件描述符一直是在缓存中打开的。如上例，如果有一个文件在inactive时间内一次没被使用，它将被移除。

内核参数的优化

net.ipv4.tcp_max_tw_buckets = 6000

timewait的数量，默认是180000。

net.ipv4.ip_local_port_range = 1024 65000

允许系统打开的端口范围。

net.ipv4.tcp_tw_recycle = 1

表示开启TCP连接中TIME-WAIT Sockets的快速回收，默认为0，表示关闭。

net.ipv4.tcp_tw_reuse = 1

表示开启重用，允许将TIME-WAIT Sockets重新用于新的TCP连接，默认为0，表示关闭。

net.ipv4.tcp_fin_timeout = 20

如果套接字由本端要求关闭，这个参数决定了它保持在FIN-WAIT-2状态的时间。对端可以出错并永远不关闭连接，甚至意外当机。缺省值是60秒。2.2内核的通常值是180秒，你可以按这个设置，但要记住的是，即使你的机器是一个轻载的WEB服务器，也有因为大量的死套接字而内存溢出的风险，FIN- WAIT-2的危险性比FIN-WAIT-1要小，因为它最多只能吃掉1.5K内存，但是它们的生存期长些。

net.ipv4.tcp_syncookies = 1

开启SYN Cookies，当出现SYN等待队列溢出时，启用cookies来处理。

net.core.somaxconn = 262144

Web应用中listen函数的backlog默认会给我们内核参数的net.core.somaxconn限制到128，而nginx定义的NGX_LISTEN_BACKLOG默认为511，所以有必要调整这个值。

net.core.netdev_max_backlog = 262144

每个网络接口接收数据包的速率比内核处理这些包的速率快时，允许送到队列的数据包的最大数目。

net.ipv4.tcp_max_orphans = 262144

系统中最多有多少个TCP套接字不被关联到任何一个用户文件句柄上。如果超过这个数字，孤儿连接将即刻被复位并打印出警告信息。这个限制仅仅是为了防止简单的DoS攻击，不能过分依靠它或者人为地减小这个值，更应该增加这个值（如果增加了内存之后）。

net.ipv4.tcp_max_syn_backlog = 262144

记录那些尚未收到客户端确认信息的连接请求的最大值。对于有128M内存的系统而言，缺省值是1024，小内存的系统则是128。

net.ipv4.tcp_timestamps = 0

时间戳可以避免序列号的卷绕。一个1Gbps的链路肯定会遇到以前用过的序列号。时间戳能够让内核接受这种“异常”的数据包。这里需要将其关掉。

net.ipv4.tcp_synack_retries = 1

为了打开对端的连接，内核需要发送一个SYN并附带一个回应前面一个SYN的ACK。也就是所谓三次握手中的第二次握手。这个设置决定了内核放弃连接之前发送SYN+ACK包的数量。

net.ipv4.tcp_syn_retries = 1

在内核放弃建立连接之前发送SYN包的数量。

net.ipv4.tcp_keepalive_time = 30

当keepalive启用的时候，TCP发送keepalive消息的频度。缺省是2小时。

一个完整的内核优化配置

net.ipv4.ip_forward = 0
net.ipv4.conf.default.rp_filter = 1
net.ipv4.conf.default.accept_source_route = 0
kernel.sysrq = 0
kernel.core_uses_pid = 1
net.ipv4.tcp_syncookies = 1
kernel.msgmnb = 65536
kernel.msgmax = 65536
kernel.shmmax = 68719476736
kernel.shmall = 4294967296
net.ipv4.tcp_max_tw_buckets = 6000
net.ipv4.tcp_sack = 1
net.ipv4.tcp_window_scaling = 1
net.ipv4.tcp_rmem = 4096 87380 4194304
net.ipv4.tcp_wmem = 4096 16384 4194304
net.core.wmem_default = 8388608
net.core.rmem_default = 8388608
net.core.rmem_max = 16777216
net.core.wmem_max = 16777216
net.core.netdev_max_backlog = 262144
net.core.somaxconn = 262144
net.ipv4.tcp_max_orphans = 3276800
net.ipv4.tcp_max_syn_backlog = 262144
net.ipv4.tcp_timestamps = 0
net.ipv4.tcp_synack_retries = 1
net.ipv4.tcp_syn_retries = 1
net.ipv4.tcp_tw_recycle = 1
net.ipv4.tcp_tw_reuse = 1
net.ipv4.tcp_mem = 94500000 915000000 927000000
net.ipv4.tcp_fin_timeout = 1
net.ipv4.tcp_keepalive_time = 30
net.ipv4.ip_local_port_range = 1024 65000

一个简单的Nginx优化配置文件

user www www;
worker_processes 8;
worker_cpu_affinity 00000001 00000010 00000100 00001000 00010000 00100000 01000000;
error_log /www/log/nginx_error.log crit;
pid /usr/local/nginx/nginx.pid;
worker_rlimit_nofile 204800;
events
{
  use epoll;
  worker_connections 204800;
}
http
{
  include mime.types;
  default_type application/octet-stream;
  charset utf-8;
  server_names_hash_bucket_size 128;
  client_header_buffer_size 2k;
  large_client_header_buffers 4 4k;
  client_max_body_size 8m;
  sendfile on;
  tcp_nopush on;
  keepalive_timeout 60;
  fastcgi_cache_path /usr/local/nginx/fastcgi_cache levels=1:2
                keys_zone=TEST:10m
                inactive=5m;
  fastcgi_connect_timeout 300;
  fastcgi_send_timeout 300;
  fastcgi_read_timeout 300;
  fastcgi_buffer_size 16k;
  fastcgi_buffers 16 16k;
  fastcgi_busy_buffers_size 16k;
  fastcgi_temp_file_write_size 16k;
  fastcgi_cache TEST;
  fastcgi_cache_valid 200 302 1h;
  fastcgi_cache_valid 301 1d;
  fastcgi_cache_valid any 1m;
  fastcgi_cache_min_uses 1;
  fastcgi_cache_use_stale error timeout invalid_header http_500;
  open_file_cache max=204800 inactive=20s;
  open_file_cache_min_uses 1;
  open_file_cache_valid 30s;
  tcp_nodelay on;
  gzip on;
  gzip_min_length 1k;
  gzip_buffers 4 16k;
  gzip_http_version 1.0;
  gzip_comp_level 2;
  gzip_types text/plain application/x-javascript text/css application/xml;
  gzip_vary on;
  server
  {
    listen 8080;
    server_name xxx.xxx.com;
    index index.php index.htm;
    root /www/html/;
    location /status
    {
        stub_status on;
    }
    location ~ .*\.(php|php5)?$
    {
        fastcgi_pass 127.0.0.1:9000;
        fastcgi_index index.php;
        include fcgi.conf;
    }
    location ~ .*\.(gif|jpg|jpeg|png|bmp|swf|js|css)$
    {
      expires 30d;
    }
    log_format access '$remote_addr - $remote_user [$time_local] "$request" '
              '$status $body_bytes_sent "$http_referer"'
              '"$http_user_agent" $http_x_forwarded_for';
    access_log /www/log/access.log access;
      }
}