云机大流量服务问题
压测中,遇到一个问题:
一服务流量压到一定量时,整个系统出现断网现象:
- ssh 连接不上
- zabbix 监测数据也中断了
分析1 - 初步查看网络情况
mtr -r [ip]
会显示类似如下图(当时命令结果未截图保存):
发现 Loss 列丢包率达 90%
分析2 - 是否带宽受限导致
测试下结果类似(当时命令结果未截图保存):
带宽很大,未受限
分析3 - 详细查看下接收包情况
sudo iptraf-ng -d eth0
会出现类似下图:
发现每次出现断开时, pps 都是在 10w+ , 小于 10w 时很流畅
10w pps 是明显的分水岭
因此,初步判断, 云机网卡极限就是 10w pps
分析4 - 查看真实网卡 pps 上限
自己没实际测过,根据网上别人的介绍: https://www.cnblogs.com/x_wukong/p/5995525.html
上面文中测试得到的数据,大致网卡可以处理 150w pps 。
那么使用物理机测试下,是否也是在 10w pps 处出现断网。
如果不是,则可以证明公司云机网卡极限为 10w pps
分析5 - 物理机测试,查看 pps
如下图:
pps 已经超出 10w + 了, 没有断网。
mtr 也显示 loss 为 0%
以上。困扰已久的大流量服务导致断网疑云,至此得到答案
其他衍生
根据 https://www.cnblogs.com/x_wukong/p/5995525.html 中得到网卡 pps 上限为 150w
那么可以根据这个值,很容易推出自己服务单台物理机,一个大流量应用的实际承载人数上限啦
更严谨点的话,应该自己写测试程序,测试下公司提供网卡的 pps 上限