核心流程处理到一半,服务器崩溃了,怎么处理

这里同时存在三个问题:

1.问题排查以及快速恢复
2.异常数据修复
3.服务高可用,规避服务宕机

先抢通业务

  当发现服务器宕机后,最关键的是抢通业务,而不是抢修服务器。因此,需要做应急方案。最好准备2个网站服务器,他们存放的内容相同,而ip不同,并且机房的地理位置不同。这样第一时间发现宕机问题后,可以迅速的通过修域名记录,指向目前正常的网站空间。而且2个主机,同时宕机的可能性就大大降低了。

服务器崩溃问题定位

1.内存溢出,磁盘资源耗尽
2.线程死锁,进程过多或者不断创建,耗尽资源导致 
3.数据库慢查询,连接数过多,临时表不够用,程序死锁
4.主备数据不一致
5.应用程序异常 
6.流量负载过大
7.DOSS攻击
8.散热问题

异常数据修复

1.写数据做事务控制,保障数据安全。
2.磁盘备份,重启服务时恢复数据。
3.记录关键日志。

服务高可用

1.服务多实例集群部署,负载均衡策略访问,做好服务降级、服务限流。
2.数据库读写分离、分库分表方案。
3.做好服务性能测试、压力测试。(如何规避服务器宕机风险:https://wetest.qq.com/lab/view/310.html?from=content_SegmentFault

猜你喜欢

转载自blog.csdn.net/Anenan/article/details/114263726
今日推荐