故障与机会

最近每个月总是不定时的发生线上服务异常,每次服务故障的出现,对技术而言都是一次很好的实战解决问题的机会,但因生产环境一般只提供一套生产服务,并且每次出现故障以优先恢复生产服务为目标,而后再判断、排查、定位具体问题,如果应用服务能够打印足够多的log日志信息,后续技术可以从这些打印的错误日志中通过抽丝拨茧、仔细分析能够找到引起生产故障的最终原因,但在少数故障问题面前需要在当时的生产环境下才能定位到具体问题,此时通过重启服务(包含不限于:应用服务、中间件服务、存储服务等)恢复生产服务解决线上故障其实对于技术来讲是失去一次很好的实战解决问题经验.

猜你喜欢

转载自wtjmgj.iteye.com/blog/2393748