杂文笔记《阿里巴巴千亿交易背后的0故障发布》

其他 2018-05-08 22:17:04 阅读次数: 5

杂文笔记《阿里巴巴千亿交易背后的0故障发布》

阿里巴巴千亿交易背后的0故障发布

https://mp.weixin.qq.com/s?__biz=MzI0NTE4NjA0OQ==&mid=2658357346&idx=1&sn=31a90bd02290ed84e20e39c0755b673e&chksm=f2d59b0cc5a2121aa956dc6a23ccac0c0f491de7527ae439cf05561a6841cd424e94b02158d4&mpshare=1&scene=1&srcid=0422APU5II3JMqjNHH5j8jUG#rd

GOPS·深圳站大会

阿里巴巴运维技术专家少荃

上线流程的验证环节

我们会通过各种测试来验证功能是否ok，包括单元测试、集成测试等，发布过程中，我们会通过一些发布策略，例如先预发(预发布是一种特殊的线上环境，和线上使用同样的资源，比如数据库等，但是不会有用户流量进来)、然后灰度、然后分批滚动发布等方式，逐步将变更更新到线上，发布完成后，又会借助一些故障预警系统

无人值守发布

自动化采集这些实时的线上核心数据，进行智能化分析，迅速对发布状况进行判断，是否有故障发生，有的话则立即终止当前发布

故障检测

异常推荐

召回率

漏报就是本来有10个故障，系统报了9个，那么漏报了1个，召回率是90%
我们已经做到了90%

准确率

误报就是只有10个故障，报了20个出来，多出来的10个就属于误报，那么准确率就是50%
我们已经做到了60%左右

产品架构

指标

业务指标

基础指标

内存使用情况，cpu使用率，load情况，磁盘io

中间件的指标

日志

第一个版本的时候，我们选择了基础监控和日志这两方面入手

采集

发布前和发布后的指标进行对比

已发布和未发布的机器进行对比

分析

funnel检测模型

这第一个版本在准确率方面表现不是很好，离线跑的时候能够有30%、40%，但是线上实际跑的时候只有10%上下的准确率

不断的分析误报和漏报数据，然后对算法做一些微调

离线回放系统，用来对算法进行回放验证，从之前的误报、有效拦截、未拦截等数据中抽取部分数据，每次算法调整后，通过回放系统对这些数据重新进行检测分析，看看准确率和召回率是怎么变化的，误报的是否还在误报，有效拦截的是否漏报了等等。

第二个版本，我们就采用了基于机器学习的方式在原来的基础上做了一些改进。

简单的分类的方法，最初的想法是分成正常、异常、未分类三大类

我的观点

一个监控平台数据的分析系统

通过回放系统检验算法准确性是一个靠谱的方案

在第二个版本才引入机器学习也是一个好的实践

XMind: ZEN - Trial Version

猜你喜欢

转载自www.cnblogs.com/atskyline/p/9011368.html

杂文笔记《阿里巴巴千亿交易背后的0故障发布》

阿里：千亿交易背后的0故障发布

阿里巴巴发布智能运维故障管理AI+生态计划

[技术演进] 阿里巴巴上市背后的技术力量

【阿里巴巴：高并发的背后】数据库规范

阿里巴巴“新六脉神剑”背后的故事

揭秘2019 双11背后的阿里巴巴超强网络

阿里巴巴代码规范学习笔记

阿里巴巴EasyExcel学习笔记

阿里巴巴成首个单季营收破千亿元中国互联网公司

阿里巴巴JStorm

阿里巴巴Druid

阿里巴巴的fastjson

阿里巴巴笔试

阿里巴巴

阿里巴巴的故事

阿里巴巴的面试

阿里巴巴 Alibaba

阿里巴巴20200221

阿里巴巴硅谷 Istio 专家解读Istio 1.0 发布

阿里巴巴大神发布的Java零基础笔记，实战教程多到手软，跪了

牛批了！阿里巴巴大神发布的Java零基础笔记，项目源码多到手软，跪了

深度资讯｜单季营收首次破千亿元大关，阿里巴巴重回中国市值第一

你不知道的《阿里巴巴Java开发手册》背后故事

解读《阿里巴巴 Java 开发手册》背后的思考

阿里巴巴纳税516亿！强大的盈利能力背后是为社会谋福祉的使命

美团和支付宝互掐，背后是美团与阿里巴巴的竞争

作者谈《阿里巴巴Java开发手册(规约)》背后的故事

《阿里巴巴Java开发手册》阅读笔记

阿里巴巴java开发手册笔记

今日推荐

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

周排行

循环神经网络（rnn）讲解

Tigao教程四：单独的关节运动

金蝶K3WISE15.0-注册套打教程

如何在Mac上配置Kubernetes

Android应用结束自身进程的方法

SpringMVC学习十三拦截器栈

中国驻洛杉矶总领馆举行新春招待会

HttpClient get post 发送

11 - three.js 笔记 - 绘制三维字体模型

Mysql递归获取某个父节点下面的所有子节点和子节点上的所有父节点

每日归档

更多

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)