从会议中学习知识,无论什么会议,记录一次事故大会

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/cadi2011/article/details/85878947

0、近期,公司开了一场有意义的事故大会,借此大会,我也要总结一下,任何时候,任何场景,只要你用心,你都会有收获

1、大会流程上,按照事故发生的先会顺序,要求团队leader上台进行描述,以及反思

2、首先老板先讲话,着重强调了大会的目的不是为了批判任何人,主要是反思,吸取教训,另外秉着公开、透明的管理方式,认为人去运营一定会有事故,要引以为戒(ps:我认为事故可以完全避免,概率降低为0,因为有些事情的发生是不可挽回的),尽管是人总会范错误

3、第一起事故:来自于zd运营团队,老大上台了,抽奖配置错了,本来要求50000抽一次奖,运营人员配置成了5000,少了一个0,本身事故造成亏损120万美金,但通过伤害用户、伤害合作伙伴的方式,挽回了100万美金,合计最后损失20万美金。带来的影响损失,无法预估,但是我个人认为起码的诚信都么有了

处罚:运营负责人自罚6000元、直接配置活动那个人罚3000,研发负责人罚款3000

运营人为出现的问题,为什么要罚研发团队,老大认为研发部门对于CMS系统的前端页面,做的保护不够,安全性上不够健壮,典型的需要技术弥补人的过错。从单次事故来看,技术团队很冤,背锅了,因为运营也没有提过这方面需求、测试也没有提过安全上的问题,开发更是没有去思考这件事。但是从事故的损失可能会造成整个公司关门的情况下,技术团队也有不可推卸的责任,作为技术人,无论如何首当其冲要想的是安全问题,有人为去出错,技术上也没有保护,着实不合理。CMS团队负责人也说了,整个CMS金融系统,因为历史原因,完全是裸奔状态,即没有风控、也没有监控,即人为的出现错误,整个技术没有容错,我说句不好听的,现在人为出错了,如果有人有一天真的搞破坏,出事故1天了,监控也么有,公司不倒闭才怪,所以关于金融系统的安全性问题,必须提上日程

反思:运营负责人反思,首先在人上要做一个double check,在技术层面上,会多提些安全性需求,帮助人减少错误。。

人要严谨、金融系统的漏洞要用技术控制、技术严谨,最终达到一个立体监控,但是运营负责人没有拍胸脯子说,一定不会再范一次错误,看来他认为人一定会出错,只是错的大小问题了

老板还谈到了让会计也去参与金融系统的安全性上,提到了多久才暴露出这个问题;鼓励产品经理、运营人员要多多提出安全方面的需求,比如CMS内容上要提,出了问题,技术上加一层保护;在事故认定上,老板认为与所有人的业绩无关;首先合作伙伴,即经济公司的结算上就麻烦;收回100万美金、狠狠的伤害了用户、伤害了合作伙伴;话锋一转,谈到华为的高标准,就因为一个twitter账户用了ios的尾巴,立刻降薪降职;

其实第一起事故发生后,公司紧急发不了一个金融系统安全规章制度(貌似一点用没有)

4、紧接着第二起事故来了,同样是运营事故,mg区又出现问题,在CMS的前端页,将金币与美金搞混,操作的人员,明显是业务不熟练,可见Leader够烂的,事故损失将近7万美金,波及人数:6000人

Leader检讨不再出错,精彩部分来了,事故的直接操作人员是一名实习生,貌似教育背景不错啊,加州大学洛杉矶分校,还宣称按照正式员工标准招聘进来的,只是身份是实习生(正在重点培养),这个Leader挺会说

事故原因:运营人员操作错误,配置完后,测试人员也出错了(明显运营流程不规范),这里的配置流程必须及其规范,不能仓促的搞起来,测试人员就没做测试,因为测试成本高,需要消耗精力。技术又该倒霉了,CMS前端对非规范的配置没有任何提示。。测试要背锅了。。然后上线特别紧急,忙中出错。。最后更low的是,实习生没有权限,借着正式员工的号用起来了。。。

反思:人、配置上线后,告诉其它同事,帮忙检查;上线任何活动要深思熟虑;人不要去依赖金融防护系统,即CMS逻辑。。。

技术上,建议CMS前端修改金币与美金不要混淆(需求早不提啊)

事故解决方案:

1、损失评估(联系技术评估)、活动下线

2、礼物,担心用户心理不爽,没有往回收走

3、要求CMS前端改进,更醒目,金融防护系统也更新了一下(这下技术背锅把)

4、把配置恢复正常,技术上线活动

惩罚:各自罚款了事,不痛不痒。。。

老大又开始夸了,谈到了Tony说过的话,不能假设其它环节到位、或者做好,不能假设别人一定不出错(比如技术容错),不能对别人有任何的依赖,你自己的行为与其他人,其它环节无关(绝对不能依赖技术后台)

马上技术负责人远程开始说话了,技术安全环节,有不可推卸的责任,一旦出错,公司可能会关门,所以技术容错必须要先到位,从安全角度考虑需求、保证技术环节无误

运营要多提安全性需求

(个人评语:涉及到钱的事情,安全性一定放在第一,尤其是CMS前端上,特别重要)

CMS负责人,开始来了,牛b人一个,据说重构了整个CMS架构,其实是从原公司拔过来的。他说刚来的时候就发现,整个CMS系统, 无风控、无监控、一直处于裸奔状态,因为运营需求排着满满的,所以一直没有时间去做这方面的事情

老板谈到ofo,管理混乱,自行车数量什么的都不知道,钱花在哪也不知道,花名册上的人都不知道是哪的,我心凉了,我的押金啊,费了。

怎么做到又快又好? 根本原因还是能力问题,能力够了,一定可以又快又好。

一点也不矛盾,不是说快了就不好,快了也可以好,取决于能力问题。

一开始的时候是产品App带着人去做事,得产品App稳定成熟了,就该人去带着产品App去跑了(妈的,老板有几把刷子)

什么东西现象多了,就成了规律

5、第三起事故,一起未完全查明的事故,怀疑里应外合,但是后来排除了。有位同学通过盗用测试账户,进行刷金币活动,而且刷的金币真的可以卖钱,他是怎么发现这些测试帐号的,哥们挺聪明,沿着关系链把所有的测试账户摸透了,那密码呢?密码试了000000和123456,全部试出来了。

反思:先前有的测试同学线上的账户被盗了,然后就不了了之了,谁曾想有人利用这样的漏洞,也在薅羊毛。。一共被盗刷了30万多美金、追回了28万美金,损失2万美金。 事故存在很久了,一个运营活动,一周内发现的该问题。

第一:线上测试活动不删除

第二:线程测试帐号太简单

第三:测试流程不规范

第四:没有监控系统

猜你喜欢

转载自blog.csdn.net/cadi2011/article/details/85878947
今日推荐