不做保姆式运维,从容接手新业务运维工作

  怎样接手一个新事务的运维作业?有些东西咱们仍是要把话说在前面,避免前期不明确形成后期作业的紊乱。首要,咱们要先跟研制Leader沟通,灌输运维理念,把丑话说在前头,咱们不做保姆式运维,咱们要致力于线上效劳安全、安稳、低本钱、快速迭代,从运维视角进步产品力

  怎样接手一个新事务的运维作业?有些东西咱们仍是要把话说在前面,避免前期不明确形成后期作业的紊乱。

不做保姆式运维,沉着接手新事务运维作业

  1、前期沟通

  首要,咱们要先跟研制Leader沟通,灌输运维理念,把丑话说在前头,咱们不做保姆式运维,咱们要致力于线上效劳安全、安稳、低本钱、快速迭代,从运维视角进步产品力。

  开发机、测验环境,研制自己搞,咱们能够帮忙帮忙,做专业的咨询效劳,但不可能让咱们直接操刀开发环境的改变。

  2、事务概要了解

  了解事务相关的人:对应的研制同学、研制Leader、测验同学、测验Leader、产品司理别离是谁,联系方法存下来,拉个群,出了问题能够找到对应的人。

  了解效劳是干什么的:处理了什么问题,业界有对标的开源产品吗……方便咱们快速认识这个产品。

  了解效劳的上下游:依靠哪些效劳、哪些效劳依靠我、对应的接口人是谁……这儿先简单了解一下即可。

  了解效劳布置状况:布置在哪些机房、用什么言语编写、根底网络、专线带宽、机房出口是否靠谱、是否曾因根底设施导致过问题,当时首要痛点是什么。

  3、事务串讲

  要求研制同学(或许上一任运维同学)预备PPT,做一个事务串讲,解说一些研制同学期望传达给运维同学的信息,搭档也解说一些运维同学期望从研制这得到的信息。

  比方:具体布置拓扑、效劳全体架构、数据流、提测改变流程、监控方法、布置到了哪些机器、机器登录方法、每个机器上是什么模块、OS参数是否有调优,考量是什么、用到了哪些第三方软件,考量是什么,再比方为什么用了Tomcat而不是Resin、相关Wiki、毛病处理预案、常见毛病、当时线上问题……

  假如事务有单点,不接,让研制改造。假如运维的老板的老板强制要求,丑话说前头:因单点导致的问题,运维不背锅。

  4、财物收拾

  正式预备接手前,第一步,收拾财物。

  比方用到了哪些域名,这些域名对应哪些事务、哪些虚IP,别离是供给了什么效劳、哪些机器,别离布置了什么模块、事务在哪些机房、用了多少带宽、总带宽状况、是否有其它事务共用争抢等。

  机器需求拿到更翔实的信息,比方机器装备、机架位、IP、办理卡IP等等,公司应该有个CMDB供查询。假如没有,运维同学,需求你去构建这个CMDB。

  后边要考虑机器是否需求有备机、备件,机型是否能够共同。

  5、根底监控

  知道有哪些财物了,就能够对这些财物做监控了,比方域名连通性监控/推迟监控、虚IP的连通性监控/推迟监控、机器宕机监控、机器硬件监控、sshd/crond等体系进程监控、体系工作的进程总数监控、体系参数装备监控。

  6、效劳收拾

  吃透之前串讲时给的架构图、数据流图、布置拓扑图。从运维层面,最好还要知道公司网络拓扑图。

  了解每个模块的状况,布置在哪些机器上、布置在哪个目录,用什么账号发动的、日志打到哪里了、用什么言语编写的、怎样上线的、首要吃CPU资源仍是内存仍是磁盘仍是IO、需求预留多少资源、平常利用率是多少、应该装备多大的阈值做监控、是否需求watchdog主动拉起、日志里呈现哪些关键字需求报警以及其他各种需求留意的问题。

  7、事务监控

  根本的进程、端口存活性监控,机器利用率监控、日志关键字监控、日志不翻滚监控、相关的效劳的监控等等,后边会做API粒度的监控,来推进事务优化。

  8、标准化改造

  机器命名方法、操作体系发行版、OS版别、第三方软件,比方JDK、Tomcat、Nginx,都要共同,要做标准化计划。

  效劳扩容、改变、下线做一键化,每次晋级只需求给个版别号即可,此刻研制操作仍是运维操作作用相同,故而能够交给研制上线,释放运维人力,权限要操控好。

  重复的惯例操作也要固化成脚本,一键完结。

  收拾毛病自愈场景,看平常有哪些毛病的处理方法是固定的,笼统为脚本,报警之后主动触发,无人值守处理。

  公司假如有一些根底设施,比方姓名效劳、MQ、日志渠道,推进研制改造,将新效劳接入。假如公司还没有这些根底设施,作为运维这个人物,能够着手搞起。

  9、SOP收拾

  毛病预案是一个非常重要的作业,线上没出毛病之前,就应该提早去想,效劳可能会出什么毛病;假如真出了,应该怎样处理,要把处理过程提早记录下来。究竟,线上出毛病的时分,人都比较严重,直接看着预案处理,就结壮不少,不简单犯错。

  10、毛病演练

  光有预案没有演练,是不靠谱的,没有经过验证的预案是不可信赖的。所以,搞个放火演习,把模块搞挂试一把,把机器搞挂试一把,对线上安稳性必定会有提高。

  特别是研制说这个模块挂掉,可用性必定没影响,OK,先搞挂试试,成果很可能会打他脸。

  有些场景演练是会有损的。那这种场景还要不要演练?

  这个需求case by case地看。大部分状况都是要做演练会更好,究竟,人在这盯着的时分出问题,比晚上睡着了出问题要强太多。当然,大规模根底网络毛病这种演练,仍是算了吧,一般的事务都是不具备机房级容灾的。

  上面做完了,根本作业就完结了。上面许多作业都是一次性的,那未来的大把时刻运维做什么?

  除了再花费部分时刻做线上问题处理,咱们应该把首要精力来提高事务产品力。做精细化运维,还记得运维九字真言么?“安全、安稳、高效、低本钱”,这就是咱们的作业方向。下面会举几个例子。

  11、再谈事务监控

  上面谈到过一次事务监控,首要是一些通用的监控目标。咱们对产品了解满足之后,应该做一些事务特有的监控,推进研制去做也能够,到达作用就好。

  比方你运维了一个MQ,音讯堆积量是需求监控的;比方你运维了一个RPC效劳,供给了三个接口,这三个接口的呼应时长、成功率是需求监控的;再比方你运维了一个S3效劳,每个桶的短期带宽增量你是需求监控的……

  现在有那么点感觉了么?

  12、API成功率、推迟计算

  在流量进口的Nginx做一切事务线的一切API的成功率和推迟计算对错常有必要的。把成功率比较低的TopN找出来,把推迟比较大的TopN找出来,让事务去优化。老板会喜欢这个的。

  13、线上问题收拾

  收拾线上一切问题,挨个处理,运维能够搞定的运维搞定,运维搞不定的找研制要排期,弄清楚每周处理了多少问题、还有多少问题待处理,用周报的方法表现出来。

  14、本钱优化

  经过效劳混部、或许共同的资源调度渠道来节省机器资源,一台机器廉价的也要好几万,这个事是比较简单有产出的。

  15、容量规划

  容量规划和本钱优化实践是紧密相关的,容量规划的重点是根据天然增量和运营需求,提早规划预备相应的容量。容量可能包含带宽、专线、网络设备、机器等等。当事务量下来的时分,能够腾挪相关资源支撑其它事务线,让这些硬件尽量满负荷工作,物有所值。

  事务精细化运维能够想出各种作业来搞,除了做这事,另一个需求长时刻投入的是构建运维根底渠道,像监控体系、布置体系、产品库、资源利用率渠道、域名办理、四七层接入装备渠道、日志渠道、Trace体系等等……

  嗯,其实运维仍是挺忙的。

  16、关于沟通

  最终说一点,接手一个新事务运维,必然与研制有各种沟通,每次沟通都要写会议纪要,发邮件出来,跟进人、时刻点等都要写理解。

  邮件发送两边团队邮件组,cc各方老迈。事后关键节点做Check,如未完结,线下沟通,达到共同后追此邮件给结论,阐明延期原因以及新的时刻点。假如沟通不畅,让老迈去和谐。

  我的观念根本就是这样,假如我们有其它的观念或是更好的主张,也欢迎在留言区一起沟通。

郑州哪家看妇科好:http://www.tjyy120.com/郑州同济医院(预约):http://www.tjyy120.com/郑州妇科专科医院:http://www.tjyy120.com/郑州哪个医院看妇科好:http://www.tjyy120.com/郑州专业妇科医院:http://www.tjyy120.com/郑州妇科医院哪好:http://www.tjyy120.com/郑州妇科医院那个好:http://www.tjyy120.com/郑州妇科医院:http://yyk.39.net/zz3/zonghe/1d426.html

猜你喜欢

转载自blog.csdn.net/qq_42606051/article/details/80982440