传统的观点中、运维就是保障业务运行得稳定、高效、安全,但时至今日,这个运维的价值观恐怕早已过时了,我们希望运维能够成为公司的核心竞争力之一。
这就促使了运维向技术运营的转变,技术运营的能力建设以业务为中心,交付稳定、安全、高效的技术运营服务,从而有力支撑企业的持续发展和战略成功。技术运营不仅关注“稳定”、“安全”、“可靠”,更要关注“体验”、“效率”、“效益”。
一、我们从七个维度提出问题,探究你的技术运营转型之路处在什么水平,是青铜还是王者?
监控管理:仅仅是有基础的监控能力,还是已经实现高度智能化?
事件与变更管理:仅仅是有基本的事件规范和变更操作要求和处理风险能力,还是已经实现智能化支撑,具备无人化、自愈和自改进能力?
配置管理:仅仅是依靠人工保障配置记录的管理,还是已经实现智能化配置管理,支持场景智能生成配置对象的关联规则和提供准确的决策依据?
容量与成本管理:仅仅是具备基础预算、基础设施容量监控与业务的指标汇聚能力,还是已经实现智能化管理容量与成本?
高可用管理:仅仅是支持流量切换,硬件故障能及时回复,数据库备份可靠,还是已经实现全面自动化和智能化的高可用管理,并持续改进?
业务连续性管理:仅仅是具有基础的业务影响分析与业务风险分析能力,有基本的应急演练,故障恢复时间较长,还是已经实现整体 RTO(恢复时间目标) 达到99.995%,引入更多智能化技术,3分钟内完成问题解决?
用户体验管理:仅仅是具有快速处理用户体验的投诉问题,具备丰富的业务端的数据收集能力,还是已经引用AI技术,建立业务领域级别的用户体验类知识图谱或专家系统?
二、技术运营能力建设的5个段位,每上一个台阶都是质的飞跃。
青铜段位
-
有基础的监控,能满足对系统级(CPU等)的监控需求。
-
具有基本的事件规范和变更操作要求,可及时处理事件和管控部分变更风险。
-
依靠人工保障配置记录的管理。
-
具备基础预算、基础设施容量监控与业务的指标汇聚能力。
-
支持流量切换,硬件故障能及时回复,数据库备份可靠。
-
具有基础的业务影响分析与业务风险分析能力,有基本的应急演练,故障恢复时间较长。
-
具有快速处理用户体验的投诉问题,具备丰富的业务端的数据收集能力。
白银段位
-
有基础的监控,能满足对系统级(CPU等)的监控需求。
-
具有基本的事件规范和变更操作要求,可及时处理事件和管控部分变更风险。
-
依靠人工保障配置记录的管理。
-
具备基础预算、基础设施容量监控与业务的指标汇聚能力。
-
支持流量切换,硬件故障能及时回复,数据库备份可靠。
-
具有基础的业务影响分析与业务风险分析能力,有基本的应急演练,故障恢复时间较长。
-
具有快速处理用户体验的投诉问题,具备丰富的业务端的数据收集能力。
黄金段位
-
具有面向应用场景的告警与可视化平台,可实现常见故障自愈。
-
完善的事件与变更管理流程,与其他技术运营流程打通,具有平台化与可视化能力。
-
自动化配置管理平台,支持自动发现、灵活扩展和关联分析。
-
具备业务容量与基础设施容量关联分析能力、柔性服务能力,灵活成本管控的能力。
-
自动化动态扩容,采用分布式缓存、分表分库、跨库事务等技术,同城多机房实时数据备份,异地数据备份。
-
整体RTO达到99.95%,主动模拟注入故障并快速定位和解决,2分钟响应,5分钟定位并启动预案,10分钟完成问题解决。
-
具有自动跟踪及用户改善工具,5分钟内发现质量数据异常。
钻石段位
-
监控管理实现阈值动态调整等初步智能化,全网数据秒级上报,可实现自动化决策。
-
深度规范化,部分场景借助智能化技术实现管理与质量的降本增效。
-
智能识别配置对象的关联关系,配置信息能为技术运营活动提供决策支持。
-
支持全链路的容量管理能力,为技术和架构提供支持。
-
结合监控自动扩容缩容,系统拓扑结构自动梳理。
-
整体RTO达到99.99%,应急和危机处理组织结构完备,对故障基本能通过告警主动发现,1分钟响应,3分钟定位并启动预案,5分钟完成问题解决。
-
界定区分用户群体及单用户行为轨迹的完整链条的体验表现,触达运营指标,如回流用户转化率等。
王者段位
-
智能决策、推荐等高度智能化。
-
实现大部分场景的智能化支撑,具备无人化、自愈和自改进能力。
-
智能化配置管理,支持场景智能生成配置对象的关联规则和提供准确的决策依据。
-
智能化管理容量与成本。
-
实现全面自动化和智能化的高可用管理,并持续改进。
-
整体RTO达到99.995%,引入更多智能化技术,3分钟内完成问题解决。
-
引用AI技术,建立业务领域级别的用户体验类知识图谱或专家系统。