维度	HA(High Availability)	DR(Disaster Recovery）
场景	HA 是指本地的高可用系统，表示在多个服务器运行一个或多种应用的情况下，应确保任意服务器出现任何故障时，其运行的应用不能中断，应用程序和系统应能迅速切换到其它服务器上运行，即本地系统集群和热备份。	DR 是指异地（同城或者异地）的高可用系统，表示在灾害发生时，数据、应用以及业务的恢复能力。
存储	HA 往往是用共享存储，因此往往不会有数据丢失（RPO = 0），更多的是切换时间长度考虑即 RTO。	异地灾备的数据灾备部分是使用数据复制，根据使用的不同数据复制技术（同步、异步），数据往往有损失导致 RPO >0；而异地的应用切换往往需要更长的时间，这样 RTO >0。
故障	主要处理单组件的故障导致负载在集群内的服务器之间的切换	应对大规模的故障导致负载在数据中心之间做切换
网络	LAN 尺度的任务是 HA 的范畴	WAN 尺度的任务是 DR 的范围
云	HA 是一个云环境内保障业务持续性的机制	DR 是多个云环境间保障业务持续性的机制
目标	HA 主要是保证业务高可用	DR 是保证数据可靠的基础上的业务可用

2.3 容灾和备份

备份：备份是容灾的基础，通常指在数据中心内，将全部或部分数据集合从应用主机的硬盘或阵列复制到其它的存储介质的过程。

容灾：容灾系统是指在相隔较远的异地，建立两套或多套功能相同的IT系统，互相之间可以进行健康状态监视和功能切换，当一处系统因意外(如火灾、地震等)停止工作时，整个应用系统可以切换到另一处，使得该系统功能可以继续正常工作。

一般意义上，容灾指的是不在同一机房的数据或应用系统备份，备份指的是本地的数据或系统备份。通常说的灾备是将容灾与备份结合，即本地备份结合远程数据复制实现完善的数据保护。

一般所说的备份采用备份软件技术实现，而容灾通过复制或镜像软件实现，两者的根本区别在于：

备份软件处理后的数据格式不一致，必须恢复后才可使用，而复制或镜像软件处理后的数据格式不发生变化，直接挂载给主机即可使用。
两者的数据保护的周期不一致，复制或镜像的时间周期更短。
一般备份为数据保护的最后一条防线，偏向于归档这个层面更多。

2.4 关键指标RTO和RPO

RPO（Recovery Point Objective）代表了当灾难发生时允许丢失的数据量。
RTO（Recovery Time Object ）代表了系统恢复的时间。
RPO 与 RTO 越小，系统的可用性就越高，当然用户需要的投资也越大。

3、容灾系统概述

3.1 系统级别

级别	定义	RTO	TCO
数据级	通过建立异地容灾中心，做数据的远程备份，在灾难发生之后要确保原有的数据不会丢失或者遭到破坏。在数据级容灾方式下，所建立的异地容灾中心可以简单地把它理解成一个远程的数据备份中心。在数据级容灾这个级别，发生灾难时应用是会中断的。数据级容灾的恢复时间比较长，但是相比其他容灾级别来讲它的费用比较低，而且构建实施也相对简单。数据源是一切关键性业务系统的生命源泉，因此数据级容灾必不可少。	RTO 最长(若干天) ，因为灾难发生时，需要重新部署机器，利用备份数据恢复业务	最低
应用级	在数据级容灾的基础之上，在备份站点同样构建一套相同的应用系统，通过同步或异步复制技术，这样可以保证关键应用在允许的时间范围内恢复运行，尽可能减少灾难带来的损失，让用户基本感受不到灾难的发生，这样就使系统所提供的服务是完整的、可靠的和安全的。	RTO 中等（若干小时）	中等。异地可以搭建一样的系统，或者小些的系统。
业务级	全业务的灾备，除了必要的 IT 相关技术，还要求具备全部的基础设施。其大部分内容是非IT系统（如电话、办公地点等），当大灾难发生后，原有的办公场所都会受到破坏，除了数据和应用的恢复，更需要一个备份的工作场所能够正常的开展业务。	RTO 最小（若干分钟或者秒）	最高

3.2 容灾建设等级

3.3 容灾解决方案

4、容灾方案架构

4.1 基本框架

4.2 容灾设计模式：同步、异步结合使用

容灾模式	可靠性方案	灾备恢复	数据备份需求
双活	集群+负载均衡	自动	实时同步复制(<100KM)
热备份	集群(cluster)	自动	实时同步复制(<100KM)
暖备份	人工干预	手动	异步复制(>100KM)
冷备份	人工强干预	手动	同上

4.3 容灾方案

（一）主备容灾方案

容灾系统管理可视化： 支持容灾管理软件部署、调测一键式支持容灾演练和切换一键式，协助完成定制脚本工具能力，便于管理和恢复。

（二）两地三中心（3DC）容灾方案

容灾建设周期短，交付风险低，容灾建设周期从10个月缩短到7个月，缩短30% 多厂商配合有效管理，缩短项目交付周期多业务多应用的有效评估与分析，保障容灾系统快速建设

（三）双活容灾方案

双活容灾去网关化，高效实施业务级“A-A”高可靠，数据中心级故障业务不中断，7*24小时在线双活存储层无虚拟化网关，减少故障点，简化实施与调测。

（四）阵列复制容灾方案

支持一对一容灾或多对一集中容灾，多分支机构数据独立存放，需要建立统一的容灾系统，对各个分支机构进行统一容灾保护。支持多达31个分支机构；支持同步/异步复制方式，根据各个分支特点灵活选择，统一管理各分支容灾存储系统；不同级别阵列可互通复制，降低TCO，支持灵活在线添加/撤除分支站点结合快照功能，可实现数据的连续保护。容灾资源共享，可大大节约成本。

（五）同城应用级容灾（物理机模式）

应用场景为物理机模式（小型机、X86服务器），两数据中心距离 <80KM ，应用自动切换，快速恢复业务。实现本地高可用和异地应用级容灾，具有存储开放性，支持异构存储集群节点可任意组合（集群内主机总数量<=64）；

（六）云计算下的灾备模式

生产中心与容灾中心独立部署云管理平台（两朵云），设置同步策略，定期远程复制生产中心的云管理数据和业务数据（VM）到容灾中心。用户在业务规划时，可根据实际需求，在存储上划分两种LUN：保护LUN和未保护LUN，将需要容灾的VM创建在保护LUN上，并只对保护LUN配置阵列复制，以节省容灾中心存储空间的需求。当生产中心发生故障时，容灾中心通过容灾管理软件一键式恢复虚拟机。

容灾方案概述

1、引入

1.1 需求

1.2 挑战

2、几个概念

2.1 HA

2.2 容灾

2.3 二者对比