分布式数据库管理系统的发展

单个数据库分割成多个，然后把这些分割存放到同一网络中的不同计算机中。多点数据库是分布式数据库系统的核心。业务分布在不同的国家和地区需要分布式数据库管理系统。分布式数据库系统的复杂性对于终端用户来说是透明的。分布式数据库管理系统把分布式数据库看成单个逻辑的数据库。分布式数据库管理系统（distributed database management system, DDBMS）管理在相关计算机系统中逻辑相关的数据存储和处理，在这个系统中，数据存储和处理都是分布在不同的地方。集中式数据库的使用需要公司把数据库存储到一个地方，通常这个地方是主机。复杂的分布式数据环境将增加标准协议的紧迫性，需要用这些协议来管理事物处理、并发控制、安全性、备份、恢复、查询优化、访问路径的选择等。

分布式处理（distributed processing）过程中，数据库处理过程在逻辑上分布到两个或者两个以上的物理独立位置上，而且这些位置可以通过网络连接。分布式数据库（distributed database）可以把逻辑相关的数据库存储两个或者两个以上的物理位置上。在一个分布式数据库系统中，数据库由许多部分组成，称之为数据库分割（database fragments）。

注意：

分布式处理不是需要一个分布式数据库，而分布式数据库需要分布式处理（其局域的数据库处理负责管理每个数据库分割）。
分布式处理可能基于单个数据库，并且该数据库也是存放在一台计算机上。由于分布式数据的产生，数据处理功能的副本必须分布到所有的数据存储位置上。
分布式处理和分布式数据库都需要通过一个网络来连接所有的计算机。

分布式处理

分布式数据库管理系统的特征

DBMS至少有以下功能才算得上是分布式的：

在分布式数据库中，应用层的接口必须连接终端用户、应用程序和其他DBMS。
对数据进行分析、验证语法的正确性。
把复杂的请求转化成简单的数据请求。
为了找到最好的访问路径，需要进行查询优化（如果操作同步，那么必须知道查询访问哪个数据库部件，怎么更新数据？）。
映射本地和远程分割的数据位置图。
I/O接口可以从永久的本地存储中读或者写数据。
调整数据的格式后提交给终端用户或应用程序。
确保本地和远程数据库的数据安全。
发生故障时，为了确保数据库的有效性和可恢复性，必须进行备份和恢复。
DBA具有数据库管理的功能。
在DDBMS中，为了管理同时访问的数据，并且确保在数据库部件中数据的一致性，必须进行进行并发控制。
为了确保数据从一个一致性状态中转换到另一个一致性状态，必须进行相应的事务管理，包括本地和远程事务的同步。

分布式数据库管理系统必须执行集中式DBMS的所有功能：

接受应用层（终端用户）的请求。
验证、分析、分解请求。这些请求可能包含数学的或者逻辑的操作，例如，选择所有余额超过1000的客户。它可能从一个表中得到数据，也可能需要访问多个表。
把请求的逻辑数据映射到物理数据。
把请求分解到磁盘I/O操作中。
查找、定位、读取、验证数据。
确保数据库的一致性、安全性和完整性。
根据条件验证数据。
根据要求保留已有的数据。

另外，DDBMS必须完成所有分布式数据的处理，并且对于终端用户来说，执行这些功能是透明的。

数据层和分布式处理

单点处理与单点数据

在单点处理与单点数据（single-site processing, single-site data, SPSD）情况下，所有的处理都在一台主机中进行（单处理服务器、多处理服务器、主机系统），并且所有数据都存储在主机的本地磁盘系统中。处理不能在终端用户的系统中执行。

多点处理与单点数据

在多点处理与单点数据（multiple-site processing, multiple-site data, MPSD）情况下，在共享单个数据仓库的情况下，由不同的计算机来处理数据。通常MPSD需要一个网络文件服务器，这个服务器可以通过网络来访问传统的应用程序。

多点处理与多点数据

多点处理与多点数据（multiple-site processing, multiple-site data, MPMD）是一个完整的分布式DBMS，它支持多点的数据处理和事务处理。根据集中式DBMS的不同类型，可以把DBMS分为同构和异构的。

同构DDBMS（homogeneous DDBMS）在网络上仅集成一种集中式DBMS。相比之下，异构DDBMS（heterogeneous DDBMS）在网络上集成多种集中式DBMS。全异构DDBMS（fully heterogeneous DDBMS）支持不同的DMBS，而这些DBMS可能支持不同的数据模型（关系、层次或者网络）。这些模型都在不同的计算机系统中运行，如主机和PC。

分布式数据库的透明性

分布透明性（distribution transparency），把分布式数据库看成单一的逻辑数据库。

如果一个DDBMS呈现出分布透明性，那么用户不需要知道：

数据的分割，即纵向和横向地把表的行和列分割开并且存储在多个地方。
数据可以被复制到多个地方。
数据的位置。

事务处理透明性（transaction transparency），运行一个事务在多个地方更新数据。

故障透明性（failure transparency），它保证了系统在一个节点上发生故障时，也能继续运行。由于故障，丢失的功能将可以从其他网络节点中找到。

性能透明性（performance transparency），是指系统的运行就像是一个集中式DBMS一样。

异构透明性（heterogeneity transparency），在通用或全局模型下，异构透明性允许集成多个不同的本地DBMS（关系、网络和层次）。

事务处理透明性

事务透明性是DDBMS的一个特征，它使数据库事务保持分布式数据库的完整性和一致性。请记住，一个DDBMS数据库事务更新存储在网络中相连的不同计算机的数据。事务处理透明性确保在所有数据库站点的事务处理都完成时，整个事务的处理才算完成。

为了管理事务并且确保数据库的一致性和完整性，分布式数据库系统需要复杂的机制。为了理解如何管理事务，应当知道管理远程请求、远程事务、分布式事务和分布式请求等基本概念。

分布式请求和分布式事务

一个事务是否时分布式的，主要看它是一个还是多个数据库请求。非分布式事务与分布式事务之间最基本的区别是，后者可以更新或者请求网上许多不同的远程数据。

分布式请求

分布式事务

远程事务的特征：

事务会更新站点上的表
远程事务会发送到站点上，并在站点上运行
每个事务之可以引用一个远程DP
每个SQL语句在一个时间内只可以引用一个远程DP，并且整个事务只能有一个远程DP引用和运行

分布式事务的特征：

事务引用了两个远程站点
在不同的站点上处理不同的请求
在同一时候，每个请求只能访问一个远程站点

不能从一个远程站点访问数据，因此DBMS必须支持分布式请求。

分布式请求允许一个SQL语句可以在多个不同本地或者远程DP站点引用数据。因为每个请求（SQL语句）都可以从一个本地或者远程DP站点中访问数据，一个事务可以访问多个站点。

事务透明性把分布式事务处理看成是集中式事务，这样可以确保事务的可串行化。也就是说不论并发事务的执行是否是分布式的，都是将数据库从一个一致性状态带到另一个一致性的状态。

分布式并发控制

并发控制在分布式数据库环境中至关重要，因为多站点，多处理器操作比单点系统更可能产生数据的不一致和事务死锁。例如，在最后的COMMIT执行完并且记录事务之前，一个DDBMS的TP组件必须确保事务的所有分割都必须在所有站点上执行完。

假设每个本地DP都提交每个事务操作，但是其中有一个DP未提交事务的结果：事务将产生不一致数据库，不可避免出现完整性问题，因为该提交的数据未能提交。为了解决这个方法，会学习下面的两阶段提交协议。

两阶段提交协议

集中式数据库仅需要一个DP。所有的数据库操作仅发生在一个站点上，并且DBMS可以很快地知道数据库操作的结果。而分布式数据库使得事务能够访问在多个站点的数据。所有的站点都已经执行完它们的事务后才可以提交最后的COMMIT。两阶段的提交协议（two-phase commit protocol）可以保证数据库状态的一致性：如果一个事务的一部分操作未能提交，那么对参与事务的其他站点的修改都取消。

每个DP都有自己的事务日志。两阶段提交协议需要在实际更新数据库部分之前，对每个DP记录事务日志。因此两阶段提交协议需要一个DO-UNDO-REDO协议和先写协议。

根据系统事务的日志，DP用DO-UNDO-REDO协议去会滚或前滚事务。DO-UNDO-REDO协议定义了3中类型的操作：

DO执行操作并且在事务日志中记录"之前"和"之后"的值。
根据DO的日志记录，UNDO取消操作。
根据DO的日志记录，REDO重做操作。

为了保证DO、UNDO和REDO在系统崩溃中也能发挥作用，当在执行DO、UNDO、REDO操作时，就必须使用先写协议（write-ahead protocol）。在实际的操作发生时，先写协议就把日志写入永久存储器中。

两阶段提交协议定义了两种类型的节点之间的操作：协调器（coordinator）和一个或多个从属者（subordinate）。参与节点使用的是同一个协调器。通常，协调器的作用是指定开始事务的节点。但是，不同系统实现了不同而且复杂的选举方法。协议是分两阶段来实现。

第一阶段：准备

协调器发送一个PREPARE TO COMMIT信息给所有的从属者。

从属者接到这个信息，使用先写协议，写入事务日志并发送一个确认信息（YES/PREPARED TO COMMIT或NO/NO PREPARED）给协调器。
协调器确保所有节点要么提交，要么取消。

如果所有节点为PREPARED TO COMMIT，事务调转到第二阶段。如果有一个或多个节点为NO或NO PREPARED协调器就给所有从属者发送一个ABORT。

第二阶段：最后的提交

协调器广播一个COMMIT信息给所有从属者并等待回复。
每个从属者接收到COMMIT信息并且使用DO协议更性数据库。
从属者回复一个 COMMITTED或者NOT COMMITTED信息给协调器。

如果一个或者多个从属者没有提交，协调器就发送一个ABORT消息，这样就使它们都取消所有的操作。

两阶段提交的目的是为了确保每个节点都提交事务自己所操作的部分；否则，事务就取消。如果其中一个节点提交失败，就用事务日志来恢复数据库的信息，而且使用的是DO-UNDO-REDO协议来恢复（记住使用先写协议更新日志信息）。

分布式数据库的设计

数据分割

水平分割
垂直分割
混合分割

数据复制

数据复制（data replication）是指通过计算机网络把数据存储复制到多个站点上。为了满足特殊的信息需求，分割副本可以存储到多个站点上。因为分割副本的存在能够增强数据的可用性和响应时间，数据复制还可以减少通信和查询时间。

数据放置

关于分布式事务、两阶段提交协议、三阶提交协议

随着大型网站的各种高并发访问、海量数据处理等场景越来越多，如何实现网站的高可用、易伸缩、可扩展、安全等目标就显得越来越重要。

为了解决这样一系列问题，大型网站的架构也在不断发展。提高大型网站的高可用架构，不得不提的就是分布式。在《分布式系统的一致性探讨》一文中主要介绍了分布式系统中存在的一致性问题。本文将简单介绍如何有效的解决分布式的一致性问题，其中包括什么是分布式事务，二阶段提交和三阶段提交。

分布式一致性回顾

在分布式系统中，为了保证数据的高可用，通常我们会将数据保留多个副本（replica），这些副本会放置在不同的物理的机器上。为了对用户提供正确的增、删、改、查等语义，我们需要保证这些放置在不同物理机器上的副本是一致的。

为了解决这种分布式一致性问题，前人在性能和数据一致性的反反复复权衡过程中总结了许多典型的协议和算法。其中比较著名的有二阶提交协议（Two Phase Commitment Protocol）、三阶提交协议（Two Phase Commitment Protocol）和Paxos算法。

分布式事务

分布式事务是指会涉及到操作多个数据库的事务。其实就是将对同一库事务的概念扩大到了对多个库的事务。目的是为了保证分布式系统中的数据一致性。分布式事务处理的关键是必须有一种方法可以知道事务在任何地方所做的所有动作，提交或回滚事务的决定必须产生一致的结果（全部提交或全部回滚）

在分布式系统中，各个节点之间在物理上相互独立，通过网络进行沟通和协调。由于存在事务机制，可以保证每个独立节点上的数据操作可以满足ACID。但是，相互独立的节点之间无法准确的知道其他节点中的事务执行情况。所以从理论上讲，两台机器理论上无法达到一致的状态。如果想让分布式部署的多台机器中的数据保持一致性，那么就要保证在所有节点的数据写操作，要不全部都执行，要么全部的都不执行。但是，一台机器在执行本地事务的时候无法知道其他机器中的本地事务的执行结果。所以它也就不知道本次事务到底应该commit还是 rollback。所以，常规的解决办法就是引入一个"协调者"的组件来统一调度所有分布式节点的执行。

XA规范

X/Open 组织（即现在的 Open Group）定义了分布式事务处理模型。 X/Open DTP 模型（ 1994）包括应用程序（AP）、事务管理器（TM）、资源管理器（RM）、通信资源管理器（CRM）四部分。一般，常见的事务管理器（TM）是交易中间件，常见的资源管理器（RM）是数据库，常见的通信资源管理器（CRM）是消息中间件。通常把一个数据库内部的事务处理，如对多个表的操作，作为本地事务看待。数据库的事务处理对象是本地事务，而分布式事务处理的对象是全局事务。所谓全局事务，是指分布式事务处理环境中，多个数据库可能需要共同完成一个工作，这个工作即是一个全局事务，例如，一个事务中可能更新几个不同的数据库。对数据库的操作发生在系统的各处但必须全部被提交或回滚。此时一个数据库对自己内部所做操作的提交不仅依赖本身操作是否成功，还要依赖与全局事务相关的其它数据库的操作是否成功，如果任一数据库的任一操作失败，则参与此事务的所有数据库所做的所有操作都必须回滚。一般情况下，某一数据库无法知道其它数据库在做什么，因此，在一个 DTP 环境中，交易中间件是必需的，由它通知和协调相关数据库的提交或回滚。而一个数据库只将其自己所做的操作（可恢复）影射到全局事务中。

XA 就是 X/Open DTP 定义的交易中间件与数据库之间的接口规范（即接口函数），交易中间件用它来通知数据库事务的开始、结束以及提交、回滚等。 XA 接口函数由数据库厂商提供。

二阶提交协议和三阶提交协议就是根据这一思想衍生出来的。可以说二阶段提交其实就是实现XA分布式事务的关键（确切地说：两阶段提交主要保证了分布式事务的原子性：即所有结点要么全做要么全不做）

2PC

二阶段提交（Two Phase Commit）是指，在计算机网络以及数据库领域内，为了使基于分布式系统架构下的所有节点在进行事务提交时保持一致性而设计的一种算法。通常，二阶段提交也被称为是一种协议（Protocol）。在分布式系统中，每个节点虽然可以知晓自己的操作时成功或者失败，却无法知道其他节点的操作的成功或失败。当一个事务跨越多个节点时，为了保持事务的ACID特性，需要引入一个作为协调者的组件来统一掌控所有节点（称作参与者）的操作结果并最终指示这些节点是否要把操作结果进行真正的提交（比如将更新后的数据写入磁盘等等）。因此，二阶段提交的算法思路可以概括为：参与者将操作成败通知协调者，再由协调者根据所有参与者的反馈情报决定各参与者是否要提交操作还是中止操作。

所谓的两个阶段是指：第一阶段：准备阶段（投票阶段）和第二阶段：提交阶段（执行阶段）。

准备阶段

事务协调者（事务管理器）给每个参与者（资源管理器）发送Prepare消息，每个参与者要么直接返回失败（如权限验证失败），要么在本地执行事务，写本地的redo和undo日志，但不提交，到达一种"万事俱备，只欠东风"的状态。

可以进一步将准备阶段分为以下三个步骤：

协调者节点向所有参与者节点询问是否可以执行提交操作（vote），并开始等待各参与者节点的响应。
参与者节点执行询问发起为止的所有事务操作，并将undo信息和redo信息写入日志。（注意：若成功这里其实每个参与者已经执行了事务操作）
各参与者节点响应协调者节点发起的询问。如果参与者节点的事务操作实际执行成功，则它返回一个"同意"消息；如果参与者节点的事务操作实际执行失败，则它返回一个"中止"消息。

提交阶段

如果协调者收到了参与者的失败消息或者超时，直接给每个参与者发送回滚（rollback）消息；否则，发送提交（commit）消息；参与者根据协调者的指令执行提交或者回滚操作，释放所有事务处理过程中使用的锁资源。（注意：必须在最后阶段释放锁资源）

接下来分两种情况分别讨论提交阶段的过程。

当协调者节点从所有参与者节点获得的相应消息都为"同意"时：

clip_image002

协调者节点向所有参与者节点发出"正式提交（commit）"的请求。
参与者节点正式完成操作，并释放在整个事务期间内占用的资源。
参与者节点向协调者节点发送"完成"消息。
协调者节点受到所有参与者节点反馈的"完成"消息后，完成事务。

如果任一参与者节点在第一阶段返回的响应消息为"中止"，或者协调者节点在第一阶段的询问超时之前无法获取所有参与者节点的响应消息时：

clip_image004

协调者节点向所有参与者节点发出"回滚操作（rollback）"的请求。
参与者节点利用之前写入的undo信息执行回滚，并释放在整个事务期间内占用的资源。
参与者节点向协调者节点发送”回滚完成”消息。
协调者节点受到所有参与者节点反馈的"回滚完成"消息后，取消事务。

不管最后结果如何，第二阶段都会结束当前事务。

二阶段提交看起来确实能够提供原子性的操作，但是不幸的事，二阶段提交还是有几个缺点的：

同步阻塞问题。执行过程中，所有参与节点都是事务阻塞型的。当参与者占有公共资源时，其他第三方节点访问公共资源不得不处于阻塞状态。
单点故障。由于协调者的重要性，一旦协调者发生故障。参与者会一直阻塞下去。尤其在第二阶段，协调者发生故障，那么所有的参与者还都处于锁定事务资源的状态中，而无法继续完成事务操作。（如果是协调者挂掉，可以重新选举一个协调者，但是无法解决因为协调者宕机导致的参与者处于阻塞状态的问题）
数据不一致。在二阶段提交的阶段二中，当协调者向参与者发送commit请求之后，发生了局部网络异常或者在发送commit请求过程中协调者发生了故障，这回导致只有一部分参与者接受到了commit请求。而在这部分参与者接到commit请求之后就会执行commit操作。但是其他部分未接到commit请求的机器则无法执行事务提交。于是整个分布式系统便出现了数据不一致性的现象。
二阶段无法解决的问题：协调者在发出commit消息之后宕机，而唯一接收到这条消息的参与者同时也宕机了。那么即使协调者通过选举协议产生了新的协调者，这条事务的状态也是不确定的，没人知道事务是否被已经提交。

由于二阶段提交存在着诸如同步阻塞、单点问题、脑裂等缺陷，所以，研究者们在二阶段提交的基础上做了改进，提出了三阶段提交。

3PC

三阶段提交（Three Phase Commit），也叫三阶段提交协议（Three Phase Commit Protocol），是二阶段提交（2PC）的改进版本。

clip_image006
与两阶段提交不同的是，三阶段提交有两个改动点。

引入超时机制。同时在协调者和参与者中都引入超时机制。
在第一阶段和第二阶段中插入一个准备阶段。保证了在最后提交阶段之前各参与节点的状态是一致的。

（引入XA规范和2PC、3PC讲的很好。但是上面这段话的第2条，在第一阶段和第二阶段中插入一个准备阶段？这么说不容易让人理解，本来2pc就是准备阶段+提交阶段。再插入一个准备阶段成什么了，很容易让人误解。希望作者改正。建议：将准备阶段拆分并在请求之前增加了一个状态确认阶段。

提问：3PC的canCommit，参与者进入预备状态后这个预备状态可以理解为事务已经开启了么？）

也就是说，除了引入超时机制之外，3PC把2PC的准备阶段再次一分为二，这样三阶段提交就有CanCommit、PreCommit、DoCommit三个阶段。

CanCommit阶段

3PC的CanCommit阶段其实和2PC的准备阶段很像。协调者向参与者发送commit请求，参与者如果可以提交就返回Yes响应，否则返回No响应。

1.事务询问协调者向参与者发送CanCommit请求。询问是否可以执行事务提交操作。然后开始等待参与者的响应。

2.响应反馈参与者接到CanCommit请求之后，正常情况下，如果其自身认为可以顺利执行事务，则返回Yes响应，并进入预备状态。否则反馈No

PreCommit阶段

协调者根据参与者的反应情况来决定是否可以进行事务的PreCommit操作。根据响应情况，有以下两种可能。

假如协调者从所有的参与者获得的反馈都是Yes响应，那么就会执行事务的预执行。

1. 发送预提交请求协调者向参与者发送PreCommit请求，并进入Prepared阶段。

2. 事务预提交参与者接收到PreCommit请求后，会执行事务操作，并将undo和redo信息记录到事务日志中。

3. 响应反馈如果参与者成功的执行了事务操作，则返回ACK响应，同时开始等待最终指令。

假如有任何一个参与者向协调者发送了No响应，或者等待超时之后，协调者都没有接到参与者的响应，那么就执行事务的中断。

1.发送中断请求协调者向所有参与者发送abort请求。

2.中断事务参与者收到来自协调者的abort请求之后（或超时之后，仍未收到协调者的请求），执行事务的中断。

doCommit阶段

该阶段进行真正的事务提交，也可以分为以下两种情况。

执行提交

1. 发送提交请求协调接收到参与者发送的ACK响应，那么他将从预提交状态进入到提交状态。并向所有参与者发送doCommit请求。

2. 事务提交参与者接收到doCommit请求之后，执行正式的事务提交。并在完成事务提交之后释放所有事务资源。

3. 响应反馈事务提交完之后，向协调者发送Ack响应。

4. 完成事务协调者接收到所有参与者的ack响应之后，完成事务。

中断事务协调者没有接收到参与者发送的ACK响应（可能是接受者发送的不是ACK响应，也可能响应超时），那么就会执行中断事务。

1.发送中断请求协调者向所有参与者发送abort请求

2.事务回滚参与者接收到abort请求之后，利用其在阶段二记录的undo信息来执行事务的回滚操作，并在完成回滚之后释放所有的事务资源。

3.反馈结果参与者完成事务回滚之后，向协调者发送ACK消息

4.中断事务协调者接收到参与者反馈的ACK消息之后，执行事务的中断。

在doCommit阶段，如果参与者无法及时接收到来自协调者的doCommit或者rebort请求时，会在等待超时之后，会继续进行事务的提交。（其实这个应该是基于概率来决定的，当进入第三阶段时，说明参与者在第二阶段已经收到了PreCommit请求，那么协调者产生PreCommit请求的前提条件是他在第二阶段开始之前，收到所有参与者的CanCommit响应都是Yes。（一旦参与者收到了PreCommit，意味他知道大家其实都同意修改了）所以，一句话概括就是，当进入第三阶段时，由于网络超时等原因，虽然参与者没有收到commit或者abort响应，但是他有理由相信：成功提交的几率很大。）

2PC与3PC的区别

相对于2PC，3PC主要解决的单点故障问题，并减少阻塞，因为一旦参与者无法及时收到来自协调者的信息之后，他会默认执行commit。而不会一直持有事务资源并处于阻塞状态。但是这种机制也会导致数据一致性问题，因为，由于网络原因，协调者发送的abort响应没有及时被参与者接收到，那么参与者在等待超时之后执行了commit操作。这样就和其他接到abort命令并执行回滚的参与者之间存在数据不一致的情况。

了解了2PC和3PC之后，我们可以发现，无论是二阶段提交还是三阶段提交都无法彻底解决分布式的一致性问题。Google Chubby的作者Mike Burrows说过，"there is only one consensus protocol, and that's Paxos – all other approaches are just broken versions of Paxos."。意即世上只有一种一致性算法，那就是Paxos，所有其他一致性算法都是Paxos算法的不完整版。后面的文章会介绍这个公认的难以理解但是行之有效的Paxos算法。

参考资料：

分布式协议之两阶段提交协议（2PC）和改进三阶段提交协议（3PC）

关于分布式事务、两阶段提交、一阶段提交、Best Efforts 1PC模式和事务补偿机制的研究

两阶段提交协议与三阶段提交协议