计算机三级数据库复习11-大规模数据库架构

未来教育第十三章题目笔记_大规模数据库架构

1、在分布式数据库查询中,导致数据传输通信代价大的原因是各个站点分片间的连接和并操作;
分布式中的分布透明性包括分布透明性(最高层次)、位置透明性、局部数据模型透明性
①分布(片)透明性:最高层次,位于全局概念模型和分片模型之间。指的是用户或应用程序只对全局关系进行操作而不必考虑关系分片的情况;
②位置透明性:下一层次。指用户或应用程序只需了解数据分片情况,而不必了解片段的存储场地;
③局部数据模式(型)透明性:位于分配模式与局部概念模式之间。指的是用户或应用程序不必了解局部场地上使用的是哪种数据模型,但是必须了解全局数据的分片情况,还需了解各片段的副本复制情况及各片段和他们副本的场地位置分配情况。
分布式数据库的事务管理包括恢复控制和并发控制,恢复控制一般采用的策略是基于两阶段提交协议
分布式数据库的目标是本地自治、非集中式管理、高可用性、位置独立性、数据分片独立性
2、分布式数据一般先进行数据分片,再进行数据分配;
数据的水平分片是在关系中从行(元组)的角度依据一定条件划分为不同的片断,关系中的每一行必须至少属于一个片断,以便重构。
3、并行数据库常用的划分技术有轮转法、散列划分、范围划分。
①轮转法:对关系顺序扫描。保证了均匀划分。并行数据库中需要将表拆分到不同的磁盘上,最适合整表扫描的拆分方式是轮转法。【最适合扫描整个关系】
②散列划分:选定一个值域为{0,1,…,n-1}的散列函数,对关系中的元组基于划分属性进行散列。如果散列函数返回,则将其存储到第i个磁盘。【比轮转法更适合点查询,也适合顺序扫描关系】
③范围划分:该策略按照关系中某个属性的取值范围将数据文件划分为几部分,分别存放到磁盘上。【明显利于范围查询和点查询】【会引起数据分布不均匀】
4、设并行数据库采用一台具有14个刀片的刀片服务器,每个刀片具有独立的内存和磁盘,个刀片之间通过刀片服务器上的以太网交换机实现通信,则该并行数据库采用的体系结构是无共享结构。
5、并行数据库系统的主要目的是通过高速通信介质连接多个可独立处理的单元以并行执行的方式完成对数据库系统的互联查询、内部查询及各种内部操作。
分布式数据系统的主要目的是实现场地自治和数据全局透明共享。
6、分布式数据库的分配方式包括集中式、分割式、全复制式、混合式
①集中式:所有数据片断都安排在一个场地上
②分割式:全局数据有且只有一份,他们被分割成若干片段 ,每个片断被分配在一个特定的场地上
③全复制式:每个站点上都有全局数据的复制样本,数据的冗余性最大
④混合式:指全局数据被分为若干个数据子集,每个子集被安排在一个或多个不同的场地上,但是每个场地未必保存所有数据。
7、架构是形成单个命名空间的数据库实体的集合。架构和用户是一对多的关系,一个用户对应一个架构,但多个用户可以共享一个架构。
11、在分布式数据库中,采用半连接操作可以减少场地之间的数据传输量,即可在网络中只传输参与连接的数据。
12、XML数据库需要对XML文档进行解析,因为XML文档的本身标记只是文档本身的描述,需要经过数据库的解析才能达到具体的用途。XML数据库包括XEDB、NXD、和HXD。在数据本身具有层次特征时,XML文档能够清晰地表达数据的层次特征。
14、OLTP应用需要大量的并行事务,因此要采用共享内存结构会引起大量数据冲突;
在分布式数据库的查询中,导致数据传输量大的主要原因是数据间的连接操作和选择操作。
分布式数据库因为不同的分片和副本,因此很多时候在一个场地完成提交不能完成全局事务,如虽完成某片段数据更新,却并没有完成全局数据更新。
17、对于分布式数据库查询优化而言,通信代价比I/O代价和CPU代价更重要。
18、并发调度中不同的事务的操作可以交叉执行。
19、两个事务并发执行时,
隔离性保证其并行结果正确性。
①原子性:要么都做,要么都不做
②一致性:执行结果从一个一致性到另一个一致性的变化。
20、分布式数据库采用数据分片对数据进行管理,分片有以下3个原则:
①完整性原则:全局关系的所有数据项必须包括在某个片段中,否则将导致数据库不完整
②重构性原则:即所有片段必须能够还原全局关系
③不相交原则(对垂直分片的主键除外):对于一个全局关系,要保证数据不丢失,则必须要属于某个片段,即不允许不属于任何一个片段,也不允许一个全局关系的某个数据既属于全局关系的某些片段又属于该全局关系的另一片段。
21、分布式数据库总的数据分布策略可以从数据分片和数据分配两个角度来考虑:
分片是对关系的操作,而分配是对分片操作结果的操作。
分片模式是描述每个数据片段以及全局关系到片段的映像
分配模式是描述各片段到物理存放场地的映像。
23、公共云指的是即用即付的方式提供给观众。私有云指不对公众开放的企业或组织内部数据中心的资源。
24、两段锁协议就是实现可串行的协议,保证事务的可串行性。
26、Google的云数据库是一个分布式的结构化数据存储系统,称为Bigtable
27、分布式数据库中,传输的代价是I/O代价+CPU代价+通信代价。首要目标是通信代价最省
31、分布式数据库分片类型:
①水平分片:按一定的条件把全局关系的所有元组划分成若干不相交的子集,每个子集都是关系的一个片段
②垂直分片:把一个全局关系的属性集分成若干子集,并在这些子集上作投影运算,每个投影称为垂直片段
③导出分片:又称为导出水平分片,即水平分片的条件不是本关系属性条件,而是其他关系的条件。
④混合分片:以上三种的混合
33、①共享内存的优势是实现简单,缺点是由于共享内存,如果处理器数量过多容易造成内存冲突
37、无共享结构每个处理机拥有独立的主存储器和磁盘,不共享任何资源。它被认为是支持并行数据库系统最好的结构,通过最小化共享资源来降低资源竞争的概率,具有极高的可扩展性,比较适合银行、出纳、民航售票等OLTP类应用。
40、共享磁盘结构比共享内存结构具有更大的优势,访问内存不会产生冲突,但这种结构是通过互联网实现各个处理器之间的信息和数据交换,会产生通信代价。共享磁盘结构所有的处理机拥有独立的内存
41、分布式数据库系统由局部数据库管理系统、全局数据库管理系统、全局数据字典、通信管理四部分组成。
45、云计算中,
SaaS是software as a Service即软件即服务
PaaS是Platform as a service即平台即服务(T72)
47、分布式数据库的参考模式结构【见T83】
全局外模式是全局应用的用户视图,即终端用户看到的逻辑上并未分布的表、视图等;
全局概念模式用于描述全体数据的逻辑结构和特征;
分片模式用于描述每个数据片段以及全局关系到片段的映像,是分布式数据库系统中的全局数据的逻辑视图;
分配模式用于描述各片段到物理存放场地的映像
局部概念模式用于描述全局关系在场地上存储的物理片段的逻辑结构以及特征
局部内模式用于描述局部概念模式设计的数据在本场地的物理存储。
48、层次结构从全局角度来看,分为两层:顶层是由若干节点组成的无共享结构,底层是共享内存或共享磁盘结构
并行数据库经常通过负载均衡的方法来提高数据库系统的业务吞吐量。
49、可以在查询语句中加入FOR XML子句实现以XML格式返回查询结果。
50、平台即服务是指通过网络提供操作系统和相关服务,而无需下载或安装。
53、分布式数据库系统是物理上分散、逻辑上集中的数据库系统。
54、全局数据库管理系统是分布式数据库管理系统的核心
62、聚集函数的并行化计算可以采用“先分后合”的方法。
63、具有分布是透明性的主要因素:位置独立性、数据分片独立性、数据复制独立性。
64、恢复控制采用的最典型的策略是基于两阶段的提交协议。
74、XML数据库是一种支持对XML格式文档进行存取管理和数据查询的数据库。
优点:
①XML数据库能够对半结构化数据进行有效的存取和管理
②提供对标签和路径的操作
③当数据本身具有层次特征时,由于XML数据格式能够表达数据的层次特征。
75、层次结构综合了共享内存、共享磁盘、无共享结构的特点。【属于并行数据库结构】
77、Bigtable表的索引是行关键字、列关键字、时间戳。其数据模型的特点是:
①表中的关键字可以是任意的字符串
②列族是由列关键字组成的集合,是访问控制的基本单位
③时间戳记录了Bigtable是每一个数据项所包含的不同版本的数据的时间标识。
在Bigtable可以随意的增减行的数量,在一定的约束下还可以对列的数量进行扩展
在分布式数据库系统中,为了保证全局事务的原子性,参与事务执行的所有场地或者全部提交,或者全部撤销。
83、并行数据库有多种系统结构
①共享内存结构:所有处理机通过网络共享一个公共的主存储器的结构
②共享磁盘结构:拥有独立的主存储器,通过互联网共享磁盘
③无共享结构:最好的并行结构,通过最小化资源来降低资源竞争的概率,具有极高的扩展性
④层次结构:分为两层,顶层是无共享结构,底层是共享内存或共享磁盘结构。
88、云计算通过集中所有的计算资源,采用硬件虚拟技术,为使用者提供强大的计算能力、存储和带宽等资源。

思维导图

在这里插入图片描述

猜你喜欢

转载自blog.csdn.net/TOPic666/article/details/115263478
今日推荐