聊聊当前主流分布式存储系统的特点

其他 2018-05-24 23:52:11 阅读次数: 7

前言

笔者最近在学习，了解当前流行的若干分布式存储系统。为什么这么做呢？因为笔者比较了解HDFS，但是对其它同等类型的存储系统知道的不多，想借此学习比较一番，希望能够做到触类旁通吧。本文可能不会阐述的很具体，想到哪就说到哪吧。

按照元数据存储结构划分

数据存储必然涉及到其元数据的存储管理，以什么样的方式来管理这些元数据就成为了划分的区别。按照这个划分，能够划分出以下3类：

集中式元数据管理。比如说典型的，HDFS。NameNode完全中心管理式的。优势是易于管理，路径查找什么的也很方便。弊端也很明显，扩展性问题，单点瓶颈问题。
分布式元数据管理。分布式元数据与集中式的相比，由单点变为多点，扩展性会变好，但是会带来一个问题，元数据管理节点间的数据同步问题。当然为了简单化这其中的数据同步，我们可以让每个节点管理部分数据。
无原数据管理。有人可能会好奇，还有这种方式？是的，GlusterFS用的就是这种模式。它的元数据和实际数据是存在一起的。它用的是hash算法来定位文件的位置的，输入的参数就是文件路径信息。那这种方式看起来很棒啊，扩展性相当好呢。但是目录树的查询就显得不太方便了，比如说列出扫描某个目录什么的，还有或者是深目录的查询，里面会涉及到多次的文件定位。

所以其实没用绝对的好坏，只有适不适合我们使用的存储系统。

数据定位方式

这里提到的数据定位方式其实是一个比较大的概念，它主要包含两层含义：

新写的文件，应该创建在哪里，哪个机架，哪个节点？
给定文件信息，如何定位到文件数据？

其实从根本上来说，存储系统的拓扑逻辑结构的设计决定了文件数据的定位问题。笔者以HDFS为例.。稍微了解过HDFS的人，基本都知道它有经典的“三副本”策略嘛，这3个副本横跨了不同的节点，机架，以此保证数据的高可用。所以我们看，HDFS在这里定义出了3个逻辑层的概念：

NODE_LOCAL:同节点
RACK_LOCAL:同机架
OFF_SWITCH:不同机架

然后根据管理区传入的集群拓扑结构，进行数据的位置选择。之后，数据的定位也是按照这种方式。当然了，还可以加上更多别的权重因素，比如Ceph的crush算法规则。

还有一个问题，无元数据管理的存储系统用的哈希方式是如何进行定位的呢？简单来说，这是一个哈希值的区间范围管理问题。感兴趣的同学可以学习GlusterFS的弹性哈希算法。

数据的存储形式

这里的存储形式指的主要有3方面：

分布式（单副本）
多副本
Striping（条带式）

前面2个很好理解，第3个条带式是什么意思呢？它指的是数据被横切到多个节点上，而不是连续的存储在一个节点上。条带式的好处是可以提高文件读写效率，因为我们能够在多个节点上并行读写文件的目的。

数据的对外服务形式

存储对外的服务形式，依据不同的使用场景，用户可自行选择。主要有以下3类：

文件系统的形式。典型的比如说HDFS，不过它与本地文件系统最大的区别，它是分布式的。Ceph也提供了文件系统的使用方式。
对象存储服务。这种服务方式与文件系统相比，更加简单化了用户的使用，使用者直接将自己需要存储的对象（图片，文本或其它），进行上传即可。目前HDFS也在做类似的服务叫做Ozone。而Ceph是已经有这样的服务。
块服务。块服务的大致意思通过网络互连的方式把各个节点上独立的块设备进行组织，对外提供服务。

以上是笔者最近一周所看所想，当然了，在分布式存储系统中，还有其它很多值得探讨的点，比如说数据恢复。笔者会在后续的文章中继续进行分享。

猜你喜欢

转载自blog.csdn.net/androidlushangderen/article/details/79119041

聊聊当前主流分布式存储系统的特点

Ceph分布式存储系统

分布式存储系统 Ceph

MFS分布式存储系统

什么是分布式存储系统？

GlusterFS分布式存储系统

RDMA分布式存储系统

分布式存储系统-HDFS

分布式存储系统简介

聊聊分布式存储系统的Decommission和Maintenance模式

浅谈分布式存储系统的数据分布算法

Hadoop分布式存储系统-HDFS

分布式存储系统GlusterFS安装配置

Voldemort — 分布式 key-value 存储系统

基于Kubernetes的分布式容器存储系统

Glusterfs 分布式存储系统配置

几种分布式存储系统的分析

ceph分布式存储系统初探

开源的分布式存储系统minio

分布式存储系统关键问题

部署mimic版本的Ceph分布式存储系统

分布式存储系统之数据备份

kudu分布式存储系统从入门到精通

常见的开源分布式存储系统

分布式文件存储系统技术及实现

HDFS分布式存储系统笔记整理

HDFS（分布式文件存储系统）

搭建FastDFS分布式文件存储系统教程

分布式存储系统设计—— 数据分片

大数据分布式文件存储系统~HDFS

今日推荐

国产云输入法——仅华为无云端数据上传安全问题

开源日报 | 工业开源项目OGG 1.0；姐姐，你要和我一起配置火狐吗；苹果AI遥遥落后？Fedora 40

开放签电子签章：停止新增，优化体验，前进更进（五一假期前工作）

开源日报 | 中学生开源前端动画引擎；全球首个Llama3 8B中文版开源模型；联想电脑恐出局；Linus讽刺AI炒作

“百模大战”必有一战 | 2024中国“百模大战”竞争格局分析

最强开源大模型 Llama 3 上架 Gitee AI

周排行

自媒体文章如何提高原创度以及如何检测原创度

开启qq邮箱的smtp服务

Qt程序单次启动（QSingleApplication类）

国外的外包网站

更新IDEA主题——放飞代码风格

cocos2dx 实现搓牌效果（翻牌效果），包括铺平动画

dict和json之间的互相转换

angular的一些思考

. Fibonacci数列是这样定义的： F[0] = 0 F[1] = 1 for each i ≥ 2: F[i] = F[i-1] + F[i-2] 因此，Fibonacci数列就形如：0, 1

洛谷P1064 金明的预算方案

每日归档

更多

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)

2024-04-20(6)

2024-04-19(5)

2024-04-18(0)

2024-04-17(5)

2024-04-16(70)