Redis的学习与总结三:Redis的底层数据结构

 1、简单动态字符串(SDS)

SDS定义:

struct sdshdr{

     //记录buf数组中已使用字节的数量

     //等于 SDS 保存字符串的长度

     int len;

     //记录 buf 数组中未使用字节的数量

     int free;

     //字节数组,用于保存字符串

     char buf[];

}

比起C字符串,SDS具有以下的优点:

(1)常数复杂度获取字符串长度

  由于 len 属性的存在,我们获取 SDS 字符串的长度只需要读取 len 属性,时间复杂度为 O(1)。而对于 C 语言,获取字符串的长度通常是经过遍历计数来实现的,时间复杂度为 O(n)。通过 strlen key 命令可以获取 key 的字符串长度。

(2)杜绝缓冲区溢出

  我们知道在 C 语言中使用 strcat  函数来进行两个字符串的拼接,一旦没有分配足够长度的内存空间,就会造成缓冲区溢出。而对于 SDS 数据类型,在进行字符修改的时候,会首先根据记录的 len 属性检查内存空间是否满足需求,如果不满足,会进行相应的空间扩展,然后在进行修改操作,所以不会出现缓冲区溢出。

(3)减少修改字符串的内存重新分配次数

  C语言由于不记录字符串的长度,所以如果要修改字符串,必须要重新分配内存(先释放再申请),因为如果没有重新分配,字符串长度增大时会造成内存缓冲区溢出,字符串长度减小时会造成内存泄露。

  而对于SDS,由于len属性和free属性的存在,对于修改字符串SDS实现了空间预分配和惰性空间释放两种策略:

  1、空间预分配:对字符串进行空间扩展的时候,扩展的内存比实际需要的多,这样可以减少连续执行字符串增长操作所需的内存重分配次数。(如果对SDS修改之后,lenth属性的值小于1Mb,那么程序分配和length属性同样大小的未使用空间;如果lenth属性的值大于1Mb,那么程序会分配1Mb未使用的空间)

  2、惰性空间释放:对字符串进行缩短操作时,程序不立即使用内存重新分配来回收缩短后多余的字节,而是使用 free 属性将这些字节的数量记录下来,等待后续使用。(当然SDS也提供了相应的API,当我们有需要时,也可以手动释放这些未使用的空间。)

(4)二进制安全

  因为C字符串以空字符作为字符串结束的标识,而对于一些二进制文件(如图片等),内容可能包括空字符串,因此C字符串无法正确存取;而所有 SDS 的API 都是以处理二进制的方式来处理 buf 里面的元素,并且 SDS 不是以空字符串来判断是否结束,而是以 len 属性表示的长度来判断字符串是否结束。

(5)兼容部分 C 字符串函数

  虽然 SDS 是二进制安全的,但是一样遵从每个字符串都是以空字符串结尾的惯例,这样可以重用 C 语言库<string.h> 中的一部分函数。

2、链表

每个链表节点使用一个 listNode结构表示(adlist.h/listNode):

    typedef struct listNode{
      struct listNode *prev;//前置节点
      struct listNode * next;//后置节点
      void * value;//节点的值  
}listNode;

链表的特性

(1)双端:链表节点带有prev 和next 指针,获取某个节点的前置节点和后置节点的时间复杂度都是O(N)

(2)无环:表头节点的 prev 指针和表尾节点的next 都指向NULL,对链表的以NULL为截止

(3)表头和表尾:因为链表带有head指针和tail 指针,程序获取链表头结点和尾节点的时间复杂度为O(1)

(4)长度计数器:链表中存有记录链表长度的属性 len

 (5)多态:链表节点使用 void* 指针来保存节点值,并且可以通过list 结构的dup 、 free、 match三个属性为节点值设置类型特定函数。

3、字典

       Redis字典使用哈希表作为底层实现,一个哈希表里面可以有多个哈希表节点,而每个哈希表节点就保存了字典中的一个键值对。

解决哈希冲突:

       Redis 中采用了链地址法(separate chaining)来解决键冲突。每个哈希表节点都有一个next 指针,多个哈希表节点可以使用next 构成一个单向链表,被分配到同一个索引上的多个节点可以使用这个单向链表连接起来解决hash值冲突的问题。通过字典里面的 *next 指针指向下一个具有相同索引值的哈希表节点。

(1)扩容和收缩:当哈希表保存的键值对太多或者太少时,就要通过 rerehash(重新散列)来对哈希表进行相应的扩展或者收缩。具体步骤:

  1、如果执行扩展操作,会基于原哈希表创建一个大小等于 ht[0].used*2n 的哈希表(也就是每次扩展都是根据原哈希表已使用的空间扩大一倍创建另一个哈希表)。相反如果执行的是收缩操作,每次收缩是根据已使用空间缩小一倍创建一个新的哈希表。

      2、重新利用上面的哈希算法,计算索引值,然后将键值对放到新的哈希表位置上。

   3、所有键值对都迁徙完毕后,释放原哈希表的内存空间。

(2)触发扩容的条件:

  1、服务器目前没有执行 BGSAVE 命令或者 BGREWRITEAOF 命令,并且负载因子大于等于1。

  2、服务器目前正在执行 BGSAVE 命令或者 BGREWRITEAOF 命令,并且负载因子大于等于5。

  注:负载因子 = 哈希表已保存节点数量 / 哈希表大小。

(3)渐近式 rehash

       什么叫渐进式 rehash?也就是说扩容和收缩操作不是一次性、集中式完成的,而是分多次、渐进式完成的。如果保存在Redis中的键值对只有几个几十个,那么 rehash 操作可以瞬间完成,但是如果键值对有几百万,几千万甚至几亿,那么要一次性的进行 rehash,势必会造成Redis一段时间内不能进行别的操作。所以Redis采用渐进式 rehash,这样在进行渐进式rehash期间,字典的删除查找更新等操作可能会在两个哈希表上进行,第一个哈希表没有找到,就会去第二个哈希表上进行查找。但是进行 增加操作,一定是在新的哈希表上进行的。

4、跳跃表

      跳跃表(skiplist)是一种有序数据结构,它通过在每个节点中维持多个指向其他节点的指针,从而达到快速访问节点的目的。跳跃表是一种随机化的数据,跳跃表以有序的方式在层次化的链表中保存元素,效率和平衡树媲美 ——查找、删除、添加等操作都可以在对数期望时间下完成,并且比起平衡树来说,跳跃表的实现要简单直观得多。Redis 只在两个地方用到了跳跃表,一个是实现有序集合键,另外一个是在集群节点中用作内部数据结构。

                          

跳跃表·结构包含以下属性:

(1) header:指向跳跃表的表头表头节点。

(2) tail:指向跳跃表的表尾节点。

(3)level:记录目前跳跃表内,层数最大的那个节点的层数(表头节点的层数不计算在内)。

(4)length:记录跳跃表的长度,也即是,跳跃表目前包含节点的数量(表头节点不计算在内)。

总结:

(1)主要有zskiplist 和zskiplistNode两个结构组成

(2) 每个跳跃表节点的层高都是1至32之间的随机数

(3)在同一个跳跃表中,多个节点可以包含相同的分值,但每个节点的对象必须是唯一的

(4)节点按照分值的大小从大到小排序,如果分值相同,则按成员对象大小排序

5、整数集合

      “整数集合是集合建的底层实现之一,当一个集合中只包含整数,且这个集合中的元素数量不多时,redis就会使用整数集合intset作为集合的底层实现。”我们可以这样理解整数集合,他其实就是一个特殊的集合,里面存储的数据只能够是整数,并且数据量不能过大。

升级:

(1)根据新元素类型,扩展整数集合底层数组的大小,并为新元素分配空间。

(2)将底层数组现有的所有元素都转成与新元素相同类型的元素,并将转换后的元素放到正确的位置,放置过程中,维持整个元素顺序都是有序的。

(3)将新元素加入到底层数组中(保证有序)。

  优点:升级能极大地节省内存,提升灵活性。

总结:

(1)整数集合是集合建的底层实现之一

(2)整数集合的底层实现为数组,这个数组以有序,无重复的范式保存集合元素,在有需要时,程序会根据新添加的元素类型改变这个数组的类型

(3)升级操作为整数集合带来了操作上的灵活性,并且尽可能地节约了内存

(4)整数集合只支持升级操作,不支持降级操作

6、压缩列表

      压缩列表是列表键和哈希键的底层实现之一,当一个列表键只包含少量列表项,并且每个列表项要么就是小整数值,要么就是长度比较短的字符串,那么Redis就会使用压缩列表来做列表键的底层实现;当一个列表键只包含少量键值对,并且每个键值对的键和值要么就是小整数值,要么就是长度比较短的字符串,那么Redis就会使用压缩列表来做哈希键的底层实现。

       压缩列表(ziplist)是Redis为了节省内存而开发的,是由一系列特殊编码的连续内存块组成的顺序型数据结构,一个压缩列表可以包含任意多个节点(entry),每个节点可以保存一个字节数组或者一个整数值。

压缩列表的构成

                           

                      

压缩列表节点构成

                                           

previous_entry_length:记录压缩列表中前一个节点的长度

encoding:记录节点的contents属性所保存数据的类型以及长度

contents:保存节点的值,可以是一个字节数组或整数,类型和长度由节点的'encoding'属性决定。

连锁更新

      由于压缩列表的'previous_entry_length'属性可能是1字节或5字节,若在一个压缩列表中,有多个连续的、长度介于250字节到253字节之间的节点,则添加新节点或删除节点都有可能会引发多个节点的连续多次空间扩展,这种现象称之为“连锁更新”。

总结:

(1)压缩列表是一种为了节约内存而开发的顺序型数据结构

(2)压缩列表被用作列表键和哈希键的底层实现之一

(3)压缩列表可以包含多个节点,每个节点可以保存一个字节数组或者整数值

(4)添加新节点到压缩列表,可能会引发连锁更新操作。

猜你喜欢

转载自blog.csdn.net/qq_26891141/article/details/85039285