02、数据结构
1、描述
数据结构是指数据存储的组织方式。大致上分为线性表、栈、队列、树、图。
2、线性表
2.1 数组
数组是连续的内存存储区。读取速度非常快。
2.2 链表
链表在java中的实现是LinkedList,内部使用引用的方式来实现,集合内不同通过Node来实现,有指向上家和下家的指针,每个节点上关联了元素。列表存放了first和last元素。
private static class Node<E> {
E item;
Node<E> next;
Node<E> prev;
Node(Node<E> prev, E element, Node<E> next) {
this.item = element;
this.next = next;
this.prev = prev;
}
}
3. 栈
栈是一种先进后出的结果,完全可以通过List模拟,手枪的弹夹就是典型的栈结构。
4. 队列
队列是先进先出的结果,也可以通过List实现。
5. 红黑树
红黑树是一种自平衡的二叉查找树,二叉树的每个节点都有一个附属位,该附属位通常解释为节点的颜色(非红即黑)。颜色位用来在树进行插入和删除时保持相应的平衡。
以一种满足特定属性的方式对每个节点进行着色来保持树的平衡。这些属性共同约束了在最坏的情况下,树是如何变得不平衡的。树被修改时,新树被重新排列和回执来恢复其颜色属性。这些属性被设计成能够以非常高效方式进行重新排列和着色。
树的平衡并不完美,但是对能够保证查询时做到\[O(log_2n)\]的时间复杂度来说足够好了,n是元素总数。插入和删除操作,随着树的重新排列和着色,也能够保持在\[O(log_2n)\]的时间复杂度。
跟踪每个节点的颜色信息只需要一个位的成本付出,因此内存消耗非常小,几乎都能同于二叉查找树的内存消耗。之所以使用红黑树冠名一种说法是当时只有红色和黑色两种钢笔用来着色。
5.1 红黑树术语
红黑树是一种特殊类型的二叉树,在计算机科学中用于组织可比较数据的片段,例如文本或数字。红黑树的叶子节点是指不包含数据的节点,可以不需要在计算机内存中显式处理,手段就是编码一个空的孩子指针来标识是节点是叶子节点。但是如果叶子真的是显式节点,就会简化一些在红黑树算法上的操作。为了节省执行时间,有时指向某个特定节点的指针(而不是空指针,类似于java中的单例概念)来行使所有叶节点的角色,所有内部节点到叶节点的引用都指向该特殊节点。
红黑树,像所有的二叉搜索树一样,允许元素的有效遍历(即:按左-根-右)。搜索时间是从根到叶遍历的结果,因此n个树的平衡树具有最小的树高度,从而导致O(log n)搜索时间。
5.2 红黑树属性:
每个节点非红即黑
根节点是黑的。该规则有时会忽略,因为根总是要从红变成黑色,反之是没有必要,该规则在分析时有些许影响。
所有叶子是黑色的
如果节点为红,孩子都是黑色的
给定节点到所达叶子(NIL)节点的每条路径都含有相同数量的黑色节点
其他定义:从根节点到某个节点之间黑色节点的数量称为该节点的“黑色深度”,从根节点到任一叶子节点的所有路径中黑色节点的个数成为树的高度。注意,由于属性的第5条件,不存在黑色节点数不同的路径。
这些属性强制保证了红黑色的关键属性:从各节点到最远的叶子节点的路径不会超过到最近叶子节点路径的2倍。其结果就是树在高度上大体上是平衡的。由于插入、删除、查找操作有最坏时间的要求,这个要求和数的高度是成比例的,理论上在最差情况下,红黑树仍然是高效的,而不像其他普通二叉搜索树。
这一特性能够得到保证的原因可以考虑属性4和5的共同作用,对于红黑树T来讲,B记做属性5中所说的黑色节点数。从根节点到任意叶子节点中可能的最短路径由B构成,更长的可能路径可以通过插入红色节点来构造。然而,属性4要求不能插入连续一个以上的红色节点。因此,忽律所有黑色NIL(叶子)节点,最长的可能路径上由2 * B个节点组成,交替出现黑和红(这是最糟糕到的情况)。计算黑色NIL节点的个数,最长可能路径由2*B-1个节点组成。
最短可能路径上全是黑色节点,最长可能路径上红黑交替出现,最大路径上也有着相同数量的黑色节点,没有哪条路径是其他路径的2倍以上。
5.3 4阶B树推导
红黑树在结构上同4阶B树相似,每个节点可以包含1到3个值和2到4个子节点。但每个节点中只有一个值和红黑树中的黑色节点的值匹配,该值的前后可以携带一个可选值,和红黑树中的红色节点相匹配。可以看成对红黑树中的红色节点向上提拉产生的效果,如此一来,红色节点和上级黑色节点水平对齐,形成一个水平节点簇。在该树中,所有叶子节点都有相同的深度。
红黑树在结构上相当于4阶的B树,每个簇的最小填充因子为33%,最大容量为3个值。这种B-树类型仍然比红黑树更通用,因为它允许在红黑树转换中产生歧义,可以从等效的4阶B树产生多个红黑树。如果B-树簇只包含1个值,则为最小值,黑色,并有两个子指针。如果一个簇包含3个值,那么中心值将为黑色,并且其边上存储的每个值将为红色。如果集群包含两个值,那么任何一个都可以成为红黑树中的黑节点(而另一个将是红色的)。如下图所示:
4阶B-树的每个簇中并不维护哪个值是根和父代值。尽管如此,红黑树的操作在时间上依然更为经济,因为不需要维护向量值。B-树中如果存放的是值而不是引用的话成本或许更高。B-树在空间上或许更加经济,因为不需要存储颜色属性,但必须要知道簇中的哪个slot被使用,如果使用引用方式存放数据的话,簇可以理解为包含3个slot的向量和包含4个slot的指针集合。此种情况下,B-树在内存中更加紧凑。
5.4 java TreeMap中红黑树实现
java中TreeMap采用红黑树实现,put时,先定位上级元素,如果key存在则替换之前的value即可。如果key不存在,则通过循环找到相应的挂载点,然后将新的kv组装成Entry对象放置到挂载点的left或right的位置。执行完成后要执行最关键的一步就是插入后修正处理,即调用fixAfterInsert()方法。
5.4.1 fixAfterInsert方法处理逻辑如下,x为插入的节点
private void fixAfterInsert(x){
x标成红色;
while(x存在 && x不是root && x上级是红色){
//x上级是左节点
if(x上级是左节点?){
y = 取出x上级对应的右节点;
//y是红色的
if(y是红色的?){
设置x上级为黑色 ;
设置y为黑色;
x的上上级为红色;
x = x的上上级;
}
//y不是红色的
else{
if(x本身是右节点?){
x = x上级节点;
对x进行左旋;
}
x上级标黑;
x上上级标红;
x上上级右旋;
}
}
//x上级是右节点
else{
y = x上级对应的左节点 ;
if(y是红色){
x上级标黑;
y标黑;
x上上级标红;
x = x上上级;
}
else{
if(x上级是左节点?){
x = x上级;
对x右旋;
}
x上级标黑;
x上上级标红;
x上上级左旋;
}
}
}
root标黑;
}
5.4.2 左旋处理
节点的左孩子看成女儿,右孩子看成儿子,节点本省可能是女儿,也可能是儿子。根暂看成儿子(女儿也可以,只有一个根)。对节点p进行左旋逻辑为:
private void rotateLeft(Entry<K,V> p) {
if(p存在){
r = p的儿子;
p的孙女成为p的儿子;
if(孙女存在){
孙女的长辈是p;
}
r和p同辈份;
if(p没有父代){
儿子变成root;
}
else{
p原来的儿子r顶替自己的位置;
}
p成了r的女儿;
儿子r成了p的家长;
}
}
图例分步说明如下:
家族树如下,p是待左旋的节点:
孙女变儿子
原来的儿子找祖父提升自己
祖父断绝和p的关系
p成为儿子的女儿
相当于按照图中所示进行了向左的旋转
5.4.3 右旋理
右旋原理同左旋原理相类似,左旋是找孙女,右旋是找外孙。
private void rotateRight(Entry<K,V> p) {
if (p != null) {
//找女儿
Entry<K,V> l = p.left;
//外孙变女儿
p.left = l.right;
//建立和外孙的关系
if (l.right != null) l.right.parent = p;
//女儿和自己同辈
l.parent = p.parent;
//女儿顶替自己的位置
if (p.parent == null)
root = l;
else if (p.parent.right == p)
p.parent.right = l;
else p.parent.left = l;
//p成女儿的儿子
l.right = p;
//女儿成p的家长
p.parent = l;
}
}
图例分步说明如下:
家族树如下,p是待;右旋的节点:
外孙变女儿
原来的女儿找祖父提升自己
祖父断绝和p的关系
p成为女儿的儿子
相当于按照图中所示进行了向右的旋转