数据结构与算法分析:(十二)散列表(下)

上一篇我们讲了散列表的概念、散列函数和散列冲突:数据结构与算法分析:(十一)散列表(上)

这一篇我们来讲一下如何设计散列函数以及深入探讨散列函数与散列冲突这两个问题。

一、如何设计散列函数?

散列函数设计的好坏,决定了散列表冲突的概率大小,也直接决定了散列表的性能。那什么才是好的散列函数呢?

首先,散列函数的设计不能太复杂。过于复杂的散列函数,势必会消耗很多计算时间,也就间接的影响到散列表的性能。
其次,散列函数生成的值要尽可能随机并且均匀分布,这样才能避免或者最小化散列冲突,而且即便出现冲突,散列到每个槽里的数据也会比较平均,不会出现某个槽内数据特别多的情况。

实际工作中,我们还需要综合考虑各种因素。这些因素有关键字的长度、特点、分布、还有散列表的大小等。我举两个例子看看:

1、我们上一篇讲到学生的学号,通过分析学号的特征,把后三位作为散列值。我们还可以用类似的函数处理手机号,因为手机前几位重复的可能性很大,所以选取后几位相对比较随机的后四位来作为散列值。这种散列函数的设计方法,我们一般叫作“数据分析法”。

2、如何实现微软 Word 拼写检查功能。这里面的散列函数可以这样设计:将单词的每个字母的 ASCII 值 “进位” 相加,然后再跟散列表大小求余、取模,作为散列值。比如,英文单词 nice,我们转化出来的散列值就是下面这样:

hash("nice")=(("n" - "a") * 26^3 + ("i" - "a")*26^2 + ("c" - "a")*26^1+ ("e"-"a")) / 78978

实际上,散列函数的设计方法还有很多,比如直接寻址法、平方取中法、折叠法、随机数法等,这些你只要了解就行了,不需要全都掌握。

二、装载因子过大了怎么办?

我们上一篇讲过,装载因子越大,说明散列表中的元素越多,空闲位置越少,散列冲突的概率就越大。不仅插入数据的过程要多次寻址或者拉很长的链,查找的过程也会因此变得很慢。

扫描二维码关注公众号,回复: 11037001 查看本文章

对于动态散列表来说,数据集合是频繁变动的,我们事先无法预估将要加入的数据个数,所以我们也无法事先申请一个足够大的散列表。随着数据慢慢加入,装载因子就会慢慢变大。当装载因子大到一定程度之后,散列冲突就会变得不可接受。这个时候,我们该如何处理呢?

针对散列表,当装载因子过大时,我们也可以进行动态扩容,重新申请一个更大的散列表,将数据搬移到这个新散列表中。假设每次扩容我们都申请一个原来散列表大小两倍的空间。如果原来散列表的装载因子是 0.8,那经过扩容之后,新散列表的装载因子就下降为原来的一半,变成了 0.4。

针对数组的扩容,数据搬移操作比较简单。但是,针对散列表的扩容,数据搬移操作要复杂很多。因为散列表的大小变了,数据的存储位置也变了,所以我们需要通过散列函数重新计算每个数据的存储位置。

在这里插入图片描述

对于支持动态扩容的散列表,插入操作的时间复杂度是多少呢?

插入一个数据,最好情况下,不需要扩容,最好时间复杂度是 O(1)。最坏情况下,散列表装载因子过高,启动扩容,我们需要重新申请内存空间,重新计算哈希位置,并且搬移数据,所以时间复杂度是 O(n)。用摊还分析法,均摊情况下,时间复杂度接近最好情况,就是 O(1)。

实际上,对于动态散列表,随着数据的删除,散列表中的数据会越来越少,空闲空间会越来越多。如果我们对空间消耗非常敏感,我们可以在装载因子小于某个值之后,启动动态缩容。当然,如果我们更加在意执行效率,能够容忍多消耗一点内存空间,那就可以不用费劲来缩容了。

我们前面讲到,当散列表的装载因子超过某个阈值时,就需要进行扩容。装载因子阈值需要选择得当。如果太大,会导致冲突过多;如果太小,会导致内存浪费严重。

装载因子阈值的设置要权衡时间、空间复杂度。如果内存空间不紧张,对执行效率要求很高,可以降低负载因子的阈值;相反,如果内存空间紧张,对执行效率要求又不高,可以增加负载因子的值,甚至可以大于 1。

三、如何高效地扩容?

我们刚刚分析得到,大部分情况下,动态扩容的散列表插入一个数据都很快,但是在特殊情况下,当装载因子已经到达阈值,需要先进行扩容,再插入数据。这个时候,插入数据就会变得很慢,甚至会无法接受。

如果我们的业务代码直接服务于用户,尽管大部分情况下,插入一个数据的操作都很快,但是,极个别非常慢的插入操作,也会让用户崩溃。这个时候,“一次性”扩容的机制就不合适了。

为了解决一次性扩容耗时过多的情况,我们可以将扩容操作穿插在插入操作的过程中,分批完成。当装载因子触达阈值之后,我们只申请新空间,但并不将老的数据搬移到新散列表中。

当有新数据要插入时,我们将新数据插入新散列表中,并且从老的散列表中拿出一个数据放入到新散列表。每次插入一个数据到散列表,我们都重复上面的过程。经过多次插入操作之后,老的散列表中的数据就一点一点全部搬移到新散列表中了。这样没有了集中的一次性数据搬移,插入操作就都变得很快了。

这期间的查询操作怎么来做呢?对于查询操作,为了兼容了新、老散列表中的数据,我们先从新散列表中查找,如果没有找到,再去老的散列表中查找。

通过这样均摊的方法,将一次性扩容的代价,均摊到多次插入操作中,就避免了一次性扩容耗时过多的情况。这种实现方式,任何情况下,插入一个数据的时间复杂度都是 O(1)。

四、如何选择冲突解决方法?

上一篇我们讲到两种主要的散列冲突的解决办法,开放寻址法和链表法。这两种冲突解决办法在实际的软件开发中都非常常用。比如,Java 中 LinkedHashMap 就采用了链表法解决冲突,ThreadLocalMap 是通过线性探测的开放寻址法来解决冲突。那你知道,这两种冲突解决方法各有什么优势和劣势,又各自适用哪些场景吗?

1、开放寻址法

优点:

开放寻址法不像链表法,需要拉很多链表。散列表中的数据都存储在数组中,可以有效地利用 CPU 缓存加快查询速度。而且,这种方法实现的散列表,序列化起来比较简单。链表法包含指针,序列化起来就没那么容易。你可不要小看序列化,很多场合都会用到的。我们后面就有一节会讲什么是数据结构序列化、如何序列化,以及为什么要序列化。

缺点:

上一节我们讲到,用开放寻址法解决冲突的散列表,删除数据的时候比较麻烦,需要特殊标记已经删除掉的数据。而且,在开放寻址法中,所有的数据都存储在一个数组中,比起链表法来说,冲突的代价更高。所以,使用开放寻址法解决冲突的散列表,装载因子的上限不能太大。这也导致这种方法比链表法更浪费内存空间。

总结一下,当数据量比较小、装载因子小的时候,适合采用开放寻址法。这也是 Java 中的ThreadLocalMap使用开放寻址法解决散列冲突的原因。

2、链表法

首先,链表法对内存的利用率比开放寻址法要高。因为链表结点可以在需要的时候再创建,并不需要像开放寻址法那样事先申请好。实际上,这一点也是我们前面讲过的链表优于数组的地方。

链表法比起开放寻址法,对大装载因子的容忍度更高。开放寻址法只能适用装载因子小于 1 的情况。接近 1 时,就可能会有大量的散列冲突,导致大量的探测、再散列等,性能会下降很多。但是对于链表法来说,只要散列函数的值随机均匀,即便装载因子变成 10,也就是链表的长度变长了而已,虽然查找效率有所下降,但是比起顺序查找还是快很多。

当然,如果我们存储的是大对象,也就是说要存储的对象的大小远远大于一个指针的大小(4 个字节或者 8 个字节),那链表中指针的内存消耗在大对象面前就可以忽略了。

实际上,我们对链表法稍加改造,可以实现一个更加高效的散列表。那就是,我们将链表法中的链表改造为其他高效的动态数据结构,比如跳表、红黑树。这样,即便出现散列冲突,极端情况下,所有的数据都散列到同一个桶内,那最终退化成的散列表的查找时间也只不过是 O(logn)。这样也就有效避免了前面讲到的散列碰撞攻击。

在这里插入图片描述

总结一下,基于链表的散列冲突处理方法比较适合存储大对象、大数据量的散列表,而且,比起开放寻址法,它更加灵活,支持更多的优化策略,比如用红黑树代替链表。

五、工业级散列表举例分析

上面我讲了实现一个工业级散列表需要涉及的一些关键技术,现在,我就拿一个具体的例子,Java 中的 HashMap 这样一个工业级的散列表,来具体看下,这些技术是怎么应用的。

1、初始大小

HashMap 默认的初始大小是 16,当然这个默认值是可以设置的,如果事先知道大概的数据量有多大,可以通过修改默认初始大小,减少动态扩容的次数,这样会大大提高 HashMap 的性能。

2、装载因子和动态扩容

最大装载因子默认是 0.75,当 HashMap 中元素个数超过 0.75*capacity(capacity 表示散列表的容量)的时候,就会启动扩容,每次扩容都会扩容为原来的两倍大小。

这里我想提个问题:为啥这里默认是0.75呢?

HashMap中的DEFAULT_INITIAL_CAPACITY字段,有这样一段注释:

   /*
	* Because TreeNodes are about twice the size of regular nodes, we
	* use them only when bins contain enough nodes to warrant use
	* (see TREEIFY_THRESHOLD). And when they become too small (due to
	* removal or resizing) they are converted back to plain bins.  In
	* usages with well-distributed user hashCodes, tree bins are
	* rarely used.  Ideally, under random hashCodes, the frequency of
	* nodes in bins follows a Poisson distribution
	* (http://en.wikipedia.org/wiki/Poisson_distribution) with a
	* parameter of about 0.5 on average for the default resizing
	* threshold of 0.75, although with a large variance because of
	* resizing granularity. Ignoring variance, the expected
	* occurrences of list size k are (exp(-0.5) * pow(0.5, k) /
	* factorial(k)). The first values are:
	*
	* 0:    0.60653066
	* 1:    0.30326533
	* 2:    0.07581633
	* 3:    0.01263606
	* 4:    0.00157952
	* 5:    0.00015795
	* 6:    0.00001316
	* 7:    0.00000094
	* 8:    0.00000006
	* more: less than 1 in ten million

在这里插入图片描述
意思就是说,这个默认值为啥取0.75,是因为研究人员大量的实验,发现满足泊松分布,并且到0.75以上的数就很少了,言外之意,HashMap扩容的时候装载因子为0.75左右,这个时候扩容的利用率达到了最大。

3、散列冲突解决方法

HashMap 底层采用链表法来解决冲突。即使负载因子和散列函数设计得再合理,也免不了会出现拉链过长的情况,一旦出现拉链过长,则会严重影响 HashMap 的性能。

于是,在 JDK1.8 版本中,为了对 HashMap 做进一步优化,我们引入了红黑树。而当链表长度太长(默认超过 8)时,链表就转换为红黑树。我们可以利用红黑树快速增删改查的特点,提高 HashMap 的性能。当红黑树结点个数少于 6 个的时候,又会将红黑树转化为链表。因为在数据量较小的情况下,红黑树要维护平衡,比起链表来,性能上的优势并不明显。

4、散列函数

散列函数的设计并不复杂,追求的是简单高效、分布均匀。

int hash(Object key) {
    int h = key.hashCode()return (h ^ (h >>> 16)) & (capicity -1); //capicity表示散列表的大小
}

其中,hashCode() 返回的是 Java 对象的 hash code。比如 String 类型的对象的 hashCode() 就是下面这样:

public int hashCode() {
  int var1 = this.hash;
  if(var1 == 0 && this.value.length > 0) {
    char[] var2 = this.value;
    for(int var3 = 0; var3 < this.value.length; ++var3) {
      var1 = 31 * var1 + var2[var3];
    }
    this.hash = var1;
  }
  return var1;
}

六、知识拓展

Q:哪些数据类型底层是基于散列表实现的?散列函数是如何设计的?散列冲突是通过哪种方法解决的?是否支持动态扩容呢?

JDK HashMap源码,hash表中数组位置的计算分两步:

1、计算hash值:

static final int hash(Object key) {
   int h;
   return (key == null) ? 0 : (h = key.hashCode()) ^ (h >>> 16);
}

这一步有一种说法,叫它扰动函数,为什么要右移16位再与本身异或呢?

(1)首先hashCode()返回值int最高是32位,如果直接拿hashCode()返回值作为下标,大概40亿的映射空间,只要哈希函数映射得比较均匀松散,一般是很难出现碰撞的。
问题是一个40亿长度的数组,内存是放不下的。

(2)所以,用自己的高半区和低半区做异或,混合原始哈希码的高位和低位,关键是以此来加大低位的随机性。为后续计算index截取低位,保证低位的随机性。

(3)这样设计保证了对象的hashCode的32位值只要有一位发生改变,整个hash()返回值就会改变,高位的变化会反应到低位里,保证了hash值的随机性。

2、在插入或查找的时候,计算Key被映射到桶的位置:

int index = hash(key) & (capacity - 1)

hash()扰动函数计算的值和hash表当前的容量减一,做按位与运算。

这一步,为什么要减一,又为什么要按位与运算?

因为A % B = A & (B - 1)当B是2的指数时,等式成立(特别注意等式成立的条件)。

本质上是使用了除留余数法,那为啥要按位置与运算,直接前面取模不好吗?这是因为按位与运算效率更高,保证了index的位置分布均匀。

为什么HashMap的数组长度必须是2的整次幂?

数组长度是2的整次幂时,(数组长度-1)正好相当于一个低位掩码与操作的结果就是散列值的高位全部归零,只保留低位值,用来做数组下标访问。

以初始长度16为例,16-1=15。2进制表示是00000000 00000000 00001111。与操作的结果就是截取了最低的四位值。也就相当于取模操作

发布了386 篇原创文章 · 获赞 313 · 访问量 21万+

猜你喜欢

转载自blog.csdn.net/riemann_/article/details/105301851