哈希表的概念理解

1.什么是Hash表?

        Hash表也称散列表,也有直接称为哈希表,是一种根据关键字值(key-value)而直接进行访问的数据结构。它是通过把关键字映射到数组的下标来加快查找速度。普通的数据结构中查找某一个关键字通常需要遍历整个数据结构,时间复杂度O(n),而哈希表只需要O(1)的时间级。

       我们知道个重要的问题就是如何把关键字转换为数组的下标,这个转换的函数称为哈希函数(也称散列函数),转换的过程称为哈希化。

2.介绍哈希函数

       大家都用过字典,字典的优点是我们可以通过前面的目录快速定位到所要查找的单词。如果我们想把一本英文字典的每个单词,从 a 到 zyzzyva(这是牛津字典的最后一个单词),都写入计算机内存,以便快速读写,那么哈希表是个不错的选择。

  这里我们将范围缩小点,比如想在内存中存储5000个英文单词。我们可能想到每个单词会占用一个数组单元,那么数组的大小是5000,同时可以用数组下标存取单词,这样设想很完美,但是数组下标和单词怎么建立联系呢?

  首先我们要建立单词和数字(数组下标)的关系:

  我们知道 ASCII 是一种编码,其中 a 表示97,b表示98,以此类推,一直到122表示z,而每个单词都是由这26个字母组成,我们可以不用 ASCII 编码那么大的数字,自己设计一套类似 ASCII的编码,比如a表示1,b表示2,依次类推,z表示26,那么表示方法我们就知道了。

  接下来如何把单个字母的数字组合成代表整个单词的数字呢?

  ①、把数字相加

  首先第一种简单的方法就是把单词的每个字母表示的数字相加,得到的和便是数组的下标。

  比如单词 cats 转换成数字:

  cats = 3 + 1 + 20 + 19 = 43

  那么单词 cats 存储在数组中的下标为43,所有的英文单词都可以用这个办法转换成数组下标。但是这个办法真的可行吗?

  假设我们约定一个单词最多有 10 个字母,那么字典的最后一个单词为 zzzzzzzzzz ,其转换为数字:

  zzzzzzzzzz = 26*10 = 260

  那么我们可以得到单词编码的范围是从1-260。很显然,这个范围是不够存储5000个单词的,那么肯定有一个位置存储了多个单词,每个数组的数据项平均要存储192个单词(5000除以260)。

  对于上面的问题,我们如何解决呢?

  第一种方法:考虑每个数组项包含一个子数组或者一个子链表,这个办法存数据项确实很快,但是如果我们想要从192个单词中查找到其中一个,那么还是很慢。

  第二种方法:为啥要让那么多单词占据同一个数据项呢?也就是说我们没有把单词分的足够开,数组能表示的元素太少,我们需要扩展数组的下标,使其每个位置都只存放一个单词。

  对于上面的第二种方法,问题产生了,我们如何扩展数组的下标呢?

  ②、幂的连乘

  我们将单词表示的数拆成数列,用适当的 27 的幂乘以这些位数(因为有26个可能的字符,以及空格,一共27个),然后把乘积相加,这样就得出了每个单词独一无二的数字。

  比如把单词cats 转换为数字:

  cats = 3*273 + 1*272 + 20*271 + 19*270 = 59049 + 729 + 540 + 19 = 60337

  这个过程会为每个单词创建一个独一无二的数,但是注意的是我们这里只是计算了 4 个字母组成的单词,如果单词很长,比如最长的10个字母的单词 zzzzzzzzzz,仅仅是279 结果就超出了7000000000000,这个结果是很巨大的,在实际内存中,根本不可能为一个数组分配这么大的空间。

  所以这个方案的问题就是虽然为每个单词都分配了独一无二的下标,但是只有一小部分存放了单词,很大一部分都是空着的。那么现在就需要一种方法,把数位幂的连乘系统中得到的巨大的整数范围压缩到可接受的数组范围中。

  对于英语字典,假设只有5000个单词,这里我们选定容量为10000 的数组空间来存放(后面会介绍为啥需要多出一倍的空间)。那么我们就需要将从 0 到超过 7000000000000 的范围,压缩到从0到10000的范围。

  第一种方法:取余,得到一个数被另一个整数除后的余数。首先我们假设要把从0-199的数字(用largeNumber表示),压缩为从0-9的数字(用smallNumber表示),后者有10个数,所以变量smallRange 的值为10,这个转换的表达式为:

  smallNumber = largeNumber % smallRange

  当一个数被 10 整除时,余数一定在0-9之间,这样,我们就把从0-199的数压缩为从0-9的数,压缩率为 20 :1。

  我们也可以用类似的方法把表示单词唯一的数压缩成数组的下标:

  arrayIndex = largerNumber % smallRange

      这也就是哈希函数。它把一个大范围的数字哈希(转化)成一个小范围的数字,这个小范围的数对应着数组的下标。使用哈希函数向数组插入数据后,这个数组就是哈希表。

3.冲突问题

      将大范围的数字范围压缩到较小的数字中,肯定会有几个不同的单词哈希化到同一个数字下标,即产生冲突。

      解决冲突的方法有两种

      第一是开放地址法,即当冲突产生时,而通过系统的方法找到数组的一个空位,并将这个单词填入,而不再用哈希函数得到数组的下标。

     第二是链地址法,就是数组的每一个数据项都创建一个子链表或子数组,那么数组内不直接存储单词,当冲突产生时,新的数据项直接存放到这个数组下标表示的链表中,这种方法称为链地址法。

 4.开放地址法

开发地址法中,若数据项不能直接存放在由哈希函数所计算出来的数组下标时,就要寻找其他的位置。分别有三种方法:线性探测、二次探测以及再哈希法。

①、线性探测

  在线性探测中,它会线性的查找空白单元。比如如果 5421 是要插入数据的位置,但是它已经被占用了,那么就使用5422,如果5422也被占用了,那么使用5423,以此类推,数组下标依次递增,直到找到空白的位置。这就叫做线性探测,因为它沿着数组下标一步一步顺序的查找空白单元。

     需要注意的是,当哈希表变得太满时,我们需要扩展数组,但是需要注意的是,数据项不能放到新数组中和老数组相同的位置,而是要根据数组大小重新计算插入位置。这是一个比较耗时的过程,所以一般我们要确定数据的范围,给定好数组的大小,而不再扩容。

  另外,当哈希表变得比较满时,我们每插入一个新的数据,都要频繁的探测插入位置,因为可能很多位置都被前面插入的数据所占用了,这称为聚集。数组填的越满,聚集越可能发生。

  这就像人群,当某个人在商场晕倒时,人群就会慢慢聚集。最初的人群聚过来是因为看到了那个倒下的人,而后面聚过来的人是因为它们想知道这些人聚在一起看什么。人群聚集的越大,吸引的人就会越多。

②、装填因子

  已填入哈希表的数据项和表长的比率叫做装填因子,比如有10000个单元的哈希表填入了6667 个数据后,其装填因子为 2/3。当装填因子不太大时,聚集分布的比较连贯,而装填因子比较大时,则聚集发生的很大了。

  我们知道线性探测是一步一步的往后面探测,当装填因子比较大时,会频繁的产生聚集,那么如果我们探测比较大的单元,而不是一步一步的探测呢,这就是下面要讲的二次探测。

③、二次探测

     二测探测是防止聚集产生的一种方式,思想是探测相距较远的单元,而不是和原始位置相邻的单元。

  线性探测中,如果哈希函数计算的原始下标是x, 线性探测就是x+1, x+2, x+3, 以此类推;而在二次探测中,探测的过程是x+1, x+4, x+9, x+16,以此类推,到原始位置的距离是步数的平方。二次探测虽然消除了原始的聚集问题,但是产生了另一种更细的聚集问题,叫二次聚集:比如讲184,302,420和544依次插入表中,它们的映射都是7,那么302需要以1为步长探测,420需要以4为步长探测, 544需要以9为步长探测。只要有一项其关键字映射到7,就需要更长步长的探测,这个现象叫做二次聚集。二次聚集不是一个严重的问题,但是二次探测不会经常使用,因为还有好的解决方法,比如再哈希法。

 ④、再哈希法

  为了消除原始聚集和二次聚集,我们使用另外一种方法:再哈希法。

  我们知道二次聚集的原因是,二测探测的算法产生的探测序列步长总是固定的:1,4,9,16以此类推。那么我们想到的是需要产生一种依赖关键字的探测序列,而不是每个关键字都一样,那么,不同的关键字即使映射到相同的数组下标,也可以使用不同的探测序列。

  方法是把关键字用不同的哈希函数再做一遍哈希化,用这个结果作为步长。对于指定的关键字,步长在整个探测中是不变的,不过不同的关键字使用不同的步长。

  第二个哈希函数必须具备如下特点:

  一、和第一个哈希函数不同

  二、不能输出0(否则,将没有步长,每次探测都是原地踏步,算法将陷入死循环)。

  专家们已经发现下面形式的哈希函数工作的非常好:stepSize = constant - key % constant; 其中constant是质数,且小于数组容量。

再哈希法要求表的容量是一个质数,假如表长度为15(0-14),非质数,有一个特定关键字映射到0,步长为5,则探测序列是0,5,10,0,5,10,以此类推一直循环下去。算法只尝试这三个单元,所以不可能找到某些空白单元,最终算法导致崩溃。如果数组容量为13, 质数,探测序列最终会访问所有单元。即0,5,10,2,7,12,4,9,1,6,11,3,一直下去,只要表中有一个空位,就可以探测到它。

5.链地址法

       链地址法中,装填因子(数据项数和哈希表容量的比值)与开放地址法不同,在链地址法中,需要有N个单元的数组中转入N个或更多的数据项,因此装填因子一般为1,或比1大(有可能某些位置包含的链表中包含两个或两个以上的数据项)。

找到初始单元需要O(1)的时间级别,而搜索链表的时间与M成正比,M为链表包含的平均项数,即O(M)的时间级别。

猜你喜欢

转载自www.cnblogs.com/xiaobaidashu/p/10858254.html