JS中数据结构之散列表

散列是一种常用的数据存储技术,散列后的数据可以快速地插入或取用。散列使用的数据 结构叫做散列表。在散列表上插入、删除和取用数据都非常快。

下面的散列表是基于数组进行设计的,数组的长度是预先设定的,如有需要,可以随时增加。所有元素根据和该元素对应的键,保存在数组的特定位置。使用散列表存储数据时,通过一个散列函数将键映射为一个数字,这个数字的范围是0到散列表的长度。

散列函数会将每个键值映射为一个唯一的数组索引。然而,键的数量是无限的,数组的长度是有限的,一个更现实的目标是让散列 函数尽量将键均匀地映射到数组中。

即使使用一个高效的散列函数,仍然存在将两个键映射成同一个值的可能,这种现象称为碰撞(collision),当碰撞发生时,我们需要利用一定的方法去解决碰撞。

对数组大小常见的限制是:数组长度应该是一个质数。

HashTable类

使用 HashTable 类来表示散列表,该类包含计算散列值的方法、向散列中插入数据的方法、 从散列表中读取数据的方法、显示散列表中数据分布等方法。

function HashTable() {
  this.table = new Array(137);
  this.simpleHash = simpleHash;
  this.showDistro = showDistro;
  this.put = put;
  this.get = get;
}

散列函数

散列函数的选择依赖于键值的数据类型。如果键是整型,最简单的散列函数就是以数组的长度对键取余,这种散列方式称为除留余数法。

选择针对字符串类型的散列函数比较困难

简单的散列函数:字符串中每个字符的 ASCII 码值相加然后再除以数组长度,将得出的余数做为散列值。

function simpleHash(data) {
  var total = 0;
  for (var i = 0; i < data.length; ++i) {
    total += data.charCodeAt(i);
  }
  return total % this.table.length;
}

put() 和 showDistro(),一个用来将数据存入散列表, 一个用来显示散列表中的数据

function put(data) {
  var pos = this.simpleHash(data);
  this.table[pos] = data;
}
function showDistro() {   var n = 0;   for (var i = 0; i < this.table.length; ++i) {     if (this.table[i] != undefined) {       print(i + ": " + this.table[i]);     }   } }

使用简答的散列函数 simpleHash() 时数据并不是均匀分布的,而是向数组的两端集中,并且数据很大概率将会产生碰撞而不会全部显示出来。

更好的散列函数:霍纳算法是一种比较好的散列函数算法,计算时仍然先计算字符串中各字符的 ASCII 码值,不过求和时每次要乘以一个质数。

为了避免碰撞,首先要确保散列表中用来存储数据的数组其大小是个质数。这一点和计算散列值时使用的取余运算有关。数组的长度应该在 100 以上,这是为了让数据在散列表中分布得更加均匀。

function betterHash(string, arr) {
  const H = 37;
  var total = 0;
  for (var i = 0; i < string.length; ++i) {
    total += H * total + string.charCodeAt(i);
  }
  total = total % arr.length;
  return parseInt(total);
}

接受键和数据作为参数的put() 方法

function put(key, data) {
  var pos = this.betterHash(key);  //使用更好的散列函数
  this.table[pos] = data;
}

猜你喜欢

转载自www.cnblogs.com/wenxuehai/p/10288785.html
今日推荐