什么是hash？什么是hash碰撞？怎么处理hash碰撞？

hash碰撞

如果两个输入串的hash函数的值一样，则称这两个串是一个碰撞(Collision)。既然是把任意长度的字符串变成固定长度的字符串，所以必有一个输出串对应无穷多个输入串，碰撞是必然存在的。

一个优良的hash函数 f 应当满足以下三个条件：

（1）对于任意y，寻找x，使得f(x)=y，在计算上是不可行的。

（2）给定x1∈A,找x2∈B，，使得f(x1)=f(x2)，在计算上是不可能的，这也就是弱无碰撞性。

（3）寻找x1，x2，使得f(x1)=f(x2)，在计算上也是不可行的，这也就是强无碰撞性。

这样就称为安全保密的Hash函数，除了枚举外不可能有别的更快的方法。如第3条，根据生日定理，要想找到这样的x1，x2，理论上需要大约2^(n/2)的枚举次数。

因为前两条都能被破坏的hash函数太弱而被抛弃，几乎所有的hash函数的破解，都是指的破坏上面的第3条性质，即找到一个碰撞。在密码学上还有一个概念是理论破解，指的是提出一个算法，使得可以用低于理论值得枚举次数找到碰撞。

碰撞处理

通常有两类方法处理碰撞：开放寻址(Open Addressing)法和链接(Chaining)法。前者是将所有结点均存放在散列表T[0…m-1]中；后者通常是把散列到同一槽中的所有元素放在一个链表中，而将此链表的头指针放在散列表T[0…m-1]中。

(1)开放寻址法

所有的元素都在散列表中，每一个表项或包含动态集合的一个元素，或包含NIL。这种方法中散列表可能被填满，以致于不能插入任何新的元素。在开放寻址法中，当要插入一个元素时，可以连续地检查或探测散列表的各项，直到有一个空槽来放置待插入的关键字为止。有三种技术用于开放寻址法：线性探测、二次探测以及双重探测。

<1>线性探测

给定一个普通的散列函数h’：U —>{0，1，…，m-1}，线性探测方法采用的散列函数为：h(k,i) = (h’(k)+i)mod m，i=0,1,…,m-1

 探测时从i=0开始，首先探查T[h'(k)]，然后依次探测T[h'(k)+1]，…，直到T[h'(k)+m-1]，此后又循环到T[0]，T[1]，…，直到探测到T[h'(k)-1]为止。探测过程终止于三种情况：

(1)若当前探测的单元为空，则表示查找失败（若是插入则将key写入其中）；
　 (2)若当前探测的单元中含有key，则查找成功，但对于插入意味着失败；
　 (3)若探测到T[h’(k)-1]时仍未发现空单元也未找到key，则无论是查找还是插入均意味着失败(此时表满)。

再详细的说说Hash与Hash碰撞

Hash，简单来讲，是一种将任意长度的输入变换成固定长度的输出，固定长度的输出在“实际应用场景”下可以代表该输入。Hash函数通常被翻译成散列函数。Hash通常用来校验信息的一致性。
　　Hash函数的实现多种多样，在安全领域应用最为广泛的是SHA-x系列和MDx系列。Hash函数也划分为带密钥的Hash函数和不带密钥的Hash函数，通常所说的Hash函数是不带密钥的Hash函数
　　由于Hash固定长度输出的特性，必然会存在多个不同输入产生相同输出的情况。如果两个输入串的hash函数的值一样，则称这两个串是一个碰撞(Collision)。在理论范围内，存在一个输出串对应无穷多个输入串，所以碰撞具有其必然性。
　　如果找到碰撞，那么意味着我们可以破坏信息的一致性而不被接收方察觉，搜寻指定输入的Hash碰撞值的过程被称作“Hash破解”。这里需要说明的是，Hash函数必须是不可逆的，所以不存在从散列值到原始输入的破解（这里不包括暴力破解，使用彩虹表是暴力破解的最佳方式，但是仍然无法保证破解到的数据是原始数据）。设计不良的Hash算法，很容易让人找到碰撞值