王小云院士真地破解了 MD5 吗

1.MD5简介

MD5（Message-Digest Algorithm 5）是一种被广泛使用的消息摘要算法，也称为哈希算法、散列算法或杂凑算法，可以产生出一个定长的 128 位（16 字节）的散列值（Hash Value），一般用于数字签名以确保信息传输完整性与密码的加密存储。MD5 由美国密码学家罗纳德·李维斯特（Ronald Linn Rivest）设计，于 1992 年公开，用以取代 MD4 算法。

2.MD5的应用场景

一个安全的散列算法需要满足如下两个条件，也是散列算法的两个特性。
（1）抗碰撞性。根据一个输入，找到一个其它输入得到相同的输出，在计算上是不可行的；
（2）不可逆性。根据一个输出，找到一个输入其散列值等于输出，在计算上是不可行的，即不可能从结果逆向推导初始值。

注意，抗碰撞性并不是说散列算法无碰撞，无碰撞的算法不可能是一个散列算法，而只能是一个无损压缩算法，因为散列算法在计算过程中必然会丢失原文部分信息。

MD5 作为一个应用广泛散列算法，满足上述两个特点。根据第一个特点，MD5 可用于信息的数字签名用来验证信息传输的完整性和发送者的身份认证。根据第二个特点，MD5 可用于用户密码的散列存储。

（1）信息的数字签名。
对重要信息进行 MD5 计算生成散列值，作为信息的数字签名，用于确定信息在传输过程中是否被篡改以及发送者的身份认证。

（2）用户密码的散列存储。
常见用途就是网站敏感信息加密，比如用户名密码。将用户密码进行散列计算后落地存储，即使被拖库，用户的密码仍是安全的，因为 MD5 算法的不可逆性决定无法通过散列值逆向推算出密码。当然，密码破解有很多方法，比如暴力破解、彩虹表等，还是有可能从正向破解密码散列值的。

3.MD5生成的Hash值为什么不可逆

因为MD5算法里面有很多不可逆的运算，会丢失很多原文的信息，无法找回，所以是不可逆的。比如移位，假设：10010001 左移两位后是01000100，你没有什么办法把它移回来。

4.王小云院士真地破解了MD5吗

所谓的“破解”其实误导了很多人，并不是说扔给王小云一个 MD5 散列值，然后她马上就能算出一个原文来。从密文推算出明文理论上是不可能的，所以王小云的研究成果并不能通过 MD5 的散列值逆向推算出明文。即给定 Hash 值，王小云不能逆向计算出 M。

MD5(M)=Hash

其中 M 指密码的明文，Hash 表示密码散列后的密文。

实际上，王小云的研究成果如下：

MD5(M1)=MD5(M2)

即给定消息 M1，能够计算获取 M2，使得 M2 产生的散列值与 M1 产生的散列值相同。如此，MD5 的抗碰撞性就已经不满足了，使得 MD5 不再是安全的散列算法。这样一来，MD5 用于数字签名将存在严重问题，因为可以篡改原始消息，而生成相同的 Hash 值。

扫描二维码关注公众号，回复： 8779336 查看本文章

这里，简单地用王教授的碰撞法给大家举个简单的例子。假如用户 A 给 B 写了个 Email 内容为 Hello，然后通过王教授的碰撞法，可能得到 Fuck 这个字符串的摘要信息和 Hello 这个这个字符串产生的摘要信息是一样的。如果 B 收到的 Email 内容为 Fuck，经过 MD5 计算后的，B 也将认为是 A 发来的 Email，并且没有被修改过！但是事实并非如此。

王小云院士的研究报告表明，MD4，MD5，HAVAL-128，RIPEMD 和 SHA-1 均已被证实存在上面的漏洞，即给定消息 M1，能够找到不同消息 M2 产生相同的散列值，即产生 Hash 碰撞。