哈希算法的前世，今生和未来

2018-08-13 11:06

当新人在学区块链技术的时候，都会听到哈希和哈希算法，这似乎是无处不在的安全性保证。例如比特币或者以太坊这种运行去中心化网络和共识的机器，都会有上万个节点通过P2P连接，并且需要“无需可信”和可验证的效率。这些系统需要将信息写入紧凑的格式，从而通过参与者进行保证安全和快速验证。

比特币和以太坊主要的primitive是区块的notion，这是包含转账信息，时间戳和其他重要数据的数据结构。他们安全性的重要部件，就是能够压缩网络全部的状态信息，变成很短，并且标准的信息，在需要的时候可以进行有效验证，这就被称之为哈希。

到处都会使用加密哈希，从密码存储到文件验证系统。使用确定性算法的基本原理，就是使用一个输入，并且每次都产生一个固定长度的字符串。也就是说，使用同样的输入总是会导致同样的输出。

确定性不仅对哈希很重要，而且可以改变输入的单个字符会产生完全不同的哈希。

哈希算法的问题是碰撞（collisions）的必然性。哈希是固定的字符串，意味着对于每个输入，不同的输入都会产生同样的输出。碰撞（collisions）是不好的。这意味着如果有攻击者能够根据需求创建这种collisions，那么他就可以让欺诈文件或者数据看起来像正确的，合适的哈希，并且冒充合法。优质哈希功能的目标是让攻击者很难找到，获得输入数据的方法。

计算哈希不应该太简单，因为这会让对于攻击者来说，计算collisions也变得很容易。哈希算法需要对“预攻击”有抵抗性。也就是说，给定哈希，应该很难计算追溯确定性的步骤来重新产生由哈希创建的数值。

Given s＝ hash（x）， finding x should be near impossible．

概括来看，“好的”哈希算法会有以下3种特性：

－在输入中改变一个字符，应该会创建雪崩效应，从而导致完全不同的哈希

－很低的概率会产生collisions

－提高效率，但是不会牺牲collision的对抗性

破散哈希

其中一个初始哈希算法标准是MD5哈希，这是被广泛用来进行文件整合验证，而且存储哈希密码在网页应用数据库。这个功能非常简单，因为输出是固定的，128个字符串对于每个输入，并且使用几轮微不足道的单向运算来计算其确定性输出。它的输出长度短，操作简单，使得MD5彻底易碎，被称为生日攻击。

“生日攻击”是什么？

我们曾经听过，如果你把23个人放在一个房间，就会有50％的概率，其中的2人会有同样的生日？将这个数字提升到70人在一个房间，就会有99．9％的概率。这就是我们所说的鸽巢原理，也就说如果把100个各自放到99个箱子，你就必须在1个盒子里面放2个鸽子。换句话说，固定的输出意味着collisions 可能会找到固定的排序。

其实，MD5对于collision的抵抗是很脆弱的，家庭使用的2．4GHz处理器就可以在几秒钟算出哈希collision。而且，对于现在网页的早期使用，还可以在网络上创建很多MD5的预图形，如果搜索哈希，就可以在谷歌上很容易找到。

哈希算法的多样化和革新

开始：SHA1 ＆SHA2

NAS被称为哈希算法标准的先驱，最初的想法是安全哈希算法或者SHA1，创建了160固定长度的输出。不幸地是，SHA1通过增加了输出长度，单向操作的数量，还有单向操作的复杂性，从而形成了MD5算法，但是这不会提供任何基础的提升，来对抗更有力量的机器来尝试不同的攻击。

我们怎么才能做得更好呢？

1 2 下一页>