掌握了这些数据库要点，你也能在面试上游刃有余了，（一）索引

我是方圆，愿你我皆能在面试前，游刃有余！

1. 为什么数据库中要使用索引？

若在数据量较少的时候（几十行数据），那么我们对全表扫描，加载到内存中，效率依然很快，但是如果在数据量很大的时候，就需要用到索引，索引是一种数据结构，能够避免全表扫描，打个比方就像目录一样，能很快的找到我们想要的数据。

1.1 什么样的信息可以作为索引？

主键（毫无疑问的）
唯一键
普通键

2. 索引的数据结构与优化

我们主要想聊的是InnoDB引擎中，B+Tree索引，在此之前，给大家简单介绍一下，B+Tree的优化过程

2.1 二叉查找树

我们先看一种特殊情况

该图显示的是一张链表，那么我们要查询的数据键为17，我们就要遍历整个表，也就相当于全表扫描，要查询7次（O（n））。

如果我们采用平衡二叉查找树，如下图
在这里插入图片描述

我们同样要查询的是数据是17，我们仅仅需要查询3次，这样大大提高了效率（O（logn））

我们先来简单看一下这幅图，图中每个节点都存储了键值和数据。
我们可以很容易的发现它的特点：

每个节点最多有两个子节点
键值和数据同时存在一个节点上
平衡二叉树，左子树和右子树的高度差不能超过1

虽然这相比于遍历全表效率高，但是这只是我们在数据很少的时候的例子，如果数据量变大，由于平衡二叉树每个节点最多有两个子节点的特点，那么树的高度必定会很高，这就会造成数据块（存储数据的单元）很多，造成硬盘与内存IO的次数变多，而IO正是限制数据读取速度的主要原因，为了优化这种情况，就有了B-Tree。

2.2 B-Tree

在这里插入图片描述
上图便是B-Tree的简图，每个节点称为页，它相比于平衡二叉树，在每个节点上能存储更多的数据，而且每个节点对应的子节点个数变多（图上为3个，我们也称它为3阶B树，实际上要远大于3个），这样，就能将树的高度大大降低，从而降低了IO的次数，查找效率因此提高。
我们也不难看出它的特点

根节点至少包括两个子节点
所有的叶子节点都位于同一层

但是到B-Tree这里就没有问题了吗？我想你也知道，不是的。
我们考虑一种情况我们要查询15-33这个范围的数据，B-Tree是不是要找页2，页7，页3，和页8，才能把我们需要的数据读取出来，它进行的IO次数为4，而B+Tree，则2次就行。那么B+Tree是怎么做到的？我们接着看。

2.3 B+Tree

在这里插入图片描述
上图是一张美丽的B+Tree树索引图
我们先来看看它的特点

B+Tree在非叶子节点上不再存储数据了，而是只存储键值

为什么要这么做呢？因为，在数据库中，页（节点）的大小是固定的，InnoDB中是16KB，其中不再存储数据，意味着能装下更多的键值，键值数量越大，那么树的阶数也就越大，树的形状就更加的矮胖，如此，进行IO的次数减少，从而检索的效率就会增加！

B+Tree的数据全部存储在叶子节点中，而且是有序的，数据之间以单向链表链接，而页之间又是双向链表链接

这个特点可不得了了！完全可以轻松的应对范围查询，我们假如再查询15-33这个范围，仅需要2次IO，因为页之间是双向链表。
这同样也使得，查询每个数据的效率是相同的（都要从根节点查询到子节点，因为数据都存在子节点上，这就使得查询路径相同）

2.4 简单谈谈Hash索引

InnoDB引擎支持的Hash索引是自适应的，InnoDB存储引擎会根据表的使用情况自动为表生成哈希索引，不能认为干预是否在一张表中生成Hash索引
而支持Hash索引的引擎还有Memory和NDB（官方表如下）

这里我为什么要提到Hash索引呢？
因为在理论上存在一种情况，使得Hash有更快的查询速度。情况如下：我们查询某个数据的时候，可以根据Hash算法直接定位到这个数据所在的桶，而没有经过B+Tree这样从根节点到子节点的过程，这样更快。

但是存在这种情况，我们为什么还是没有采用Hash索引呢（事物都是两面性的）？

数据库无法根据key的Hash值进行排序，数据是无序的

这一点就要了命了，虽然查询单个数据的时候，很快，但是一到了范围查询，Hash索引便无能为力了，因为无法根据Hash值进行排序，这样就决定了Hash只能进行等值定位（‘=’或‘IN’）

Hash索引不能避免表扫描

因为不同的数据，key的Hash值可能是相同的，那么也就是可能被分到一个桶中，在同一个桶中还需要使用Equals方法进行比较，才能找到我们想要的数据，这就发生了表的扫描

如若出现大量Hash值相等的情况，Hash索引不一定比B+Tree快

这也是一种理论上的想法，Hash算法也是在不断的优化，造成大量的Hash值相同也有些让人觉得不可思议。

3. 最后聊聊聚集索引和非聚集索引

聚集索引（聚簇索引）：以 InnoDB 作为存储引擎的表，表中的数据都会有一个主键，即使你不创建主键，系统也会帮你创建一个隐式的主键。
这是因为 InnoDB 是把数据存放在 B+ 树中的，而 B+ 树的键值就是主键，在 B+ 树的叶子节点中，存储了表中所有的数据。
这种以主键作为 B+ 树索引的键值而构建的 B+ 树索引，我们称之为聚集索引。
非聚集索引（非聚簇索引）：以主键以外的列值作为键值构建的 B+ 树索引，我们称之为非聚集索引。
非聚集索引与聚集索引的区别在于非聚集索引的叶子节点不存储表中的数据，而是存储该列对应的主键，想要查找数据我们还需要根据主键再去聚集索引中进行查找，这个再根据聚集索引查找数据的过程，我们称为回表。
明白了聚集索引和非聚集索引的定义，我们应该明白这样一句话：数据即索引，索引即数据。