我们常说工作中遇不到数据结构和算法,其实是我们主动或无意识过滤掉这样的机会。
四个复杂度概念
重点四个复杂度分析方面的知识点。
最好情况时间复杂度
(best case time
complexity):代码在最理想情况下的时间复杂度;最坏情况时间复杂度
(worst case time complexity):代码在最坏情况下执行的时间复杂度;平均情况时间复杂度
(average case time complexity):用代码在所有情况下执行的次数的加权平均值表示;均摊时间复杂度
(amortized time complexity):在代码执行的所有复杂度情况中绝大部分是低级别的复杂度,个别情况是高级别复杂度且发生具有时序关系时,可以将个别高级别复杂度均摊到低级别复杂度上。基本上均摊结果就等于低级别复杂度。
如果这几个概念你都能掌握,那对你来说,复杂度分析这部分内容就没什么大问题了。
为什么引入
- 同一段代码在不同情况下时间复杂度会出现量级差异,为了更全面,更准确的描述代码的时间复杂度,所以引入这4个概念。
- 代码复杂度在不同情况下出现量级差别时才需要区别这四种复杂度。大多数情况下,是不需要区别分析它们的。
如何分析
最好、最坏时间复杂度
- 代码示例:
// n 表示数组 array 的长度
int find(int[] array, int n, int x) {
int i = 0;
int pos = -1;
for (; i < n; ++i) {
if (array[i] == x) pos = i;
}
return pos;
}
这段代码要实现的功能是,在一个无序的数组(array)中,查找变量
x
出现的位置。如果没有找到,就返回-1
。按照上节课讲的分析方法,这段代码的复杂度是O(n)
,其中,n
代表数组的长度。
我们在数组中查找一个数据,并不需要每次都把整个数组都遍历一遍,因为有可能中途找到就可以提前结束循环了。
- 优化上面查找代码
// n 表示数组 array 的长度
int find(int[] array, int n, int x) {
int i = 0;
int pos = -1;
for (; i < n; ++i) {
if (array[i] == x) {
pos = i;
break;
}
}
return pos;
}
问题就来了。我们优化完之后,这段代码的时间复杂度还是
O(n)
吗?很显然,上一节讲的分析方法,解决不了这个问题。
- 因为,要查找的变量
x
可能出现在数组的任意位置。如果数组中第一个元素正好是要查找的变量x
,那就不需要继续遍历剩下的n-1
个数据了,那时间复杂度就是O(1)
。 - 但如果数组中不存在变量
x
,那我们就需要把整个数组都遍历一遍,时间复杂度就成了O(n)
。
所以,不同的情况下,这段代码的时间复杂度是不一样的
- 上面的
O(1)
即最好情况时间复杂度;O(n)
即最坏情况时间复杂度。
平均时间复杂度
最好情况时间复杂度和最坏情况时间复杂度对应的都是极端情况下的代码复杂度,发生的概率其实并不大。
为了更好地表示平均情况下的复杂度,我们需要引入另一个概念:平均情况时间复杂度,后面我简称为平均时间复杂度。
- 借助上面查找变量
x
的例子来给你解释。要查找的变量x
在数组中的位置,有n+1
种情况:在数组的0~n-1
位置中和不在数组中。我们把每种情况下,查找需要遍历的元素个数累加起来,然后再除以n+1
,就可以得到需要遍历的元素个数的平均值,即:
2. 我们知道,时间复杂度的大 O 标记法中,可以省略掉系数、低阶、常量,所以,咱们把刚刚这个公式简化之后,得到的平均时间复杂度就是 O(n)
。
- 这个结论虽然是正确的,但是计算过程稍微有点儿问题。究竟是什么问题呢?我们刚讲的这
n+1
种情况,出现的概率并不是一样的。
这里要稍微用到一点儿
概率论
的知识,不过非常简单,你不用担心。)
-
我们知道,要查找的变量
x
,要么在数组里,要么就不在数组里。这两种情况对应的概率统计起来很麻烦,为了方便你理解,我们假设在数组中与不在数组中的概率都为1/2
。另外,要查找的数据出现在0~n-1
这 n 个位置的概率也是一样的,为1/n
。所以,根据概率乘法法则,要查找的数据出现在0~n-1
中任意位置的概率就是1/(2n)
。 -
因此,前面的推导过程中存在的最大问题就是,没有将各种情况发生的概率考虑进去。如果我们把每种情况发生的概率也考虑进去,那平均时间复杂度的计算过程就变成了这样:
这个值就是概率论中的加权平均值,也叫作期望值,所以平均时间复杂度的全称应该叫加权平均时间复杂度或者期望时间复杂度。
- 引入概率之后,前面那段代码的加权平均值为
(3n+1)/4
。用大 O 表示法来表示,去掉系数和常量,这段代码的加权平均时间复杂度仍然是O(n)
。
你可能会说,平均时间复杂度分析好复杂啊,还要涉及概率论的知识。实际上,在大多数情况下,我们并不需要区分最好、最坏、平均情况时间复杂度三种情况。像上一节举的那些例子那样,很多时候,我们使用一个复杂度就可以满足需求了。
只有同一块代码在不同的情况下,时间复杂度有量级的差距,我们才会使用这三种复杂度表示法来区分。
总结:代码在不同情况下复杂度出现量级差别,则用代码所有可能情况下执行次数的加权平均值表示。
均摊时间复杂度
两个条件满足时使用:
- 代码在绝大多数情况下是低级别复杂度,只有极少数情况是高级别复杂度;
- 低级别和高级别复杂度出现具有时序规律。
具体分析参考博客:https://github.com/foreverZ133/Beauty-of-Data-Structure-and-Algorithms/issues/5
均摊结果一般都等于低级别复杂度,即最好情况时间复杂度。
实战分析
代码:
// 全局变量,大小为 10 的数组 array,长度 len,下标 i。
int array[] = new int[10];
int len = 10;
int i = 0;
// 往数组中添加一个元素
void add(int element) {
if (i >= len) { // 数组空间不够了
// 重新申请一个 2 倍大小的数组空间
int new_array[] = new int[len*2];
// 把原来 array 数组中的数据依次 copy 到 new_array
for (int j = 0; j < len; ++j) {
new_array[j] = array[j];
}
// new_array 复制给 array,array 现在大小就是 2 倍 len 了
array = new_array;
len = 2 * len;
}
// 将 element 放到下标为 i 的位置,下标 i 加一
array[i] = element;
++i;
}
- 最好情况时间复杂度为
O(1)
- 最坏情况分析:
最坏情况代码执行的次数跟每次数组的长度有关,
第1次调用insert的执行的次数为 n ,
第2次调用insert的执行的次数为 2n ,
第3次调用insert的执行的次数为 2^2 * n
第k次调用insert的执行的次数为 2^(k-1) * n
最坏时间复杂度为O(n)
。 - 平均情况分析
当每次遇到最坏情况时数组会进行2倍扩容
,原数组被导入新数组,虽然数组的长度变大了,但是插入操作落在的区间的长度是一样的,分别是0 ~ len-1
,len ~ (2len-1)
,…;
插入的情况仍是len+1
种:0~len-1
和插满之后的O(len)
;所以每次插入的概率是: ,
最后求出加权平均时间复杂度为1*p + 2*p+ ... + len*p + len * p = O(1)
; - 均摊时间复杂度
O(1)
而均摊复杂度由于每次O(len)
的出现都跟着len
次O(1)
,是前后连贯的,因而将O(len)
平摊到
前len
次上,得出平摊复杂度是O(1)
。