今日学习的文章和视频链接
哈希表理论基础文章链接: link
242文章链接: link
242视频讲解链接: link
349文章链接: link
349视频讲解链接: link
202文章链接: link
202暂无视频讲解
1文章链接: link
1视频讲解链接: link
哈希表理论基础
哈希表内部实现原理
官方解释:哈希表是根据关键码的值而直接进行访问的数据结构。(估计很多人没有一个直观的认知)
我们从我们熟悉的数组来认识一下哈希表,其实数组就是一张哈希表。
哈希表中关键码就是数组的索引下标,然后通过下标直接访问数组中的元素,如下图所示:
哈希表的应用:一般是用来快速判断一个元素是否出现集合里。
举例:若我们要查询一个名字是否在这个学校里。
如果我们枚举,时间复杂度是O(n),但是使用哈希表仅为O(1)的时间复杂度。
如何操作:我们只需把这所学校里的学生名字都放在哈希表里,在查询时通过索引直接就可以知道该同学是否在学校中。
那么学生姓名如何和哈希表产生联系呢?
这就用到了哈希函数——将学生姓名映射到哈希表上。
哈希函数
哈希函数通过把学生姓名直接映射为哈希表上的索引,然后就可以通过查询索引下标快速知道学生是否在学校里。
哈希函数通过hashCode(采用特定编码将其他数据格式转化为不同数值)把名字转化为数值。
但是当hashCode得到的数值大于哈希表的大小(大于tableSize),该怎么处理呢?
此时为了保证映射出来的索引数值全落在哈希表上,我们再次对数值做一个取模的操作,保证一定可以映射到哈希表上。
但如果学生数量大于哈希表的大小该怎么办呢?此时无法避免有多个同学名字同时映射到同一个索引下标位置。通过这种情况,我们引出哈希碰撞。
哈希碰撞
当多个元素都映射到一个索引下标的位置,即为哈希碰撞。
一般有两种解决方法:拉链法和线性探测法。
拉链法
如上图,小李和小王在索引1处发生冲突,发生冲突的元素都被存储在链表中。我们就可以通过索引找到小李和小王。
(数据规模是dataSize, 哈希表的大小为tableSize)
本方法需要选择合适的链表大小,这样才不会因为数组空值而浪费大量内存,也不会因为链表太长而增加查找时间。
线性探测法
使用该方法,需要保证tableSize大于dataSize。通过哈希表中的空位解决碰撞问题。
常见的三种哈希结构
- 数组
- set(集合)
- map(映射)
C++中,set和map分别提供以下三种数据结构,底层实现及优劣如下表所示:
使用选择:
- 解决哈希问题优先选择unordered_set,因为其查询和删除效率最优。
- 如果要求集合有序,使用set
- 如果要求既有序还有重复数据,使用multiset
总结:当我们遇到了要快速判断一个元素是否出现集合里的时候,就要考虑哈希法。(牺牲了空间换取了时间)
242.有效的字母异位词
看到题目第一想法
题目描述:
给定两个字符串 s 和 t ,编写一个函数来判断 t 是否是 s 的字母异位词。
字母异位词:相同字母的数量相同,但排列顺序不一致。
有如下想法:
判断词内的字母是否在另一个里出现过,第一个想到的就是使用哈希表。定义一个数组,记录s中字符出现的次数。
又因为字母一共有26个且字符a到z的ASCⅡ也是连续的,所以定义一个大小为26的数组record记录,初始化为0。
遍历字符串s,将s[i] - ‘a’ 所在的元素做+1 操作。这样就可以统计出s中字符出现的次数。
之后再遍历字符串t,对t中出现的字符映射哈希表索引上的数值再做-1操作。
最后检查record数组那个元素不为0,那就是两者对应字符数量有差异,return false。
如果record数组所有元素都为0,说明字符串s和t是字母异位词,return true。
看完代码随想录后的想法
思路与我的想法一致
实现过程中遇到的困难
未遇到困难
代码
class Solution {
public:
bool isAnagram(string s, string t) {
int record[26]={
0};
for(int i = 0;i < s.size();i++){
record[s[i] - 'a']++;
}
for(int i = 0;i < t.size();i++){
record[t[i] - 'a']--;
}
for(int i = 0;i < 26;i++){
if(record[i] != 0){
return false;
}
}
return true;
}
};
349. 两个数组的交集
看到题目第一想法
题目描述:
给定两个数组 nums1 和 nums2 ,返回 它们的交集 。输出结果中的每个元素一定是 唯一 的。我们可以 不考虑输出结果的顺序 。
有如下想法:
注意:输出结果中的每个元素一定是唯一的,也就是说输出的结果的去重的, 同时可以不考虑输出结果的顺序
改题目限定了数值的大小,可以使用数组做哈希表。
看完代码随想录后的想法
视频中给了set和数组两种方法,由于之前用过数组,所以主要理解set的使用方法。
set的应用场景:如果哈希值比较少、分散,且跨度较大,此时使用数组就会导致空间的浪费。此时应使用set。
由前面可知C++中关于set提供了3种可用的数据结构:
- std::set
- std::multiset
- std::unordered_set
其中std::set和std::multiset底层实现都是红黑树,std::unordered_set的底层实现是哈希表。
由于题目不需要对数据进行排序,而且还不要让数据重复,这时使用unordered_set 读写效率是最高的。
std::unordered_set的底层实现是哈希表, 使用unordered_set 读写效率是最高的,并不需要对数据进行排序,而且还不要让数据重复,所以选择unordered_set。
思路如下图所示:
实现过程中遇到的困难
对unordered_set
的模板还不太熟悉,需要去学习。
代码
class Solution {
public:
vector<int> intersection(vector<int>& nums1, vector<int>& nums2) {
unordered_set<int> result_set;
unordered_set<int> nums_set(nums1.begin(),nums1.end());
for(int num : nums2){
if(nums_set.find(num) != nums_set.end()){
result_set.insert(num);
}
}
return vector<int>(result_set.begin(),result_set.end());
}
};
第202题. 快乐数
看到题目第一想法
题目描述:
编写一个算法来判断一个数 n 是不是快乐数。
「快乐数」定义为:对于一个正整数,每一次将该数替换为它每个位置上的数字的平方和,然后重复这个过程直到这个数变为 1,也可能是 无限循环 但始终变不到 1。如果 可以变为 1,那么这个数就是快乐数。
如果 n 是快乐数就返回 True ;不是,则返回 False 。
有如下想法:
关键:** 若无限循环,那么求和的过程中,sum会重复出现**
所以采用哈希法来判断这个sum是否重复出现,如果重复了就是return false, 否则一直找到sum为1为止。
判断sum是否重复出现就可以使用unordered_set。
看完代码随想录后的想法
思路相同
实现过程中遇到的困难
对取数值各个位上的单数操作不是很熟悉
代码
class Solution {
public:
// 取数值各个位上的单数之和
int getSum(int n) {
int sum = 0;
while (n) {
sum += (n % 10) * (n % 10);
n /= 10;
}
return sum;
}
bool isHappy(int n) {
unordered_set<int> set;
while(1) {
int sum = getSum(n);
if (sum == 1) {
return true;
}
// 如果这个sum曾经出现过,说明已经陷入了无限循环了,立刻return false
if (set.find(sum) != set.end()) {
return false;
} else {
set.insert(sum);
}
n = sum;
}
}
};
1. 两数之和
看到题目第一想法
题目描述:
给定一个整数数组 nums 和一个目标值 target,请你在该数组中找出和为目标值的那 两个 整数,并返回他们的数组下标。
本题解决有困难,对map不是很了解。
看完代码随想录后的想法
本题需要一个集合来存放我们遍历过的元素,然后在遍历数组的时候去询问这个集合,某元素是否遍历过,也就是 是否出现在这个集合。
本题我们不仅要知道元素有没有遍历过,还要知道这个元素对应的下标,需要使用 key value结构来存放,key来存元素,value来存下标,那么使用map正合适。
为何使用之前用过的set呢?
- 数组的大小是受限制的,而且如果元素很少,而哈希值太大会造成内存空间的浪费。
- set是一个集合,里面放的元素只能是一个key,而两数之和这道题目,不仅要判断y是否存在而且还要记录y的下标位置,因为要返回x 和 y的下标。所以set 也不能用。
而map是一种key value的存储结构,可以用key保存数值,用value在保存数值所在的下标。
在map在C++的3种类型中,选择std::unordered_map,因为这道题目中并不需要key有序,选择std::unordered_map 效率更高。
使用map需注意如下两点:
- map用来做什么
- map中key和value分别表示什么
关于第一点,map目的用来存放我们访问过的元素,因为遍历数组的时候,需要记录我们之前遍历过哪些元素和对应的下标,这样才能找到与当前元素相匹配的(也就是相加等于target)
关于第二点,这道题我们需要给出一个元素,判断这个元素是否出现过,如果出现过,返回这个元素的下标。
判断元素是否出现,这个元素就要作为key,所以数组中的元素作为key,有key对应的就是value,value用来存下标。
所以 map中的存储结构为 {key:数据元素,value:数组元素对应的下标}。
在遍历数组的时候,只需要向map去查询是否有和目前遍历元素比配的数值,如果有,就是找到的匹配对,如果没有,就把目前遍历的元素放进map中,因为map存放的就是我们访问过的元素。
实现过程如下图:
实现过程中遇到的困难
对取数值各个位上的单数操作不是很熟悉
代码
class Solution {
public:
vector<int> twoSum(vector<int>& nums, int target) {
std::unordered_map <int,int> map;
for(int i = 0; i < nums.size(); i++) {
// 遍历当前元素,并在map中寻找是否有匹配的key
auto iter = map.find(target - nums[i]);
if(iter != map.end()) {
return {
iter->second, i};
}
// 如果没找到匹配对,就把访问过的元素和下标加入到map中
map.insert(pair<int, int>(nums[i], i));
}
return {
};
}
};
今日收获
1.对哈希表的基础理论有所了解
2.知道了set和map的应用场景
3.使用模板库还是不太熟练,后续需要加强
今日学习时长3h
该文章图片均来自Carl哥的代码随想录,在此特别感谢