【自学笔记】计算机视觉基础知识点总览-持续更新

提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档



计算机视觉重点知识点总览

1. 基础知识

1.1 图像表示与处理

  • 灰度图像:每个像素只有一个亮度值。
  • 彩色图像:常见的表示方式有RGB、HSV等。
  • 图像预处理:滤波(均值滤波、高斯滤波)、边缘检测(Sobel、Canny)、二值化等。

1.2 图像变换

  • 仿射变换:平移、旋转、缩放等。
  • 透视变换:用于模拟3D到2D的投影。
  • 傅里叶变换:用于图像的频域分析。

2. 特征提取与匹配

2.1 点特征

  • Harris角点检测:基于图像梯度变化检测角点。
  • SIFT(尺度不变特征变换):提取尺度、旋转、光照不变的特征点。
  • SURF(加速鲁棒特征):SIFT的加速版,使用积分图像和盒滤波。

2.2 线与边缘特征

  • Hough变换:检测直线、圆等几何形状。
  • Canny边缘检测:多阶段边缘检测算法,效果好但计算复杂。

2.3 区域特征

  • HOG(方向梯度直方图):用于描述图像局部区域的形状特征。
  • LBP(局部二值模式):用于纹理分析,计算简单且有效。

3. 图像处理与分析

3.1 图像分割

  • 阈值分割:基于像素值的简单分割。
  • 区域生长:从种子点开始,根据相似性准则扩展区域。
  • 图割算法:如GrabCut,结合用户交互实现精确分割。

3.2 目标检测

  • 滑动窗口:在图像上滑动窗口,对每个窗口进行分类。
  • HOG+SVM:用于行人检测的经典方法。
  • 深度学习:如R-CNN、YOLO、SSD等,实现高效准确的目标检测。

3.3 目标跟踪

  • MeanShift/CamShift:基于颜色直方图的跟踪算法。
  • Kalman滤波:用于预测目标位置,结合观测值更新状态。
  • 深度学习跟踪:如Siamese网络,实现端到端的目标跟踪。

4. 深度学习在计算机视觉中的应用

4.1 卷积神经网络(CNN)

  • 基本结构:卷积层、池化层、全连接层。
  • 经典模型:LeNet、AlexNet、VGG、ResNet等。
  • 迁移学习:利用预训练模型进行微调,适应新任务。

4.2 目标识别与分类

  • ImageNet数据集:包含大量标注图像,用于训练深度模型。
  • softmax分类器:用于多分类问题。
  • 细粒度分类:识别同一大类下的不同子类,如鸟类识别。

4.3 语义分割与实例分割

  • FCN(全卷积网络):用于像素级分类。
  • U-Net:常用于医学图像分割。
  • Mask R-CNN:实现实例分割,同时检测目标并分割其轮廓。

5. 三维视觉与重建

5.1 立体视觉

  • 双目立体匹配:通过两张视角不同的图像恢复深度信息。
  • 结构光:利用已知图案的投影和变形恢复深度。
  • 激光扫描:使用激光束扫描物体表面,获取三维点云。

5.2 三维重建

  • SFM(结构从运动):从多张图像中恢复场景的三维结构和相机运动。
  • SLAM(同步定位与地图构建):在未知环境中,实时构建地图并定位自身。

总结

提示:这里对文章进行总结:
例如:以上就是今天要讲的内容,自学记录计算机视觉基础知识点总览。