CNN浅析和历年ImageNet冠军模型解析
Keras中最新的深度学习图像分类器
Keras提供了五种开箱即用型的CNN:
1. VGG16
2. VGG19
3. ResNet50
4. Inception V3
5. Xception
图像分类、对象检测、目标跟踪、语义分割、实例分割
实质:物体检测和分割,都可以被归结为图像分类问题。
分类的种类:
图像分类包括通用图像分类、细粒度图像分类等。图1展示了通用图像分类效果,即模型可以正确识别图像上的主要物体。
分类的难点
对于人来说,识别出一个像“猫”一样视觉概念是简单至极的,然而从计算机视觉算法的角度来看就值得深思了。我们在下面列举了计算机视觉算法在图像识别方面遇到的一些难点,要记住图像是以3维数组来表示的,数组中的元素是亮度值。
- 视角变化(Viewpoint variation):同一个物体,摄像机可以从多个角度来展现。
- 大小变化(Scale variation):物体可视的大小通常是会变化的(不仅是在图片中,在真实世界中大小也是变化的)。
- 形变(Deformation):很多东西的形状并非一成不变,会有很大变化。
- 遮挡(Occlusion):目标物体可能被挡住。有时候只有物体的一小部分(可以小到几个像素)是可见的。
- 光照条件(Illumination conditions):在像素层面上,光照的影响非常大。
- 背景干扰(Background clutter):物体可能混入背景之中,使之难以被辨认。
- 类内差异(Intra-class variation):一类物体的个体之间的外形差异很大,比如椅子。这一类物体有许多不同的对象,每个都有自己的外形。
-
PASCAL VOC 数据集
PASCAL VOC从2005年到2012年每年都发布关于分类、检测、分割等任务的数据库,并在相应数据库上举行了算法竞赛,极大地推动了视觉研究的发展进步.最初2005年PASCAL VOC数据库只包含人、自行车、摩托车、汽车共4类,2006年类别数目增加到10类,2007年开始类别数目固定为20类,以后每年只增加部分样本.PACAL VOC数据库中物体类别均为日常生活中常见的物体,如交通工具、室内家具、人、动物等.PASCAL VOC数据库共包含9963张图片,图片来源包括filker等互联网站点以及其他数据库,每类大概包含96~2008张图像,均为一般尺寸的自然图像.PASCAL VOC数据库与Caltech-101相比,虽然类别数更少,但由于图像中物体变化极大,每张图像可能包含多个不同类别物体实例,且物体尺度变化很大,因而分类与检测难度都非常大.该数据库的提出,对物体分类与检测的算法提出了极大的挑战,也催生了大批优秀的理论与算法,将物体识别的研究推向了一个新的高度.
ImageNet 数据集
随着分类与检测算法的进步,很多算法在以上 提到的相关数据库上性能都接近饱和,同时随着大 数据时代的到来、硬件技术的发展,也使得在更大规 模的数据库上进行研究和评测成为必然.ImageNet是由Li主持构建的大规模图像数据库,图像类别按照WordNet构建,全库截止2013年共有1400万张图像,2.2万个类别,平均每类包含1000张图像.这是目前视觉识别领域最大的有标注的自然图像分辨率的数据集,尽管图像本身基本还是以目标为中心构建的,但是海量的数据和海量的图像类别,使得该数据库上的分类任务依然极具挑战性.除此 之外,ImageNet还构建了一个包含1000类物体 120万图像的子集,并以此作为ImageNet大尺度视 觉识别竞赛的数据平台,也逐渐成为物体分类算法 评测的标准数据集.
TensorFlow之CNN图像分类及模型保存与调用
https://blog.csdn.net/Enchanted_ZhouH/article/details/74116823
数据集中总共有五种花,分别放在五个文件夹下。
#将所有的图片resize成100*100