各种数据集总结 图像数据集 语音数据集

1.图像数据集:

(1)MNIST:由纽约大学的Yann LeCun整理的手写数字(0-9)数据集,图片大小为28*28,包含60000个训练集,10000个测试集,广泛用于机器学习的测试和训练。

(2)cifar:由加拿大先进技术研究院的AlexKrizhevsky等收集的小图片数据集。包含CIFAR-10和CIFAR-100两种, 图片大小为32*32。cifar-10共10个分类。50000张训练,10000张测试。CIFAR-100包含100个类别,每个类别600张图像,其中500张用于训练,100张用于测试。其中这100个类别又组成了20个大的类别,每个图像包含小类别和大类别两个标签。

(3)ImageNet:由美国斯坦福的李飞飞模拟人类的识别系统建立的图像识别数据库,目前已经包含14197122张图像,图像包含1000类,是已知的最大的图像数据库,AlexNet、VggNet、GoogleLeNet、ResNet这些经典图像识别模型都是用的此数据集。 图片生成描述数据集:

(4)COCO:是微软团队获取的一种新的图像识别,分割和加字幕标注的数据集。特点为:目标分割,通过上下文进行识别,每个图像包含多个目标对象,超过300000个图像,超过2000000个实例,80种对象,每个图像包含5个字幕,包含100000个人的关键点。是图片描述常用的数据集。也可用于做多标签训练。

(5)图像中文描述数据集:由搜狗、今日头条等举办的ai挑战赛的数据集。每张图片有五句中文描述,训练集有210000张,验证集有30000张。 风景图片多标签数据集:南京大学收集,包括2000张图像,每个图像有五个标签分别为 desert, mountains, sea, sunset , trees。可以用来做网络的迁移训练以及图像的多标签训练。

2.语音数据集:

(1)clesent:由母语为汉语的说话人录制的英语语料库。clesent语音库分为口音自适应和测试两个集合,一共有3小时。

(2)CET:通过大学生英语四六级考试抽样出来音频。语料库大约为800个小时。

(3)TIMIT:该语音库是由美国各地区(带方言)本土人录制的连续英语语音数据库。数据集分为训练集和测试集,大约5.5小时。

(4)WSJCAM0:由英国剑桥大学发布的英语音库。该语料库大约为24小时。

(5)WSJ1:华尔街日报口语料库,主要由播音员录制的语音音频。大小约为162小时。

(6)WSJ0:美国国防部口语项目提供的《华尔街日报》语料库,主要用于大词汇量连续语音识别系统的研究。该语料库大约42.5小时。

(6)TM:是一些英语教材的音频,大约为43小时。

(7)Libirispeech:是基于LibriVox的公共领域的阅读有声书本的语料库。主要是训练和测试自动语音识别系统。其中有纯净的训练语音库100个小时,300个小时以及其他包含一些噪声的500小时的语料库;测试集和开发集包含以上训练集。 硬件平台 前期学习使用自己的笔记本进行CPU跑神经网络,后期需要尽可能有GPU资源节约时间。



作者:microchip
链接:https://www.jianshu.com/p/d0baf4326ff2
来源:简书
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。

猜你喜欢

转载自blog.csdn.net/a493823882/article/details/111941258