机器学习相关数据集简介

1.boston数据集

  • 简介:

    • 该数据集共10000个日频数据,截面指标或者特征数量或特征属性为13个,1个平均房价作为目标变量。
    • This dataset contains information collected by the U.S Census Service concerning housing in the area of Boston Mass.It can obtain from the StaLib archive
  • 特征变量说明:
    CRIM      按城镇划分的CRIM人均犯罪率
    ZN        划分为25000平方英尺以上地块的住宅用地比例(%)
    INDUS     每个城镇非零售商业用地比例(%)
    CHAS      Charles River虚拟变量(如果区域边界为河流,则=1;否则为0)
    NOX       氮氧化物浓度(百万分之一)
    RM        每个住宅的平均房间数
    AGE       1940年之前建造的业主自用单元的比例
    DIS        与波士顿五个就业中心的加权距离
    RAD       辐射状公路可达性RAD指数
    TAX        每10000美元的全价值财产税税率(%)
    PTRATIO   城镇师生比例(%)
    B           1000(Bk-0.63)^2,其中Bk是黑人在城镇中的比例(%)
    LSTAT      低社会阶层的人口比例(%)
    MEDV      自住房屋的中值(1000美元)

  • 较为官方的出处:
    http://lib.stat.cmu.edu/datasets/boston
    https://www.kaggle.com/datasets/altavish/boston-housing-dataset

  • Task,Scene,Contribution:
    回归预测:根据日频的历史房价数据建立回归模型,预测不同类型房屋(X)的价格(y)

  • 导入方式:
    sklearn.dataset.load_boston()
    tensorflow.keras.datasets.boston_housing

# 方式1 sklearn.datasets.load_boston
import sklearn
from sklearn import datasets 
boston_sk = datasets.load_boston(return_X_y = True)

# 方式2 keras.datasets.boston_housing
import tensorflow as tf 
boston_tf = tf.keras.datasets.boston_housing
(train_x,train_y),(test_x,test_y) = boston_tf.load_data(test_split = 0.2)

  • Notes:
    1.从scikit-learn的dataset包,load_boston()获得的数据,其返回的形式是,自变量组成的二维矩阵以及最后一列因变量房价,类似形式获取的数据集还有load_wine()
    2.从keras的dataset包,boston_hosing模块获得的数据block,通过load_data()并指定测试集训练集分割的比例可以分别获取对应的训练集,测试集,另外其默认值为0.2。相关的源码可以参见https://github.com/keras-team/keras/blob/master/keras/datasets/boston_housing.py
    3.这个数据集中当然包含了一定的缺失数据,需要我们对其进行数据清洗。

2.CIFAR-10

  • 简介:

    • 是由 Hinton 的学生 Alex Krizhevsky 和 Ilya Sutskever 整理的一个用于识别普适物体的小型数据集。
    • 一共包含 10 个类别的 RGB 彩色图 片:飞机( airplane )、汽车( automobile )、鸟类( bird )、猫( cat )、鹿( deer )、狗( dog )、蛙类( frog )、马( horse )、船( ship )和卡车( truck )。
    • 图片的尺寸为 32×32 ,数据集中一共有 50000 张训练圄片和 10000 张测试图片。
  • 与 MNIST 数据集中目比, CIFAR-10 具有以下不同点:

    • CIFAR-10 是 3 通道的彩色 RGB 图像,而 MNIST 是灰度图像。
    • CIFAR-10 的图片尺寸为 32×32, 而 MNIST 的图片尺寸为 28×28,比 MNIST 稍大。
    • 相比于手写字符, CIFAR-10 含有的是现实世界中真实的物体,不仅噪声很大,而且物体的比例、 特征都不尽相同,这为识别带来很大困难。 直接的线性模型如 Softmax 在 CIFAR-10 上表现得很差。
  • 较为官方的出处:
    https://www.kaggle.com/c/cifar-10

  • Task,Scene,Contribution:
    目标跟踪

  • 导入方式:
    自己写函数导入吧

未完待续。。。

猜你喜欢

转载自blog.csdn.net/Romaga/article/details/126985733
今日推荐