1.boston数据集
-
简介:
- 该数据集共10000个日频数据,截面指标或者特征数量或特征属性为13个,1个平均房价作为目标变量。
- This dataset contains information collected by the U.S Census Service concerning housing in the area of Boston Mass.It can obtain from the StaLib archive
-
特征变量说明:
CRIM 按城镇划分的CRIM人均犯罪率
ZN 划分为25000平方英尺以上地块的住宅用地比例(%)
INDUS 每个城镇非零售商业用地比例(%)
CHAS Charles River虚拟变量(如果区域边界为河流,则=1;否则为0)
NOX 氮氧化物浓度(百万分之一)
RM 每个住宅的平均房间数
AGE 1940年之前建造的业主自用单元的比例
DIS 与波士顿五个就业中心的加权距离
RAD 辐射状公路可达性RAD指数
TAX 每10000美元的全价值财产税税率(%)
PTRATIO 城镇师生比例(%)
B 1000(Bk-0.63)^2,其中Bk是黑人在城镇中的比例(%)
LSTAT 低社会阶层的人口比例(%)
MEDV 自住房屋的中值(1000美元) -
较为官方的出处:
http://lib.stat.cmu.edu/datasets/boston
https://www.kaggle.com/datasets/altavish/boston-housing-dataset -
Task,Scene,Contribution:
回归预测:根据日频的历史房价数据建立回归模型,预测不同类型房屋(X)的价格(y) -
导入方式:
sklearn.dataset.load_boston()
tensorflow.keras.datasets.boston_housing
# 方式1 sklearn.datasets.load_boston
import sklearn
from sklearn import datasets
boston_sk = datasets.load_boston(return_X_y = True)
# 方式2 keras.datasets.boston_housing
import tensorflow as tf
boston_tf = tf.keras.datasets.boston_housing
(train_x,train_y),(test_x,test_y) = boston_tf.load_data(test_split = 0.2)
- Notes:
1.从scikit-learn的dataset包,load_boston()获得的数据,其返回的形式是,自变量组成的二维矩阵以及最后一列因变量房价,类似形式获取的数据集还有load_wine()
2.从keras的dataset包,boston_hosing模块获得的数据block,通过load_data()并指定测试集训练集分割的比例可以分别获取对应的训练集,测试集,另外其默认值为0.2。相关的源码可以参见https://github.com/keras-team/keras/blob/master/keras/datasets/boston_housing.py
3.这个数据集中当然包含了一定的缺失数据,需要我们对其进行数据清洗。
2.CIFAR-10
-
简介:
- 是由 Hinton 的学生 Alex Krizhevsky 和 Ilya Sutskever 整理的一个用于识别普适物体的小型数据集。
- 一共包含 10 个类别的 RGB 彩色图 片:飞机( airplane )、汽车( automobile )、鸟类( bird )、猫( cat )、鹿( deer )、狗( dog )、蛙类( frog )、马( horse )、船( ship )和卡车( truck )。
- 图片的尺寸为 32×32 ,数据集中一共有 50000 张训练圄片和 10000 张测试图片。
-
与 MNIST 数据集中目比, CIFAR-10 具有以下不同点:
- CIFAR-10 是 3 通道的彩色 RGB 图像,而 MNIST 是灰度图像。
- CIFAR-10 的图片尺寸为 32×32, 而 MNIST 的图片尺寸为 28×28,比 MNIST 稍大。
- 相比于手写字符, CIFAR-10 含有的是现实世界中真实的物体,不仅噪声很大,而且物体的比例、 特征都不尽相同,这为识别带来很大困难。 直接的线性模型如 Softmax 在 CIFAR-10 上表现得很差。
-
较为官方的出处:
https://www.kaggle.com/c/cifar-10 -
Task,Scene,Contribution:
目标跟踪 -
导入方式:
自己写函数导入吧
未完待续。。。