Kaggle 比赛学习作业

上午来到实验室，装好anaconda+pycharm，准备用python练习，中间翻墙注册了Kaggle，大概内容已了解，先把要求软件直译了

用Python进行综合数据探索

了解变量是如何分布的以及它们是如何相互作用的

在机器学习模型训练前应用不同变换

涵盖单变量和多变量方法

包括使用matplotlib and seaborn的可视化

Learn to use visualization techniques to study missing data and distributions
Covers both continuous and categorical data
Includes correlation heatmaps, pairplots, and t-SNE to help inform appropriate inputs to a linear model

学会使用可视化技术来研究丢失的数据，分布包括连续数据和分类数据，包括相关热图、配对图和t-sne，以帮助为线性模型提供适当的输入信息。

Demonstrate effective tactics for feature engineering
Includes simplifying and combining existing features
Explore linear regression with different regularization methods including ridge, LASSO, and ElasticNet using scikit-learn

应用于Ames数据集的回归研究表明，特征工程的有效策略包括简化和结合现有的特征，使用Scikit-Learning，用不同的正则化方法(包括脊、拉索和ElasticNet)探索线性回归。（岭回归的方法可以直接参考）

正则化线性模型建立基本线性模型使用Keras尝试更先进的算法，包括XGBoost和神经网络（keras调用和XGBoost以及神经网络下个阶段再说）

界面中提供了问题描述（Overview），数据下载（Data），示例代码（Kernels），讨论区（Discussion），排行榜（Leaderboard），和规则（Rules）．

OK，下载数据集，大概385kb：

data_description.txt：每一列的完整描述，最初由迪恩·德科克编写，但经过轻微编辑，以与此处使用的列名相匹配

sample_submission.csv：根据销售年份和月份、批次面积和卧室数量进行线性回归的基准提交材料。

打开看了一下，训练集测试集各1500个，特征大概79个，部分数据缺失（79个肯定大部分是无用的，关键影响因素并不多）

明天开始处理数据。

Kaggle 比赛 学习 作业