(先上简单粗暴的软件翻译,然后直接入手)Getting started with Python
上午来到实验室,装好anaconda+pycharm,准备用python练习,中间翻墙注册了Kaggle,大概内容已了解,先把要求软件直译了
Comprehensive Data Exploration with Python
- Understand how variables are distributed and how they interact
- Apply different transformations before training machine learning models
- Covers both univariate and multivariate approaches
- Includes visualizations using matplotlib and seaborn
用Python进行综合数据探索
了解变量是如何分布的以及它们是如何相互作用的
在机器学习模型训练前应用不同变换
涵盖单变量和多变量方法
包括使用matplotlib and seaborn的可视化
- Learn to use visualization techniques to study missing data and distributions
- Covers both continuous and categorical data
- Includes correlation heatmaps, pairplots, and t-SNE to help inform appropriate inputs to a linear model
学会使用可视化技术来研究丢失的数据,分布包括连续数据和分类数据,包括相关热图、配对图和t-sne,以帮助为线性模型提供适当的输入信息。
A Study on Regression Applied to the Ames Dataset
- Demonstrate effective tactics for feature engineering
- Includes simplifying and combining existing features
- Explore linear regression with different regularization methods including ridge, LASSO, and ElasticNet using scikit-learn
应用于Ames数据集的回归研究表明,特征工程的有效策略包括简化和结合现有的特征,使用Scikit-Learning,用不同的正则化方法(包括脊、拉索和ElasticNet)探索线性回归。(岭回归的方法可以直接参考)
- Build a basic linear model
- Try more advanced algorithms including XGBoost and neural nets using Keras
正则化线性模型建立基本线性模型使用Keras尝试更先进的算法,包括XGBoost和神经网络(keras调用和XGBoost以及神经网络下个阶段再说)
界面中提供了问题描述(Overview),数据下载(Data),示例代码(Kernels),讨论区(Discussion),排行榜(Leaderboard),和规则(Rules).
OK,下载数据集,大概385kb:
- train.csv - the training set 训练集
- test.csv - the test set 测试集
data_description.txt:每一列的完整描述,最初由迪恩·德科克编写,但经过轻微编辑,以与此处使用的列名相匹配
sample_submission.csv:根据销售年份和月份、批次面积和卧室数量进行线性回归的基准提交材料。
打开看了一下,训练集测试集各1500个,特征大概79个,部分数据缺失(79个肯定大部分是无用的,关键影响因素并不多)
明天开始处理数据。