一·学习知识点概要
- 导入数据
- 分析数据
2.1 查看样本个数和数据维度、理解特征含义
2.2 查看数据类型 - 查看数据
3.1 查看数据各特征的基本统计量
3.2 查看数据特征缺失值和唯一值 - 变量分析
4.1 连续型变量分析
4.2 非数值类别型变量分析 - 数据可视化
5.1 单一变量分布可视化
5.2 时间格式数据
5.3 透视图 - 生成数据报告
二·学习内容
1. 导入数据
工具库:pandas
函数:read_csv 参数nrows:设置读取文件的前多少行
2. 分析数据
查看样本个数和特征维度
.shape
.columns:查看列
查看数据类型
.info():获得各特征的特征值的数据类型
3. 查看数据
工具库:matplotlib
查看数据各特征的基本统计量
.describe():统计量分别为count(数量)、mean(平均值)、std(标准差)、min(最小值)、四分位值、max(最大值)
.head():查看头部数据,参数为数字n,表示查看前几行
.tail():查看尾部数据,参数同理
查看数据特征缺失值和唯一值
.isnull():数据是否缺失
.any():判断给定的可迭代函数是否全为false,则返回false,如果有一个为True,则返回True
.sum():求和
.sort_values(inplace = True):给数据排序并代替原数据
4. 变量分析
工具库:seaborn
连续性变量分析
.melt():把宽数据变为长数据
.FacetGrid():提供画布
.map():绘图
5. 数据可视化
单一变量分布可视化
.barplot():绘制条形图
时间格式数据处理及查看
.to_datetime():转换为时间
.strptime():根据指定的格式把一个时间字符串解析为时间元组
.pivot_table():参数values指定变量
6. 生成数据报告
pandas_profiling
三·问题与解答
暂无
四·思考与总结
• 上面我们用value_counts()等函数看了特征属性的分布,但是图表是概括原始信息最便捷的方式。
• 数无形时少直觉。
• 同一份数据集,在不同的尺度刻画上显示出来的图形反映的规律是不一样的。python将数据转化成图表,但结论是否正确需要由你保证。
• 47列数据中有22列都缺少数据,这在现实世界中很正常。