金融风控训练营Task02学习笔记

一·学习知识点概要

  1. 导入数据
  2. 分析数据
    2.1 查看样本个数和数据维度、理解特征含义
    2.2 查看数据类型
  3. 查看数据
    3.1 查看数据各特征的基本统计量
    3.2 查看数据特征缺失值和唯一值
  4. 变量分析
    4.1 连续型变量分析
    4.2 非数值类别型变量分析
  5. 数据可视化
    5.1 单一变量分布可视化
    5.2 时间格式数据
    5.3 透视图
  6. 生成数据报告

二·学习内容

1. 导入数据
工具库:pandas
函数:read_csv 参数nrows:设置读取文件的前多少行
2. 分析数据
查看样本个数和特征维度
.shape
.columns:查看列
查看数据类型
.info():获得各特征的特征值的数据类型
3. 查看数据
工具库:matplotlib
查看数据各特征的基本统计量
.describe():统计量分别为count(数量)、mean(平均值)、std(标准差)、min(最小值)、四分位值、max(最大值)
.head():查看头部数据,参数为数字n,表示查看前几行
.tail():查看尾部数据,参数同理
查看数据特征缺失值和唯一值
.isnull():数据是否缺失
.any():判断给定的可迭代函数是否全为false,则返回false,如果有一个为True,则返回True
.sum():求和
.sort_values(inplace = True):给数据排序并代替原数据
4. 变量分析
工具库:seaborn
连续性变量分析
.melt():把宽数据变为长数据
.FacetGrid():提供画布
.map():绘图
5. 数据可视化
单一变量分布可视化
.barplot():绘制条形图
时间格式数据处理及查看
.to_datetime():转换为时间
.strptime():根据指定的格式把一个时间字符串解析为时间元组
.pivot_table():参数values指定变量
6. 生成数据报告
pandas_profiling

三·问题与解答

暂无

四·思考与总结

• 上面我们用value_counts()等函数看了特征属性的分布,但是图表是概括原始信息最便捷的方式。
• 数无形时少直觉。
• 同一份数据集,在不同的尺度刻画上显示出来的图形反映的规律是不一样的。python将数据转化成图表,但结论是否正确需要由你保证。
• 47列数据中有22列都缺少数据,这在现实世界中很正常。

猜你喜欢

转载自blog.csdn.net/weixin_43695233/article/details/116081453