数据处理流程

  • 数据导入与清理:不管导入数据的格式是什么,在正式处理数据之前,阅读、清洗、转化数据,并确保整个过程中数据的完整性,都需要耗费很多时间和精力。
  • 单特征分析:有了数据,不要急着去处理数据,先逐次观察数据中的单特征(比如,某个特征的分布,平均值,方差等等)是个不错的开始。
  • 特征对分析:接下来确定特征(变量)之间的关系,就要用散列图,计算相关性和线性拟合等方法。
  • 多特征分析:如果通过上面分析发现,数据之间有强烈的关联性,可以借助多元回归来帮助分析。
  • 预估和假设检验:
    1. 特征对最终结果的影响有多大?
    2. 如果再进行一次同样的测试,会有多少特征影响测试的结果?
    3. 多有大的可能性,某个明显特征的影响是由于偶然?
  • 数据可视化:数据处理的各个阶段,都可以借助可视化工具的帮助。帮助我们理解数据,有助于数据的交流。

猜你喜欢

转载自blog.csdn.net/illikang/article/details/82594289