系统学习数据分析,应该从哪些方面着手

阅读本文大约需要3分钟,但很值得

摘 要

最近数据分析比较火,但它是一个综合性类的学科,有一定的门槛,不是随便呈现几张数据图表就能当一个数据分析师。学习/从事数据分析,首先我们需要明白做分析这个工作的实际意义是什么?如何做好数据分析?OF认为每一个从事数据分析行业的人员都有必要进行系统性的学习,因此今天为大家带来一篇扫盲文。

数据分析能干些什么

数据分析主要有4个作用:描述现状、探究问题发生的原因、验证影响因素的猜想、对未来的预测。我们可以分开来分析每个单独的作用,也可以组合起来从描述现状->分析原因->措施验证->预测未来,看起来和问题分析的几个步骤很像。

以房价问题为例:房价这几年的情况怎么样->2021年房价下跌的原因是什么->是否和出生率有关呢->预测下月房价会变多少数据分析的不同思路

当我们在分析一个业务问题时,不同的分析思路会得到不同的结果,很大程度上是每个人的阅历和思考决定的。这里OF以一本《精益数据分析》中的例子,让大家体会下“沉浸式”分析体验。自2021年1月1日,OF开了一家网店,因为产品比较生活化,基本上每个月都有一些新客户,那我们来看下OF经营得怎么样?

表1-1

上面这个表格,OF相信是绝大多数人都能想到的分析思路,简单来说就是每月的增长情况,这种适合其他条件不变的情况,但实际上,产品会随着时间上架、迭代、下架,每个月OF还会更新网站等宣传方式,这就导致网店发布第一月和后来加入的用户有着不同的入口和体验。相同的数据,换一种分析思路,新老客户的消费情况分别如何?

表1-2

在表1-2中,我们可以发现一些重要的变化,6月份客户的平均消费为11元,比1月份多了2倍,这是一个比较大的增长。我们可以假设是客户的体验不同,导致了新客户的平均消费高于老客户。这能说明OF的网店做得越来越好了吗?我们再换个角度,随着时间的推移,客户的平均消费情况如何?

表1-3

客户在第一个月的平均消费额最高,随着月份的推移平均消费额递减,也就是老客户的黏度并不高。结合3张表的分析,我们能够观察处于生命周期不同阶段客户的行为模式,比如客户流失率、客户消费情况等。

数据分析如何开展

数据分析的流程是一个循环:熟悉分析的业务->熟悉分析的数据->数据预处理->数据建模->模型评估->模型使用。

1、我们如何开始呢?(对业务和数据的理解)

不妨问自己一个清晰明确的业务问题,比如:

我的股票明天会是什么价格?

工厂的设备哪台会先出现故障?

定义数据分析的问题最好是选择题或判断题A/B/C/D?又或是计算题,答案是多少?而不是主观题。一个专业的数据分析师能且只能回答5个问题:

1)A/B/C/D?-》分类算法

2)这异常吗?-》异常识别算法

3)预测多少?-》回归算法

4)这与哪个近似?-》聚合算法

5)接下来需要做什么?-》强化学习算法

2、数据处理

数据分析师的工作超过一半都是在数据处理上,一般我们拿到的原始数据都有各种各样的问题,包括无效值、格式不对、缺失值、拼写错误等。

数据处理有几种普遍的情况:数据标准化、数据离散化、数据缩减、数据清洗。

3、数据建模

3.1 特征选择

数据建模前,我们需要对数据的特征进行分析和选择,数据的特征可以理解为数据中的变量。特征的选择有3种主要的方法:Filter、Wrapper、Embedded。

1)Filter:评估特性与目标属性的相关性,统计学方法包括皮尔逊系数、互信息、卡方检验,多维变量可采用Mosaic图、关联图。

2)Wrapper:使用预测模型评价特征子集,直到获得最佳特征子集,统计学方法如交叉验证。

3)Embedded:哪些特征有助于模型的准确性,统计学方法包括正则化(Ridge/Lasso回归)

3.2 建模流程

3.3 模型评估

评估模型的好坏,以分类算法为例,我们需要评估以下指标:Accuracy, Precison, Recall, F score, ROC, AUC, Log Loss;以回归算法为例,我们需要评估以下指标:MAE, MSE, RMSE, MAPE, R2。

结 语

对于一个数据分析师/数据科学家来说,系统性地学习数据分析的业务和技术方法非常重要。本文OF简单而完整地整理了学习的着手点,师傅领进门,修行在各人,希望你能对数据分析有了更进一步的认知。

如果觉得有用的话,请帮忙点赞、关注、收藏哦,感谢您的支持!

猜你喜欢

转载自blog.csdn.net/weixin_42341655/article/details/120695637
今日推荐