文章目录
引言
这一篇没有什么干货,主要是框架
一、数据分析的基本概念
针对特定问题,运用适当学科知识从数据中提炼信息,形成结论。
- 数理知识基础—统计学方面基本知识
- 数据获取、加工能力
- 行业知识
数据分析与数据挖掘的区别:
数据分析指对历史数据进行分析概括,侧重于利用统计学方法经过人推理演绎得出结论。数据分析的结果一般都是比较准确的统计量,具有明确含义。
数据挖掘指对用模型对未来进行预测,一般用在分类、推荐、聚类、关联法则上,侧重于由机器自己学习得出结论。数据挖掘的结果还需要进一步的判断。
1.数据分析在具体业务中的使用环境
- 业务逻辑清晰,指标明确
- 可以转换成恰当的数据/数学/统计问题
- 有足够的数据支撑
- 熟悉模型、分析方法的局限性
- 从场景中来,到场景中去
2.数据分析的目的
基于假设,从数据中挖掘规律,验证猜想,进行预测。
3.数据获取的途径
- 公开信息
- 外部数据库—万德(Wind)
- 自有数据库
- 调查问卷
- 客户数据
4.数据清洗
数据清洗一般需要满足如下要求:
- 数据的可读性—需要加载到电脑显存中
- 数据的完整性
- 数据的唯一性
- 数据的权威性
- 数据的合法性
5.数据描述
- 类别型变量
取值的种类、每种取值的分布(如果测试数据较模型的训练数据中某个特征的取值分布差别大的话,模型性能会变差)
类别型变量不能直接放到模型中使用,一般需要进行one_hot编码 - 数值型变量
极值和分位点、均值和标准差、变量间相关性 - 通用
缺失度、重复性
二、数据可视化
数据可视化,顾名思义,以视觉的方式展示数据的手段
专业工具
- Tableau
- Plotly
通用工具
- EXCEL
- R
- Python—matplotlib、seaborn
三、数据分析常用模型
这部分模型基本都推导过
1.线性回归
2.树模型
3.支持向量机
4.神经网络
5.聚类
6.主成分分析
主要常见的就是PCA
7.因子分析
之前我用SPSS做过因子分析,这个操作很简单
8.半监督学习