分析工具:
(1)SQL
select from
where
group by having
order by
limit
运算符(算数运算符+-*/、比较运算符><=、逻辑运算符not/and/or)
聚合函数(count、sum、avg、max、min)
函数(算术函数、字符串函数、日期函数)
子查询(标量子查询、关联子查询)
谓词(like、between、is null、in)
case when
集合运算(表的加减法、表联结)
(2)python
列表/元祖/字典/集合
if/while/for
函数/高阶函数
迭代器/生成器
类/继承/多态
numpy
pands
matplotlib/seaborn
scikit-learn
搜索(二分)
排序(希尔、归并、快排)
递归(斐波拉契、回文)
最优化(背包、动态规划、贪心)
随机游走
二叉树
(3)Linux
Bash shell
理论基础:
(1)统计概率
条件概率/贝叶斯/极大似然估计/最大后验估计
概率分布(0-1分布/伯努利分布、二项分布、泊松分布、正态分布/高斯分布、指数分布、β分布、γ分布)
中心极限定理/大数定律
假设检验(抽样、区间估计、置信区间、P值)
方差分析/显著性差异(T检验、F检验)
蒙特卡罗
时间序列
(2)机器学习
代价函数(MSE、交叉熵损失)
梯度下降(随机梯度、小批量梯度)
极大似然估计
交叉验证(gridsearchCV)
模型评估(R2、RMSE、accuracy、Precision、AUC、ROC、F1 score)
模型融合(voting、averaging、bagging、boosting、stacking)
过拟合
正则化
预处理(标准化、归一化)
异常值检测
特征工程(embedding)
线性回归(lasso、ridge)
logistic回归(熵、基尼系数)
感知机/SVM(凸优化、神经网络)
决策树/随机森林(ID3、C4.5、CART)
adaboost/gbdt/xgboost/lightgbm
朴素贝叶斯
KNN(kd树)
k-means
PCA/SVD
推荐系统(关联分析Apriori、协同过滤)
(3)大数据
hadoop原理
mapreduce原理
业务逻辑:
(1)方法论
金字塔/逻辑树
5W2H(whay、what、who、when、where、how、how much)
pest行业分析(政治、经济、社会、技术)
4P营销理论(产品、价格、渠道、促销)
用户行为理论(认知/访问、熟悉/浏览搜索、试用/注册、使用/登录订购、忠诚/黏性流失)
生命周期理论
(2)分析方法
对比分析
漏斗分析
A/B test
埋点分析
来源分析
(3)指标体系
人(用户画像)
商品()
订单(购买行为)
时间(生命周期)