数分面试题-业务题2

目录标题

1、相关性分析？相关和因果的区别是什么？

相关性的前提是两个变量之间是相互独立的，业务上来说，每个指标之间没有影响，相关系数：0.5以下相关性较弱，0.5-0.8中度相关，大于0.8较强相关
如果A和B相关，会有以下推论：
A导致B：充分条件
B导致A：必要条件
C导致A和B：A和B同源
A和B如果有因果：充分且必要条件

相关与因果的区别：
相关：两个变量或多个变量之间的相互影响程度，核心点：变量与变量之间互为相关，没有先后顺序
因果：前一个事件对后一个事件的作用的关系及强弱，核心点：有严格的先后顺序
yY=0.5X y和 x是相关还因果？是相关还因果？是相关还因果？
y=0.5X+0.5z y和 x是相关还因果?
答案：都是相关
因果的前提是：有一个东西是先发生的

2、聚类？业务应用场景？常见算法？

聚类：无监督机器学习算法。将相似的对象，将对象的特征进行抽象，通过算法将特征相似的对象化为一类
应用场景：

个性化推荐电商，相似用户行为相似，会分到某个类，如用户分层
用户画像：基于用户的购买偏好、消费能力进行用户画像
常见算法：
Kmeans聚类
DBSCAN聚类

3、分类？业务应用场景？常见算法？

分类：学习已有分类样本的特征，对新数据进行划分，是一种有监督的机器学习算法
应用场景：

互联网金融用户信用等级分类
垃圾邮件分类

常见算法：
逻辑回归、SVM、贝叶斯、决策树、KNN、XGboost

4、回归？业务应用场景？常见算法？

回归：两个或多个变量之间是否相关，相关强度，建立模型定量评估
本质：找到一条之间最合适的平均线，让线的附件的点分布均匀

应用场景：

运营推广中，是不是花钱越多，买的流量越大，品类越丰富，用户活跃度越高
智慧城市的交通，预测交通拥塞程度

常见算法：线性回归、lasso回归、树回归

5、时间序列预测的原理，应用场景？

当自变量是时间时，且数据在时间上呈现出一定的规律，那么这种情况一般都可以使用时间序列预测接下来一段时间的数据走势

数据整体变化的趋势（理解为表征趋势的直线）、季节性（按照一定的周期重复出现的模式）和随机性（在零附件毫无规律的白噪声）组成。时间序列就是按照这三个部分分别拆解。

应用场景：年度的KPI预测，产品的活跃用户数据趋势

6、时间序列预测需要注意的点？和回归的区别

注意：

时间间隔是固定的
越近的数据对预测影响越大
预测是有季节性的，不一定春夏秋冬但可能是以一定周期重复出现的都可以称为季节性

区别：

回归是自变量对因变量的趋势，用来表示自变量与因变量之间的变量关系
时间序列预测的自变量可以是任何数据
回归不能做季节性的预测

7、不用任何公开参考资料，估算今年新生儿的出生数量

采用两层模型（人群画像×人群转化）：新生儿出生数 = ∑各年龄层育龄女性数量×各年龄层生育比率-------费米估计

如果有前几年的新生儿出生数量数据，建立时间序列模型进行预测

8、如果次日用户留存率下降了5%，怎么分析？

“两层模型”分析：对用户进行细分，包括新老、渠道、活动、画像等多个维度，然后分别计算每个维度下不同用户的次日留存率。通过这种方式定位到导致留存率下降的用户群体

对于目标群体次日留存下降问题，具体问题具体分析，具体分析可以采用“内部-外部”考虑

内部因素：获客（渠道质量低、活动获取非目标用户）、满足需求（新功能改动主要是竞争环境，如对竞争对手的活动）、提活手段（签到等提活手段没达成目标，产品自然使用周期低）
外部因素采用PEST分析（宏观经济环境分析）。政治（政策影响）、经济（短期内主要是竞争环境）、社会（舆论压力、用户生活方式变化，消费心理变化，价值观变化等）、技术（创新解决方案、分销渠道变化等）

9、卖玉米如何提高收益？价格提高多少才能获得最大收益？

收益 = 单价*销售量
策略：提高单位溢价或者提高销售规模

提高单位溢价方法：

品牌，打造长期溢价，缺陷是需要大量前期营销投入
加工商品占据价值链更多环境如熟玉米、玉米汁、玉米蛋白粉
价格歧视，根据价格敏感度对不同用户采用不同的定价。销售量 = 流量×转化率

收益 = 单价×流量×转化率，短期内能规模化采用的应该是进行价格歧视，如不同时间、不同商圈的玉米价格不同，采取高定价，然后对价格敏感的用户发放优惠卷

10、类比头条的收益，头条放多少条广告可以获得最大收益

收益 = 出价×流量×点击率×转化率
广告数据增加，会降低匹配程度，从而降低点击率，最大收益即找到这个乘积的最大值，是一个有约束条件的最优化问题。

11、APP激活量的来源渠道很多，怎样对渠道变化大的进行预警？

如果渠道使用时间较长，认为渠道的app激活量满足一个分布，可能是正态分布。求平均值与标准差，对于今日数值与均值差的大于1/3,2/3个标准差的渠道进行预警
对于短期的新渠道，直接与均值进行对比

12、用户刚进入app时会选择属性，怎么在保证有完整用户信息的同时让用户流失减少？

采用技术接受模型TAM来分析，影响用户接受属性这件事的主要因素有：感知的有用性，感知的易用性

感知的有用性：反映一个人以为使用一个具体的系统对他工作业绩提高程度
感知的接受性：反映一个人以为容易使用一个具体的系统的程度

1、感知的有用性：

文案告知用户选择属性能为用户带来好处

2、感知的易用性：

关联用户的第三方账号（如微博），可以冷启动阶段匹配用户更有可能选择的属性，推荐用户选择
交互性做好

3、使用者态度

运行用户跳过，后续再提醒用户填写
告知用户填写的信息会受到很好的保护

4、行为意图：用户使用APP的意图，难以控制
5、外部变量：操作时间、操作环境等，难以控制

13、如何识别作弊用户

分类问题可以用机器学习的方法去解决，可以考虑的特征

渠道特征：渠道、渠道次日留存率、渠道流量、及各种比率特征
环境特征：设备（一般作假用户的工作坊以低端机为主）、系统（刷量工作坊一般系统更新慢）、WiFi使用情况、使用时间、IP是否进过黑名单
用户行为特征：访问时长、访问页面、使用间隔、次日留存、活跃时间
异常特征：设备号异常、IP异常、行为异常、

14、怎么做恶意刷单检查？

分类问题用机器学习方法建模解决，可参考特征：

商家特征：商家历史销量、信用、产品类别、发货快递公司等
用户行为特征：用户信用、下单量、转化率、下单路径、浏览店铺行为、支付账号
环境特征：地区、ip、手机型号等
异常检测：ip地址经常变动
评论文本检测：刷单的评论文本可能套路较为一致，计算与已标注评论文本的相似度作为特征
图片相似度检测