统计检验
下面以产品改版为例,则:
- H0:改动有用
- H1:改动没用
Significance level of a test (α):
- 原假设为真时, 却拒绝原假设(Type I Error / 改动实际没用,但错误地认为它有用 / 取真)的概率;
- 本质上是人为规定的阈值,为了明确p值到底要多小才可以倾向于认为原假设是错误的,从而接受备择假设;即犯第一类错误的概率小于α这个阈值,就可以认为拒绝原假设
Power of a test (1 − β):
原假设为假时,却接受原假设(Type II Error / 改动实际有用,但错误地认为它没用 / 存伪)的概率
p-value:
当H0成立时,取得像样本这样或者比样本还要极端的数据的概率
设计方式
分流方式:
- 随即分流:单端 / 双端 / session
- 时空分流:地区(适用于网络效用大,无法按用户分组) / 时间片(轮转/随机/隔日反转)
时长设计:
- 不宜过长:干扰多
- 不宜过短:
- 满足最小样本量要求,增强可靠性
- 规避新奇效应:指标短期激增
- 提前透支消费:如某促销活动会刺激短期集中消费,提前透支了后续消费需求
- 考虑工作日与节假日
因果分析:
- AA差异显著情况下,考虑DID (DID前需对核心指标进行平行趋势检验)
- 渗透率低情况下,考虑matching
- 地区实验无法找到理想的对照组情况下,考虑synthetic control
Notes
样本和总体:
- 描述总体的是参数值
- 描述样本的是统计值
参数统计和非参数统计:
非参数统计问题是指统计总体分布形式未知或虽已知却不能用有限个参数刻画的统计问题
Reference