桃渓でのA/B実験経験2年半、私の「科学実験」についての理解を話しましょう





タオバオと天猫での2年半のA/B実験経験の中で、棚電子商取引TaoteのA/B実験能力構築コンテンツ電子商取引ライブブロードキャストのA/B実験能力構築を経験しました。前者は一般的な実験能力の構築に重点を置き、後者は実験科学の実装に重点を置きます。変化を迎えている今、一つの分野に集中できるのは幸運なので、私が理解している「科学実験」のやり方についてまとめてお話します。



背景

Taobao Live の 1 年間、私は最初に 1 か月間を一人で Kunlun Mirror (Taote 上に構築された実験的プラットフォーム) をリスキンしてオンラインに公開しました。これには、エンジニアリング アーキテクチャの最適化、フロントエンドの最適化、リソースの展開、実験的なデータ ウェアハウスのモデリング、ビジネス キャリバー ソートなど、enfp フルスタック エンジニアがライブ ブロードキャストのビジネス実験ニーズとアルゴリズム実験ニーズのほとんどを引き受けることを妨げるものは何もありません。これは、私の技術的アイデンティティとビジネス アイデンティティが高度に重複しているためでもあります。以下では、多数のビジネス事例と組み合わせて、実験科学を行う方法について話します


ビジネス目標の科学: 成長目標は、長期的で健全で定量化可能なものである必要があります。


▐事例1:「スカイソー問題」~相次ぐ運用実験~  



  • 事例分析


実験の結果から、この実験により 1 人当たりの GMV が大幅に増加した一方、ユーザー エクスペリエンスが大幅に低下したことがわかります。このようなヘッジ指標は、単価を下げることなく 1 人当たりの取引数を増やすなど、ビジネスでは珍しくありません。一人当たりの閲覧時間を増やすなど、一人当たりの取引金額などは減らさないようにしますが、異なる小規模チームにたまたまヘッジ指標が割り当てられている場合(組織構造における一般的な問題)、大規模チームは合理的に目標を設定し、特別な注意を払う必要があります。ヘッジインジケーターに。


  • 現在のソリューション

  1. 大規模なチームはコア指標とフェンス指標を維持しますが、これらには通常、ビジネス リーダー、財務、BI の決定が必要です。

  1. コアインジケーターとフェンスインジケーターのレンダリングの傾向を正規化し、すべてのノードの実験的なプッシュによって引き起こされる直感的な変化を観察します。


  1. 長期リバースバケットと組み合わせることで、実験の増分値が検証されます。 (写真には写っていません)

  • 考える:実験的管理の観点からビジネスOKR指標はどのように決定されるべきですか?

通常、企業が OKR を策定するときの目標は、GMV + 10% などの全体的な指標を向上させることです。そのため、GMV + 3% などの実験レポートは、目標に近い値​​になることがよくあります。 UV の前月比の低下が GMV の低下につながり、「実験レポートは良好だが、市場は上昇していない」という錯覚を生み出したことが原因であると考えられます。この種の問題には通常、次の 2 つのアイデアがあります。
  1. OKRは実験で証明できる指標(一人当たりGMVなど)として設定されており、この指標は実験の価値を定量的に評価するために使用されます。
  2. 厳格なリバース バケットの管理と制御プロセス、およびリバース バケットによる GMV 寄与の推定。

実験計画科学

従来の実験では、ユーザーの規模が大きいため、ランダムに選択された サンプルグループは均一であると想定されることがよくありましたが、同時に、棚電子商取引のユーザーネットワークは比較的単純であり(共有 実験を除く)、サンプル間の独立性 は考慮されません 。ただし、サンプルサイズが小さい実験では均一性の問題に直面することが多く実験単位からの行動の波及もサンプル間の独立性の問題に直面します。

簡易実験フローチャート


▐ケース2:「均一性問題」、サンプルサイズが小さい実験は難しい:新しいアンカー実験  


  • 事例分析


ビジネス仮説: 私たちは通常、淘宝網での新しいアンカーのエクスペリエンスを向上させるために多くの戦略的な実験を行っています。ある戦略を例に挙げると、この戦略は新しいアンカーの熱意を効果的に向上させることができると想定しています。


実態:事業仕分け後に試験できる新規アンカーのサンプル数が少なく、アンカー間の個体差が大きいため、ランダムに抽出した2つのサンプル群間の指標が大きく変動し、実験が不可能である。 。


  • 現在のソリューションのアイデア


  1. 分散の削減: 実験で検証される指標の周囲で、 適切な量の外れ値を削除します (注: 削除しすぎると実験効果が小さくなり、削除しすぎると過度の変動が生じます。経験的には、少なくとも次の値に保ちます)分散がまだ高すぎる場合は、 長期指標に適切に処理 できます 。この場合、アンカーの 1 日の取引額の差が大きすぎるため、3 つを採用しました。 -日の平均取引額。ただし、 実験データの回復サイクルが長くなり 実験の解釈性が悪化する可能性がある ため、キャリバー処理の前に実験の目的を明確にする必要があります。
  2. インジケーターと次元のバランス : オフライン処理を通じて、等しいインジケーター データ分布と等しい次元分布を持つサンプルの複数のグループが取得されます。
    1. サンプルサイズがそれほど小さくなく、グループ内の違いがあまり明らかでない 場合は、単純なグループバランス を試すことができます 。つまり、各グループから同じ割合のアンカーが実験に参加します。
    2. サンプルサイズが小さすぎる場合 、またはグループ内の差異が大きい 場合、モデルを使用して指標と次元のバランスをとることができます。この場合、 AA テストに安定して合格できる共変量適応ランダム化手法が使用されます。
  1. AA テスト: グループ化の結果が均一であること、および実験の結論が使用可能であることを確認します。このセクションについては後で詳しく説明します。


  • 考える


サンプルサイズが小さい実験は、市場全体への影響が小さく、実施が難しいため、簡単に無視されることがよくありますが、洗練された運用の下では、そのような実験は徐々に真剣に受け止められ始めています。また、サンプルサイズが小さいという「小さい」点にも注意する必要があります。実際の製品の価格引き下げのケースでは、500 個の製品がランダムに 1,000 回サンプリングされ、平均集合が正規分布に従わないことがわかりました。 10,000 個の製品をランダムにサンプリングするように調整すると、平均値は明らかな正規分布を示し始めるため、この状況での実験でサンプリングできるサンプル数は 10,000 未満であってはなりません。


▐ケース3 と 4: 「独立性の問題」、ファン間のコミュニティ関係によって引き起こされるユーザー行動のオーバーフロー、およびアンカー間のトラフィック競合関係によって引き起こされるアンカー行動のオーバーフロー これらの実験はどのように行うか?  


  • 事例分析

ビジネス仮説 1: 実験では、グループ AB のユーザーが異なる資本の表現によってもたらされるトランザクションの増加を調査したいと考えています。
実際の状況 : グループ B のユーザーが権利と利益を確認した後、グループ A のユーザーと共有します。グループ A のユーザーが入ってくると、異なる権利表現が表示され、 一貫性のないユーザー エクスペリエンス が発生します。
ビジネス仮説 2: トラフィック制御戦略を使用して、特定のルールを満たすアンカーにトラフィックを傾け、トランザクション量を体験したいと考えています。
実際の状況: ルールを満たす実験グループ内のアンカーはより多くのトラフィックを獲得しますが、総トラフィック プールが変わらないと仮定すると、実験グループ内のアンカーの新しいトラフィックは、他のアンカーのトラフィックの減少につながります。実験グループの行動がオーバーフローし、実験の独立性の仮定が成り立ちません。

  • 現在のソリューション

時間を複数のタイム スライスに分割し、各タイム スライスを独立した実験単位として使用することで、同じタイム スライス内のすべてのユーザーが同じ戦略を確実に体験できるようになります。この設計により、ユーザー エクスペリエンスの不一致の問題が効果的に回避されます。同様に、各タイム スライスで、すべてのトラフィックがポリシーに均一に割り当てられます。この配置により、トラフィックの競合やユーザー エクスペリエンスの不一致が根本的に防止され、実験の公平性と有効性が確保されます。タイムスライスローテーション実験により、いつでもすべてのユーザーに統一されたエクスペリエンスを提供することができ、一貫性を維持し、実験中の潜在的な中断を回避できます。



欠点:

  1. 由于其实验单元为时间,所以可统计样本量较少,导致实验效果评估周期长,同时日期切片容易受热点事件影响,导致实验结论偏差。

  2. 由于需保证实验单元的独立性,且日期天然存在延续性,因此要减少日期之间的影响,例如1号的策略会影响到2号凌晨的主播(因为主播的场次容易跨天),所以日期切割需要结合业务特点,灵活选择时间切片大小和切割点。


实验数据可用


  案例五:「AA检验不通过」在一次下单返红包的实验中,在分析实验数据时才发现用户分布不均匀,导致实验结论严重错误,甚至得出相反结论,浪费实验期间投入的预算等资源。


  • 案例分析

这个案例中,实验假设没有问题,问题出在分流结果严重不同质,导致的实验数据不可用,充分实验AA检验的意义:不仅 保证实验数据可用 ,更重要的是 避免因果关系误判,沉淀错误业务认知,误导业务发展方向。

  • 当前解法

采用AA日志回溯检验,提前验证数据可用:实验平台根据进桶用户的过去7天数据,判断两组用户是否同质。结合案例,采用日志回溯可在分流数据出来后,通过回溯其过去7天数据,发现两组用户实际不同质,实验应立刻停止;
建议给实验分级管控,高成本实验必须空跑一天及以上,通过AA检验结果后再上策略。这并不影响实验啥上线效率,业务放提前一天以上创建好实验即可。 新用户类的实验不适用于日志回溯。

AA日志回溯检验和AA空桶检验同属于AA检,AA检验主要包括三个方面:

1、分布均匀性检验

在这次案例中,实验组和对照组在购买力分层上严重不均,从而导致其核心指标也显著不均,无法获得实验效果。注意:

注意:分布不均匀并不一定表示实验数据不可用,本次案例是由于分布不均匀引起了核心指标不同质,导致了实验效果无法验证;


2、方差齐性检验 & 统计检验

在这次案例中,购买力的分布不均已经引起了指标不同质。从下图可以直观理解不同质现象,假设实验组和对照组本身同质,那么他们的数据分布应该都在绿色区域中,随后因为实验组施加了不同策略,导致实验组数据分布从绿色区域移动到了黄色区域。如果实验组未上策略就已经移动到了黄色区域,那么我们是无法证明策略对实验的影响。

本案例中,实验组通过日志回缩检验发现自身已经处于黄色区域,这是典型的不同质实验。

图为检验结果


数据分布形状主要由均值、方差影响,因此我们只需验证均值、方差是否一致,即可证明分组是否同质。
  1. 统计检验:通过双样本T检验或者多样本ANOVA检验,比较两个独立样本或配对样本的均值差异,具体检验方法可以根据实验样本量大小、样本均衡性情况、样本组数量决定。
  2. 方差齐性检验:通过Levene's Test或Bartlett's Test来验证实验组和对照组的数据方差是否一致。如果p值大于常用的显著性水平(如0.05),则可以认为组间方差是同质的。

  案例六:「异常值问题』在一次打赏实验中,发现实验效果波动较大,排查后发现榜一大哥竟能左右实验效果


  • 案例分析


在这个案例中,由于实验的用户一致性,榜一大哥会持续进入同一个实验组,于是大哥上线的天数该实验组效果就很好,大哥不在的天数则表现平平。这种实验如果没有找到这个异常值,按照常规经验难以进行分析和迭代。


  • 当前解法


方差缩减:因为异常值会影响到指标的均值、方差,因此异常值除了引起汇总结果的波动外,实验的AA检验、AB检验也都会受影响。目前根据参与实验的实际样本量,采用常用手段:四分位数间距法、标准差法、Z-Score、孤立森林等方式做动态处理。


  • 思考

A/B实验是验证因果关系的黄金标准。错误的因,只会带来错误的果。做好数据可用性验证,保证因果关系的正确发现,是沉淀实验经验,建立实验文化的必要基础。


实验分析科学


在获得可用的数据基础后,我们开始关注实验分析的问题,图示为一个简化的实验分析流程。


确定需要观察的指标&维度:

在上述案例中,可以发现漏看关键指标、关键维度都可能影响实验结论产出,且实际过程中实验往往需要下钻到关键维度,根据维度项里对实验的差异反应,寻找迭代方向。


  案例七:「实验正确看数」在提单价的实验中,我们发现实验的GMV提升明显,但是观看时长显著降低


  • 案例分析


由于提高了价格带,导致部分低购用户直接选择不看了,而这部分用户本身对GMV的贡献也不大,所以实验依然能够取得明显效果,然而低购群体里的较低年龄段用户他们贡献了较多的观看时长,因此该实验的观看时长也被显著降低。

因此得出一个业务经验:提单价的实验应避免波及(低GMV贡献但高观看时长贡献)的用户。


  • 当前解法

针对不同业务背景,提前确定看数范围(指标+维度),避免经验不足引起的实验观察错误,通常这块由业务方+数据同学共同制定。


判断低响应实验


  案例八:「低响应实验」活动入口做的AB实验,响应度太低无法分析实验数据。



  • 案例分析

由于活动入口只开放在实验组,且实验组中参与活动的用户只有10%不到,因此我们需要评估的实验效果是对这10%用户造成的增量效果。

然而实际分析中,由于仅10%的用户参与,除了样本量过少难以评估实验结果外,更重要的是:经过一层行为过滤后(发生主动点击行为)的残存用户是否在心智上和普遍用户已经不同质了,如果不同质,则实验结果不可用。

  • 当前解法

和小样本量实验相似,核心是获得两组可比较的样本量;与小样本量实验不同的是,低响应实验有明确的标杆人群用于对齐,因此这里通常采用分层匹配或倾向性得分等方式来获得可比较的两组样本,进行最终的实验效果分析。


  定量分析


这块在第一篇文章中已经浓重介绍过,这里不再赘述。简单提及要点:没有置信度支撑的数据叫随机波动,不要当作实验结论



思考:
实验分析是实验的最终结果,其需要相关的业务背景和专业知识,才能获得一份高价值的实验分析报告,而实验报告对组织来说就是图书馆里的书籍,一份份书籍在组织里被丰富、被传承,组成了组织的实验文化。
基于此,我们可以微调一个大模型用于实验分析,它将负责结合历史经验、当前业务背景、当前实验数据给出一个超过人工的实验报告,同时通过和它交流获取业务知识,辅助判断实验假设可行性。

相关资料

实验推全最终会回应到业务目标达成,我在这块的推动经验较为薄弱,如何围绕业务目标建立可量化的推全标准,这需要多方的信任基础和强大的组织推力,以后补充。

感谢领导信任,让我有机会在直播业务中完善我对A/B实验的理解;感谢大佬的大力支持,感谢所有合作的产品老师、运营老师、算法老师、工程老师、数据研发老师、数据科学老师的大力支持。


团队介绍


技术线内容技术团队,是承接淘天内容电商最核心的技术力量,团队拥有非常全面的内容技术领域布局,不仅覆盖音视频编解码、流媒体传输、低延时直播等多媒体技术,也包含计算机视觉、自然语言处理、多模态內容理解、AIGC等人工智能领域。
在内容技术领域之外,团队拥有强大的算法、前端、客户端、服务端、测试开发、数据开发、数据科学团队、负责面向亿级消费者提供服务的淘宝直播、淘宝逛逛、点淘等核心业务场域;
面向千万级商家、品牌、机构、达人的内容创作工具、内容运营平台内容商业化解决方案;以及面向淘天集团电商板块各业务线的内容管理、内容总线等基石平台。
简历投递邮箱:[email protected]




本文分享自微信公众号 - 大淘宝技术(AlibabaMTT)。
如有侵权,请联系 [email protected] 删除。
本文参与“OSC源创计划”,欢迎正在阅读的你也加入,一起分享。

90后程序员开发视频搬运软件、不到一年获利超 700 万,结局很刑! 高中生自创开源编程语言作为成人礼——网友锐评:依托答辩 RustDesk 由于诈骗猖獗,暂停国内服务 淘宝 (taobao.com) 重启网页版优化工作 Java 17 是最常用的 Java LTS 版本 Windows 10 市场份额达 70%,Windows 11 持续下滑 开源日报 | 谷歌扶持鸿蒙上位;开源Rabbit R1;Docker加持的安卓手机;微软的焦虑和野心;海尔电器把开放平台关了 Apple 发布 M4 芯片 谷歌删除 Android 通用内核 (ACK) 对 RISC-V 架构的支持 云风从阿里离职,未来计划制作 Windows 平台的独立游戏
{{o.name}}
{{m.name}}

おすすめ

転載: my.oschina.net/u/4662964/blog/11104133
おすすめ