Deux ans et demi d'expérience en expérimentation A/B chez Taoxi, parlons de ma compréhension des « expériences scientifiques »

L'équipe de la communauté open source chinoise a réalisé sa première diffusion en direct, racontant l'histoire de la communauté open source chinoise au nom du partage.

Au cours de mes deux années et demie d'expérience en matière d'expérimentation A/B sur Taobao et Tmall, j'ai expérimenté le renforcement des capacités d'expérimentation A/B du commerce électronique en rayon Taote et le renforcement des capacités d'expérimentation A/B du contenu de commerce électronique diffusé en direct à partir de zéro à un.Le premier accorde plus d'attention à la construction de capacités expérimentales générales , tandis que le second accorde plus d'attention à la mise en œuvre de la science expérimentale . Au moment où nous embrassons le changement, il est chanceux de se concentrer sur un domaine, je vais donc faire un résumé et parler de la façon de faire des « expériences scientifiques » telles que je les comprends.

arrière-plan

Au cours de l'année Taobao Live, j'ai d'abord passé un mois seul à relooker Kunlun Mirror (une plateforme expérimentale construite sur Taote) et à le mettre en ligne, y compris l'optimisation de l'architecture d'ingénierie, l'optimisation frontale, le déploiement des ressources, la modélisation expérimentale de l'entrepôt de données, Tri de calibre professionnel, etc., rien ne peut empêcher un ingénieur full-stack enfp de prendre en charge la plupart des besoins d'expérimentation commerciale et d'expérimentation algorithmique de la diffusion en direct. C'est également à cause du chevauchement élevé entre mon identité technique et mon identité commerciale. a pu Dans ce qui suit, combiné à un grand nombre d'analyses de rentabilisation, nous parlerons de la façon de faire de la science expérimentale ~

Science des objectifs commerciaux : les objectifs de croissance doivent être à long terme, sains et quantifiables.

▐Cas 1 : « Problème Skysaw » – expérimentations opérationnelles successives

Analyse de cas

Il ressort de la conclusion expérimentale que l'expérience a considérablement augmenté le GMV par habitant , tout en réduisant considérablement l'expérience utilisateur ; de tels indicateurs de couverture ne sont pas rares dans le secteur, comme l'augmentation du nombre de transactions par habitant sans réduire le prix unitaire, et augmenter la durée de visionnage par habitant, sans réduire le montant des transactions par habitant, etc., si différentes petites équipes se voient attribuer des indicateurs de couverture (problèmes courants dans la structure organisationnelle), la grande équipe doit fixer des objectifs raisonnables et y prêter une attention particulière. aux indicateurs de couverture.

Solution actuelle

Une grande équipe gère des indicateurs de base et des indicateurs de clôture, qui nécessitent généralement la détermination des dirigeants de l'entreprise, des finances et de la BI.

Normalisez la tendance de rendu des indicateurs de base et des indicateurs de clôture, et observez les changements intuitifs provoqués par la poussée expérimentale de tous les nœuds ;

En combinaison avec le bucket inversé à long terme, la valeur incrémentale de l'expérience est vérifiée. (non montré sur la photo)

Réflexion : Comment les indicateurs OKR commerciaux doivent-ils être déterminés du point de vue de la gestion expérimentale ?

Habituellement, lorsque l'entreprise formule des OKR, l'objectif est d'améliorer l'indicateur global, tel que GMV + 10 %. Par conséquent, les rapports expérimentaux tels que GMV + 3 % suivent souvent de près l'objectif. Cependant, une fois l'expérience déployée, elle peut être effectuée. être dû à La baisse mensuelle des UV a entraîné une baisse du GMV, créant l'illusion que « les rapports expérimentaux sont bons, mais le marché n'augmente pas ». Il existe généralement deux idées pour ce type de problème :

L'OKR est défini comme un indicateur qui peut être prouvé expérimentalement (comme le GMV par habitant), et cet indicateur est utilisé pour évaluer quantitativement la valeur des expériences ;
Processus strict de gestion et de contrôle du bucket inversé, et estimation de la contribution du GMV via le bucket inversé ;

science de la conception expérimentale

Dans les expériences conventionnelles, en raison de la grande échelle d'utilisateurs, on suppose souvent que les groupes d'échantillons sélectionnés au hasard sont homogènes . Dans le même temps, le réseau d'utilisateurs du commerce électronique en rayon est relativement simple (à l'exception des expériences de partage) et le réseau d'utilisateurs est relativement simple. l'indépendance entre les échantillons n'est pas prise en compte . Cependant, les expériences avec des échantillons de petite taille sont souvent confrontées à des problèmes d'homogénéité , et les retombées comportementales des unités expérimentales sont également confrontées à des problèmes d'indépendance entre les échantillons.

Organigramme expérimental simplifié

▐Cas 2 : « Problème d'homogénéité », une expérience sur un petit échantillon est difficile à réaliser : nouvelle expérience d'ancrage

Analyse de cas

Hypothèse commerciale : Nous faisons généralement de nombreuses expériences stratégiques pour améliorer l'expérience des nouveaux présentateurs sur Taobao. En prenant comme exemple une certaine stratégie, nous supposons que cette stratégie peut améliorer efficacement l'enthousiasme des nouveaux présentateurs.

Situation réelle : le nombre d'échantillons de nouvelles ancres pouvant être testés après la sélection des entreprises est faible et les différences individuelles entre les ancres sont énormes. Par conséquent, les indicateurs entre les deux groupes d'échantillons sélectionnés au hasard fluctuent considérablement, ce qui rend impossible la réalisation d'expériences. .

Idées de solutions actuelles

Réduction de la variance : autour des indicateurs à vérifier dans l'expérience, éliminer un nombre approprié de valeurs aberrantes (remarque : en supprimer trop entraînera un effet expérimental plus faible, et en supprimer trop peu entraînera des fluctuations excessives. Empiriquement, gardez-le au moins à le 99e centile). Si l'écart est encore trop élevé Il est important et peut être transformé de manière appropriée en un indicateur à long terme . Dans ce cas, la différence entre le montant des transactions journalières de l'ancre est trop importante, nous avons donc pris les trois. Montant moyen des transactions par jour. Cependant, cela entraînera un allongement du cycle de récupération des données expérimentales et une moins bonne interprétabilité expérimentale . Il est donc nécessaire de clarifier le but de l'expérience avant le traitement du calibre.
Équilibrage des indicateurs et des dimensions : grâce au traitement hors ligne, plusieurs groupes d'échantillons avec une distribution égale des données d'indicateur et une distribution égale des dimensions sont obtenus.

Si la taille de l'échantillon n'est pas très petite et que les différences au sein des groupes ne sont pas trop évidentes , vous pouvez essayer un simple équilibrage de groupe , c'est-à-dire que la même proportion de présentateurs de chaque groupe participera à l'expérience.
Si la taille de l'échantillon est trop petite ou si les différences au sein du groupe sont importantes , le modèle peut être utilisé pour équilibrer les indicateurs et les dimensions. Dans ce cas, la méthode de randomisation adaptative covariable est utilisée , qui peut réussir de manière stable le test AA.

Test AA : s'assurer que les résultats du regroupement sont homogènes et que les conclusions expérimentales sont utilisables. Cette section sera discutée en détail ci-dessous.

pense

Les expériences sur de petits échantillons sont souvent facilement ignorées en raison de leur faible impact sur le marché au sens large et de la difficulté de leur mise en œuvre. Cependant, dans le cadre d’opérations raffinées, de telles expériences ont progressivement commencé à être prises au sérieux. Nous devons également prêter attention au « petit » de la petite taille de l'échantillon. Dans un cas réel de réduction du prix d'un produit, 500 produits ont été échantillonnés au hasard 1 000 fois, et il a été constaté que l'ensemble moyen n'était pas conforme à la distribution normale. en s'adaptant à l'échantillonnage aléatoire de 10 000 produits, la moyenne commence à montrer une distribution normale évidente, de sorte que le nombre d'échantillons pouvant être échantillonnés dans l'expérience dans ce contexte ne doit pas être inférieur à 10 000.

▐Cas 3 & 4 : « Problème d'indépendance », le débordement du comportement des utilisateurs provoqué par la relation communautaire entre les fans, et le débordement du comportement des ancres provoqué par la relation de concurrence de trafic entre les ancres. Comment mener ces expérimentations ?

Analyse de cas

Hypothèse commerciale 1 : Nous espérons explorer l'incrément de transaction apporté par différentes expressions d'équité. Les utilisateurs du groupe AB dans l'expérience voient différentes expressions d'équité ;

Situation réelle : Une fois que les utilisateurs du groupe B ont vu les droits et les intérêts, ils les partagent avec les utilisateurs du groupe A. Les utilisateurs du groupe A entrent et voient différentes expressions de droits, ce qui provoque une expérience utilisateur incohérente .

Hypothèse commerciale 2 : Nous espérons utiliser la stratégie de contrôle du trafic pour orienter le trafic vers des points d'ancrage qui respectent certaines règles, afin de connaître le montant de la transaction.

Situation réelle : les ancres du groupe expérimental qui respectent les règles obtiennent effectivement plus de trafic, mais en partant du principe que le pool de trafic total reste inchangé, le nouveau trafic des ancres du groupe expérimental entraîne une diminution du trafic des ancres des autres groupes, entraînant un débordement comportemental du groupe expérimental, résultant en L'hypothèse d'indépendance des expériences ne tient pas.

Solution actuelle

En divisant le temps en plusieurs tranches de temps et en utilisant chaque tranche de temps comme unité expérimentale indépendante, nous pouvons garantir que tous les utilisateurs de la même tranche de temps bénéficieront de la même stratégie. Cette conception évite efficacement le problème d’incohérence dans l’expérience utilisateur. De même, dans chaque tranche horaire, tout le trafic sera uniformément affecté à une politique. Cet arrangement empêche fondamentalement la concurrence dans le trafic et l'incohérence dans l'expérience utilisateur, garantissant ainsi l'équité et l'efficacité de l'expérience. Les expériences de rotation par tranche de temps nous permettent de fournir une expérience unifiée à tous les utilisateurs à tout moment, en maintenant la cohérence et en évitant les perturbations potentielles pendant l'expérience.

défaut:

由于其实验单元为时间，所以可统计样本量较少，导致实验效果评估周期长，同时日期切片容易受热点事件影响，导致实验结论偏差。
由于需保证实验单元的独立性，且日期天然存在延续性，因此要减少日期之间的影响，例如1号的策略会影响到2号凌晨的主播（因为主播的场次容易跨天），所以日期切割需要结合业务特点，灵活选择时间切片大小和切割点。

实验数据可用

▐ 案例五：「AA检验不通过」在一次下单返红包的实验中，在分析实验数据时才发现用户分布不均匀，导致实验结论严重错误，甚至得出相反结论，浪费实验期间投入的预算等资源。

案例分析

这个案例中，实验假设没有问题，问题出在分流结果严重不同质，导致的实验数据不可用，充分实验AA检验的意义：不仅 保证实验数据可用 ，更重要的是 避免因果关系误判，沉淀错误业务认知，误导业务发展方向。

当前解法

采用AA日志回溯检验，提前验证数据可用：实验平台根据进桶用户的过去7天数据，判断两组用户是否同质。结合案例，采用日志回溯可在分流数据出来后，通过回溯其过去7天数据，发现两组用户实际不同质，实验应立刻停止；

建议给实验分级管控，高成本实验必须空跑一天及以上，通过AA检验结果后再上策略。这并不影响实验啥上线效率，业务放提前一天以上创建好实验即可。新用户类的实验不适用于日志回溯。

AA日志回溯检验和AA空桶检验同属于AA检，AA检验主要包括三个方面：

1、分布均匀性检验

在这次案例中，实验组和对照组在购买力分层上严重不均，从而导致其核心指标也显著不均，无法获得实验效果。注意：

注意：分布不均匀并不一定表示实验数据不可用，本次案例是由于分布不均匀引起了核心指标不同质，导致了实验效果无法验证；

2、方差齐性检验 & 统计检验

在这次案例中，购买力的分布不均已经引起了指标不同质。从下图可以直观理解不同质现象，假设实验组和对照组本身同质，那么他们的数据分布应该都在绿色区域中，随后因为实验组施加了不同策略，导致实验组数据分布从绿色区域移动到了黄色区域。如果实验组未上策略就已经移动到了黄色区域，那么我们是无法证明策略对实验的影响。

本案例中，实验组通过日志回缩检验发现自身已经处于黄色区域，这是典型的不同质实验。

图为检验结果

数据分布形状主要由均值、方差影响，因此我们只需验证均值、方差是否一致，即可证明分组是否同质。

统计检验：通过双样本T检验或者多样本ANOVA检验，比较两个独立样本或配对样本的均值差异，具体检验方法可以根据实验样本量大小、样本均衡性情况、样本组数量决定。
方差齐性检验：通过Levene's Test或Bartlett's Test来验证实验组和对照组的数据方差是否一致。如果p值大于常用的显著性水平（如0.05），则可以认为组间方差是同质的。

▐ 案例六：「异常值问题』在一次打赏实验中，发现实验效果波动较大，排查后发现榜一大哥竟能左右实验效果

案例分析

在这个案例中，由于实验的用户一致性，榜一大哥会持续进入同一个实验组，于是大哥上线的天数该实验组效果就很好，大哥不在的天数则表现平平。这种实验如果没有找到这个异常值，按照常规经验难以进行分析和迭代。

当前解法

方差缩减：因为异常值会影响到指标的均值、方差，因此异常值除了引起汇总结果的波动外，实验的AA检验、AB检验也都会受影响。目前根据参与实验的实际样本量，采用常用手段：四分位数间距法、标准差法、Z-Score、孤立森林等方式做动态处理。

思考

A/B实验是验证因果关系的黄金标准。错误的因，只会带来错误的果。做好数据可用性验证，保证因果关系的正确发现，是沉淀实验经验，建立实验文化的必要基础。

实验分析科学

在获得可用的数据基础后，我们开始关注实验分析的问题，图示为一个简化的实验分析流程。

确定需要观察的指标&维度：

在上述案例中，可以发现漏看关键指标、关键维度都可能影响实验结论产出，且实际过程中实验往往需要下钻到关键维度，根据维度项里对实验的差异反应，寻找迭代方向。

▐ 案例七：「实验正确看数」在提单价的实验中，我们发现实验的GMV提升明显，但是观看时长显著降低

案例分析

由于提高了价格带，导致部分低购用户直接选择不看了，而这部分用户本身对GMV的贡献也不大，所以实验依然能够取得明显效果，然而低购群体里的较低年龄段用户他们贡献了较多的观看时长，因此该实验的观看时长也被显著降低。

因此得出一个业务经验：提单价的实验应避免波及（低GMV贡献但高观看时长贡献）的用户。

当前解法

针对不同业务背景，提前确定看数范围（指标+维度），避免经验不足引起的实验观察错误，通常这块由业务方+数据同学共同制定。

判断低响应实验

▐ 案例八：「低响应实验」活动入口做的AB实验，响应度太低无法分析实验数据。

案例分析

由于活动入口只开放在实验组，且实验组中参与活动的用户只有10%不到，因此我们需要评估的实验效果是对这10%用户造成的增量效果。

然而实际分析中，由于仅10%的用户参与，除了样本量过少难以评估实验结果外，更重要的是：经过一层行为过滤后（发生主动点击行为）的残存用户是否在心智上和普遍用户已经不同质了，如果不同质，则实验结果不可用。

当前解法

和小样本量实验相似，核心是获得两组可比较的样本量；与小样本量实验不同的是，低响应实验有明确的标杆人群用于对齐，因此这里通常采用分层匹配或倾向性得分等方式来获得可比较的两组样本，进行最终的实验效果分析。

▐ 定量分析

这块在第一篇文章中已经浓重介绍过，这里不再赘述。简单提及要点：没有置信度支撑的数据叫随机波动，不要当作实验结论。

思考：

实验分析是实验的最终结果，其需要相关的业务背景和专业知识，才能获得一份高价值的实验分析报告，而实验报告对组织来说就是图书馆里的书籍，一份份书籍在组织里被丰富、被传承，组成了组织的实验文化。

基于此，我们可以微调一个大模型用于实验分析，它将负责结合历史经验、当前业务背景、当前实验数据给出一个超过人工的实验报告，同时通过和它交流获取业务知识，辅助判断实验假设可行性。