Erreurs courantes en ab tests

Erreurs courantes
A/B Testing
Antoine Tissier – @antoine_tissier

Antoine Tissier
Data Analyst expérimentation pour
Decathlon depuis Mars 2020
Anciennement Digital Analyst pour
l’agence altima° pendant 6 ans (L’Oréal
Luxe, Groupe Seb, Petit Bateau, Engie…)

Antoine Tissier
Intéressé par des retours (surtout si
négatifs :-) )
Aimerait organiser des événements en
France dédié à l’expérimentation
digitale en 2022.

L’opinion des personnes
expérimentées
est dévalorisée
par notre secteur

« Without data, you’re
just another person
with an opinion. »
W. Edwards Deming

Data Scientist
métier le plus sexy
du 21ème
siècle

Un grand pouvoir implique
de grandes
responsabilités

Et les sources
d’erreurs
sont nombreuses

Ne pas calculer l’audience
nécessaire

Pas toujours si simple :
Si vous tester la visibilité d’un élément qui n’est
pas au niveau de la ligne de flottaison il va
falloir obtenir une estimation de l’audience
exposée et de leur performance associée.
Ne pas calculer l’audience nécessaire

Ne pas suivre / trop suivre
l’évolution des
performances avant la fin
du test

Les méthodes de calcul fréquentistes sont
adaptées uniquement à une taille d’échantillon
fixe. Vous n’êtes pas censé suivre
quotidiennement la significativité => faux
positifs / négatifs
Significativité n’est pas un critère d’arrêt

Il serait suicidaire de laisser tourner un test A/B
plusieurs semaines sur un site sans étudier les
performances.
Pour ma part : si les performances sont faibles j’étudie
Session Recording / Heatmaps ; je refais de la recette.
+ Méthode séquentielle alpha spending comme critère
d’arrêt
On ne peut pas non plus rien suivre

Analyser l’évolution du
Revenu Par utilisateur
avec du trafic à peine
suffisant pour
analyser le taux de
conversion

Il faut plus de temps pour suivre une métrique
continue. Cela dépend notamment de la
distribution de cette valeur (variance…).
Si vous vous basez sur le taux de conversion,
vous n’aurez probablement pas assez de trafic
pour le chiffre d’affaire ou le panier moyen.
Taille d’audience est associée à une métrique

Suivre de nombreuses
variantes
sans effectuer la
moindre correction
sur la significativité

Avec une seuil de valeur P à 5%, on accepte qu’il
n’y ait qu’une chance sur 20 d’obtenir un
résultat aussi extrême.
En multipliant, sans correction les variantes,
vous augmentez le risque d’avoir un mauvais
enseignement.
Différentes variantes sans correction

Confondre non validation
d’une hypothèse
avec non validation
d’une réalisation

En cas d’échec, est-ce parce que votre
hypothèse était mauvaise ou parce que la
concrétisation de l’hypothèse était mauvaise ?
Non validation d’une hypothèse

Ne pas prêter attention
à l’asymétrie de la
distribution des
variables continues

En théorie les métriques continues suivent une
loi normale (thèorème central limite).
Dans la réalité, il faut contrôler le coefficient
d’asymétrie et capper si nécessaire avec la
valeur maximale.
Asymétrie

Selon Ronny Kohavi, (AirBnb, Microsoft…) on peut faire de
l’optimisation sur les métriques continues mais on doit suivre
cette règle:
la taille d’échantillon pour chaque variante doit être supérieure à
355*s2
Où s est le coefficient d’asymétrie de la distribution de la
métrique
(peut facilement être calculé avec Python et Big Query)
Asymétrie

Ne pas suivre la répartition
du trafic

Le calcul SRM classique est adapté
pour vérifier la bonne répartition du
trafic à la fin d’une expérimentation.
SSRM est plus adapté pour détecter
dès le départ une anomalie dans la
répartition du trafic.
SRM vs SSRM

Considérer un test gagnant
si une métrique
inattendue est
augmentée
sans la moindre
explication

Ne prêter attention qu’aux
moyennes

Sur la partie statistique
Livres que je recommande

Par des leaders d'expérimentations qui
travaillent chez Microsoft, Linkedin, Google.
Livres que je recommande

Merci
Antoine Tissier
Suivez-moi sur :
@antoine_tissier
antoine@dinatam.com

Erreurs courantes en ab tests

Recommandé

Recommandé

Contenu connexe

Similaire à Erreurs courantes en ab tests

Similaire à Erreurs courantes en ab tests (20)

Erreurs courantes en ab tests