Qu’est-ce que la Statistique?
Pourquoi est-elle si importante dans le monde du Web?
Découvrez les bases de la Statistique pour les Web Analystes partagées au Measure Camp France 2020.
1. STATISTICS FOR WEB ANALYTICS
28NOVEMBER2020
BETTER&STRONGER
MEASURECAMP FRANCE 2020
2. @Sara Ougribe (LinkedIn - Twitter)
Data Analyst chez Better&Stronger
Master Mathématiques appliquées et
Statistique
3. Qu’est-ce que la Statistique?
Quelle est la différence entre Statistique et Analytics?
Pourquoi est-elle si importante dans le monde du Web?
00
Quelques Questions
4. Qu’est-ce que la Statistique?
Quelle est la différence entre Statistique et Analytics?
Pourquoi elle est si importante dans le monde du Web?
“Statistics is the science of making decisions under uncertainty.”
- Savage, The Foundation of Statistics, 1954
00
Quelques Questions
5. Qu’est-ce que la Statistique?
Quelle est la différence entre Statistique et Analytics?
Pourquoi est-elle si importante dans le monde du Web?
La Statistique nous permet d’interpréter les données avec précision et prendre
des mesures qui peuvent améliorer la rentabilité.
00
Quelques Questions
6. Qu’est-ce que la Statistique?
Quelle est la différence entre Statistique et Analytics?
Pourquoi elle est si importante dans le monde du Web?
L’ Analytics réunit les techniques d’exploration des données.
La Statistique se concentre davantage sur l’inférence de ce qui est au-delà.
00
Quelques Questions
8. Q1. Si le taux de conversion de la Campagne A saute de 10% (mai) à 12% (juin), est ce
qu’il y eu une augmentation de 2% ou 20% ?
01
Notions de Maths
9. Q1. Si le taux de conversion de la Campagne A saute de 10% (mai) à 12%(juin), est ce
qu’il y eu une augmentation de 2% ou 20% ?
01
Notions de Maths
PC = [(12 - 10) / 10] * 100 = 20%
Réponse: Pourcentage de changement
PC = [(Nouvelle valeur - Ancienne valeur) Ancienne valeur] 100
10. Réponse: Pourcentage de différence
PD = [ |Différence entre les deux valeurs| Moyenne des valeurs] 100
CR Mai CR Juin PC
Campagne A 10% 12% 20%
Campagne B 15% 13% 13%
Q2. Quelle est la différence entre les taux de conversion des deux campagnes ?
01
Notions de Maths
PD = [|15 - 10| / 12.5] * 100 = 40%
11. Réponse: Pourcentage d’erreur
PE = [ |Valeur estimée - Valeur exacte| Valeur exacte] 100
Conversions Conversions Erreur
estimées réelles
Campagne A 200 150
Q3. Quelle est l’erreur commise sur notre estimation ?
01
Notions de Maths
?
PE = [|200 - 150| / 150] * 100 = 33.33%
12. Résumé numériqueReprésentation graphiquePrésentation
Ensemble des méthodes dont l’objet principal est la description des données
02
Statistique descriptive
Tableau
statistique
● Diagramme en
colonnes
● Diagramme en
secteurs
● Diagramme en
bâtons
● Histogramme
● Paramètres de
position
● Paramètres de
dispersion
13. Terminologie
POPULATION: ensemble des éléments concernés par une étude
statistique.
ECHANTILLON: sous-ensemble de la population utilisé dans
l’analyse à la place de la population toute entière.
02
Statistique descriptive
Il est très importante de bien choisir l’échantillon afin qu’il soit représentatif de la
population
Ex. Visites Transactions CR
Campagne A 15900 2500 15.72%
Campagne B 100 45 45%
Campagne C 22356 2750 12.30%
14. Paramètres de position
MOYENNE : moyenne arithmétique des observations
02
Statistique descriptive
Temps passé sur la page
Page 1 00:01:45
Page 2 00:02:50
Page 3 00:01:05
Page 4 00:11:20
AVG 00:04:15
Ex.
La moyenne est sensible aux valeurs extrêmes (outliers)!
15. Temps passé sur la page Liste ordonnée Médiane
Page 1 00:01:45 00:01:05
Page 2 00:02:50 00:01:45
Page 3 00:01:05 00:02:50
Page 4 00:11:20 00:11:20
Paramètres de position
MÉDIANE : valeur centrale d’une liste ordonnée
02
Statistique descriptive
Ex.
00:02:17
16. Impressions
Annonce 1 1050
Annonce 2 2065
Annonce 3 12000
Annonce 4 899
Moyenne 4003
Médiane 1557
Ecart-type 5356
Temps passé sur la page
Page 1 00:01:45
Page 2 00:02:50
Page 3 00:01:05
Page 4 00:11:20
Moyenne 00:04:15
Médiane 00:02:17
Ecart-type 00:04:46
Paramètres de dispersion
VARIANCE - ÉCART-TYPE : indiquent la variabilité des
éléments autour d’un paramètre de position
02
Statistique descriptive
Ex.
17. Paramètres de dispersion
QUARTILES : divisent l’échantillon en quatre sous-ensemble de même effectif
02
Statistique descriptive
Q1 (premier quartile) : un quart des observations sont inférieures ou égales
Q2 : coïncide avec la médiane
Q3 (troisième quartile) : trois quarts des observations sont inférieures ou égales
IQR (écart interquartiles) : différence entre Q3 et Q1
19. Aucune Corrélation Positive
CORRÉLATION: mesure comment deux variables sont liées. Elle n’explique pas la cause de
cette relation.
03
Corrélation et causalité
Ex.
Négative
Source de données : GA Google Merchandise Store
20. Temps passé sur la page Taux de conversion
08.12.19 102:28:16 0,27
09.12.19 152:06:08 0,17
10.12.19 164:51:23 0,09
11.12.19 172:31:41 0,06
12.12.19 148:04:43 0,16
13.12.19 139:06:47 0,33
14.12.19 76:39:17 0,53
-1 0 1
COEFFICIENT DE CORRÉLATION: mesure
la corrélation entre deux variables.
03
Corrélation et causalité
Coefficient de corrélation
-0.91
Ex.
Source de données : GA Google Merchandise Store
21. CAUSALITÉ : indique que tout changement de la valeur d’une variable entraînera un
changement de la valeur d’une autre variable. On parle aussi de cause à effet.
03
Corrélation et causalité
La corrélation entre deux variables n’implique pas la causalité!
Source
22. Un résultat est dit statistiquement significatif si on estime qu’il n’est pas dû au hasard
04
Significativité Statistique et Test d’hypothèse
Ex. Visites Transactions CR
Campagne A 15900 2500 15.72%
Campagne B 100 45 45%
Campagne C 22356 2750 12.30%
Est ce que la différence entre les taux de conversion des campagnes A et C
est statistiquement significative ?
Réponse : Test statistique ou d’hypothèse
23. Le test statistique (d’hypothèse) est une démarche qui a pour but de fournir une règle de
décision permettant de faire le choix entre deux hypothèses statistiques.
04
Significativité Statistique et Test d’hypothèse
Hypothèses statistiques : H0 (hypothèse nulle) VS H1 (hypothèse alternative)
Les deux hypothèses ne sont pas toujours complémentaires, mais elles ne
doivent pas se croiser !
Conclusion du test : rejeter ou pas H0
Ex.
H0 : “La différence entre les taux des campagnes A et C est due au hasard”
H1: “La différence entre les taux des campagnes A et C est statistiquement significative”
24. H0 H1
H0 Erreur type I
H1 Erreur type II
04
Significativité Statistique et Test d’hypothèse
Caractéristique d’un test
Décision du test
Réalité
Risque de type I : probabilité de rejeter H0 alors qu’elle est vraie
Seuil de signification : ⍺ égal à 10% ou 5% ou 1%
Niveau de confiance : 1-⍺
Puissance : probabilité de rejeter H0 alors qu’elle est fausse
25. 04
Significativité Statistique et Test d’hypothèse
Démarche d’un test statistique
1. Choisir les hypothèses
2. Fixer le seuil ⍺ (10%, 5%, 1%)
3. Définir la règle de décision ( statistique de test, région de rejet,
p-value)
4. Conclure au rejet ou au non rejet de H0
26. 04
Significativité Statistique et Test d’hypothèse
Démarche d’un test statistique
1. Choisir les hypothèses
2. Fixer le seuil ⍺ (10%, 5%, 1%)
3. Définir la règle de décision ( statistique de test, région de rejet,
p-value)
P-value : probabilité d’apparition de l’événement observé lorsque l’hypothèse nulle est vraie
Ex.
p-value = ℙ[différence entre les deux taux de conversion obtenus en supposant H0 vrai]
Règle de décision: p-value > ⍺ on ne rejette pas H0 résultat dû au hasard
p-value < ⍺ on rejette H0 résultat statistiquement significatif
27. 04
Significativité Statistique et Test d’hypothèse
Ex. Visites Transactions CR
Campagne A 15900 2500 15.72%
Campagne B 100 45 45%
Campagne C 22356 2750 12.30%
Est ce que la différence entre les taux de conversion des campagnes A et C est statistiquement
significative ?
H0 : “La différence entre les taux des campagnes A et C est du au hasard”
H1: “La différence entre les taux des campagnes A et C est statistiquement significative”
Risque ⍺ = 5%
T-test ou Z-test