SlideShare une entreprise Scribd logo
1  sur  29
Télécharger pour lire hors ligne
STATISTICS FOR WEB ANALYTICS
28NOVEMBER2020
BETTER&STRONGER
MEASURECAMP FRANCE 2020
@Sara Ougribe (LinkedIn - Twitter)
Data Analyst chez Better&Stronger
Master Mathématiques appliquées et
Statistique
Qu’est-ce que la Statistique?
Quelle est la différence entre Statistique et Analytics?
Pourquoi est-elle si importante dans le monde du Web?
00
Quelques Questions
Qu’est-ce que la Statistique?
Quelle est la différence entre Statistique et Analytics?
Pourquoi elle est si importante dans le monde du Web?
“Statistics is the science of making decisions under uncertainty.”
- Savage, The Foundation of Statistics, 1954
00
Quelques Questions
Qu’est-ce que la Statistique?
Quelle est la différence entre Statistique et Analytics?
Pourquoi est-elle si importante dans le monde du Web?
La Statistique nous permet d’interpréter les données avec précision et prendre
des mesures qui peuvent améliorer la rentabilité.
00
Quelques Questions
Qu’est-ce que la Statistique?
Quelle est la différence entre Statistique et Analytics?
Pourquoi elle est si importante dans le monde du Web?
L’ Analytics réunit les techniques d’exploration des données.
La Statistique se concentre davantage sur l’inférence de ce qui est au-delà.
00
Quelques Questions
SOMMAIRE
02. Statistique descriptive
03. Corrélation et Causalité
04. Significativité statistique et Test d’hypothèse
01. Notions de Maths
Q1. Si le taux de conversion de la Campagne A saute de 10% (mai) à 12% (juin), est ce
qu’il y eu une augmentation de 2% ou 20% ?
01
Notions de Maths
Q1. Si le taux de conversion de la Campagne A saute de 10% (mai) à 12%(juin), est ce
qu’il y eu une augmentation de 2% ou 20% ?
01
Notions de Maths
PC = [(12 - 10) / 10] * 100 = 20%
Réponse: Pourcentage de changement
PC = [(Nouvelle valeur - Ancienne valeur) Ancienne valeur] 100
Réponse: Pourcentage de différence
PD = [ |Différence entre les deux valeurs| Moyenne des valeurs] 100
CR Mai CR Juin PC
Campagne A 10% 12% 20%
Campagne B 15% 13% 13%
Q2. Quelle est la différence entre les taux de conversion des deux campagnes ?
01
Notions de Maths
PD = [|15 - 10| / 12.5] * 100 = 40%
Réponse: Pourcentage d’erreur
PE = [ |Valeur estimée - Valeur exacte| Valeur exacte] 100
Conversions Conversions Erreur
estimées réelles
Campagne A 200 150
Q3. Quelle est l’erreur commise sur notre estimation ?
01
Notions de Maths
?
PE = [|200 - 150| / 150] * 100 = 33.33%
Résumé numériqueReprésentation graphiquePrésentation
Ensemble des méthodes dont l’objet principal est la description des données
02
Statistique descriptive
Tableau
statistique
● Diagramme en
colonnes
● Diagramme en
secteurs
● Diagramme en
bâtons
● Histogramme
● Paramètres de
position
● Paramètres de
dispersion
Terminologie
POPULATION: ensemble des éléments concernés par une étude
statistique.
ECHANTILLON: sous-ensemble de la population utilisé dans
l’analyse à la place de la population toute entière.
02
Statistique descriptive
Il est très importante de bien choisir l’échantillon afin qu’il soit représentatif de la
population
Ex. Visites Transactions CR
Campagne A 15900 2500 15.72%
Campagne B 100 45 45%
Campagne C 22356 2750 12.30%
Paramètres de position
MOYENNE : moyenne arithmétique des observations
02
Statistique descriptive
Temps passé sur la page
Page 1 00:01:45
Page 2 00:02:50
Page 3 00:01:05
Page 4 00:11:20
AVG 00:04:15
Ex.
La moyenne est sensible aux valeurs extrêmes (outliers)!
Temps passé sur la page Liste ordonnée Médiane
Page 1 00:01:45 00:01:05
Page 2 00:02:50 00:01:45
Page 3 00:01:05 00:02:50
Page 4 00:11:20 00:11:20
Paramètres de position
MÉDIANE : valeur centrale d’une liste ordonnée
02
Statistique descriptive
Ex.
00:02:17
Impressions
Annonce 1 1050
Annonce 2 2065
Annonce 3 12000
Annonce 4 899
Moyenne 4003
Médiane 1557
Ecart-type 5356
Temps passé sur la page
Page 1 00:01:45
Page 2 00:02:50
Page 3 00:01:05
Page 4 00:11:20
Moyenne 00:04:15
Médiane 00:02:17
Ecart-type 00:04:46
Paramètres de dispersion
VARIANCE - ÉCART-TYPE : indiquent la variabilité des
éléments autour d’un paramètre de position
02
Statistique descriptive
Ex.
Paramètres de dispersion
QUARTILES : divisent l’échantillon en quatre sous-ensemble de même effectif
02
Statistique descriptive
Q1 (premier quartile) : un quart des observations sont inférieures ou égales
Q2 : coïncide avec la médiane
Q3 (troisième quartile) : trois quarts des observations sont inférieures ou égales
IQR (écart interquartiles) : différence entre Q3 et Q1
02
Statistique descriptive
Boxplot
Maximum
Q3
Médiane
Q1
Minimum
Outlier
IQR
0
900
300
600
1200
1500
1800
Aucune Corrélation Positive
CORRÉLATION: mesure comment deux variables sont liées. Elle n’explique pas la cause de
cette relation.
03
Corrélation et causalité
Ex.
Négative
Source de données : GA Google Merchandise Store
Temps passé sur la page Taux de conversion
08.12.19 102:28:16 0,27
09.12.19 152:06:08 0,17
10.12.19 164:51:23 0,09
11.12.19 172:31:41 0,06
12.12.19 148:04:43 0,16
13.12.19 139:06:47 0,33
14.12.19 76:39:17 0,53
-1 0 1
COEFFICIENT DE CORRÉLATION: mesure
la corrélation entre deux variables.
03
Corrélation et causalité
Coefficient de corrélation
-0.91
Ex.
Source de données : GA Google Merchandise Store
CAUSALITÉ : indique que tout changement de la valeur d’une variable entraînera un
changement de la valeur d’une autre variable. On parle aussi de cause à effet.
03
Corrélation et causalité
La corrélation entre deux variables n’implique pas la causalité!
Source
Un résultat est dit statistiquement significatif si on estime qu’il n’est pas dû au hasard
04
Significativité Statistique et Test d’hypothèse
Ex. Visites Transactions CR
Campagne A 15900 2500 15.72%
Campagne B 100 45 45%
Campagne C 22356 2750 12.30%
Est ce que la différence entre les taux de conversion des campagnes A et C
est statistiquement significative ?
Réponse : Test statistique ou d’hypothèse
Le test statistique (d’hypothèse) est une démarche qui a pour but de fournir une règle de
décision permettant de faire le choix entre deux hypothèses statistiques.
04
Significativité Statistique et Test d’hypothèse
Hypothèses statistiques : H0 (hypothèse nulle) VS H1 (hypothèse alternative)
Les deux hypothèses ne sont pas toujours complémentaires, mais elles ne
doivent pas se croiser !
Conclusion du test : rejeter ou pas H0
Ex.
H0 : “La différence entre les taux des campagnes A et C est due au hasard”
H1: “La différence entre les taux des campagnes A et C est statistiquement significative”
H0 H1
H0 Erreur type I
H1 Erreur type II
04
Significativité Statistique et Test d’hypothèse
Caractéristique d’un test
Décision du test
Réalité
Risque de type I : probabilité de rejeter H0 alors qu’elle est vraie
Seuil de signification : ⍺ égal à 10% ou 5% ou 1%
Niveau de confiance : 1-⍺
Puissance : probabilité de rejeter H0 alors qu’elle est fausse
04
Significativité Statistique et Test d’hypothèse
Démarche d’un test statistique
1. Choisir les hypothèses
2. Fixer le seuil ⍺ (10%, 5%, 1%)
3. Définir la règle de décision ( statistique de test, région de rejet,
p-value)
4. Conclure au rejet ou au non rejet de H0
04
Significativité Statistique et Test d’hypothèse
Démarche d’un test statistique
1. Choisir les hypothèses
2. Fixer le seuil ⍺ (10%, 5%, 1%)
3. Définir la règle de décision ( statistique de test, région de rejet,
p-value)
P-value : probabilité d’apparition de l’événement observé lorsque l’hypothèse nulle est vraie
Ex.
p-value = ℙ[différence entre les deux taux de conversion obtenus en supposant H0 vrai]
Règle de décision: p-value > ⍺ on ne rejette pas H0 résultat dû au hasard
p-value < ⍺ on rejette H0 résultat statistiquement significatif
04
Significativité Statistique et Test d’hypothèse
Ex. Visites Transactions CR
Campagne A 15900 2500 15.72%
Campagne B 100 45 45%
Campagne C 22356 2750 12.30%
Est ce que la différence entre les taux de conversion des campagnes A et C est statistiquement
significative ?
H0 : “La différence entre les taux des campagnes A et C est du au hasard”
H1: “La différence entre les taux des campagnes A et C est statistiquement significative”
Risque ⍺ = 5%
T-test ou Z-test
04
Significativité Statistique et Test d’hypothèse
Ex.
MERCI.
7 place du Griffon | 69001 Lyon | France
+33 4 72 80 96 32 | contact@better-stronger.com

Contenu connexe

Similaire à Measure Camp 2020 : Statistics for Web Analytics

Calculs tc2015
Calculs tc2015Calculs tc2015
Calculs tc2015szarzynski
 
Socio Data Management présente son outil de simulation prédictive au Printemp...
Socio Data Management présente son outil de simulation prédictive au Printemp...Socio Data Management présente son outil de simulation prédictive au Printemp...
Socio Data Management présente son outil de simulation prédictive au Printemp...Socio Data Management
 
[Salon eCom 2016] Virtua | Le mythe de la conversion sur Internet
[Salon eCom 2016] Virtua | Le mythe de la conversion sur Internet[Salon eCom 2016] Virtua | Le mythe de la conversion sur Internet
[Salon eCom 2016] Virtua | Le mythe de la conversion sur InternetVirtua S.A.
 
Explicabilité de modele statistique
Explicabilité de modele statistiqueExplicabilité de modele statistique
Explicabilité de modele statistiqueMoov AI
 
Le contrôle nourriture
Le contrôle nourritureLe contrôle nourriture
Le contrôle nourritureOlivier Aubrun
 
cours_statistiques_master.pdf
cours_statistiques_master.pdfcours_statistiques_master.pdf
cours_statistiques_master.pdfArkadaar
 
Synthese cours controle de gestion
Synthese cours controle de gestionSynthese cours controle de gestion
Synthese cours controle de gestionOULAAJEB YOUSSEF
 
Mopa denis dupouy jt indicateurs 3.10.2013
Mopa denis dupouy jt indicateurs 3.10.2013Mopa denis dupouy jt indicateurs 3.10.2013
Mopa denis dupouy jt indicateurs 3.10.2013MONA
 
Des mesures pour des décisions
Des mesures pour des décisionsDes mesures pour des décisions
Des mesures pour des décisionsJean-Michel POU
 
Résultats enquête bitoubi lausanne 2014
Résultats enquête bitoubi lausanne 2014Résultats enquête bitoubi lausanne 2014
Résultats enquête bitoubi lausanne 2014Karam Mohamed
 
Amélioration continue - 6 sigma - ibtissam el hassani-chapitre 2015-2016
Amélioration continue - 6 sigma - ibtissam el hassani-chapitre 2015-2016Amélioration continue - 6 sigma - ibtissam el hassani-chapitre 2015-2016
Amélioration continue - 6 sigma - ibtissam el hassani-chapitre 2015-2016ibtissam el hassani
 
Statistiques s2
Statistiques s2Statistiques s2
Statistiques s2hassan1488
 

Similaire à Measure Camp 2020 : Statistics for Web Analytics (15)

Calculs tc2015
Calculs tc2015Calculs tc2015
Calculs tc2015
 
Socio Data Management présente son outil de simulation prédictive au Printemp...
Socio Data Management présente son outil de simulation prédictive au Printemp...Socio Data Management présente son outil de simulation prédictive au Printemp...
Socio Data Management présente son outil de simulation prédictive au Printemp...
 
[Salon eCom 2016] Virtua | Le mythe de la conversion sur Internet
[Salon eCom 2016] Virtua | Le mythe de la conversion sur Internet[Salon eCom 2016] Virtua | Le mythe de la conversion sur Internet
[Salon eCom 2016] Virtua | Le mythe de la conversion sur Internet
 
Explicabilité de modele statistique
Explicabilité de modele statistiqueExplicabilité de modele statistique
Explicabilité de modele statistique
 
Le contrôle nourriture
Le contrôle nourritureLe contrôle nourriture
Le contrôle nourriture
 
cours_statistiques_master.pdf
cours_statistiques_master.pdfcours_statistiques_master.pdf
cours_statistiques_master.pdf
 
Synthese cours controle de gestion
Synthese cours controle de gestionSynthese cours controle de gestion
Synthese cours controle de gestion
 
Mopa denis dupouy jt indicateurs 3.10.2013
Mopa denis dupouy jt indicateurs 3.10.2013Mopa denis dupouy jt indicateurs 3.10.2013
Mopa denis dupouy jt indicateurs 3.10.2013
 
Des mesures pour des décisions
Des mesures pour des décisionsDes mesures pour des décisions
Des mesures pour des décisions
 
Résultats enquête bitoubi lausanne 2014
Résultats enquête bitoubi lausanne 2014Résultats enquête bitoubi lausanne 2014
Résultats enquête bitoubi lausanne 2014
 
Baro Satis Image Sociologiciels
Baro Satis Image SociologicielsBaro Satis Image Sociologiciels
Baro Satis Image Sociologiciels
 
Statistique Descriptive s1
Statistique Descriptive s1Statistique Descriptive s1
Statistique Descriptive s1
 
L’art d’avoir tort
L’art d’avoir tortL’art d’avoir tort
L’art d’avoir tort
 
Amélioration continue - 6 sigma - ibtissam el hassani-chapitre 2015-2016
Amélioration continue - 6 sigma - ibtissam el hassani-chapitre 2015-2016Amélioration continue - 6 sigma - ibtissam el hassani-chapitre 2015-2016
Amélioration continue - 6 sigma - ibtissam el hassani-chapitre 2015-2016
 
Statistiques s2
Statistiques s2Statistiques s2
Statistiques s2
 

Measure Camp 2020 : Statistics for Web Analytics

  • 1. STATISTICS FOR WEB ANALYTICS 28NOVEMBER2020 BETTER&STRONGER MEASURECAMP FRANCE 2020
  • 2. @Sara Ougribe (LinkedIn - Twitter) Data Analyst chez Better&Stronger Master Mathématiques appliquées et Statistique
  • 3. Qu’est-ce que la Statistique? Quelle est la différence entre Statistique et Analytics? Pourquoi est-elle si importante dans le monde du Web? 00 Quelques Questions
  • 4. Qu’est-ce que la Statistique? Quelle est la différence entre Statistique et Analytics? Pourquoi elle est si importante dans le monde du Web? “Statistics is the science of making decisions under uncertainty.” - Savage, The Foundation of Statistics, 1954 00 Quelques Questions
  • 5. Qu’est-ce que la Statistique? Quelle est la différence entre Statistique et Analytics? Pourquoi est-elle si importante dans le monde du Web? La Statistique nous permet d’interpréter les données avec précision et prendre des mesures qui peuvent améliorer la rentabilité. 00 Quelques Questions
  • 6. Qu’est-ce que la Statistique? Quelle est la différence entre Statistique et Analytics? Pourquoi elle est si importante dans le monde du Web? L’ Analytics réunit les techniques d’exploration des données. La Statistique se concentre davantage sur l’inférence de ce qui est au-delà. 00 Quelques Questions
  • 7. SOMMAIRE 02. Statistique descriptive 03. Corrélation et Causalité 04. Significativité statistique et Test d’hypothèse 01. Notions de Maths
  • 8. Q1. Si le taux de conversion de la Campagne A saute de 10% (mai) à 12% (juin), est ce qu’il y eu une augmentation de 2% ou 20% ? 01 Notions de Maths
  • 9. Q1. Si le taux de conversion de la Campagne A saute de 10% (mai) à 12%(juin), est ce qu’il y eu une augmentation de 2% ou 20% ? 01 Notions de Maths PC = [(12 - 10) / 10] * 100 = 20% Réponse: Pourcentage de changement PC = [(Nouvelle valeur - Ancienne valeur) Ancienne valeur] 100
  • 10. Réponse: Pourcentage de différence PD = [ |Différence entre les deux valeurs| Moyenne des valeurs] 100 CR Mai CR Juin PC Campagne A 10% 12% 20% Campagne B 15% 13% 13% Q2. Quelle est la différence entre les taux de conversion des deux campagnes ? 01 Notions de Maths PD = [|15 - 10| / 12.5] * 100 = 40%
  • 11. Réponse: Pourcentage d’erreur PE = [ |Valeur estimée - Valeur exacte| Valeur exacte] 100 Conversions Conversions Erreur estimées réelles Campagne A 200 150 Q3. Quelle est l’erreur commise sur notre estimation ? 01 Notions de Maths ? PE = [|200 - 150| / 150] * 100 = 33.33%
  • 12. Résumé numériqueReprésentation graphiquePrésentation Ensemble des méthodes dont l’objet principal est la description des données 02 Statistique descriptive Tableau statistique ● Diagramme en colonnes ● Diagramme en secteurs ● Diagramme en bâtons ● Histogramme ● Paramètres de position ● Paramètres de dispersion
  • 13. Terminologie POPULATION: ensemble des éléments concernés par une étude statistique. ECHANTILLON: sous-ensemble de la population utilisé dans l’analyse à la place de la population toute entière. 02 Statistique descriptive Il est très importante de bien choisir l’échantillon afin qu’il soit représentatif de la population Ex. Visites Transactions CR Campagne A 15900 2500 15.72% Campagne B 100 45 45% Campagne C 22356 2750 12.30%
  • 14. Paramètres de position MOYENNE : moyenne arithmétique des observations 02 Statistique descriptive Temps passé sur la page Page 1 00:01:45 Page 2 00:02:50 Page 3 00:01:05 Page 4 00:11:20 AVG 00:04:15 Ex. La moyenne est sensible aux valeurs extrêmes (outliers)!
  • 15. Temps passé sur la page Liste ordonnée Médiane Page 1 00:01:45 00:01:05 Page 2 00:02:50 00:01:45 Page 3 00:01:05 00:02:50 Page 4 00:11:20 00:11:20 Paramètres de position MÉDIANE : valeur centrale d’une liste ordonnée 02 Statistique descriptive Ex. 00:02:17
  • 16. Impressions Annonce 1 1050 Annonce 2 2065 Annonce 3 12000 Annonce 4 899 Moyenne 4003 Médiane 1557 Ecart-type 5356 Temps passé sur la page Page 1 00:01:45 Page 2 00:02:50 Page 3 00:01:05 Page 4 00:11:20 Moyenne 00:04:15 Médiane 00:02:17 Ecart-type 00:04:46 Paramètres de dispersion VARIANCE - ÉCART-TYPE : indiquent la variabilité des éléments autour d’un paramètre de position 02 Statistique descriptive Ex.
  • 17. Paramètres de dispersion QUARTILES : divisent l’échantillon en quatre sous-ensemble de même effectif 02 Statistique descriptive Q1 (premier quartile) : un quart des observations sont inférieures ou égales Q2 : coïncide avec la médiane Q3 (troisième quartile) : trois quarts des observations sont inférieures ou égales IQR (écart interquartiles) : différence entre Q3 et Q1
  • 19. Aucune Corrélation Positive CORRÉLATION: mesure comment deux variables sont liées. Elle n’explique pas la cause de cette relation. 03 Corrélation et causalité Ex. Négative Source de données : GA Google Merchandise Store
  • 20. Temps passé sur la page Taux de conversion 08.12.19 102:28:16 0,27 09.12.19 152:06:08 0,17 10.12.19 164:51:23 0,09 11.12.19 172:31:41 0,06 12.12.19 148:04:43 0,16 13.12.19 139:06:47 0,33 14.12.19 76:39:17 0,53 -1 0 1 COEFFICIENT DE CORRÉLATION: mesure la corrélation entre deux variables. 03 Corrélation et causalité Coefficient de corrélation -0.91 Ex. Source de données : GA Google Merchandise Store
  • 21. CAUSALITÉ : indique que tout changement de la valeur d’une variable entraînera un changement de la valeur d’une autre variable. On parle aussi de cause à effet. 03 Corrélation et causalité La corrélation entre deux variables n’implique pas la causalité! Source
  • 22. Un résultat est dit statistiquement significatif si on estime qu’il n’est pas dû au hasard 04 Significativité Statistique et Test d’hypothèse Ex. Visites Transactions CR Campagne A 15900 2500 15.72% Campagne B 100 45 45% Campagne C 22356 2750 12.30% Est ce que la différence entre les taux de conversion des campagnes A et C est statistiquement significative ? Réponse : Test statistique ou d’hypothèse
  • 23. Le test statistique (d’hypothèse) est une démarche qui a pour but de fournir une règle de décision permettant de faire le choix entre deux hypothèses statistiques. 04 Significativité Statistique et Test d’hypothèse Hypothèses statistiques : H0 (hypothèse nulle) VS H1 (hypothèse alternative) Les deux hypothèses ne sont pas toujours complémentaires, mais elles ne doivent pas se croiser ! Conclusion du test : rejeter ou pas H0 Ex. H0 : “La différence entre les taux des campagnes A et C est due au hasard” H1: “La différence entre les taux des campagnes A et C est statistiquement significative”
  • 24. H0 H1 H0 Erreur type I H1 Erreur type II 04 Significativité Statistique et Test d’hypothèse Caractéristique d’un test Décision du test Réalité Risque de type I : probabilité de rejeter H0 alors qu’elle est vraie Seuil de signification : ⍺ égal à 10% ou 5% ou 1% Niveau de confiance : 1-⍺ Puissance : probabilité de rejeter H0 alors qu’elle est fausse
  • 25. 04 Significativité Statistique et Test d’hypothèse Démarche d’un test statistique 1. Choisir les hypothèses 2. Fixer le seuil ⍺ (10%, 5%, 1%) 3. Définir la règle de décision ( statistique de test, région de rejet, p-value) 4. Conclure au rejet ou au non rejet de H0
  • 26. 04 Significativité Statistique et Test d’hypothèse Démarche d’un test statistique 1. Choisir les hypothèses 2. Fixer le seuil ⍺ (10%, 5%, 1%) 3. Définir la règle de décision ( statistique de test, région de rejet, p-value) P-value : probabilité d’apparition de l’événement observé lorsque l’hypothèse nulle est vraie Ex. p-value = ℙ[différence entre les deux taux de conversion obtenus en supposant H0 vrai] Règle de décision: p-value > ⍺ on ne rejette pas H0 résultat dû au hasard p-value < ⍺ on rejette H0 résultat statistiquement significatif
  • 27. 04 Significativité Statistique et Test d’hypothèse Ex. Visites Transactions CR Campagne A 15900 2500 15.72% Campagne B 100 45 45% Campagne C 22356 2750 12.30% Est ce que la différence entre les taux de conversion des campagnes A et C est statistiquement significative ? H0 : “La différence entre les taux des campagnes A et C est du au hasard” H1: “La différence entre les taux des campagnes A et C est statistiquement significative” Risque ⍺ = 5% T-test ou Z-test
  • 28. 04 Significativité Statistique et Test d’hypothèse Ex.
  • 29. MERCI. 7 place du Griffon | 69001 Lyon | France +33 4 72 80 96 32 | contact@better-stronger.com