More than Just Lines on a Map: Best Practices for U.S Bike Routes
Ch7 (1).pdf
1. Chapitre 7 : Inférence pour les données numériques
Les diapositives peuvent être copiées, modifiées et/ou partagées via la licence CC BYSA.
Statistiques OpenIntro, 4e édition
Slides développées par Mine C¸ etinkayaRundel d'OpenIntro.
Certaines images peuvent être incluses dans le cadre des directives d'utilisation équitable (à des fins éducatives).
Machine Translated by Google
2. Moyenne à un échantillon avec
la distribution t
Machine Translated by Google
3. vendredi 13
124609 122770 1839 lieu 1
trafic
de type 1 1990, trafic du 2
juillet 1990, trafic du 3 juillet
1991, septembre 137055 136018 1037 loc 1
4 trafic 1991, septembre 133732 131843 1889 loc 2
321 emplacement 2
121139 118723 2416 loc 2
134012 132908 1104 lieu 2
128293 125532 2761 lieu 1
date
124631 120249 4382 loc 2
6 trafic 1991, décembre
Emplacement du 13ème différentiel
7 trafic 1992, mars
139246 138548
5 trafic 1991, décembre 123552 121641 1911 loc 1
117584 117263
698 lieu 1
8 trafic 1992, 9 mars trafic 1992,
novembre 10 trafic 1992, novembre
1
6ème
Entre 1990 et 1992, des chercheurs britanniques ont collecté des données sur le trafic
flux, accidents et hospitalisations le vendredi 13 et le vendredi 6 précédent . Vous trouverez
cidessous un extrait de cet ensemble de données sur
1 et 2 sont indépendants.
la fluidité du trafic. Nous pouvons supposer que le trafic est fluide un jour donné à des endroits
Machine Translated by Google
4. 2
vendredi 13
• Nous voulons vérifier si le comportement des gens est différent le
vendredi 13 par rapport au vendredi 6 .
Machine Translated by Google
5. 2
vendredi 13
• Nous voulons vérifier si le comportement des gens est différent le
vendredi 13 par rapport au vendredi 6 .
• Une approche consiste à comparer le flux de trafic sur ces deux jours.
Machine Translated by Google
6. 2
vendredi 13
HA : Le trafic moyen les vendredi 6 et 13 est différent.
• Une approche consiste à comparer le flux de trafic sur ces deux jours. •
H0 : Le trafic moyen des vendredis 6 et 13 est égal.
• Nous voulons vérifier si le comportement des gens est différent le
vendredi 13 par rapport au vendredi 6 .
Machine Translated by Google
7. 2
vendredi 13
• Une approche consiste à comparer le flux de trafic sur ces deux jours. •
H0 : Le trafic moyen des vendredis 6 et 13 est égal.
• Nous voulons vérifier si le comportement des gens est différent le
vendredi 13 par rapport au vendredi 6 .
Chaque cas de l'ensemble de données représente le flux de trafic enregistré
au même endroit au cours du même mois de la même année : un compte du
vendredi 6 et l'autre du vendredi 13. Ces deux chefs d’accusation sontils
indépendants ?
HA : Le trafic moyen les vendredi 6 et 13 est différent.
Machine Translated by Google
8. 2
vendredi 13
• Nous voulons vérifier si le comportement des gens est différent le vendredi 13
par rapport au vendredi 6 .
• Une approche consiste à comparer le flux de trafic sur ces deux jours. • H0 : Le trafic
moyen des vendredis 6 et 13 est égal.
Chaque cas de l'ensemble de données représente le flux de trafic enregistré au même
endroit au cours du même mois de la même année : un compte du vendredi 6 et l'autre du
vendredi 13. Ces deux chefs d’accusation sontils indépendants ?
HA : Le trafic moyen les vendredi 6 et 13 est différent.
Non
Machine Translated by Google
9. Hypothèses
(c) H0 : µdiff = 0
HA : µdiff 0
HA : x¯diff = 0
(d) H0 : x¯diff = 0
Quelles sont les hypothèses pour tester un écart entre le débit
moyen entre le vendredi 6 et le vendredi 13 ?
(a) H0 : µ6ème = µ13ème
(b) H0 : p6ème = p13ème
HA : µ6ème µ13ème
HA : p6ème p13ème
3
Machine Translated by Google
10. Hypothèses
(c) H0 : µdiff = 0
HA : µdiff 0
HA : x¯diff = 0
(d) H0 : x¯diff = 0
Quelles sont les hypothèses pour tester un écart entre le débit
moyen entre le vendredi 6 et le vendredi 13 ?
(b) H0 : p6ème = p13ème
(a) H0 : µ6ème = µ13ème
HA : µ6ème µ13ème
HA : p6ème p13ème
3
Machine Translated by Google
11. 4
Conditions
• Indépendance : on nous dit de supposer que les observations (lignes) sont
indépendantes.
Machine Translated by Google
12. 4
Conditions
• Indépendance : on nous dit de supposer que les observations (lignes) sont
indépendantes.
• Taille de l'échantillon/asymétrie :
Machine Translated by Google
13. Conditions
3
Différence de flux de trafic
1000 4000
1
5000
5
2000
0
3000
4
2
0
• Indépendance : on nous dit de supposer que les observations (lignes) sont
indépendantes.
• Taille de l'échantillon/asymétrie :
• La répartition de l'échantillon ne semble pas être
• Nous ne connaissons pas σ et n est trop petit pour supposer s
extrêmement asymétrique, mais il est très difficile à évaluer
avec un échantillon aussi petit. Nous pourrions vouloir nous
demander si nous nous attendons à ce que la
répartition de la population soit asymétrique ou non –
probablement pas, il devrait être tout aussi probable qu'il
y ait des jours avec un trafic inférieur à la moyenne et un
trafic supérieur à la moyenne.
est une estimation fiable de σ.
f
r
é
q
u
e
n
c
e
4
Machine Translated by Google
14. Conditions
3
Différence de flux de trafic
1000 4000
1
5000
5
2000
0
3000
4
2
0
• Indépendance : on nous dit de supposer que les observations (lignes) sont
indépendantes.
• Taille de l'échantillon/asymétrie :
Alors, que faire lorsque la taille de l’échantillon est petite ?
• La répartition de l'échantillon ne semble pas être
• Nous ne connaissons pas σ et n est trop petit pour supposer s
extrêmement asymétrique, mais il est très difficile à évaluer
avec un échantillon aussi petit. Nous pourrions vouloir nous
demander si nous nous attendons à ce que la
répartition de la population soit asymétrique ou non –
probablement pas, il devrait être tout aussi probable qu'il
y ait des jours avec un trafic inférieur à la moyenne et un
trafic supérieur à la moyenne.
est une estimation fiable de σ.
f
r
é
q
u
e
n
c
e
4
Machine Translated by Google
15. 5
Bilan : à quoi sert un large échantillon ?
• la distribution d'échantillonnage de la moyenne est presque normale
Tant que les observations sont indépendantes et que la répartition de la
population n'est pas extrêmement asymétrique, un échantillon large garantirait
que...
Est fiable
• l'estimation de l'erreur type, comme s√ n
,
Machine Translated by Google
16. 6
La condition de normalité
• Le CLT, qui stipule que les distributions d'échantillonnage seront
presque normale, est vraie pour n’importe quelle taille d’échantillon tant que
la répartition de la population est presque normale.
Machine Translated by Google
17. 6
La condition de normalité
• Le CLT, qui stipule que les distributions d'échantillonnage seront
presque normale, est vraie pour n’importe quelle taille d’échantillon tant que
la répartition de la population est presque normale.
vérifier la normalité dans de petits ensembles de données.
• Bien qu'il s'agisse d'un cas particulier utile, il est intrinsèquement difficile à
Machine Translated by Google
18. La condition de normalité
6
presque normale, est vraie pour n’importe quelle taille d’échantillon tant que la
répartition de la population est presque normale.
• Le CLT, qui stipule que les distributions d'échantillonnage seront
vérifier la normalité dans de petits ensembles de données.
condition pour les petits échantillons. Il est important non seulement d’examiner
les données, mais également de réfléchir à leur origine.
• Bien qu'il s'agisse d'un cas particulier utile, il est intrinsèquement difficile à
• Nous devons faire preuve de prudence lors de la vérification de la normalité
• Par exemple, demandezvous : estce que je m'attendrais à ce que cette
distribution soit symétrique et suisje sûr que les valeurs aberrantes sont rares ?
Machine Translated by Google
19. La distribution t
• Lorsque l'écart type de la population est inconnu (presque
toujours), l'incertitude de l'estimation de l'erreur type est
résolue en utilisant une nouvelle distribution : la distribution t .
7
Machine Translated by Google
20. La distribution t
• Lorsque l'écart type de la population est inconnu (presque toujours),
l'incertitude de l'estimation de l'erreur type est résolue en utilisant une
nouvelle distribution : la distribution t . • Cette distribution a également
une forme de cloche, mais ses queues sont plus épaisses
que celui du modèle normal.
7
Machine Translated by Google
21. La distribution t
que celui du modèle normal.
• Lorsque l'écart type de la population est inconnu (presque toujours),
l'incertitude de l'estimation de l'erreur type est résolue en utilisant une
nouvelle distribution : la distribution t . • Cette distribution a également
une forme de cloche, mais ses queues sont plus épaisses
de la moyenne que sous la distribution normale.
• Par conséquent, les observations sont plus susceptibles de se situer audelà de deux écartstypes.
7
Machine Translated by Google
22. La distribution t
7
• Lorsque l'écart type de la population est inconnu (presque toujours),
l'incertitude de l'estimation de l'erreur type est résolue en utilisant une
nouvelle distribution : la distribution t . • Cette distribution a également
une forme de cloche, mais ses queues sont plus épaisses
que celui du modèle normal.
de la moyenne que sous la distribution normale.
• Par conséquent, les observations sont plus susceptibles de se situer audelà de deux écartstypes.
• Ces queues très épaisses sont utiles pour résoudre notre problème avec
une estimation moins fiable de l'erreur type (puisque n est petit)
normal
Machine Translated by Google
23. La distribution t (suite)
0 6
−2 2 4
• Toujours centré sur zéro, comme la normale standard (z)
distribution.
• Possède un seul paramètre : les degrés de liberté (df).
normale
t, df=5
t, df=2
t, df=10
t, df=1
8
Machine Translated by Google
24. La distribution t (suite)
0 6
−2 2 4
• Toujours centré sur zéro, comme la normale standard (z)
distribution.
• Possède un seul paramètre : les degrés de liberté (df).
Qu'arrivetil à la forme de la distribution t à mesure que df augmente ?
normale
t, df=5
t, df=2
t, df=10
t, df=1
8
Machine Translated by Google
25. La distribution t (suite)
0 6
−2 2 4
normale
t, df=5
t, df=2
t, df=10
t, df=1
• Toujours centré sur zéro, comme la normale standard (z)
distribution.
Approche normale.
• Possède un seul paramètre : les degrés de liberté (df).
Qu'arrivetil à la forme de la distribution t à mesure que df augmente ?
8
Machine Translated by Google
26. 6ème
Retour au vendredi 13
9
trafic
de type 1 1990, trafic du 2
juillet 1990, trafic du 3 juillet
1991, septembre 137055 136018 1037 loc 1
Emplacement du 13ème différentiel
5 trafic 1991, décembre 123552 121641 1911 loc 1
4 trafic 1991, septembre 133732 131843 1889 loc 2
date
7 trafic 1992, mars 8 trafic 1992,
mars
698 lieu 1
9 trafic 1992, novembre 124609 122770 1839 loc 1
10 trafic 1992, novembre 117584 117263 321 loc 2
134012 132908 1104 lieu 2
124631 120249 4382 loc 2
6 trafic 1991, décembre 121139 118723 2416 loc 2
139246 138548
128293 125532 2761 lieu 1
↓
x¯diff = 1836
ids = 1176
Machine Translated by Google
27. Trouver la statistique du test
Tester la statistique pour l'inférence sur une moyenne d'un petit échantillon
La statistique de test pour l'inférence sur une moyenne d'un petit échantillon (n < 50) est la
statistique T avec df = n − 1. estimation
ponctuelle − valeur nulle Tdf = SE
dix
Machine Translated by Google
28. Trouver la statistique du test
Tester la statistique pour l'inférence sur une moyenne d'un petit échantillon
La statistique de test pour l'inférence sur une moyenne d'un petit échantillon (n < 50) est la statistique T
avec df = n − 1. estimation ponctuelle − valeur
nulle Tdf = SE
Dans le contexte...
estimation ponctuelle = x¯diff = 1836
dix
Machine Translated by Google
29. Trouver la statistique du test
Tester la statistique pour l'inférence sur une moyenne d'un petit échantillon
La statistique de test pour l'inférence sur une moyenne d'un petit échantillon (n < 50) est la statistique T
avec df = n − 1. estimation ponctuelle − valeur
nulle Tdf = SE
Dans le contexte...
estimation ponctuelle = x¯diff = 1836
1176
sdiff
= 372 √ n
=
√ 10
SE =
dix
Machine Translated by Google
30. Trouver la statistique du test
Dans le contexte...
Tester la statistique pour l'inférence sur une moyenne d'un petit échantillon
La statistique de test pour l'inférence sur une moyenne d'un petit échantillon (n < 50) est la statistique T
avec df = n − 1. estimation ponctuelle − valeur
nulle Tdf = SE
estimation ponctuelle = x¯diff = 1836
1176
= 372
SE = =
372
sdiff
√ n √ 10
1836 − 0
= 4,94
T =
dix
Machine Translated by Google
31. Trouver la statistique du test
Remarque : La valeur nulle est 0 car dans l'hypothèse nulle, nous définissons = 0.
Dans le contexte...
Tester la statistique pour l'inférence sur une moyenne d'un petit échantillon
La statistique de test pour l'inférence sur une moyenne d'un petit échantillon (n < 50) est la statistique T
avec df = n − 1. estimation ponctuelle − valeur
nulle Tdf = SE
estimation ponctuelle = x¯diff = 1836
1176
= 372
SE = =
372
dl = 10 − 1 = 9
sdiff
√ n √ 10
1836 − 0
= 4,94
T =
dix
Machine Translated by Google
32. Trouver la valeur p
• La valeur p est, une fois de plus, calculée comme la surface de la queue
sous la distribution t .
11
Machine Translated by Google
33. Trouver la valeur p
11
• La valeur p est, une fois de plus, calculée comme la surface de la queue
sous la distribution t .
• Utilisation de R :
[1] 0,0008022394
> 2 * pt(4,94, df = 9, lower.tail = FALSE)
Machine Translated by Google
34. Trouver la valeur p
• À l'aide d'une
application Web : https://gallery.shinyapps.io/dist calc/
11
• Utilisation de R :
sous la distribution t .
• La valeur p est, une fois de plus, calculée comme la surface de la queue
> 2 * pt(4,94, df = 9, lower.tail = FALSE)
[1] 0,0008022394
Machine Translated by Google
35. Trouver la valeur p
• À l'aide d'une
application Web : https://gallery.shinyapps.io/dist calc/
11
• La valeur p est, une fois de plus, calculée comme la surface de la queue
sous la distribution t .
• Ou lorsque ceuxci ne sont pas disponibles, nous pouvons utiliser une table en T.
• Utilisation de R :
[1] 0,0008022394
> 2 * pt(4,94, df = 9, lower.tail = FALSE)
Machine Translated by Google
37. 12
Conclusion de l'essai
Étant donné que la valeur p est assez faible, nous concluons que les données
fournissent des preuves solides d'une différence entre le flux de circulation le vendredi
6 et le vendredi 13 .
Quelle est la conclusion de ce test d’hypothèse ?
Machine Translated by Google
38. 13
Quelle est la différence?
• Nous avons conclu qu'il existe une différence dans la fluidité du trafic
entre le vendredi 6 et le 13 .
Machine Translated by Google
39. 13
Quelle est la différence?
• Nous avons conclu qu'il existe une différence dans la fluidité du trafic
entre le vendredi 6 et le 13 .
• Mais il serait plus intéressant de savoir quelle est exactement
cette différence.
Machine Translated by Google
40. 13
Quelle est la différence?
entre le vendredi 6 et le 13 .
• Nous avons conclu qu'il existe une différence dans la fluidité du trafic
• Nous pouvons utiliser un intervalle de confiance pour estimer cette différence.
• Mais il serait plus intéressant de savoir quelle est exactement cette
différence.
Machine Translated by Google
41. 14
Intervalle de confiance pour une moyenne d'un petit échantillon
estimation ponctuelle ± ME
• Les intervalles de confiance sont toujours de la forme
Machine Translated by Google
42. 14
Intervalle de confiance pour une moyenne d'un petit échantillon
• Les intervalles de confiance sont toujours de la forme
estimation ponctuelle ± ME
SE.
• ME est toujours calculé comme le produit d'une valeur critique et
Machine Translated by Google
43. 14
Intervalle de confiance pour une moyenne d'un petit échantillon
estimation ponctuelle ± ME
• Les intervalles de confiance sont toujours de la forme
SE.
estimation ponctuelle ± t × SE
• ME est toujours calculé comme le produit d'une valeur critique et
• Puisque les moyennes d'un petit échantillon suivent une distribution t (et non une
distribution z ), la valeur critique est a t (par opposition à a z ).
Machine Translated by Google
44. > qt(p = 0,975, df = 9)
[1] 2,262157
Trouver le t (t ) critique
En utilisant R :
15
Machine Translated by Google
45. x¯diff = 1836 sdiff = 1176 n = 10 ET = 372
Construire un IC pour une moyenne d'un petit échantillon
Lequel des énoncés suivants correspond au calcul correct d'un intervalle de
confiance à 95 % pour la différence entre le flux de trafic entre le vendredi 6 et
le vendredi 13 ?
(a) 1836 ± 1,96 × 372
(c) 1836 ± −2,26 × 372
(d) 1 836 ± 2,26 × 1 176
(b) 1836 ± 2,26 × 372
16
Machine Translated by Google
46. Construire un IC pour une moyenne d'un petit échantillon
n = 10 ET = 372
x¯diff = 1836 sdiff = 1176
Lequel des énoncés suivants correspond au calcul correct d'un intervalle de
confiance à 95 % pour la différence entre le flux de trafic entre le vendredi 6 et
le vendredi 13 ?
(a) 1836 ± 1,96 × 372
(c) 1836 ± −2,26 × 372
(d) 1 836 ± 2,26 × 1 176
→ (995, 2677)
(b) 1836 ± 2,26 × 372
16
Machine Translated by Google
47. Interpréter l'IC
Laquelle des propositions suivantes est la meilleure interprétation de l’intervalle de
confiance que nous venons de calculer ?
(a) la différence entre le nombre moyen de voitures en circulation le vendredi 6 et le
vendredi 13 est comprise entre 995 et 2 677. (b) le vendredi 6, il
y a en moyenne 995 à 2 677 voitures de moins sur les routes que le vendredi 13 .
(c) le vendredi 6, il y a 995 voitures de moins,
soit 2 677 voitures de plus sur le réseau.
que le vendredi 6, en moyenne.
Nous sommes convaincus à 95 % que...
route que le vendredi 13, en moyenne. (d) le vendredi
13, il y a 995 à 2 677 voitures de moins sur la route
= (995, 2677)
µdiff :6e−13e
17
Machine Translated by Google
48. Interpréter l'IC
(a) la différence entre le nombre moyen de voitures en circulation le vendredi 6 et le
vendredi 13 est comprise entre 995 et 2 677. (b) le vendredi 6, il
y a en moyenne 995 à 2 677 voitures de moins sur les routes que le vendredi 13 .
(c) le vendredi 6, il y a 995 voitures de moins,
soit 2 677 voitures de plus sur le réseau.
Laquelle des propositions suivantes est la meilleure interprétation de l’intervalle de
confiance que nous venons de calculer ?
(d) le vendredi 13, il y a 995 à 2 677 voitures de moins sur la route
que le vendredi 6, en moyenne.
Nous sommes convaincus à 95 % que...
route que le vendredi 13, en moyenne.
= (995, 2677)
µdiff :6e−13e
17
Machine Translated by Google
49. La synthèse
Pensezvous que les résultats de cette étude suggèrent que les gens pensent que
le vendredi 13 est un jour de malchance ?
La conclusion du test d’hypothèse estelle en accord avec les résultats de l’intervalle
de confiance ?
18
Machine Translated by Google
50. La synthèse
La conclusion du test d’hypothèse estelle en accord avec les résultats de l’intervalle
de confiance ?
Oui, le test d'hypothèse a trouvé une différence significative et l'IC
Pensezvous que les résultats de cette étude suggèrent que les gens pensent que
le vendredi 13 est un jour de malchance ?
ne contient pas la valeur nulle de 0.
18
Machine Translated by Google
51. La synthèse
La conclusion du test d’hypothèse estelle en accord avec les résultats de l’intervalle
de confiance ?
Oui, le test d'hypothèse a trouvé une différence significative et l'IC
Pensezvous que les résultats de cette étude suggèrent que les gens pensent que
le vendredi 13 est un jour de malchance ?
ne contient pas la valeur nulle de 0.
Non, il s'agit d'une étude observationnelle. Nous venons d'observer une
différence significative entre le nombre de voitures en circulation ces deux jours.
Nous n'avons pas testé les croyances des gens.
18
Machine Translated by Google
52. Récapitulatif : Inférence utilisant la distribution t
.
• Si σ est inconnu, utilisez la distribution t avec SE = s√ n
19
Machine Translated by Google
53. Récapitulatif : Inférence utilisant la distribution t
• indépendance des observations (souvent vérifiée par un
échantillon aléatoire, et si échantillonnage sans remise, n < 10
% de la
population) • pas de biais extrême
• Conditions:
• Si σ est inconnu, utilisez la distribution t avec SE = s√ n
.
19
Machine Translated by Google
54. Récapitulatif : Inférence utilisant la distribution t
• indépendance des observations (souvent vérifiée par un
échantillon aléatoire, et si échantillonnage sans remise, n < 10
% de la
population) • pas de biais extrême
SE
Tdf =
• Si σ est inconnu, utilisez la distribution t avec SE = s√ n
.
,
• Conditions:
• Test d'hypothèse :
estimation ponctuelle − valeur nulle
où df = n − 1
19
Machine Translated by Google
55. Récapitulatif : Inférence utilisant la distribution t
• indépendance des observations (souvent vérifiée par un
échantillon aléatoire, et si échantillonnage sans remise, n < 10
% de la
population) • pas de biais extrême
Tdf = SE
où df = n − 1
.
estimation ponctuelle ± t × SE df
• Test d'hypothèse :
estimation ponctuelle − valeur nulle
• Si σ est inconnu, utilisez la distribution t avec SE = s√ n
• Intervalle de confiance:
,
• Conditions:
19
Machine Translated by Google
56. Récapitulatif : Inférence utilisant la distribution t
• indépendance des observations (souvent vérifiée par un
échantillon aléatoire, et si échantillonnage sans remise, n < 10
% de la
population) • pas de biais extrême
Tdf = SE
où df = n − 1
.
estimation ponctuelle ± t × SE df
• Test d'hypothèse :
estimation ponctuelle − valeur nulle
• Si σ est inconnu, utilisez la distribution t avec SE = s√ n
• Intervalle de confiance:
,
• Conditions:
Remarque : L'exemple que nous avons utilisé concernait les moyennes appariées (différence entre
groupes dépendants). Nous avons pris la différence entre les observations et utilisé 19
Machine Translated by Google
58. 200 observations ont été échantillonnées au hasard à partir de l’enquête High
School and Beyond. Les mêmes étudiants ont passé un test de lecture et
d’écriture et leurs résultats sont indiqués cidessous. À première vue, semble
til y avoir une différence entre les résultats moyens aux tests de lecture et
d’écriture ?
20
80
60
40
lire écrire
20
oui
p
a
r
t
i
t
i
o
n
s
Machine Translated by Google
59. sont présentés cidessous. Les résultats en lecture et en écriture de chaque élève
sontils indépendants les uns des autres ?
(a) Oui
Les mêmes étudiants ont passé un test de lecture et d'écriture et leurs résultats
b) Non
21
63
63
je lis, j'écris
65
44
33
3 141
200 137
52
52
2 86 44
1 70
4 172
57
47
. .
.
.
.
. .
.
.
.
.
.
Machine Translated by Google
60. (a) Oui
sont présentés cidessous. Les résultats en lecture et en écriture de chaque élève
sontils indépendants les uns des autres ?
Les mêmes étudiants ont passé un test de lecture et d'écriture et leurs résultats
b) Non
21
63
63
je lis, j'écris
65
44
33
3 141
200 137
52
52
2 86 44
1 70
4 172
57
47
.
.
.
.
.
.
.
.
.
.
.
.
Machine Translated by Google
61. • Lorsque deux ensembles d'observations ont cette particularité
correspondance (non indépendante), on dit qu'ils sont appariés.
22
Analyser des données appariées
Machine Translated by Google
62. correspondance (non indépendante), on dit qu'ils sont appariés.
• Lorsque deux ensembles d'observations ont cette particularité
diff = lire − écrire
• Pour analyser des données appariées, il est souvent utile d'examiner
la différence dans les résultats de chaque paire d'observations.
22
Analyser des données appariées
Machine Translated by Google
63. Analyser des données appariées
0
2
0
4
0
22
44 19
70
200 137 63
57
4 172
33 11
je lis, écris, diff
3 141 63
1
2 86 44
52
65 2
47
5
52 5
Différences de scores (lecture – écriture)
.
. . .
. .
. . .
. .
.
.
.
.
correspondance (non indépendante), on dit qu'ils sont appariés.
• Lorsque deux ensembles d'observations ont cette particularité
différence dans les résultats de chaque paire d’observations.
• Il est important de toujours soustraire en utilisant une méthode cohérente
• Pour analyser des données appariées, il est souvent utile d'examiner
diff = lire − écrire
commande.
−20 0 dix
−10 20
Machine Translated by Google
64. µdiff
Estimation des paramètres et des points
• Paramètre d'intérêt : Différence moyenne entre les scores
en lecture et en écriture de tous les élèves du secondaire.
23
Machine Translated by Google
65. Estimation des paramètres et des points
x¯diff
µdiff
rédiger des partitions d'élèves du secondaire échantillonnés .
• Estimation ponctuelle : écart moyen entre la lecture et
• Paramètre d'intérêt : Différence moyenne entre les scores en lecture et
en écriture de tous les élèves du secondaire.
23
Machine Translated by Google
66. S’il n’y avait en fait aucune différence entre les résultats aux examens
de lecture et d’écriture, quelle serait, selon vous, la différence
moyenne ?
24
Poser les hypothèses
Machine Translated by Google
67. S’il n’y avait en fait aucune différence entre les résultats aux examens
de lecture et d’écriture, quelle serait, selon vous, la différence
moyenne ?
0
24
Poser les hypothèses
Machine Translated by Google
68. S’il n’y avait en fait aucune différence entre les résultats aux examens
de lecture et d’écriture, quelle serait, selon vous, la différence
moyenne ?
0
Quelles sont les hypothèses à tester s’il existe une différence entre
les scores moyens en lecture et en écriture ?
24
Poser les hypothèses
Machine Translated by Google
69. Poser les hypothèses
S’il n’y avait en fait aucune différence entre les résultats aux examens
de lecture et d’écriture, quelle serait, selon vous, la différence
moyenne ?
0
H0 : Il n’y a pas de différence entre le score moyen en lecture
et en écriture.
HA : Il y a une différence entre la moyenne en lecture et en écriture
Quelles sont les hypothèses à tester s’il existe une différence entre
les scores moyens en lecture et en écriture ?
score.
µdiff = 0
µdiff 0 24
Machine Translated by Google
70. 25
Rien de nouveau ici
0.
• L'analyse n'est pas différente de ce que nous avons fait auparavant.
• Nous disposons de données provenant d'un échantillon :
les différences. • Nous testons pour voir si la différence moyenne est différente de celle
Machine Translated by Google
71. 26
Vérification des hypothèses et des conditions
Lequel des énoncés suivants est vrai?
(a) Étant donné que les élèves sont échantillonnés au hasard et représentent moins
de 10 % de tous les élèves du secondaire, nous pouvons supposer que la
différence entre les résultats en lecture et en écriture d’un élève de l’échantillon
est indépendante de celle d’un autre.
continuer avec le test d’hypothèse.
(b) La distribution des différences est bimodale, on ne peut donc pas
(c) Pour que les différences soient aléatoires, nous aurions dû échantillonner avec
remise. (d) Étant
donné que les étudiants sont échantillonnés au hasard et représentent moins de
10 % de l'ensemble des étudiants, nous pouvons supposer que la distribution
d'échantillonnage de la différence moyenne sera presque normale.
Machine Translated by Google
72. 26
Vérification des hypothèses et des conditions
Lequel des énoncés suivants est vrai?
(a) Étant donné que les élèves sont échantillonnés au hasard et représentent moins
de 10 % de tous les élèves du secondaire, nous pouvons supposer que la
différence entre les résultats en lecture et en écriture d’un élève de l’échantillon
est indépendante de celle d’un autre.
continuer avec le test d’hypothèse.
(b) La distribution des différences est bimodale, on ne peut donc pas
(c) Pour que les différences soient aléatoires, nous aurions dû échantillonner avec
remise. (d) Étant
donné que les étudiants sont échantillonnés au hasard et représentent moins de
10 % de l'ensemble des étudiants, nous pouvons supposer que la distribution
d'échantillonnage de la différence moyenne sera presque normale.
Machine Translated by Google
73. −0,545 0 0,545
Calcul de la statistique de test et de la valeur p
L’écart moyen observé entre les deux scores est de 0,545 points et l’écart
type de l’écart est de 8,887 points.
Ces données fournissentelles des preuves convaincantes d’une différence
entre les scores moyens aux deux examens ? Utilisez α = 0,05.
27
Machine Translated by Google
74. Calcul de la statistique de test et de la valeur p
8.887
27
L’écart moyen observé entre les deux scores est de 0,545 points et l’écart
type de l’écart est de 8,887 points.
Ces données fournissentelles des preuves convaincantes d’une différence
entre les scores moyens aux deux examens ? Utilisez α = 0,05.
√
200
−0,545 = −0,87
0,628
dl = 200 − 1 = 199
−0,545 − 0
T =
=
−0,545 0 0,545
Machine Translated by Google
75. Calcul de la statistique de test et de la valeur p
8.887
27
Ces données fournissentelles des preuves convaincantes d’une différence
entre les scores moyens aux deux examens ? Utilisez α = 0,05.
L’écart moyen observé entre les deux scores est de 0,545 points et l’écart
type de l’écart est de 8,887 points.
p − valeur = 0,1927 × 2 = 0,3854
√
200
−0,545 = −0,87
0,628
dl = 200 − 1 = 199
−0,545 − 0
T =
=
−0,545 0 0,545
Machine Translated by Google
76. Calcul de la statistique de test et de la valeur p
8.887
27
Étant donné que la valeur p > 0,05 ne peut pas être rejetée, les données ne
fournissent pas de preuves convaincantes d'une différence entre les scores moyens
en lecture et en écriture.
Ces données fournissentelles des preuves convaincantes d’une différence entre les
scores moyens aux deux examens ? Utilisez α = 0,05.
L’écart moyen observé entre les deux scores est de 0,545 points et l’écart type de
l’écart est de 8,887 points.
p − valeur = 0,1927 × 2 = 0,3854
√
200
−0,545 = −0,87
0,628
dl = 200 − 1 = 199
−0,545 − 0
T =
=
−0,545 0 0,545
Machine Translated by Google
77. Parmi les énoncés suivants, lequel est l’interprétation correcte de la valeur p ?
(a) Probabilité que les notes moyennes aux examens de lecture et d’écriture
soient égales.
les examens sont différents.
où la différence moyenne entre les scores en lecture et en écriture est
d'au moins 0,545 (dans les deux sens), si en fait la véritable différence
moyenne entre les scores est de 0.
(b) Probabilité que les scores moyens en lecture et en écriture
(c) Probabilité d'obtenir un échantillon aléatoire de 200 étudiants
(d) Probabilité de rejeter à tort l’hypothèse nulle si en fait l’hypothèse nulle est
vraie.
28
Interprétation de la valeur p
Machine Translated by Google
78. Parmi les énoncés suivants, lequel est l’interprétation correcte de la valeur p ?
(a) Probabilité que les notes moyennes aux examens de lecture et d’écriture
soient égales.
les examens sont différents.
où la différence moyenne entre les scores en lecture et en écriture est
d'au moins 0,545 (dans les deux sens), si en fait la véritable différence
moyenne entre les scores est de 0.
(b) Probabilité que les scores moyens en lecture et en écriture
(c) Probabilité d'obtenir un échantillon aléatoire de 200 étudiants
(d) Probabilité de rejeter à tort l’hypothèse nulle si en fait l’hypothèse nulle est
vraie.
28
Interprétation de la valeur p
Machine Translated by Google
79. 29
Supposons que nous devions construire un intervalle de confiance de 95 % pour la différence
moyenne entre les scores en lecture et en écriture. Vous attendriezvous à ce que cet intervalle
inclue 0 ?
(a) oui (b)
non (c)
ne peut pas le déterminer à partir des informations fournies
HT ↔ CI
Machine Translated by Google
80. = −0,545 ± 1,97 × 0,628
= (−1,785, 0,695)
8,887
−0,545 ± 1,97
√ 200
= −0,545 ± 1,24
HT ↔ CI
(a) oui (b)
non (c)
ne peut pas le déterminer à partir des informations fournies
Supposons que nous devions construire un intervalle de confiance de 95 % pour la différence
moyenne entre les scores en lecture et en écriture. Vous attendriezvous à ce que cet intervalle
inclue 0 ?
29
Machine Translated by Google
82. Diamants
• Les poids des diamants sont mesurés en
carats. • 1 carat = 100 points, 0,99 carats = 99
points, etc. • La différence entre la taille d'un diamant de 0,99 carat et
un diamant de 1 carat est indétectable à l’œil nu, mais le
prix d’un diamant de 1 carat atil tendance à être plus élevé
que le prix d’un diamant de
0,99 ? • Nous allons tester s'il y a une différence entre les prix
moyens des diamants de 0,99 et 1 carat. •
Afin de pouvoir comparer des unités équivalentes, nous divisons
les prix des diamants de 0,99 carat par 99 et des diamants de
1 carat par 100, et comparons les prix moyens en points.
30
Machine Translated by Google
84. µpt99 − µpt100
Estimation des paramètres et des points
• Paramètre d'intérêt : Différence moyenne entre les prix en points
de tous les diamants de 0,99 carat et de 1 carat.
32
Machine Translated by Google
85. Estimation des paramètres et des points
µpt99 − µpt100
x¯pt99 − x¯pt100
• Paramètre d'intérêt : Différence moyenne entre les prix en points de tous les
diamants de 0,99 carat et de 1 carat.
• Estimation ponctuelle : écart moyen entre les prix des points des
échantillonné des diamants de 0,99 carat et de 1 carat.
32
Machine Translated by Google
86. Hypothèses
Laquelle des hypothèses suivantes constitue l'ensemble d'hypothèses correct
pour tester si le prix en points moyen des diamants de 1 carat (pt100) est
supérieur au prix en points moyen des diamants de 0,99 carat (pt99) ?
HA : µpt99 > µpt100
(a) H0 : µpt99 = µpt100
HA : µpt99 < µpt100
(d) H0 : x¯pt99 = x¯pt100
HA : x¯pt99 < x¯pt100
HA : µpt99 µpt100 (b)
H0 : µpt99 = µpt100
(c) H0 : µpt99 = µpt100
33
Machine Translated by Google
87. Hypothèses
Laquelle des hypothèses suivantes constitue l'ensemble d'hypothèses correct
pour tester si le prix en points moyen des diamants de 1 carat (pt100) est
supérieur au prix en points moyen des diamants de 0,99 carat (pt99) ?
(a) H0 : µpt99 = µpt100
HA : µpt99 > µpt100
HA : µpt99 < µpt100
(d) H0 : x¯pt99 = x¯pt100
HA : x¯pt99 < x¯pt100
HA : µpt99 µpt100 (b)
H0 : µpt99 = µpt100
(c) H0 : µpt99 = µpt100
33
Machine Translated by Google
88. Conditions
(a) Le prix en points d'un diamant de 0,99 carat dans l'échantillon doit être indépendant d'un
autre, et le prix en points d'un diamant de 1 carat doit également être indépendant
d'un autre.
Lequel des éléments suivants ne doit pas être satisfait pour effectuer ce test d’hypothèse à
l’aide de méthodes théoriques ?
(c) Répartitions des prix en points des diamants de 0,99 et 1 carat
(d) Les deux tailles d’échantillon doivent être d’au moins 30.
(b) Les prix ponctuels des diamants de 0,99 carat et de 1 carat dans l'échantillon doivent
être indépendants.
ne devrait pas être extrêmement asymétrique.
34
Machine Translated by Google
89. Conditions
Lequel des éléments suivants ne doit pas être satisfait pour effectuer ce test d’hypothèse à
l’aide de méthodes théoriques ?
(a) Le prix en points d'un diamant de 0,99 carat dans l'échantillon doit être indépendant d'un
autre, et le prix en points d'un diamant de 1 carat doit également être indépendant
d'un autre.
(c) Répartitions des prix en points des diamants de 0,99 et 1 carat
(d) Les deux tailles d’échantillon doivent être d’au moins 30.
(b) Les prix ponctuels des diamants de 0,99 carat et de 1 carat dans l'échantillon doivent
être indépendants.
ne devrait pas être extrêmement asymétrique.
34
Machine Translated by Google
90. Statistique de test
n2
2
s
1
2
et 2
n1
moyens
Test statistique pour l'inférence sur la différence de deux petits échantillons
où σ1 et σ2 sont inconnus est la statistique T.
estimation ponctuelle −
valeur nulle Tdf = SE
et
La statistique de test pour l'inférence sur la différence de deux moyennes
où
df = min(n1 − 1, n2 − 1)
SE = +
nous utiliserons la formule cidessus pour estimer le vrai df lors de l'analyse
Remarque : Le calcul du df est en réalité beaucoup plus compliqué. Pour la simplicité
par la main. 35
Machine Translated by Google
91. Statistique de test (suite)
X
s
n
36
0,99 carat 1 carat
pt99
44,50 53.43
13h32 12.22
pt100
30
23
Dans le contexte...
Machine Translated by Google
92. Statistique de test (suite)
s
T =
n
SE
X
36
0,99 carat 1 carat
30
pt99
44,50
13h32
pt100
23
53.43
estimation ponctuelle valeur nulle
12.22
Dans le contexte...
Machine Translated by Google
93. Statistique de test (suite)
=
s
(44,50 − 53,43) − 0
n
X
SE
+
T =
30
13.322 12.222
23
0,99 carat 1 carat
30
pt99
44,50
13h32
pt100
23
53.43
estimation ponctuelle valeur nulle
12.22
Dans le contexte...
36
Machine Translated by Google
94. Statistique de test (suite)
3,56
s
(44,50 − 53,43) − 0
n
SE
X
−8,93
=
+
T =
=
30
13.322 12.222
23
0,99 carat 1 carat
30
pt99
44,50
13h32
pt100
23
53.43
estimation ponctuelle valeur nulle
12.22
Dans le contexte...
36
Machine Translated by Google
95. Statistique de test (suite)
X
SE
−8,93
s
(44,50 − 53,43) − 0
n
=
T =
3,56
=
= −2,508
+ 30
13.322 12.222
23
0,99 carat 1 carat
30
pt99
44,50
13h32
pt100
23
53.43
estimation ponctuelle valeur nulle
12.22
Dans le contexte...
36
Machine Translated by Google
96. Statistique de test (suite)
Lequel des énoncés suivants est le df correct pour ce test d’hypothèse ?
(a) 22
c) 30
(e) 52
b) 23
d) 29
37
Machine Translated by Google
97. Statistique de test (suite)
(a) 22
Lequel des énoncés suivants est le df correct pour ce test d’hypothèse ?
c) 30
(e) 52
b) 23
d) 29
→ df = min(npt99 − 1, npt100 −
1) = min(23 − 1, 30 −
1) = min(22, 29) = 22
37
Machine Translated by Google
98. valeur p
38
Parmi les propositions suivantes, laquelle est la valeur p correcte pour ce test d’hypothèse ?
(a) entre 0,005 et 0,01
(c) entre 0,02 et 0,05
(d) entre 0,01 et 0,02
(b) entre 0,01 et 0,025
T = −2,508 df = 22
Machine Translated by Google
99. valeur p
38
Parmi les propositions suivantes, laquelle est la valeur p correcte pour ce test d’hypothèse ?
(a) entre 0,005 et 0,01
(c) entre 0,02 et 0,05
(d) entre 0,01 et 0,02
(b) entre 0,01 et 0,025
df = 22
> pt(q = 2,508, df = 22) [1] 0,0100071
T = −2,508
Machine Translated by Google
100. Quelle est la conclusion du test d’hypothèse ? Comment (le cas échéant) cette
conclusion changeraitelle votre comportement si vous alliez acheter des
diamants ?
39
La synthèse
Machine Translated by Google
101. • La valeur p est petite donc rejetez H0. Les données fournissent des preuves
convaincantes suggérant que le prix en points des diamants de 0,99
carat est inférieur au prix en points des diamants de 1 carat.
Quelle est la conclusion du test d’hypothèse ? Comment (le cas échéant) cette conclusion
changeraitelle votre comportement si vous alliez acheter des diamants ?
nettement moins cher.
• Peutêtre acheter un diamant de 0,99 carat ? Cela ressemble à un 1 carat, mais c'est
39
La synthèse
Machine Translated by Google
102. (a) 90 %
(b) 92,5 %
Quel est le niveau de confiance équivalent pour un test d’hypothèse
unilatéral à α = 0,05 ?
(d) 97,5 %
c) 95 %
40
Niveau de confiance équivalent
Machine Translated by Google
103. 90%
Niveau de confiance équivalent
0
(a) 90 %
Quel est le niveau de confiance équivalent pour un test d’hypothèse
unilatéral à α = 0,05 ?
c) 95 %
(b) 92,5 %
(d) 97,5 %
5% 5%
40
Machine Translated by Google
104. Valeur critique
Quel est le t approprié pour un intervalle de confiance pour la différence
moyenne entre les prix ponctuels des diamants de 0,99 et de 1 carat ?
(a) 1,32
c) 2,07
(b) 1,72
(d) 2,82
41
Machine Translated by Google
105. Valeur critique
41
(a) 1,32
Quel est le t approprié pour un intervalle de confiance pour la différence
moyenne entre les prix ponctuels des diamants de 0,99 et de 1 carat ?
c) 2,07
(b) 1,72
(d) 2,82
> qt(p = 0,95, df = 22)
[1] 1,717144
Machine Translated by Google
107. Intervalle de confiance
Calculez l'intervalle et interprétezle dans son contexte.
estimation ponctuelle ± ME
42
Machine Translated by Google
108. Intervalle de confiance
Calculez l'intervalle et interprétezle dans son contexte.
estimation ponctuelle ± ME
(¯xpt99 − x¯pt1) ± t × SE = (44,50 − 53,43) ± 1,72 × 3,56 dl
42
Machine Translated by Google
109. Intervalle de confiance
Calculez l'intervalle et interprétezle dans son contexte.
estimation ponctuelle ± ME
= −8,93 ± 6,12
(¯xpt99 − x¯pt1) ± t × SE = (44,50 − 53,43) ± 1,72 × 3,56 dl
42
Machine Translated by Google
110. Intervalle de confiance
Calculez l'intervalle et interprétezle dans son contexte.
estimation ponctuelle ± ME
× SE = (44,50 − 53,43) ± 1,72 × 3,56 dl
= (−15,05, −2,81)
(¯xpt99 − x¯pt1) ± t
= −8,93 ± 6,12
42
Machine Translated by Google
111. Intervalle de confiance
Nous sommes convaincus à 90 % que le prix moyen d’un diamant de 0,99 carat est
inférieur de 15,05 $ à 2,81 $ au prix moyen d’un diamant de 1 carat.
estimation ponctuelle ± ME
Calculez l'intervalle et interprétezle dans son contexte.
× SE = (44,50 − 53,43) ± 1,72 × 3,56 dl
= (−15,05, −2,81)
(¯xpt99 − x¯pt1) ± t
= −8,93 ± 6,12
42
Machine Translated by Google
112. Récapitulatif : Inférence utilisant la différence de deux moyennes de petits échantillons
43
• Si σ1 ou σ2 est inconnu, différence entre les moyennes de l'échantillon
suivre une distribution t avec SE = .
2
et 2
n1
2
s
1
n1
+
Machine Translated by Google
113. Récapitulatif : Inférence utilisant la différence de deux moyennes de petits échantillons
n1
2
et 2
n1
2
s
1
• Si σ1 ou σ2 est inconnu, différence entre les moyennes de l'échantillon
suivre une distribution t avec SE =
• Conditions:
.
• indépendance au sein des groupes (souvent vérifiée par sondage aléatoire)
échantillon, et si échantillonnage sans remise, n < 10 % de la population)
et entre les groupes • pas d'asymétrie
extrême dans l'un ou l'autre des groupes
+
43
Machine Translated by Google
114. Récapitulatif : Inférence utilisant la différence de deux moyennes de petits échantillons
n1
2
et 2
n1
2
s
1
• Si σ1 ou σ2 est inconnu, différence entre les moyennes de l'échantillon
suivre une distribution t avec SE =
,
échantillon, et si échantillonnage sans remise, n < 10 % de la
population) et entre les groupes • pas
de biais extrême dans l'un ou l'autre des
groupes • Test d'hypothèse :
estimation ponctuelle − valeur nulle
• Conditions:
.
• indépendance au sein des groupes (souvent vérifiée par sondage aléatoire)
SE
+
Tdf = où df = min(n1−1, n2−1)
43
Machine Translated by Google
115. Récapitulatif : Inférence utilisant la différence de deux moyennes de petits échantillons
n1
2
et 2
n1
2
s
1
,
.
• Conditions:
estimation ponctuelle ± t × SE df
SE
• Intervalle de confiance :
• Si σ1 ou σ2 est inconnu, différence entre les moyennes de l'échantillon
échantillon, et si échantillonnage sans remise, n < 10 % de la
population) et entre les groupes • pas
de biais extrême dans l'un ou l'autre des
groupes • Test d'hypothèse :
estimation ponctuelle − valeur nulle
suivre une distribution t avec SE =
• indépendance au sein des groupes (souvent vérifiée par sondage aléatoire)
+
où df = min(n1−1, n2−1)
Tdf =
43
Machine Translated by Google
116. Calcul de la puissance pour un
test à 2 échantillons
Machine Translated by Google
117. 44
ne pas rejeter H0 rejeter H0
Vérité
Décision
H0 vrai
HA vrai
Machine Translated by Google
118. 44
Erreur de type 1, α
H0 vrai
• L'erreur de type 1 consiste à rejeter H0 alors que vous n'auriez pas dû le faire,
et la probabilité de le faire est α (niveau de signification).
rejeter H0
ne pas rejeter H0
HA vrai
Décision
Vérité
Machine Translated by Google
119. rejeter H0
ne pas rejeter H0
Erreur de type 1, α
H0 vrai
• L'erreur de type 1 consiste à rejeter H0 alors que vous n'auriez pas dû, et la
probabilité de le faire est α (niveau de signification). •
L'erreur de type 2 consiste à ne pas rejeter H0 alors que vous auriez dû, et la
probabilité de le faire est β (un un peu plus compliqué à calculer)
Vérité
HA vraie erreur de type 2, β
Décision
44
Machine Translated by Google
120. rejeter H0
HA vraie erreur de type 2, β
• L'erreur de type 1 consiste à rejeter H0 alors que vous n'auriez pas dû, et la
probabilité de le faire est α (niveau de signification). •
L'erreur de type 2 consiste à ne pas rejeter H0 alors que vous auriez dû, et la
probabilité de le faire est β (un un peu plus compliqué à calculer)
Vérité
ne parvient pas à rejeter
H0 1 − α
H0 vrai
la probabilité de le faire est 1 − β
Décision
Erreur de type 1, α
• La puissance d'un test est la probabilité de rejeter correctement H0, et
44
Machine Translated by Google
121. Décision
Vérité
ne parvient pas à rejeter
H0 1 − α
rejeter H0
HA vraie erreur de type 2, puissance β , 1 − β
• L'erreur de type 1 consiste à rejeter H0 alors que vous n'auriez pas dû, et la
probabilité de le faire est α (niveau de signification). • L'erreur
de type 2 consiste à ne pas rejeter H0 alors que vous auriez dû, et la probabilité de
le faire est β (un un peu plus compliqué à calculer)
• Dans les tests d'hypothèse, nous voulons maintenir α et β faibles, mais il
Erreur de type 1, α
sont des compromis inhérents.
• La puissance d'un test est la probabilité de rejeter correctement H0, et
H0 vrai
la probabilité de le faire est 1 − β
44
Machine Translated by Google
122. Taux d'erreur de type 2
Si l'hypothèse alternative est réellement vraie, quelle est la probabilité que nous
commettions une erreur de type 2, c'estàdire que nous ne parvenions pas à rejeter
l'hypothèse nulle même si nous devrions la rejeter ?
• La réponse n'est pas évidente.
valeur d’hypothèse, il sera difficile de détecter une différence (et de rejeter H0).
• Clairement, β dépend de la taille de l'effet (δ)
• Si la moyenne réelle de la population est très proche de la valeur nulle
• Si la moyenne réelle de la population est très différente de la valeur de
l'hypothèse nulle, il sera plus facile de détecter une différence.
45
Machine Translated by Google
123. Exemple Tension artérielle (TA), hypothèses
Supposons qu'une société pharmaceutique ait développé un nouveau médicament pour abaisser
la tension artérielle et qu'elle prépare un essai clinique pour tester l'efficacité du médicament.
Ils recrutent des personnes qui prennent un médicament standard particulier contre l'hypertension,
et la moitié des sujets reçoivent le nouveau médicament (traitement) et l'autre moitié continue de
prendre leur médicament actuel au moyen de pilules d'apparence générique pour assurer la mise
en aveugle (contrôle). Quelles sont les hypothèses pour un test d'hypothèse bilatéral dans ce
contexte?
46
Machine Translated by Google
124. Exemple Tension artérielle (TA), hypothèses
contexte?
Ils recrutent des personnes qui prennent un médicament standard particulier contre l'hypertension,
et la moitié des sujets reçoivent le nouveau médicament (traitement) et l'autre moitié continue de
prendre leur médicament actuel au moyen de pilules d'apparence générique pour assurer la mise
en aveugle (contrôle). Quelles sont les hypothèses pour un test d'hypothèse bilatéral dans ce
Supposons qu'une société pharmaceutique ait développé un nouveau médicament pour abaisser
la tension artérielle et qu'elle prépare un essai clinique pour tester l'efficacité du médicament.
HA : µtraitement − µcontrôle 0
H0 : µtraitement − µcontrôle = 0
46
Machine Translated by Google
125. Exemple BP, erreur standard
Supposons que les chercheurs souhaitent mener un essai clinique sur des patients atteints de
tension artérielle comprise entre 140 et 180 mmHg. Supposons que ce soit déjà publié
être d'environ 12 mmHg et la répartition des tensions artérielles des patients sera à peu près
symétrique. Si nous avions 100 patients par groupe, quelle serait l'erreur type approximative
pour la différence entre les moyennes d'échantillon du traitement et du contrôle ?
des études suggèrent que l'écart type de la tension artérielle des patients sera
groupes?
47
Machine Translated by Google
126. Exemple BP, erreur standard
Supposons que les chercheurs souhaitent mener un essai clinique sur des patients présentant
une tension artérielle systolique comprise entre 140 et 180 mmHg. Supposons que des études
publiées précédemment suggèrent que l'écart type de la tension artérielle des patients sera
d'environ 12 mmHg et que la distribution des tensions artérielles des patients sera à peu près
symétrique. Si nous avions 100 patients par groupe, quelle serait l'erreur type approximative
pour la différence entre les moyennes d'échantillon des groupes de traitement et des groupes
témoins ?
122
SE =
100
122
= 1,70
100
+
47
Machine Translated by Google
127. Exemple BP, taille d'effet minimale requise pour rejeter H0
Pour quelles valeurs de la différence entre les moyennes observées de la pression artérielle dans
les groupes de traitement et les groupes témoins (taille de l’effet) devrionsnous rejeter l’hypothèse
nulle au niveau de signification de 5 % ?
48
Machine Translated by Google
128. Exemple BP, taille d'effet minimale requise pour rejeter H0
Pour quelles valeurs de la différence entre les moyennes observées de la pression artérielle dans
les groupes de traitement et les groupes témoins (taille de l’effet) devrionsnous rejeter l’hypothèse
nulle au niveau de signification de 5 % ?
xtrmt − xctrl
Rejeter H0
−6
Ne pas
3
−3
rejeter H0
6
0 9
Rejeter H0
−9
Distribution nulle
48
Machine Translated by Google
129. Exemple BP, taille d'effet minimale requise pour rejeter H0
Pour quelles valeurs de la différence entre les moyennes observées de la pression artérielle dans
les groupes de traitement et les groupes témoins (taille de l’effet) devrionsnous rejeter l’hypothèse
nulle au niveau de signification de 5 % ?
xtrmt − xctrl
48
Distribution nulle
Rejeter H0
−9 9
Rejeter H0
0
rejeter H0
6
−3
Ne pas
3
−6
ou tout au plus
La différence devrait être d'au moins
−1,96 1,70 = 3,332.
1,96 1,70 = 3,332
Machine Translated by Google
130. Exemple BP, puissance
Supposons que les chercheurs de l’entreprise se soucient de trouver un effet sur la tension
artérielle supérieur ou égal à 3 mmHg par rapport au médicament standard. Quelle est la
puissance du test permettant de détecter cet effet ?
49
Machine Translated by Google
131. Exemple BP, puissance
xtrmt − xctrl
µtrmt − µctrl
du test qui permet de détecter cet effet ?
pression supérieure ou égale à 3 mmHg par rapport au médicament standard. Quelle est la puissance
Supposons que les chercheurs de l'entreprise se soucient de découvrir un quelconque effet sur le sang.
Distribution nulle
−9 9
0
Distribution avec
= −3
6
−3 3
−6
49
Machine Translated by Google
132. Exemple BP, puissance
µtrmt − µctrl
xtrmt − xctrl
49
du test qui permet de détecter cet effet ?
Supposons que les chercheurs de l'entreprise se soucient de découvrir un quelconque effet sur le sang.
pression supérieure ou égale à 3 mmHg par rapport au médicament standard. Quelle est la puissance
Distribution nulle
−9 9
0
Distribution avec
= −3
6
−3 3
−6
−3,332 − (−3)
= −0,20
Z =
1,70
Machine Translated by Google
133. Exemple BP, puissance
xtrmt − xctrl
µtrmt − µctrl
49
du test qui permet de détecter cet effet ?
pression supérieure ou égale à 3 mmHg par rapport au médicament standard. Quelle est la puissance
Supposons que les chercheurs de l'entreprise se soucient de découvrir un quelconque effet sur le sang.
Distribution nulle
−9 9
0
Distribution avec
= −3
6
−3 3
−6
P(Z < −0,20) = 0,4207
−3,332 − (−3)
= −0,20
Z =
1,70
Machine Translated by Google
134. Exemple BP, taille d'échantillon requise pour une puissance de 80 %
Quelle taille d’échantillon conduira à une puissance de 80 % pour ce test ?
50
Machine Translated by Google
135. Exemple BP, taille d'échantillon requise pour une puissance de 80 %
µtrmt − µctrl
Quelle taille d’échantillon conduira à une puissance de 80 % pour ce test ?
Distribution avec
= −3
−6 −3 9
−9 6
Distribution nulle
3
0 xtrmt − xctrl
50
Machine Translated by Google
136. Exemple BP, taille d'échantillon requise pour une puissance de 80 %
µtrmt − µctrl
50
Quelle taille d’échantillon conduira à une puissance de 80 % pour ce test ?
Distribution avec
= −3
−6 −3 9
−9 6
Distribution nulle
3
0 xtrmt − xctrl
SE =
2.8
3
= 1,07142
Machine Translated by Google
137. Exemple BP, taille d'échantillon requise pour une puissance de 80 %
µtrmt − µctrl
Quelle taille d’échantillon conduira à une puissance de 80 % pour ce test ?
Distribution avec
= −3
−6 −3 9
−9 6
Distribution nulle
3
0 xtrmt − xctrl
1,07142 =
= 1,07142
+
2.8
n
122
3
n
122
SE =
50
Machine Translated by Google
138. Exemple BP, taille d'échantillon requise pour une puissance de 80 %
µtrmt − µctrl
Quelle taille d’échantillon conduira à une puissance de 80 % pour ce test ?
3
−9 6
−6
Distribution avec
= −3
9
−3
0 xtrmt − xctrl
Distribution nulle
2.8
122
3
122
1,07142 =
n
SE =
n = 250,88 → n ≥ 251
+
= 1,07142
n
50
Machine Translated by Google
139. résumer
P
o
u
v
o
i
r
taille de l'échantillon qui donne la puissance cible (généralement 80 % ou 90 %)
• Calculez la puissance pour une plage de tailles d'échantillon, puis choisissez la
• Calculer la taille d'échantillon requise pour un niveau de puissance souhaité
0,6
500
50 1000 2000
0,2
5000
1.0
100
Taille de l'échantillon par groupe
0,0
200
0,8
0,4
20
51
Machine Translated by Google
140. 52
Atteindre la puissance souhaitée
Il existe plusieurs façons d'augmenter la puissance (et donc de réduire le
taux d'erreur de type 2) :
Machine Translated by Google
141. Atteindre la puissance souhaitée
52
Il existe plusieurs façons d'augmenter la puissance (et donc de réduire le
taux d'erreur de type 2) :
1. Augmentez la taille de l’échantillon.
Machine Translated by Google
142. Atteindre la puissance souhaitée
Il existe plusieurs façons d'augmenter la puissance (et donc de réduire le
taux d'erreur de type 2) :
1. Augmentez la taille de l’échantillon.
2. Diminuez l’écart type de l’échantillon, ce qui a essentiellement le même effet
qu’augmenter la taille de l’échantillon (cela diminuera l’erreur type). Avec un s plus
petit , nous avons de meilleures chances de distinguer la valeur nulle de l'estimation
ponctuelle observée. Ceci est difficile à garantir, mais un processus de mesure prudent
et une limitation de la population afin qu'elle soit plus homogène peuvent aider.
52
Machine Translated by Google
143. Atteindre la puissance souhaitée
52
Il existe plusieurs façons d'augmenter la puissance (et donc de réduire le
taux d'erreur de type 2) :
1. Augmentez la taille de l’échantillon.
2. Diminuez l’écart type de l’échantillon, ce qui a essentiellement le même effet
qu’augmenter la taille de l’échantillon (cela diminuera l’erreur type). Avec un s plus
petit , nous avons de meilleures chances de distinguer la valeur nulle de l'estimation
ponctuelle observée. Ceci est difficile à garantir, mais un processus de mesure prudent
et une limitation de la population afin qu'elle soit plus homogène peuvent aider.
3. Augmentez α, ce qui augmentera la probabilité de rejeter H0 (mais notez que cela a pour
effet secondaire d'augmenter le taux d'erreur de type 1).
Machine Translated by Google
144. Atteindre la puissance souhaitée
52
Il existe plusieurs façons d'augmenter la puissance (et donc de réduire le
taux d'erreur de type 2) :
1. Augmentez la taille de l’échantillon.
3. Augmentez α, ce qui augmentera la probabilité de rejeter H0 (mais notez que cela a pour
effet secondaire d'augmenter le taux d'erreur de type 1).
2. Diminuez l’écart type de l’échantillon, ce qui a essentiellement le même effet
qu’augmenter la taille de l’échantillon (cela diminuera l’erreur type). Avec un s plus
petit , nous avons de meilleures chances de distinguer la valeur nulle de l'estimation
ponctuelle observée. Ceci est difficile à garantir, mais un processus de mesure prudent
et une limitation de la population afin qu'elle soit plus homogène peuvent aider.
4. Envisagez une taille d’effet plus grande. Si la vraie moyenne de la population se situe
dans l’hypothèse alternative mais proche de la valeur nulle, il sera plus difficile de détecter
une différence.
Machine Translated by Google
146. 53
• La rivière Wolf, dans le Tennessee, coule à côté d'un site abandonné autrefois
utilisé par l'industrie des pesticides pour y déverser des déchets, notamment
du chlordane (pesticide), de l'aldrine et de la dieldrine (tous deux insecticides).
Machine Translated by Google
147. 53
• La rivière Wolf, dans le Tennessee, coule à côté d'un site abandonné autrefois utilisé par
l'industrie des pesticides pour y déverser des déchets, notamment du chlordane
(pesticide), de l'aldrine et de la dieldrine (tous deux insecticides).
• Ces composés organiques hautement toxiques peuvent provoquer divers cancers
et les malformations congénitales.
Machine Translated by Google
148. 53
• Ces composés organiques hautement toxiques peuvent provoquer divers cancers
et les malformations congénitales.
présents dans une rivière est de prélever des échantillons aux six dixièmes de profondeur.
• La rivière Wolf, dans le Tennessee, coule à côté d'un site abandonné autrefois utilisé par l'industrie des
pesticides pour y déverser des déchets, notamment du chlordane (pesticide), de l'aldrine et de la
dieldrine (tous deux insecticides).
• Les méthodes standards pour tester si ces substances sont
Machine Translated by Google
149. 53
et les malformations congénitales.
• Ces composés organiques hautement toxiques peuvent provoquer divers cancers
présents dans une rivière est de prélever des échantillons aux six dixièmes de profondeur.
• La rivière Wolf, dans le Tennessee, coule à côté d'un site abandonné autrefois utilisé
par l'industrie des pesticides pour y déverser des déchets, notamment du
chlordane (pesticide), de l'aldrine et de la dieldrine (tous deux insecticides).
• Les méthodes standards pour tester si ces substances sont
• Mais comme ces composés sont plus denses que l'eau et que leur
les molécules ont tendance à adhérer aux particules de sédiments, elles sont plus
susceptibles de se trouver en concentrations plus élevées près du fond que près du fond.
Machine Translated by Google
150. ...
Concentration d'aldrine (nanogrammes par litre) à trois niveaux de profondeur.
aldrine
bas
11 3.20 miprofondeur
surface
...
surface
10 8,80
22 3,60
20 6,60 miprofondeur
profondeur
bas
bas
21 3.10
1 3,80
12 3,80 miprofondeur
30 5.20
2 4,80
...
surface
54
Données
Machine Translated by Google
151. Analyse exploratoire
8
4 5 7 9
3 6
30 5,1 0 1,37
bas
Concentration d'aldrine (nanogrammes par litre) à trois niveaux de profondeur.
miprofondeur 10 5,05 1,10
superficie 10 4,20 0,66
je veux dire sd
dans l'ensemble
10 6,04 1,58
s
u
r
f
a
c
e
b
a
s
m
i
p
r
o
f
o
n
d
e
u
r
55
Machine Translated by Google
152. Y atil une différence entre les concentrations moyennes d'aldrine
parmi les trois niveaux ?
56
Question de recherche
Machine Translated by Google
153. • Pour comparer les moyennes de 2 groupes, nous utilisons une statistique Z ou T.
parmi les trois niveaux ?
Y atil une différence entre les concentrations moyennes d'aldrine
56
Question de recherche
Machine Translated by Google
154. Y atil une différence entre les concentrations moyennes d'aldrine
parmi les trois niveaux ?
ANOVA et une nouvelle statistique appelée F.
• Pour comparer les moyennes de 2 groupes, nous utilisons une statistique Z ou T. •
Pour comparer les moyennes de groupes de 3+, nous utilisons un nouveau test appelé
56
Question de recherche
Machine Translated by Google
155. L'ANOVA est utilisée pour évaluer si la moyenne des résultats
La variable est différente pour différents niveaux d'une variable catégorielle.
57
ANOVA
Machine Translated by Google
156. µ1 = µ2 = · · · = µk,
ANOVA
La variable est différente pour différents niveaux d'une variable catégorielle.
L'ANOVA est utilisée pour évaluer si la moyenne des résultats
HA : Au moins une moyenne est différente des autres.
H0 : Le résultat moyen est le même dans toutes les catégories,
où µi représente la moyenne des résultats pour les observations de la
catégorie i.
57
Machine Translated by Google
157. Conditions
58
1. Les observations doivent être indépendantes au sein et entre
groupes
pas de
jumelage). • Toujours important, mais parfois difficile à vérifier.
• Si les données sont un échantillon aléatoire simple provenant de moins de
10 % de la population, cette condition est
satisfaite. • Examinez attentivement si les données peuvent être indépendantes (par ex.
Machine Translated by Google
158. Conditions
58
1. Les observations doivent être indépendantes au sein et entre
groupes
Comment vérifier la normalité ?
2. Les observations au sein de chaque groupe devraient être presque normales.
• Si les données sont un échantillon aléatoire simple provenant de moins de 10
% de la population, cette condition est satisfaite. •
Examinez attentivement si les données peuvent être indépendantes (par ex.
pas de
jumelage). • Toujours important, mais parfois difficile à vérifier.
• Particulièrement important lorsque la taille des échantillons est petite.
Machine Translated by Google
159. Conditions
58
1. Les observations doivent être indépendantes au sein et entre
groupes
Comment vérifier la normalité ?
Comment pouvonsnous vérifier cette condition ?
2. Les observations au sein de chaque groupe devraient être presque normales.
3. La variabilité entre les groupes doit être à peu près égale.
pas de
jumelage). • Toujours important, mais parfois difficile à vérifier.
• Particulièrement important lorsque la taille des échantillons est petite.
• Particulièrement important lorsque les tailles d'échantillon diffèrent entre
groupes.
• Si les données sont un échantillon aléatoire simple provenant de moins de 10
% de la population, cette condition est satisfaite. •
Examinez attentivement si les données peuvent être indépendantes (par ex.
Machine Translated by Google
160. 59
Test z/t vs ANOVA – Objectif
H0 : µ1 = µ2
H0 : µ1 = µ2 = · · · = µk
ANOVA
test z/t
Comparez les moyennes de
deux groupes pour voir si elles sont
si éloignées que la différence
observée ne peut raisonnablement
être attribuée à la variabilité d'échantillonnage.
Comparez les moyennes de deux
groupes ou plus pour voir s'ils sont si
éloignés que les différences observées
ne peuvent pas toutes être
raisonnablement attribuées à
la variabilité d'échantillonnage.
Machine Translated by Google
161. test z/t
Calculez une statistique de test (un ratio). Calculez une statistique de test (un ratio).
ANOVA
pari de variabilité. groupes
F =
variabilité selon les groupes
60
Test z/t vs ANOVA Méthode
(¯x1 − x¯2) − (µ1 − µ2) z/
t =
SE(¯x1 − x¯2)
Machine Translated by Google
162. Calculez une statistique de test (un ratio).
pari de variabilité. groupes F =
variabilité selon les groupes
test z/t
Calculez une statistique de test (un ratio).
les moyennes de la population ne sont pas égales.
• Si la valeur de p est suffisamment petite, H0 est rejetée, nous concluons que
ANOVA
• Les grandes statistiques de test conduisent à de petites valeurs p.
60
Test z/t vs ANOVA Méthode
(¯x1 − x¯2) − (µ1 − µ2) z/
t =
SE(¯x1 − x¯2)
Machine Translated by Google
163. Test z/t vs ANOVA
• Avec seulement deux groupes, le test t et l'ANOVA sont équivalents, mais
seulement si nous utilisons une variance standard regroupée dans le dénominateur
de la statistique de test.
61
Machine Translated by Google
164. Test z/t vs ANOVA
• Avec seulement deux groupes, le test t et l'ANOVA sont équivalents, mais
seulement si nous utilisons une variance standard regroupée dans le dénominateur
de la statistique de test.
signifie à une grande moyenne globale.
• Avec plus de deux groupes, ANOVA compare l'échantillon
61
Machine Translated by Google
165. Hypothèses
(a) H0 : µB = µM = µS
HA : µB µM µS (b)
H0 : µB µM µS HA :
µB = µM = µS (c)
H0 : µB = µM = µS
HA : Au moins une moyenne est différente.
(e) H0 : µB = µM = µS
HA : µB > µM > µS
Quelles sont les hypothèses correctes pour tester une différence entre
les concentrations moyennes d’aldrine entre les trois niveaux ?
(d) H0 : µB = µM = µS = 0
HA : Au moins une moyenne est différente.
62
Machine Translated by Google
166. Hypothèses
HA : µB > µM > µS
(a) H0 : µB = µM = µS
HA : µB µM µS (b)
H0 : µB µM µS HA :
µB = µM = µS (c)
H0 : µB = µM = µS
HA : Au moins une moyenne est différente.
(e) H0 : µB = µM = µS
Quelles sont les hypothèses correctes pour tester une différence entre
les concentrations moyennes d’aldrine entre les trois niveaux ?
(d) H0 : µB = µM = µS = 0
HA : Au moins une moyenne est différente.
62
Machine Translated by Google
167. Statistique de test
Sembletil y avoir une grande variabilité au sein des groupes ? Et entre les groupes ?
pari de variabilité. groupes
F =
variabilité selon les groupes
63
Machine Translated by Google
168. Distribution F et valeur p
pari de variabilité. groupes F =
variabilité selon les groupes
• Afin de pouvoir rejeter H0, nous avons besoin d'une petite valeur p,
• Afin d'obtenir une grande statistique F, la variabilité entre
ce qui nécessite une grande statistique F.
les moyennes de l’échantillon doivent être supérieures à la variabilité au sein des
moyennes de l’échantillon.
64
Machine Translated by Google
169. 16.96
37.33 1,38
(Erreur) Résidus 27
2 6,13 0,0063
Profondeur (groupe)
54.29
Df Somme Sq Moyenne Sq Valeur F Pr(>F)
8h48
Total 29
• erreur : dfE = dfT − dfG
65
• groupes : dfG = k − 1, où k est le nombre de groupes
• total : dfT = n − 1, où n est la taille totale de l'échantillon
Degrés de liberté associés à l'ANOVA
Machine Translated by Google
170. 16.96
37.33 1,38
(Erreur) Résidus 27
2 6,13 0,0063
Profondeur (groupe)
54.29
Df Somme Sq Moyenne Sq Valeur F Pr(>F)
8h48
Total 29
• erreur : dfE = dfT − dfG
• dfG = k − 1 = 3 − 1 = 2
65
Degrés de liberté associés à l'ANOVA
• groupes : dfG = k − 1, où k est le nombre de groupes
• total : dfT = n − 1, où n est la taille totale de l'échantillon
Machine Translated by Google
171. • dfT = n − 1 = 30 − 1 = 29
• dfG = k − 1 = 3 − 1 = 2
• erreur : dfE = dfT − dfG
16.96
37.33 1,38
(Erreur) Résidus 27
2 6,13 0,0063
Profondeur (groupe)
54.29
Df Somme Sq Moyenne Sq Valeur F Pr(>F)
8h48
Total 29
65
Degrés de liberté associés à l'ANOVA
• groupes : dfG = k − 1, où k est le nombre de groupes
• total : dfT = n − 1, où n est la taille totale de l'échantillon
Machine Translated by Google
172. • dfE = 29 − 2 = 27
• dfT = n − 1 = 30 − 1 = 29
• erreur : dfE = dfT − dfG
• dfG = k − 1 = 3 − 1 = 2
16.96
37.33 1,38
(Erreur) Résidus 27
2 6,13 0,0063
Profondeur (groupe)
54.29
Df Somme Sq Moyenne Sq Valeur F Pr(>F)
8h48
Total 29
65
• total : dfT = n − 1, où n est la taille totale de l'échantillon
Degrés de liberté associés à l'ANOVA
• groupes : dfG = k − 1, où k est le nombre de groupes
Machine Translated by Google
173. 16.96
37.33 1,38
(Erreur) Résidus 27
2 6,13 0,0063
Profondeur (groupe)
54.29
Df Somme Sq Moyenne Sq Valeur F Pr(>F)
8h48
Total 29
je = 1
k
2
66
Somme des carrés entre groupes, SSG
la (grande) moyenne globale.
où ni est la taille de chaque groupe, x¯i est la moyenne de chaque groupe, x¯ est
Mesure la variabilité entre les groupes
SGS = ni(¯xi − x¯)
Machine Translated by Google
174. 16.96
37.33 1,38
(Erreur) Résidus 27
2 6,13 0,0063
Profondeur (groupe)
54.29
Df Somme Sq Moyenne Sq Valeur F Pr(>F)
8h48
Total 29
k
2
je = 1
bas
ça veut dire
superficie 10 4.2
dans l'ensemble
10 6.04
miprofondeur 10 5,05
30 5.1
Somme des carrés entre groupes, SSG
la (grande) moyenne globale.
où ni est la taille de chaque groupe, x¯i est la moyenne de chaque groupe, x¯ est
Mesure la variabilité entre les groupes
SGS = ni(¯xi − x¯)
66
Machine Translated by Google
175. 16.96
37.33 1,38
(Erreur) Résidus 27
2 6,13 0,0063
Profondeur (groupe)
54.29
Df Somme Sq Moyenne Sq Valeur F Pr(>F)
8h48
Total 29
je = 1
k
2
10 6.04
miprofondeur 10 5,05
superficie 10 4.2
30 5.1
ça veut dire
bas
dans l'ensemble
Somme des carrés entre groupes, SSG
la (grande) moyenne globale.
où ni est la taille de chaque groupe, x¯i est la moyenne de chaque groupe, x¯ est
Mesure la variabilité entre les groupes
SGS = ni(¯xi − x¯)
SGS = 10 × (6,04 − 5,1)2
66
Machine Translated by Google
176. je = 1
k
2
16.96
37.33 1,38
(Erreur) Résidus 27
2 6,13 0,0063
Profondeur (groupe)
54.29
Df Somme Sq Moyenne Sq Valeur F Pr(>F)
8h48
Total 29
ça veut dire
bas
miprofondeur 10 5,05
dans l'ensemble 30 5.1
10 6.04
superficie 10 4.2
Somme des carrés entre groupes, SSG
la (grande) moyenne globale.
où ni est la taille de chaque groupe, x¯i est la moyenne de chaque groupe, x¯ est
Mesure la variabilité entre les groupes
SGS = 10 × (6,04 − 5,1)2
ni(¯xi − x¯)
+ 10 × (5,05 − 5,1)2
SGS =
66
Machine Translated by Google
177. 16.96
37.33 1,38
(Erreur) Résidus 27
2 6,13 0,0063
Profondeur (groupe)
54.29
Df Somme Sq Moyenne Sq Valeur F Pr(>F)
8h48
Total 29
je = 1
k
2
dans l'ensemble
10 6.04
bas
superficie 10 4.2
30 5.1
ça veut dire
miprofondeur 10 5,05
Somme des carrés entre groupes, SSG
la (grande) moyenne globale.
où ni est la taille de chaque groupe, x¯i est la moyenne de chaque groupe, x¯ est
Mesure la variabilité entre les groupes
SGS = 10 × (6,04 − 5,1)2
+ 10 × (4,2 − 5,1)2
ni(¯xi − x¯)
+ 10 × (5,05 − 5,1)2
SGS =
66
Machine Translated by Google
178. k
2
je = 1
16.96
37.33 1,38
(Erreur) Résidus 27
2 6,13 0,0063
Profondeur (groupe)
54.29
Df Somme Sq Moyenne Sq Valeur F Pr(>F)
8h48
Total 29
bas
ça veut dire
dans l'ensemble
10 6.04
miprofondeur 10 5,05
surface 10 4,2
30 5.1
où ni est la taille de chaque groupe, x¯i est la moyenne de chaque groupe, x¯
est la (grande) moyenne globale.
Somme des carrés entre groupes, SSG
Mesure la variabilité entre les groupes
SGS = 10 × (6,04 − 5,1)2 + 10 ×
(5,05 − 5,1)2 + 10 × (4,2
− 5,1)2
= 16,96
ni(¯xi − x¯)
SGS =
66
Machine Translated by Google
179. (xi − x¯)
SST =
16.96
37.33 1,38
(Erreur) Résidus 27
2 6,13 0,0063
Profondeur (groupe)
54.29
Df Somme Sq Moyenne Sq Valeur F Pr(>F)
8h48
Total 29
67
Somme des carrés totale, SST
Mesure la variabilité entre les groupes
où xi représente chaque observation de l’ensemble de données.
n
je = 1
Machine Translated by Google
180. SST = (3,8 − 5,1)2 + (4,8 − 5,1)2 + (4,9 − 5,1)2 + · · · + (5,2 − 5,1)2
SST = (xi − x¯)
16.96
37.33 1,38
(Erreur) Résidus 27
2 6,13 0,0063
Profondeur (groupe)
54.29
Df Somme Sq Moyenne Sq Valeur F Pr(>F)
8h48
Total 29
67
où xi représente chaque observation de l’ensemble de données.
Somme des carrés totale, SST
Mesure la variabilité entre les groupes
je = 1
n
Machine Translated by Google
181. = (−1,3)2 + (−0,3)2 + (−0,2)2 + · · · + (0,1)2
(xi − x¯)
SST = (3,8 − 5,1)2 + (4,8 − 5,1)2 + (4,9 − 5,1)2 + · · · + (5,2 − 5,1)2
SST =
16.96
37.33 1,38
(Erreur) Résidus 27
2 6,13 0,0063
Profondeur (groupe)
54.29
Df Somme Sq Moyenne Sq Valeur F Pr(>F)
8h48
Total 29
67
Somme des carrés totale, SST
Mesure la variabilité entre les groupes
où xi représente chaque observation de l’ensemble de données.
n
je = 1
Machine Translated by Google
182. = (−1,3)2 + (−0,3)2 + (−0,2)2 + · · · + (0,1)2
(xi − x¯)
= 1,69 + 0,09 + 0,04 + · · · + 0,01
SST = (3,8 − 5,1)2 + (4,8 − 5,1)2 + (4,9 − 5,1)2 + · · · + (5,2 − 5,1)2
SST =
16.96
37.33 1,38
(Erreur) Résidus 27
2 6,13 0,0063
Profondeur (groupe)
54.29
Df Somme Sq Moyenne Sq Valeur F Pr(>F)
8h48
Total 29
67
où xi représente chaque observation de l’ensemble de données.
Somme des carrés totale, SST
Mesure la variabilité entre les groupes
je = 1
n
Machine Translated by Google
183. = (−1,3)2 + (−0,3)2 + (−0,2)2 + · · · + (0,1)2
(xi − x¯)
= 1,69 + 0,09 + 0,04 + · · · + 0,01
SST = (3,8 − 5,1)2 + (4,8 − 5,1)2 + (4,9 − 5,1)2 + · · · + (5,2 − 5,1)2
= 54,29
SST =
16.96
37.33 1,38
(Erreur) Résidus 27
2 6,13 0,0063
Profondeur (groupe)
54.29
Df Somme Sq Moyenne Sq Valeur F Pr(>F)
8h48
Total 29
67
où xi représente chaque observation de l’ensemble de données.
Somme des carrés totale, SST
Mesure la variabilité entre les groupes
n
je = 1
Machine Translated by Google
184. SSE = SST − SSG
16.96
37.33 1,38
(Erreur) Résidus 27
2 6,13 0,0063
Profondeur (groupe)
54.29
Df Somme Sq Moyenne Sq Valeur F Pr(>F)
8h48
Total 29
Erreur de somme des carrés, SSE
Mesure la variabilité au sein des groupes :
68
Machine Translated by Google
185. 16.96
37.33 1,38
(Erreur) Résidus 27
2 6,13 0,0063
Profondeur (groupe)
54.29
Df Somme Sq Moyenne Sq Valeur F Pr(>F)
8h48
Total 29
ESS = 54,29 − 16,96 = 37,33
SSE = SST − SSG
Erreur de somme des carrés, SSE
Mesure la variabilité au sein des groupes :
68
Machine Translated by Google
186. 16.96
37.33 1,38
(Erreur) Résidus 27
2 6,13 0,0063
Profondeur (groupe)
54.29
Df Somme Sq Moyenne Sq Valeur F Pr(>F)
8h48
Total 29
degrés de liberté.
Erreur quadratique moyenne
L'erreur quadratique moyenne est calculée comme la somme des carrés divisée par le
69
Machine Translated by Google
187. MSG = 16,96/2 = 8,48
16.96
37.33 1,38
(Erreur) Résidus 27
2 6,13 0,0063
Profondeur (groupe)
54.29
Df Somme Sq Moyenne Sq Valeur F Pr(>F)
8h48
Total 29
degrés de liberté.
Erreur quadratique moyenne
L'erreur quadratique moyenne est calculée comme la somme des carrés divisée par le
69
Machine Translated by Google
188. MSG = 16,96/2 = 8,48
MSE = 37,33/27 = 1,38
16.96
37.33 1,38
(Erreur) Résidus 27
2 6,13 0,0063
Profondeur (groupe)
54.29
Df Somme Sq Moyenne Sq Valeur F Pr(>F)
8h48
Total 29
L'erreur quadratique moyenne est calculée comme la somme des carrés divisée par le
degrés de liberté.
Erreur quadratique moyenne
69
Machine Translated by Google
189. 16.96
37.33 1,38
(Erreur) Résidus 27
2 6,14 0,0063
Profondeur (groupe)
54.29
Df Somme Sq Moyenne Sq Valeur F Pr(>F)
8h48
Total 29
MSE
MSG
F =
variabilité au sein du groupe et au sein du groupe.
Statistique de test, valeur F
Comme nous l'avons vu précédemment, la statistique F est le rapport entre
70
Machine Translated by Google
190. 8h48
1,38
MSE
= 6,14
F =
MSG
F =
16.96
37.33 1,38
(Erreur) Résidus 27
2 6,14 0,0063
Profondeur (groupe)
54.29
Df Somme Sq Moyenne Sq Valeur F Pr(>F)
8h48
Total 29
Comme nous l'avons vu précédemment, la statistique F est le rapport entre
variabilité au sein du groupe et au sein du groupe.
Statistique de test, valeur F
70
Machine Translated by Google
191. 16.96
37.33 1,38
(Erreur) Résidus 27
2 6,14 0,0063
Profondeur (groupe)
54.29
Df Somme Sq Moyenne Sq Valeur F Pr(>F)
8h48
Total 29
valeur p
variabilité « entre groupes » et « au sein du groupe », si en fait les moyens
statistique.
La valeur p est la probabilité d’un rapport au moins aussi grand entre les
de tous les groupes sont égaux. Il est calculé comme l'aire sous le F
courbe, avec des degrés de liberté dfG et dfE, audessus du F observé
71
Machine Translated by Google
192. Df Somme Sq Moyenne Sq Valeur F Pr(>F)
Résidus 27
2 16.96
37.33 1,38
Profondeur (groupe) 8h48
(Erreur)
29
Total
6,14 0,0063
54.29
0 6.14
dfG = 2 ; dfE = 27
valeur p
variabilité « entre groupes » et « au sein du groupe », si en fait les moyens
statistique.
La valeur p est la probabilité d’un rapport au moins aussi grand entre les
de tous les groupes sont égaux. Il est calculé comme l'aire sous le F
courbe, avec des degrés de liberté dfG et dfE, audessus du F observé
71
Machine Translated by Google
193. Conclusion en contexte
Quelle est la conclusion du test d’hypothèse ?
Les données fournissent des preuves convaincantes que la concentration
moyenne d'aldrine
(b) en surface est inférieur aux autres niveaux.
(d) est le même pour tous les groupes.
(a) est différent pour tous les groupes.
(c) est différent pour au moins un groupe.
72
Machine Translated by Google
194. Conclusion en contexte
Quelle est la conclusion du test d’hypothèse ?
Les données fournissent des preuves convaincantes que la concentration
moyenne d'aldrine
(b) en surface est inférieur aux autres niveaux.
(d) est le même pour tous les groupes.
(a) est différent pour tous les groupes.
(c) est différent pour au moins un groupe.
72
Machine Translated by Google
195. Conclusion
• Si la valeur p est petite (inférieure à α), rejetez H0. Les données fournissent
des preuves convaincantes qu'au moins une moyenne est différente (mais
nous ne pouvons pas dire laquelle).
73
Machine Translated by Google
196. Conclusion
• Si la valeur p est petite (inférieure à α), rejetez H0. Les données fournissent des
preuves convaincantes qu'au moins une moyenne est différente (mais nous ne
pouvons pas dire laquelle).
• Si la valeur p est grande, ne parvenez pas à rejeter H0. Les données ne
fournissent pas de preuves convaincantes qu'au moins une paire de
moyennes sont différentes l'une de l'autre ; les différences observées dans les
moyennes de l'échantillon sont attribuables à la variabilité d'échantillonnage (ou au hasard).
73
Machine Translated by Google
198. (1) indépendance
Cette condition sembletelle remplie ?
Dans cette étude, nous n'avons aucune raison de croire que les
concentrations d'aldrine ne seront pas indépendantes les unes des autres.
74
Machine Translated by Google
199. (2) à peu près normal
75
Cette condition sembletelle remplie ?
5
1
3
0
7
7
2
9
1
3
3
3
5.5
2
1
5
2
0
2.5
4
0
4.0
Machine Translated by Google
200. (3) variance constante
76
Cette condition sembletelle remplie ?
9
5
4
ÉT de
surface = 0,66
6
miprofondeur
sd = 1,10
7
sd
inférieur = 1,58
8
3
Machine Translated by Google
201. Quels moyens diffèrent ?
• Nous avons conclu plus tôt qu'au moins une paire de moyennes différait.
La question naturelle qui s’ensuit est « lesquelles ? »
77
Machine Translated by Google
202. Quels moyens diffèrent ?
• Nous avons conclu plus tôt qu'au moins une paire de moyennes différait.
La question naturelle qui s’ensuit est « lesquelles ? »
• Nous pouvons effectuer deux tests t sur échantillons pour déterminer les différences dans chaque
paire de groupes possible.
77
Machine Translated by Google
203. Quels moyens diffèrent ?
• Nous avons conclu plus tôt qu'au moins une paire de moyennes différait.
La question naturelle qui s’ensuit est « lesquelles ? »
Voyezvous des pièges avec cette approche ?
• Nous pouvons effectuer deux tests t sur échantillons pour déterminer les différences dans chaque
paire de groupes possible.
77
Machine Translated by Google
204. Quels moyens diffèrent ?
La question naturelle qui s’ensuit est « lesquelles ? »
• Nous avons conclu plus tôt qu'au moins une paire de moyennes différait.
Voyezvous des pièges avec cette approche ?
• Ce problème est résolu en utilisant un niveau de signification modifié.
• Nous pouvons effectuer deux tests t sur échantillons pour déterminer les différences dans chaque
paire de groupes possible.
• Lorsque nous exécutons trop de tests, le taux d'erreur de type 1 augmente.
77
Machine Translated by Google
205. Comparaisons multiples
• Le scénario consistant à tester plusieurs paires de groupes est appelé
comparaisons multiples.
78
Machine Translated by Google
206. Comparaisons multiples
78
• Le scénario consistant à tester plusieurs paires de groupes est appelé
comparaisons multiples.
• La correction de Bonferroni suggère qu'un niveau de signification plus
strict est plus approprié pour ces tests :
où K est le nombre de comparaisons prises en compte.
α = α/K
Machine Translated by Google
207. Comparaisons multiples
• Le scénario consistant à tester plusieurs paires de groupes est appelé
comparaisons multiples.
• La correction de Bonferroni suggère qu'un niveau de signification plus
strict est plus approprié pour ces tests :
où K est le nombre de comparaisons prises en compte.
k(k−1)
comparé et K = 2 .
• S'il y a k groupes, alors généralement toutes les paires possibles sont
α = α/K
78
Machine Translated by Google
208. Détermination du α modifié
= 0,05
= 0,05/2 = 0,025
= 0,05/3 = 0,0167
= 0,05/6 = 0,0083
79
*
*
*
*
(b) α
(d) α
pour deux échantillons de tests t pour déterminer quelles paires de groupes ont
des moyens sensiblement différents ?
Dans l'ensemble de données aldrin, la profondeur comporte 3 niveaux : fond, moyenne profondeur et
(a) α
(c) α
surface. Si α = 0,05, quel devrait être le niveau de signification modifié
Machine Translated by Google
209. Détermination du α modifié
= 0,05
= 0,05/2 = 0,025
= 0,05/3 = 0,0167
= 0,05/6 = 0,0083
79
*
*
*
*
surface. Si α = 0,05, quel devrait être le niveau de signification modifié
(b) α
(c) α
(a) α
Dans l'ensemble de données aldrin, la profondeur comporte 3 niveaux : fond, moyenne profondeur et
des moyens sensiblement différents ?
pour deux échantillons de tests t pour déterminer quelles paires de groupes ont
(d) α
Machine Translated by Google
210. Quels moyens diffèrent ?
80
D’après les diagrammes en boîte cidessous, qu’estce qui, selon vous, serait
significativement différent ?
(a) fond et surface
(c) miprofondeur et surface
(d) fond et miprofondeur ;
miprofondeur & surface
(b) fond et miprofondeur
(e) fond et miprofondeur ;
fond et surface ; mi
profondeur & surface
8
6
4
7
9
sd
inférieur = 1,58
5
miprofondeur
sd = 1,10
3
ÉT de
surface = 0,66
Machine Translated by Google
211. n2
2
σ 1
2
σ 2
n1
n1 n2
Quels moyens diffèrent ? (suite)
Si l'hypothèse de l'ANOVA selon laquelle la variabilité est égale entre les groupes
est satisfaite, nous pouvons utiliser les données de tous les groupes pour
estimer la variabilité :
• Estimer tout écart type au sein du groupe avec √ MSE,
• Utilisez les degrés de liberté d'erreur, n − k, pour les distributions t
qui est enroulé
Différence en deux moyens : après ANOVA
SE =
MSE
+
+ ≈
MSE
81
Machine Translated by Google
212. le fond et à mi profondeur ?
Y atil une différence entre la concentration moyenne d'aldrine à
+
dix 37.33
je veux dire sd
1,38
30
surface 0,66
8h48
profondeur
Total 29
6,13 0,0063
Résidus 27
6.04 Df Somme Sq Moyenne Sq Valeur F Pr(>F)
dans l'ensemble
82
1,37
2
miprofondeur 10 5,05 1,10 16.96
1,58
54.29
4.2
bas dix
5.1
MSE
MSE
(¯xbottom − x¯midprofondeur)
TdfE =
en bas nmiprofondeur
Machine Translated by Google
213. Y atil une différence entre la concentration moyenne d'aldrine à
le fond et à mi profondeur ?
+
= 1,87
=
+
0,99
(6,04 − 5,05)
0,53
82
dix 37.33
je veux dire sd
1,38
30
surface 0,66
8h48
profondeur
Total 29
6,13 0,0063
Résidus 27
6.04 Df Somme Sq Moyenne Sq Valeur F Pr(>F)
dans l'ensemble 1,37
2 16.96
miprofondeur 10 5,05 1,10
1,58
54.29
4.2
bas dix
5.1
MSE
1,38
(¯xbottom − x¯midprofondeur)
1,38
dix
T27 =
TdfE =
MSE
dix
en bas nmiprofondeur
Machine Translated by Google
214. le fond et à mi profondeur ?
Y atil une différence entre la concentration moyenne d'aldrine à
0,53
0,99
+
= 1,87
+
(6,04 − 5,05) =
0,05 < p − valeur < 0,10 (recto verso)
dix 37.33
je veux dire sd
82
1,38
30
surface 0,66
8h48
profondeur
Total 29
6,13 0,0063
Résidus 27
6.04 Df Somme Sq Moyenne Sq Valeur F Pr(>F)
dans l'ensemble 1,37
2
miprofondeur 10 5,05 1,10 16.96
1,58
54.29
4.2
bas dix
5.1
MSE
1,38
(¯xbottom − x¯midprofondeur)
1,38
dix
T27 =
TdfE =
MSE
dix
en bas nmiprofondeur
Machine Translated by Google
215. le fond et à mi profondeur ?
Y atil une différence entre la concentration moyenne d'aldrine à
0,53
α = 0,05/3 = 0,0167
=
(6,04 − 5,05)
0,05 < p − valeur < 0,10
+
= 1,87
+
0,99
(recto verso)
dix 37.33
je veux dire sd
1,38
30
surface 0,66
8h48
profondeur
Total 29
6,13 0,0063
Résidus 27
6.04 Df Somme Sq Moyenne Sq Valeur F Pr(>F)
dans l'ensemble 1,37
2 16.96
miprofondeur 10 5,05 1,10
1,58
54.29
82
4.2
bas dix
5.1
MSE
1,38
(¯xbottom − x¯midprofondeur)
1,38
dix
T27 =
TdfE =
MSE
dix
en bas nmiprofondeur
Machine Translated by Google
216. Y atil une différence entre la concentration moyenne d'aldrine à
le fond et à mi profondeur ?
(6,04 − 5,05)
0,05 < p − valeur < 0,10
+
α = 0,05/3 = 0,0167
=
0,99
0,53
= 1,87
+
(recto verso)
différence entre les concentrations moyennes d'aldrine au fond et au milieu 82
dix 37.33
je veux dire sd
1,38
30
surface 0,66
8h48
profondeur
Total 29
6,13 0,0063
Résidus 27
6.04 Df Somme Sq Moyenne Sq Valeur F Pr(>F)
dans l'ensemble 1,37
2 16.96
miprofondeur 10 5,05 1,10
1,58
54.29
4.2
bas dix
5.1
MSE
1,38
(¯xbottom − x¯midprofondeur)
1,38
dix
T27 =
TdfE =
MSE
dix
nmiprofondeur
en bas
Si l’on ne rejette pas H0, les données ne fournissent pas de preuve convaincante d’un
Machine Translated by Google
217. Comparaisons par paires
Y atil une différence entre la concentration moyenne d’aldrine au fond et
en surface ?
83
Machine Translated by Google
218. Comparaisons par paires
Y atil une différence entre la concentration moyenne d’aldrine au fond et
en surface ?
en bas nsurface
+
TdfE = MSE MSE
(¯xbas − x¯surface)
83
Machine Translated by Google
219. Comparaisons par paires
Y atil une différence entre la concentration moyenne d’aldrine au fond et
en surface ?
en bas nsurface
T27 =
+
(6,04 − 4,02) 2,02
= 3,81
0,53
TdfE =
=
+
(¯xbas − x¯surface)
MSE
1,38
10
1,38
10
MSE
83
Machine Translated by Google
220. Y atil une différence entre la concentration moyenne d’aldrine au fond et
en surface ?
Comparaisons par paires
en bas nsurface
83
p − valeur <0,01
T27 =
+
2,02
= 3,81
0,53
TdfE =
=
+
(6,04 − 4,02)
(¯xbas − x¯surface)
MSE
1,38
10
1,38
10
MSE
(recto verso)
Machine Translated by Google
221. Comparaisons par paires
Y atil une différence entre la concentration moyenne d’aldrine au fond et
en surface ?
en bas nsurface
83
p − valeur <0,01
α = 0,05/3 = 0,0167
T27 =
+
2,02
= 3,81
0,53
TdfE =
=
+
(6,04 − 4,02)
(¯xbas − x¯surface)
MSE
1,38
10
1,38
10
MSE
(recto verso)
Machine Translated by Google
222. Comparaisons par paires
Y atil une différence entre la concentration moyenne d’aldrine au fond et
en surface ?
en bas nsurface
Rejetez H0, les données fournissent des preuves convaincantes d’une différence
entre les concentrations moyennes d’aldrine au fond et en surface.
p − valeur <0,01
α = 0,05/3 = 0,0167
T27 =
+
2,02
= 3,81
0,53
TdfE =
=
+
(6,04 − 4,02)
(¯xbas − x¯surface)
MSE
1,38
10
1,38
10
MSE
(recto verso)
83
Machine Translated by Google