Ch6 (1).pdf

Statistiques OpenIntro, 4e édition
Slides développées par Mine C¸ etinkayaRundel d'OpenIntro.
Certaines images peuvent être incluses dans le cadre des directives d'utilisation équitable (à des fins éducatives).
Chapitre 6 : Inférence pour les données catégorielles
Les diapositives peuvent être copiées, modifiées et/ou partagées via la licence CC BYSA.
Machine Translated by Google

Inférence pour une seule proportion

1
(a) Tous les 1000 reçoivent le médicament
Deux scientifiques veulent savoir si un certain médicament est efficace contre l'hypertension artérielle. Le premier
scientifique souhaite administrer le médicament à 1 000 personnes souffrant d’hypertension artérielle et voir combien
d’entre elles présentent une tension artérielle plus basse. Le deuxième scientifique souhaite administrer le
médicament à 500 personnes souffrant d’hypertension artérielle, et non à 500 autres personnes souffrant
d’hypertension artérielle, et voir combien de personnes dans les deux groupes présentent des niveaux de tension
artérielle plus faibles.
(b) 500 personnes obtiennent le médicament, 500 non
Quelle est la meilleure façon de tester ce médicament ?

1
(a) Tous les 1000 reçoivent le médicament
Deux scientifiques veulent savoir si un certain médicament est efficace contre l'hypertension artérielle. Le premier
scientifique souhaite administrer le médicament à 1 000 personnes souffrant d’hypertension et voir combien d’entre
elles présentent une tension artérielle plus basse. Le deuxième scientifique souhaite administrer le médicament à
500 personnes souffrant d’hypertension artérielle, et non à 500 autres personnes souffrant d’hypertension artérielle,
et voir combien de personnes dans les deux groupes présentent des niveaux de tension artérielle plus faibles.
(b) 500 personnes obtiennent le médicament, 500 non
Quelle est la meilleure façon de tester ce médicament ?

réponses à l’enquête de 2010 :
Total 670
99
Tous les 1000 reçoivent le
médicament 500 prennent le médicament 500 ne le font pas 571
L'ESG pose la même question. Vous trouverez cidessous la répartition des
2
Résultats de l'ESG

Nous aimerions estimer la proportion de tous les Américains qui ont une bonne
intuition en matière de conception expérimentale, c'estàdire qui répondraient « 500
obtiennent le médicament, 500 ne le font pas » ? Quels sont le paramètre d’intérêt
et l’estimation ponctuelle ?
3
Estimation des paramètres et des points

• Paramètre d'intérêt : proportion de tous les Américains qui ont
bonne intuition sur la conception expérimentale.
3
p (une proportion de la population)

• Paramètre d'intérêt : proportion de tous les Américains qui ont
• Estimation ponctuelle : proportion d' Américains échantillonnés qui ont
3
p (une proportion de la population)
pˆ (une proportion d'échantillon)

Inférence sur une proportion
Quel pourcentage de tous les Américains ont une bonne intuition en matière de conception
expérimentale, c'estàdire qu'ils répondraient « 500 obtiennent le médicament et 500 ne le font pas » ?
4

intervalle, dont nous savons qu'il est toujours de la forme
• Nous pouvons répondre à cette question de recherche en utilisant une confiance
4
estimation ponctuelle ± ME

4
l’estimation ponctuelle.
• Et nous savons aussi que ME = valeur critique × erreur type de
SEpˆ =?

4
l’estimation ponctuelle.
Erreur type d'une proportion d'échantillon
• Et nous savons aussi que ME = valeur critique × erreur standard de
SEˆ =
SEpˆ =?
p (1 p)

5
.
Les proportions de l'échantillon seront distribuées presque normalement avec une
moyenne égale à la moyenne de la population, p et une erreur type égale à
des suppositions ?
• Mais bien sûr, cela n'est vrai que sous certaines conditions...
Théorème central limite pour les proportions
n
p (1−p)
Les proportions de l'échantillon sont également distribuées presque normalement
moyenne = p, SE =
n
p (1 p)
pˆ N

5
.
des suppositions ?
observations indépendantes, au moins 10 succès et 10
les échecs
p (1−p)
n
moyenne = p, SE =
n
p (1 p)
pˆ N

Remarque : Si p est inconnu (dans la plupart des cas), nous utilisons pˆ dans le calcul du
.
des suppositions ?
observations indépendantes, au moins 10 succès et 10
les échecs
p (1−p)
n
5
moyenne = p, SE =
n
p (1 p)
pˆ N

L'ESG a révélé que 571 Américains sur 670 (85 %) ont répondu correctement
à la question sur la conception expérimentale. Estimer (en utilisant un intervalle
de confiance de 95 %) la proportion de tous les Américains qui ont une bonne
intuition en matière de conception expérimentale ?
6
Retour à la conception expérimentale...

L'ESG a révélé que 571 Américains sur 670 (85 %) ont répondu correctement à la
question sur la conception expérimentale. Estimer (en utilisant un intervalle de confiance
de 95 %) la proportion de tous les Américains qui ont une bonne intuition en matière de
conception expérimentale ?
Étant donné : n = 670, pˆ = 0,85. Vérifiez d’abord les conditions.
6

1. Indépendance : L'échantillon est aléatoire et représente 670 < 10 % de tous les
Américains. Nous pouvons donc supposer que la réponse d'un répondant est
indépendante de celle d'un autre.
6

2. Succèséchec : 571 personnes ont répondu correctement (succès)
et 99 ont répondu incorrectement (échecs), les deux sont supérieurs à 10.
1. Indépendance : L'échantillon est aléatoire et représente 670 < 10 % de tous les
Américains. Nous pouvons donc supposer que la réponse d'un répondant est
indépendante de celle d'un autre.
6

7
0,85×0,15
670
n
571×99
670
0,85×0,15
√ 670
0,85×0,15
670
p(1−p)
(d) 571 ± 1,96 ×
. Lequel de
On nous donne que n = 670, pˆ = 0,85, on vient aussi d’apprendre que le
(a) 0,85 ± 1,96 ×
(c) 0,85 ± 1,96 ×
L'erreur type de la proportion de l'échantillon est SE = ce
qui suit est le calcul correct de l'intervalle de confiance à 95 % ?
(b) 0,85 ± 1,65 ×

→ (0,82, 0,88)
7
(c) 0,85 ± 1,96 ×
. Lequel de
On nous donne que n = 670, pˆ = 0,85, on vient aussi d’apprendre que le
(b) 0,85 ± 1,65 ×
(d) 571 ± 1,96 ×
L'erreur type de la proportion de l'échantillon est SE = ce
qui suit est le calcul correct de l'intervalle de confiance à 95 % ?
(a) 0,85 ± 1,96 ×
0,85×0,15
√ 670
n
0,85×0,15
670
0,85×0,15
670
571×99
670
p(1−p)

Combien de personnes devezvous échantillonner afin de réduire la marge
d'erreur d'un intervalle de confiance de 95 % à 1 %.
8
Choisir une taille d'échantillon

8
ME = z × SE

8
0,01 ≥ 1,96 ×
ME = z × SE
n
0,85 × 0,15
→ Utiliser l'estimation pour pˆ de l'étude précédente

8
n
0,85 × 0,15
0,012 ≥ 1,962 ×
ME = z × SE
n
0,01 ≥ 1,96 ×
0,85 × 0,15

8
n
0,85 × 0,15
1,962 × 0,85 × 0,15
0,012
0,85 × 0,15
0,012 ≥ 1,962 ×
n ≥
0,01 ≥ 1,96 ×
n
ME = z × SE

8
0,85 × 0,15
1,962 × 0,85 × 0,15
0,012
n ≥ 4898,04
0,85 × 0,15
0,012 ≥ 1,962 ×
n ≥
0,01 ≥ 1,96 ×
ME = z × SE
n
n

8
n
0,85 × 0,15
1,962 × 0,85 × 0,15
0,012
0,85 × 0,15
0,012 ≥ 1,962 ×
n ≥
0,01 ≥ 1,96 ×
n ≥ 4 898,04 → n doit être au moins égal à 4 899
n
ME = z × SE

... utilisez pˆ = 0,5
pourquoi ?
9
Et s'il n'y a pas d'étude préalable ?

• Si vous ne savez pas mieux, 5050 est une bonne estimation
pourquoi ?
9

pourquoi ?
• pˆ = 0,5 donne l'estimation la plus prudente – la plus élevée
taille d'échantillon possible
• Si vous ne savez pas mieux, 5050 est une bonne estimation
9

p(1−p)
n
n
p0(1−p0)
• Condition de réussiteéchec :
• Erreur standard:
dix
CI vs HT pour les proportions
• CI : calculer en utilisant la proportion d'échantillon observée : SE =
• CI : au moins 10 succès et échecs observés
en utilisant la valeur nulle
• HT : calculer à partir de la valeur nulle : SE =
• HT : au moins 10 succès et échecs attendus , calculés

11
à la question sur la conception expérimentale. Ces données fournissent
elles la preuve convaincante que plus de 80 % des Américains ont une bonne

H0 : p = 0,80 HA : p > 0,80
11

0,80 × 0,20
= 0,0154
670
SE =
H0 : p = 0,80 HA : p > 0,80
11

0,0154
0,80 × 0,20
= 0,0154
670
0,85 − 0,80
= 3,25
Z =
SE =
H0 : p = 0,80 HA : p > 0,80
11

Z =
0,80 × 0,20
= 0,0154
670
0,85 − 0,80
= 3,25
0,0154
p − valeur = 1 − 0,9994 = 0,0006
SE =
H0 : p = 0,80 HA : p > 0,80
0,8 0,85
11
proportions de l'échantillon

Z =
0,80 × 0,20
= 0,0154
670
0,85 − 0,80
= 3,25
0,0154
p − valeur = 1 − 0,9994 = 0,0006
SE =
H0 : p = 0,80 HA : p > 0,80
0,8 0,85
11
Puisque la valeur p est faible, nous rejetons H0. Les données fournissent la preuve
convaincante que plus de 80 % des Américains ont une bonne intuition en matière
de conception expérimentale.
question sur la conception expérimentale. Ces données fournissentelles la preuve
convaincante que plus de 80 % des Américains ont une bonne intuition en matière
de conception expérimentale ?
proportions de l'échantillon

12
b) Non
11 % des 1 001 Américains ayant répondu à une enquête Gallup de 2006 ont
déclaré qu'ils étaient opposés à la célébration d'Halloween pour des raisons
religieuses. À un niveau de confiance de 95 %, la marge d'erreur pour cette enquête
est de ±3 %. Un article d'information sur les résultats de cette étude déclare : « Plus
de 10 % de tous les Américains ont des objections à la célébration d'Halloween
pour des raisons religieuses. » Avec un niveau de confiance de 95 %, la déclaration
de cet article d'actualité estelle justifiée ?
(c) Je ne peux pas le dire
(a) Oui

• Paramètre de population : p, estimation ponctuelle : pˆ
13
Récapitulatif inférence pour une proportion

• Conditions:
• indépendance
échantillon aléatoire et condition de 10 %
• au moins 10 réussites et échecs
sinon → randomisation
13

• Erreur standard : SE =
• Conditions:
• au moins 10 réussites et échecs
• pour CI : utiliser
pˆ • pour HT : utiliser p0
sinon → randomisation
• indépendance
échantillon aléatoire et condition de 10 %
p(1−p)
n
13

Différence de deux proportions

(c) Un peu
(d) Pas du tout
Les scientifiques prédisent que le réchauffement climatique pourrait avoir des effets
importants sur les régions polaires au cours des 100 prochaines années. L’un des
effets possibles est la fonte complète de la calotte glaciaire nord. Estce que cela
vous dérangerait beaucoup, un peu, un peu ou pas du tout si cela se produisait réellement ?
(a) Beaucoup (b)
Certains
14
La fonte des calottes glaciaires

Quelques 30
Un peu
Pas du tout
52
Total
L'ESG pose la même question, voici les distributions de
4
50
réponses de l’ESG 2010 ainsi que d’un groupe de
Étudiants d'introduction aux statistiques à l'Université Duke :
2
Duc GSS
680 105
124
Beaucoup 454 69
15
Résultats de l'ESG

en grande partie à cause de la fonte complète de la calotte glaciaire nord.
• Paramètre d'intérêt : Différence entre les proportions de
tous les étudiants de Duke et tous les Américains qui seraient dérangés
pDuke − pUS
16

ont échantillonné des étudiants de Duke et des Américains qui seraient
très gênés par la fonte complète de la calotte glaciaire nord.
tous les étudiants de Duke et tous les Américains qui seraient dérangés
• Estimation ponctuelle : Différence entre les proportions de
en grande partie à cause de la fonte complète de la calotte glaciaire nord.
• Paramètre d'intérêt : Différence entre les proportions de
pDuke − pUS
pˆDuc − pˆUS
16

• Les détails sont les mêmes qu'avant...
17
Inférence pour comparer les proportions

• CI : estimation ponctuelle ± marge d'erreur
17

estimation ponctuelle−valeur
nulle • HT : utilisez Z = pour trouver la valeur p appropriée.
SE
17

• Nous avons juste besoin de l'erreur type appropriée de l'estimation ponctuelle
(SEpˆDuke−pˆUS ), qui est le seul nouveau concept.
SE
17

Erreur type de la différence entre deux proportions d'échantillon
• Nous avons juste besoin de l'erreur type appropriée de l'estimation
ponctuelle (SEpˆDuke−pˆUS ), qui est le seul nouveau concept.
n2
SE
n1
17
p2(1 − p2)
= p1(1 − p1)
SE( ˆp1−pˆ2)
+

1. Indépendance au sein des groupes :
18
Conditions d'IC pour différence de proportions
• Le groupe américain est échantillonné de manière aléatoire et nous supposons
que le groupe Duke représente également un échantillon aléatoire.

18
• Le groupe américain est échantillonné de manière aléatoire et nous supposons que le
groupe Duke représente également un échantillon aléatoire. • nDuke < 10
% de tous les étudiants de Duke et 680 < 10 % de tous
Les Américains.

L’échantillon est indépendant les uns des autres, et les attitudes des
résidents américains de l’échantillon sont également indépendantes les unes des autres.
Nous pouvons supposer que les attitudes des étudiants de Duke dans le
18
Les Américains.

2. Indépendance entre les groupes : les étudiants de Duke échantillonnés et les
résidents américains sont indépendants les uns des autres.
18
Les Américains.

2. Indépendance entre les groupes : les étudiants de Duke échantillonnés et les
résidents américains sont indépendants les uns des autres.
Au moins 10 succès observés et 10 échecs observés dans
3. Succèséchec :
les deux groupes.
18
Les Américains.

19
226
Duc US
Total 105
69
680
454
Une bonne affaire
36
Données
Pas grand chose
Construisez un intervalle de confiance à 95 % pour la différence entre
proportions d’étudiants de Duke et d’Américains qui seraient très gênés par la
fonte de la calotte glaciaire nord (pDuke−pUS).

Duc US
Une bonne affaire
105
Pas grand chose
69
Total 680
454
0,657 0,668
Données
36 226
19
pˆ

pˆDuc(1 − pˆDuc)
nDuc nUS
pÛS(1 − pÛS)
+
(ˆpDuke − pÛS) ± z ×
Données
36 226
Une bonne affaire 454
0,657 0,668
69
Total 680
Duc US
Pas grand chose
105
19
pˆ

nDuc
nUS
pˆUS(1 − pˆUS)
+
= (0,657 − 0,668)
Duc US
Une bonne affaire
105
Pas grand chose
69
Total 680
454
0,657 0,668
Données
36 226
19
pˆ

nDuc
nUS
pˆUS(1 − pˆUS)
+
= (0,657 − 0,668) ± 1,96
Duc US
Une bonne affaire
105
Pas grand chose
69
Total 680
454
0,657 0,668
Données
36 226
19
pˆ

nDuc
pˆDuc(1 − pˆDuc) pÛS(1 − pÛS)
nUS
= (0,657 − 0,668) ± 1,96 ×
(ˆpDuke − pÛS) ± z × +
+
0,657 × 0,343 0,668 × 0,332
105 680
226
Duc US
Pas grand chose
105
69
Total 680
454
0,657 0,668
36
Données
Une bonne affaire
19
pˆ

nDuc
pˆUS(1 − pˆUS)
nUS
= (0,657 − 0,668) ± 1,96 ×
= −0,011 ±
0,657 × 0,343
+
0,668 × 0,332
105 680
226
Duc US
Pas grand chose
105
69
Total 680
454
0,657 0,668
36
Données
Une bonne affaire
19
pˆ

nDuc
pˆUS(1 − pˆUS)
nUS
= (0,657 − 0,668) ± 1,96 ×
= −0,011 ± 1,96 × 0,0497
0,657 × 0,343
+
0,668 × 0,332
105 680
36
Données
105
226
454
Une bonne affaire
0,657 0,668
69
Total 680
Duc US
Pas grand chose
19
pˆ

nDuc
pˆUS(1 − pˆUS)
nUS
= −0,011 ± 0,097
680
0,668 × 0,332
105
= −0,011 ± 1,96 × 0,0497
+
0,657 × 0,343
= (0,657 − 0,668) ± 1,96 ×
36
Données
105
226
454
Une bonne affaire
0,657 0,668
69
Total 680
Duc US
Pas grand chose
19
pˆ

nDuc
pˆUS(1 − pˆUS)
nUS
= −0,011 ± 0,097
680
+
0,668 × 0,332
105
= −0,011 ± 1,96 × 0,0497
= (−0,108, 0,086)
0,657 × 0,343
= (0,657 − 0,668) ± 1,96 ×
Duc US
Une bonne affaire
105
Pas grand chose
69
Total 680
454
0,657 0,668
Données
36 226
19
pˆ

(c) H0 : pDuke − pUS = 0
HA : pDuke − pUS 0
20
Laquelle des hypothèses suivantes constitue l'ensemble d'hypothèses
correct pour tester si la proportion de tous les étudiants de Duke qui
seraient très gênés par la fonte de la calotte glaciaire nord diffère de la
proportion de tous les Américains qui le sont ?
HA : pDuc < pUS
HA : pDuke pUS
HA : ˆpDuc pˆUS
(d) H0 : pDuc = pUS
(b) H0 : ˆpDuke = pˆUS
(a) H0 : pDuc = pUS

(c) H0 : pDuke − pUS = 0
HA : pDuke − pUS 0
20
(a) et (c) sont tous deux corrects.
Laquelle des hypothèses suivantes constitue l'ensemble d'hypothèses correct
pour tester si la proportion de tous les étudiants de Duke qui seraient très gênés
par la fonte de la calotte glaciaire nord diffère de la proportion de tous les
Américains qui le sont ?
HA : pDuc < pUS
HA : pDuke pUS
HA : ˆpDuc pˆUS
(d) H0 : pDuc = pUS
(b) H0 : ˆpDuke = pˆUS
(a) H0 : pDuc = pUS

proportion, on vérifie si le nombre de réussites et d’échecs observé est
d’au moins 10.
• Lors de la construction d'un intervalle de confiance pour une population
21
Flashback sur le travail avec une seule proportion
npˆ ≥ 10 n(1 − pˆ) ≥ 10

21
proportion, on vérifie si le nombre attendu de réussites
proportion, on vérifie si le nombre de réussites et d’échecs observé est
d’au moins 10.
et les échecs sont au moins 10.
• Lors de la réalisation d'un test d'hypothèse pour une population
• Lors de la construction d'un intervalle de confiance pour une population
Flashback sur le travail avec une seule proportion
np0 ≥ 10
n(1 − pˆ) ≥ 10
n(1 − p0) ≥ 10
npˆ ≥ 10

• Dans le cas de la comparaison de deux proportions où H0 : p1 = p2, il
n'existe pas de valeur nulle donnée que nous puissions utiliser pour
calculer le nombre attendu de réussites et d'échecs dans chaque échantillon.
22
Estimation groupée d'une proportion

• Dans le cas de la comparaison de deux proportions où H0 : p1 = p2, il n'existe
pas de valeur nulle donnée que nous puissions utiliser pour calculer le
nombre attendu de réussites et d'échecs dans chaque échantillon. • Par
conséquent, nous devons d'abord trouver une proportion commune (regroupée)
pour les deux groupes, et utilisezle dans notre analyse.
22

22
pour les deux groupes, et utilisezle dans notre analyse.
parmi le nombre total d’observations.
• Cela signifie simplement trouver la proportion de réussites totales
• Dans le cas de la comparaison de deux proportions où H0 : p1 = p2, il n'existe
pas de valeur nulle donnée que nous puissions utiliser pour calculer le
nombre attendu de réussites et d'échecs dans chaque échantillon. • Par
conséquent, nous devons d'abord trouver une proportion commune (regroupée)
n1 + n2
# de réussites1 + # de réussites2
pˆ =

454
0,657 0,668
36
Données
Une bonne affaire
226
Duc US
Pas grand chose
105
69
Total 680
23
la calotte glaciaire du nord. Quelle proportion d'échantillon (pˆDuke ou pˆUS) la
Calculez la proportion globale estimée d’étudiants Duke et
l'estimation groupée estelle plus proche ? Pourquoi?
Les Américains qui seraient très gênés par la fonte des
pˆ

n1 + n2
pˆ =
454
0,657 0,668
36
Données
Une bonne affaire
226
Duc US
Pas grand chose
105
69
Total 680
23
pˆ

n1 + n2
=
69 + 454
pˆ =
105 + 680
680
0,657 0,668
36
Total
Données
Une bonne affaire
226
Pas grand chose
Duc US
105
69 454
23
pˆ

n1 + n2
523
785
69 + 454
105 + 680
pˆ =
= =
69
36
680
454
Duc US
Pas grand chose
105
Total
Données
Une bonne affaire
226
0,657 0,668
23
pˆ

n1 + n2
=
523
= 0,666
785
105 + 680
pˆ =
=
69 + 454
680
0,657 0,668
36
Total
Données
Une bonne affaire
226
Pas grand chose
Duc US
105
69 454
23
pˆ

454
0,657 0,668
36
Données
Une bonne affaire
226
Duc US
Pas grand chose
105
69
Total 680
24
le plafond diffère de la proportion de tous les Américains qui le font ? Calculez
la statistique du test, la valeur p et interprétez votre conclusion en
Ces données suggèrentelles que la proportion de tous les étudiants de Duke qui
contexte des données.
serait très gêné par la fonte des glaces du nord
pˆ

pˆ(1−pˆ) pˆ(1−pˆ)
(ˆpDuke − pˆUS)
680
0,657 0,668
36
Total
Données
Une bonne affaire
226
Pas grand chose
Duc US
105
69 454
Z =
+ nUS
nDuc
24
pˆ

(ˆpDuke − pˆUS)
pˆ(1−pˆ)
0,666×0,334
105
0,666×0,334
680
pˆ(1−pˆ)
680
0,657 0,668
36
Total
Données
Une bonne affaire
226
Pas grand chose
Duc US
105
69 454
+
+
(0,657 − 0,668)
Z =
=
=
nUS
nDuc
24
pˆ

(ˆpDuke − pˆUS)
pˆ(1−pˆ)
0,666×0,334
105
0,666×0,334
680
pˆ(1−pˆ)
69 454
680
Pas grand chose
Duc US
Total 105
Données
Une bonne affaire
226
0,657 0,668
36
−0,011
+
+
Z =
= =
(0,657 − 0,668)
0,0495
nDuc nUS
24
pˆ

(ˆpDuke − pˆUS)
pˆ(1−pˆ)
0,666×0,334
105
0,666×0,334
680
pˆ(1−pˆ)
680
0,657 0,668
36
Total
Données
Une bonne affaire
226
Pas grand chose
Duc US
105
69 454
=
−0,011
+
+
Z =
= −0,22
0,0495
(0,657 − 0,668)
=
nDuc nUS
24
pˆ

(ˆpDuke − pˆUS)
pˆ(1−pˆ)
0,666×0,334
105
0,666×0,334
680
pˆ(1−pˆ)
454
0,657 0,668
36
Données
Une bonne affaire
226
Duc US
Pas grand chose
105
69
Total 680
=
p − valeur = 2 × P (Z < −0,22)
+
+
Z =
−0,011
= −0,22
=
(0,657 − 0,668)
0,0495
nUS
nDuc
24
pˆ

(ˆpDuke − pˆUS)
pˆ(1−pˆ)
0,666×0,334
105
0,666×0,334
680
pˆ(1−pˆ)
454
0,657 0,668
36
Données
Une bonne affaire
226
Duc US
Pas grand chose
105
69
Total 680
=
p − valeur = 2 × P(Z < −0,22) = 2 × 0,41 = 0,82
+
+
Z =
−0,011
= −0,22
=
(0,657 − 0,668)
0,0495
nDuc nUS
24
pˆ

Récapitulatif comparer deux proportions
• Paramètre de population : (p1 − p2), estimation ponctuelle : (ˆp1 − pˆ2)
25

25
• Conditions:

• indépendance au sein des
groupes échantillon aléatoire et condition de 10% remplie pour
les deux groupes • indépendance
entre groupes • au moins 10 réussites et échecs dans
chaque groupe sinon → randomisation (Section 6.4)
• Conditions:
25

p1(1−p1) p2(1−p2) + n1
n2
c'est assez rare
• SE(ˆp1−pˆ2) =
• pour CI : utiliser pˆ1 et pˆ2
• pour HT :
• indépendance au sein des groupes
échantillon aléatoire et condition de 10% remplie pour les deux
groupes • indépendance entre groupes
• au moins 10 réussites et échecs dans chaque groupe
sinon → randomisation (Section 6.4)
• Conditions:
=
25
• quand H0 : p1 = p2 : utiliser pˆ pool • quand
H0 : p1 − p2 = (une valeur autre que 0) : utiliser pˆ 1 et pˆ 2
# suc1+#suc2
n1+n2

SE =
+
SE =
signifier
un échantillon deux échantillons
proportion SE = n
p(1−p)
SE = s√n
26
Référence calculs de l'erreur standard
n2
2
s
1
p2(1−p2) +
n2
n1
2
et 2
p1(1−p1) n1

SE =
SE = +
signifier
• Lorsque l'on travaille avec des moyennes, il est très rare que σ soit connu, c'est pourquoi
nous utilisons généralement s.
proportion SE =
n
SE = s√n
p(1−p)
26
n2
2
s
1
p2(1−p2) +
n2
n1
2
et 2
p1(1−p1) n1

SE = +
SE =
signifier
• Lorsque l'on travaille avec des moyennes, il est très rare que σ soit connu, c'est pourquoi
nous utilisons généralement s.
proportion SE =
SE = s√n
p(1−p)
n
• Lorsque vous travaillez avec des
proportions, • si vous effectuez un test d'hypothèse, p vient de l'hypothèse
nulle • si vous construisez un intervalle de confiance, utilisez plutôt pˆ
26
n2
2
s
1
p2(1−p2) +
n2
n1
2
et 2
p1(1−p1) n1

Test du chi carré de GOF

Les dés de Weldon
• Il a été observé que les 5 ou 6 se produisaient plus souvent que
Pearson.
et j'ai enregistré le nombre de 5 ou de 6
attendu, et Pearson a émis l’hypothèse que cela était probablement dû à
la construction des dés. La plupart des dés bon marché ont des pépins
évidés, et comme les côtés opposés totalisent 7, la face avec 6 pépins est
plus légère que la face opposée, qui a
(ce qu'il considère comme une réussite).
• En 1894, il a lancé 12 dés 26 306 fois,
• Walter Frank Raphael Weldon (1860 1906),
biologiste évolutionniste anglais et fondateur
de la biométrie. Il a été le coéditeur fondateur
de Biometrika, avec Francis Galton et
Karl
27

http://www.youtube.com/watch?
v=95EErdouO2w _
• Chaque jour, il y avait environ 150 images à traiter manuellement. • À ce
rythme, l'expérience de Weldon a été répétée en un peu plus de six jours complets. •
Lecture recommandée:
• Le processus d'imagerie par roulement
a pris environ 20 secondes par
rouleau.
• En 2009, Zacariah Labby (Université
de Chicago) a répété
l'expérience de Weldon en utilisant
une machine à lancer des dés et à
compter les pépins.
28
Les dés de Labby

• Labby n'a pas réellement observé le même phénomène que
Weldon (fréquence plus élevée de 5 et 6). •
L'automatisation a permis à Labby de collecter plus de données que
Weldon ne l'a fait en 1894, au lieu d'enregistrer les « succès » et
les « échecs », Labby a enregistré le nombre individuel de pépins sur chaqu
29
Les dés de Labby (suite)

à venir, combien de 1, 2, · · · 6 s'attendraitil à avoir
(un)
Labby a lancé 12 dés 26 306 fois. Si chaque côté est également probable
,
(c)
(b)
observé?
(d)
6
6
6
12×26 306
1
26 306
6
12
Comptes attendus
30

30
à venir, combien de 1, 2, · · · 6 s'attendraitil à avoir
(un)
Labby a lancé 12 dés 26 306 fois. Si chaque côté est également probable
,
(c)
(d)
(b)
observé?
6
12
6
12×26 306
1
26 306
6
6
Comptes attendus
= 52, 612

L'expérience de Labby.
Le tableau cidessous montre les décomptes observés et attendus de
52 465
52 118
52 612
315 672
52 612
315 672
1
2
52 338 52 612
3
4
Résultat observé attendu
52 244
53 222
52 612
5
53 285
52 612
52 612
6
Total
Résumer les résultats de Labby
31

Résumer les résultats de Labby
les décomptes observés sont différents ? À première vue, apparaîtil 31
L'expérience de Labby.
Pourquoi les comptes attendus sontils les mêmes pour tous les résultats, mais le
Le tableau cidessous montre les décomptes observés et attendus de
52 465
52 118
52 612
315 672
52 612
315 672
1
2
52 338 52 612
3
4
52 244
53 222
52 612
5
53 285
52 612
52 612
6
Total

Poser les hypothèses
Ces données fournissentelles des preuves convaincantes d’une
incohérence entre les décomptes observés et attendus ?
32

H0 : Il n’y a aucune incohérence entre les décomptes observés et
attendus. Les décomptes observés suivent la même distribution
que les décomptes attendus.
32

H0 : Il n’y a aucune incohérence entre les décomptes observés et
attendus. Les décomptes observés suivent la même distribution
que les décomptes attendus.
compte attendu. Les décomptes observés ne suivent pas la même
distribution que les décomptes attendus. Il existe un biais quant au
côté qui apparaît sur le lancer de dé.
HA : Il y a une incohérence entre les résultats observés et les
32

Évaluer les hypothèses
les décomptes observés diffèrent des décomptes attendus.
• Pour évaluer ces hypothèses, nous quantifions la différence entre les
33

la variation d’échantillonnage (chance) fournit à elle seule des preuves solides
en faveur de l’hypothèse alternative.
• Des écarts importants par rapport à ce qui serait attendu sur la base
33

eh bien, les données observées correspondent à la distribution attendue.
la variation d’échantillonnage (chance) fournit à elle seule des preuves solides en faveur
de l’hypothèse alternative.
• C'est ce qu'on appelle un test d'adéquation puisque nous évaluons comment
• Des écarts importants par rapport à ce qui serait attendu sur la base
33

Anatomie d'une statistique de test
• La forme générale d'une statistique de test est
estimation ponctuelle valeur nulle
SE de l'estimation ponctuelle
34

• Cette construction est basée sur
1. identifier la différence entre une estimation ponctuelle et une valeur
attendue si l'hypothèse nulle était vraie, et 2. normaliser
cette différence en utilisant l'erreur type de la
estimation ponctuelle.
34

• Cette construction est basée sur
Ces deux idées aideront à la construction d'une statistique de test appropriée pour les
données de dénombrement.
1. identifier la différence entre une estimation ponctuelle et une valeur
attendue si l'hypothèse nulle était vraie, et 2. normaliser
cette différence en utilisant l'erreur type de la
estimation ponctuelle.
34

) statistique.
Lorsque nous traitons des décomptes et étudions dans quelle mesure les décomptes
observés sont différents des décomptes attendus, nous utilisons une nouvelle
statistique de test appelée chi carré (χ
2
Statistique du chi carré
35

35
où k = nombre total de cellules
statistique
) statistique.
Lorsque nous traitons des décomptes et étudions dans quelle mesure les décomptes
observés sont différents des décomptes attendus, nous utilisons une nouvelle
statistique de test appelée chi carré (χ
2
2
2
k
je = 1
Statistique du chi carré
χ
=
2 χ
(O E)
E

1
53 222 52 612
2
= 7,07
36
Calcul de la statistique du chi carré
52 612
(O−E)
(53 222−52 612)2
E

2
52 612
1
52 118 52 612
53 222
2
= 7,07
= 4,64
36
52 612
(OE)
(53 222−52 612)2
(52 118−52 612)2
52 612
E

52 612
52 465
2
52 612
52 118
1
52 612
53 222
3
2
= 0,41
= 7,07
= 4,64
36
E
52 612
(53 222−52 612)2
52 612
(52 465−52 612)2
(O−E)
52 612
(52 118−52 612)2

1
52 465
2
52 338
3
52 612
4
52 612
52 612
53 222
52 612
52 118
2
= 4,64
= 0,41
= 7,07
= 1,43
36
E
52 612
52 612
(53 222−52 612)2
(52 338−52 612)2
52 612
(52 465−52 612)2
(OE)
52 612
(52 118−52 612)2

52 244 52 612
52 612
52 465
3
52 612
4
1 53 222
52 338 52 612
52 612
2
5
52 118
2
= 4,64
= 2,57
= 0,41
= 7,07
= 1,43
36
E
52 612
52 612
(52 244−52 612)2
(53 222−52 612)2
(52 338−52 612)2
52 612
52 612
(52 465−52 612)2
(OE)
52 612
(52 118−52 612)2

52 338 52 612
52 612
52 118
2
5
52 612
52 612
52 244
3
6 53 285
52 465 52 612
52 612
1
4
53 222
2
= 4,64
= 2,57
= 0,41
= 8,61
= 7,07
= 1,43
36
E
52 612
52 612
(52 244−52 612)2
(53 222−52 612)2
(52 338−52 612)2
52 612
52 612
52 612
(53 285−52 612)2
(52 465−52 612)2
(OE)
52 612
(52 118−52 612)2

52 338
315 672 315 672
52 612
52 612
52 118
24.73
2
5
52 612
52 612
52 244
3
6 53 285
52 465 52 612
52 612
Total
1
4
53 222
2
= 4,64
= 2,57
= 0,41
= 8,61
= 7,07
= 1,43
36
E
52 612
52 612
(52 244−52 612)2
(53 222−52 612)2
(52 338−52 612)2
52 612
52 612
52 612
(53 285−52 612)2
(52 465−52 612)2
(O−E)
52 612
(52 118−52 612)2

Pourquoi carré ?
Mettre au carré la différence entre le résultat observé et le résultat
attendu fait deux choses :
37

Pourquoi carré ?
• Toute différence standardisée au carré sera désormais
positif.
37

Pourquoi carré ?
• Les différences qui semblaient déjà inhabituelles deviendront beaucoup plus
importantes après avoir été mises au carré.
positif.
37

Pourquoi carré ?
• Les différences qui semblaient déjà inhabituelles deviendront beaucoup plus
importantes après avoir été mises au carré.
Quand avonsnous déjà vu cela auparavant ?
positif.
37

38
2 statistiques que nous avons calculées sont
La distribution du chi carré
• Afin de déterminer si le χ
considéré comme inhabituellement élevé ou non, nous devons d'abord décrire
sa distribution.

38
• La distribution du Chi carré n'a qu'un seul paramètre appelé
degrés de liberté (df), qui influencent la forme, le centre et la
propagation de la distribution.
sa distribution.

N'oubliez pas : jusqu'à présent, nous avons vu trois autres distributions continues :
Distribution T : unimodale et symétrique avec un paramètre : degrés de liberté
distribution normale : unimodale et symétrique avec deux paramètres : moyenne et écart type
Distribution F : unimodale et asymétrique à droite avec deux paramètres : degrés de liberté ou
numérateur (entre variance de groupe) et dénominateur (au sein de la variance de groupe)
38
• La distribution du Chi carré n'a qu'un seul paramètre appelé
degrés de liberté (df), qui influencent la forme, le centre et la
propagation de la distribution.
sa distribution.

39
dix
4
15
9
20
0
Degrés de liberté
25
5
2
À mesure que le df augmente,
comme un normal)
2 la distribution augmente également
(a) le centre du χ
Lequel des éléments suivants est faux?
(b) la variabilité du χ
la distribution devient plus asymétrique (moins
(c) la forme du χ
2

39
dix
4
15
9
20
0
Degrés de liberté
25
5
2
comme un normal)
(a) le centre du χ
Lequel des éléments suivants est faux?
(b) la variabilité du χ
la distribution devient plus asymétrique (moins
(c) la forme du χ
À mesure que le df augmente,
2

• Valeur p = aire de queue sous la distribution du chi carré (comme d'habitude)
40
Trouver des zones sous la courbe du chi carré

• Valeur p = aire de queue sous la distribution du chi carré (comme d'habitude)
• Pour cela, nous pouvons utiliser la technologie ou une probabilité du chi carré
tableau.
40
Trouver des zones sous la courbe du chi carré

41
courbe avec df = 6.
Estimez la zone ombrée (audessus de la valeur seuil de 10) sous la
Recherche d'aires sous la courbe du chi carré (suite)
2 χ

41
courbe avec df = 6.
[1] 0,124652
> pchisq(q = 10, df = 6, lower.tail = FALSE)
2 χ

(e) entre 0,01 et 0,02
(a) 0,05
(d) entre 0,05 et 0,1
(b) 0,02
(c) entre 0,02 et 0,05
courbe avec df = 9.
42
17
0
df = 9
2 χ

(e) entre 0,01 et 0,02
(a) 0,05
(d) entre 0,05 et 0,1
(b) 0,02
(c) entre 0,02 et 0,05
courbe avec df = 9.
[1] 0,04871598
17
0
df = 9
42
2 χ

0,001
(d) supérieur à 0,001
(c) moins de 0,001
(a) supérieur à 0,3 (b)
compris entre 0,005 et
(e) je ne peux pas le dire en utilisant ce
tableau
2
dix.
df = 10
30
0
43
Trouver des zones sous la courbe du chi carré (une de plus)
Estimez la zone ombrée (audessus de 30) sous le χ courbe avec df =

0,001
(d) supérieur à 0,001
(c) moins de 0,001
(a) supérieur à 0,3 (b)
compris entre 0,005 et
(e) je ne peux pas le dire en utilisant ce
tableau
2
dix.
[1] 0,0008566412
df = 10
0 30
43
Trouver des zones sous la courbe du chi carré (une de plus)
Estimez la zone ombrée (audessus de 30) sous le χ courbe avec df =

Retour aux dés de Labby
• La question de recherche était la suivante : ces données fournissentelles
des preuves convaincantes d'une incohérence entre les décomptes
observés et attendus ?
44

observés et
attendus ? • Les hypothèses étaient :
H0 : Il n’y a aucune incohérence entre les décomptes observés
et attendus. Les décomptes observés suivent la même
distribution que les décomptes attendus.
44
distribution que les décomptes attendus. Il existe un biais quant
au côté qui apparaît sur le lancer de dé.

observés et
attendus ? • Les hypothèses étaient :
2 = 24,67.
44
distribution que les décomptes attendus. Il existe un biais quant
au côté qui apparaît sur le lancer de
dé. • Nous avions calculé une statistique de test de χ

• La question de recherche était la suivante : ces données fournissentelles des
preuves convaincantes d'une incohérence entre les décomptes
observés et attendus ?
• Les hypothèses étaient :
distribution que les décomptes attendus. Il existe un biais quant au
côté qui apparaît sur le lancer de dé.
• Nous avons calculé une statistique de test de χ.
• Tout ce dont nous avons besoin est le df et nous pouvons calculer l'aire de
la queue (la valeur p) et prendre une décision sur les hypothèses.
2 = 24,67.
44

les données observées suivent une distribution attendue, les degrés de liberté
sont calculés comme le nombre de cellules (k) moins 1.
• Lors de la réalisation d'un test d'ajustement pour évaluer dans quelle mesure
45
Degrés de liberté pour un test d'ajustement
df = k − 1

• Lors de la réalisation d'un test d'ajustement pour évaluer dans quelle mesure
les données observées suivent une distribution attendue, les degrés de liberté
sont calculés comme le nombre de cellules (k) moins 1.
• Pour les résultats des dés, k = 6, donc
45
Degrés de liberté pour un test d'ajustement
df = k − 1
df = 6 − 1 = 5

La valeur p pour un test du chi carré est définie comme la zone de queue située au
dessus de la statistique de test calculée.
valeur p = P(χ > 24,67) df=5 est
inférieur à 0,001
2
46
Trouver une valeur p pour un test du chi carré
df = 5
24.67
0

(c) Si H0 n’est pas rejeté , les données fournissent des preuves convaincantes que le
(a) Rejetez H0, les données fournissent une preuve convaincante que les dés
(d) Si H0 n’est pas rejeté , les données fournissent des preuves convaincantes que le
les dés sont justes.
sont biaisés.
Nous avons calculé une valeur p inférieure à 0,001. Au seuil de signification de 5 %, quelle est la
conclusion du test d’hypothèse ?
(b) Rejetez H0, les données fournissent une preuve convaincante que les dés
les dés sont biaisés.
sont justes.
47
Conclusion du test d'hypothèse

les dés sont justes.
sont justes.
(d) Si H0 n’est pas rejeté , les données fournissent des preuves convaincantes que le
(b) Rejetez H0, les données fournissent une preuve convaincante que les dés
les dés sont biaisés.
sont biaisés.
Nous avons calculé une valeur p inférieure à 0,001. Au seuil de signification de 5 %, quelle est la
conclusion du test d’hypothèse ?
(c) Si H0 n’est pas rejeté , les données fournissent des preuves convaincantes que le
(a) Rejetez H0, les données fournissent une preuve convaincante que les dés
47
Conclusion du test d'hypothèse

les pépins découpés ne sont pas pris en charge par ces données.
remplis d'un plastique de même densité que le matériau environnant et sont
précisément équilibrés.
• Les dés utilisés dans les casinos ont des faces affleurantes, là où les pépins sont
• L'axe 16 est systématiquement plus court que les deux autres (25 et 34),
confortant ainsi l'hypothèse selon laquelle les faces à un et six picots sont plus
grandes que les autres faces. • L'affirmation de Pearson selon laquelle
les 5 et les 6 apparaissent plus souvent en raison
48
Il s'avère que...

audessus de la statistique de test calculée.
une statistique de test plus élevée signifie un écart plus important par rapport à
l'hypothèse nulle.
• Cela est dû au fait que les statistiques du test sont toujours positives et qu'un
• La valeur p pour un test du chi carré est définie comme la zone de la queue
49
Récapitulatif : valeur de p pour un test du chi carré
valeur p

1. Indépendance : Chaque observation contribuant au décompte du tableau
doit être indépendante de toutes les autres observations du tableau.
50
Conditions du test du chi carré

1. Indépendance : Chaque observation contribuant au décompte du tableau doit être
indépendante de toutes les autres observations du tableau.
2. Taille de l'échantillon : Chaque scénario particulier (c'estàdire cellule) doit avoir au
au moins 5 cas attendus .
50

3. df > 1 : les degrés de liberté doivent être supérieurs à 1.
50

taux d'erreur.
3. df > 1 : les degrés de liberté doivent être supérieurs à 1.
Ne pas vérifier les conditions peut involontairement affecter les résultats du test.
50

338
(1) Ahmedinajad
100%
63,29%
(2) Mousavi
(3) Candidats mineurs
136
On a beaucoup parlé de fraude électorale lors des élections iraniennes de 2009.
34,10%
Nous comparerons les données d'un sondage réalisé avant les élections
Total
(données observées) aux votes rapportés lors de l'élection pour voir si le
30
deux suivent la même distribution.
2,61%
504
51
Élections iraniennes de 2009
% déclaré de
les électeurs votent lors des élections
Nombre observé de
Candidat

51
338
(1) Ahmedinajad
100%
63,29%
(2) Mousavi
136
On a beaucoup parlé de fraude électorale lors des élections iraniennes de 2009.
34,10%
Nous comparerons les données d'un sondage réalisé avant les élections
Total
↓ observé
(données observées) aux votes rapportés lors de l'élection pour voir si le
30
deux suivent la même distribution.
2,61%
504
attendu
distribution
↓
Élections iraniennes de 2009
% déclaré de
les électeurs votent lors des élections
Nombre observé de
Candidat

Quelles sont les hypothèses permettant de tester si les répartitions des votes
rapportés et interrogés sont différentes ?
52
Hypothèses

H0 : Les décomptes observés lors du sondage suivent la même distribution
HA : Les décomptes observés lors du sondage ne suivent pas les mêmes
distribution comme les votes rapportés.
comme les votes rapportés.
Quelles sont les hypothèses permettant de tester si les répartitions des votes
rapportés et interrogés sont différentes ?
52
Hypothèses

53
(2) Mousavi
Nombre prévu de
votes dans un sondage
Candidat
Nombre observé de
(1) Ahmedinajad
Pourcentage déclaré
d'électeurs lors des votes lors des élections
Calcul de la statistique du test
136
30 2,61 % 504 × 0,0261 = 13
100%
504
Total 504
63,29 % 504 × 0,6329 = 319
338
34,10 % 504 × 0,3410 = 172

E1
2
(1) Ahmedinajad
(2) Mousavi
Candidat
Nombre observé de
Nombre prévu de
53
(O1 E1) (338 − 319)2
= 1,13
=
319
136
30 2,61 % 504 × 0,0261 = 13
100%
504
Total 504
63,29 % 504 × 0,6329 = 319
338
34,10 % 504 × 0,3410 = 172

2
E2
E1
2
(2) Mousavi
Nombre prévu de
Candidat
Nombre observé de
(1) Ahmedinajad
53
(338 − 319)2
319
(136172)2
(O2 E2)
= 7,53
172
=
= 1,13
(O1 E1) =
2,61 % 504 × 0,0261 = 13
30
100%
504
Total 504
63,29 % 504 × 0,6329 = 319
338
34,10 % 504 × 0,3410 = 172
136

2
2
E2
2
E2
E1
(1) Ahmedinajad
(2) Mousavi
Candidat
Nombre observé de
Nombre prévu de
53
(O2 E2)
(3013)2
(O2 E2)
= 7,53
= 22,23
=
= 1,13
=
(338 − 319)2
13
=
319
(O1 E1)
(136172)2
172
136
30 2,61 % 504 × 0,0261 = 13
100%
504
Total 504
63,29 % 504 × 0,6329 = 319
338
34,10 % 504 × 0,3410 = 172

E2
2
2
E1
2
2
E2
df=3−1=2
(1) Ahmedinajad
(2) Mousavi
Candidat
Nombre observé de
Nombre prévu de
53
172
(3013)2
= 30,89
(O2 E2)
= 7,53
= 22,23
=
=
(338 − 319)2
= 1,13
13
=
319
(O1 E1)
χ
(136172)2
(O2 E2)
2,61 % 504 × 0,0261 = 13
30
100%
504
Total 504
63,29 % 504 × 0,6329 = 319
338
34,10 % 504 × 0,3410 = 172
136

(d) la valeur p est faible, H0 n'est pas rejeté. Les décomptes observés lors du
sondage ne suivent pas la même distribution que les chiffres rapportés.
(a) la valeur p est faible, H0 est rejeté. Les décomptes observés lors du scrutin
ne suivent pas la même répartition que les votes rapportés.
(c) la valeur p est faible, H0 est rejeté. Les décomptes observés depuis le
votes.
le sondage suit la même répartition que les votes rapportés
(b) la valeur p est élevée, H0 n'est pas rejeté. Les décomptes observés lors du
scrutin suivent la même répartition que les votes rapportés.
Sur la base de ces calculs, quelle est la conclusion du test d’hypothèse ?
54
Conclusion

votes.
(a) la valeur p est faible, H0 est rejeté. Les décomptes observés lors du scrutin
ne suivent pas la même répartition que les votes rapportés. (b) la valeur p
est élevée, H0 n'est pas rejeté. Les décomptes observés lors du scrutin suivent
la même répartition que les votes rapportés.
le sondage suit la même répartition que les votes rapportés
(d) la valeur p est faible, H0 n'est pas rejeté. Les décomptes observés lors du
sondage ne suivent pas la même distribution que les chiffres rapportés.
(c) la valeur p est faible, H0 est rejeté. Les décomptes observés depuis le
Sur la base de ces calculs, quelle est la conclusion du test d’hypothèse ?
54
Conclusion

Test d'indépendance du chi carré

55
31
eux. Un tableau à double sens séparant les élèves par niveau et par
Sports populaires
25
Le choix du facteur le plus important est indiqué cidessous. Ces données fournissent
elles des preuves suggérant que les objectifs varient selon le niveau ?
33
96 32
88
55
63
les bonnes notes, les capacités athlétiques ou la popularité étaient les éléments les plus importants pour
Dans l'ensemble de données populaire, il a été demandé aux élèves de la 4e à la 6e année si
55
4
è
m
e
5
è
m
e
6
è
m
e
Des sports
Populaire
Notes
Enfants populaires
le
5
le
6
le
4

• Les hypothèses sont : H0 :
La note et les objectifs sont indépendants. Les objectifs ne varient pas selon le niveau.
HA : La note et les objectifs dépendent. Les objectifs varient selon le niveau.
56

= (O E)
E
où k est le nombre de cellules, R est le nombre de lignes et C est
le nombre de colonnes.
où df = (R − 1) × (C − 1),
• La statistique du test est calculée comme suit
2 χ df
k
je = 1
2
Remarque : Nous calculons df différemment pour les tableaux unidirectionnels et bidirectionnels.
56

(O E)
E
=
où k est le nombre de cellules, R est le nombre de lignes et C est le nombre
de colonnes.
• La valeur p est l'aire sous la courbe χ , audessus du df
où df = (R − 1) × (C − 1),
statistique de test calculée.
• La statistique du test est calculée comme suit
2 χ df
k
je = 1
2
2
Remarque : Nous calculons df différemment pour les tableaux unidirectionnels et bidirectionnels.
56

Nombre attendu = total du
tableau
Nombres attendus dans les tableaux à double entrée
(total de la ligne) × (total de la colonne)
57

57
total du tableau
Nombre attendu =
55
88
90 478
141
96
33 176
Notes Sports populaires Total
247
Total
32 183
31 25 119
55
63
le
4
le
5
le
6

= = 61
478
119 × 247
total du tableau
Nombre attendu =
55
88
90 478
141
96
33 176
247
Total
32 183
31 25 119
55
63
Erow 1,col 1
57
le
4
le
5
le
6

478
119 × 247
= 61
478
119 × 141
= = 35
=
total du tableau
Nombre attendu =
55
88
90 478
141
96
33 176
247
Total
32 183
31 25 119
55
63
Erow 1,col 2
Erow 1,col 1
57
le
4
le
5
le
6

5
(un)
(b)
(c)
(d)
Quel est le nombre attendu pour la cellule en surbrillance ?
le
4
ème
le
6
478
478
176×141
478
119×141
478
176×478
176×247
58
96
31 25 119
Total 247
33 176
55
32 183
90 478
63
55
88
141

5
→ 52
(un)
(b)
(c)
(d)
Quel est le nombre attendu pour la cellule en surbrillance ?
ème
le
6
le
4
478
478
478
176×141
119×141
176×478
176×247
478
58
247
32 183
88 33 176
90 478
141
plus que prévu nombre d'élèves de 5e année
31 25 119
Total
avoir pour objectif d'être populaire
55
55
63
96

59
31 35 25 23 119
247
63 61
141 90 478
88 91 55 52 33 33 176
96 95 55 54 32 34 183
Les décomptes attendus sont indiqués en bleu à côté des décomptes observés.
Total
Calcul de la statistique du test dans des tableaux à double entrée
le
5
le
4
le
6

59
Total 247
55 52 33 33 176
96 95 55 54 32 34 183
90 478
88 91
31 35 25 23 119
141
63 61
+
(3135)2 (3234)2
+ · · · +
=
34
= 1,3121
61 35
(6361)2
le
6
le
4
2 χ
le
5

59
63 61
247
Total
55 52 33 33 176
96 95 55 54 32 34 183
90 478
88 91
31 35 25 23 119
141
35
(3135)2 (3234)2
df = (R − 1) × (C − 1) = (3 − 1) × (3 − 1) = 2 × 2 = 4
+
61
= 1,3121
34
+ · · · +
= (6361)2
le
6
le
4
2 χ
le
5

(d) entre 0,1 et 0,05
(b) entre 0,3 et 0,2 (c)
entre 0,2 et 0,1
(e) moins de 0,001
(a) plus de 0,3
Parmi les propositions suivantes, laquelle est la valeur p correcte pour ce test d’hypothèse ?
df = 4
= 1,3121
0 1.3121
df = 4
60
Calcul de la valeur p
2 χ

(b) entre 0,3 et 0,2 (c)
entre 0,2 et 0,1
(d) entre 0,1 et 0,05
(e) moins de 0,001
(a) plus de 0,3
Parmi les propositions suivantes, laquelle est la valeur p correcte pour ce test d’hypothèse ?
df = 4
= 1,3121
df = 4
0 1.3121
60
Calcul de la valeur p
2 χ

Conclusion
H0 : La note et les objectifs sont indépendants. Les objectifs ne varient pas selon
grade.
Ces données fournissentelles des preuves suggérant que les objectifs varient selon le
niveau ?
61

Conclusion
H0 : La note et les objectifs sont indépendants. Les objectifs ne varient pas selon
Puisque la valeur p est élevée, nous ne parvenons pas à rejeter H0. Les données ne
fournissent pas de preuves convaincantes d’une dépendance entre la note et les
objectifs. Il ne semble pas que les objectifs varient selon le niveau.
grade.
Ces données fournissentelles des preuves suggérant que les objectifs varient selon le niveau ?
61

Ch6 (1).pdf

Recommandé

Recommandé

Contenu connexe

Similaire à Ch6 (1).pdf

Similaire à Ch6 (1).pdf (17)

Ch6 (1).pdf