´
´
Resume du Cours de Statistique
Descriptive
Yves Till´
e
15 d´cembre 2010
e
2
Objectif et moyens
Objectifs du cours
– Apprendre les principales techniques de statistique descriptive univari´e
e
et biv...
4
Table des mati`res
e
1 Variables, donn´es statistiques, tableaux, effectifs
e
1.1 D´finitions fondamentales . . . . . . . . ...
`
TABLE DES MATIERES

6

2.2.1 L’´tendue . . . . . . . . . . . . . . . . . . .
e
2.2.2 La distance interquartile . . . . ....
`
TABLE DES MATIERES
4.3.1
4.3.2
4.3.3
4.3.4
4.3.5
4.3.6
4.3.7

Introduction . . . . . . . . .
Courbe de Lorenz . . . . . ...
`
TABLE DES MATIERES

8
5.8.4

Loi normale bivari´e . . . . . . . . . . . . . . . . . . . . . 118
e

6 S´ries temporelles,...
Chapitre 1

Variables, donn´es
e
statistiques, tableaux,
effectifs
1.1
1.1.1

D´finitions fondamentales
e
La science statist...
´
10CHAPITRE 1. VARIABLES, DONNEES STATISTIQUES, TABLEAUX, EFFECTIFS
sont des cat´gories.
e
– Variable qualitative nominal...
1.2. VARIABLE QUALITATIVE NOMINALE

11

Le domaine de la variable X est {C, M, V, D}. Consid´rons la s´rie statistique
e
e...
´
12CHAPITRE 1. VARIABLES, DONNEES STATISTIQUES, TABLEAUX, EFFECTIFS
En langage R

>X=c(’Mari´(e)’,’Mari´(e)’,’Divorc´(e)’...
13

0

2

4

6

8

10

1.3. VARIABLE QUALITATIVE ORDINALE

Célibataire

Divorcé(e)

Marié(e)

Veuf(ve)

Figure 1.2 – Diagr...
´
14CHAPITRE 1. VARIABLES, DONNEES STATISTIQUES, TABLEAUX, EFFECTIFS

Table 1.1 – Codification de la variable Y
Dernier dip...
1.3. VARIABLE QUALITATIVE ORDINALE
P
Se
Su
U

11
14
9
12

1.3.2

15
29
38
50

0.22
0.28
0.18
0.24

15

0.30
0.58
0.76
1.00...
0

2

4

6

8

10

12

14

´
16CHAPITRE 1. VARIABLES, DONNEES STATISTIQUES, TABLEAUX, EFFECTIFS

Sd

P

Se

Su

U

Figure ...
`
1.4. VARIABLE QUANTITATIVE DISCRETE

17

En langage R
> T3=cumsum(T2)
> barplot(T3)

1.4
1.4.1

Variable quantitative di...
´
18CHAPITRE 1. VARIABLES, DONNEES STATISTIQUES, TABLEAUX, EFFECTIFS
1
2
3
4
5
6
8

5
9
15
10
6
3
2

1.4.2

5
14
29
39
45
...
1.5. VARIABLE QUANTITATIVE CONTINUE

1.4.3

19

Fonction de r´partition
e

0.0

0.2

0.4

0.6

0.8

1.0

Les fr´quences cu...
´
20CHAPITRE 1. VARIABLES, DONNEES STATISTIQUES, TABLEAUX, EFFECTIFS
construire le tableau statistique, il faut proc´der `...
1.5. VARIABLE QUANTITATIVE CONTINUE

21

On a les classes de tailles d´finies pr´ablement comme il suit :
e
e
[151, 5; 155,...
´
22CHAPITRE 1. VARIABLES, DONNEES STATISTIQUES, TABLEAUX, EFFECTIFS
– L’aire de l’histogramme est ´gale ` l’effectif total...
23

0.00

0.02

0.04

0.06

1.5. VARIABLE QUANTITATIVE CONTINUE

151.5

155.5

159.5

163.5

171.5

Figure 1.9 – Histogram...
´
24CHAPITRE 1. VARIABLES, DONNEES STATISTIQUES, TABLEAUX, EFFECTIFS

0.0 0.2 0.4 0.6 0.8 1.0

Figure 1.10 – Fonction de r...
1.5. VARIABLE QUANTITATIVE CONTINUE
En langage R
>
>
>
>

y=c(0,0,cumsum(T5c/sum(T5c)),1)
x=c(148,151.5,155.5,159.5,163.5,...
´
26CHAPITRE 1. VARIABLES, DONNEES STATISTIQUES, TABLEAUX, EFFECTIFS
Chapitre 2

Statistique descriptive
univari´e
e
2.1
2.1.1

Param`tres de position
e
Le mode

Le mode est la valeur distinc...
28

´
CHAPITRE 2. STATISTIQUE DESCRIPTIVE UNIVARIEE

La moyenne est la somme des valeurs observ´es divis´e par leur nombre...
`
2.1. PARAMETRES DE POSITION

2.1.3

29

Remarques sur le signe de sommation

D´finition 2.1
e

n
∑

∑

xi = x1 + x2 + · ·...
´
CHAPITRE 2. STATISTIQUE DESCRIPTIVE UNIVARIEE

30
Exemple

5
∑

3 = 3 + 3 + 3 + 3 + 3 = 5 × 3 = 15.

i=1

2. Mise en ´vi...
`
2.1. PARAMETRES DE POSITION

2.1.4

31

Moyenne g´om´trique
e
e

Si xi ≥ 0, on appelle moyenne g´om´trique la quantit´
e...
´
CHAPITRE 2. STATISTIQUE DESCRIPTIVE UNIVARIEE

32

– Un raisonnement simple nous dit qu’il a parcouru la premi`re ´tape ...
`
2.1. PARAMETRES DE POSITION
Note
Cr´dits
e

33

5
6

4
3

3
4

6
3

5
4

La moyenne pond´r´e des notes par les cr´dits e...
´
CHAPITRE 2. STATISTIQUE DESCRIPTIVE UNIVARIEE

34

0.00

0.50

1.00

Figure 2.1 – M´diane quand n est impair
e

−1

0

1...
`
2.1. PARAMETRES DE POSITION

35

x=c(0 , 0 , 1 , 1 , 2 , 2 , 3 , 4)
median(x)
plot(ecdf(x),xlab="",ylab="",main="",frame...
´
CHAPITRE 2. STATISTIQUE DESCRIPTIVE UNIVARIEE

36

Remarque 2.5
– La m´diane est le quantile d’ordre p = 1/2.
e
– On uti...
`
2.2. PARAMETRES DE DISPERSION

37

– La m´diane : Comme np = 0.5 × 10 = 5 est un nombre entier, on a
e
x1/2 =

}
1{
x(5)...
´
CHAPITRE 2. STATISTIQUE DESCRIPTIVE UNIVARIEE

38

D´monstration
e
=

1∑ 2
1∑
(xi − x)2 =
¯
(x − 2xi x + x2 )
¯ ¯
n i=1
...
`
2.2. PARAMETRES DE DISPERSION

39

1∑
(xi − x)2
¯
n i=1
n

s2
x

=

]
1[
(2 − 5)2 + (3 − 5)2 + (4 − 5)2 + (4 − 5)2 + (5 ...
40

´
CHAPITRE 2. STATISTIQUE DESCRIPTIVE UNIVARIEE

> S
[1] 2.267787
> E=max(x)-min(x)
> E
[1] 7

2.2.5

L’´cart moyen ab...
`
2.4. PARAMETRES DE FORME

2.4
2.4.1

41

Param`tres de forme
e
Coefficient d’asym´trie de Fisher (skewness)
e

Le moment c...
´
CHAPITRE 2. STATISTIQUE DESCRIPTIVE UNIVARIEE

42

Remarque 2.6 Certaines variables sont toujours tr`s asym´triques ` dr...
´
2.6. CHANGEMENT D’ORIGINE ET D’UNITE

43

D´finition 2.5 On appelle changement d’unit´ l’op´ration consistant ` multie
e
...
´
CHAPITRE 2. STATISTIQUE DESCRIPTIVE UNIVARIEE

44

2.7

Moyennes et variances dans des groupes

Supposons que les n obse...
2.8. DIAGRAMME EN TIGES ET FEUILLES

45

On note que
nA
∑

(xi − x)2
¯

i=1

=

nA
∑

(xi − xA + xA − x)2
¯
¯
¯

i=1

=

n...
´
CHAPITRE 2. STATISTIQUE DESCRIPTIVE UNIVARIEE

46

´
Ce diagramme permet d’avoir une vue synth´tique de la distribution....
`
2.9. LA BOˆ
ITE A MOUSTACHES

0

1000

2000

47

3000

4000

5000

Figure 2.5 – Boˆ ` moustaches pour la variable superfi...
48

´
CHAPITRE 2. STATISTIQUE DESCRIPTIVE UNIVARIEE

40000
35000
30000
25000
20000

Anv.

Brab.

Fl.occ.

Fl.or.

Hainaut
...
`
2.9. LA BOˆ
ITE A MOUSTACHES

49

Exercices
Exercice 2.1 On p`se les 50 ´l`ves d’une classe et nous obtenons les r´sulta...
´
CHAPITRE 2. STATISTIQUE DESCRIPTIVE UNIVARIEE

50

– M´diane : Comme n est pair,
e
x1/2 =

1
1
(x25 + x26 ) = (160 + 160...
`
2.9. LA BOˆ
ITE A MOUSTACHES

51

2. Montrez que
√
sx ≤ Et

n−1
.
2n

3. Montrez que, si xi > 0,

1∑
|xi − x| ≤ 2¯.
¯
x
...
´
CHAPITRE 2. STATISTIQUE DESCRIPTIVE UNIVARIEE

52
2.

=

n
n
1 ∑∑
(xi − xj )2
2n2 i=1 j=1

=

s2
x

n
n
1 ∑ ∑
(xi − xj )...
Chapitre 3

Statistique descriptive
bivari´e
e
3.1

S´rie statistique bivari´e
e
e

On s’int´resse ` deux variables x et y...
´
CHAPITRE 3. STATISTIQUE DESCRIPTIVE BIVARIEE

54

Exemple 3.1 On mesure le poids Y et la taille X de 20 individus.
xi
yi...
3.2. DEUX VARIABLES QUANTITATIVES

3.2.2

55

Analyse des variables

Les variables x et y peuvent ˆtre analys´es s´par´men...
´
CHAPITRE 3. STATISTIQUE DESCRIPTIVE BIVARIEE

56

2

3.2.4

Corr´lation
e

Le coefficient de corr´lation est la covariance...
3.2. DEUX VARIABLES QUANTITATIVES

3.2.5

57

Droite de r´gression
e

La droite de r´gression est la droite qui ajuste au ...
58

´
CHAPITRE 3. STATISTIQUE DESCRIPTIVE BIVARIEE

En langage R
# Graphique avec le r´sidus
e
plot(taille,poids)
segments...
3.2. DEUX VARIABLES QUANTITATIVES
ou encore

59


n
n
n
1∑
1∑
 1∑

yi −
a−b
xi = 0

 n
n i=1
n i=1
i=1
n
n
n

 1 ∑ ...
´
CHAPITRE 3. STATISTIQUE DESCRIPTIVE BIVARIEE

60

80
60

70

poids

90

100

Figure 3.4 – La droite de r´gression
e

155...
3.2. DEUX VARIABLES QUANTITATIVES

61

– La moyenne des r´sidus est nulle. En effet
e
1∑
1∑
∗
ei =
(yi − yi ) = y − y = 0.
...
´
CHAPITRE 3. STATISTIQUE DESCRIPTIVE BIVARIEE

62
Th´or`me 3.3
e e

SCT OT = SCREGR + SCRES .
D´monstration
e
SCT OT

=

...
3.2. DEUX VARIABLES QUANTITATIVES

63

D´monstration
e
1∑ ∗
(y − y )2
¯
n i=1 i
}2
n {
1∑
sxy
y + 2 (xi − x) − y
¯
¯
¯
n i...
´
CHAPITRE 3. STATISTIQUE DESCRIPTIVE BIVARIEE

64

Th´or`me 3.6 La variance marginale est la somme de la variance de r´gr...
3.3. DEUX VARIABLES QUALITATIVES

65

et
J
∑

nj. =

j=1

K
∑

n.k =

J
K
∑∑

njk = n

.

j=1 k=1

k=1

Exemple 3.2 On s’i...
66

´
CHAPITRE 3. STATISTIQUE DESCRIPTIVE BIVARIEE

Table 3.2 – Tableau des fr´quences
e

Homme
Femme
Total

3.3.4

Bleu
0...
3.3. DEUX VARIABLES QUALITATIVES

3.3.5

67

Effectifs th´oriques et khi-carr´
e
e

On cherche souvent une interaction entr...
´
CHAPITRE 3. STATISTIQUE DESCRIPTIVE BIVARIEE

68

Table 3.5 – Tableau des effectifs th´oriques n∗
e
jk

Homme
Femme
Total...
3.3. DEUX VARIABLES QUALITATIVES

69

´gal, inf´rieur), et la variable Y est le statut professionnel du fils par rapport
e
...
´
CHAPITRE 3. STATISTIQUE DESCRIPTIVE BIVARIEE

70

Table 3.12 – Tableau des effectifs th´oriques n∗
e
jk
XY
Plus ´lev´ Ega...
3.3. DEUX VARIABLES QUALITATIVES

71

Table 3.15 – Consommation de cr`mes glac´es
e
e
consommation y
386
374
393
425
406
3...
´
CHAPITRE 3. STATISTIQUE DESCRIPTIVE BIVARIEE

72

Exercice 3.2 Neuf ´tudiants ´mettent un avis p´dagogique vis-`-vis d’u...
3.3. DEUX VARIABLES QUALITATIVES
yi
xi
5
8
7
11
16 10
6
13
12
9
14 17
10
7
9
15
8
16
87 106
y=
¯

73

2
yi
x2 xi yi
i
25
6...
´
CHAPITRE 3. STATISTIQUE DESCRIPTIVE BIVARIEE

74

Exercice 3.3 Consid´rons un ´chantillon de 10 fonctionnaires (ayant en...
3.3. DEUX VARIABLES QUALITATIVES
rxy = √

27, 3
= 0.78
42 × 29, 2

3)
Dxy ≡ y − y =
¯

Sxy
(x − x)
¯
2
Sx

27, 3
(x − 12)
...
76

´
CHAPITRE 3. STATISTIQUE DESCRIPTIVE BIVARIEE
Chapitre 4

Th´orie des indices,
e
mesures d’in´galit´
e
e
4.1

Nombres indices

4.2

D´finition
e

Un indice est la valeur...
´
´
´
CHAPITRE 4. THEORIE DES INDICES, MESURES D’INEGALITE

78

Table 4.2 – Tableau de l’indice simple du prix du tableau ...
´
4.2. DEFINITION

79

Table 4.3 – Exemple : prix et quantit´s de trois bien pendant 3 ans
e
Temps
Bien 1
Bien 2
Bien 3

0...
´
´
´
CHAPITRE 4. THEORIE DES INDICES, MESURES D’INEGALITE

80

4.2.4

Indice de Paasche

L’indice de Paasche, est d´fini p...
´
4.2. DEFINITION

81

ou ´gale ` une moyenne arithm´tique (voir la remarque de la page 32). Cepene
a
e
dant ici, ce r´sul...
´
´
´
CHAPITRE 4. THEORIE DES INDICES, MESURES D’INEGALITE

82

4.3
4.3.1

Mesures de l’in´galit´
e
e
Introduction

Des in...
´
´
4.3. MESURES DE L’INEGALITE

83

Figure 4.1 – Courbe de Lorenz
1.0

proportion de revenu

0.8

0.6

0.4

0.2

0.0
0.0
...
Cours statistique descriptive
Cours statistique descriptive
Cours statistique descriptive
Cours statistique descriptive
Cours statistique descriptive
Cours statistique descriptive
Cours statistique descriptive
Cours statistique descriptive
Cours statistique descriptive
Cours statistique descriptive
Cours statistique descriptive
Cours statistique descriptive
Cours statistique descriptive
Cours statistique descriptive
Cours statistique descriptive
Cours statistique descriptive
Cours statistique descriptive
Cours statistique descriptive
Cours statistique descriptive
Cours statistique descriptive
Cours statistique descriptive
Cours statistique descriptive
Cours statistique descriptive
Cours statistique descriptive
Cours statistique descriptive
Cours statistique descriptive
Cours statistique descriptive
Cours statistique descriptive
Cours statistique descriptive
Cours statistique descriptive
Cours statistique descriptive
Cours statistique descriptive
Cours statistique descriptive
Cours statistique descriptive
Cours statistique descriptive
Cours statistique descriptive
Cours statistique descriptive
Cours statistique descriptive
Cours statistique descriptive
Cours statistique descriptive
Cours statistique descriptive
Cours statistique descriptive
Cours statistique descriptive
Cours statistique descriptive
Cours statistique descriptive
Cours statistique descriptive
Cours statistique descriptive
Cours statistique descriptive
Cours statistique descriptive
Cours statistique descriptive
Cours statistique descriptive
Cours statistique descriptive
Cours statistique descriptive
Cours statistique descriptive
Cours statistique descriptive
Cours statistique descriptive
Cours statistique descriptive
Cours statistique descriptive
Cours statistique descriptive
Cours statistique descriptive
Cours statistique descriptive
Cours statistique descriptive
Cours statistique descriptive
Cours statistique descriptive
Cours statistique descriptive
Cours statistique descriptive
Cours statistique descriptive
Cours statistique descriptive
Cours statistique descriptive
Cours statistique descriptive
Cours statistique descriptive
Cours statistique descriptive
Cours statistique descriptive
Cours statistique descriptive
Cours statistique descriptive
Cours statistique descriptive
Cours statistique descriptive
Cours statistique descriptive
Cours statistique descriptive
Cours statistique descriptive
Cours statistique descriptive
Cours statistique descriptive
Cours statistique descriptive
Cours statistique descriptive
Cours statistique descriptive
Cours statistique descriptive
Cours statistique descriptive
Cours statistique descriptive
Cours statistique descriptive
Prochain SlideShare
Chargement dans…5
×

Cours statistique descriptive

2 502 vues

Publié le

Publié dans : Formation
0 commentaire
2 j’aime
Statistiques
Remarques
  • Soyez le premier à commenter

Aucun téléchargement
Vues
Nombre de vues
2 502
Sur SlideShare
0
Issues des intégrations
0
Intégrations
7
Actions
Partages
0
Téléchargements
150
Commentaires
0
J’aime
2
Intégrations 0
Aucune incorporation

Aucune remarque pour cette diapositive

Cours statistique descriptive

  1. 1. ´ ´ Resume du Cours de Statistique Descriptive Yves Till´ e 15 d´cembre 2010 e
  2. 2. 2
  3. 3. Objectif et moyens Objectifs du cours – Apprendre les principales techniques de statistique descriptive univari´e e et bivari´e. e ˆ – Etre capable de mettre en oeuvre ces techniques de mani`re appropri´e e e dans un contexte donn´. e ˆ – Etre capable d’utiliser les commandes de base du Language R. Pouvoir appliquer les techniques de statistiques descriptives au moyen du language R. – R´f´rences ee Dodge Y.(2003), Premiers pas en statistique, Springer. ´e Droesbeke J.-J. (1997), El´ments de statistique, Editions de l’Universit´ e libre de Bruxelles/Ellipses. Moyens – 2 heures de cours par semaine. – 2 heures de TP par semaine, r´partis en TP th´oriques et applications en e e Language R. Le language R – Shareware : gratuit et install´ en 10 minutes. e – Open source (on sait ce qui est r´ellement calcul´). e e – D´velopp´ par la communaut´ des chercheurs, contient ´norm´ment de e e e e e fonctionnalit´s. e – Possibilit´ de programmer. e – D´savantage : pas tr`s convivial. e e – Manuel : http://cran.r-project.org/doc/contrib/Paradis-rdebuts_fr.pdf 3
  4. 4. 4
  5. 5. Table des mati`res e 1 Variables, donn´es statistiques, tableaux, effectifs e 1.1 D´finitions fondamentales . . . . . . . . . . . . . . . . e 1.1.1 La science statistique . . . . . . . . . . . . . . 1.1.2 Mesure et variable . . . . . . . . . . . . . . . . 1.1.3 Typologie des variables . . . . . . . . . . . . . 1.1.4 S´rie statistique . . . . . . . . . . . . . . . . . . e 1.2 Variable qualitative nominale . . . . . . . . . . . . . . 1.2.1 Effectifs, fr´quences et tableau statistique . . . e 1.2.2 Diagramme en secteurs et diagramme en barres 1.3 Variable qualitative ordinale . . . . . . . . . . . . . . . 1.3.1 Le tableau statistique . . . . . . . . . . . . . . 1.3.2 Diagramme en secteurs . . . . . . . . . . . . . 1.3.3 Diagramme en barres des effectifs . . . . . . . . 1.3.4 Diagramme en barres des effectifs cumul´s . . . e 1.4 Variable quantitative discr`te . . . . . . . . . . . . . . e 1.4.1 Le tableau statistique . . . . . . . . . . . . . . 1.4.2 Diagramme en bˆtonnets des effectifs . . . . . a 1.4.3 Fonction de r´partition . . . . . . . . . . . . . e 1.5 Variable quantitative continue . . . . . . . . . . . . . . 1.5.1 Le tableau statistique . . . . . . . . . . . . . . 1.5.2 Histogramme . . . . . . . . . . . . . . . . . . . 1.5.3 La fonction de r´partition . . . . . . . . . . . . e . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9 9 9 9 9 10 11 11 12 13 13 15 15 16 17 17 18 19 19 19 21 23 2 Statistique descriptive univari´e e 2.1 Param`tres de position . . . . . . e 2.1.1 Le mode . . . . . . . . . . 2.1.2 La moyenne . . . . . . . . 2.1.3 Remarques sur le signe de 2.1.4 Moyenne g´om´trique . . e e 2.1.5 Moyenne harmonique . . 2.1.6 Moyenne pond´r´e . . . . ee 2.1.7 La m´diane . . . . . . . . e 2.1.8 Quantiles . . . . . . . . . 2.2 Param`tres de dispersion . . . . e . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27 27 27 27 29 31 31 32 33 35 37 5 . . . . . . . . . . . . . . . . . . . . . . . . .∑ . . sommation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
  6. 6. ` TABLE DES MATIERES 6 2.2.1 L’´tendue . . . . . . . . . . . . . . . . . . . e 2.2.2 La distance interquartile . . . . . . . . . . . 2.2.3 La variance . . . . . . . . . . . . . . . . . . 2.2.4 L’´cart-type . . . . . . . . . . . . . . . . . . e 2.2.5 L’´cart moyen absolu . . . . . . . . . . . . . e 2.2.6 L’´cart m´dian absolu . . . . . . . . . . . . e e Moments . . . . . . . . . . . . . . . . . . . . . . . Param`tres de forme . . . . . . . . . . . . . . . . . e 2.4.1 Coefficient d’asym´trie de Fisher (skewness) e 2.4.2 Coefficient d’asym´trie de Yule . . . . . . . e 2.4.3 Coefficient d’asym´trie de Pearson . . . . . e Param`tre d’aplatissement (kurtosis) . . . . . . . . e Changement d’origine et d’unit´ . . . . . . . . . . e Moyennes et variances dans des groupes . . . . . . Diagramme en tiges et feuilles . . . . . . . . . . . . La boˆ ` moustaches . . . . . . . . . . . . . . . . ıte a . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37 37 37 38 40 40 40 41 41 41 41 42 42 44 45 46 3 Statistique descriptive bivari´e e 3.1 S´rie statistique bivari´e . . . . . . . . . . . . . . . e e 3.2 Deux variables quantitatives . . . . . . . . . . . . . 3.2.1 Repr´sentation graphique de deux variables e 3.2.2 Analyse des variables . . . . . . . . . . . . . 3.2.3 Covariance . . . . . . . . . . . . . . . . . . 3.2.4 Corr´lation . . . . . . . . . . . . . . . . . . e 3.2.5 Droite de r´gression . . . . . . . . . . . . . e 3.2.6 R´sidus et valeurs ajust´es . . . . . . . . . e e 3.2.7 Sommes de carr´s et variances . . . . . . . e 3.2.8 D´composition de la variance . . . . . . . . e 3.3 Deux variables qualitatives . . . . . . . . . . . . . 3.3.1 Donn´es observ´es . . . . . . . . . . . . . . e e 3.3.2 Tableau de contingence . . . . . . . . . . . 3.3.3 Tableau des fr´quences . . . . . . . . . . . . e 3.3.4 Profils lignes et profils colonnes . . . . . . . 3.3.5 Effectifs th´oriques et khi-carr´ . . . . . . . e e . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53 53 53 53 55 55 56 57 60 61 62 64 64 64 65 66 67 4 Th´orie des indices, mesures d’in´galit´ e e e 4.1 Nombres indices . . . . . . . . . . . . . 4.2 D´finition . . . . . . . . . . . . . . . . . e 4.2.1 Propri´t´s des indices . . . . . . ee 4.2.2 Indices synth´tiques . . . . . . . e 4.2.3 Indice de Laspeyres . . . . . . . 4.2.4 Indice de Paasche . . . . . . . . . 4.2.5 L’indice de Fisher . . . . . . . . 4.2.6 L’indice de Sidgwick . . . . . . . 4.2.7 Indices chaˆ ınes . . . . . . . . . . 4.3 Mesures de l’in´galit´ . . . . . . . . . . e e . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77 77 77 78 78 78 80 80 81 81 82 2.3 2.4 2.5 2.6 2.7 2.8 2.9 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
  7. 7. ` TABLE DES MATIERES 4.3.1 4.3.2 4.3.3 4.3.4 4.3.5 4.3.6 4.3.7 Introduction . . . . . . . . . Courbe de Lorenz . . . . . . Indice de Gini . . . . . . . . . Indice de Hoover . . . . . . . Quintile et Decile share ratio Indice de pauvret´ . . . . . . e Indices selon les pays . . . . . 7 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82 82 84 84 84 85 85 5 Calcul des probabilit´s et variables al´atoires e e 5.1 Probabilit´s . . . . . . . . . . . . . . . . . . . . . . . . . . . . . e ´ e 5.1.1 Ev´nement . . . . . . . . . . . . . . . . . . . . . . . . . 5.1.2 Op´rations sur les ´v´nements . . . . . . . . . . . . . . e e e 5.1.3 Relations entre les ´v´nements . . . . . . . . . . . . . . e e 5.1.4 Ensemble des parties d’un ensemble et syst`me complet e 5.1.5 Axiomatique des Probabilit´s . . . . . . . . . . . . . . . e 5.1.6 Probabilit´s conditionnelles et ind´pendance . . . . . . e e 5.1.7 Th´or`me des probabilit´s totales et th´or`me de Bayes e e e e e 5.2 Analyse combinatoire . . . . . . . . . . . . . . . . . . . . . . . 5.2.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . 5.2.2 Permutations (sans r´p´tition) . . . . . . . . . . . . . . e e 5.2.3 Permutations avec r´p´tition . . . . . . . . . . . . . . . e e 5.2.4 Arrangements (sans r´p´tition) . . . . . . . . . . . . . . e e 5.2.5 Combinaisons . . . . . . . . . . . . . . . . . . . . . . . . 5.3 Variables al´atoires . . . . . . . . . . . . . . . . . . . . . . . . . e 5.3.1 D´finition . . . . . . . . . . . . . . . . . . . . . . . . . . e 5.4 Variables al´atoires discr`tes . . . . . . . . . . . . . . . . . . . . e e 5.4.1 D´finition, esp´rance et variance . . . . . . . . . . . . . e e 5.4.2 Variable indicatrice ou bernoullienne . . . . . . . . . . . 5.4.3 Variable binomiale . . . . . . . . . . . . . . . . . . . . . 5.4.4 Variable de Poisson . . . . . . . . . . . . . . . . . . . . 5.5 Variable al´atoire continue . . . . . . . . . . . . . . . . . . . . . e 5.5.1 D´finition, esp´rance et variance . . . . . . . . . . . . . e e 5.5.2 Variable uniforme . . . . . . . . . . . . . . . . . . . . . 5.5.3 Variable normale . . . . . . . . . . . . . . . . . . . . . . 5.5.4 Variable normale centr´e r´duite . . . . . . . . . . . . . e e 5.5.5 Distribution exponentielle . . . . . . . . . . . . . . . . . 5.6 Distribution bivari´e . . . . . . . . . . . . . . . . . . . . . . . . e 5.6.1 Cas continu . . . . . . . . . . . . . . . . . . . . . . . . . 5.6.2 Cas discret . . . . . . . . . . . . . . . . . . . . . . . . . 5.6.3 Remarques . . . . . . . . . . . . . . . . . . . . . . . . . 5.6.4 Ind´pendance de deux variables al´atoires . . . . . . . . e e 5.7 Propri´t´s des esp´rances et des variances . . . . . . . . . . . . ee e 5.8 Autres variables al´atoires . . . . . . . . . . . . . . . . . . . . . e 5.8.1 Variable khi-carr´e . . . . . . . . . . . . . . . . . . . . . e 5.8.2 Variable de Student . . . . . . . . . . . . . . . . . . . . 5.8.3 Variable de Fisher . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87 87 87 87 88 89 89 92 93 94 94 94 95 95 95 96 96 97 97 97 98 102 103 103 105 108 108 110 110 111 112 113 113 114 116 116 117 117
  8. 8. ` TABLE DES MATIERES 8 5.8.4 Loi normale bivari´e . . . . . . . . . . . . . . . . . . . . . 118 e 6 S´ries temporelles, filtres, moyennes mobiles et d´saisonnalisation127 e e 6.1 D´finitions g´n´rales et exemples . . . . . . . . . . . . . . . . . . 127 e e e 6.1.1 D´finitions . . . . . . . . . . . . . . . . . . . . . . . . . . 127 e 6.1.2 Traitement des s´ries temporelles . . . . . . . . . . . . . . 128 e 6.1.3 Exemples . . . . . . . . . . . . . . . . . . . . . . . . . . . 128 6.2 Description de la tendance . . . . . . . . . . . . . . . . . . . . . . 133 6.2.1 Les principaux mod`les . . . . . . . . . . . . . . . . . . . 133 e 6.2.2 Tendance lin´aire . . . . . . . . . . . . . . . . . . . . . . . 134 e 6.2.3 Tendance quadratique . . . . . . . . . . . . . . . . . . . . 134 6.2.4 Tendance polynomiale d’ordre q . . . . . . . . . . . . . . 134 6.2.5 Tendance logistique . . . . . . . . . . . . . . . . . . . . . 134 6.3 Op´rateurs de d´calage et de diff´rence . . . . . . . . . . . . . . . 136 e e e 6.3.1 Op´rateurs de d´calage . . . . . . . . . . . . . . . . . . . 136 e e 6.3.2 Op´rateur diff´rence . . . . . . . . . . . . . . . . . . . . . 136 e e 6.3.3 Diff´rence saisonni`re . . . . . . . . . . . . . . . . . . . . 138 e e 6.4 Filtres lin´aires et moyennes mobiles . . . . . . . . . . . . . . . . 140 e 6.4.1 Filtres lin´aires . . . . . . . . . . . . . . . . . . . . . . . . 140 e 6.4.2 Moyennes mobiles : d´finition . . . . . . . . . . . . . . . . 140 e 6.4.3 Moyenne mobile et composante saisonni`re . . . . . . . . 141 e 6.5 Moyennes mobiles particuli`res . . . . . . . . . . . . . . . . . . . 143 e 6.5.1 Moyenne mobile de Van Hann . . . . . . . . . . . . . . . . 143 6.5.2 Moyenne mobile de Spencer . . . . . . . . . . . . . . . . . 143 6.5.3 Moyenne mobile de Henderson . . . . . . . . . . . . . . . 144 6.5.4 M´dianes mobiles . . . . . . . . . . . . . . . . . . . . . . . 145 e 6.6 D´saisonnalisation . . . . . . . . . . . . . . . . . . . . . . . . . . 145 e 6.6.1 M´thode additive . . . . . . . . . . . . . . . . . . . . . . . 145 e 6.6.2 M´thode multiplicative . . . . . . . . . . . . . . . . . . . 145 e 6.7 Lissage exponentiel . . . . . . . . . . . . . . . . . . . . . . . . . . 147 6.7.1 Lissage exponentiel simple . . . . . . . . . . . . . . . . . . 147 6.7.2 Lissage exponentiel double . . . . . . . . . . . . . . . . . . 150 7 Tables statistiques 157
  9. 9. Chapitre 1 Variables, donn´es e statistiques, tableaux, effectifs 1.1 1.1.1 D´finitions fondamentales e La science statistique – M´thode scientifique du traitement des donn´es quantitatives. e e – Etymologiquement : science de l’´tat. e – La statistique s’applique ` la plupart des disciplines : agronomie, biologie, a d´mographie, ´conomie, sociologie, linguistique, psychologie, . . . e e 1.1.2 Mesure et variable – On s’int´resse ` des unit´s statistiques ou unit´s d’observation : par exemple e a e e des individus, des entreprises, des m´nages. En sciences humaines, on e s’int´resse dans la plupart des cas ` un nombre fini d’unit´s. e a e – Sur ces unit´s, on mesure un caract`re ou une variable, le chiffre d’affaires e e de l’entreprise, le revenu du m´nage, l’ˆge de la personne, la cat´gorie soe a e cioprofessionnelle d’une personne. On suppose que la variable prend toujours une seule valeur sur chaque unit´. Les variables sont d´sign´es par e e e simplicit´ par une lettre (X, Y, Z). e – Les valeurs possibles de la variable, sont appel´es modalit´s. e e – L’ensemble des valeurs possibles ou des modalit´s est appel´ le domaine e e de la variable. 1.1.3 Typologie des variables – Variable qualitative : La variable est dite qualitative quand les modalit´s e 9
  10. 10. ´ 10CHAPITRE 1. VARIABLES, DONNEES STATISTIQUES, TABLEAUX, EFFECTIFS sont des cat´gories. e – Variable qualitative nominale : La variable est dite qualitative nominale quand les modalit´s ne peuvent pas ˆtre ordonn´es. e e e – Variable qualitative ordinale : La variable est dite qualitative ordinale quand les modalit´s peuvent ˆtre ordonn´es. Le fait de pouvoir ou non e e e ordonner les modalit´s est parfois discutable. Par exemple : dans les e cat´gories socioprofessionnelles, on admet d’ordonner les modalit´s : e e ‘ouvriers’, ‘employ´s’, ‘cadres’. Si on ajoute les modalit´s ‘sans profese e sion’, ‘enseignant’, ‘artisan’, l’ordre devient beaucoup plus discutable. – Variable quantitative : Une variable est dite quantitative si toute ses valeurs possibles sont num´riques. e – Variable quantitative discr`te : Une variable est dite discr`te, si l’ene e semble des valeurs possibles est d´nombrable. e – Variable quantitative continue : Une variable est dite continue, si l’ensemble des valeurs possibles est continu. Remarque 1.1 Ces d´finitions sont ` relativiser, l’ˆge est th´oriquement e a a e une variable quantitative continue, mais en pratique, l’ˆge est mesur´ dans le a e meilleur des cas au jour pr`s. Toute mesure est limit´e en pr´cision ! e e e Exemple 1.1 Les modalit´s de la variable sexe sont masculin (cod´ M) et e e f´minin (cod´ F). Le domaine de la variable est {M, F }. e e Exemple 1.2 Les modalit´s de la variable nombre d’enfants par famille sont e 0,1,2,3,4,5,. . .C’est une variable quantitative discr`te. e 1.1.4 S´rie statistique e On appelle s´rie statistique la suite des valeurs prises par une variable X sur e les unit´s d’observation. e Le nombre d’unit´s d’observation est not´ n. e e Les valeurs de la variable X sont not´es e x1 , . . . , xi , . . . , xn . Exemple 1.3 On s’int´resse ` la variable ‘´tat-civil’ not´e X et ` la s´rie stae a e e a e tistique des valeurs prises par X sur 20 personnes. La codification est C: M: V: D: c´libataire, e mari´(e), e veuf(ve), divorc´e. e
  11. 11. 1.2. VARIABLE QUALITATIVE NOMINALE 11 Le domaine de la variable X est {C, M, V, D}. Consid´rons la s´rie statistique e e suivante : M M D C C M C C C M C M V M V D C C C M Ici, n = 20, x1 = M, x2 = M, x3 = D, x4 = C, x5 = C, . . . ., x20 = M. 1.2 Variable qualitative nominale 1.2.1 Effectifs, fr´quences et tableau statistique e Une variable qualitative nominale a des valeurs distinctes qui ne peuvent pas ˆtre ordonn´es. On note J le nombre de valeurs distinctes ou modalit´s. e e e Les valeurs distinctes sont not´es x1 , . . . , xj , . . . , xJ . On appelle effectif d’une e modalit´ ou d’une valeur distincte, le nombre de fois que cette modalit´ (ou e e valeur distincte) apparaˆ On note nj l’effectif de la modalit´ xj . La fr´quence ıt. e e d’une modalit´ est l’effectif divis´ par le nombre d’unit´s d’observation. e e e fj = nj , j = 1, . . . , J. n Exemple 1.4 Avec la s´rie de l’exemple pr´c´dent, on obtient le tableau stae e e tistique : xj C M V D nj 9 7 2 2 n = 20 fj 0.45 0.35 0.10 0.10 1
  12. 12. ´ 12CHAPITRE 1. VARIABLES, DONNEES STATISTIQUES, TABLEAUX, EFFECTIFS En langage R >X=c(’Mari´(e)’,’Mari´(e)’,’Divorc´(e)’,’C´libataire’,’C´libataire’,’Mari´(e)’,’C´li e e e e e e e ’C´libataire’,’C´libataire’,’Mari´(e)’,’C´libataire’,’Mari´(e)’,’Veuf(ve)’,’Mar e e e e e ’Veuf(ve)’,’Divorc´(e)’,’C´libataire’,’C´libataire’,’C´libataire’,’Mari´(e)’) e e e e e > T1=table(X) > V1=c(T1) > data.frame(Eff=V1,Freq=V1/sum(V1)) Eff Freq C´libataire e 9 0.45 Divorc´(e) e 2 0.10 Mari´(e) e 7 0.35 Veuf(ve) 2 0.10 1.2.2 Diagramme en secteurs et diagramme en barres Le tableau statistique d’une variable qualitative nominale peut ˆtre repr´sent´ e e e par deux types de graphique. Les effectifs sont repr´sent´s par un diagramme e e en barres et les fr´quences par un diagramme en secteurs (ou camembert ou e piechart en anglais) (voir Figures 1.1 et 1.2). Célibataire Divorcé(e) Veuf(ve) Marié(e) Figure 1.1 – Diagramme en secteurs des fr´quences e En langage R > pie(T1,radius=1.0)
  13. 13. 13 0 2 4 6 8 10 1.3. VARIABLE QUALITATIVE ORDINALE Célibataire Divorcé(e) Marié(e) Veuf(ve) Figure 1.2 – Diagramme en barres des effectifs En langage R >m=max(V1) >barplot(T1, ylim=c(0,m+1)) 1.3 1.3.1 Variable qualitative ordinale Le tableau statistique Les valeurs distinctes d’une variable ordinale peuvent ˆtre ordonn´es, ce e e qu’on ´crit e x1 ≺ x2 ≺ · · · ≺ xj−1 ≺ xj ≺ · · · ≺ xJ−1 ≺ xJ . La notation x1 ≺ x2 se lit x1 pr´c`de x2 . e e Si la variable est ordinale, on peut calculer les effectifs cumul´s : e Nj = j ∑ nk , j = 1, . . . , J. k=1 On a N1 = n1 et NJ = n. On peut ´galement calculer les fr´quences cumul´es e e e ∑ Nj = fk , j = 1, . . . , J. n j Fj = k=1 Exemple 1.5 On interroge 50 personnes sur leur dernier diplˆme obtenu (vao riable Y ). La codification a ´t´ faite selon le Tableau 1.1. On a obtenu la s´rie ee e
  14. 14. ´ 14CHAPITRE 1. VARIABLES, DONNEES STATISTIQUES, TABLEAUX, EFFECTIFS Table 1.1 – Codification de la variable Y Dernier diplˆme obtenu o Sans diplˆme o Primaire Secondaire Sup´rieur non-universitaire e Universitaire xj Sd P Se Su U Table 1.2 – S´rie statistique de la variable Y e Sd Se Su Sd Se Su Sd Se Su Sd Se Su P Se U P Se U P Se U P Se U P Se U P Se U P Se U P Se U P Su U P Su U P Su U Se Su U Se Su Table 1.3 – Tableau statistique complet xj Sd P Se Su U nj 4 11 14 9 12 50 Nj 4 15 29 38 50 fj 0.08 0.22 0.28 0.18 0.24 1.00 Fj 0.08 0.30 0.58 0.76 1.00 statistique pr´sent´e dans le tableau 1.2. Finalement, on obtient le tableau stae e tistique complet pr´sent´ dans le Tableau 1.3. e e En langage R > YY=c("Sd","Sd","Sd","Sd","P","P","P","P","P","P","P","P","P","P","P", "Se","Se","Se","Se","Se","Se","Se","Se","Se","Se","Se","Se","Se","Se", "Su","Su","Su","Su","Su","Su","Su","Su","Su", "U","U","U","U","U","U","U","U","U","U","U","U") YF=factor(YY,levels=c("Sd","P","Se","Su","U")) T2=table(YF) V2=c(T2) > data.frame(Eff=V2,EffCum=cumsum(V2),Freq=V2/sum(V2),FreqCum=cumsum(V2/sum(V2))) Eff EffCum Freq FreqCum Sd 4 4 0.08 0.08
  15. 15. 1.3. VARIABLE QUALITATIVE ORDINALE P Se Su U 11 14 9 12 1.3.2 15 29 38 50 0.22 0.28 0.18 0.24 15 0.30 0.58 0.76 1.00 Diagramme en secteurs Les fr´quences d’une variable qualitative ordinale sont repr´sent´es au moyen e e e d’un diagramme en secteurs (voir Figure 1.3). P Se Sd U Su Figure 1.3 – Diagramme en secteurs des fr´quences e En langage R > pie(T2,radius=1) 1.3.3 Diagramme en barres des effectifs Les effectifs d’une variable qualitative ordinale sont repr´sent´s au moyen e e d’un diagramme en barres (voir Figure 1.4). En langage R > barplot(T2)
  16. 16. 0 2 4 6 8 10 12 14 ´ 16CHAPITRE 1. VARIABLES, DONNEES STATISTIQUES, TABLEAUX, EFFECTIFS Sd P Se Su U Figure 1.4 – Diagramme en barres des effectifs 1.3.4 Diagramme en barres des effectifs cumul´s e 0 10 20 30 40 50 Les effectifs cumul´s d’une variable qualitative ordinale sont repr´sent´s au e e e moyen d’un diagramme en barres (voir Figure 1.5). Sd P Se Su U Figure 1.5 – Diagramme en barres des effectifs cumul´s e
  17. 17. ` 1.4. VARIABLE QUANTITATIVE DISCRETE 17 En langage R > T3=cumsum(T2) > barplot(T3) 1.4 1.4.1 Variable quantitative discr`te e Le tableau statistique Une variable discr`te a un domaine d´nombrable. e e Exemple 1.6 Un quartier est compos´ de 50 m´nages, et la variable Z repr´sente e e e le nombre de personnes par m´nage. Les valeurs de la variable sont e 1 2 3 4 5 1 2 3 4 5 1 2 3 4 5 1 2 3 4 5 1 3 3 4 5 2 3 3 4 6 2 3 3 4 6 2 3 3 4 6 2 3 3 4 8 2 3 4 5 8 Comme pour les variables qualitatives ordinales, on peut calculer les effectifs, ` les effectifs cumul´s, les fr´quences, les fr´quences cumul´es. A nouveau, on peut e e e e construire le tableau statistique : xj 1 2 3 4 5 6 8 nj 5 9 15 10 6 3 2 50 Nj 5 14 29 39 45 48 50 fj 0.10 0.18 0.30 0.20 0.12 0.06 0.04 1.0 Fj 0.10 0.28 0.58 0.78 0.90 0.96 1.00 En langage R > + > > > Z=c(1,1,1,1,1,2,2,2,2,2,2,2,2,2,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,4, 4,4,4,4,4,4,4,4,4,5,5,5,5,5,5,6,6,6,8,8) T4=table(Z) T4c=c(T4) data.frame(Eff=T4c,EffCum=cumsum(T4c),Freq=T4c/sum(T4c),FreqCum=cumsum(T4c/sum(T4c))) Eff EffCum Freq FreqCum
  18. 18. ´ 18CHAPITRE 1. VARIABLES, DONNEES STATISTIQUES, TABLEAUX, EFFECTIFS 1 2 3 4 5 6 8 5 9 15 10 6 3 2 1.4.2 5 14 29 39 45 48 50 0.10 0.18 0.30 0.20 0.12 0.06 0.04 0.10 0.28 0.58 0.78 0.90 0.96 1.00 Diagramme en bˆtonnets des effectifs a 0 5 10 15 Quand la variable est discr`te, les effectifs sont repr´sent´s par des bˆtonnets e e e a (voir Figure 1.6). 1 2 3 4 5 6 8 Figure 1.6 – Diagramme en bˆtonnets des effectifs pour une variable quantia tative discr`te e En langage R > plot(T4,type="h",xlab="",ylab="",main="",frame=0,lwd=3)
  19. 19. 1.5. VARIABLE QUANTITATIVE CONTINUE 1.4.3 19 Fonction de r´partition e 0.0 0.2 0.4 0.6 0.8 1.0 Les fr´quences cumul´es sont repr´sent´es au moyen de la fonction de r´partition. e e e e e Cette fonction, pr´sent´e en Figure 1.7,est d´finie de R dans [0, 1] et vaut : e e e  x < x1  0 Fj xj ≤ x < xj+1 F (x) =  1 xJ ≤ x. 0 2 4 6 8 Figure 1.7 – Fonction de r´partition d’une variable quantitative discr`te e e En langage R > plot(ecdf(Z),xlab="",ylab="",main="",frame=0) 1.5 1.5.1 Variable quantitative continue Le tableau statistique Une variable quantitative continue peut prendre une infinit´ de valeurs pose sibles. Le domaine de la variable est alors R ou un intervalle de R. En pratique, une mesure est limit´e en pr´cision. La taille peut ˆtre mesur´e en centim`tres, e e e e e voire en millim`tres. On peut alors traiter les variables continues comme des e variables discr`tes. Cependant, pour faire des repr´sentations graphiques et e e
  20. 20. ´ 20CHAPITRE 1. VARIABLES, DONNEES STATISTIQUES, TABLEAUX, EFFECTIFS construire le tableau statistique, il faut proc´der ` des regroupements en classes. e a Le tableau regroup´ en classe est souvent appel´ distribution group´e. Si [c− ; c+ [ e e e j j designe la classe j, on note, de mani`re g´n´rale : e e e – – – – – – – – c− la borne inf´rieure de la classe j, e j + cj la borne sup´rieure de la classe j, e cj = (c+ + c− )/2 le centre de la classe j, j j aj = c+ − c− l’amplitude de la classe j, j j nj l’effectif de la classe j, Nj l’effectif cumul´ de la classe j, e fj la fr´quence de la classe j, e Fj la fr´quence cumul´e de la classe j. e e La r´partition en classes des donn´es n´cessite de d´finir a priori le nombre e e e e de classes J et donc l’amplitude de chaque classe. En r`gle g´n´rale, on choisit e e e au moins cinq classes de mˆme amplitude. Cependant, il existent des formules e qui nous permettent d’´tablir le nombre de classes et l’intervalle de classe (l’ame plitude) pour une s´rie statistique de n observations. e – La r`gle de Sturge : J = 1√ (3.3 log10 (n)). e + – La r`gle de Yule : J = 2.5 4 n. e L’intervalle de classe est obtenue ensuite de la mani`re suivante : longueur e de l’intervalle = (xmax − xmin )/J, o` xmax (resp. xmin ) d´signe la plus grande u e (resp. la plus petite) valeur observ´e. e Remarque 1.2 Il faut arrondir le nombre de classe J ` l’entier le plus proche. a Par commodit´, on peut aussi arrondir la valeur obtenue de l’intervalle de classe. e A partir de la plus petite valeur observ´e, on obtient les bornes de classes e en additionnant successivement l’intervalle de classe (l’amplitude). Exemple 1.7 On mesure la taille en centimetres de 50 ´l`ves d’une classe : ee 152 154 156 157 159 161 162 164 168 170 152 154 156 157 159 160 162 164 168 171 152 154 156 157 160 160 163 165 168 171 153 155 156 158 160 161 164 166 169 171 153 155 156 158 160 162 164 167 169 171
  21. 21. 1.5. VARIABLE QUANTITATIVE CONTINUE 21 On a les classes de tailles d´finies pr´ablement comme il suit : e e [151, 5; 155, 5[ [155, 5; 159, 5[ [159, 5; 163, 5[ [163, 5; 167, 5[ [167, 5; 171, 5[ On construit le tableau statistique. [c− , c+ ] j j [151, 5; 155, 5[ [155, 5; 159, 5[ [159, 5; 163, 5[ [163, 5; 167, 5[ [167, 5; 171, 5[ nj 10 12 11 7 10 50 Nj 10 22 33 40 50 fj 0.20 0.24 0.22 0.14 0.20 1.00 Fj 0.20 0.44 0.66 0.80 1.00 En langage R > S=c(152,152,152,153,153,154,154,154,155,155,156,156,156,156,156, + 157,157,157,158,158,159,159,160,160,160,161,160,160,161,162, + 162,162,163,164,164,164,164,165,166,167,168,168,168,169,169, + 170,171,171,171,171) > T5=table(cut(S, breaks=c(151,155,159,163,167,171))) > T5c=c(T5) > data.frame(Eff=T5c,EffCum=cumsum(T5c),Freq=T5c/sum(T5c),FreqCum=cumsum(T5c/sum(T5c))) Eff EffCum Freq FreqCum (151,155] 10 10 0.20 0.20 (155,159] 12 22 0.24 0.44 (159,163] 11 33 0.22 0.66 (163,167] 7 40 0.14 0.80 (167,171] 10 50 0.20 1.00 1.5.2 Histogramme L’histogramme consiste ` repr´senter les effectifs (resp. les fr´quences) des a e e classes par des rectangles contigus dont la surface (et non la hauteur) repr´sente e l’effectif (resp. la fr´quence). Pour un histogramme des effectifs, la hauteur du e rectangle correspondant ` la classe j est donc donn´e par : a e hj = – On appelle hj la densit´ d’effectif. e nj aj
  22. 22. ´ 22CHAPITRE 1. VARIABLES, DONNEES STATISTIQUES, TABLEAUX, EFFECTIFS – L’aire de l’histogramme est ´gale ` l’effectif total n, puisque l’aire de e a chaque rectangle est ´gale ` l’effectif de la classe j : aj × hj = nj . e a Pour un histogramme des fr´quences on a e dj = fj aj 0.00 0.02 0.04 0.06 – On appelle dj la densit´ de fr´quence. e e – L’aire de l’histogramme est ´gale ` 1, puisque l’aire de chaque rectangle e a est ´gale ` la fr´quence de la classe j : aj × dj = fj . e a e Figure 1.8 repr´sente l’histogramme des fr´quences de l’exemple pr´cedent : e e e 151.5 155.5 159.5 163.5 167.5 171.5 Figure 1.8 – Histogramme des fr´quences e En langage R > hist(S,breaks=c(151.5,155.5,159.5,163.5,167.5,171.5), freq=FALSE, xlab="",ylab="",main="",xaxt = "n") > axis(1, c(151.5,155.5,159.5,163.5,167.5,171.5)) Si les deux derni`res classes sont agr´g´es, comme dans la Figure 1.9, la e e e surface du dernier rectangle est ´gale ` la surface des deux derniers rectangles e a de l’histogramme de la Figure 1.8. En langage R > hist(S,breaks=c(151.5,155.5,159.5,163.5,171.5), xlab="",ylab="",main="",xaxt = "n") > axis(1, c(151.5,155.5,159.5,163.5,171.5))
  23. 23. 23 0.00 0.02 0.04 0.06 1.5. VARIABLE QUANTITATIVE CONTINUE 151.5 155.5 159.5 163.5 171.5 Figure 1.9 – Histogramme des fr´quences avec les deux derni`res classes e e agr´g´es e e Remarque 1.3 Dans le cas de classes de mˆme amplitude certains auteurs e et logiciels repr´sentent l’histogramme avec les effectifs (resp. les fr´quences) e e report´s en ordonn´e, l’aire de chaque rectangle ´tant proportionnelle ` l’effectif e e e a (resp. la fr´quence) de la classe. e 1.5.3 La fonction de r´partition e La fonction de r´partition F (x) est une fonction de R dans [0, 1], qui est e d´finie par e  x < c−  0 1  fj − Fj−1 + c+ −c− (x − cj ) c− ≤ x < c+ F (x) = j j j j   1 c+ ≤ x J
  24. 24. ´ 24CHAPITRE 1. VARIABLES, DONNEES STATISTIQUES, TABLEAUX, EFFECTIFS 0.0 0.2 0.4 0.6 0.8 1.0 Figure 1.10 – Fonction de r´partition d’une distribution group´e e e 151.5 155.5 159.5 163.5 167.5 171.5
  25. 25. 1.5. VARIABLE QUANTITATIVE CONTINUE En langage R > > > > y=c(0,0,cumsum(T5c/sum(T5c)),1) x=c(148,151.5,155.5,159.5,163.5,167.5,171.5,175) plot(x,y,type="b",xlab="",ylab="",xaxt = "n") axis(1, c(151.5,155.5,159.5,163.5,167.5,171.5)) 25
  26. 26. ´ 26CHAPITRE 1. VARIABLES, DONNEES STATISTIQUES, TABLEAUX, EFFECTIFS
  27. 27. Chapitre 2 Statistique descriptive univari´e e 2.1 2.1.1 Param`tres de position e Le mode Le mode est la valeur distincte correspondant ` l’effectif le plus ´lev´ ; il est a e e not´ xM . e Si on reprend la variable ‘Etat civil’ , dont le tableau statistique est le suivant : xj nj fj C 9 0.45 M 7 0.35 V 2 0.10 D 2 0.10 n = 20 1 le mode est C : c´libataire. e Remarque 2.1 – Le mode peut ˆtre calcul´ pour tous les types de variable, quantitative et e e qualitative. – Le mode n’est pas n´cessairement unique. e – Quand une variable continue est d´coup´e en classes, on peut d´finir une e e e classe modale (classe correspondant ` l’effectif le plus ´lev´). a e e 2.1.2 La moyenne La moyenne ne peut ˆtre d´finie que sur une variable quantitative. e e 27
  28. 28. 28 ´ CHAPITRE 2. STATISTIQUE DESCRIPTIVE UNIVARIEE La moyenne est la somme des valeurs observ´es divis´e par leur nombre, elle e e est not´e x : e ¯ x1 + x2 + · · · + xi + · · · + xn 1∑ xi . x= ¯ = n n i=1 n La moyenne peut ˆtre calcul´e ` partir des valeurs distinctes et des effectifs e e a 1∑ n j xj . n j=1 J x= ¯ Exemple 2.1 Les nombres d’enfants de 8 familles sont les suivants 0, 0, 1, 1, 1, 2, 3, 4. La moyenne est x= ¯ 0+0+1+1+1+2+3+4 12 = = 1.5. 8 8 On peut aussi faire les calculs avec les valeurs distinctes et les effectifs. On consid`re le tableau : e xj nj 0 2 1 3 2 1 3 1 4 1 8 2×0+3×1+1×2+1×3+1×4 8 3+2+3+4 = 8 = 1.5. x = ¯ Remarque 2.2 La moyenne n’est pas n´cessairement une valeur possible. e En langage R E=c(0,0,1,1,1,2,3,4) n=length(E) xb=sum(E)/n xb xb=mean(E) xb
  29. 29. ` 2.1. PARAMETRES DE POSITION 2.1.3 29 Remarques sur le signe de sommation D´finition 2.1 e n ∑ ∑ xi = x1 + x2 + · · · + xn . i=1 1. En statistique les xi sont souvent les valeurs observ´es. e n n ∑ ∑ 2. L’indice est muet : xi = xj . i=1 j=1 3. Quand il n’y a pas de confusion possible, on peut ´crire e ∑ i xi . Exemple 2.2 1. 4 ∑ xi = x1 + x2 + x3 + x4 . i=1 2. 5 ∑ xi2 = x32 + x42 + x52 . i=3 3. 3 ∑ i = 1 + 2 + 3 = 6. i=1 4. On peut utiliser plusieurs sommations emboˆ ees, mais il faut bien distinıt´ guer les indices : 3 2 ∑∑ xij = x11 + x12 (i = 1) + x21 + x22 + x31 + x32 (i = 2) (i = 3) i=1 j=1 5. On peut exclure une valeur de l’indice. 5 ∑ xi = x1 + x2 + x4 + x5 . i=1 i̸=3 Propri´t´ 2.1 e e 1. Somme d’une constante n ∑ i=1 a = a + a + · · · + a = na n fois (a constante).
  30. 30. ´ CHAPITRE 2. STATISTIQUE DESCRIPTIVE UNIVARIEE 30 Exemple 5 ∑ 3 = 3 + 3 + 3 + 3 + 3 = 5 × 3 = 15. i=1 2. Mise en ´vidence e n ∑ axi = a i=1 n ∑ xi (a constante). i=1 Exemple 3 ∑ 2 × i = 2(1 + 2 + 3) = 2 × 6 = 12. i=1 3. Somme des n premiers entiers n ∑ i = 1 + 2 + 3 + ··· + n = i=1 n(n + 1) . 2 4. Distribution n ∑ (xi + yi ) = i=1 n ∑ xi + i=1 n ∑ yi . i=1 5. Distribution n ∑ (xi − yi ) = i=1 n ∑ xi − i=1 n ∑ yi . i=1 1∑ xi ) n i=1 n Exemple (avec x = ¯ n ∑ (xi − x) = ¯ i=1 n ∑ i=1 xi − n ∑ 1∑ xi − n¯ = n¯ − n¯ = 0. x x x n i=1 n x=n ¯ i=1 6. Somme de carr´s e n ∑ i=1 (xi − yi )2 = n ∑ 2 (x2 − 2xi yi + yi ) = i i=1 n ∑ x2 − 2 i i=1 C’est une application de la formule (a − b)2 = a2 − 2ab + b2 . n ∑ i=1 xi y i + n ∑ i=1 2 yi .
  31. 31. ` 2.1. PARAMETRES DE POSITION 2.1.4 31 Moyenne g´om´trique e e Si xi ≥ 0, on appelle moyenne g´om´trique la quantit´ e e e ( n )1/n ∏ 1/n xi = (x1 × x2 × · · · × xn ) . G= i=1 On peut ´crire la moyenne g´om´trique comme l’exponentielle de la moyenne e e e arithm´tique des logarithmes des valeurs observ´es e e ( n )1/n n n ∏ ∏ 1∑ 1 G = exp log G = exp log xi = exp xi = exp log log xi . n n i=1 i=1 i=1 La moyenne g´om´trique s’utilise, par exemple, quand on veut calculer la moyenne e e de taux d’int´rˆt. ee Exemple 2.3 Supposons que les taux d’int´rˆt pour 4 ann´es cons´cutives ee e e soient respectivement de 5, 10, 15, et 10%. Que va-t-on obtenir apr`s 4 ans si je e place 100 francs ? – Apr`s 1 an on a, 100 × 1.05 = 105 Fr. e – Apr`s 2 ans on a, 100 × 1.05 × 1.1 = 115.5 Fr. e – Apr`s 3 ans on a, 100 × 1.05 × 1.1 × 1.15 = 132.825 Fr. e – Apr`s 4 ans on a, 100 × 1.05 × 1.1 × 1.15 × 1.1 = 146.1075 Fr. e Si on calcule la moyenne arithm´tique des taux on obtient e 1.05 + 1.10 + 1.15 + 1.10 = 1.10. 4 Si on calcule la moyenne g´om´trique des taux, on obtient e e x= ¯ G = (1.05 × 1.10 × 1.15 × 1.10) 1/4 = 1.099431377. Le bon taux moyen est bien G et non x, car si on applique 4 fois le taux moyen ¯ G aux 100 francs, on obtient 100 Fr × G4 = 100 × 1.0994313774 = 146.1075 Fr. 2.1.5 Moyenne harmonique Si xi ≥ 0, on appelle moyenne harmonique la quantit´ e n H = ∑n . i=1 1/xi Il est judicieux d’appliquer la moyenne harmonique sur des vitesses. Exemple 2.4 Un cycliste parcourt 4 ´tapes de 100km. Les vitesses respectives e pour ces ´tapes sont de 10 km/h, 30 km/h, 40 km/h, 20 km/h. Quelle a ´t´ sa e ee vitesse moyenne ?
  32. 32. ´ CHAPITRE 2. STATISTIQUE DESCRIPTIVE UNIVARIEE 32 – Un raisonnement simple nous dit qu’il a parcouru la premi`re ´tape en e e 10h, la deuxi`me en 3h20 la troisi`me en 2h30 et la quatri`me en 5h. Il a e e e donc parcouru le total des 400km en 10 + 3h20 + 2h30 + 5h = 20h50 = 20.8333h, sa vitesse moyenne est donc 400 = 19.2 km/h. 20.8333 Moy = – Si on calcule la moyenne arithm´tique des vitesses, on obtient e x= ¯ 10 + 30 + 40 + 20 = 25 km/h. 4 – Si on calcule la moyenne harmonique des vitesses, on obtient H= 1 10 + 1 30 4 + 1 40 + 1 20 = 19.2 km/h. La moyenne harmonique est donc la mani`re appropri´e de calculer la e e vitesse moyenne. Remarque 2.3 Il est possible de montrer que la moyenne harmonique est toujours inf´rieure ou ´gale ` la moyenne g´om´trique qui est toujours inf´rieure e e a e e e ou ´gale ` la moyenne arithm´tique e a e H ≤ G ≤ x. ¯ 2.1.6 Moyenne pond´r´e e e Dans certains cas, on n’accorde pas le mˆme poids ` toutes les observations. e a Par exemple, si on calcule la moyenne des notes pour un programme d’´tude, on e peut pond´rer les notes de l’´tudiant par le nombre de cr´dits ou par le nombre e e e d’heures de chaque cours. Si wi > 0, i = 1, . . . , n sont les poids associ´s ` chaque e a observation, alors la moyenne pond´r´e par wi est d´finie par : ee e ∑n i=1 wi xi xw = ∑n ¯ . i=1 wi Exemple 2.5 Supposons que les notes soient pond´r´es par le nombre de ee cr´dits, et que les notes de l’´tudiant soient les suivantes : e e
  33. 33. ` 2.1. PARAMETRES DE POSITION Note Cr´dits e 33 5 6 4 3 3 4 6 3 5 4 La moyenne pond´r´e des notes par les cr´dits est alors ee e xw = ¯ 6×5+3×4+4×3+3×6+4×5 30 + 12 + 12 + 18 + 20 92 = = = 4.6. 6+3+4+3+4 20 20 2.1.7 La m´diane e La m´diane, not´e x1/2 , est une valeur centrale de la s´rie statistique obtenue e e e de la mani`re suivante : e – On trie la s´rie statistique par ordre croissant des valeurs observ´es. Avec e e la s´rie observ´e : e e 3 2 1 0 0 1 2, on obtient : 0 0 1 1 2 2 3. – La m´diane x1/2 est la valeur qui se trouve au milieu de la s´rie ordonn´e : e e e 0 0 1 1 ↑ 2 2 3. On note alors x1/2 = 1. Nous allons examiner une mani`re simple de calculer la m´diane. Deux cas e e doivent ˆtre distingu´s. e e – Si n est impair, il n’y a pas de probl`me (ici avec n = 7), alors x1/2 = 1 : e 0 0 1 1 ↑ 2 2 3. La Figure 2.1 montre la fonction de r´partition de la s´rie. La m´diane e e e peut ˆtre d´finie comme l’inverse de la fonction de r´partition pour la e e e valeur 1/2 : x1/2 = F −1 (0.5). En langage R x=c(0 , 0 , 1 , 1 , 2 , 2 , 3) median(x) plot(ecdf(x),xlab="",ylab="",main="",frame=FALSE,yaxt = "n") axis(2, c(0.0,0.25,0.50,0.75,1.00)) arrows(-1,0.5,1,0.50,length=0.14,col="blue") arrows(1,0.50,1,0,length=0.14,col="blue")
  34. 34. ´ CHAPITRE 2. STATISTIQUE DESCRIPTIVE UNIVARIEE 34 0.00 0.50 1.00 Figure 2.1 – M´diane quand n est impair e −1 0 1 2 3 4 – Si n est pair, deux valeurs se trouvent au milieu de la s´rie (ici avec n = 8) e 0 0 1 1 2 ↑ ↑ 2 3 4 La m´diane est alors la moyenne de ces deux valeurs : e x1/2 = 1+2 = 1.5. 2 La Figure 2.2 montre la fonction de r´partition de la s´rie de taille paire. e e La m´diane peut toujours ˆtre d´finie comme l’inverse de la fonction de e e e r´partition pour la valeur 1/2 : e x1/2 = F −1 (0.5). Cependant, la fonction de r´partition est discontinue par ‘palier’. L’inverse e de la r´partition correspond exactement ` un ‘palier’. e a 0.00 0.50 1.00 Figure 2.2 – M´diane quand n est pair e −1 En langage R 0 1 2 3 4 5
  35. 35. ` 2.1. PARAMETRES DE POSITION 35 x=c(0 , 0 , 1 , 1 , 2 , 2 , 3 , 4) median(x) plot(ecdf(x),xlab="",ylab="",main="",frame=FALSE,yaxt = "n") axis(2, c(0.0,0.25,0.50,0.75,1.00)) arrows(-1,0.5,1,0.50,length=0.14,col="blue") arrows(1.5,0.50,1.5,0,,length=0.14,col="blue") En g´n´ral on note e e x(1) , . . . , x(i) , . . . , x(n) la s´rie ordonn´e par ordre croissant. On appelle cette s´rie ordonn´e la statise e e e tique d’ordre. Cette notation, tr`s usuelle en statistique, permet de d´finir la e e m´diane de mani`re tr`s synth´tique. e e e e – Si n est impair x1/2 = x( n+1 ) 2 – Si n est pair x1/2 = } 1{ x( n ) + x( n +1) . 2 2 2 Remarque 2.4 La m´diane peut ˆtre calcul´e sur des variables quantitatives e e e et sur des variables qualitatives ordinales. 2.1.8 Quantiles La notion de quantile d’ordre p (o` 0 < p < 1) g´n´ralise la m´diane. u e e e Formellement un quantile est donn´ par l’inverse de la fonction de r´partition : e e xp = F −1 (p). Si la fonction de r´partition ´tait continue et strictement croissante, la d´finition e e e du quantile serait sans ´quivoque. La fonction de r´partition est cependant dise e continue et “par palier”. Quand la fonction de r´partition est par palier, il existe e au moins 9 mani`res diff´rentes de d´finir les quantiles selon que l’on fasse ou e e e non une interpolation de la fonction de r´partition. Nous pr´sentons une de ces e e m´thodes, mais il ne faut pas s’´tonner de voir les valeurs des quantiles diff´rer e e e l´g`rement d’un logiciel statistique ` l’autre. e e a – Si np est un nombre entier, alors xp = } 1{ x(np) + x(np+1) . 2 – Si np n’est pas un nombre entier, alors xp = x(⌈np⌉) , o` ⌈np⌉ repr´sente le plus petit nombre entier sup´rieur ou ´gal ` np. u e e e a
  36. 36. ´ CHAPITRE 2. STATISTIQUE DESCRIPTIVE UNIVARIEE 36 Remarque 2.5 – La m´diane est le quantile d’ordre p = 1/2. e – On utilise souvent x1/4 le premier quartile, x3/4 le troisi`me quartile, e x1/10 le premier d´cile , e x1/5 le premier quintile, x4/5 le quatri`me quintile, e x9/10 le neuvi`me d´cile, e e x0.05 le cinqui`me percentile , e x0.95 le nonante-cinqui`me percentile. e – Si F (x) est la fonction de r´partition, alors F (xp ) ≥ p. e Exemple 2.6 Soit la s´rie statistique 12, 13, 15, 16, 18, 19, 22, 24, 25, 27, 28, e 34 contenant 12 observations (n = 12). – Le premier quartile : Comme np = 0.25 × 12 = 3 est un nombre entier, on a x(3) + x(4) 15 + 16 x1/4 = = = 15.5. 2 2 – La m´diane : Comme np = 0.5 × 12 = 6 est un nombre entier, on a e x1/2 = } 1{ x(6) + x(7) = (19 + 22)/2 = 20.5. 2 – Le troisi`me quartile : Comme np = 0.75 × 12 = 9 est un nombre entier, e on a x(9) + x(10) 25 + 27 x3/4 = = = 26. 2 2 En langage R x=c(12,13,15,16,18,19,22,24,25,27,28,34) quantile(x,type=2) Exemple 2.7 Soit la s´rie statistique 12, 13, 15, 16, 18, 19, 22, 24, 25, 27 e contenant 10 observations (n = 10). – Le premier quartile : Comme np = 0.25 × 10 = 2.5 n’est pas un nombre entier, on a x1/4 = x(⌈2.5⌉) = x(3) = 15.
  37. 37. ` 2.2. PARAMETRES DE DISPERSION 37 – La m´diane : Comme np = 0.5 × 10 = 5 est un nombre entier, on a e x1/2 = } 1{ x(5) + x(6) = (18 + 19)/2 = 18.5. 2 – Le troisi`me quartile : Comme np = 0.75 × 10 = 7.5 n’est pas un nombre e entier, on a x3/4 = x(⌈7.5⌉) = x(8) = 24. En langage R x=c(12,13,15,16,18,19,22,24,25,27) quantile(x,type=2) 2.2 2.2.1 Param`tres de dispersion e L’´tendue e L’´tendue est simplement la diff´rence entre la plus grande et la plus petite e e valeur observ´e. e E = x(n) − x(1) . 2.2.2 La distance interquartile La distance interquartile est la diff´rence entre le troisi`me et le premier e e quartile : IQ = x3/4 − x1/4 . 2.2.3 La variance La variance est la somme des carr´s des ´carts ` la moyenne divis´e par le e e a e nombre d’observations : n 1∑ s2 = (xi − x)2 . ¯ x n i=1 Th´or`me 2.1 La variance peut aussi s’´crire e e e 1∑ 2 x − x2 . ¯ n i=1 i n s2 = x (2.1)
  38. 38. ´ CHAPITRE 2. STATISTIQUE DESCRIPTIVE UNIVARIEE 38 D´monstration e = 1∑ 2 1∑ (xi − x)2 = ¯ (x − 2xi x + x2 ) ¯ ¯ n i=1 n i=1 i = 1∑ 1∑ 2 1∑ 2 1∑ 1∑ 2 xi − 2 xi x + ¯ x = ¯ xi − 2¯ x xi + x2 ¯ n i=1 n i=1 n i=1 n i=1 n i=1 = 1∑ 2 1∑ 2 xi − 2¯x + x2 = x¯ ¯ x − x2 . ¯ n i=1 n i=1 i n s2 x n n n n n n n n 2 La variance peut ´galement ˆtre d´finie ` partir des effectifs et des valeurs e e e a distinctes : J 1∑ s2 = nj (xj − x)2 . ¯ x n j=1 La variance peut aussi s’´crire e 1∑ n j x2 − x2 . ¯ j n j=1 J s2 = x Quand on veut estimer une variance d’une variable X ` partir d’un ´chantillon a e (une partie de la population s´lectionn´e au hasard) de taille n, on utilise la vae e riance “corrig´e” divis´e par n − 1. e e 1 ∑ n (xi − x)2 = s2 ¯ . x n − 1 i=1 n−1 n 2 Sx = 2 La plupart des logiciels statistiques calculent Sx et non s2 . x 2.2.4 L’´cart-type e L’´cart-type est la racine carr´e de la variance : e e √ sx = s2 . x Quand on veut estimer l’´cart-type d’une variable X partir d’un ´chantillon e e de taille n, utilise la variance “corrig´e” pour d´finir l’´cart type e e e √ √ n 2 =s Sx = Sx . x n−1 La plupart des logiciels statistiques calculent Sx et non sx . Exemple 2.8 Soit la s´rie statistique 2, 3, 4, 4, 5, 6, 7, 9 de taille 8. On a e x= ¯ 2+3+4+4+5+6+7+9 = 5, 8
  39. 39. ` 2.2. PARAMETRES DE DISPERSION 39 1∑ (xi − x)2 ¯ n i=1 n s2 x = ] 1[ (2 − 5)2 + (3 − 5)2 + (4 − 5)2 + (4 − 5)2 + (5 − 5)2 + (6 − 5)2 + (7 − 5)2 + (9 − 5)2 8 1 = [9 + 4 + 1 + 1 + 0 + 1 + 4 + 16] 8 36 = 8 = 4.5. = On peut ´galement utiliser la formule (2.1) de la variance, ce qui n´cessite moins e e de calcul (surtout quand la moyenne n’est pas un nombre entier). 1∑ 2 ¯ x − x2 n i=1 i n s2 x = 1 2 (2 + 32 + 42 + 42 + 52 + 62 + 72 + 92 ) − 52 8 1 = (4 + 9 + 16 + 16 + 25 + 36 + 49 + 81) − 25 8 236 = − 25 8 = 29.5 − 25 = 4.5. = En langage R > x=c(2,3,4,4,5,6,7,9) > n=length(x) > s2=sum((x-mean(x))^2)/n > s2 [1] 4.5 > S2=s2*n/(n-1) > S2 [1] 5.142857 > S2=var(x) > S2 [1] 5.142857 > s=sqrt(s2) > s [1] 2.121320 > S=sqrt(S2) > S [1] 2.267787 > S=sd(x)
  40. 40. 40 ´ CHAPITRE 2. STATISTIQUE DESCRIPTIVE UNIVARIEE > S [1] 2.267787 > E=max(x)-min(x) > E [1] 7 2.2.5 L’´cart moyen absolu e L’´cart moyen absolu est la somme des valeurs absolues des ´carts ` la e e a moyenne divis´e par le nombre d’observations : e 1∑ = |xi − x| . ¯ n i=1 n emoy 2.2.6 L’´cart m´dian absolu e e L’´cart m´dian absolu est la somme des valeurs absolues des ´carts ` la e e e a m´diane divis´e par le nombre d’observations : e e 1∑ xi − x1/2 . n i=1 n emed = 2.3 Moments D´finition 2.2 On appelle moment ` l’origine d’ordre r ∈ N le param`tre e a e 1∑ r x . n i=1 i n m′ = r D´finition 2.3 On appelle moment centr´ d’ordre r ∈ N le param`tre e e e 1∑ (xi − x)r . ¯ n i=1 n mr = Les moments g´n´ralisent la plupart des param`tres. On a en particulier e e e – m′ = x, ¯ 1 – m1 = 0, 1∑ 2 – m′ = x = s2 + x2 , ¯ 2 x n i i – m2 = s2 . x Nous verrons plus loin que des moments d’ordres sup´rieurs (r=3,4) sont utilis´s e e pour mesurer la sym´trie et l’aplatissement. e
  41. 41. ` 2.4. PARAMETRES DE FORME 2.4 2.4.1 41 Param`tres de forme e Coefficient d’asym´trie de Fisher (skewness) e Le moment centr´ d’ordre trois est d´fini par e e 1∑ (xi − x)3 . ¯ n i=1 n m3 = Il peut prendre des valeurs positives, n´gatives ou nulles. L’asym´trie se mesure e e au moyen du coefficient d’asym´trie de Fisher e g1 = m3 , s3 x o` s3 est le cube de l’´cart-type. u x e 2.4.2 Coefficient d’asym´trie de Yule e Le coefficient d’asym´trie de Yule est bas´ sur les positions des 3 quartiles e e (1er quartile, m´diane et troisi`me quartile), et est normalis´ par la distance e e e interquartile : x3/4 + x1/4 − 2x1/2 AY = . x3/4 − x1/4 2.4.3 Coefficient d’asym´trie de Pearson e Le coefficient d’asym´trie de Pearson est bas´ sur une comparaison de la e e moyenne et du mode, et est standardis´ par l’´cart-type : e e AP = x − xM ¯ . sx Tous les coefficients d’asym´trie ont les mˆmes propri´t´s, ils sont nuls si la e e ee distribution est sym´trique, n´gatifs si la distribution est allong´e ` gauche (left e e e a asymmetry), et positifs si la distribution est allong´e ` droite (right asymmetry) e a comme montr´ dans la Figure 2.3. e Figure 2.3 – Asym´trie d’une distribution e
  42. 42. ´ CHAPITRE 2. STATISTIQUE DESCRIPTIVE UNIVARIEE 42 Remarque 2.6 Certaines variables sont toujours tr`s asym´triques ` droite, e e a comme les revenus, les tailles des entreprises, ou des communes. Une m´thode e simple pour rendre une variable sym´trique consiste alors ` prendre le logae a rithme de cette variable. 2.5 Param`tre d’aplatissement (kurtosis) e L’aplatissement est mesur´ par le coefficient d’aplatissement de Pearson e β2 = m4 , s4 x ou le coefficient d’aplatissement de Fisher g2 = β2 − 3 = m4 − 3, s4 x o` m4 est le moment centr´ d’ordre 4, et s4 est le carr´ de la variance. u e e x – Une courbe m´sokurtique si g2 ≈ 0. e – Une courbe leptokurtique si g2 > 0. Elle est plus pointue et poss`de des e queues plus longues. – Une courbe platykurtique si g2 < 0. Elle est plus arrondie et poss`de des e queues plus courtes. Dans la Figure 2.4, on pr´sente un exemple de deux distributions de mˆme e e moyenne et de mˆme variance. La distribution plus pointue est leptokurtique, e l’autre est m´sokurtique. La distribution leptokurtique a une queue plus ´paisse. e e 0.0175 0.6 0.015 0.5 0.0125 0.4 0.01 0.3 0.0075 0.2 -4 -2 0.005 0.1 0.0025 2 4 2.6 2.8 3.2 3.4 3.6 3.8 4 Figure 2.4 – Distributions m´sokurtique et leptokurtique e 2.6 Changement d’origine et d’unit´ e D´finition 2.4 On appelle changement d’origine l’op´ration consistant ` ajoue e a ter (ou soustraire) la mˆme quantit´ a ∈ R ` toutes les observations e e a yi = a + xi , i = 1, . . . , n
  43. 43. ´ 2.6. CHANGEMENT D’ORIGINE ET D’UNITE 43 D´finition 2.5 On appelle changement d’unit´ l’op´ration consistant ` multie e e a plier (ou diviser) par la mˆme quantit´ b ∈ R toutes les observations e e yi = bxi , i = 1, . . . , n. D´finition 2.6 On appelle changement d’origine et d’unit´ l’op´ration consise e e tant ` multiplier toutes les observations par la mˆme quantit´ b ∈ R puis ` a e e a ajouter la mˆme quantit´ a ∈ R ` toutes les observations : e e a yi = a + bxi , i = 1, . . . , n. Th´or`me 2.2 Si on effectue un changement d’origine et d’unit´ sur une vae e e riable X, alors sa moyenne est affect´e du mˆme changement d’origine et d’unit´. e e e D´monstration Si yi = a + bxi , alors e 1∑ 1∑ (a + bxi ) = a + b xi = a + b¯. x n i=1 n i=1 n y= ¯ n 2 Th´or`me 2.3 Si on effectue un changement d’origine et d’unit´ sur une vae e e riable X, alors sa variance est affect´e par le carr´ du changement d’unit´ et e e e pas par le changement d’origine. D´monstration Si yi = a + bxi , alors e 1∑ 1∑ 1∑ 2 2 (yi − y )2 = ¯ (a + bxi − a − b¯) = b2 x (xi − x) = b2 s2 . ¯ x n i=1 n i=1 n i=1 n s2 = y n n 2 Remarque 2.7 1. Les param`tres de position sont tous affect´s par un changement d’origine e e et d’unit´. e 2. Les param`tres de dispersion sont tous affect´s par un changement d’unit´ e e e mais pas par un changement d’origine. 3. Les param`tres de forme et d’aplatissement ne sont affect´s ni par un e e changement d’unit´ ni par un changement d’origine. e
  44. 44. ´ CHAPITRE 2. STATISTIQUE DESCRIPTIVE UNIVARIEE 44 2.7 Moyennes et variances dans des groupes Supposons que les n observations soient r´parties dans deux groupes GA et e GB . Les nA premi`res observations sont dans le groupe GA et les nB derni`res e e observations sont dans le groupe GB , avec la relation nA + nB = n. On suppose que la s´rie statistique contient d’abord les unit´s de GA puis les e e unit´s de GB : e x1 , x2 , . . . , xnA −1 , xnA , xnA +1 , xnA +2 , . . . , xn−1 , xn . observations de observations de GA GB On d´finit les moyennes des deux groupes : e nA 1 ∑ – la moyenne du premier groupe xA = ¯ xi , nA i=1 n 1 ∑ xi . – la moyenne du deuxi`me groupe xB = e ¯ nB i=n +1 A La moyenne g´n´rale est une moyenne pond´r´e par la taille des groupes des e e ee moyennes des deux groupes. En effet (n ) n A ∑ 1 ∑ 1 x= ¯ xi + xi = (nA xA + nB xB ) . ¯ ¯ n i=1 n i=n +1 A On peut ´galement d´finir les variances des deux groupes : e e nA 1 ∑ – la variance du premier groupe s2 = (xi − xA )2 , ¯ A nA i=1 n 1 ∑ – la variance du deuxi`me groupe s2 = e (xi − xB )2 . ¯ B nB i=n +1 A Th´or`me 2.4 (de Huygens) La variance totale, d´finie par e e e 1∑ (xi − x)2 , ¯ n i=1 n s2 = x se d´compose de la mani`re suivante : e e nA s2 + nB s2 A B n s2 = x variance intra-groupes + nA (¯A − x)2 + nB (¯B − x)2 x ¯ x ¯ . n variance inter-groupes D´monstration e s2 x [n ] n n A ∑ 1∑ 1 ∑ 2 2 2 = (xi − x) = ¯ (xi − x) + ¯ (xi − x) ¯ n i=1 n i=1 i=n +1 A (2.2)
  45. 45. 2.8. DIAGRAMME EN TIGES ET FEUILLES 45 On note que nA ∑ (xi − x)2 ¯ i=1 = nA ∑ (xi − xA + xA − x)2 ¯ ¯ ¯ i=1 = nA ∑ (xi − xA )2 + ¯ i=1 nA ∑ (¯A − x)2 + 2 x ¯ i=1 nA ∑ (xi − xA )(¯A − x) ¯ x ¯ i=1 =0 = nA s2 + nA (¯A − x)2 . x ¯ A On a ´videmment la mˆme relation dans le groupe GB : e e n ∑ (xi − x)2 = nB s2 + nB (¯B − x)2 . ¯ x ¯ B i=nA +1 En revenant ` l’expression (2.2), on obtient a [n ] n A ∑ 1 ∑ 2 2 2 sx = (xi − x) + ¯ (xi − x) ¯ n i=1 i=n +1 A = = ] 1[ nA s2 + nA (¯A − x)2 + nB s2 + nB (¯B − x)2 x ¯ x ¯ A B n nA (¯A − x)2 + nB (¯B − x)2 x ¯ x ¯ nA s2 + nB s2 A B + . n n 2 2.8 Diagramme en tiges et feuilles Le diagramme en tiges et feuilles ou Stem and leaf diagram est une mani`re e rapide de pr´senter une variable quantitative. Par exemple, si l’on a la s´rie e e statistique ordonn´e suivante : e 15, 15, 16, 17, 18, 20, 21, 22, 23, 23, 23, 24, 25, 25, 26, 26, 27, 28, 28, 29, 30, 30, 32, 34, 35, 36, 39, 40, 43, 44, la tige du diagramme sera les dizaines et les feuilles seront les unit´s. On obtient e le graphique suivant. The decimal point is 1 digit(s) to the right of the | 1 2 3 4 | | | | 55678 012333455667889 0024569 034
  46. 46. ´ CHAPITRE 2. STATISTIQUE DESCRIPTIVE UNIVARIEE 46 ´ Ce diagramme permet d’avoir une vue synth´tique de la distribution. Evidemment, e les tiges peuvent ˆtre d´finies par les centaines, ou des millers, selon l’ordre de e e grandeur de la variable ´tudi´e. e e En langage R # # Diagramme en tige et feuilles # X=c(15,15,16,17,18,20,21,22,23,23,23,24,25,25,26,26, 27,28,28,29,30,30,32,34,35,36,39,40,43,44) stem(X,0.5) 2.9 La boˆ ` moustaches ıte a La boˆ ` moustaches, ou diagramme en boˆ ou encore boxplot en anıte a ıte, glais, est un diagramme simple qui permet de repr´senter la distribution d’une e variable. Ce diagramme est compos´ de : e – Un rectangle qui s’´tend du premier au troisi`me quartile. Le rectangle e e est divis´ par une ligne correspondant ` la m´diane. e a e – Ce rectangle est compl´t´ par deux segments de droites. ee – Pour les dessiner, on calcule d’abord les bornes b− = x1/4 − 1.5IQ et b+ = x3/4 + 1.5IQ, o` IQ est la distance interquartile. u – On identifie ensuite la plus petite et la plus grande observation comprise entre ces bornes. Ces observations sont appel´es “valeurs adjacentes”. e – On trace les segments de droites reliant ces observations au rectangle. – Les valeurs qui ne sont pas comprises entre les valeurs adjacentes, sont repr´sent´es par des points et sont appel´es “valeurs extrˆmes”. e e e e Exemple 2.9 On utilise une base de donn´es de communes suisses de 2003 e fournie par l’Office f´d´ral de la statistique (OFS) contenant un ensemble de e e variables concernant la population et l’am´nagement du territoire. L’objectif e est d’avoir un aper¸u des superficies des communes du canton de Neuchˆtel. On c a s’int´resse donc ` la variable HApoly donnant la superficie en hectares des 62 e a communes neuchˆteloises. La boˆ ` moustaches est pr´sent´e en Figure 2.5. a ıte a e e L’examen du graphique indique directement une dissym´trie de la distribution, e au sens o` il y a beaucoup de petites communes et peu de grandes communes. Le u graphique montre aussi que deux communes peuvent ˆtre consid´r´es communes e ee des points extrˆmes, car elles ont plus de 3000 hectares. Il s’agit de la Br´vine e e (4182ha) et de la Chaux-de-Fonds (5566ha). En langage R
  47. 47. ` 2.9. LA BOˆ ITE A MOUSTACHES 0 1000 2000 47 3000 4000 5000 Figure 2.5 – Boˆ ` moustaches pour la variable superficie en hectares (HAıtes a poly) des communes du canton de Neuchˆtel a # ´tape 1: installation du package sampling E # dans lequel se trouve la base de donn´es des communes belges e # choisir "sampling" dans la liste utils:::menuInstallPkgs() # Etape 2: charge le package sampling # choisir "sampling" dans la liste local({pkg <- select.list(sort(.packages(all.available = TRUE))) + if(nchar(pkg)) library(pkg, character.only=TRUE)}) # Utilisation des donn´es e data(swissmunicipalities) attach(swissmunicipalities) # boxplot de la s´lection des communes neuch^teloises e a # le num´ro du canton est 24 e boxplot(HApoly[CT==24],horizontal=TRUE) % selection des communes neuch^teloises de plus de 3000 HA a data.frame(Nom=Nom[HApoly>3000 & CT==24],Superficie=HApoly[HApoly>3000 & CT==24]) Exemple 2.10 On utilise une base de donn´es belges fournie par l’Institut e National (belge) de Statistique contenant des informations sur la population et les revenus des personnes physiques dans les communes. On s’int´resse ` la e a variable “revenu moyen en euros par habitant en 2004” pour chaque commune (variable averageincome) et l’on aimerait comparer les 9 provinces belges : Anvers, Brabant, Flandre occidentale, Flandre orientale, Hainaut, Li`ge, Limboug, e Luxembourg, Namur. La Figure 2.6 contient les boˆ ` moustaches de chaque ıtes a province. Les communes ont ´t´ tri´es selon les provinces belges. De ce graee e phique, on peut directement voir que la province du Brabant contient ` la fois a la commune la plus riche (Lasne) et la plus pauvre (Saint-Josse-ten-Noode). On voit ´galement une dispersion plus importante dans la province du Brabant. e En langage R
  48. 48. 48 ´ CHAPITRE 2. STATISTIQUE DESCRIPTIVE UNIVARIEE 40000 35000 30000 25000 20000 Anv. Brab. Fl.occ. Fl.or. Hainaut Liège Limb. Lux. Namur Figure 2.6 – Boˆ ` moustaches du “revenu moyen des habitants” des comıtes a munes selon les provinces belges # Utilisation des donn´es e data(belgianmunicipalities) attach(belgianmunicipalities) # Construction d’une liste avec les noms des provinces b=list( "Anv."=averageincome[Province==1], "Brab."=averageincome[Province==2], "Fl.occ."=averageincome[Province==3], "Fl.or."=averageincome[Province==4], "Hainaut"=averageincome[Province==5], "Li`ge"=averageincome[Province==6], e "Limb."=averageincome[Province==7], "Lux."=averageincome[Province==8], "Namur"=averageincome[Province==9] ) boxplot(b)
  49. 49. ` 2.9. LA BOˆ ITE A MOUSTACHES 49 Exercices Exercice 2.1 On p`se les 50 ´l`ves d’une classe et nous obtenons les r´sultats e ee e r´sum´s dans le tableau suivant : e e 43 48 49 52 54 59 63 67 72 81 43 48 50 53 56 59 63 68 72 83 43 48 50 53 56 59 65 70 73 86 47 49 51 53 56 62 65 70 77 92 48 49 51 54 57 62 67 70 77 93 1. De quel type est la variable poids ? 2. Construisez le tableau statistique en adoptant les classes suivantes : [40 ;45] ]45 ;50] ]50 ;55] ]55 ;60] ]60 ;65] ]65 ;70] ]70 ;80] ]80 ;100] 3. Construisez l’histogramme des effectifs ainsi que la fonction de r´partition. e Solution 1. La variable poids est de type quantitative continue. 2. [c− , c+ ] nj Nj fj Fj j j [40; 45] 3 3 0.06 0.06 ]45; 50] 10 13 0.20 0.26 ]50; 55] 8 21 0.16 0.42 ]55; 60] 7 28 0.14 0.56 ]60; 65] 6 34 0.12 0.68 ]65; 70] 6 40 0.12 0.80 ]70; 80] 5 45 0.10 0.90 ]80; 100] 5 50 0.10 1.00 50 1 3. Exercice 2.2 Calculez tous les param`tres (de position, de dispersion et de e forme) ` partir du tableau de l’exemple 1.7 sans prendre en compte les classes. a Solution
  50. 50. ´ CHAPITRE 2. STATISTIQUE DESCRIPTIVE UNIVARIEE 50 – M´diane : Comme n est pair, e x1/2 = 1 1 (x25 + x26 ) = (160 + 160) = 160. 2 2 – quantiles – Premier quartile : x1/4 = x13 = 156 – Deuxi`me quartile : e x3/4 = x38 = 165 ´ – Etendue : E = 171 − 152 = 19. – Distance interquartile : IQ = x3/4 − x1/4 = 165 − 156 = 9 – Variance : 1∑ 1 (xi − x)2 = ¯ × 1668 = 33, 36. n i=1 50 n s2 = x ´ – Ecart type : sx = √ s2 = 5, 7758. x ´ – Ecart moyen absolu : 1 1∑ |xi − x| = ¯ × 245, 2 = 4, 904. n i=1 50 n emoy = ´ – Ecart m´dian absolu : e 1 1∑ |xi − x1/2 | = × 242 = 4, 84. = n i=1 50 n emed – Moment centr´ d’ordre trois : e 1∑ 1 (xi − x)3 = ¯ × 2743, 2 = 54, 864. n i=1 50 n m3 = Exercice 2.3 1. Montrez que s2 = x n n 1 ∑∑ (xi − xj )2 . 2n2 i=1 j=1
  51. 51. ` 2.9. LA BOˆ ITE A MOUSTACHES 51 2. Montrez que √ sx ≤ Et n−1 . 2n 3. Montrez que, si xi > 0, 1∑ |xi − x| ≤ 2¯. ¯ x n i=1 n Solution 1. n n 1 ∑∑ (xi − xj )2 2n2 i=1 j=1 = n n 1 ∑∑ 2 (x + x2 − 2xi xj ) j 2n2 i=1 j=1 i = n n n n n n 1 ∑∑ 2 1 ∑∑ 2 1 ∑∑ xi + 2 xj − 2 2xi xj 2n2 i=1 j=1 2n i=1 j=1 2n i=1 j=1 = 1 ∑ 2 1 ∑ 2 1∑ 1∑ xi + x − xi xj 2n i=1 2n j=1 j n i=1 n j=1 = 1∑ 2 1∑ x − xi x ¯ n i=1 i n i=1 = 1∑ 2 x − x2 ¯ n i=1 i n n n = s2 . x n n n n
  52. 52. ´ CHAPITRE 2. STATISTIQUE DESCRIPTIVE UNIVARIEE 52 2. = n n 1 ∑∑ (xi − xj )2 2n2 i=1 j=1 = s2 x n n 1 ∑ ∑ (xi − xj )2 2n2 i=1 n ∑ j=1,j̸=i n ∑ ≤ 1 2n2 = n n 1 ∑ ∑ 2 Et 2n2 i=1 (x(1) − x(n) )2 i=1 j=1,j̸=i j=1,j̸=i = = 1 2 n(n − 1)Et 2n2 n−1 2 E . 2n t Donc, √ sx ≤ E n−1 . 2n
  53. 53. Chapitre 3 Statistique descriptive bivari´e e 3.1 S´rie statistique bivari´e e e On s’int´resse ` deux variables x et y. Ces deux variables sont mesur´es sur e a e les n unit´s d’observation. Pour chaque unit´, on obtient donc deux mesures. La e e s´rie statistique est alors une suite de n couples des valeurs prises par les deux e variables sur chaque individu : (x1 , y1 ), . . . , (xi , yi ), . . . , (xn , yn ). Chacune des deux variables peut ˆtre, soit quantitative, soit qualitative. On e examine deux cas. – Les deux variables sont quantitatives. – Les deux variables sont qualitatives. 3.2 3.2.1 Deux variables quantitatives Repr´sentation graphique de deux variables e Dans ce cas, chaque couple est compos´ de deux valeurs num´riques. Un e e couple de nombres (entiers ou r´els) peut toujours ˆtre repr´sent´ comme un e e e e point dans un plan (x1 , y1 ), . . . , (xi , yi ), . . . , (xn , yn ). 53
  54. 54. ´ CHAPITRE 3. STATISTIQUE DESCRIPTIVE BIVARIEE 54 Exemple 3.1 On mesure le poids Y et la taille X de 20 individus. xi yi 155 75 162 76 157 78 170 80 164 85 162 90 169 96 170 96 178 98 173 101 xi 180 175 173 175 179 175 180 185 189 187 80 60 70 poids 90 100 yi 60 61 64 67 68 69 70 70 72 73 155 160 165 170 175 180 185 190 taille Figure 3.1 – Le nuage de points En langage R # nuage de points poids=c(60,61,64,67,68,69,70,70,72,73,75,76,78,80,85,90,96,96,98,101) taille=c(155,162,157,170,164,162,169,170,178,173,180,175,173,175,179,175,180,185,189 plot(taille,poids)
  55. 55. 3.2. DEUX VARIABLES QUANTITATIVES 3.2.2 55 Analyse des variables Les variables x et y peuvent ˆtre analys´es s´par´ment. On peut calculer e e e e tous les param`tres dont les moyennes et les variances : e x= ¯ 1∑ xi , n i=1 s2 = x 1∑ (xi − x)2 , ¯ n i=1 y= ¯ 1∑ yi , n i=1 s2 = y 1∑ (yi − y )2 . ¯ n i=1 n n n n Ces param`tres sont appel´s param`tres marginaux : variances marginales, moyennes e e e marginales, ´carts-types marginaux, quantiles marginaux, etc.. . . e 3.2.3 Covariance La covariance est d´finie e 1∑ (xi − x)(yi − y ). ¯ ¯ = n i=1 n sxy Remarque 3.1 – La covariance peut prendre des valeurs positives, n´gatives ou nulles. e – Quand xi = yi , pour tout i = 1, . . . , n, la covariance est ´gale ` la vae a riance. Th´or`me 3.1 La covariance peut ´galement s’´crire : e e e e 1∑ xi yi − xy . ¯¯ n i=1 n D´monstration e = 1∑ (xi − x)(yi − y ) ¯ ¯ n i=1 = 1∑ (xi yi − yi x − y xi + xy ) ¯ ¯ ¯¯ n i=1 = 1∑ 1∑ 1∑ 1∑ xi yi − yi x − ¯ y xi + ¯ xy ¯¯ n i=1 n i=1 n i=1 n i=1 = 1∑ xi yi − xy − xy + xy ¯¯ ¯¯ ¯¯ n i=1 = 1∑ xi yi − xy . ¯¯ n i=1 n sxy n n n n n n n
  56. 56. ´ CHAPITRE 3. STATISTIQUE DESCRIPTIVE BIVARIEE 56 2 3.2.4 Corr´lation e Le coefficient de corr´lation est la covariance divis´e par les deux ´cart-types e e e marginaux : sxy . rxy = sx sy Le coefficient de d´termination est le carr´ du coefficient de corr´lation : e e e 2 rxy = s2 xy . s2 s2 x y Remarque 3.2 – Le coefficient de corr´lation mesure la d´pendance lin´aire entre deux vae e e riables : – −1 ≤ rxy ≤ 1, 2 – 0 ≤ rxy ≤ 1. – Si le coefficient de corr´lation est positif, les points sont align´s le long e e d’une droite croissante. – Si le coefficient de corr´lation est n´gatif, les points sont align´s le long e e e d’une droite d´croissante. e – Si le coefficient de corr´lation est nul ou proche de z´ro, il n’y a pas de e e d´pendance lin´aire. On peut cependant avoir une d´pendance non-lin´aire e e e e avec un coefficient de corr´lation nul. e r=1 r=−1 r=0 r>0 r<0 r=0 Figure 3.2 – Exemples de nuages de points et coefficients de corr´lation e
  57. 57. 3.2. DEUX VARIABLES QUANTITATIVES 3.2.5 57 Droite de r´gression e La droite de r´gression est la droite qui ajuste au mieux un nuage de points e au sens des moindres carr´s. e On consid`re que la variable X est explicative et que la variable Y est e d´pendante. L’´quation d’une droite est e e y = a + bx. Le probl`me consiste ` identifier une droite qui ajuste bien le nuage de points. e a Si les coefficients a et b ´taient connus, on pourrait calculer les r´sidus de la e e r´gression d´finis par : e e ei = yi − a − bxi . yi ei 70 80 y* i 60 poids 90 100 Le r´sidu ei est l’erreur que l’on commet (voir Figure 3.3) en utilisant la droite e de r´gression pour pr´dire yi ` partir de xi . Les r´sidus peuvent ˆtre positifs ou e e a e e n´gatifs. e 155 160 165 170 175 180 taille Figure 3.3 – Le nuage de points, le r´sidu e 185 190
  58. 58. 58 ´ CHAPITRE 3. STATISTIQUE DESCRIPTIVE BIVARIEE En langage R # Graphique avec le r´sidus e plot(taille,poids) segments(158,a+b*158,190,a+b*190) segments(180,a+b*180,180,96,col="red") # text(178,90,expression(e)) text(178.7,89.5,"i") # arrows(180,a+b*180,156,a+b*180,col="blue",length=0.14) arrows(180,60,180,a+b*180,col="blue",length=0.14) arrows(180,96,156,96,col="blue",length=0.14) # text(154.8,86,expression(y)) text(155.5,85.5,"i") # text(154.8,97,expression(y)) text(155.5,97.8,"*") text(155.5,96.5,"i") Pour d´terminer la valeur des coefficients a et b on utilise le principe des e moindres carr´s qui consiste ` chercher la droite qui minimise la somme des e a carr´s des r´sidus : e e n n ∑ ∑ 2 M (a, b) = e2 = (yi − a − bxi ) . i i=1 i=1 Th´or`me 3.2 Les coefficients a et b qui minimisent le crit`re des moindres e e e carr´s sont donn´s par : e e sxy et a = y − b¯. ¯ x b= 2 sx D´monstration Le minimum M (a, b) en (a, b) s’obtient en annulant les d´riv´es e e e partielles par rapport ` a et b. a  n ∑  ∂M (a, b)  =− 2 (yi − a − bxi ) = 0   ∂a i=1 n   ∂M (a, b) = − ∑ 2 (y − a − bx ) x = 0   i i i ∂b i=1 On obtient un syst`me de deux ´quations ` deux inconnues. En divisant les e e a deux ´quations par −2n, on obtient : e  n  1∑  (yi − a − bxi ) = 0   n i=1 n   1 ∑ (y − a − bx ) x = 0,   i i i n i=1
  59. 59. 3.2. DEUX VARIABLES QUANTITATIVES ou encore 59  n n n 1∑ 1∑  1∑  yi − a−b xi = 0   n n i=1 n i=1 i=1 n n n   1 ∑ y x − 1 ∑ ax − 1 ∑ bx2 = 0,   i i i n i=1 n i=1 n i=1 i ce qui s’´crit aussi e  x  y = a + b¯  ¯ n n 1∑ 1∑ 2 yi xi − a¯ − x bx = 0.   n n i=1 i i=1 La premi`re ´quation montre que la droite passe par le point (¯, y ). On obtient e e x ¯ a = y − b¯. ¯ x En rempla¸ant a par y − b¯ dans la seconde ´quation, on a c ¯ x e 1∑ 2 1∑ xi yi − (¯ − b¯)¯ − b y xx x n i=1 n i=1 i ) ( n n 1∑ 1∑ 2 = ¯ xi yi − xy − b ¯¯ x − x2 n i=1 n i=1 i n n = sxy − bs2 x = 0, ce qui donne sxy − bs2 = 0. x Donc sxy . s2 x On a donc identifi´ les deux param`tres e e  sxy  b= (la pente)  s2 x  a = y − b¯ = y − sxy x (la constante). ¯ x ¯ ¯  s2 x b= On devrait en outre v´rifier qu’il s’agit bien d’un minimum en montrant que la e matrice des d´riv´es secondes est d´finie positive. e e e 2 La droite de r´gression est donc e sxy sxy y = a + bx = y − 2 x + 2 x, ¯ ¯ sx sx ce qui peut s’´crire aussi e y−y = ¯ sxy (x − x). ¯ s2 x Remarque 3.3 La droite de r´gression de y en x n’est pas la mˆme que la e e droite de r´gression de x en y. e
  60. 60. ´ CHAPITRE 3. STATISTIQUE DESCRIPTIVE BIVARIEE 60 80 60 70 poids 90 100 Figure 3.4 – La droite de r´gression e 155 160 165 170 175 180 185 190 taille 3.2.6 R´sidus et valeurs ajust´es e e Les valeurs ajust´es sont obtenues au moyen de la droite de r´gression : e e ∗ yi = a + bxi . Les valeurs ajust´es sont les ‘pr´dictions’ des yi r´alis´es au moyen de la variable e e e e x et de la droite de r´gression de y en x. e Remarque 3.4 La moyenne des valeurs ajust´es est ´gale ` la moyenne des e e a valeurs observ´es y . En effet, e ¯ 1∑ ∗ 1∑ 1∑ yi = (a + bxi ) = a + b xi = a + b¯. x n i=1 n i=1 n i=1 n n n Or, y = a + b¯, car le point (¯, y ) appartient ` la droite de r´gression. ¯ x x ¯ a e Les r´sidus sont les diff´rences entre les valeurs observ´es et les valeurs e e e ajust´es de la variable d´pendante. e e ∗ ei = yi − yi . Les r´sidus repr´sentent la partie inexpliqu´e des yi par la droite de r´gression. e e e e Remarque 3.5
  61. 61. 3.2. DEUX VARIABLES QUANTITATIVES 61 – La moyenne des r´sidus est nulle. En effet e 1∑ 1∑ ∗ ei = (yi − yi ) = y − y = 0. ¯ ¯ n i=1 n i=1 n n – De plus, n ∑ xi ei = 0. i=1 La d´monstration est un peu plus difficile. e 3.2.7 Sommes de carr´s et variances e D´finition 3.1 On appelle somme des carr´s totale la quantit´ e e e SCT OT = n ∑ (yi − y )2 ¯ i=1 La variance marginale peut alors ˆtre d´finie par e e 1∑ SCT OT = (yi − y )2 . ¯ n n i=1 n s2 = y D´finition 3.2 On appelle somme des carr´s de la r´gression la quantit´ e e e e SCREGR = n ∑ ∗ (yi − y )2 . ¯ i=1 D´finition 3.3 La variance de r´gression est la variance des valeurs ajust´es. e e e 1∑ ∗ (y − y )2 . ¯ n i=1 i n s2 ∗ = y D´finition 3.4 On appelle somme des carr´s des r´sidus (ou r´siduelle) la e e e e quantit´ e n ∑ SCRES = e2 . i i=1 D´finition 3.5 La variance r´siduelle est la variance des r´sidus. e e e 1∑ 2 SCRES = e . n n i=1 i n s2 = e Note : Il n’est pas n´cessaire de centrer les r´sidus sur leurs moyennes pour e e calculer la variance, car la moyenne des r´sidus est nulle. e
  62. 62. ´ CHAPITRE 3. STATISTIQUE DESCRIPTIVE BIVARIEE 62 Th´or`me 3.3 e e SCT OT = SCREGR + SCRES . D´monstration e SCT OT = n ∑ (yi − y )2 ¯ i=1 = n ∑ ∗ ∗ (yi − yi + yi − y )2 ¯ i=1 = n ∑ ∗ (yi − yi )2 + i=1 n ∑ ∗ (yi − y )2 + 2 ¯ i=1 n ∑ ∗ ∗ (yi − yi )(yi − y ) ¯ i=1 = SCRES + SCREGR + 2 n ∑ ∗ ∗ (yi − yi )(yi − y ). ¯ i=1 Le troisi`me terme est nul. En effet, e n ∑ ∗ ∗ ¯ (yi − yi )(yi − y ) = n ∑ (yi − a − bxi )(a + bxi − y ) ¯ i=1 i=1 En rempla¸ant a par y − b¯, on obtient c ¯ x n ∑ ∗ ∗ (yi − yi )(yi − y ) = ¯ i=1 = = n ∑ i=1 n ∑ [yi − y − b(xi − x))] b(xi − x) ¯ ¯ ¯ [(yi − y ) − b(xi − x)] b(xi − x) ¯ ¯ ¯ i=1 n ∑ b (yi − y )(xi − x) − b2 ¯ ¯ i=1 = n ∑ (xi − x)(xi − x) ¯ ¯ i=1 bnsxy − b2 ns2 x s2 sxy xy nsxy − 4 ns2 s2 sx x x = 0. = 2 3.2.8 D´composition de la variance e Th´or`me 3.4 La variance de r´gression peut ´galement s’´crire e e e e e s2 ∗ = s2 r2 , y y o` r2 est le coefficient de d´termination. u e
  63. 63. 3.2. DEUX VARIABLES QUANTITATIVES 63 D´monstration e 1∑ ∗ (y − y )2 ¯ n i=1 i }2 n { 1∑ sxy y + 2 (xi − x) − y ¯ ¯ ¯ n i=1 sx n s2 ∗ y = = = n s2 1 ∑ xy (xi − x)2 ¯ s4 n i=1 x s2 xy s2 x s2 xy = s2 2 2 y sx sy = = s2 r2 . y 2 La variance r´siduelle est la variance des r´sidus. e e 1∑ 2 e . n i=1 i n s2 = e Th´or`me 3.5 La variance r´siduelle peut ´galement s’´crire e e e e e s2 = s2 (1 − r2 ), e y o` r2 est le coefficient de d´termination. u e D´monstration e 1∑ 2 e n i=1 i n s2 e = 1∑ ∗ (yi − yi )2 n i=1 }2 n { 1∑ sxy yi − y − 2 (xi − x) ¯ ¯ n i=1 sx n = = = = = n n n s2 1 ∑ 1∑ sxy 1 ∑ xy (yi − y )2 + 4 ¯ (xi − x)2 − 2 2 ¯ (xi − x)(yi − y ) ¯ ¯ n i=1 sx n i=1 sx n i=1 s2 s2 xy xy s2 + 2 − 2 2 y sx sx ) ( s2 xy 2 sy 1 − 2 2 . sx sy 2
  64. 64. ´ CHAPITRE 3. STATISTIQUE DESCRIPTIVE BIVARIEE 64 Th´or`me 3.6 La variance marginale est la somme de la variance de r´gression e e e et de la variance r´siduelle, e s2 = s2 ∗ + s2 . y y e La d´monstration d´coule directement des deux th´or`mes pr´c´dents. e e e e e e 3.3 3.3.1 Deux variables qualitatives Donn´es observ´es e e Si les deux variables x et y sont qualitatives, alors les donn´es observ´es sont e e une suite de couples de variables (x1 , y1 ), . . . , (xi , yj ), . . . , (xn , yn ), chacune des deux variables prend comme valeurs des modalit´s qualitatives. e Les valeurs distinctes de x et y sont not´es respectivement e x1 , . . . , xj , . . . , xJ et y1 , . . . , yk , . . . , yK . 3.3.2 Tableau de contingence Les donn´es observ´es peuvent ˆtre regroup´es sous la forme d’un tableau de e e e e contingence y1 · · · yk · · · yK total x1 n11 · · · n1k · · · n1K n1. . . . . . . . . . . . . nj1 . . . ··· njk . . . ··· njK . . . nj. xJ nJ1 total n.1 ··· ··· nJk n.k ··· nJK n.K nJ. n xj . . . Les nj. et n.k sont appel´s les effectifs marginaux. Dans ce tableau, e – nj. repr´sente le nombre de fois que la modalit´ xj apparaˆ e e ıt, – n.k repr´sente le nombre de fois que la modalit´ yk apparaˆ e e ıt, – njk repr´sente le nombre de fois que les modalit´s xj et yk apparaissent e e ensemble. On a les relations J ∑ njk = n.k , pour tout k = 1, . . . , K, j=1 K ∑ k=1 njk = nj. , pour tout j = 1, . . . , J,
  65. 65. 3.3. DEUX VARIABLES QUALITATIVES 65 et J ∑ nj. = j=1 K ∑ n.k = J K ∑∑ njk = n . j=1 k=1 k=1 Exemple 3.2 On s’int´resse ` une ´ventuelle relation entre le sexe de 200 pere a e sonnes et la couleur des yeux. Le Tableau 3.1 reprend le tableau de contingence. Table 3.1 – Tableau des effectifs njk Bleu 10 20 30 Homme Femme Total 3.3.3 Vert 50 60 110 Marron 20 40 60 Total 80 120 200 Tableau des fr´quences e Le tableau de fr´quences s’obtient en divisant tous les effectifs par la taille e de l’´chantillon : e njk fjk = , j = 1, . . . , J, k = 1, . . . , K n fj. = nj. , j = 1, . . . , J, n f.k = n.k , k = 1, . . . , K. n Le tableau des fr´quences est e x1 . . . y1 f11 . . . ··· ··· yk f1k . . . ··· ··· yK f1K . . . total f1. xj . . . fj1 . . . ··· fjk . . . ··· fjK . . . fj. xJ total fJ1 f.1 ··· ··· fJk f.k ··· fJK f.K fJ. 1 Exemple 3.3 Le Tableau 3.2 reprend le tableau des fr´quences. e
  66. 66. 66 ´ CHAPITRE 3. STATISTIQUE DESCRIPTIVE BIVARIEE Table 3.2 – Tableau des fr´quences e Homme Femme Total 3.3.4 Bleu 0.05 0.10 0.15 Vert 0.25 0.30 0.55 Marron 0.10 0.20 0.30 Total 0.40 0.60 1.00 Profils lignes et profils colonnes Un tableau de contingence s’interpr`te toujours en comparant des fr´quences e e en lignes ou des fr´quences en colonnes (appel´s aussi profils lignes et profils e e colonnes). Les profils lignes sont d´finis par e (j) fk = njk fjk = , k = 1, . . . , K, j = 1, . . . , J, nj. fj. et les profils colonnes par (k) fj = njk fjk = , j = 1, . . . , J, k = 1, . . . , K. n.k f.k Exemple 3.4 Le Tableau 3.3 reprend le tableau des profils lignes, et le Tableau 3.4 reprend le tableau des profils colonnes. Table 3.3 – Tableau des profils lignes Homme Femme Total Bleu 0.13 0.17 0.15 Vert 0.63 0.50 0.55 Marron 0.25 0.33 0.30 Total 1.00 1.00 1.00 Table 3.4 – Tableau des profils colonnes Homme Femme Total Bleu 0.33 0.67 1.00 Vert 0.45 0.55 1.00 Marron 0.33 0.67 1.00 Total 0.40 0.60 1.00
  67. 67. 3.3. DEUX VARIABLES QUALITATIVES 3.3.5 67 Effectifs th´oriques et khi-carr´ e e On cherche souvent une interaction entre des lignes et des colonnes, un lien entre les variables. Pour mettre en ´vidence ce lien, on construit un tableau e d’effectifs th´oriques qui repr´sente la situation o` les variables ne sont pas li´es e e u e (ind´pendance). Ces effectifs th´oriques sont construits de la mani`re suivante : e e e n∗ = jk nj. n.k . n Les effectifs observ´s njk ont les mˆmes marges que les effectifs th´oriques n∗ . e e e jk Enfin, les ´carts ` l’ind´pendance sont d´finis par e a e e ejk = njk − n∗ . jk – La d´pendance du tableau se mesure au moyen du khi-carr´ d´fini par e e e χ2 = obs K J ∑ ∑ (njk − n∗ )2 jk k=1 j=1 n∗ jk = J K ∑ ∑ e2 jk . n∗ j=1 jk (3.1) k=1 – Le khi-carr´ peut ˆtre normalis´ pour ne plus d´pendre du nombre d’obe e e e servations. On d´finit le phi-deux par : e ϕ2 = χ2 obs . n Le ϕ2 ne d´pend plus du nombre d’observations. Il est possible de montrer e que ϕ2 ≤ min(J − 1, K − 1). – Le V de Cramer est d´finit par e √ √ χ2 ϕ2 obs V = = . min(J − 1, K − 1) n min(J − 1, K − 1) Le V de Cramer est compris entre 0 et 1. Il ne d´pend ni de la taille e de l’´chantillon ni de la taille du tableau. Si V ≈ 0, les deux variables e sont ind´pendantes. Si V = 1, il existe une relation fonctionnelle entre les e variables, ce qui signifie que chaque ligne et chaque colonne du tableau de contingence ne contiennent qu’un seul effectif diff´rent de 0 (il faut que le e tableau ait le mˆme nombre de lignes que de colonnes). e Exemple 3.5 Le Tableau 3.5 reprend le tableau des effectifs th´oriques, le e Tableau 3.6 reprend le tableau des ´carts ` l’ind´pendance. Enfin, les e2 /n∗ e a e jk jk sont pr´sent´s dans le tableau 3.7. e e – Le khi-carr´ observ´ vaut χ2 = 3.03. e e obs – Le phi-deux vaut ϕ2 = 0.01515. – Comme le tableau a deux lignes min(J − 1, K − 1) = min(2 − 1, 3 − 1) = 1. √ Le V de Cramer est ´gal ` ϕ2 . e a
  68. 68. ´ CHAPITRE 3. STATISTIQUE DESCRIPTIVE BIVARIEE 68 Table 3.5 – Tableau des effectifs th´oriques n∗ e jk Homme Femme Total Bleu 12 18 30 Vert 44 66 110 Marron 24 36 60 Total 80 120 200 Table 3.6 – Tableau des ´carts ` l’ind´pendance ejk e a e Homme Femme Total Bleu -2 2 0 Vert 6 -6 0 Marron -4 4 0 Total 0 0 0 Table 3.7 – Tableau des e2 /n∗ jk jk Homme Femme Total Bleu 0.33 0.22 0.56 Vert 0.82 0.55 1.36 Marron 0.67 0.44 1.11 Total 1.82 1.21 3.03 – On a V = 0.123. La d´pendance entre les deux variables est tr`s faible. e e En langage R yeux= c(rep("bleu",times=10),rep("vert",times=50),rep("marron",times=20), rep("bleu",times=20),rep("vert",times=60),rep("marron",times=40)) sexe= c(rep("homme",times=80),rep("femme",times=120)) yeux=factor(yeux,levels=c("bleu","vert","marron")) sexe=factor(sexe,levels=c("homme","femme")) T=table(sexe,yeux) T plot(T,main="") summary(T) Exemple 3.6 Le tableau suivant est extrait de Boudon (1979, p. 57). La variable X est le niveau d’instruction du fils par rapport au p`re (plus ´lev´, e e e
  69. 69. 3.3. DEUX VARIABLES QUALITATIVES 69 ´gal, inf´rieur), et la variable Y est le statut professionnel du fils par rapport e e au p`re (plus ´lev´, ´gal, inf´rieur). e e e e e Table 3.8 – Tableau de contingence : effectifs njk Niveau d’instruction Statut professionnel du fils du fils par rapport par rapport au p`re e au p`re e Plus ´lev´ Egal inf´rieur total e e e plus ´lev´ e e 134 96 61 291 ´gal e 23 33 24 80 inf´rieur e 7 16 22 45 total 164 145 107 416 Table 3.9 – Tableau des fr´quences fjk e XY Plus ´lev´ e e plus ´lev´ e e 0.322 ´gal e 0.055 inf´rieur e 0.017 total 0.394 Egal 0.231 0.079 0.038 0.349 inf´rieur e 0.147 0.058 0.053 0.257 total 0.700 0.192 0.108 1.000 Table 3.10 – Tableau des profils lignes XY Plus ´lev´ e e plus ´lev´ e e 0.460 ´gal e 0.288 inf´rieur e 0.156 total 0.394 Egal 0.330 0.413 0.356 0.349 inf´rieur total e 0.210 1 0.300 1 0.489 1 0.257 1 Table 3.11 – Tableau des profils colonnes XY Plus ´lev´ Egal e e plus ´lev´ e e 0.817 0.662 ´gal e 0.140 0.228 0.043 0.110 inf´rieur e total 1 1 inf´rieur total e 0.570 0.700 0.224 0.192 0.206 0.108 1 1
  70. 70. ´ CHAPITRE 3. STATISTIQUE DESCRIPTIVE BIVARIEE 70 Table 3.12 – Tableau des effectifs th´oriques n∗ e jk XY Plus ´lev´ Egal e e plus ´lev´ e e 114.72 101.43 ´gal e 31.54 27.88 inf´rieur e 17.74 15.69 total 164 145 inf´rieur total e 74.85 291 20.58 80 11.57 45 107 416 Table 3.13 – Tableau des ´carts ` l’ind´pendance ejk e a e XY Plus ´lev´ Egal inf´rieur total e e e plus ´lev´ e e 19.28 −5.43 −13.85 0 ´gal e −8.54 5.12 3.42 0 inf´rieur e −10.74 0.31 10.43 0 total 0 0 0 0 Table 3.14 – Tableau des e2 /n∗ jk jk Plus ´lev´ Egal e e XY plus ´lev´ e e 3.24 0.29 2.31 0.94 ´gal e inf´rieur e 6.50 0.01 total 12.05 1.24 inf´rieur e total 2.56 6.09 0.57 3.82 9.39 15.90 12.52 χ2 = 25.81 obs On a donc χ2 obs ϕ2 V = 25.81 χ2 25.81 obs = = = 0.062 n 416 √ = ϕ2 = min(J − 1, K − 1) √ 0.062 = 0.176. 2 Exercices Exercice 3.1 La consommation de cr`mes glac´es par individus a ´t´ mesur´e e e ee e pendant 30 p´riodes. L’objectif est d´termin´ si la consommation d´pend de la e e e e temp´rature. Les donn´es sont dans le tableau 3.15. On sait en outre que e e
  71. 71. 3.3. DEUX VARIABLES QUALITATIVES 71 Table 3.15 – Consommation de cr`mes glac´es e e consommation y 386 374 393 425 406 344 327 288 269 256 temp´rature x consommation y e 41 286 56 298 63 329 68 318 69 381 65 381 61 470 47 443 32 386 24 342 n ∑ yi = 10783, i=i n ∑ n ∑ temp´rature x consommation y e 28 319 26 307 32 284 40 326 55 309 63 359 72 376 72 416 67 437 60 548 xi = 1473, i=i 2 yi = 4001293, i=i n ∑ x2 = 80145, i i=i n ∑ xi yi = 553747, i=i 1. Donnez les moyennes marginales, les variances marginales et la covariance entre les deux variables. 2. Donnez la droite de r´gression, avec comme variable d´pendante la consome e mation de glaces et comme variable explicative la temp´rature. e 3. Donnez la valeur ajust´e et le r´sidu pour la premi`re observation du e e e tableau 3.15. Solution y = 359.4333333, x = 49.1, ¯ ¯ 2 2 2 σy = 4184.112222, σx = 260.69, σxy = 810.0566667, ∗ ρ = 0.77562456, b = 3.107356119, a = 206.8621479, y1 = 334.2637488, e1 = 51.73625123, temp´rature x e 44 40 32 27 28 33 41 52 64 71
  72. 72. ´ CHAPITRE 3. STATISTIQUE DESCRIPTIVE BIVARIEE 72 Exercice 3.2 Neuf ´tudiants ´mettent un avis p´dagogique vis-`-vis d’un proe e e a fesseur selon une ´chelle d’appr´ciation de 1 ` 20. On rel`ve par ailleurs la note e e a e obtenue par ces ´tudiants l’ann´e pr´c´dente aupr`s du professeur. e e e e e y = Avis x = R´sultat e 5 8 7 11 Etudiants 16 6 12 10 13 9 14 17 10 7 9 15 8 16 1. Repr´sentez graphiquement les deux variables. e 2. D´terminez le coefficient de corr´lation entre les variables X et Y. Ensuite, e e donnez une interpr´tation de ce coefficient. e 3. D´terminez la droite de r´gression Y en fonction de X. e e ´ 4. Etablissez, sur base du mod`le, l’avis pour un ´tudiant ayant obtenu 12/20. e e 5. Calculez la variance r´siduelle et le coefficient de d´termination. e e Solution 18 6 q 16 14 q q q 12 q 10 q 8 q q q 6 4 2 0 0 5 10 15 20
  73. 73. 3.3. DEUX VARIABLES QUALITATIVES yi xi 5 8 7 11 16 10 6 13 12 9 14 17 10 7 9 15 8 16 87 106 y= ¯ 73 2 yi x2 xi yi i 25 64 40 49 121 77 256 100 160 36 169 78 144 81 108 196 289 238 100 49 70 81 225 135 64 256 128 951 1354 1034 87 = 9, 667 9 951 − 9, 6672 = 12, 22 9 106 = 11, 78 x= ¯ 9 1354 s2 = − 11, 782 = 11, 73 x 9 1034 − 9, 667 × 11, 78 = 1, 037 sxy = 9 1, 037 rxy = √ = 0.087 12, 22 11, 73 Ajustement lin´aire de y en x e s2 = y Dy|x : y − y = ¯ Sxy (x − x) ¯ 2 Sx Dy|x : y = 0.088x + 8, 625 Valeur ajust´e pour une cote de 12/20, (x=12) e y = 0.088 × 12 + 8, 625 = 9, 686 Mesure de la qualit´ du mod`le : e e Variance r´siduelle e s2 y|x = s2 (1 − r2 ) y = 12, 22(1 − 0.0872 ) = 12, 13 ` comparer avec s2 = 12, 22 a y Coefficient de d´termination e r2 = 0.0872 = 0.008 ce coefficient repr´sente la proportion de variance expliqu´e par le mod`le (ici e e e 0.8% faible).
  74. 74. ´ CHAPITRE 3. STATISTIQUE DESCRIPTIVE BIVARIEE 74 Exercice 3.3 Consid´rons un ´chantillon de 10 fonctionnaires (ayant entre 40 e e et 50 ans) d’un minist`re. Soit X le nombre d’ann´es de service et Y le nombre e e de jours d’absence pour raison de maladie (au cours de l’ann´e pr´c´dente) e e e d´termin´ pour chaque personne appartenant ` cet ´chantillon. e e a e xi yi 2 14 3 13 16 17 8 12 13 10 20 8 24 20 7 7 5 2 11 8 1. Repr´sentez le nuage de points. e 2. Calculez le coefficient de corr´lation entre X et Y. e 3. D´terminez l’´quation de la droite de r´gression de Y en fonction de X. e e e 4. D´terminez la qualit´ de cet ajustement. e e ´ 5. Etablissez, sur base de ce mod`le, le nombre de jours d’absence pour un e fonctionnaire ayant 22 ans de service. Solution 2) xi 2 14 16 8 13 20 24 7 5 11 somme 120 moyenne 12.00 n ∑ 2 yi yi x2 i 3 4 9 13 196 169 17 256 289 12 64 144 10 169 100 8 400 64 20 576 400 7 49 49 2 25 4 8 121 64 100 1860 1292 10.00 186.00 129.20 xi = 120; i=l n ∑ n ∑ xi yi 6 182 272 96 130 160 480 49 10 88 1473 147.30 yi = 100; i=l x2 = 1860; i i=l n ∑ 2 yi = 1292; i=l n ∑ xi yi = 1473 i=1 x = 120/10 = 12; ¯ y = 100/10 = 10; ¯ s2 = (1860/10) − 122 = 42; s2 = (1292/10) − 102 = 29, 2 x y sxy = (1473/10) − (10.12) = 27, 3
  75. 75. 3.3. DEUX VARIABLES QUALITATIVES rxy = √ 27, 3 = 0.78 42 × 29, 2 3) Dxy ≡ y − y = ¯ Sxy (x − x) ¯ 2 Sx 27, 3 (x − 12) 42 ≡ y = 0.65x + 2, 2 Dxy ≡ y − 10 = Dxy 4) r2 = 60.8%; s2 e = s2 (1 y − r ) = 29, 2 × (1 − 0.608) = 11, 43 2 2 s2 = 11, 43 est beaucoup plus petit que Sy = 29, 2 e 5) y = 0.65 × 22 + 2, 2 = 16, 5 jours. 75
  76. 76. 76 ´ CHAPITRE 3. STATISTIQUE DESCRIPTIVE BIVARIEE
  77. 77. Chapitre 4 Th´orie des indices, e mesures d’in´galit´ e e 4.1 Nombres indices 4.2 D´finition e Un indice est la valeur d’une grandeur par rapport ` une valeur de r´f´rence. a ee Prenons l’exemple du tableau 4.1 contenant le prix (fictif) d’un bien de consommation de 2000 ` 2006. Le temps varie de 0, 1, 2, . . . , 6 et 0 est consid´r´ comme a ee le temps de r´f´rence par rapport auquel l’indice est calcul´. ee e Table 4.1 – Tableau du prix d’un ann´e e 2000 2001 2002 2003 2004 2005 2006 bien de consommation de 2000 ` 2006 a t prix pt 0 2.00 1 2.30 2 2.40 3 2.80 4 3.00 5 3.50 6 4.00 L’indice simple est d´fini par e I(t/t′ ) = 100 × pt , t, t′ = 0, 1, . . . , 6. pt′ Le tableau 4.2 contient la matrice des indices de prix du bien. Par exemple de 2000 ` 2006, le prix a doubl´, donc I(6/0) = 200. a e 77
  78. 78. ´ ´ ´ CHAPITRE 4. THEORIE DES INDICES, MESURES D’INEGALITE 78 Table 4.2 – Tableau de l’indice simple du prix du tableau 4.1 t′ = 0 1 2 3 4 5 6 4.2.1 t=0 1 2 100.00 115.00 120.00 86.96 100.00 104.35 83.33 95.83 100.00 71.43 82.14 85.71 66.67 76.67 80.00 57.14 65.71 68.57 50.00 57.50 60.00 3 140.00 121.74 116.67 100.00 93.33 80.00 70.00 4 150.00 130.43 125.00 107.14 100.00 85.71 75.00 5 175.00 152.17 145.83 125.00 116.67 100.00 87.50 6 200.00 173.91 166.67 142.86 133.33 114.29 100.00 Propri´t´s des indices e e Consid´rons un indice quelconque I(t/0). On dit que cet indice poss`de les e e propri´t´s de ee 1 – r´versibilit´ si I(t/0) = 1002 × I(0/t) , e e – identit´ si I(t/t) = 100, e – circularit´ (ou transitivit´) si I(t/u) × I(u/v) = 100 × I(t/v). e e Il est facile de montrer que ces trois propri´t´s sont satisfaites pour un indice ee simple. 4.2.2 Indices synth´tiques e Quand on veut calculer un indice ` partir de plusieurs prix, le probl`me a e devient sensiblement plus compliqu´. Un indice synth´tique est une grandeur e e d’un ensemble de biens par rapport ` une ann´e de r´f´rence. On ne peut pas a e ee construire un indice synth´tique en additionnant simplement des indices simples. e Il faut, en effet, tenir compte des quantit´s achet´es. e e Pour calculer un indice de prix de n biens de consommation ´tiquet´s de e e 1, 2, . . . , n, on utilise la notation suivante : – pti repr´sente le prix du bien de consommation i au temps t, e – qti repr´sente la quantit´ de biens i consomm´e au temps t. e e e Consid´rons par exemple le Tableau 4.3 qui contient 3 biens de consommation e et pour lesquels ont connaˆ les prix et les quantit´s achet´es. ıt e e Il existe deux m´thodes fondamentales pour calculer les indices de prix, e l’indice de Paasche et l’indice de Laspeyres. 4.2.3 Indice de Laspeyres L’indice de Laspeyres, est d´fini par e ∑n i=1 q0i pti L(t/0) = 100 × ∑n . i=1 q0i p0i On utilise pour le calculer, les quantit´s q0i du temps de r´f´rence. e ee
  79. 79. ´ 4.2. DEFINITION 79 Table 4.3 – Exemple : prix et quantit´s de trois bien pendant 3 ans e Temps Bien 1 Bien 2 Bien 3 0 Prix (p0i ) 100 60 160 Quantit´s (q0i ) e 14 10 4 1 Prix (p1i ) 150 50 140 Quantit´s (q1i ) e 10 12 5 2 Prix (p2i ) 200 40 140 L’indice de Laspeyres peut aussi ˆtre pr´sent´ comme une moyenne pond´r´e e e e ee des indices simples. Soient l’indice simple du bien i : Ii (t/0) = 100 × pti , p0i et le poids w0i correspondant ` la recette totale du bien i au temps 0 a w0i = p0i q0i . L’indice de Laspeyres peut alors ˆtre d´fini comme une moyenne des indices e e simples pond´r´s par les recettes au temps 0 : ee ∑n ∑n i=1 p0i q0i 100 × i=1 w0i Ii (t/0) ∑n ∑n = L(t/0) = i=1 w0i i=1 p0i q0i pti p0i ∑n i=1 q0i pti = 100 × ∑n . i=1 p0i q0i L’indice de Laspeyres ne poss`de ni la propri´t´ de circularit´ ni de r´versibilit´. e ee e e e L’indice de Laspeyres est facile ` calculer, car seules les quantit´s q0i du temps a e de r´f´rence sont n´cessaires pour le calculer. ee e Exemple 4.1 Si on utilise les donn´es du tableau 4.3, les indices de Laspeyres e sont les suivants ∑n q0i p1i 14 × 150 + 10 × 50 + 4 × 140 L(1/0) = 100 × ∑i=1 = 100 × = 119.6970, n 14 × 100 + 10 × 60 + 4 × 160 q0i p0i i=1 ∑n q0i p2i 14 × 200 + 10 × 40 + 4 × 140 = 142.4242, L(2/0) = 100 × ∑i=1 = 100 × n 14 × 100 + 10 × 60 + 4 × 160 i=1 q0i p0i ∑n q1i p2i 10 × 200 + 12 × 40 + 5 × 140 L(2/1) = 100 × ∑i=1 = 113.5714. = 100 × n 10 × 150 + 12 × 50 + 5 × 140 i=1 q1i p1i Quantit´s (q2i ) e 8 14 5
  80. 80. ´ ´ ´ CHAPITRE 4. THEORIE DES INDICES, MESURES D’INEGALITE 80 4.2.4 Indice de Paasche L’indice de Paasche, est d´fini par e ∑n i=1 qti pti P (t/0) = 100 × ∑n . i=1 qti p0i On utilise, pour le calculer, les quantit´s qti du temps par rapport auquel on e veut calculer l’indice. L’indice de Paasche peut aussi ˆtre pr´sent´ comme une moyenne harmoe e e nique pond´r´e des indices simples. Soient l’indice simple du bien i : ee Ii (t/0) = 100 × pti , p0i et le poids wti correspondant ` la recette totale du bien i au temps t a wti = pti qti . L’indice de Paasche peut alors ˆtre d´fini comme une moyenne harmonique des e e indices simples pond´r´s par les recettes au temps t : ee ∑n ∑n ∑n i=1 qti pti i=1 wti i=1 pti qti = 100 × ∑n P (t/0) = ∑n = ∑n . p0i i=1 wti /Ii (t/0) i=1 pti qti 100×pti i=1 qti p0i L’indice de Paasche ne poss`de ni la propri´t´ de circularit´ ni de r´versibilit´. e ee e e e L’indice de Paasche est plus difficile ` calculer que l’indice de Laspeyres, car on a doit connaˆ les quantit´s pour chaque valeur de t. ıtre e Exemple 4.2 Si on utilise les donn´es du tableau 4.3, les indices de Paasche e sont les suivants ∑n q p 10 × 150 + 12 × 50 + 5 × 140 ∑n 1i 1i = 100 × P (1/0) = 100 × i=1 = 111.1111, 10 × 100 + 12 × 60 + 5 × 160 q1i p0i i=1 ∑n q2i p2i 8 × 200 + 14 × 40 + 5 × 140 = 100 × P (2/0) = 100 × ∑i=1 = 117.2131, n 8 × 100 + 14 × 60 + 5 × 160 q2i p0i i=1 ∑n q2i p2i 8 × 200 + 14 × 40 + 5 × 140 = 100 × P (2/1) = 100 × ∑i=1 = 110. n 8 × 150 + 14 × 50 + 5 × 140 q2i p1i i=1 4.2.5 L’indice de Fisher L’indice de Laspeyres est en g´n´ral plus grand que l’indice de Paasche, e e ce qui peut s’expliquer par le fait que l’indice de Laspeyres est une moyenne arithm´tique d’indices ´l´mentaires tandis que l’indice de Paasche est une moyenne e ee harmonique. Nous avons vu qu’une moyenne harmonique est toujours inf´rieure e
  81. 81. ´ 4.2. DEFINITION 81 ou ´gale ` une moyenne arithm´tique (voir la remarque de la page 32). Cepene a e dant ici, ce r´sultat est approximatif, car on n’utilise pas les mˆmes poids pour e e calculer l’indice de Paasche (wti ) et de Laspeyres (w0i ). Fisher a propos´ d’utiliser un compromis entre l’indice de Paasche et de e Laspeyres en calculant simplement la moyenne g´om´trique de ces deux indices e e √ F (t/0) = L(t/0) × P (t/0). L’avantage de l’indice de Fisher est qu’il jouit de la propri´t´ de r´versibilit´. ee e e Exemple 4.3 Si on utilise toujours les donn´es du tableau 4.3, les indices de e Fisher sont les suivants : √ F (1/0) = L(1/0) × P (1/0) = 115.3242, √ F (2/0) = L(2/0) × P (2/0) = 129.2052, √ F (2/1) = L(2/1) × P (2/1) = 111.7715. 4.2.6 L’indice de Sidgwick L’indice de Sidgwick est la moyenne arithm´tique des indices de Paasche et e de Laspeyres. L(t/0) + P (t/0) S(t/0) = . 2 4.2.7 Indices chaˆ ınes Le d´faut principal des indices de Laspeyres, de Paasche, de Fisher et de Sidge wick est qu’il ne poss`dent pas la propri´t´ de circularit´. Un indice qui poss`de e ee e e cette propri´t´ est appel´ indice chaˆ ee e ıne. Pour construire un indice chaˆ ıne, avec l’indice de Laspeyres, on peut faire un produit d’indice de Laspeyres annuels. L(t/t − 1) L(t − 1/t − 2) L(2/1) L(1/0) × × ··· × × . 100 100 100 100 Pour calculer un tel indice, on doit ´videmment connaˆ e ıtre les quantit´s pour e chaque valeur de t. L’indice suisse des prix ` la consommation est un indice a chaˆ de Laspeyres. ıne CL(t/0) = 100 × Exemple 4.4 En utilisant encore les donn´es du tableau 4.3, les indices chaˆ e ınes de Laspeyres sont les suivants : CL(1/0) = L(1/0) = 119.6970, CL(2/1) = L(2/1) = 113.5714, L(2/1) × L(1/0) = 135.9416. CL(2/0) = 100
  82. 82. ´ ´ ´ CHAPITRE 4. THEORIE DES INDICES, MESURES D’INEGALITE 82 4.3 4.3.1 Mesures de l’in´galit´ e e Introduction Des indicateurs particuliers ont ´t´ d´velopp´s pour mesurer les in´galit´s ee e e e e des revenus ou les in´galit´s de patrimoine. On consid`re qu’une soci´t´ est pare e e ee faitement ´galitaire si tous les individus re¸oivent le mˆme revenu. La situation e c e th´orique la plus in´galitaire est la situation o` un individu per¸oit la totalit´ e e u c e des revenus, et les autre individus n’ont aucun revenu. 4.3.2 Courbe de Lorenz Plusieurs indices d’in´galit´ sont li´s ` la courbe de Lorenz. On note e e e a x1 , . . . , xi , . . . , xn les revenus des n individus de la population ´tudi´e. On note ´galement e e e x(1) , . . . , x(i) , . . . , x(n) , la statistique d’ordre, c’est-`-dire la s´rie de revenus tri´s par ordre croissant. a e e Notons maintenant qi la proportion de revenus par rapport au revenu total qu’ont gagn´ les i individus ayant les plus bas revenus, ce qui s’´crit e e ∑i j=1 qi = ∑n x(j) j=1 x(j) avec q0 = 0 et qn = 1. La courbe de Lorenz est la repr´sentation graphique de la fonction qui ` e a la part des individus les moins riches associe la part y du revenu total qu’ils per¸oivent. Plus pr´cis´ment, la courbe de Lorenz relie les points (i/n, qi ) pour c e e i = 1, . . . , n. En abscisse, on a donc une proportion d’individus class´s par ordre e de revenu, et en ordonn´e la proportion du revenu total re¸u par ces individus. e c Exemple 4.5 On utilise une enquˆte m´nage sur le revenu dans une r´gion e e e des Philippines appel´e Ilocos. Cette enquˆte de 1997 sur le revenu des m´nages e e e a ´t´ produite par l’Office philippin de Statistique. La courbe de Lorenz est ee pr´sent´e en Figure 4.1. e e Remarque 4.1 Sur le graphique, on indique toujours la diagonale. La courbe de Lorenz est ´gale ` la diagonale si tous les individus ont le mˆme revenu. Plus e a e l’´cart entre la courbe de Lorenz et la diagonale est important, plus les revenus e sont distribu´s de mani`re in´galitaire. e e e En langage R
  83. 83. ´ ´ 4.3. MESURES DE L’INEGALITE 83 Figure 4.1 – Courbe de Lorenz 1.0 proportion de revenu 0.8 0.6 0.4 0.2 0.0 0.0 0.2 0.4 0.6 0.8 1.0 proportion de menages # # Courbe de Lorenz et indices d’in´galit´ e e # # Etape 1 : on installe la package ineq utils:::menuInstallPkgs() # choisir ’ineq’ dans la liste # #Etape 2 : on charge le package ineq local({pkg <- select.list(sort(.packages(all.available = TRUE))) + if(nchar(pkg)) library(pkg, character.only=TRUE)}) # choisir ’ineq’ dans la liste # # Utilisation de la base de donn´es Ilocos e # Enqu^te sur le revenu de l’Office de Statistique Philippin e data(Ilocos) attach(Ilocos) # plot(Lc(income),xlab="proportion de menages", ylab="proportion de revenu",main="")

×