SlideShare une entreprise Scribd logo
Khalil F( TD-TP )                           1999-2000

                                       CHAPITRE 1

               I)    LES STATISTIQUES EN SCIENCES HUMAINES


   1. Définitions

On donne plusieurs définitions de « la statistique » (Howell) :
   1 c’est l’étude des ensembles numériques et de leurs relations ;
   2 c’est également le moyen d’obtenir des indications probables sur des ensembles
     imparfaitement connus ;

La statistique est une méthode pour effectuer la synthèse de ces données. Elle met en
œuvre plusieurs « statistiques » caractérisant et résumant les données. La moyenne fait
partie des statistiques, comme l’écart type, la variance, etc.

On appelle population un ensemble d’objets ou d’êtres sur lesquels on étudie une ou
plusieurs caractéristiques ; chaque élément de cette population est appelé individu
statistique. On s’intéresse, à propos de chaque individu, à une ou à plusieurs
caractéristiques, que l’on appelle caractères ou variables statistiques.

L’échantillon est un sous-ensemble de la population de référence.

Quand on travaille uniquement sur les caractéristiques de l’échantillon, quand on utilise
les statistiques pour décrire la nature de l’échantillon, on se situe dans le cadre des
statistiques descriptives. Quand on utilise les paramètres, les caractéristiques de
l’échantillon pour estimer ceux de la population dont il est extrait, on se situe dans le
cadre des statistiques inférentielles.

   2. L’utilisation des statistiques en sciences humaines

             2.1. La variabilité des conduites


Expériences de mesure des temps de réaction

tableau des temps de réaction en centièmes de seconde pour 20 présentations
successives d’un stimulus (d’après Reuchlin, 1998, Précis de statistique, PUF, p.21)

N° d’ordre des 20 présentations du 1    2     3   4     5   6   7   8   9   10 11 12
stimulus

1ère expérience : lampe rouge 20 15 18 25 17 32 18 17 19 23 19 21
Khalil F( TD-TP )                        1999-2000


seule

2ème expérience : lampe rouge 32 40 33 37 35 29 42 62 50 39 45 47
choisie parmi trois lampes de
couleurs différentes
3ème expérience : lampe verte 16 18 19 18 15 18 17 32 23 19 23 20
seule




N° d’ordre des 20 présentations du 13 14 15 16 17 18 19 20 Moyenne des 20
stimulus                                                       temps

1ère expérience : lampe rouge 15 22 17 17 21 19 17 23                   m1 = 19.75
seule

2ème expérience : lampe rouge 52 37 38 39 40 41 42 39                   m2 = 40.95
choisie parmi trois lampes de
couleurs différentes
3ème expérience : lampe verte 18 25 15 15 17 23 17 19                   m3 = 19.35
seule


             2.2. Exemples d’applications statistiques en psychologie
Khalil F( TD-TP )                             1999-2000




                                         CHAPITRE 2

         VARIABLES, NIVEAUX DE MESURE ET TABLEAU STATISTIQUE


   1. Variables qualitatives et variables quantitatives

On distingue les variables qualitatives et les variables quantitatives.

Une variable qualitative désigne une qualité de l’individu statistique ; chaque
observation appartient à une catégorie, à une modalité (exemple : couleur des cheveux,
sexe, situation géographique, catégorie socio-professionnelle, évaluation d’une copie
avec A, B, C ou TB, B, …,). Même si on code ensuite A= 1, B=2, etc, le nombre n’exprime
pas une quantité mais une qualité.

Une variable quantitative est caractérisée par une quantité numérique (durée, une note,
âge, …) ; elle résulte d’un dénombrement ou d’une mesure. Une variable quantitative
est continue, si elle peut prendre n’importe quelle valeur sur le continuum considéré (le
temps, la taille, le poids, une note sur 20 si on observe des valeurs de 13.452, un score
qui varie de 0 à 100). Elle est dite discontinue ou discrète, si elle ne prend que certaines
valeurs (le nombre de pièces d’un logement, le nombre d’enfants – on ne peut pas avoir
2.5 enfants pour un sujet).

   2. Les échelles de mesure

Une autre façon d’appréhender les variables est celle qui consiste à distinguer les
niveaux de mesure ou échelles de mesure. On distingue ainsi les échelles nominales
(variables nominales), les échelles ordinales (variables ordinales) et les échelles par intervalle
(variables d’intervalle). Les relations existant entre les éléments ayant des valeurs
différentes sur l’échelle ne sont pas les mêmes selon que l’on se situe sur une échelle
nominale, ordinale ou d’intervalle.

   Les échelles nominales

Pour construire une échelle nominale, il faut répartir les observations dans un certain
nombre de classes que l’on appelle « l’échelle ».
Les caractéristiques des échelles nominales sont les suivantes :
 les classes sont définies a priori par le psychologue ;
Khalil F( TD-TP )                          1999-2000


   chaque observation doit appartenir à une seule classe ;
   si 2 observations sont dans la même classe, elles sont considérées comme étant
    équivalentes.

Si on attribue des numéros aux classes, ceux-ci n’ont pas de valeur numérique, c’est
juste un moyen de les distinguer, de les nommer. Ils n’ont pas d’autre sens que celui
d’être identiques ou différents ; par exemple, au lieu d’appeler des classes A, B et C, on
peut les appeler 1, 2 et 3 ou encore 13, 7 et 45.

Exemple d’échelle nominale : le test du Rorschach

Ce test utilise 10 planches composées de taches d’encre symétriques, certaines noires,
d’autres colorées. Elles sont présentées successivement au sujet qui doit décrire « tout ce
qu’on pourrait y voir ». Chaque réponse est notée 3 fois, en fonction de sa localisation,
de sont déterminant, et de son contenu. Chacune de ces notations se fait sur une échelle
nominale :
 l’échelle ‘localisation’ est constituée de classes comme
    réponses globales (toute la planche) : G
    réponses grand détail (découpes fréquemment interprétées dans chaque
       planche) : D
    réponses petit détail : Dt
    réponses détail dans le blanc : Dbl, etc…
 l’échelle ‘déterminant’ distingue
    les réponses formes : F
    les réponses mouvement : K
    les réponses couleur : C, etc…
 l’échelle ‘contenu’ distingue
    les réponses humaines
    les réponses animaux, etc

Autre exemple d’échelle nominale : le code des catégories socio-professionnelles de
l’INSEE

0 : agriculteurs
1 : salariés agricoles
2 : patrons de l’industrie et du commerce
3 : professions libérales et cadres supérieurs

C’est un exemple des catégories les plus générales ; cette échelle est en fait divisée en
classes plus fines, chaque catégorie étant elle-même détaillée :
21 : industriels employant plus de 5 salariés
22 : artisans employant 5 ouvriers au plus
23 : patrons pêcheurs
Khalil F( TD-TP )                          1999-2000

24 : gros commerçants
25 etc.

   Les échelles ordinales

Le psychologue définit une relation d’ordre entre les observations (ou entre les
catégories d’observations) et l’ensemble des observations ainsi ordonnées constitue une
échelle ordinale.
Les nombres qui désignent les observations ou les catégories d’observations ont déjà la
propriété de ceux qui désignent les observations dans le cas d’une échelle nominale : ce
sont des symboles, c’est une façon de distinguer les catégories. Mais dans le cas d’une
échelle ordinale, ils ont la propriété supplémentaire d’être des symboles ordonnés.

Exemple de construction d’une échelle ordinale : l’échelle de Longeot

  configuration             Q1              Q2                 Q3               note
        1                   0               0                  0                 0
        2                   1               0                  0                 1
        3                   1               1                  0                 2
        4                   1               1                  1                 3

On fait passer le test à une population de 35 enfants; on obtient les résultats suivants :

     Note             Effectifs         effectifs
                                        cumulés
    0 (000)              5                  5
    1 (100)              12                17
    2 (110)              15                32
    3 (111)              3                 35

Exemples d’échelles ordinales : les niveaux scolaires, le score d’anxiété, les notes (y
compris les scores bruts des tests d’aptitude ou des questionnaires de personnalité), les
préférences et les opinions (beaucoup – assez - moyennement – peu - pas du tout ; très
souvent – assez souvent – de temps en temps – rarement – jamais ; … )

   Les échelles d’intervalles

Dans une échelle d’intervalles, les observations se répartissent dans des classes qui sont
des intervalles ordonnés et réguliers. Les nombres qui définissent les échelles
d’intervalles prennent tout leur sens. On peut parler de différences entre les points de
l’échelle.

Exemple des temps de réaction moyens de 200 sujets aux 20 présentations de la lampe
Khalil F( TD-TP )                           1999-2000

rouge

On a le tableau descriptif suivant :

sujet       moyenne des 20 temps
n°          (centièmes de seconde)
   1                  25.02
   2                  65.51
   3                  19.96
  …..                 54.30
  …..                  ….
  200                 34.72
   M           Effectifs        effectifs      pourcentages de sujet      pourcentages cumulés
                               cumulés
[10, 20[           24              24                        12                     12
[20, 30[           40              64                        20                     32
[30, 40[           52             116                        26                     58
[40, 50[           50             166                        25                     82
[50, 60[           18             184                         9                     92
[60, 70[           16             200                         8                     100


    3. Les tableaux statistiques et les effectifs

Il existe des conventions pour désigner les variables, les effectifs, les sommes, etc.

Exemple : nous disposons des scores au test opératoire de Longeot de 50 enfants, d’âge
différent (entre 6 et 10 ans) et provenant d’écoles différentes.

    Sujet n°        Ecole      Test Longeot       Age
       1             A               2        7 ans 3 mois
       2              B              3        9 ans 1 mois
       3             A               0        6 ans 8mois
       4             D               2        8 ans 5 mois
       5             C               1          6 ans 10
                                                  mois
      …..             …
      …..             …
      50              C                1          7 ans 11
                                                    mois

   La population est l’ensemble des 50 sujets.
Khalil F( TD-TP )                                1999-2000


   Les variables (X) sont :
     X1 ‘école’, variable nominale, modalités A, B, C et D
     X2 ‘Test Longeot’, variable ordinale, modalités 0, 1, 2, 3
     X3 ‘âge’, variable d’intervalle

On peut élaborer 3 tableaux statistiques :

Ecole (X1)

    X1          ni           fi

    A           12          24
    B           11          22
    C           20          40
    D           7           14
               50          100

   ni est l’effectif absolu d’une valeur prise par la variable ; c’est le nombre
    d’occurrences du caractère dans la population étudiée ; la somme de l’effectif total
    est N.

   fi est l’effectif relatif ; c’est le rapport de l’effectif absolu sur l’effectif total ; il est le
    plus souvent donné en pourcentages, et est aussi appelé fréquence.
         fi = ni / N
         N =  ni


Test Longeot (X2)

         X2            ni         fi      ni       ni       fi       fi 

     0 (000)          5           10      5         50         10       100
     1 (100)          18          36      23        45         46        90
     2 (110)          13          26      36        27         72        54
     3 (111)          14          28      50        14        100        28
                     50          100     /         /          /         /

   l’effectif absolu cumulé croissant (ni ) de la valeur xj = ni de i=1 à i=j (dernière
    valeur)

   l’effectif absolu cumulé décroissant (ni ) de la valeur xj = ni de i=j (valeur de
    ‘départ’) à i=k (dernière modalité)
Khalil F( TD-TP )                              1999-2000



   l’effectif relatif cumulé croissant (fi ) de la valeur xj =  fi de i=1 à i=j

   l’effectif relatif cumulé décroissant (fi ) de la valeur xj =  fi de i=j à i=k


Age (X3)

       X3             ni        fi      ni       ni       fi       fi 

     [6 ; 6.5[        8        16        8         50        16      100
     [6.5 ; 7[        7        14        15        42        30       84
     [7 ; 7.5[        9        18        24        35        48       70
     [7.5 ; 8[        6        12        30        26        60       52
     [8 ; 8.5[        11       22        41        20        82       40
     [8.5 ; 9[        3         6        44        9         88       18
     [9 ; 9.5[        5        10        49        6         98       12
    [9.5 ; 10[        1         2        50        1        100       2
                     50       100       /         /         /        /

                                         CHAPITRE 3

                           LES REPRESENTATIONS GRAPHIQUES


    1. Les représentations graphiques en fonction du type de variables

    Variables nominales

On réalise un diagramme à secteurs circulaires (camembert); ce diagramme repose sur la
représentation des fractions de chacune des valeurs (ou des fréquences) prises par la
variable. Les aires des secteurs sont proportionnelles aux effectifs.
Khalil F( TD-TP )                             1999-2000


                   ECOLE (X1)
                                                                 ECOLE (X1)

  D
                                                      D
  7,00                                   A
                                                      14,0%                         A
                                      12,00
                                                                                 24,0%




  C                                                   C
                                         B                                          B
  20,00                                               40,0%
                                      11,00                                      22,0%




Exemples de diagramme circulaire simple des effectifs de la variable Ecole (X1) (avec les
valeurs ou les pourcentages –effectifs absolus ou relatifs)

                   ECOLE (X1)

  D

  14,0%                                  A

                                      24,0%




  C
                                         B
  40,0%
                                      22,0%




Diagramme circulaire éclaté avec pourcentage de la variable X1


          A (12)           B (11)               C (20)              D (7)

Diagramme en barre des fréquences de la variable X1

           1.2. Variables ordinales

On les représente à l’aide d’un diagramme en bâtons ; on reporte sur une ligne
horizontale toutes les modalités de la variable étudiée en notant sous cette ligne le nom
de chaque modalité ; les modalités doivent être présentées dans l’ordre croissant de
gauche à droite. Puis on trace un bâton vertical au dessus de chaque modalité dont la
hauteur correspond à leur effectif ; la taille des bâtons est fonction de l’échelle choisie
présentée sur la gauche du graphique par un axe vertical. Il est possible de préciser les
effectifs au dessus des bâtons.

Le polygone statistique représente l’allure générale de la distribution ; il est réalisé en
Khalil F( TD-TP )                                                       1999-2000

reliant les sommets des bâtons ; il n’est pas nécessaire de représenter les bâtons.




Diagramme en bâtons de la variable Test de Longeot




Diagramme en bâtons et polygone statistique de la variable Test de Longeot

                20
                                                                                         20
                18
                                            18                                           18
                                                                                                                     18
                16
                                                                                         16

                14
                                                                14                       14
                                                                                                                                         14
                                                      13
                12                                                                                                             13
                                                                                         12

                10
                                                                                         10

                8
                                                                                         8
  Occurrences




                                                                           Occurrences




                6                                                                        6

                               5                                                                        5
                4                                                                        4

                2                                                                        2
                            OOO (O)       1OO (1)   110 (2)   111 (3)                                OOO (O)       1OO (1)   110 (2)   111 (3)


                     Score test Longeot                                                       Score test Longeot



Exemples de diagramme en bâtons des effectifs absolus de la variable Test Longeot (sur SPSS)


                      1.3. Variables d’intervalles

La représentation graphique pour ce type de variables est l’histogramme ; on utilise la
même procédure que pour les diagrammes en bâtons, mais en élargissant les bâtons sur
l’intervalle de chaque modalité. La surface des rectangles ainsi obtenus est
proportionnelle aux effectifs de chaque modalité de la variable étudiée. Les rectangles se
touchent car la variable est continue.
Khalil F( TD-TP )                                                                      1999-2000


  12



  10



  8



  6



  4



  2                                                                               Sigma = ,99
                                                                                  Moyenne = 7,64
  0                                                                               N = 50,00
        6,25      6,75       7,25     7,75    8,25    8,75     9,25      9,75


       AGE (X3)

Histogramme des effectifs absolus de la variable Age (X3) (sur SPSS)

Le polygone statistique est la ligne brisée qui relie le centre des sommets des rectangles
de l’histogramme.

On peut utiliser le même type de graphique pour représenter les effectifs relatifs (même
graphique mais en pourcentage)
   1 Histogramme des effectifs croissants et décroissants :

 60



 50



 40



 30



 20



 10                                                                 Sigma = ,98
                                                                    Moyenne = 8,51
  0                                                                 N = 261,00
       6,25    6,75   7,25     7,75    8,25   8,75   9,25    9,75


      AGE (X3)

Histogramme des effectifs absolus croissants de la variable Age (X3)(sur SPSS)

Le polygone statistique des effectifs cumulés croissants (absolus ou relatifs) se construit
en reliant les bornes supérieures des classes.
Khalil F( TD-TP )                                                   1999-2000


  60



  50



  40



  30



  20



  10                                                            Sigma = ,85
                                                                Moyenne = 7,20
  0                                                             N = 189,00
        6,25   6,75   7,25   7,75   8,25   8,75   9,25   9,75


       AGE (X3)

Histogramme des effectifs absolus décroissants de la variable Age (X3)(sur SPSS)

Le polygone statistique des effectifs cumulés décroissants en reliant les bornes
inférieures des classes.


       2. Autres types de représentations graphiques

       2.1. Représentation en tiges et en feuilles

Ce type de représentation (Turkey John, 1977) permet de travailler à partir des données
brutes, sans les regrouper en intervalle.
Prenons l’exemple des temps de réaction relatifs à la détection de la lampe rouge.
Supposons que nous disposions des moyennes aux 20 présentations de 200 sujets. Nous
pouvons élaborer le tableau suivant, qui est uniquement un extrait du tableau total.

  Données brutes                                         Tiges                   Feuilles
(centièmes de sec.)

………………………                                                  0           …….

………………………                                                  1           …………

20-20-21-21-21-22-                                         2           001112222234566669
22-22-22-22-23-24-
25-26-26-26-26-29                                          3           000123456666

30-30-30-31-32-33-                                         4           0333367799
34-35-36-36-36-36
Khalil F( TD-TP )                           1999-2000

                                       5      22888899
40-43-43-43-43-46-
47-47-49-49                            6

52-52-58-58-58-58-
59-59

………………………




Les chiffres des dizaines sont appelés chiffres principaux des scores (ou chiffres les plus
significatifs): ils forment la tige (cela peut être les chiffres des centaines, cela dépend de
la mesure et de sa précision ; par exemple si les données varient de 100 à 1000, les
chiffres des centaines formeraient la tige, ceux des dizaines les feuilles et on ne tiendrait
pas compte des unités)
Les chiffres des unités sont les chiffres secondaires (ou chiffres les moins significatifs) :
ils forment les feuilles.

L’une des utilités supplémentaires de ce type de représentation est de pouvoir comparer
deux distributions : on place alors les feuilles de part et d’autres des tiges.




Exemple : on veut comparer les moyennes des temps de réaction de deux groupes de sujets, car on
a posé l’hypothèse d’une différence entre ces deux groupes (l’âge).

                                    Tiges      Sujets ‘âgés’ (de 41 à 60 ans)
Khalil F( TD-TP )                            1999-2000



                                        0      ……
                ……………………
                                        1      888999

                                        2      22233444556

                                        3      112223344555788889

                                        4      11115677788888999

                                        5      223334444555689

                                        6      555667



       2.2. Le graphique séquentiel ou en continu

On utilise ce type de graphique pour représenter principalement l’évolution d’une série
chronologique (dans le temps).

Exemple : fréquentation d’une station de ski en 1987-1988 mois par mois en milliers de sujets

  anné      J       F    M       A      M       J      J      A      S      O       N      D
    e
  1987     11       10   9       9      2       1     7       9      10      3      1      10
  1988     14       13   13      15     6       4     12      14     15      6      8      15
Khalil F( TD-TP )                                                                         1999-2000


                            16


                            14


                            12


                            10


                             8
    milliers de touristes




                             6


                             4


                             2                                                                                                     1987

                             0                                                                                                     1988
                                 jan         fev     mar    avr    mai    juin   juil     aou        sep     oct    nov    dec


                                   mois de l'année




   2.3. L’Echelonnement Multidimensionnel


                                 2,0
                                                                                 os
                                                           ferme                            herbe
                                 1,5                                                                                                 carotte

                                                                                                               maïs
                                 1,0
                                                                                                                                   champignon
                                                       mouton
                                                      vache                                                               banane
                                   ,5                                                                                                          noisette

                                             chien                                      lapin
                                 0,0
                                                                                        souris
                                 -,5                                                                                                      forêt
                                                             chapiteau de cirque de terre
                                                                               ver

                                                                                                 cerfaigle         écureuil
                             -1,0
    Dimension 2




                                                                          tigre                      singe
                                                                         éléphant
                             -1,5

                             -2,0
                                        -2                         -1                            0                            1                     2


                                         Dimension 1
                                                   Représentation sur le plan 1/2 des liens entre les 23 items
Khalil F( TD-TP )                                                                                   1999-2000

                                                                              (stress = .16 ; RSQ = .76)



Autre exemple : Comparaison entre deux espaces


                     1,5                                                     noisettes
                                                                                    maïs
                                                                                       écureuil
                     1,0



                         ,5
                                           banane                                                               carotte

                                           singe
                     0,0

                                            tigre                                                                  mouton
                                              éléphant                                                            lapin
                      -,5

                                                                                   herbe
       Dimension 2




                     -1,0


                                                                                     aigle
                     -1,5
                              -2,0            -1,5        -1,0       -,5      0,0            ,5           1,0      1,5      2,0


                                    Dimension 1


Schéma 1 : Représentation des liens entre les 12 items par les enfants de maternelle (stress = .19 ; RSQ
= .78)

                                     1,0                                                                        banane
                                                         singe
                                                        écureuil
                                                                                                                  carotte
                                      ,5
                                               aigle


                                     0,0
                                                                                                                    maïs
                                                 tigre lapin
                                              éléphant

                                     -,5



                                    -1,0
                      Dimension 2




                                    -1,5                                   mouton
                                                                                                  herbe

                                    -2,0
                                       -1,5            -1,0        -,5       0,0           ,5             1,0        1,5      2,0


                                           Dimension 1

Schéma 2 :                            Représentation des liens entre les 12 items par les enfants de CM1 (stress = .19 ; RSQ =
.78)
Khalil F( TD-TP )                        1999-2000

    3. Description de distributions

Sur les représentations graphiques (essentiellement les histogrammes, les courbes), on
observe la forme de la distribution ; cette forme générale nous renseigne sur les données
recueillies.


   Distribution normale




   Distribution bimodale


   Distribution asymétrique négative




   Distribution asymétrique positive
Khalil F( TD-TP )                          1999-2000




L’aplatissement (voussure ou curtosis) rend essentiellement compte du nombre
d’observations qui se situent au centre de la distribution, par rapport au nombre attendu
dans une distribution dite normale.

   S’il y a moins d’observations au niveau du sommet de la distribution que dans une
    distribution normale, le sommet est ‘aplati’, la distribution est dite ‘platycurtique’.




   S’il y a plus d’observations au niveau du sommet de la distribution que dans une
    distribution normale, le sommet est ‘pointu’, la distribution est dite ‘leptocurtique’.
Khalil F( TD-TP )                            1999-2000


                                    CHAPITRE QUATRE

               LES CARACTERISTIQUES DE TENDANCE CENTRALE


   1. Le mode

Le mode Mo est la valeur de la variable dont l’effectif (relatif ou absolu) est le plus
grand ; c’est la valeur qui se rencontre le plus fréquemment.

Exemples de séries statistiques :
Notes {3,3,5,6,7,4,4,4,6,6,6,6,8,8,9,9,9,9,9,9,9,12,12,13,13,14,14,15} : Mo = 9 (il y a 7 fois la
note 9)

Notes {2,4,6,8,10,12,14,16,18,20} le mode n’existe pas

Notes {3,3,3,3,4,5,6,6,6,7,7,7,7,8,9,10} il y a deux modes : 3 et 7 ; (distribution bimodale)

On parle également de distribution multimodale ou plurimodale


           Variables nominales et ordinales

Dans un tableau statistique, le mode est facilement repérable : c’est le Xi pour lequel la
fréquence est la plus élevée. Sur le diagramme en barres, c’est la valeur Xi qui
correspond à la barre la plus grande. Sur le diagramme en bâtons, c’est la valeur X i qui
correspond au bâton le plus haut.

Exemple de X1 (école)

Ecole (X1)

   X1           ni          fi

    A          12          24
    B          11          22
    C          20          40
    D          7           14
              50          100

Mo = C
Khalil F( TD-TP )                                1999-2000



    A (12)                 B (11)                  C (20)             D (7)


Exemple de X2 (test Longeot)

       X2             ni            fi    ni       ni      fi    fi 

     0 (000)         5              10    5         50        10    100
     1 (100)         18             36    23        45        46     90
     2 (110)         13             26    36        27        72     54
     3 (111)         14             28    50        14       100     28
                    50             100   /         /         /      /

Mo = 1 (ou 100)


            Variables d’intervalle

On ne parle plus de mode mais de classe modale. La classe modale est donc celle qui
correspond à l’effectif le plus élevé ; sur l’histogramme, c’est le rectangle qui est le plus
grand. La classe modale dépend évidemment du choix des classes.

Exemple avec X3 (âge)

       X3             ni            fi    ni       ni      fi    fi 

     [6 ; 6.5[       8              16    8         50        16    100
     [6.5 ; 7[       7              14    15        42        30     84
     [7 ; 7.5[       9              18    24        35        48     70
     [7.5 ; 8[       6              12    30        26        60     52
     [8 ; 8.5[       11             22    41        20        82     40
     [8.5 ; 9[       3               6    44        9         88     18
     [9 ; 9.5[       5              10    49        6         98     12
    [9.5 ; 10[       1               2    50        1        100     2
                    50             100   /         /         /      /

Classe modale = [8 ; 8,5[ (n = 11)


   2. La médiane
Khalil F( TD-TP )                         1999-2000

La médiane est la valeur de la variable qui divise les effectifs en deux parties égales
donc telle que 50% des sujets de l’échantillon ont une valeur inférieure à la médiane et
50% des sujets une valeur supérieure. Quand on ordonne la série de mesures, la
médiane est la valeur qui se situe au centre de la série ainsi ordonnée.

Dans un tableau statistique, ce sont les effectifs relatifs ou absolus cumulés qui vont
nous permettre de calculer la Mé ; en effet, ces effectifs nous permettent de dire ‘il y a
tant de sujets qui se situent au dessus ou en dessous de telle valeur’ et c’est exactement
la signification de la médiane ‘il y a 50% de sujets au dessus et 50% de sujets en dessous
de cette valeur’.

On ne peut pas calculer la médiane d’une distribution nominale, cela n’a aucun sens.


       2.1. Variables ordinales

   Si le nombre de valeurs est impair, la série comporte (2n+1) valeurs et la médiane est
    la (n+1) ième valeur ; on peut dire aussi qu’elle a pour rang (N+1)/2

Exemple : 4     5       9       11     15     16    18
     La médiane Mé est 11 ; il y a 3 observations avant et 3 observations après 11

   Si le nombre de valeurs est pair, la série comporte 2n valeurs et il n’existe pas de
    valeur qui sépare en deux sous-ensembles égaux la série ; on parle alors d’un
    intervalle médian, déterminé par les valeurs n et n+1

Exemple :   4      5     9      11    15    16     18    20
     L’intervalle médian est 11-15
     Parfois, on admet que c’est la moyenne de ces deux valeurs.

Détermination de la médiane

Dans le tableau statistique, on calcule les fréquences cumulées relatives ou absolues ; on
repère la valeur 0,5 (ou 50 si pourcentages) pour les fréquences cumulées relatives ou
N/2 pour les fréquences cumulées absolues. Généralement, les valeurs 0,5 ou N/2
apparaissent entre deux lignes du tableau ; la médiane est la valeur de Xi qui correspond
à la ligne du bas. Cela signifie que la médiane dans ce cas ne partage pas exactement
l’effectif en deux sous-ensembles égaux.
On peut également observer la médiane sur le graphe des effectifs cumulés.


Exemple : nombre de pièces dans un appartement
Khalil F( TD-TP )                                1999-2000


    xi           ni        ni             fi        fi 
    1            45         45             30        30
    2            60        105             40        70
    3            20        125           13.33      83.33
    4            10        135           6.66        90
    5            9         144             6         96
    6            6         150             4         100
               150                       100

N/2 (c’est-à-dire 75) ou fi = 50 se situe entre xi = 1 et 2
Mé = 2

Ce n’est pas tout à fait exact, car 30% de la population présente une valeur inférieure à 2
et non pas exactement 50%

Exemple sur la représentation graphique des effectifs cumulés croissants




         2.2. Variables par intervalle

Dans ce cas, on peut toujours trouver une valeur de la médiane divisant la série en deux
sous-ensembles d’égale importance.

Pour trouver la classe médiane qui contient la médiane, on effectue le même raisonnement
que dans le cas des variables discrètes.
Khalil F( TD-TP )                          1999-2000

Exemple avec X3 (âge)

      X3            ni       fi     ni       ni      fi     fi 

    [6 ; 6.5[       8       16       8        50        16    100
    [6.5 ; 7[       7       14       15       42        30     84
    [7 ; 7.5[       9       18       24       35        48     70
    [7.5 ; 8[       6       12       30       26        60     52
    [8 ; 8.5[       11      22       41       20        82     40
    [8.5 ; 9[       3        6       44       9         88     18
    [9 ; 9.5[       5       10       49       6         98     12
   [9.5 ; 10[       1        2       50       1        100     2
                   50      100      /        /         /      /

La classe médiane est [7,5 ;8[ avec une fréquence cumulée de 60%
Il reste à déterminer la valeur de Mé dans cette classe.

Méthode approximative : détermination graphique




Détermination par interpolation linéaire

Cette méthode suppose une répartition uniforme des individus dans la classe médiane.

1) on extrait la classe médiane, c’est-à-dire la classe correspondant à l’effectif cumulé
   croissant qui dépasse N/2 ou 50% ; dans notre exemple, c’est [7,5 ; 8[
Khalil F( TD-TP )                                                                1999-2000

2) on extrait la partie du polygone statistique des effectifs absolus cumulés croissants
   correspondant à cette classe ; on travaille uniquement avec sur l’axe des abscisses 7,5
   et 8 et sur l’axe des ordonnées 24 et 30. On place 25 (N/2) en ordonnées et on cherche
   l’abscisse correspondant.


 60



 50



 40



 30



 20



 10                                                             Sigma = ,98
                                                                Moyenne = 8,51
  0                                                             N = 261,00
       6,25    6,75   7,25   7,75   8,25   8,75   9,25   9,75


      AGE (X3)

Histogramme des effectifs absolus cumulés croissants de la variable Age (X3)




Détermination de la médiane par interpolation linéaire à partir des effectifs absolus
cumulés croissants

                                   Me  7,5   25  24
              On applique Thalès : 8  7,5 = 30  24
                                 Me – 7,5 = 1/6  0,5
                                 Me = 0,5/6 + 7,5 = 7,6

On peut faire la même chose avec un polygone des effectifs relatifs cumulés
décroissants ; cette fois, on place 50 (50% moitié des effectifs) et on cherche l’abscisse
correspondant.
Khalil F( TD-TP )                                                   1999-2000



On peut faire également la même chose avec un polygone des effectifs cumulés
décroissants (absolus ou relatifs). On place 7,5 et 8 sur l’axe des abscisses, et 26 et 20 sur
l’axe des ordonnées. On place 25 et on cherche l’abscisse correspondant), mais attention
à Thalès (sens différent)

  60



  50



  40



  30



  20



  10                                                            Sigma = ,85
                                                                Moyenne = 7,20
  0                                                             N = 189,00
        6,25   6,75   7,25   7,75   8,25   8,75   9,25   9,75


       AGE (X3)


Histogramme des effectifs absolus décroissants de la variable Age (X3)




Détermination de la médiane par interpolation linéaire à partir des effectifs absolus
cumulés décroissants

                                            Me  7,5 25  26
                                            8  7,5 = 20  26
                                           Me – 7,5 = -1/-6  0,5
                                           Me = 0,5/6 + 7,5 = 7,6
Khalil F( TD-TP )                              1999-2000

La médiane partage l’histogramme en deux surfaces égales.


   3. Les quantiles

C’est la même idée que la médiane : on cherche ou on définit une valeur de la variable
telle que cette valeur partage la série statistique en n sous-ensembles égaux ; si on veut
partager la série en 4 sous-ensembles égaux, on parlera de quartiles, 10 sous-ensembles
égaux de déciles, et 100 sous-ensembles égaux de centiles.
De façon générale, on appelle fractile d’ordre , la valeur (f) telle que % de la
population présente une valeur inférieure à f. (exemple : f0,82 est la valeur telle que 82%
de la population présente une valeur inférieure à f0,82).

       3.1. Les quartiles

Ce sont les valeurs qui partagent la série en 4 sous-ensembles de données ; on les note
q1, q2 et q3. On les détermine de la même façon que la médiane ; on calcule les effectifs
relatifs ou absolus cumulés croissants, on repère les valeurs 25%, 50% et 75% ou ¼ N, ½
N et ¾ N (q2 est la médiane).
On appelle intervalle interquartile q3 – q1 ; il contient 50% des observations.


        25%                    25%                       25%               25%
                    Q1                       Q2                   Q3
                    ¼N                       ½N                   ¾N                  N


Exemple sur X3 (âge) :

       X3            ni       fi      ni         ni      fi    fi 

     [6 ; 6.5[       8       16        8          50        16    100
     [6.5 ; 7[       7       14        15         42        30     84
     [7 ; 7.5[       9       18        24         35        48     70
     [7.5 ; 8[       6       12        30         26        60     52
     [8 ; 8.5[       11      22        41         20        82     40
     [8.5 ; 9[       3        6        44         9         88     18
     [9 ; 9.5[       5       10        49         6         98     12
    [9.5 ; 10[       1        2        50         1        100     2
                    50      100       /          /         /      /

Q1 :   on cherche 25% dans les fi↑
       La classe contenant 25% est [6,5 ; 7[
Khalil F( TD-TP )                             1999-2000

       On associe 16% à 6,5 et 30% à 7




Q1  6,5 25  16
                 Q1  6,82
7  6,5 30  16

Q3 :   on cherche 75% dans les fi↑
       La classe contenant 75% est [8 ; 8,5[
       On associe 16% à 6,5 et 30% à 7



Q3  8 75  60
                Q3  8,34
8,5  8 82  60


       3.2. Les déciles

 Ils sont au nombre de 9 : d1, d2, ..., d9. Ils partagent la série en 10 sous-ensembles égaux
contenant chacun 10% de la population. L’intervalle d9 – d1 est l’intervalle interdécile et
il contient 80% des observations. d5 est la médiane.

10%     10%         10%     10%        10%     10%        10%    10%     10%       10%
       d1       d2         d3     d4         d5      d6         d7     d8       d9


       3.3. Les centiles

Ils sont au nombre de 99 et partagent la série en 100 sous-ensembles égaux contenant
chacun 1% de la population. L’intervalle intercentile est c99-c1 et il contient 98% de la
population. c50 est la médiane, c10 est d1, c25 est q1.


       3.4. Exemple de calcul d’un fractile

On veut calculer f0,85 de la série X3 (âge), c’est-à-dire la valeur de X3 (l’âge) telle que 85%
de la population ait un âge strictement inférieur à cette valeur.
Classe concernée par l’interpolation linéaire : 8,5 ; 9 abscisses ; ordonnées : 82 et 88
Khalil F( TD-TP )                                       1999-2000



 f 0,85  8,5            85  82
                                 f 0,85  8,75
    9  8,5              88  82


     4. La moyenne

     4.1. Définitions

    La moyenne arithmétique d’une série statistique Xi est égale au rapport de la somme
     des valeurs observées par le nombre d’observations (N). On lit x barre.

               n
    1
x = n
             i 1       xi

Exemple : série de notes obtenues par 20 étudiants

{9, 12, 13, 5, 3, 8, 14, 17, 9, 12, 11, 15, 18, 9, 8, 13, 2, 5, 9, 18}

    1
x = 20  (9 + 12 + 13 + ..... + 9 + 18) = 10,5

    On dit qu’une moyenne est pondérée lorsqu’il existe plusieurs observations pour toutes
     ou certaines valeurs de xi.




     4.2. Cas des variables ordinales

Exemple de la même série de notes mais présentée dans un tableau statistique

      xi                      ni       nix i       fi         fix i
Khalil F( TD-TP )                               1999-2000


   2                 1       2             0.05          0.1
   3                 1       3             0.05         0.15
   5                 2      10             0.1           0.5
   8                 2      16             0.1           0.8
   9                 4      36             0.2           1.8
   11                1      11             0.05         0.55
   12                2      24             0.1           1.2
   13                2      26             0.1           1.3
   14                1      14             0.05          0.7
   15                1      15             0.05         0.75
   17                1      17             0.05         0.85
   18                2      36             0.1           1.8
                    20     210             1           10.5


    n1x1  n 2 x 2  ......  npxp   2  3  10  ......  17  36   210
x =     n1  n 2  .....  np      =             20                = 20 = 10.5

       nixi
x =    ni
On observe également que la moyenne est égale à la somme du produit des valeurs de
la variable par leurs fréquences relatives :
        k


x =
      
      i 1   fix i


        4.3. Cas d’une variable d’intervalle

On est obligé de définir quelle est la valeur de xi : c’est le centre de la classe.




Exemple de âge (X3)
Khalil F( TD-TP )                           1999-2000



         X3            xi      ni   nix i       fi (%)   fi(%)xi    fi    f ix i

       [6 ; 6.5[      6.25     8     50           16      100      0.16     1
       [6.5 ; 7[      6.75     7    47.25         14     94.5      0.14   0.945
       [7 ; 7.5[      7.25     9    65.25         18     130.5     0.18   1.305
       [7.5 ; 8[      7.75     6    46.5          12       93      0.12   0.93
       [8 ; 8.5[      8.25     11   90.75         22     181.5     0.22   1.815
       [8.5 ; 9[      8.75     3    26.25         6      52.5      0.06   0.525
       [9 ; 9.5[      9.25     5    46.25         10     92.5      0.10   0.925
      [9.5 ; 10[      9.75     1    9.75          2      19.5      0.02   0.195
                      /       50    382         100      764       1     7.64

        nixi      382
x =     ni =      50 = 7.64

L’âge moyen des enfants est donc de 7.64 ans.


   5. Relation entre mode, médiane et moyenne

Pour une courbe unimodale, modérément asymétrique, on a la relation suivante :

m - mo = 3 ( m - Mé)
Khalil F( TD-TP )                                                                         1999-2000




                                                                            CHAPITRE CINQ

                                                LES CARACTERISTIQUES DE DISPERSION



Les paramètres de tendance centrale sont utiles mais insuffisants pour décrire une
population.

Exemple :                          on observe les diagrammes en bâtons des deux séries X et Y
                                   (1,5) (2,5) (3,9) (4,5) (5,2) (6,9) (7,4) (8,6) (9,5) x = 4.94 N=50

              (1,8) (2,7) (3,4) (4,8) (5,1) (6,2) (7,3) (8,10) (9,7) y = 4,94 N=50
Elles ont la même moyenne mais présentent des distributions différentes ; on est donc
amené à mesurer leur dispersion afin de mieux caractériser ces deux séries.


                  10                                                                              12



                                                                                                  10
                   8


                                                                                                   8
                   6

                                                                                                   6

                   4

                                                                                                   4
    Occurrences




                                                                                    Occurrences




                   2
                                                                                                   2



                   0                                                                               0
                   1,00    2,00   3,00   4,00   5,00   6,00   7,00   8,00    9,00                  1,00    2,00   3,00   4,00   5,00   6,00   7,00   8,00   9,00


                       VAR00001                                                                        VAR00002




                  1. Définitions

                 L’étendue est la différence entre la plus grande valeur et la plus petite valeur prises
                  par la variable ; cette quantité est indépendante de la façon dont sont distribuées les
                  valeurs dans la série.

Exemple :                          étendue de x = 9 – 1 = 8
                                   étendue de y = 9 – 1 = 8

                 L’écart absolu moyen est la moyenne des valeurs absolues des écarts à la moyenne.
Khalil F( TD-TP )                                  1999-2000



                       ni xi  x
                e=       ni
                     5  1  4.94  5  2  4.94  ......  6  8  4.94  5  9  4.94
Exemple :       ex =                                50                                  = 2.57

                     8  1  4.94  7  2  4.94  ......  10  8  4.94  7  9  4.94
                ey =                                 50                                  = 2.97


La fonction valeur absolue n’étant pas très manipulable en mathématiques, on a préféré
la variance.

   La variance est la moyenne des carrés des écarts à la moyenne ou écart quadratique
    moyen.


              nixi  x 
                              2




    VarX =        ni

    L’écart-type est la racine carrée de la variance :            = VarX

    Exemple :           VarX = 6.60                      x = 2.57
                        VarY = 8.82                      y = 2.97


    2. Calcul de la variance et de l’écart type suivant la définition

Dans le tableau statistique, on a donc besoin d’une colonne xi - x , d’une colonne (xi -
x )² et d’une colonne ni (xi - x )² en plus de celle nécessaire pour calculer la moyenne.

Exemple : soit 27 enfants dont on relève le QI

Classes         xi      ni        ni.xi xi - x    (xi - x )² ni .(xi - x )²

[65 ; 75[       70      1         70    -39.26    1541.35      1541.35
[75 ; 85[       80      2         160   -29.26    856.15       1712.30
[85 ; 95[       90      3         270   -19.26    370.95       1112.84
[95 ; 105[      100     6         600   -9.26     85.75        514.49
Khalil F( TD-TP )                                   1999-2000


[105 ; 115[   110     5          550    .74     .55          2.74
[115 ; 125[   120     4          480    10.74   115.35       461.39
[125 ;135[    130     3          390    20.74   430.15       1290.44
[135 ; 145[   140     2          280    30.74   944.95       1889.90
[145 ; 155[   150     1          150    40.74   1659.75      1659.75
                     27         2950   /       /            10185.20


x = 2950/27 = 109.26
VarX = 10185.20/27 = 377.23
 = 19.42


   3. Autre méthode de calcul de la variance et de l’écart type

                             nixi²   nixi 
                                            
                                                      2


On montre que Var X =         ni -   ni 
                                    
                                             


          nixi  x 
                       2




VarX   =      ni                   (rappel : (a+b)² = a² + 2ab + b²)
          nixi²   ni2 xi x   ni x ²      nixi
       =                ni              or 
                                                 ni
                                                     = x

            nixi²                ni x²
       =    ni -    x .2. x +    ni                     x (et   x ²) étant une constante dans
l’équation,
            nixi²                ni
       =     ni - x .2. x + x ²  ni
            nixi²
       =     ni - x .2. x + x ².1
            nixi²
       =     ni - 2 x ² + x ²
            nixi²                                   nixi²   nixi 
                                                                    
                                                                         2


       =     ni - x ² ou encore                =    ni -   ni 
                                                                    
Khalil F( TD-TP )                                1999-2000

Exemple : soit 27 enfants dont on relève le QI

classes       xi     ni     ni.xi ni.xi²

[65 ; 75[     70     1      70       4900
[75 ; 85[     80     2      160      12800
[85 ; 95[     90     3      270      24300
[95 ; 105[    100    6      600      60000
[105 ; 115[   110    5      550      60500
[115 ; 125[   120    4      480      57600
[125 ;135[    130    3      390      50700
[135 ; 145[   140    2      280      39200
[145 ; 155[   150    1      150      22500
                    27     2950     332500



        332500  2950       2
                    
VarX = 27       27             = 377.23
 = 19.42


   4. Caractéristiques des paramètres de dispersion

Pour une courbe symétrique et unimodale, proche d’une courbe de type courbe de
Gauss, l’écart type correspond à la distance qui sépare le point d’inflexion de la courbe
de l’axe de symétrie. Le point d’inflexion est le point d’inversion du sens de la courbure,
celui où la tangente d’intérieure devient extérieure.
Khalil F( TD-TP )                          1999-2000




   La « preuve des 3 écarts-types »

Pour une courbe proche d’une courbe gaussienne et si l’écart-type est correctement
calculé, pratiquement toutes les valeurs de la distribution doivent se trouver entre : m -
3 et m + 3.

Exemple précédent :

 = 19.42             m = 109.29   m + 3 = 167.55 et m - 3 = 51.03

Contenu connexe

Tendances

S1 mq i - statistique descriptive i - résumés des chapitres
S1   mq i - statistique descriptive i - résumés des chapitresS1   mq i - statistique descriptive i - résumés des chapitres
S1 mq i - statistique descriptive i - résumés des chapitres
Abdeslam ELMOUDEN
 
Cours stat. achrit tsge1
Cours stat. achrit tsge1Cours stat. achrit tsge1
Cours stat. achrit tsge1
Ma Ac
 
Presentation stat desc
Presentation stat descPresentation stat desc
Presentation stat desc
hassan1488
 
M1 l3-econom etrie-serie-corrigee-n-1-modeles-econometriques-a-un
M1 l3-econom etrie-serie-corrigee-n-1-modeles-econometriques-a-unM1 l3-econom etrie-serie-corrigee-n-1-modeles-econometriques-a-un
M1 l3-econom etrie-serie-corrigee-n-1-modeles-econometriques-a-un
mohamedchaouche
 
M1 l3-econom etrie-serien-2-reg-lin-mult
M1 l3-econom etrie-serien-2-reg-lin-multM1 l3-econom etrie-serien-2-reg-lin-mult
M1 l3-econom etrie-serien-2-reg-lin-mult
mohamedchaouche
 
Statistique descriptives1 et_s2_www.facainsebaa.net
Statistique descriptives1 et_s2_www.facainsebaa.netStatistique descriptives1 et_s2_www.facainsebaa.net
Statistique descriptives1 et_s2_www.facainsebaa.net
jamalgfgf
 
Statistique descriptive
Statistique descriptiveStatistique descriptive
Statistique descriptive
eninioo
 
Introduction a l'econometrie luxembourg 2008 2009
Introduction a l'econometrie luxembourg 2008 2009Introduction a l'econometrie luxembourg 2008 2009
Introduction a l'econometrie luxembourg 2008 2009
mohamedchaouche
 

Tendances (17)

statistique dsc s1
   statistique dsc s1   statistique dsc s1
statistique dsc s1
 
Cours Statistique descriptive pr Falloul
Cours Statistique descriptive pr FalloulCours Statistique descriptive pr Falloul
Cours Statistique descriptive pr Falloul
 
S1 mq i - statistique descriptive i - résumés des chapitres
S1   mq i - statistique descriptive i - résumés des chapitresS1   mq i - statistique descriptive i - résumés des chapitres
S1 mq i - statistique descriptive i - résumés des chapitres
 
Cours stat. achrit tsge1
Cours stat. achrit tsge1Cours stat. achrit tsge1
Cours stat. achrit tsge1
 
Statistiques descriptives
Statistiques descriptivesStatistiques descriptives
Statistiques descriptives
 
Ch1 statistique v
Ch1 statistique vCh1 statistique v
Ch1 statistique v
 
Statistique descriptive ch1
Statistique descriptive ch1Statistique descriptive ch1
Statistique descriptive ch1
 
Stat1
Stat1Stat1
Stat1
 
Presentation stat desc
Presentation stat descPresentation stat desc
Presentation stat desc
 
M1 l3-econom etrie-serie-corrigee-n-1-modeles-econometriques-a-un
M1 l3-econom etrie-serie-corrigee-n-1-modeles-econometriques-a-unM1 l3-econom etrie-serie-corrigee-n-1-modeles-econometriques-a-un
M1 l3-econom etrie-serie-corrigee-n-1-modeles-econometriques-a-un
 
Inégalités d’opportunités sur le marché du travail, emploi et mobilité profes...
Inégalités d’opportunités sur le marché du travail, emploi et mobilité profes...Inégalités d’opportunités sur le marché du travail, emploi et mobilité profes...
Inégalités d’opportunités sur le marché du travail, emploi et mobilité profes...
 
M1 l3-econom etrie-serien-2-reg-lin-mult
M1 l3-econom etrie-serien-2-reg-lin-multM1 l3-econom etrie-serien-2-reg-lin-mult
M1 l3-econom etrie-serien-2-reg-lin-mult
 
Statistique descriptives1 et_s2_www.facainsebaa.net
Statistique descriptives1 et_s2_www.facainsebaa.netStatistique descriptives1 et_s2_www.facainsebaa.net
Statistique descriptives1 et_s2_www.facainsebaa.net
 
Statistiques- S2
Statistiques- S2Statistiques- S2
Statistiques- S2
 
Statistique descriptive
Statistique descriptiveStatistique descriptive
Statistique descriptive
 
Statistiques s2
Statistiques s2Statistiques s2
Statistiques s2
 
Introduction a l'econometrie luxembourg 2008 2009
Introduction a l'econometrie luxembourg 2008 2009Introduction a l'econometrie luxembourg 2008 2009
Introduction a l'econometrie luxembourg 2008 2009
 

Similaire à Statistique Descriptive

Statistiques descriptives [PDF].pptx
Statistiques descriptives [PDF].pptxStatistiques descriptives [PDF].pptx
Statistiques descriptives [PDF].pptx
TarekDHAHRI1
 
Statistiquess2 111117154933-phpapp01
Statistiquess2 111117154933-phpapp01Statistiquess2 111117154933-phpapp01
Statistiquess2 111117154933-phpapp01
printif
 
cupdf.com_la-statistique-descriptive.ppt
cupdf.com_la-statistique-descriptive.pptcupdf.com_la-statistique-descriptive.ppt
cupdf.com_la-statistique-descriptive.ppt
TarekDHAHRI3
 
Analyse factorielle des_correspondances-afc
Analyse factorielle des_correspondances-afcAnalyse factorielle des_correspondances-afc
Analyse factorielle des_correspondances-afc
Rémi Bachelet
 
Chapitre 1 et 2 [Enregistrement automatique].pptx
Chapitre 1 et 2 [Enregistrement automatique].pptxChapitre 1 et 2 [Enregistrement automatique].pptx
Chapitre 1 et 2 [Enregistrement automatique].pptx
dalaamaima
 
Poly td2009s1
Poly td2009s1Poly td2009s1
Poly td2009s1
JAZAY
 

Similaire à Statistique Descriptive (20)

9b567ad91347677ab6736e76a4115c80 statistique
9b567ad91347677ab6736e76a4115c80 statistique9b567ad91347677ab6736e76a4115c80 statistique
9b567ad91347677ab6736e76a4115c80 statistique
 
14284 chapitre-8-statistique
14284 chapitre-8-statistique14284 chapitre-8-statistique
14284 chapitre-8-statistique
 
STATISTIQUE-Cours
STATISTIQUE-CoursSTATISTIQUE-Cours
STATISTIQUE-Cours
 
Controle de gestion
Controle de gestionControle de gestion
Controle de gestion
 
Statistiques descriptives [PDF].pptx
Statistiques descriptives [PDF].pptxStatistiques descriptives [PDF].pptx
Statistiques descriptives [PDF].pptx
 
Statistiques descriptives [PDF].pptx
Statistiques descriptives [PDF].pptxStatistiques descriptives [PDF].pptx
Statistiques descriptives [PDF].pptx
 
Statistiquess2 111117154933-phpapp01
Statistiquess2 111117154933-phpapp01Statistiquess2 111117154933-phpapp01
Statistiquess2 111117154933-phpapp01
 
7490_chap02.pdf
7490_chap02.pdf7490_chap02.pdf
7490_chap02.pdf
 
cupdf.com_la-statistique-descriptive.ppt
cupdf.com_la-statistique-descriptive.pptcupdf.com_la-statistique-descriptive.ppt
cupdf.com_la-statistique-descriptive.ppt
 
Analyse factorielle des_correspondances-afc
Analyse factorielle des_correspondances-afcAnalyse factorielle des_correspondances-afc
Analyse factorielle des_correspondances-afc
 
Chapitre 1 et 2 [Enregistrement automatique].pptx
Chapitre 1 et 2 [Enregistrement automatique].pptxChapitre 1 et 2 [Enregistrement automatique].pptx
Chapitre 1 et 2 [Enregistrement automatique].pptx
 
Examen Master CCV : Méthode et Plan d'Expériences
Examen Master CCV : Méthode et Plan d'ExpériencesExamen Master CCV : Méthode et Plan d'Expériences
Examen Master CCV : Méthode et Plan d'Expériences
 
6 sigma -chapitre4 : Analyser
6 sigma -chapitre4 : Analyser6 sigma -chapitre4 : Analyser
6 sigma -chapitre4 : Analyser
 
Cours masterlyon
Cours masterlyonCours masterlyon
Cours masterlyon
 
Poly td2009s1
Poly td2009s1Poly td2009s1
Poly td2009s1
 
Mettre obligatoirement le titre de la leçon ici
Mettre obligatoirement le titre de la leçon iciMettre obligatoirement le titre de la leçon ici
Mettre obligatoirement le titre de la leçon ici
 
Questionnaire sous spss
Questionnaire sous spssQuestionnaire sous spss
Questionnaire sous spss
 
pmi définition variance
pmi définition variancepmi définition variance
pmi définition variance
 
Statistique descriptives s1 de bien www.learneconomie.blogspot.com]
Statistique descriptives  s1 de bien www.learneconomie.blogspot.com]Statistique descriptives  s1 de bien www.learneconomie.blogspot.com]
Statistique descriptives s1 de bien www.learneconomie.blogspot.com]
 
Traitements statistiques de description
Traitements statistiques de descriptionTraitements statistiques de description
Traitements statistiques de description
 

Plus de bacplus (11)

Avis Des Filires 2011
Avis Des Filires 2011Avis Des Filires 2011
Avis Des Filires 2011
 
Filiere T S I
Filiere  T S IFiliere  T S I
Filiere T S I
 
Filiere P S I
Filiere  P S IFiliere  P S I
Filiere P S I
 
Filiere M P
Filiere  M PFiliere  M P
Filiere M P
 
CPGE-Filiere B C P S T
CPGE-Filiere  B C P S TCPGE-Filiere  B C P S T
CPGE-Filiere B C P S T
 
Extrait De La Fiche AnthropoméTrique
Extrait De La Fiche AnthropoméTriqueExtrait De La Fiche AnthropoméTrique
Extrait De La Fiche AnthropoméTrique
 
Mawa9i3 Mohima 2 B A C
Mawa9i3 Mohima 2 B A CMawa9i3 Mohima 2 B A C
Mawa9i3 Mohima 2 B A C
 
Pub
PubPub
Pub
 
Statistique Descriptive
Statistique DescriptiveStatistique Descriptive
Statistique Descriptive
 
Cours Techniques Vente
Cours Techniques VenteCours Techniques Vente
Cours Techniques Vente
 
Moussem Imilchil
Moussem ImilchilMoussem Imilchil
Moussem Imilchil
 

Statistique Descriptive

  • 1. Khalil F( TD-TP ) 1999-2000 CHAPITRE 1 I) LES STATISTIQUES EN SCIENCES HUMAINES 1. Définitions On donne plusieurs définitions de « la statistique » (Howell) : 1 c’est l’étude des ensembles numériques et de leurs relations ; 2 c’est également le moyen d’obtenir des indications probables sur des ensembles imparfaitement connus ; La statistique est une méthode pour effectuer la synthèse de ces données. Elle met en œuvre plusieurs « statistiques » caractérisant et résumant les données. La moyenne fait partie des statistiques, comme l’écart type, la variance, etc. On appelle population un ensemble d’objets ou d’êtres sur lesquels on étudie une ou plusieurs caractéristiques ; chaque élément de cette population est appelé individu statistique. On s’intéresse, à propos de chaque individu, à une ou à plusieurs caractéristiques, que l’on appelle caractères ou variables statistiques. L’échantillon est un sous-ensemble de la population de référence. Quand on travaille uniquement sur les caractéristiques de l’échantillon, quand on utilise les statistiques pour décrire la nature de l’échantillon, on se situe dans le cadre des statistiques descriptives. Quand on utilise les paramètres, les caractéristiques de l’échantillon pour estimer ceux de la population dont il est extrait, on se situe dans le cadre des statistiques inférentielles. 2. L’utilisation des statistiques en sciences humaines 2.1. La variabilité des conduites Expériences de mesure des temps de réaction tableau des temps de réaction en centièmes de seconde pour 20 présentations successives d’un stimulus (d’après Reuchlin, 1998, Précis de statistique, PUF, p.21) N° d’ordre des 20 présentations du 1 2 3 4 5 6 7 8 9 10 11 12 stimulus 1ère expérience : lampe rouge 20 15 18 25 17 32 18 17 19 23 19 21
  • 2. Khalil F( TD-TP ) 1999-2000 seule 2ème expérience : lampe rouge 32 40 33 37 35 29 42 62 50 39 45 47 choisie parmi trois lampes de couleurs différentes 3ème expérience : lampe verte 16 18 19 18 15 18 17 32 23 19 23 20 seule N° d’ordre des 20 présentations du 13 14 15 16 17 18 19 20 Moyenne des 20 stimulus temps 1ère expérience : lampe rouge 15 22 17 17 21 19 17 23 m1 = 19.75 seule 2ème expérience : lampe rouge 52 37 38 39 40 41 42 39 m2 = 40.95 choisie parmi trois lampes de couleurs différentes 3ème expérience : lampe verte 18 25 15 15 17 23 17 19 m3 = 19.35 seule 2.2. Exemples d’applications statistiques en psychologie
  • 3. Khalil F( TD-TP ) 1999-2000 CHAPITRE 2 VARIABLES, NIVEAUX DE MESURE ET TABLEAU STATISTIQUE 1. Variables qualitatives et variables quantitatives On distingue les variables qualitatives et les variables quantitatives. Une variable qualitative désigne une qualité de l’individu statistique ; chaque observation appartient à une catégorie, à une modalité (exemple : couleur des cheveux, sexe, situation géographique, catégorie socio-professionnelle, évaluation d’une copie avec A, B, C ou TB, B, …,). Même si on code ensuite A= 1, B=2, etc, le nombre n’exprime pas une quantité mais une qualité. Une variable quantitative est caractérisée par une quantité numérique (durée, une note, âge, …) ; elle résulte d’un dénombrement ou d’une mesure. Une variable quantitative est continue, si elle peut prendre n’importe quelle valeur sur le continuum considéré (le temps, la taille, le poids, une note sur 20 si on observe des valeurs de 13.452, un score qui varie de 0 à 100). Elle est dite discontinue ou discrète, si elle ne prend que certaines valeurs (le nombre de pièces d’un logement, le nombre d’enfants – on ne peut pas avoir 2.5 enfants pour un sujet). 2. Les échelles de mesure Une autre façon d’appréhender les variables est celle qui consiste à distinguer les niveaux de mesure ou échelles de mesure. On distingue ainsi les échelles nominales (variables nominales), les échelles ordinales (variables ordinales) et les échelles par intervalle (variables d’intervalle). Les relations existant entre les éléments ayant des valeurs différentes sur l’échelle ne sont pas les mêmes selon que l’on se situe sur une échelle nominale, ordinale ou d’intervalle. Les échelles nominales Pour construire une échelle nominale, il faut répartir les observations dans un certain nombre de classes que l’on appelle « l’échelle ». Les caractéristiques des échelles nominales sont les suivantes :  les classes sont définies a priori par le psychologue ;
  • 4. Khalil F( TD-TP ) 1999-2000  chaque observation doit appartenir à une seule classe ;  si 2 observations sont dans la même classe, elles sont considérées comme étant équivalentes. Si on attribue des numéros aux classes, ceux-ci n’ont pas de valeur numérique, c’est juste un moyen de les distinguer, de les nommer. Ils n’ont pas d’autre sens que celui d’être identiques ou différents ; par exemple, au lieu d’appeler des classes A, B et C, on peut les appeler 1, 2 et 3 ou encore 13, 7 et 45. Exemple d’échelle nominale : le test du Rorschach Ce test utilise 10 planches composées de taches d’encre symétriques, certaines noires, d’autres colorées. Elles sont présentées successivement au sujet qui doit décrire « tout ce qu’on pourrait y voir ». Chaque réponse est notée 3 fois, en fonction de sa localisation, de sont déterminant, et de son contenu. Chacune de ces notations se fait sur une échelle nominale :  l’échelle ‘localisation’ est constituée de classes comme  réponses globales (toute la planche) : G  réponses grand détail (découpes fréquemment interprétées dans chaque planche) : D  réponses petit détail : Dt  réponses détail dans le blanc : Dbl, etc…  l’échelle ‘déterminant’ distingue  les réponses formes : F  les réponses mouvement : K  les réponses couleur : C, etc…  l’échelle ‘contenu’ distingue  les réponses humaines  les réponses animaux, etc Autre exemple d’échelle nominale : le code des catégories socio-professionnelles de l’INSEE 0 : agriculteurs 1 : salariés agricoles 2 : patrons de l’industrie et du commerce 3 : professions libérales et cadres supérieurs C’est un exemple des catégories les plus générales ; cette échelle est en fait divisée en classes plus fines, chaque catégorie étant elle-même détaillée : 21 : industriels employant plus de 5 salariés 22 : artisans employant 5 ouvriers au plus 23 : patrons pêcheurs
  • 5. Khalil F( TD-TP ) 1999-2000 24 : gros commerçants 25 etc. Les échelles ordinales Le psychologue définit une relation d’ordre entre les observations (ou entre les catégories d’observations) et l’ensemble des observations ainsi ordonnées constitue une échelle ordinale. Les nombres qui désignent les observations ou les catégories d’observations ont déjà la propriété de ceux qui désignent les observations dans le cas d’une échelle nominale : ce sont des symboles, c’est une façon de distinguer les catégories. Mais dans le cas d’une échelle ordinale, ils ont la propriété supplémentaire d’être des symboles ordonnés. Exemple de construction d’une échelle ordinale : l’échelle de Longeot configuration Q1 Q2 Q3 note 1 0 0 0 0 2 1 0 0 1 3 1 1 0 2 4 1 1 1 3 On fait passer le test à une population de 35 enfants; on obtient les résultats suivants : Note Effectifs effectifs cumulés 0 (000) 5 5 1 (100) 12 17 2 (110) 15 32 3 (111) 3 35 Exemples d’échelles ordinales : les niveaux scolaires, le score d’anxiété, les notes (y compris les scores bruts des tests d’aptitude ou des questionnaires de personnalité), les préférences et les opinions (beaucoup – assez - moyennement – peu - pas du tout ; très souvent – assez souvent – de temps en temps – rarement – jamais ; … ) Les échelles d’intervalles Dans une échelle d’intervalles, les observations se répartissent dans des classes qui sont des intervalles ordonnés et réguliers. Les nombres qui définissent les échelles d’intervalles prennent tout leur sens. On peut parler de différences entre les points de l’échelle. Exemple des temps de réaction moyens de 200 sujets aux 20 présentations de la lampe
  • 6. Khalil F( TD-TP ) 1999-2000 rouge On a le tableau descriptif suivant : sujet moyenne des 20 temps n° (centièmes de seconde) 1 25.02 2 65.51 3 19.96 ….. 54.30 ….. …. 200 34.72 M Effectifs effectifs pourcentages de sujet pourcentages cumulés cumulés [10, 20[ 24 24 12 12 [20, 30[ 40 64 20 32 [30, 40[ 52 116 26 58 [40, 50[ 50 166 25 82 [50, 60[ 18 184 9 92 [60, 70[ 16 200 8 100 3. Les tableaux statistiques et les effectifs Il existe des conventions pour désigner les variables, les effectifs, les sommes, etc. Exemple : nous disposons des scores au test opératoire de Longeot de 50 enfants, d’âge différent (entre 6 et 10 ans) et provenant d’écoles différentes. Sujet n° Ecole Test Longeot Age 1 A 2 7 ans 3 mois 2 B 3 9 ans 1 mois 3 A 0 6 ans 8mois 4 D 2 8 ans 5 mois 5 C 1 6 ans 10 mois ….. … ….. … 50 C 1 7 ans 11 mois  La population est l’ensemble des 50 sujets.
  • 7. Khalil F( TD-TP ) 1999-2000  Les variables (X) sont :  X1 ‘école’, variable nominale, modalités A, B, C et D  X2 ‘Test Longeot’, variable ordinale, modalités 0, 1, 2, 3  X3 ‘âge’, variable d’intervalle On peut élaborer 3 tableaux statistiques : Ecole (X1) X1 ni fi A 12 24 B 11 22 C 20 40 D 7 14  50 100  ni est l’effectif absolu d’une valeur prise par la variable ; c’est le nombre d’occurrences du caractère dans la population étudiée ; la somme de l’effectif total est N.  fi est l’effectif relatif ; c’est le rapport de l’effectif absolu sur l’effectif total ; il est le plus souvent donné en pourcentages, et est aussi appelé fréquence. fi = ni / N N =  ni Test Longeot (X2) X2 ni fi ni  ni  fi  fi  0 (000) 5 10 5 50 10 100 1 (100) 18 36 23 45 46 90 2 (110) 13 26 36 27 72 54 3 (111) 14 28 50 14 100 28  50 100 / / / /  l’effectif absolu cumulé croissant (ni ) de la valeur xj = ni de i=1 à i=j (dernière valeur)  l’effectif absolu cumulé décroissant (ni ) de la valeur xj = ni de i=j (valeur de ‘départ’) à i=k (dernière modalité)
  • 8. Khalil F( TD-TP ) 1999-2000  l’effectif relatif cumulé croissant (fi ) de la valeur xj =  fi de i=1 à i=j  l’effectif relatif cumulé décroissant (fi ) de la valeur xj =  fi de i=j à i=k Age (X3) X3 ni fi ni  ni  fi  fi  [6 ; 6.5[ 8 16 8 50 16 100 [6.5 ; 7[ 7 14 15 42 30 84 [7 ; 7.5[ 9 18 24 35 48 70 [7.5 ; 8[ 6 12 30 26 60 52 [8 ; 8.5[ 11 22 41 20 82 40 [8.5 ; 9[ 3 6 44 9 88 18 [9 ; 9.5[ 5 10 49 6 98 12 [9.5 ; 10[ 1 2 50 1 100 2  50 100 / / / / CHAPITRE 3 LES REPRESENTATIONS GRAPHIQUES 1. Les représentations graphiques en fonction du type de variables Variables nominales On réalise un diagramme à secteurs circulaires (camembert); ce diagramme repose sur la représentation des fractions de chacune des valeurs (ou des fréquences) prises par la variable. Les aires des secteurs sont proportionnelles aux effectifs.
  • 9. Khalil F( TD-TP ) 1999-2000 ECOLE (X1) ECOLE (X1) D D 7,00 A 14,0% A 12,00 24,0% C C B B 20,00 40,0% 11,00 22,0% Exemples de diagramme circulaire simple des effectifs de la variable Ecole (X1) (avec les valeurs ou les pourcentages –effectifs absolus ou relatifs) ECOLE (X1) D 14,0% A 24,0% C B 40,0% 22,0% Diagramme circulaire éclaté avec pourcentage de la variable X1 A (12) B (11) C (20) D (7) Diagramme en barre des fréquences de la variable X1 1.2. Variables ordinales On les représente à l’aide d’un diagramme en bâtons ; on reporte sur une ligne horizontale toutes les modalités de la variable étudiée en notant sous cette ligne le nom de chaque modalité ; les modalités doivent être présentées dans l’ordre croissant de gauche à droite. Puis on trace un bâton vertical au dessus de chaque modalité dont la hauteur correspond à leur effectif ; la taille des bâtons est fonction de l’échelle choisie présentée sur la gauche du graphique par un axe vertical. Il est possible de préciser les effectifs au dessus des bâtons. Le polygone statistique représente l’allure générale de la distribution ; il est réalisé en
  • 10. Khalil F( TD-TP ) 1999-2000 reliant les sommets des bâtons ; il n’est pas nécessaire de représenter les bâtons. Diagramme en bâtons de la variable Test de Longeot Diagramme en bâtons et polygone statistique de la variable Test de Longeot 20 20 18 18 18 18 16 16 14 14 14 14 13 12 13 12 10 10 8 8 Occurrences Occurrences 6 6 5 5 4 4 2 2 OOO (O) 1OO (1) 110 (2) 111 (3) OOO (O) 1OO (1) 110 (2) 111 (3) Score test Longeot Score test Longeot Exemples de diagramme en bâtons des effectifs absolus de la variable Test Longeot (sur SPSS) 1.3. Variables d’intervalles La représentation graphique pour ce type de variables est l’histogramme ; on utilise la même procédure que pour les diagrammes en bâtons, mais en élargissant les bâtons sur l’intervalle de chaque modalité. La surface des rectangles ainsi obtenus est proportionnelle aux effectifs de chaque modalité de la variable étudiée. Les rectangles se touchent car la variable est continue.
  • 11. Khalil F( TD-TP ) 1999-2000 12 10 8 6 4 2 Sigma = ,99 Moyenne = 7,64 0 N = 50,00 6,25 6,75 7,25 7,75 8,25 8,75 9,25 9,75 AGE (X3) Histogramme des effectifs absolus de la variable Age (X3) (sur SPSS) Le polygone statistique est la ligne brisée qui relie le centre des sommets des rectangles de l’histogramme. On peut utiliser le même type de graphique pour représenter les effectifs relatifs (même graphique mais en pourcentage) 1 Histogramme des effectifs croissants et décroissants : 60 50 40 30 20 10 Sigma = ,98 Moyenne = 8,51 0 N = 261,00 6,25 6,75 7,25 7,75 8,25 8,75 9,25 9,75 AGE (X3) Histogramme des effectifs absolus croissants de la variable Age (X3)(sur SPSS) Le polygone statistique des effectifs cumulés croissants (absolus ou relatifs) se construit en reliant les bornes supérieures des classes.
  • 12. Khalil F( TD-TP ) 1999-2000 60 50 40 30 20 10 Sigma = ,85 Moyenne = 7,20 0 N = 189,00 6,25 6,75 7,25 7,75 8,25 8,75 9,25 9,75 AGE (X3) Histogramme des effectifs absolus décroissants de la variable Age (X3)(sur SPSS) Le polygone statistique des effectifs cumulés décroissants en reliant les bornes inférieures des classes. 2. Autres types de représentations graphiques 2.1. Représentation en tiges et en feuilles Ce type de représentation (Turkey John, 1977) permet de travailler à partir des données brutes, sans les regrouper en intervalle. Prenons l’exemple des temps de réaction relatifs à la détection de la lampe rouge. Supposons que nous disposions des moyennes aux 20 présentations de 200 sujets. Nous pouvons élaborer le tableau suivant, qui est uniquement un extrait du tableau total. Données brutes Tiges Feuilles (centièmes de sec.) ……………………… 0 ……. ……………………… 1 ………… 20-20-21-21-21-22- 2 001112222234566669 22-22-22-22-23-24- 25-26-26-26-26-29 3 000123456666 30-30-30-31-32-33- 4 0333367799 34-35-36-36-36-36
  • 13. Khalil F( TD-TP ) 1999-2000 5 22888899 40-43-43-43-43-46- 47-47-49-49 6 52-52-58-58-58-58- 59-59 ……………………… Les chiffres des dizaines sont appelés chiffres principaux des scores (ou chiffres les plus significatifs): ils forment la tige (cela peut être les chiffres des centaines, cela dépend de la mesure et de sa précision ; par exemple si les données varient de 100 à 1000, les chiffres des centaines formeraient la tige, ceux des dizaines les feuilles et on ne tiendrait pas compte des unités) Les chiffres des unités sont les chiffres secondaires (ou chiffres les moins significatifs) : ils forment les feuilles. L’une des utilités supplémentaires de ce type de représentation est de pouvoir comparer deux distributions : on place alors les feuilles de part et d’autres des tiges. Exemple : on veut comparer les moyennes des temps de réaction de deux groupes de sujets, car on a posé l’hypothèse d’une différence entre ces deux groupes (l’âge). Tiges Sujets ‘âgés’ (de 41 à 60 ans)
  • 14. Khalil F( TD-TP ) 1999-2000 0 …… …………………… 1 888999 2 22233444556 3 112223344555788889 4 11115677788888999 5 223334444555689 6 555667 2.2. Le graphique séquentiel ou en continu On utilise ce type de graphique pour représenter principalement l’évolution d’une série chronologique (dans le temps). Exemple : fréquentation d’une station de ski en 1987-1988 mois par mois en milliers de sujets anné J F M A M J J A S O N D e 1987 11 10 9 9 2 1 7 9 10 3 1 10 1988 14 13 13 15 6 4 12 14 15 6 8 15
  • 15. Khalil F( TD-TP ) 1999-2000 16 14 12 10 8 milliers de touristes 6 4 2 1987 0 1988 jan fev mar avr mai juin juil aou sep oct nov dec mois de l'année 2.3. L’Echelonnement Multidimensionnel 2,0 os ferme herbe 1,5 carotte maïs 1,0 champignon mouton vache banane ,5 noisette chien lapin 0,0 souris -,5 forêt chapiteau de cirque de terre ver cerfaigle écureuil -1,0 Dimension 2 tigre singe éléphant -1,5 -2,0 -2 -1 0 1 2 Dimension 1 Représentation sur le plan 1/2 des liens entre les 23 items
  • 16. Khalil F( TD-TP ) 1999-2000 (stress = .16 ; RSQ = .76) Autre exemple : Comparaison entre deux espaces 1,5 noisettes maïs écureuil 1,0 ,5 banane carotte singe 0,0 tigre mouton éléphant lapin -,5 herbe Dimension 2 -1,0 aigle -1,5 -2,0 -1,5 -1,0 -,5 0,0 ,5 1,0 1,5 2,0 Dimension 1 Schéma 1 : Représentation des liens entre les 12 items par les enfants de maternelle (stress = .19 ; RSQ = .78) 1,0 banane singe écureuil carotte ,5 aigle 0,0 maïs tigre lapin éléphant -,5 -1,0 Dimension 2 -1,5 mouton herbe -2,0 -1,5 -1,0 -,5 0,0 ,5 1,0 1,5 2,0 Dimension 1 Schéma 2 : Représentation des liens entre les 12 items par les enfants de CM1 (stress = .19 ; RSQ = .78)
  • 17. Khalil F( TD-TP ) 1999-2000 3. Description de distributions Sur les représentations graphiques (essentiellement les histogrammes, les courbes), on observe la forme de la distribution ; cette forme générale nous renseigne sur les données recueillies.  Distribution normale  Distribution bimodale  Distribution asymétrique négative  Distribution asymétrique positive
  • 18. Khalil F( TD-TP ) 1999-2000 L’aplatissement (voussure ou curtosis) rend essentiellement compte du nombre d’observations qui se situent au centre de la distribution, par rapport au nombre attendu dans une distribution dite normale.  S’il y a moins d’observations au niveau du sommet de la distribution que dans une distribution normale, le sommet est ‘aplati’, la distribution est dite ‘platycurtique’.  S’il y a plus d’observations au niveau du sommet de la distribution que dans une distribution normale, le sommet est ‘pointu’, la distribution est dite ‘leptocurtique’.
  • 19. Khalil F( TD-TP ) 1999-2000 CHAPITRE QUATRE LES CARACTERISTIQUES DE TENDANCE CENTRALE 1. Le mode Le mode Mo est la valeur de la variable dont l’effectif (relatif ou absolu) est le plus grand ; c’est la valeur qui se rencontre le plus fréquemment. Exemples de séries statistiques : Notes {3,3,5,6,7,4,4,4,6,6,6,6,8,8,9,9,9,9,9,9,9,12,12,13,13,14,14,15} : Mo = 9 (il y a 7 fois la note 9) Notes {2,4,6,8,10,12,14,16,18,20} le mode n’existe pas Notes {3,3,3,3,4,5,6,6,6,7,7,7,7,8,9,10} il y a deux modes : 3 et 7 ; (distribution bimodale) On parle également de distribution multimodale ou plurimodale Variables nominales et ordinales Dans un tableau statistique, le mode est facilement repérable : c’est le Xi pour lequel la fréquence est la plus élevée. Sur le diagramme en barres, c’est la valeur Xi qui correspond à la barre la plus grande. Sur le diagramme en bâtons, c’est la valeur X i qui correspond au bâton le plus haut. Exemple de X1 (école) Ecole (X1) X1 ni fi A 12 24 B 11 22 C 20 40 D 7 14  50 100 Mo = C
  • 20. Khalil F( TD-TP ) 1999-2000 A (12) B (11) C (20) D (7) Exemple de X2 (test Longeot) X2 ni fi ni  ni  fi  fi  0 (000) 5 10 5 50 10 100 1 (100) 18 36 23 45 46 90 2 (110) 13 26 36 27 72 54 3 (111) 14 28 50 14 100 28  50 100 / / / / Mo = 1 (ou 100) Variables d’intervalle On ne parle plus de mode mais de classe modale. La classe modale est donc celle qui correspond à l’effectif le plus élevé ; sur l’histogramme, c’est le rectangle qui est le plus grand. La classe modale dépend évidemment du choix des classes. Exemple avec X3 (âge) X3 ni fi ni  ni  fi  fi  [6 ; 6.5[ 8 16 8 50 16 100 [6.5 ; 7[ 7 14 15 42 30 84 [7 ; 7.5[ 9 18 24 35 48 70 [7.5 ; 8[ 6 12 30 26 60 52 [8 ; 8.5[ 11 22 41 20 82 40 [8.5 ; 9[ 3 6 44 9 88 18 [9 ; 9.5[ 5 10 49 6 98 12 [9.5 ; 10[ 1 2 50 1 100 2  50 100 / / / / Classe modale = [8 ; 8,5[ (n = 11) 2. La médiane
  • 21. Khalil F( TD-TP ) 1999-2000 La médiane est la valeur de la variable qui divise les effectifs en deux parties égales donc telle que 50% des sujets de l’échantillon ont une valeur inférieure à la médiane et 50% des sujets une valeur supérieure. Quand on ordonne la série de mesures, la médiane est la valeur qui se situe au centre de la série ainsi ordonnée. Dans un tableau statistique, ce sont les effectifs relatifs ou absolus cumulés qui vont nous permettre de calculer la Mé ; en effet, ces effectifs nous permettent de dire ‘il y a tant de sujets qui se situent au dessus ou en dessous de telle valeur’ et c’est exactement la signification de la médiane ‘il y a 50% de sujets au dessus et 50% de sujets en dessous de cette valeur’. On ne peut pas calculer la médiane d’une distribution nominale, cela n’a aucun sens. 2.1. Variables ordinales  Si le nombre de valeurs est impair, la série comporte (2n+1) valeurs et la médiane est la (n+1) ième valeur ; on peut dire aussi qu’elle a pour rang (N+1)/2 Exemple : 4 5 9 11 15 16 18 La médiane Mé est 11 ; il y a 3 observations avant et 3 observations après 11  Si le nombre de valeurs est pair, la série comporte 2n valeurs et il n’existe pas de valeur qui sépare en deux sous-ensembles égaux la série ; on parle alors d’un intervalle médian, déterminé par les valeurs n et n+1 Exemple : 4 5 9 11 15 16 18 20 L’intervalle médian est 11-15 Parfois, on admet que c’est la moyenne de ces deux valeurs. Détermination de la médiane Dans le tableau statistique, on calcule les fréquences cumulées relatives ou absolues ; on repère la valeur 0,5 (ou 50 si pourcentages) pour les fréquences cumulées relatives ou N/2 pour les fréquences cumulées absolues. Généralement, les valeurs 0,5 ou N/2 apparaissent entre deux lignes du tableau ; la médiane est la valeur de Xi qui correspond à la ligne du bas. Cela signifie que la médiane dans ce cas ne partage pas exactement l’effectif en deux sous-ensembles égaux. On peut également observer la médiane sur le graphe des effectifs cumulés. Exemple : nombre de pièces dans un appartement
  • 22. Khalil F( TD-TP ) 1999-2000 xi ni ni  fi fi  1 45 45 30 30 2 60 105 40 70 3 20 125 13.33 83.33 4 10 135 6.66 90 5 9 144 6 96 6 6 150 4 100  150 100 N/2 (c’est-à-dire 75) ou fi = 50 se situe entre xi = 1 et 2 Mé = 2 Ce n’est pas tout à fait exact, car 30% de la population présente une valeur inférieure à 2 et non pas exactement 50% Exemple sur la représentation graphique des effectifs cumulés croissants 2.2. Variables par intervalle Dans ce cas, on peut toujours trouver une valeur de la médiane divisant la série en deux sous-ensembles d’égale importance. Pour trouver la classe médiane qui contient la médiane, on effectue le même raisonnement que dans le cas des variables discrètes.
  • 23. Khalil F( TD-TP ) 1999-2000 Exemple avec X3 (âge) X3 ni fi ni  ni  fi  fi  [6 ; 6.5[ 8 16 8 50 16 100 [6.5 ; 7[ 7 14 15 42 30 84 [7 ; 7.5[ 9 18 24 35 48 70 [7.5 ; 8[ 6 12 30 26 60 52 [8 ; 8.5[ 11 22 41 20 82 40 [8.5 ; 9[ 3 6 44 9 88 18 [9 ; 9.5[ 5 10 49 6 98 12 [9.5 ; 10[ 1 2 50 1 100 2  50 100 / / / / La classe médiane est [7,5 ;8[ avec une fréquence cumulée de 60% Il reste à déterminer la valeur de Mé dans cette classe. Méthode approximative : détermination graphique Détermination par interpolation linéaire Cette méthode suppose une répartition uniforme des individus dans la classe médiane. 1) on extrait la classe médiane, c’est-à-dire la classe correspondant à l’effectif cumulé croissant qui dépasse N/2 ou 50% ; dans notre exemple, c’est [7,5 ; 8[
  • 24. Khalil F( TD-TP ) 1999-2000 2) on extrait la partie du polygone statistique des effectifs absolus cumulés croissants correspondant à cette classe ; on travaille uniquement avec sur l’axe des abscisses 7,5 et 8 et sur l’axe des ordonnées 24 et 30. On place 25 (N/2) en ordonnées et on cherche l’abscisse correspondant. 60 50 40 30 20 10 Sigma = ,98 Moyenne = 8,51 0 N = 261,00 6,25 6,75 7,25 7,75 8,25 8,75 9,25 9,75 AGE (X3) Histogramme des effectifs absolus cumulés croissants de la variable Age (X3) Détermination de la médiane par interpolation linéaire à partir des effectifs absolus cumulés croissants Me  7,5 25  24 On applique Thalès : 8  7,5 = 30  24 Me – 7,5 = 1/6  0,5 Me = 0,5/6 + 7,5 = 7,6 On peut faire la même chose avec un polygone des effectifs relatifs cumulés décroissants ; cette fois, on place 50 (50% moitié des effectifs) et on cherche l’abscisse correspondant.
  • 25. Khalil F( TD-TP ) 1999-2000 On peut faire également la même chose avec un polygone des effectifs cumulés décroissants (absolus ou relatifs). On place 7,5 et 8 sur l’axe des abscisses, et 26 et 20 sur l’axe des ordonnées. On place 25 et on cherche l’abscisse correspondant), mais attention à Thalès (sens différent) 60 50 40 30 20 10 Sigma = ,85 Moyenne = 7,20 0 N = 189,00 6,25 6,75 7,25 7,75 8,25 8,75 9,25 9,75 AGE (X3) Histogramme des effectifs absolus décroissants de la variable Age (X3) Détermination de la médiane par interpolation linéaire à partir des effectifs absolus cumulés décroissants Me  7,5 25  26 8  7,5 = 20  26 Me – 7,5 = -1/-6  0,5 Me = 0,5/6 + 7,5 = 7,6
  • 26. Khalil F( TD-TP ) 1999-2000 La médiane partage l’histogramme en deux surfaces égales. 3. Les quantiles C’est la même idée que la médiane : on cherche ou on définit une valeur de la variable telle que cette valeur partage la série statistique en n sous-ensembles égaux ; si on veut partager la série en 4 sous-ensembles égaux, on parlera de quartiles, 10 sous-ensembles égaux de déciles, et 100 sous-ensembles égaux de centiles. De façon générale, on appelle fractile d’ordre , la valeur (f) telle que % de la population présente une valeur inférieure à f. (exemple : f0,82 est la valeur telle que 82% de la population présente une valeur inférieure à f0,82). 3.1. Les quartiles Ce sont les valeurs qui partagent la série en 4 sous-ensembles de données ; on les note q1, q2 et q3. On les détermine de la même façon que la médiane ; on calcule les effectifs relatifs ou absolus cumulés croissants, on repère les valeurs 25%, 50% et 75% ou ¼ N, ½ N et ¾ N (q2 est la médiane). On appelle intervalle interquartile q3 – q1 ; il contient 50% des observations. 25% 25% 25% 25% Q1 Q2 Q3 ¼N ½N ¾N N Exemple sur X3 (âge) : X3 ni fi ni  ni  fi  fi  [6 ; 6.5[ 8 16 8 50 16 100 [6.5 ; 7[ 7 14 15 42 30 84 [7 ; 7.5[ 9 18 24 35 48 70 [7.5 ; 8[ 6 12 30 26 60 52 [8 ; 8.5[ 11 22 41 20 82 40 [8.5 ; 9[ 3 6 44 9 88 18 [9 ; 9.5[ 5 10 49 6 98 12 [9.5 ; 10[ 1 2 50 1 100 2  50 100 / / / / Q1 : on cherche 25% dans les fi↑ La classe contenant 25% est [6,5 ; 7[
  • 27. Khalil F( TD-TP ) 1999-2000 On associe 16% à 6,5 et 30% à 7 Q1  6,5 25  16   Q1  6,82 7  6,5 30  16 Q3 : on cherche 75% dans les fi↑ La classe contenant 75% est [8 ; 8,5[ On associe 16% à 6,5 et 30% à 7 Q3  8 75  60   Q3  8,34 8,5  8 82  60 3.2. Les déciles Ils sont au nombre de 9 : d1, d2, ..., d9. Ils partagent la série en 10 sous-ensembles égaux contenant chacun 10% de la population. L’intervalle d9 – d1 est l’intervalle interdécile et il contient 80% des observations. d5 est la médiane. 10% 10% 10% 10% 10% 10% 10% 10% 10% 10% d1 d2 d3 d4 d5 d6 d7 d8 d9 3.3. Les centiles Ils sont au nombre de 99 et partagent la série en 100 sous-ensembles égaux contenant chacun 1% de la population. L’intervalle intercentile est c99-c1 et il contient 98% de la population. c50 est la médiane, c10 est d1, c25 est q1. 3.4. Exemple de calcul d’un fractile On veut calculer f0,85 de la série X3 (âge), c’est-à-dire la valeur de X3 (l’âge) telle que 85% de la population ait un âge strictement inférieur à cette valeur. Classe concernée par l’interpolation linéaire : 8,5 ; 9 abscisses ; ordonnées : 82 et 88
  • 28. Khalil F( TD-TP ) 1999-2000 f 0,85  8,5 85  82   f 0,85  8,75 9  8,5 88  82 4. La moyenne 4.1. Définitions  La moyenne arithmétique d’une série statistique Xi est égale au rapport de la somme des valeurs observées par le nombre d’observations (N). On lit x barre. n 1 x = n  i 1 xi Exemple : série de notes obtenues par 20 étudiants {9, 12, 13, 5, 3, 8, 14, 17, 9, 12, 11, 15, 18, 9, 8, 13, 2, 5, 9, 18} 1 x = 20  (9 + 12 + 13 + ..... + 9 + 18) = 10,5  On dit qu’une moyenne est pondérée lorsqu’il existe plusieurs observations pour toutes ou certaines valeurs de xi. 4.2. Cas des variables ordinales Exemple de la même série de notes mais présentée dans un tableau statistique xi ni nix i fi fix i
  • 29. Khalil F( TD-TP ) 1999-2000 2 1 2 0.05 0.1 3 1 3 0.05 0.15 5 2 10 0.1 0.5 8 2 16 0.1 0.8 9 4 36 0.2 1.8 11 1 11 0.05 0.55 12 2 24 0.1 1.2 13 2 26 0.1 1.3 14 1 14 0.05 0.7 15 1 15 0.05 0.75 17 1 17 0.05 0.85 18 2 36 0.1 1.8  20 210 1 10.5 n1x1  n 2 x 2  ......  npxp 2  3  10  ......  17  36 210 x = n1  n 2  .....  np = 20 = 20 = 10.5  nixi x =  ni On observe également que la moyenne est égale à la somme du produit des valeurs de la variable par leurs fréquences relatives : k x =  i 1 fix i 4.3. Cas d’une variable d’intervalle On est obligé de définir quelle est la valeur de xi : c’est le centre de la classe. Exemple de âge (X3)
  • 30. Khalil F( TD-TP ) 1999-2000 X3 xi ni nix i fi (%) fi(%)xi fi f ix i [6 ; 6.5[ 6.25 8 50 16 100 0.16 1 [6.5 ; 7[ 6.75 7 47.25 14 94.5 0.14 0.945 [7 ; 7.5[ 7.25 9 65.25 18 130.5 0.18 1.305 [7.5 ; 8[ 7.75 6 46.5 12 93 0.12 0.93 [8 ; 8.5[ 8.25 11 90.75 22 181.5 0.22 1.815 [8.5 ; 9[ 8.75 3 26.25 6 52.5 0.06 0.525 [9 ; 9.5[ 9.25 5 46.25 10 92.5 0.10 0.925 [9.5 ; 10[ 9.75 1 9.75 2 19.5 0.02 0.195  / 50 382 100 764 1 7.64  nixi 382 x =  ni = 50 = 7.64 L’âge moyen des enfants est donc de 7.64 ans. 5. Relation entre mode, médiane et moyenne Pour une courbe unimodale, modérément asymétrique, on a la relation suivante : m - mo = 3 ( m - Mé)
  • 31. Khalil F( TD-TP ) 1999-2000 CHAPITRE CINQ LES CARACTERISTIQUES DE DISPERSION Les paramètres de tendance centrale sont utiles mais insuffisants pour décrire une population. Exemple : on observe les diagrammes en bâtons des deux séries X et Y (1,5) (2,5) (3,9) (4,5) (5,2) (6,9) (7,4) (8,6) (9,5) x = 4.94 N=50 (1,8) (2,7) (3,4) (4,8) (5,1) (6,2) (7,3) (8,10) (9,7) y = 4,94 N=50 Elles ont la même moyenne mais présentent des distributions différentes ; on est donc amené à mesurer leur dispersion afin de mieux caractériser ces deux séries. 10 12 10 8 8 6 6 4 4 Occurrences Occurrences 2 2 0 0 1,00 2,00 3,00 4,00 5,00 6,00 7,00 8,00 9,00 1,00 2,00 3,00 4,00 5,00 6,00 7,00 8,00 9,00 VAR00001 VAR00002 1. Définitions  L’étendue est la différence entre la plus grande valeur et la plus petite valeur prises par la variable ; cette quantité est indépendante de la façon dont sont distribuées les valeurs dans la série. Exemple : étendue de x = 9 – 1 = 8 étendue de y = 9 – 1 = 8  L’écart absolu moyen est la moyenne des valeurs absolues des écarts à la moyenne.
  • 32. Khalil F( TD-TP ) 1999-2000  ni xi  x e=  ni 5  1  4.94  5  2  4.94  ......  6  8  4.94  5  9  4.94 Exemple : ex = 50 = 2.57 8  1  4.94  7  2  4.94  ......  10  8  4.94  7  9  4.94 ey = 50 = 2.97 La fonction valeur absolue n’étant pas très manipulable en mathématiques, on a préféré la variance.  La variance est la moyenne des carrés des écarts à la moyenne ou écart quadratique moyen.  nixi  x  2 VarX =  ni L’écart-type est la racine carrée de la variance :  = VarX Exemple : VarX = 6.60 x = 2.57 VarY = 8.82 y = 2.97 2. Calcul de la variance et de l’écart type suivant la définition Dans le tableau statistique, on a donc besoin d’une colonne xi - x , d’une colonne (xi - x )² et d’une colonne ni (xi - x )² en plus de celle nécessaire pour calculer la moyenne. Exemple : soit 27 enfants dont on relève le QI Classes xi ni ni.xi xi - x (xi - x )² ni .(xi - x )² [65 ; 75[ 70 1 70 -39.26 1541.35 1541.35 [75 ; 85[ 80 2 160 -29.26 856.15 1712.30 [85 ; 95[ 90 3 270 -19.26 370.95 1112.84 [95 ; 105[ 100 6 600 -9.26 85.75 514.49
  • 33. Khalil F( TD-TP ) 1999-2000 [105 ; 115[ 110 5 550 .74 .55 2.74 [115 ; 125[ 120 4 480 10.74 115.35 461.39 [125 ;135[ 130 3 390 20.74 430.15 1290.44 [135 ; 145[ 140 2 280 30.74 944.95 1889.90 [145 ; 155[ 150 1 150 40.74 1659.75 1659.75  27 2950 / / 10185.20 x = 2950/27 = 109.26 VarX = 10185.20/27 = 377.23  = 19.42 3. Autre méthode de calcul de la variance et de l’écart type  nixi²   nixi    2 On montre que Var X =  ni -   ni     nixi  x  2 VarX =  ni (rappel : (a+b)² = a² + 2ab + b²)  nixi²   ni2 xi x   ni x ²  nixi =  ni or  ni = x  nixi²  ni x² =  ni - x .2. x +  ni x (et x ²) étant une constante dans l’équation,  nixi²  ni =  ni - x .2. x + x ²  ni  nixi² =  ni - x .2. x + x ².1  nixi² =  ni - 2 x ² + x ²  nixi²  nixi²   nixi    2 =  ni - x ² ou encore =  ni -   ni   
  • 34. Khalil F( TD-TP ) 1999-2000 Exemple : soit 27 enfants dont on relève le QI classes xi ni ni.xi ni.xi² [65 ; 75[ 70 1 70 4900 [75 ; 85[ 80 2 160 12800 [85 ; 95[ 90 3 270 24300 [95 ; 105[ 100 6 600 60000 [105 ; 115[ 110 5 550 60500 [115 ; 125[ 120 4 480 57600 [125 ;135[ 130 3 390 50700 [135 ; 145[ 140 2 280 39200 [145 ; 155[ 150 1 150 22500  27 2950 332500 332500  2950  2   VarX = 27  27  = 377.23  = 19.42 4. Caractéristiques des paramètres de dispersion Pour une courbe symétrique et unimodale, proche d’une courbe de type courbe de Gauss, l’écart type correspond à la distance qui sépare le point d’inflexion de la courbe de l’axe de symétrie. Le point d’inflexion est le point d’inversion du sens de la courbure, celui où la tangente d’intérieure devient extérieure.
  • 35. Khalil F( TD-TP ) 1999-2000  La « preuve des 3 écarts-types » Pour une courbe proche d’une courbe gaussienne et si l’écart-type est correctement calculé, pratiquement toutes les valeurs de la distribution doivent se trouver entre : m - 3 et m + 3. Exemple précédent :  = 19.42 m = 109.29 m + 3 = 167.55 et m - 3 = 51.03