SlideShare une entreprise Scribd logo
1  sur  37
1.1. Loi normale ou de Gauss
Supposons que nous tirions des échantillons aléatoires d'une population
dont la taille moyenne est de 170 cm, avec un écart type de 10 cm.
Traçons l'histogramme de la taille, avec des classes de 5cm de large.
Examinons l’aspect de ces histogrammes.
        Echantillon de 10 individus                Echantillon de 100 individus
                                                      20
  n                                             n
  o                                             o
  m                                             m
  b                                             b
        3                                             15
  r                                             r
  e                                             e

  d’                                            d’
        2
   i                                             i
                                                      10
  n                                             n
  d                                             d
   i                                             i
  v                                             v
        1                                              5
   i                                             i
  d                                             d
  u                                             u
  s                                             s

        0
         120   140   160            180   200          120    140   160        180   200
                       taille (cm)                                   taille (cm)

        Echantillon de 1000 individus                 Echantillon de 10.000 individus
 n                                              n
 o                                              o
       150
 m                                              m
 b                                              b
                                                     1500
 r                                              r
 e                                              e

 d’                                             d’
       100
  i                                              i
                                                     1000
 n                                              n
 d                                              d
  i                                              i
 v                                              v
       50
  i                                              i
                                                      500
 d                                              d
 u                                              u
 s                                              s

        0                                              0
         120   140   160        180       200           120   140   160        180   200
                      taille (cm)                                    taille (cm)
Echantillon de 100.000 individus. (ici, les classes sont de 2 cm)
                        n
                        o
                        m
                        b
                             6000
                        r
                        e

                        d’
                         i
                             4000
                        n
                        d
                         i
                        v
                             2000
                         i
                        d
                        u
                        s

                               0
                                120     140      160           180    200
                                                     taille (cm)

Au fur et à mesure que la taille de l'échantillon augmente (et que la taille
des classes diminue), l'histogramme devient de plus en plus régulier et se
rapproche d'une courbe en cloche, appelée loi normale.
Loi normale
           n
           o
           m
           b
           r
           e

           d’
            i
           n
           d
            i
           v
            i
           d
           u
           s

            120       140             160        180                 200
                                       taille (cm)
La loi normale est la loi statistique la plus répandue et la plus utile.
Elle représente beaucoup de phénomènes aléatoires.
De plus, de nombreuses autres lois statistiques peuvent être approchées
par la loi normale, tout spécialement dans le cas des grands échantillons.
Son expression mathématique est la suivante:
                                          ( x−µ ) 2
                                        −
                                    n
                         n( x ) =              2σ   2
                                           e
                                    2π σ

           n(x)



                                        σσ




                                    µσ µ µ σ
                                     −                     x
                                          +
• µ est la moyenne
• σ l’écart type
• n le nombre total d’individus dans l’échantillon
• n(x) le nombre d’individus pour lesquels la grandeur analysée a la
  valeur x.
Lorsque la distribution des individus dans une population obéit à la loi
normale, on trouve :
A. 50 % des individus en dessous de la moyenne µ et 50 % au-dessus (la
   loi normale est symétrique)
                                                    50 %



                                                               x
                                    µ
B. 68 % des individus entre µ−σ et µ+σ
                                              68 %



                                                                x
                           µ µ+ σ
                           −µ
                            σ
C. 95 % des individus entre µ-1,96σ et µ+1,96σ, que nous arrondirons à
   l’intervalle [µ−2σ, µ+2σ]
                                              95 %



                                                                x
                      µσµ µσ
                      −2  +2
D. 99,7 % des individus entre µ−3σ et µ+3σ (il y a donc très peu de
   chances qu’un individu s’écarte de la moyenne de plus de 3σ).
                                              99,7 %



                                                                x
                µσ
                −                   µ          µσ
                 3                             +3
1.2. Calcul des probabilités
Pour calculer les probabilités associées à la loi normale, on utilise
généralement la loi normale réduite : c’est une loi normale pour laquelle
µ = 0 et σ = 1.
La table suivante permet de déterminer la probabilité que la variable x
s’écarte de la moyenne µ de plus de z0 × σ vers le haut.
Pour obtenir z0, on calcule l’écart par rapport à la moyenne : δ = x - µ,
                                          δ
puis on divise par l’écart type : z 0 =
                                          σ
2ème décimale de z0
     Z0        0      1      2     3       4          5     6      7      8      9

     0.0     .500   .496   .492   .488   .484      .480   .476   .472   .468   .464
     0.1     .460   .456   .452   .448   .444      .440   .436   .433   .429   .425
     0.2     .421   .417   .413   .409   .405      .401   .397   .394   .390   .386
     0.3     .382   .378   .374   .371   .367      .363   .359   .356   .352   .348
     0.4     .345   .341   .337   .334   .330      .326   .323   .319   .316   .312

     0.5     .309   .305   .302   .298   .295      .291   .288   .284   .281   .278
     0.6     .274   .271   .268   .264   .261      .258   .255   .251   .248   .245
     0.7     .242   .239   .236   .233   .230      .227   .224   .221   .218   .215
     0.8     .212   .209   .206   .203   .200      .198   .195   .192   .189   .187
     0.9     .184   .181   .179   .176   .174      .171   .169   .166   .164   .161

     1.0     .159   .156   .154   .152   .149      .147   .145   .142   .140   .138
     1.1     .136   .133   .131   .129   .127      .125   .123   .121   .119   .117
     1.2     .115   .113   .111   .109   .107      .106   .104   .102   .100   .099
     1.3     .097   .095   .093   .092   .090      .089   .087   .085   .084   .082
     1.4     .081   .079   .078   .076   .075      .074   .072   .071   .069   .068

     1.5     .067   .066   .064   .063   .062      .061   .059   .058   .057   .056
     1.6     .055   .054   .053   .052   .051      .049   .048   .047   .046   .046
     1.7     .045   .044   .043   .042   .041      .040   .039   .038   .038   .037
     1.8     .036   .035   .034   .034   .033      .032   .031   .031   .030   .029
     1.9     .029   .028   .027   .027   .026      .026   .025   .024   .024   .023

     2.0     .023   .022   .022   .021   .021      .020   .020   .019   .019   .018
     2.1     .018   .017   .017   .017   .016      .016   .015   .015   .015   .014
     2.2     .014   .014   .013   .013   .013      .012   .012   .012   .011   .011
     2.3     .011   .010   .010   .010   .010      .009   .009   .009   .009   .008
     2.4     .008   .008   .008   .008   .007      .007   .007   .007   .007   .006

     2.5     .006   .006   .006   .006   .006      .005   .005   .005   .005   .005
     2.6     .005   .005   .004   .004   .004      .004   .004   .004   .004   .004
     2.7     .003   .003   .003   .003   .003      .003   .003   .003   .003   .003
     2.8     .003   .002   .002   .002   .002      .002   .002   .002   .002   .002
     2.9     .002   .002   .002   .002   .002      .002   .002   .001   .001   .001
Lorsque l’on doit déterminer une probabilité à partir de la loi normale, on
essaie de se ramener à une probabilité considérée dans la table.
Quelques cas concrets sont illustrés ci-dessous.
1) x > µ + z0σ
                                              Prob (table)



                                                              x
                   µσ µ µσ
                   −z0  + z0
2) x < µ - z0σ
           Prob (table)



                                                              x
                   µσ µ µσ
                   −z0  + z0
3) x plus éloigné de µ que z0σ
                                             2× (table)
                                              Prob



                                                              x
                   µσ µ µσ
                   −z0  + z0
4) x plus proche de µ que z0σ
                                            1-2× (table)
                                               Prob



                                                              x
                   µσ µ µσ
                   −z0  + z0
5) x < µ + z0σ
                                             1-Prob (table)



                                                              x
                   µσ µ µσ
                   −z0  + z0
Exemples :
Le poids des tomates produites par un jardinier obéit à une loi normale de
moyenne 200 gr et d'écart type 40 gr.
a. Calculez la probabilité que le poids d'une tomate excède 250 gr.
                              δ = 250 − 200 = 50 gr
    Solution:
                                   δ 50
                               z0 =  =     = 1,25
                                   σ 40
                              Prob = 0,106 = 10,6 %
b. Calculez la probabilité que le poids d'une tomate soit inférieur à 100
   gr.
                              δ = 100 − 200 = −100 gr
    Solution:
    la loi normale est symétrique → on ne s'occupe pas du signe
                                      δ 100
                               z0 =    =    = 2,5
                                      σ 40
    moins de 100 gr: on s'écarte donc de la valeur moyenne µ = 200 gr de plus de
    z0 × σ
                              Prob = 0,006 = 0,6 %
c. Calculez la probabilité que le poids d'une tomate soit inférieur à 230
   gr.
                             δ = 230 − 200 = 30 gr
    Solution:
                                      δ 30
                               z0 =    =   = 0,75
                                      σ 40
    L’intervalle (< 230 gr) considéré contient la valeur moyenne (200 gr) → on
    prend 1 – Prob(table):
                              Prob = 1 − 0,227 = 0,773 = 77,3 %
d. Calculez la probabilité que le poids d’une tomate ne s’écarte pas de la
    valeur moyenne de plus de 20 gr.
     Solution: on calcule d’abord la probabilité que le poids s’écarte de plus de 20 gr,
               vers le haut ou vers le bas :
                              δ = 20 gr     σ = 40
                                   δ 20
                              z0 = =       = 0,5
                                   σ 40
                              Prob = 0,309 = 30,9 %
    On doit multiplier par 2 car on considère les deux côtés → Prob = 2 × 0,309 =
    0,618
    On a donc une prob. de 0,618 que le poids s'écarte de µ de plus de 20 gr, et donc
    une prob. 1-0,618 que le poids ne s'écarte pas de plus de 20 gr.
    Réponse: 0,382 = 38,2 %
1.3. Forme de la distribution d'échantillonnage
Supposons que nous analysions une population quelconque à partir d'un
ensemble d'échantillons.
Pour chacun de ces échantillons, nous calculons une valeur moyenne X
qui est une estimation de la moyenne de la population µ.
Bien entendu, les estimations X différeront généralement de la vraie
moyenne µ.
Nous désirons savoir comment les différentes déterminations X vont se
distribuer autour de la vraie moyenne µ.

n(x)                                           n(x)
                         population




                                           x                                       x
                           échantillon 1
                 X                                           X     échantillon 2
Traçons l'histogramme des valeurs moyennes, c'est-à-dire le nombre
d'échantillons pour lesquels la valeur moyenne X prend une certaine
valeur (se situe dans une certaine classe).

               n(x)
                                       histogramme des valeurs
                                             moyennes X




                                                x
La figure suivante montre l’histogramme des valeurs moyennes X pour
des échantillons de tailles croissantes tirés des populations indiquées sur
la première ligne.
Lorsque la taille de l'échantillon est suffisamment grande, (n ≥ 10) la
   distribution de la moyenne a une forme approximativement normale.
L'écart type sur la moyenne est:
                                   ()   σ
                                 σX=
                                         n
Quelle que soit la population sous-jacente, si on utilise des échantillons
suffisamment grands (au moins 10 à 20 individus), la précision de la
valeur moyenne peut être calculée à partir de la loi normale.
Il y a 68 % (≅2/3) de chances que la vraie moyenne µ soit dans l'intervalle
compris entre X-σ et X+σ.
               n




                                 x− x x+σ
                                  σ                       x
Il y a 95 % de chances que la vraie moyenne µ soit dans l'intervalle
compris entre X-2σ et X+2σ.
               n




                         x−
                          2σ                         x+2σ x
                                           x
Exemples
1. Une organisation de consommateurs désire savoir si le poids réel des
   pains de 800gr produits dans une boulangerie est bien conforme au
   poids annoncé.
   Pour cela, elle prélève 100 pains au hasard. Elle obtient un poids
   moyen de 780 gr, avec un écart type de 80 gr.
   Quelle est la probabilité que le boulanger triche en moyenne sur le
   poids de ses pains?
                        n = 100      X = 780 gr          s = 80 gr
                         ()   s    80
                       σX=       =     = 8 gr
   Ecart type de X:
                               n   100
   Il n'y a pas tricherie si µ est de 800 gr au moins, c'est-à-dire 20 gr au-
   dessus de X.
                                 20       20
                          z0 =        =      = 2,5
                                 ()
                                 σX       8
   D'après la table, la probabilité que µ soit supérieur à X d'au moins 2,5
   σ( X ) est de 0,006.
                          100 - 100 × 0,006 = 100 - 0,6 = 99,4
   Il y a 99,4 % de chance pour que le boulanger triche
   → on peut raisonnablement conclure à la tricherie !
2. Dans une autre boulangerie, l’échantillon de 100 pains conduit au
   résultat suivant :
                         n = 100            X = 795 gr   s = 50 gr
()        s       50
                            σX=             =  = 5 gr
                                      n    100
                                  800 − 795 5
                             z0 =          = =1
                                      5      5
   D’après la table, la probabilité que µ soit supérieur ou égal à 800 gr
   est de 0,159.
   Il y a donc 84,1 % de chances que ce boulanger triche.
   Même si la présomption est forte, ce n’est pas vraiment suffisant pour
   conclure à la tricherie !
3. Dans une troisième boulangerie, on obtient :
                            n = 100        X = 810 gr    s = 50 gr
                              ()    s      50
                            σX=         =      = 5 gr
                                     n     100
                                 800 − 810    10
                            Z0 =           = − = −2
                                     5         5
   D'après la table, la probabilité que µ soit inférieur ou égal à 800 gr est
   de 0,023.
   Il n'y a que 2,3 % de chances que ce boulanger triche.
   On peut conclure qu'il est honnête !
4. Le revenu moyen d'un échantillon représentatif de 16 ménages s'élève
   à 62 000 F net par mois, avec un écart type de 16 000 F.
   a. Quelle est la probabilité que le revenu moyen de l'ensemble de la
        population soit inférieur à 60 000 F ?
         Solution: n = 16      X = 62000    s = 16000

                      ()       s       16000
                                          16000
                    σX=            =            =
                                                = 4000
                                            4
                            n      16
                    δ = 60000 − 62000 = −2000
                          δ     2000
                    z0 =      =       = 0,5
                             ()
                         σ X 4000
      < 60 000: s'écarte de X de plus de 0,5×σ( X )
      → on prend la valeur de la table
      Prob = 0,309 = 30,6 %
   b. Quelle est la probabilité que le revenu moyen de la population soit
      inférieur à 65 000 F ?
       Solution: δ = 65000 − 62000 = 3000
                             δ   3000
                     Z0 =      =      = 0,75
                             ()
                            σX   4000
       < 65000: ne s'écarte pas de X de plus de 0,75 ×σ( X ) vers le haut
       → on prend la valeur p de la table et on calcule 1-p
                   p = 0,227
                   1-p = 0,773 = 77,3 %
5.4. Intervalles de confiance
Nous avons vu que la moyenne X d'un échantillon aléatoire permet
d'estimer la vraie moyenne µ de la population.
Nous voudrions estimer également la précision de cette moyenne, c'est-à-
dire donner une marge d'erreur ou un intervalle de confiance.
Nous pouvons utiliser les tables de la loi normale pour estimer ces
intervalles de confiance.
En général nous adopterons l'intervalle de confiance à 95%, soit à
2σ( X ).
Nous pourrons donc écrire, soit:
                                                ()
                                     µ = X ± 2σ X
soit, plus explicitement:
                     Il y a 95 chances sur 100 que µ se situe entre
                                    ()                ()
                              X − 2σ X          X + 2σ X
                                           et
Si nous tirons une série d’échantillons aléatoires de la population, dans 19
cas sur 20 (en moyenne), µ se trouvera dans l’intervalle de confiance X ±
2σ( X ).
Exemples :
1. La taille moyenne d'un échantillon de 51 filles de 2ème candi. commu.
   est de 167,9 cm.
   L'écart type de cet échantillon est de 5,3 cm.
   Si nous supposons que cet échantillon est représentatif de la taille des
   filles belges âgées d'une vingtaine d'années, nous pouvons calculer la
   taille moyenne de cette population, avec sa marge d'erreur :
                         n = 51          X = 167,9   s = 5,3

                          ( ) 5,3 = 0,74
                         σX=
                                     51
                         2σ ( X ) = 1,48 ≅ 1,5 cm
   Avec 95 % de confiance, nous pouvons donc dire que la taille
   moyenne de la population vaut:
                        µ = 167,9 ± 1,5 cm
   ce qui revient à dire qu'il y a 95 chances sur 100 pour que la taille
   moyenne des filles belges de 20 ans se situe entre 166,4 et 169,4 cm.
2. La taille moyenne d'un échantillon de 35 garçons de 2ème candi.
   commu. est de 182,9 cm
   En supposant de même l'échantillon représentatif, nous pouvons
   donner un intervalle de confiance pour la taille des garçons belges de
   20 ans.
                         n = 35          X = 182,9   s = 6,7

                          ( ) 6,7 = 1,13
                         σX=
                                    35
                         2σ ( X ) = 2,26 ≅ 2,3 cm
   Avec 95 % de confiance, on a donc:
                      µ = 182,9 ± 2,3 cm
5.5. Comparaison de deux échantillons indépendants
Des échantillons sont indépendants lorsqu’une modification dans l’un
d’eux n’a pas d’influence sur les autres.
Par exemple, un échantillon de filles et un échantillon de garçons
sélectionnés pour déterminer le poids moyen des filles et celui des
garçons sont indépendants.
Par contre, les personnes qui affirment voter pour un parti A ou pour un
parti B dans un sondage politique ne forment pas deux échantillons
indépendants car si une personne de plus déclare voter pour A, il y a un
électeur potentiel en moins pour B (les résultats de A et B s’influencent).
La différence moyenne est simplement:
                                  X D = X1 − X 2
Son écart type est donné par:
()       ()
                                            2         2
                           σ D = σ1 X + σ 2 X
              (formule approchée, mais suffisamment précise)
Pour la taille des filles et des garçons:
                         X D = 182,9 − 167,9 = 15 cm
                         σ D = 0,74 2 + 1,132 = 1,35 cm
L'intervalle de confiance à 95 % est de:
                              2 × 1,35 = 2,7 cm
                              XD = 15,0 ± 2,7 cm
Si nous désirons maintenant répondre à la question suivante: les garçons
sont-ils plus grands, en moyenne, que les filles?
        différence moyenne de taille: XD = 15,0 cm
    
        écart type de cette différence: σD = 1,35 cm
    
        nombre d'écarts types au-dessus de 0 cm (0 cm ≡ pas de
    
        différence de taille)
                                     15,0
                              z0 =        = 11,1111
                                     1,35
Dans une distribution normale, la probabilité d'avoir une valeur qui
s'écarte de la moyenne de plus de 11 σ est inférieure à 2.10-28 et donc
complètement négligeable.
Si nos échantillons sont représentatifs, il n'y a donc aucune chance que la
différence de taille soit due au hasard.
Sur base de nos échantillons, nous sommes donc pratiquement certains
que les garçons sont, en moyenne, plus grands que les filles.
Exemple
On sélectionne un échantillon de 25 paysans syldaves. La superficie de
leurs terres s'élève à 24 hectares en moyenne, avec un écart type de 5
hectares.
Pour un échantillon de 16 paysans bordures, la superficie moyenne des
terres est de 26 hectares, avec un écart type de 8 hectares.
Quelle est la probabilité que les paysans syldaves aient, en moyenne, plus
de terres que les bordures ?
Solution:
Ces échantillons sont indépendants.
• échantillon syldave:           n1 = 25    X 1 = 24   s1 = 5

    écart type sur la moyenne: σ ( X 1 ) =
                                               5       5
                                                   =     =1
                                                       5
                                       25
•                              n2 = 16   X 2 = 26                s2 = 8
    échantillon bordure:
                                     ()8     8
    écart type sur la moyenne: σ X 2 =     = =2
                                       16 4
différence moyenne: (syldave-bordure):
                           X D = X 1 − X 2 = 24 − 26 = −2
écart type sur la différence:
                                     ()         ()
                                          2            2
                                                           = 12 + 2 2 = 5 ≅ 2,24
                           σ D = σ X1         +σ X2
les syldaves ont plus de terre en moyenne que les bordures si la différence
est >0→s'écarte de la valeur moyenne calculée de plus de 2
                                   δ    2
                           z0 =      =     ≅ 0,89
                                  σ D 2,24
table→Prob = 0,187 = 18,7 % de chances que la superficie moyenne soit
supérieure en Syldavie.
                          6 Les proportions
6.1. Ecart type pour les proportions
Considérons le cas d’un sondage politique.
Ici, on ne désire plus estimer la moyenne d'une grandeur sur une
population, mais la proportion des individus de cette population qui se
rangent dans une catégorie (p.ex., qui déclarent voter pour le P.U.B.).
Exemple
Un institut de sondage interroge un échantillon représentatif de 200
électeurs, qui ont le choix entre 4 partis politiques.
Les résultats du sondage sont les suivants:
                   parti             nombre d’intentions de vote
                   PUB                              24
                   PET                              35
                   PAF                              69
                    PIF                             61
ne se prononcent pas                   11
Notons p la proportion d'individus d'une classe dans l'échantillon
Si n1 est le nombre d'individus dans la classe 1 et n le nombre total
d'individus dans l'échantillon, on a :
                                     n1
                              p1 =
                                     n
et de même
                                   n2
                            p2 =      ,
                                   n
Dans notre sondage, les proportions sont les suivantes:
                          parti               proportion
                          PUB                   0,120
                          PET                   0,175
                          PAF                   0,345
                           PIF                  0,305
                          n.s.p.                0,055
Si l'échantillon est représentatif, la proportion p dans l'échantillon est une
approximation de la proportion π dans la population.
Pour des échantillons suffisamment grands, les proportions suivent une
loi normale, avec un écart type d'échantillon de:
                                        π -π
                                          (1 )
                               σ p=
                                            n
En général, la proportion π dans la population n'est pas connue. On la
remplace alors par la proportion p dans l'échantillon
                                               p(1 − p )
                                   σp ≅
                                                  n
Les proportions obéissent à des lois comparables à celles des moyennes.
Une différence importante est que l'écart type peut être calculé à partir
des proportions (pour les moyennes, il devait être connu par ailleurs).
Nous pouvons donc calculer les intervalles de confiance à 95 % sur les
intentions de vote.
                                 0,12 (1 - 0,12)
                    σ(PUB) =                       = 0,023
                     p
                                      200

                                 0,175 (1 - 0,175)
                    σ(PET) =                         = 0,027
                     p
                                       200

                                 0,345 (1 - 0,345)
                    σ(PAF) =                         = 0,034
                     p
                                       200

                                 0,305 (1 - 0,305)
                    σ(PIF) =                         = 0,033
                     p
                                       200
Les intervalles de confiance à 95 % sont de 2σP
Les résultats du sondage sont les suivants:
                        parti intentions de vote
                                   12,0 ± 4,6 %
                        PUB
                                   17,5 ± 5,4 %
                         PET
                                   34,5 ± 6,8 %
                        PAF
                                   30,5 ± 6,6 %
                         PIF
6.2. Les proportions sont des moyennes
Considérons une élection opposant deux partis A et B.
Considérons la grandeur x = nombre de voix qu’un électeur apporte au
parti B.
C’est une variable discrète qui peut prendre deux valeurs :
                  x=0         si l’électeur vote pour A
                  x= 1        si l’électeur vote pour B
Soient
              nA     le nombre d’électeurs votant pour A
              nB     le nombre d’électeurs votant pour B
              n      le nombre total d’électeurs
              p      la proportion d’électeurs votant pour B
Calculons la valeur moyenne de x :
                     1         1
                          Σn
                          x=
                X=                 (0 + 0 +…+ 1 + 1 +…)
                     n
                                       nA          nB
                     nB
                X=        =p
                     n
La proportion est donc la moyenne de x.
Calculons l’écart type sur x (ou plutôt son carré, appelé variance) :
                     1
                             Σ
                                           2
        2
                             (x - X)
       σ=
                     n
                     1                 2              2                       2          2
        2
                             [(0 - p) + (0 - p) +…+ (1 - p) + (1 - p) +…]
       σ=
                     n
                                               nA                                 nB
                     1             2                          2
        2
       σ=                    [ nA p + nB ( 1 - p ) ]
                     n
                     nA            nB                 2
                              2
        2
                                           (1-p)
       σ=                    p+
                     n             n
        2                          2                      2
       σ=(1-p)p +p(1 -p)
        2
       σ = p (1 - p) [ p + 1 - p ]
On a donc
       σp (1 - p)
        =
Et donc,
                                                      σ
       σ= σ p ) = σ X ) =
           (       (
        p
                                                      n
                                   p(1-p)
                      σ=
                                           n
6.3. Exemples
Exemple 1 :
n = 100              n1 = 60               n2 = 40
                                                                         n2       40
       n1                    60
                                                                              =         = 0,4
             =                    = 0,6                           p2 =
p1 =
       n                 100                                             n        100

            p1 (1 - p1)                        0,6 ×0,4
σ
1=                                 =                              = 0,049
                      n                             100
                                                                                  Pourquoi = ? *
            p2 (1 - p2)                        0,4 ×0,6
σ
2=                                 =                              = 0,049
                         n                          100
* Quand il n'y a que deux choix possibles, et pas d'abstentions, on a
n2 = n − n1 et l'incertitude sur n2 est forcément la même que sur n1. Ce n'est
plus vrai à partir de 3 choix.
On ne peut pas calculer
 σD = σ p            + σ p2
                 2            2
             1




car les 2 échantillons ne sont pas indépendants !
Le parti 1 gagne les élections si p1>0,5
δ 0,6 - 0,5 = 0,1
  =
σ 0,049
  =
             0,1
     δ
        =         = 2,04
z0 =
     σ 0,049
table → Prob = 0,021
→il y a 2,1 % de chances que p1 < 0,5
→il y a 100-2,1 = 97,9 % de chances que le parti 1 remporte les élections
Exemple 2 :
On constate un défaut dans 20 % des voitures d’un modèle. Un garagiste,
qui a vendu 50 voitures de ce modèle, fait revenir tous ses clients afin de
remplacer une pièce aux voitures défectueuses. Pour cela, il a commandé
12 pièces de rechange.
Quelle est la probabilité qu’il n’ait pas suffisamment de pièces ?
Solution :
La proportion de voitures défectueuses vaut π = 0,2.
Dans l’échantillon de 50 voitures, on s’attend à la même proportion, avec
un écart type :
   π
   (1 - π 0,2 ×
        )       0,8
σ         =         = 0,057
p=
     n       50
Il n’aura pas suffisamment de pièces si le nombre de voitures
défectueuses est supérieur à 12, ou au moins égal à 13.
On a le choix entre deux critères :
       12               13
                 ou    p≥
p>
       50               50

Dans ce cas, on obtient un meilleur résultat en appliquant la correction de
continuité et en choisissant 12,5 plutôt que 12 ou 13.
Nous retiendrons donc
       12,5
              = 0,25
p>
       50

Pour qu’il n’ait pas assez de pièces de rechange, il faut donc que la
proportion s’écarte de la valeur moyenne de plus de
δ = 0,25 − 0,2 = 0,05
On obtient donc :
        δ 0,05
z0 =     =       = 0,88
           0,057
        σ

La probabilité d’avoir un écart au moins aussi élevé est, d’après la table
de la loi normale, de 0,189.
Il y a donc 18,9 % de risques que le garagiste n’ait pas assez de pièces de
rechange.
6.4. Illustration : test de la fiabilité des horoscopes
Lors de deux leçons, nous organisons un test destiné à mesurer la fiabilité
des horoscopes.
Dans ce but, nous distribuons des feuilles reprenant les horoscopes de la
semaine précédente.
Chaque étudiant présent lit ces horoscopes et indique :
        son signe astrologique ;
        lequel de ces horoscopes correspond le mieux à ce qui lui est
           arrivé lors de la semaine écoulée.
Pour le premier test, les signes astrologiques sont indiqués.
Dans le second test, ces signes ne sont pas indiqués et l’ordre en est
modifié.
Ce test a pour but de répondre à deux questions :
        les horoscopes sont-ils fiables ?
        la connaissance du signe a-t-elle une influence sur les réponses
           des individus testés ?
Nous désignerons par « coïncidences positives » (CP) les cas où
l’étudiant a reconnu son signe, c’est-à-dire les cas où l’horoscope qu’il a
sélectionné correspond bien à son signe.
Les résultats des tests effectués de 1998 à 2004 sont résumés dans le
tableau suivants :
          année                   signes connus          signes inconnus
                                   n         CP            n         CP
           1998                   69           8          67          2
           1999                    -           -          78          5
           2000                    -           -          65         12
           2001                   76          19          65          3
           2002                   71           9          71          9
           2003                   57          10          72          5
           2004                   81          15          44          2
           total                 354          61       418462        38
6.4.1. Test de la fiabilité des horoscopes.
Nous considérons l’ensemble des quatre années et retenons les tests où
les signes n’étaient pas connus, afin d'éviter des biais éventuels.
Nous avons un échantillon de 462 réponses, avec 38 coïncidences
positives.
Si ces coïncidences positives étaient dues au hasard uniquement, c’est-à-
dire si chaque individu répondait au hasard, il aurait une chance sur 12 de
choisir l’horoscope correspondant à son signe.
Par le hasard seul, nous nous attendrions donc à
462
                                 = 38,5 CP
                           12
Or, nous avons 38 CP, ce qui est pratiquement égal au nombre attendu
par l’action du hasard.
C’est très mauvais signe pour la fiabilité des horoscopes !
Nous allons cependant utiliser nos connaissances en statistique pour
analyser ces tests de manière plus quantitative.
(a) le nombre de coïncidences positives est compatible avec l’action
    du hasard seul.
Dans le cas d’une répartition au hasard, le nombre de CP doit être, en
            1
moyenne,      du nombre de réponses.
           12
La proportion de CP,       p+ ,     vaut donc :
                                     1
                             p+ =         = 0,083
                                     12
avec un écart type
                  p+ (1 - p+)             0,083 × = 0,013
                                                0,917
               σ              =
               +=
                       n                       418
L’intervalle de confiance à 95 % vaut donc :
                                 0,083 ± 0,026
ou encore :
                                [0,057 ; 0,109]
La valeur obtenue par l’étude de notre échantillon vaut :
       38
 p+ =       = 0,082
       462
Elle se trouve dans l’intervalle de confiance pour une répartition due au
hasard.
On peut donc conclure que la petite différence entre la valeur mesurée et
la valeur attendue est parfaitement compatible avec le hasard : c’est ce
qu’on appelle une fluctuation statistique.
Exemple de fluctuation statistique.
Si on lance une pièce de monnaie, on s’attend à avoir, en moyenne, autant
de « pile » que de « face ».
Sur 100 lancers, on n’aura que rarement 50 « pile » et 50 « face »
exactement. Les écarts par rapport à ce nombre moyen sont les
fluctuations statistiques.
ex :     47 pile et 53 face,
         52 pile et 48 face,…
(b) Avec quelle confiance pouvons-nous conclure à la non-fiabilité
     des horoscopes ?
Nous devons tout d’abord définir ce que nous entendons par fiabilité des
horoscopes.
Si l’astrologie était une science exacte, elle devrait être capable de prédire
avec certitude ce qui va nous arriver.
Toutefois, nous ne lui en demanderons pas tant.
Nous dirons que les horoscopes sont fiables à 50 % si les prédictions
concernant notre signe sont celles qui correspondent le mieux à ce qui
nous arrive, dans au moins un cas sur deux.
Dans ce cas, au moins la moitié des individus devraient reconnaître leur
signe.
Remarque : cette définition est très peu contraignante pour l’astrologie.
En effet :
    nous ne lui demandons pas de prédire avec précision ce qui va nous
       arriver, mais seulement que la prédiction concernant notre signe
       soit la plus proche de ce qui va nous arriver, parmi les 12
       prédictions.
    nous ne demandons pas que cela se produise pour tous les
       individus, mais seulement pour la moitié d’entre eux.
Soit p+ la proportion des individus qui reconnaissent leur signe.
Dans notre échantillon, nous avons :
                                   38
                            p+ =         = 0,082
                                   462
avec un écart type :
                  p+ (1 - p+)            0,082 × = 0,013
                                               0,918
               σ              =
               +=
                       n                      462
Pour que les horoscopes soient fiables à 50 %, il faudrait, dans la
                             p+ ≥ 0.5, donc un écart minimum avec
population, une proportion
notre valeur d’échantillon :
                         δ− 0,418
                         + = 0,5 0,082 =
et donc :
                                δ 0,418 ≅!
                                +
                                        32
                                  =
                         Z0 =
                                σ 0,013
                                +

Cette valeur est si grande qu’elle ne figure pas dans notre table de la loi
normale.
En fait, il n’y a pas une chance sur des milliards de milliards pour que les
horoscopes testés soient fiables à 50 %.
Notre échantillon nous permet d’exclure cette hypothèse avec une
certitude quasi absolue.
Les horoscopes pourraient-ils être fiables à 25 % ?
Pourrait-il y avoir une chance sur 4 pour que la prédiction qui correspond
le mieux à un individu soit celle de son signe ?
Dans ce cas, au moins un quart des individus devraient reconnaître leur
signe.
Il faudrait donc p+ ≥ 0.25, et donc un écart
                         δ − 0,168
                         + = 0,25 0,082 =
et :
                                δ 0,168 ≅
                                +
                                        12,9
                                  =
                         Z0 =
                                σ 0,013
                                +

Cette valeur est, une fois de plus, en dehors de la table de la loi normale.
Notre test nous permet d’exclure avec une quasi certitude que les
horoscopes testés soient fiables une fois sur 4.
Tester une fiabilité plus faible n’a pas beaucoup de sens car :
   être fiable moins d’une fois sur 4, c’est plutôt être non fiable.
      le hasard seul donne une fiabilité d’une fois sur 12→on risque
  
      évidemment de trouver que les horoscopes sont fiables une fois sur
      12 !
En résumé :
Nous pouvons conclure que la fiabilité des horoscopes testés est nulle,
puisque l’on obtiendrait le même résultat en choisissant les signes au
hasard.
Si vous lisez les horoscopes, rien ne sert de connaître votre signe. Les
prévisions des autres signes s’appliquent tout aussi bien (ou plutôt : tout
aussi mal) à vous !
6.4.2. La connaissance du signe a-t-elle influencé les
réponses ?
Nous allons tâcher de déterminer si les individus testés se sont laissé
influencer par la connaissance de leur signe, lorsque celui-ci était indiqué.
Dans les tests avec signes connus, nous avons 61 coïncidences positives
sur 354 réponses, soit une proportion:
                                    61
                             pc =         = 0,172
                                    354
avec un écart type:
                                0,172 × = 0,020
                                        0,828
                       σ
                       c=
                                     354
Avec les signes inconnus, nous avons 38 coïncidences positives sur 462
réponses, soit une proportion:
                                    38
                             pi =         = 0,082
                                    462
avec un écart type:
                                 0,082 × = 0,013
                                         0,918
                        σ
                        i=
                                      462
On a donc une proportion plus grande de coïncidences positives lorsque
les signes sont connus, ce qui laisse supposer que certains individus se
sont laissé influencer par la connaissance de leur signe .
Cette différence est-elle statistiquement significatives ?
Avec quelle confiance pouvons-nous affirmer que cette différence ne peut
pas être due à l'action du hasard (fluctuation statistique).
Nous pouvons supposer que les deux échantillons sont indépendants car
nous ne voyons pas comment la réponse à un des test pourrait influencer
la réponse à l'autre.
Nous avons une différence de proportion:
                      δ 0,172 −
                      = pc − 0,082 = 0,090
                           pi =
entre les CP avec signes connus et inconnus.
L'écart type sur cette différence vaut:
               σ δ = σ c + σ i = 0,020 2 + 0,013 2 = 0,024
                           2    2


Nous obtenons donc:
                                 δ 0,090 ≅
                                         3,7
                                  =
                          Z0 =
                                 σ 0,024
                                 δ

D'après la loi normale, la probabilité qu'un tel écart soit dû au hasard est
de 0,0001.
Nous pouvons donc conclure avec 99,99 % de confiance que la
connaissance du signe a effectivement influencé les réponses.
Ce résultat illustre l'importance de réaliser les tests quot;à l'aveuglequot;, sans que
les sujets testés puissent se laisser influencer par la connaissance
d'informations de nature à influencer le résultat. Même en essayant de ne
pas tenir compte de ces informations, on risque fort de se laisser
influencer.
                                7Corrélation
7.1. Corrélation entre deux variables
Jusqu'à présent, nous nous sommes intéressés à des questions du type:
 quelle est la taille moyenne des garçons belges âgés d'une vingtaine
    d'années ?
 quelle est la probabilité pour qu'un médicament soit efficace ?
     quel pourcentage de voix un parti politique recueillera-t-il aux
      prochaines élections ?
  quelle fraction des barres métalliques produites par une usine sera-t-
      elle rejetée par le client ?
  le poids moyen des pains produits dans une boulangerie est-il
      supérieur à 800 grammes ?
 Dans toutes ces questions, nous étudions le comportement statistique
 d'une seule variable: taille, efficacité du médicament, pourcentage de
 voix, longueur des barres, poids des pains.
 Il existe cependant toute une gamme de problèmes statistiques où l'on
 s'intéresse à la relation entre plusieurs variables.
 Exemples:
  les individus les plus grands sont-ils les plus lourds ?
  le revenu d'une famille a-t-il une influence sur les résultats scolaires
      des enfants ?
  y a-t-il une relation entre le tabagisme et les cancers du poumon ?
  le rendement en céréales dépend-il de la quantité d'engrais utilisée ?
  la productivité d'une entreprise est-elle liée au salaire des ouvriers ou
      employés ?
 Dans ces questions, nous désirons savoir si le comportement d'une
 variable est influencé par la valeur d'une autre variable:
   taille                 poids                    revenu           résultats
tabagisme                cancer                  rendement           engrais

La relation peut être causale ou non
Pour étudier les relations ou corrélations entre deux variables statistiques,
on peut les porter sur un graphique.
Exemple: relation entre la taille et le poids des individus
pour chaque individu de l'échantillon, on porte sur un graphique:
    sa taille en abscisse (l'abscisse d'un point correspond à sa projection

    sur l'axe horizontal)
    son poids en ordonnée (l'ordonnée d'un point correspond à sa

    projection sur l'axe vertical)
chaque individu est donc, dans ce graphique, représenté par un point
(point représentatif)
soit un individu mesurant 172 cm et pesant 66 kg:
70
           p
               66
           o
            i
                         point représentatif
           d 60
            s
          (kg)

               50
                 150          160         170          180
                                                 172
                                     taille (cm)
Dans le graphe, il y aura donc autant de points qu'il y a d'individus dans
l'échantillon.

                                                         .
                                                .
        p
                                      .
        o 80                                .
                                     ...
         i                       .. . . . .
        d 70         .     . .. . . . .
         s
                       . . .. . . .
       (kg) 60
                     ..
             50
               150      160       170        180    190      200
                                    taille (cm)
 Relation entre le poids et la taille dans un échantillon de 30 individus.
On peut (par la pensée ou réellement) tracer une droite qui passe au
mieux par ces points (au milieu du quot;nuagequot; de points).
Si cette droite quot;montequot;, on dira qu'il y a corrélation positive entre les deux
variables.
Si elle quot;descendquot;, c'est une corrélation négative.
Si elle est quot;horizontalequot;, ou si on ne peut pas décider, c'est qu'il y a
absence de corrélation.
Corrélation positive:
              y
                                                          .
                                                 .
                                   .     .
                                  ...
                              .. . . . .
                  .     . .. . . . .
                    . . .. . . .
                  ..

                                                              x
Corrélation négative:
              y
                  . .. .
                     . . . .. .. . .
                       .. .
                   .
                             . . . .. . .
                                  ..       .
                                   .
                                         .                .
                                                               x
Absence de corrélation:
 y                                           y
                                                            . ..
                                                          . .. . . .
                                                        . . .. . . .
                        . .. . . . . .
               . .. .                                   .. . . . . .
       .                     .
                         . . . ..                          .
           . . . .. .                                        . ..
             .           .

                                   x                                             x
La qualité de la corrélation entre deux variables peut se mesure par la
dispersion des points autour de la relation moyenne.
Corrélation parfaite:
y
                                                        .
                                             ..
                                    ..
                                .
                           .
                                                            x
Bonne corrélation (corrélation forte):
                    y
                                                  . ..
                                                .
                                         .. .
                                ..
                           ..
                                                            x
Mauvaise corrélation (corrélation faible):
                    y                               .
                                                        .
                                             ..
                                                        .
                                         .
                                .               .
                                    .
                           ..
                                                            x
Exemple:
1. Corrélation entre le poids et la taille pour les garçons de 2ème
   candidature communication (1998).
              100

                                           .. . .
           p
                                            . .. ..
           o 80
                                         .. . . .. .
                                         . . . ..
           i
                                         ..
           d                             . . . ..
                                      .. . .
           s
                                     .
         (kg) 60
                                 .

               40
                 140         160       180        200
                               taille (cm)
   On constate une augmentation du poids avec la taille (corrélation
   positive): les garçons les plus grands sont généralement les plus
   lourds.
   Mais la dispersion des points est assez grande: la corrélation est assez
   faible.
2. Corrélation entre le poids et la taille pour les filles de 2ème candi.
   commu.


           p
           o 80
           i
                                 . . .... .
                                       .
           d
                            .          .
           s
                               . .. ..... .
                                   .
         (kg) 60             . . .. .. .. .
                               . .... . .
                                 ..... ..
                                  . . ..
                                   .
               40
                 140         160       180        200
                               taille (cm)
   On ne constate pas de relation entre le poids et la taille (absence de
   corrélation): le poids des filles est indépendant de leur taille.
(Les filles les plus grandes sont donc les plus minces)
7.2. Méthode des moindres carrés
Si on se contente de tracer à main levée la droite qui quot;passe au mieuxquot; par
les points représentatifs, différentes personnes vont obtenir des résultats
différents.
Il existe une méthode mathématique pour déterminer la quot;meilleurequot;
droite: c'est la méthode des moindres carrés.
Elle consiste, dans sa version la plus simple, à trouver la droite qui
minimise les carrés des écarts des points représentatifs à cette droite.
              Y
                                                                            d5

                                                        d3         d4
                                d1
                                                 d2



                                                        X
Trouver la droite telle que la somme des carrés des écarts d1, d2,… soit
minimale:
                                             ∑ d 2 = minimum
Soit
                                                      Y = aX + b
l'équation de la droite cherchée (droite de régression)
Les coefficients a et b peuvent être calculés à partir des formules
suivantes:
Pente:
                    (X           )(        )(       )( )        (      )(             )
                             − X . Y1 − Y + X 2 − X . Y2 − Y +  + X n − X . Yn − Y
               a=        1

                                      (X − X ) + (X − X ) ++ (X − X )
                                                 2           2                   2
                                        1               2               n

ou:
                                                 ∑ ( X − X ).(Y − Y )
                                            a=
                                                   ∑ (X − X )2
Ordonnée à l'origine:
                                 b = Y − a. X
Rappels:
                                     1
                                       ∑X
                                 X=
                                     n
                                    1
                                 Y = ∑Y
                                    n
7.3. Coefficient de corrélation
Le signe de la pente a donne le sens de corrélation, mais pas sa qualité.
a>0         corrélation positive
a<0         corrélation négative
a=0         pas de corrélation
La qualité de la corrélation peut être mesurée par un coefficient de
corrélation r
                                ∑ ( X − X ).(Y − Y )
                        r=
                             ∑ ( X − X ) × ∑ (Y − Y )2
                                        2


Le coefficient de corrélation est compris entre −1 et +1.
Plus il s'éloigne de zéro, meilleure est la corrélation
r = +1       corrélation positive parfaite
r = −1       corrélation négative parfaite
r=0          absence totale de corrélation
Quelques exemples de corrélation
(le coefficient de corrélation r est indiqué dans chaque cas)
Exemples:
1. Supposons un échantillon aléatoire de 4 firmes pharmaceutiques
   présentant les dépenses de recherche X et les profits Y suivants (en
   milliers de dollars):
                          X                    Y
                         40                    50
                         40                    60
                         30                    40
                         50                    50
   Trouvez la droite de régression et le coefficient de corrélation.
   Calculons tout d'abord X et Y:
                     1       1                       160
                       ∑ X = 4 ( 40 + 40 + 30 + 50) = 4 = 40
                  X=
                     n
                     1      1                        200
                  Y = ∑ Y = ( 50 + 60 + 40 + 50 ) =      = 50
                     n      4                         4
   Complétons le tableau suivant:
                                                                                 ( X − X ) .(Y − Y )
                                                      ( X − X ) 2 (Y − Y ) 2
                  Y
       X                  X−X               Y −Y
       40           50          0             0            0            0               0
       40           60          0            +10           0           +100             0
                               −10           −10
       30           40                                    +100         +100            +100
       50           50         +10            0           +100          0               0
   On a donc:
                             ∑ ( X − X ) = 200
                                        2



                             ∑ (Y − Y ) = 200
                                       2



                             ∑ ( X − X ).(Y − Y ) = 100
   Les coefficients de la droite de régression sont:
                         ∑ ( X − X )(Y − Y ) = 100 = 0,5
                                   .
                    a=
                           ∑(X − X )
                                       2
                                               200

                    b = Y − a. X = 50 − 0,5 × 40 = 50 − 20 = 30
   Et le coefficient de corrélation:
                    ∑ ( X − X )(Y − Y )
                              .                      100             100
         r=                                  =                   =       = 0,5
                ∑ ( X − X ) × ∑ (Y − Y )           200 × 200         200
                           2             2
La corrélation est positive et de qualité moyenne
       Y
      60


      50


      40

                      30           40             50          60     X
2. La corrélation entre la taille (X) et le poids (Y) pour les garçons de
   2ème candi. commu. donne les résultats suivants:
   (a) droite de régression           Y = aX + b
          a = 0,816 b = -77,0
   (b) coefficient de corrélation
          r = 0,61
   la corrélation est donc positive, de qualité moyenne
3. De la même manière, pour les filles, on obtient:
   (a) droite de régression
          a = 0,239 b = 16,6
   (b) coefficient de corrélation
          r = 0,20
   la corrélation est positive (les filles les plus grandes tendent à être les
   plus lourdes), mais de très mauvaise qualité (r proche de zéro).
Remarques:
1. Le coefficient de corrélation nous donne des informations sur
   l'existence d'une relation linéaire (sous forme d'une droite) entre les
   deux grandeurs considérées.
   Un coefficient de corrélation nul ne signifie pas l'absence de toute
   relation entre les deux grandeurs. Il peut exister une relation non
   linéaire entre elles.
   (cf. exemple (f) ci-dessus: la connaissance de X nous donne des
   informations sur la valeur de Y).
2. Il ne faut pas confondre corrélation et relation causale.
   Une bonne corrélation entre deux grandeurs peut révéler une relation
   de cause à effet entre elles, mais pas nécessairement.
   Exemples:
   1. Si on compare la durée de vie des individus à la quantité de
       médicaments pour le cœur qu'ils ont absorbée, on observera
       probablement une corrélation négative. Il serait imprudent de
       conclure que la prise de médicaments pour le cœur abrège la vie
       des individus…
       (en fait, dans ce cas, la corrélation est l'indice d'une cause
       commune: la maladie de cœur).
   2. Le soleil tire son énergie de réactions nucléaires transformant
       l'hydrogène en hélium. Notre société tire une bonne part de son
       énergie de la combustion du pétrole. Si on compare, année après
       année, la quantité d'hélium contenue dans le soleil au prix moyen
       du pétrole, on obtiendra une bonne corrélation positive, sans qu'il
       y ait la moindre relation de cause à effet, ni aucune cause
       commune.
   3. Depuis une dizaine d'années, la taille de mon fils cadet, né en
       1989, est très bien corrélée avec la puissance de calcul des
       ordinateurs personnels. Cette excellente corrélation ne révèle bien
       évidemment aucune relation de cause à effet, ni cause commune.
   L'existence d'une corrélation, aussi bonne soit elle, n'est jamais la
   preuve d'une relation de cause à effet.

Contenu connexe

Tendances

Cours gestion de dechets aujourdhui.ppt
Cours gestion de dechets aujourdhui.pptCours gestion de dechets aujourdhui.ppt
Cours gestion de dechets aujourdhui.pptahmat5
 
controle microbiologique des médicaments
controle microbiologique des médicamentscontrole microbiologique des médicaments
controle microbiologique des médicamentsKamilia Donghae
 
La pollution de l'air
La pollution de l'airLa pollution de l'air
La pollution de l'airlfiduras
 
Algorithme Colonie de fourmis
Algorithme Colonie de fourmisAlgorithme Colonie de fourmis
Algorithme Colonie de fourmiskamar MEDDAH
 
05_Elements_Traces_Toxiques
05_Elements_Traces_Toxiques05_Elements_Traces_Toxiques
05_Elements_Traces_ToxiquesFrançois PARANT
 
cours de spectroscopie
cours de spectroscopiecours de spectroscopie
cours de spectroscopieAnne Baudouin
 
Changement climatique
Changement climatiqueChangement climatique
Changement climatiqueFAO
 
Cannabis et sécurite routière
Cannabis et sécurite routièreCannabis et sécurite routière
Cannabis et sécurite routièreCNPAC
 
2 désinfection. eaux de consommation
2 désinfection. eaux de consommation2 désinfection. eaux de consommation
2 désinfection. eaux de consommationhayasoon
 
Plan dexperience
Plan dexperiencePlan dexperience
Plan dexperienceNihal Bén
 
Guide des antidotes d'urgence
Guide des antidotes d'urgenceGuide des antidotes d'urgence
Guide des antidotes d'urgencePatou Conrath
 
chap3 numerisation_des_signaux
chap3 numerisation_des_signauxchap3 numerisation_des_signaux
chap3 numerisation_des_signauxBAKKOURY Jamila
 
modulation AM FM PM
modulation AM FM PMmodulation AM FM PM
modulation AM FM PMHassnTAI
 
Lairetmoi module-transversal-cycle3
Lairetmoi module-transversal-cycle3Lairetmoi module-transversal-cycle3
Lairetmoi module-transversal-cycle3t0t021
 

Tendances (20)

Cours gestion de dechets aujourdhui.ppt
Cours gestion de dechets aujourdhui.pptCours gestion de dechets aujourdhui.ppt
Cours gestion de dechets aujourdhui.ppt
 
controle microbiologique des médicaments
controle microbiologique des médicamentscontrole microbiologique des médicaments
controle microbiologique des médicaments
 
La pollution de l'air
La pollution de l'airLa pollution de l'air
La pollution de l'air
 
Algorithme Colonie de fourmis
Algorithme Colonie de fourmisAlgorithme Colonie de fourmis
Algorithme Colonie de fourmis
 
Cours fondement du multimedia
Cours fondement du multimediaCours fondement du multimedia
Cours fondement du multimedia
 
Loi Normale
Loi NormaleLoi Normale
Loi Normale
 
05_Elements_Traces_Toxiques
05_Elements_Traces_Toxiques05_Elements_Traces_Toxiques
05_Elements_Traces_Toxiques
 
cours de spectroscopie
cours de spectroscopiecours de spectroscopie
cours de spectroscopie
 
Changement climatique
Changement climatiqueChangement climatique
Changement climatique
 
Cannabis et sécurite routière
Cannabis et sécurite routièreCannabis et sécurite routière
Cannabis et sécurite routière
 
2 désinfection. eaux de consommation
2 désinfection. eaux de consommation2 désinfection. eaux de consommation
2 désinfection. eaux de consommation
 
تلوث التربة 1
تلوث التربة 1تلوث التربة 1
تلوث التربة 1
 
Plan dexperience
Plan dexperiencePlan dexperience
Plan dexperience
 
Guide des antidotes d'urgence
Guide des antidotes d'urgenceGuide des antidotes d'urgence
Guide des antidotes d'urgence
 
chap3 numerisation_des_signaux
chap3 numerisation_des_signauxchap3 numerisation_des_signaux
chap3 numerisation_des_signaux
 
Traitement des eaux usées
Traitement des eaux uséesTraitement des eaux usées
Traitement des eaux usées
 
Presentation these
Presentation thesePresentation these
Presentation these
 
L'environnement
L'environnementL'environnement
L'environnement
 
modulation AM FM PM
modulation AM FM PMmodulation AM FM PM
modulation AM FM PM
 
Lairetmoi module-transversal-cycle3
Lairetmoi module-transversal-cycle3Lairetmoi module-transversal-cycle3
Lairetmoi module-transversal-cycle3
 

Plus de Samcruz Trentain (15)

Residanat
ResidanatResidanat
Residanat
 
Palu allgeriehist-sit-evol-
Palu allgeriehist-sit-evol-Palu allgeriehist-sit-evol-
Palu allgeriehist-sit-evol-
 
La Chaine Respiratoire
La Chaine RespiratoireLa Chaine Respiratoire
La Chaine Respiratoire
 
Cycle De Krebs
Cycle De KrebsCycle De Krebs
Cycle De Krebs
 
métabolisme du Cholesteol
métabolisme du Cholesteolmétabolisme du Cholesteol
métabolisme du Cholesteol
 
Excelbase
ExcelbaseExcelbase
Excelbase
 
Hmatopose
HmatoposeHmatopose
Hmatopose
 
Letissusanguin
LetissusanguinLetissusanguin
Letissusanguin
 
Stat
StatStat
Stat
 
Monohybridisme
MonohybridismeMonohybridisme
Monohybridisme
 
DéNombrement
DéNombrementDéNombrement
DéNombrement
 
7tissuosseux
7tissuosseux7tissuosseux
7tissuosseux
 
6tissucartilagineux
6tissucartilagineux6tissucartilagineux
6tissucartilagineux
 
Embryo Sem3
Embryo Sem3Embryo Sem3
Embryo Sem3
 
les arteres du membre superieur
les arteres du membre superieurles arteres du membre superieur
les arteres du membre superieur
 

loi normale

  • 1. 1.1. Loi normale ou de Gauss Supposons que nous tirions des échantillons aléatoires d'une population dont la taille moyenne est de 170 cm, avec un écart type de 10 cm. Traçons l'histogramme de la taille, avec des classes de 5cm de large. Examinons l’aspect de ces histogrammes. Echantillon de 10 individus Echantillon de 100 individus 20 n n o o m m b b 3 15 r r e e d’ d’ 2 i i 10 n n d d i i v v 1 5 i i d d u u s s 0 120 140 160 180 200 120 140 160 180 200 taille (cm) taille (cm) Echantillon de 1000 individus Echantillon de 10.000 individus n n o o 150 m m b b 1500 r r e e d’ d’ 100 i i 1000 n n d d i i v v 50 i i 500 d d u u s s 0 0 120 140 160 180 200 120 140 160 180 200 taille (cm) taille (cm)
  • 2. Echantillon de 100.000 individus. (ici, les classes sont de 2 cm) n o m b 6000 r e d’ i 4000 n d i v 2000 i d u s 0 120 140 160 180 200 taille (cm) Au fur et à mesure que la taille de l'échantillon augmente (et que la taille des classes diminue), l'histogramme devient de plus en plus régulier et se rapproche d'une courbe en cloche, appelée loi normale. Loi normale n o m b r e d’ i n d i v i d u s 120 140 160 180 200 taille (cm) La loi normale est la loi statistique la plus répandue et la plus utile. Elle représente beaucoup de phénomènes aléatoires. De plus, de nombreuses autres lois statistiques peuvent être approchées par la loi normale, tout spécialement dans le cas des grands échantillons.
  • 3. Son expression mathématique est la suivante: ( x−µ ) 2 − n n( x ) = 2σ 2 e 2π σ n(x) σσ µσ µ µ σ − x + • µ est la moyenne • σ l’écart type • n le nombre total d’individus dans l’échantillon • n(x) le nombre d’individus pour lesquels la grandeur analysée a la valeur x. Lorsque la distribution des individus dans une population obéit à la loi normale, on trouve : A. 50 % des individus en dessous de la moyenne µ et 50 % au-dessus (la loi normale est symétrique) 50 % x µ
  • 4. B. 68 % des individus entre µ−σ et µ+σ 68 % x µ µ+ σ −µ σ C. 95 % des individus entre µ-1,96σ et µ+1,96σ, que nous arrondirons à l’intervalle [µ−2σ, µ+2σ] 95 % x µσµ µσ −2 +2 D. 99,7 % des individus entre µ−3σ et µ+3σ (il y a donc très peu de chances qu’un individu s’écarte de la moyenne de plus de 3σ). 99,7 % x µσ − µ µσ 3 +3 1.2. Calcul des probabilités Pour calculer les probabilités associées à la loi normale, on utilise généralement la loi normale réduite : c’est une loi normale pour laquelle µ = 0 et σ = 1. La table suivante permet de déterminer la probabilité que la variable x s’écarte de la moyenne µ de plus de z0 × σ vers le haut. Pour obtenir z0, on calcule l’écart par rapport à la moyenne : δ = x - µ, δ puis on divise par l’écart type : z 0 = σ
  • 5. 2ème décimale de z0 Z0 0 1 2 3 4 5 6 7 8 9 0.0 .500 .496 .492 .488 .484 .480 .476 .472 .468 .464 0.1 .460 .456 .452 .448 .444 .440 .436 .433 .429 .425 0.2 .421 .417 .413 .409 .405 .401 .397 .394 .390 .386 0.3 .382 .378 .374 .371 .367 .363 .359 .356 .352 .348 0.4 .345 .341 .337 .334 .330 .326 .323 .319 .316 .312 0.5 .309 .305 .302 .298 .295 .291 .288 .284 .281 .278 0.6 .274 .271 .268 .264 .261 .258 .255 .251 .248 .245 0.7 .242 .239 .236 .233 .230 .227 .224 .221 .218 .215 0.8 .212 .209 .206 .203 .200 .198 .195 .192 .189 .187 0.9 .184 .181 .179 .176 .174 .171 .169 .166 .164 .161 1.0 .159 .156 .154 .152 .149 .147 .145 .142 .140 .138 1.1 .136 .133 .131 .129 .127 .125 .123 .121 .119 .117 1.2 .115 .113 .111 .109 .107 .106 .104 .102 .100 .099 1.3 .097 .095 .093 .092 .090 .089 .087 .085 .084 .082 1.4 .081 .079 .078 .076 .075 .074 .072 .071 .069 .068 1.5 .067 .066 .064 .063 .062 .061 .059 .058 .057 .056 1.6 .055 .054 .053 .052 .051 .049 .048 .047 .046 .046 1.7 .045 .044 .043 .042 .041 .040 .039 .038 .038 .037 1.8 .036 .035 .034 .034 .033 .032 .031 .031 .030 .029 1.9 .029 .028 .027 .027 .026 .026 .025 .024 .024 .023 2.0 .023 .022 .022 .021 .021 .020 .020 .019 .019 .018 2.1 .018 .017 .017 .017 .016 .016 .015 .015 .015 .014 2.2 .014 .014 .013 .013 .013 .012 .012 .012 .011 .011 2.3 .011 .010 .010 .010 .010 .009 .009 .009 .009 .008 2.4 .008 .008 .008 .008 .007 .007 .007 .007 .007 .006 2.5 .006 .006 .006 .006 .006 .005 .005 .005 .005 .005 2.6 .005 .005 .004 .004 .004 .004 .004 .004 .004 .004 2.7 .003 .003 .003 .003 .003 .003 .003 .003 .003 .003 2.8 .003 .002 .002 .002 .002 .002 .002 .002 .002 .002 2.9 .002 .002 .002 .002 .002 .002 .002 .001 .001 .001 Lorsque l’on doit déterminer une probabilité à partir de la loi normale, on essaie de se ramener à une probabilité considérée dans la table.
  • 6. Quelques cas concrets sont illustrés ci-dessous. 1) x > µ + z0σ Prob (table) x µσ µ µσ −z0 + z0 2) x < µ - z0σ Prob (table) x µσ µ µσ −z0 + z0 3) x plus éloigné de µ que z0σ 2× (table) Prob x µσ µ µσ −z0 + z0 4) x plus proche de µ que z0σ 1-2× (table) Prob x µσ µ µσ −z0 + z0 5) x < µ + z0σ 1-Prob (table) x µσ µ µσ −z0 + z0
  • 7. Exemples : Le poids des tomates produites par un jardinier obéit à une loi normale de moyenne 200 gr et d'écart type 40 gr. a. Calculez la probabilité que le poids d'une tomate excède 250 gr. δ = 250 − 200 = 50 gr Solution: δ 50 z0 = = = 1,25 σ 40 Prob = 0,106 = 10,6 % b. Calculez la probabilité que le poids d'une tomate soit inférieur à 100 gr. δ = 100 − 200 = −100 gr Solution: la loi normale est symétrique → on ne s'occupe pas du signe δ 100 z0 = = = 2,5 σ 40 moins de 100 gr: on s'écarte donc de la valeur moyenne µ = 200 gr de plus de z0 × σ Prob = 0,006 = 0,6 % c. Calculez la probabilité que le poids d'une tomate soit inférieur à 230 gr. δ = 230 − 200 = 30 gr Solution: δ 30 z0 = = = 0,75 σ 40 L’intervalle (< 230 gr) considéré contient la valeur moyenne (200 gr) → on prend 1 – Prob(table): Prob = 1 − 0,227 = 0,773 = 77,3 % d. Calculez la probabilité que le poids d’une tomate ne s’écarte pas de la valeur moyenne de plus de 20 gr. Solution: on calcule d’abord la probabilité que le poids s’écarte de plus de 20 gr, vers le haut ou vers le bas : δ = 20 gr σ = 40 δ 20 z0 = = = 0,5 σ 40 Prob = 0,309 = 30,9 % On doit multiplier par 2 car on considère les deux côtés → Prob = 2 × 0,309 = 0,618 On a donc une prob. de 0,618 que le poids s'écarte de µ de plus de 20 gr, et donc une prob. 1-0,618 que le poids ne s'écarte pas de plus de 20 gr. Réponse: 0,382 = 38,2 % 1.3. Forme de la distribution d'échantillonnage Supposons que nous analysions une population quelconque à partir d'un ensemble d'échantillons.
  • 8. Pour chacun de ces échantillons, nous calculons une valeur moyenne X qui est une estimation de la moyenne de la population µ. Bien entendu, les estimations X différeront généralement de la vraie moyenne µ. Nous désirons savoir comment les différentes déterminations X vont se distribuer autour de la vraie moyenne µ. n(x) n(x) population x x échantillon 1 X X échantillon 2 Traçons l'histogramme des valeurs moyennes, c'est-à-dire le nombre d'échantillons pour lesquels la valeur moyenne X prend une certaine valeur (se situe dans une certaine classe). n(x) histogramme des valeurs moyennes X x La figure suivante montre l’histogramme des valeurs moyennes X pour des échantillons de tailles croissantes tirés des populations indiquées sur la première ligne.
  • 9. Lorsque la taille de l'échantillon est suffisamment grande, (n ≥ 10) la distribution de la moyenne a une forme approximativement normale. L'écart type sur la moyenne est: () σ σX= n Quelle que soit la population sous-jacente, si on utilise des échantillons suffisamment grands (au moins 10 à 20 individus), la précision de la valeur moyenne peut être calculée à partir de la loi normale.
  • 10. Il y a 68 % (≅2/3) de chances que la vraie moyenne µ soit dans l'intervalle compris entre X-σ et X+σ. n x− x x+σ σ x Il y a 95 % de chances que la vraie moyenne µ soit dans l'intervalle compris entre X-2σ et X+2σ. n x− 2σ x+2σ x x Exemples 1. Une organisation de consommateurs désire savoir si le poids réel des pains de 800gr produits dans une boulangerie est bien conforme au poids annoncé. Pour cela, elle prélève 100 pains au hasard. Elle obtient un poids moyen de 780 gr, avec un écart type de 80 gr. Quelle est la probabilité que le boulanger triche en moyenne sur le poids de ses pains? n = 100 X = 780 gr s = 80 gr () s 80 σX= = = 8 gr Ecart type de X: n 100 Il n'y a pas tricherie si µ est de 800 gr au moins, c'est-à-dire 20 gr au- dessus de X. 20 20 z0 = = = 2,5 () σX 8 D'après la table, la probabilité que µ soit supérieur à X d'au moins 2,5 σ( X ) est de 0,006. 100 - 100 × 0,006 = 100 - 0,6 = 99,4 Il y a 99,4 % de chance pour que le boulanger triche → on peut raisonnablement conclure à la tricherie ! 2. Dans une autre boulangerie, l’échantillon de 100 pains conduit au résultat suivant : n = 100 X = 795 gr s = 50 gr
  • 11. () s 50 σX= = = 5 gr n 100 800 − 795 5 z0 = = =1 5 5 D’après la table, la probabilité que µ soit supérieur ou égal à 800 gr est de 0,159. Il y a donc 84,1 % de chances que ce boulanger triche. Même si la présomption est forte, ce n’est pas vraiment suffisant pour conclure à la tricherie ! 3. Dans une troisième boulangerie, on obtient : n = 100 X = 810 gr s = 50 gr () s 50 σX= = = 5 gr n 100 800 − 810 10 Z0 = = − = −2 5 5 D'après la table, la probabilité que µ soit inférieur ou égal à 800 gr est de 0,023. Il n'y a que 2,3 % de chances que ce boulanger triche. On peut conclure qu'il est honnête ! 4. Le revenu moyen d'un échantillon représentatif de 16 ménages s'élève à 62 000 F net par mois, avec un écart type de 16 000 F. a. Quelle est la probabilité que le revenu moyen de l'ensemble de la population soit inférieur à 60 000 F ? Solution: n = 16 X = 62000 s = 16000 () s 16000 16000 σX= = = = 4000 4 n 16 δ = 60000 − 62000 = −2000 δ 2000 z0 = = = 0,5 () σ X 4000 < 60 000: s'écarte de X de plus de 0,5×σ( X ) → on prend la valeur de la table Prob = 0,309 = 30,6 % b. Quelle est la probabilité que le revenu moyen de la population soit inférieur à 65 000 F ? Solution: δ = 65000 − 62000 = 3000 δ 3000 Z0 = = = 0,75 () σX 4000 < 65000: ne s'écarte pas de X de plus de 0,75 ×σ( X ) vers le haut → on prend la valeur p de la table et on calcule 1-p p = 0,227 1-p = 0,773 = 77,3 %
  • 12. 5.4. Intervalles de confiance Nous avons vu que la moyenne X d'un échantillon aléatoire permet d'estimer la vraie moyenne µ de la population. Nous voudrions estimer également la précision de cette moyenne, c'est-à- dire donner une marge d'erreur ou un intervalle de confiance. Nous pouvons utiliser les tables de la loi normale pour estimer ces intervalles de confiance. En général nous adopterons l'intervalle de confiance à 95%, soit à 2σ( X ). Nous pourrons donc écrire, soit: () µ = X ± 2σ X soit, plus explicitement: Il y a 95 chances sur 100 que µ se situe entre () () X − 2σ X X + 2σ X et Si nous tirons une série d’échantillons aléatoires de la population, dans 19 cas sur 20 (en moyenne), µ se trouvera dans l’intervalle de confiance X ± 2σ( X ).
  • 13. Exemples : 1. La taille moyenne d'un échantillon de 51 filles de 2ème candi. commu. est de 167,9 cm. L'écart type de cet échantillon est de 5,3 cm. Si nous supposons que cet échantillon est représentatif de la taille des filles belges âgées d'une vingtaine d'années, nous pouvons calculer la taille moyenne de cette population, avec sa marge d'erreur : n = 51 X = 167,9 s = 5,3 ( ) 5,3 = 0,74 σX= 51 2σ ( X ) = 1,48 ≅ 1,5 cm Avec 95 % de confiance, nous pouvons donc dire que la taille moyenne de la population vaut: µ = 167,9 ± 1,5 cm ce qui revient à dire qu'il y a 95 chances sur 100 pour que la taille moyenne des filles belges de 20 ans se situe entre 166,4 et 169,4 cm. 2. La taille moyenne d'un échantillon de 35 garçons de 2ème candi. commu. est de 182,9 cm En supposant de même l'échantillon représentatif, nous pouvons donner un intervalle de confiance pour la taille des garçons belges de 20 ans. n = 35 X = 182,9 s = 6,7 ( ) 6,7 = 1,13 σX= 35 2σ ( X ) = 2,26 ≅ 2,3 cm Avec 95 % de confiance, on a donc: µ = 182,9 ± 2,3 cm 5.5. Comparaison de deux échantillons indépendants Des échantillons sont indépendants lorsqu’une modification dans l’un d’eux n’a pas d’influence sur les autres. Par exemple, un échantillon de filles et un échantillon de garçons sélectionnés pour déterminer le poids moyen des filles et celui des garçons sont indépendants. Par contre, les personnes qui affirment voter pour un parti A ou pour un parti B dans un sondage politique ne forment pas deux échantillons indépendants car si une personne de plus déclare voter pour A, il y a un électeur potentiel en moins pour B (les résultats de A et B s’influencent). La différence moyenne est simplement: X D = X1 − X 2 Son écart type est donné par:
  • 14. () () 2 2 σ D = σ1 X + σ 2 X (formule approchée, mais suffisamment précise) Pour la taille des filles et des garçons: X D = 182,9 − 167,9 = 15 cm σ D = 0,74 2 + 1,132 = 1,35 cm L'intervalle de confiance à 95 % est de: 2 × 1,35 = 2,7 cm XD = 15,0 ± 2,7 cm Si nous désirons maintenant répondre à la question suivante: les garçons sont-ils plus grands, en moyenne, que les filles? différence moyenne de taille: XD = 15,0 cm  écart type de cette différence: σD = 1,35 cm  nombre d'écarts types au-dessus de 0 cm (0 cm ≡ pas de  différence de taille) 15,0 z0 = = 11,1111 1,35 Dans une distribution normale, la probabilité d'avoir une valeur qui s'écarte de la moyenne de plus de 11 σ est inférieure à 2.10-28 et donc complètement négligeable. Si nos échantillons sont représentatifs, il n'y a donc aucune chance que la différence de taille soit due au hasard. Sur base de nos échantillons, nous sommes donc pratiquement certains que les garçons sont, en moyenne, plus grands que les filles.
  • 15. Exemple On sélectionne un échantillon de 25 paysans syldaves. La superficie de leurs terres s'élève à 24 hectares en moyenne, avec un écart type de 5 hectares. Pour un échantillon de 16 paysans bordures, la superficie moyenne des terres est de 26 hectares, avec un écart type de 8 hectares. Quelle est la probabilité que les paysans syldaves aient, en moyenne, plus de terres que les bordures ? Solution: Ces échantillons sont indépendants. • échantillon syldave: n1 = 25 X 1 = 24 s1 = 5 écart type sur la moyenne: σ ( X 1 ) = 5 5 = =1 5 25 • n2 = 16 X 2 = 26 s2 = 8 échantillon bordure: ()8 8 écart type sur la moyenne: σ X 2 = = =2 16 4 différence moyenne: (syldave-bordure): X D = X 1 − X 2 = 24 − 26 = −2 écart type sur la différence: () () 2 2 = 12 + 2 2 = 5 ≅ 2,24 σ D = σ X1 +σ X2 les syldaves ont plus de terre en moyenne que les bordures si la différence est >0→s'écarte de la valeur moyenne calculée de plus de 2 δ 2 z0 = = ≅ 0,89 σ D 2,24 table→Prob = 0,187 = 18,7 % de chances que la superficie moyenne soit supérieure en Syldavie. 6 Les proportions 6.1. Ecart type pour les proportions Considérons le cas d’un sondage politique. Ici, on ne désire plus estimer la moyenne d'une grandeur sur une population, mais la proportion des individus de cette population qui se rangent dans une catégorie (p.ex., qui déclarent voter pour le P.U.B.). Exemple Un institut de sondage interroge un échantillon représentatif de 200 électeurs, qui ont le choix entre 4 partis politiques. Les résultats du sondage sont les suivants: parti nombre d’intentions de vote PUB 24 PET 35 PAF 69 PIF 61
  • 16. ne se prononcent pas 11 Notons p la proportion d'individus d'une classe dans l'échantillon Si n1 est le nombre d'individus dans la classe 1 et n le nombre total d'individus dans l'échantillon, on a : n1 p1 = n et de même n2 p2 = , n
  • 17. Dans notre sondage, les proportions sont les suivantes: parti proportion PUB 0,120 PET 0,175 PAF 0,345 PIF 0,305 n.s.p. 0,055 Si l'échantillon est représentatif, la proportion p dans l'échantillon est une approximation de la proportion π dans la population. Pour des échantillons suffisamment grands, les proportions suivent une loi normale, avec un écart type d'échantillon de: π -π (1 ) σ p= n En général, la proportion π dans la population n'est pas connue. On la remplace alors par la proportion p dans l'échantillon p(1 − p ) σp ≅ n Les proportions obéissent à des lois comparables à celles des moyennes. Une différence importante est que l'écart type peut être calculé à partir des proportions (pour les moyennes, il devait être connu par ailleurs). Nous pouvons donc calculer les intervalles de confiance à 95 % sur les intentions de vote. 0,12 (1 - 0,12) σ(PUB) = = 0,023 p 200 0,175 (1 - 0,175) σ(PET) = = 0,027 p 200 0,345 (1 - 0,345) σ(PAF) = = 0,034 p 200 0,305 (1 - 0,305) σ(PIF) = = 0,033 p 200 Les intervalles de confiance à 95 % sont de 2σP
  • 18. Les résultats du sondage sont les suivants: parti intentions de vote 12,0 ± 4,6 % PUB 17,5 ± 5,4 % PET 34,5 ± 6,8 % PAF 30,5 ± 6,6 % PIF 6.2. Les proportions sont des moyennes Considérons une élection opposant deux partis A et B. Considérons la grandeur x = nombre de voix qu’un électeur apporte au parti B. C’est une variable discrète qui peut prendre deux valeurs : x=0 si l’électeur vote pour A x= 1 si l’électeur vote pour B Soient nA le nombre d’électeurs votant pour A nB le nombre d’électeurs votant pour B n le nombre total d’électeurs p la proportion d’électeurs votant pour B Calculons la valeur moyenne de x : 1 1 Σn x= X= (0 + 0 +…+ 1 + 1 +…) n nA nB nB X= =p n La proportion est donc la moyenne de x.
  • 19. Calculons l’écart type sur x (ou plutôt son carré, appelé variance) : 1 Σ 2 2 (x - X) σ= n 1 2 2 2 2 2 [(0 - p) + (0 - p) +…+ (1 - p) + (1 - p) +…] σ= n nA nB 1 2 2 2 σ= [ nA p + nB ( 1 - p ) ] n nA nB 2 2 2 (1-p) σ= p+ n n 2 2 2 σ=(1-p)p +p(1 -p) 2 σ = p (1 - p) [ p + 1 - p ] On a donc σp (1 - p) = Et donc, σ σ= σ p ) = σ X ) = ( ( p n p(1-p) σ= n 6.3. Exemples Exemple 1 : n = 100 n1 = 60 n2 = 40 n2 40 n1 60 = = 0,4 = = 0,6 p2 = p1 = n 100 n 100 p1 (1 - p1) 0,6 ×0,4 σ 1= = = 0,049 n 100 Pourquoi = ? * p2 (1 - p2) 0,4 ×0,6 σ 2= = = 0,049 n 100 * Quand il n'y a que deux choix possibles, et pas d'abstentions, on a n2 = n − n1 et l'incertitude sur n2 est forcément la même que sur n1. Ce n'est plus vrai à partir de 3 choix. On ne peut pas calculer σD = σ p + σ p2 2 2 1 car les 2 échantillons ne sont pas indépendants ! Le parti 1 gagne les élections si p1>0,5
  • 20. δ 0,6 - 0,5 = 0,1 = σ 0,049 = 0,1 δ = = 2,04 z0 = σ 0,049 table → Prob = 0,021 →il y a 2,1 % de chances que p1 < 0,5 →il y a 100-2,1 = 97,9 % de chances que le parti 1 remporte les élections Exemple 2 : On constate un défaut dans 20 % des voitures d’un modèle. Un garagiste, qui a vendu 50 voitures de ce modèle, fait revenir tous ses clients afin de remplacer une pièce aux voitures défectueuses. Pour cela, il a commandé 12 pièces de rechange. Quelle est la probabilité qu’il n’ait pas suffisamment de pièces ? Solution : La proportion de voitures défectueuses vaut π = 0,2. Dans l’échantillon de 50 voitures, on s’attend à la même proportion, avec un écart type : π (1 - π 0,2 × ) 0,8 σ = = 0,057 p= n 50 Il n’aura pas suffisamment de pièces si le nombre de voitures défectueuses est supérieur à 12, ou au moins égal à 13. On a le choix entre deux critères : 12 13 ou p≥ p> 50 50 Dans ce cas, on obtient un meilleur résultat en appliquant la correction de continuité et en choisissant 12,5 plutôt que 12 ou 13. Nous retiendrons donc 12,5 = 0,25 p> 50 Pour qu’il n’ait pas assez de pièces de rechange, il faut donc que la proportion s’écarte de la valeur moyenne de plus de δ = 0,25 − 0,2 = 0,05 On obtient donc : δ 0,05 z0 = = = 0,88 0,057 σ La probabilité d’avoir un écart au moins aussi élevé est, d’après la table de la loi normale, de 0,189.
  • 21. Il y a donc 18,9 % de risques que le garagiste n’ait pas assez de pièces de rechange. 6.4. Illustration : test de la fiabilité des horoscopes Lors de deux leçons, nous organisons un test destiné à mesurer la fiabilité des horoscopes. Dans ce but, nous distribuons des feuilles reprenant les horoscopes de la semaine précédente. Chaque étudiant présent lit ces horoscopes et indique :  son signe astrologique ;  lequel de ces horoscopes correspond le mieux à ce qui lui est arrivé lors de la semaine écoulée. Pour le premier test, les signes astrologiques sont indiqués. Dans le second test, ces signes ne sont pas indiqués et l’ordre en est modifié. Ce test a pour but de répondre à deux questions :  les horoscopes sont-ils fiables ?  la connaissance du signe a-t-elle une influence sur les réponses des individus testés ? Nous désignerons par « coïncidences positives » (CP) les cas où l’étudiant a reconnu son signe, c’est-à-dire les cas où l’horoscope qu’il a sélectionné correspond bien à son signe. Les résultats des tests effectués de 1998 à 2004 sont résumés dans le tableau suivants : année signes connus signes inconnus n CP n CP 1998 69 8 67 2 1999 - - 78 5 2000 - - 65 12 2001 76 19 65 3 2002 71 9 71 9 2003 57 10 72 5 2004 81 15 44 2 total 354 61 418462 38 6.4.1. Test de la fiabilité des horoscopes. Nous considérons l’ensemble des quatre années et retenons les tests où les signes n’étaient pas connus, afin d'éviter des biais éventuels. Nous avons un échantillon de 462 réponses, avec 38 coïncidences positives. Si ces coïncidences positives étaient dues au hasard uniquement, c’est-à- dire si chaque individu répondait au hasard, il aurait une chance sur 12 de choisir l’horoscope correspondant à son signe. Par le hasard seul, nous nous attendrions donc à
  • 22. 462 = 38,5 CP 12 Or, nous avons 38 CP, ce qui est pratiquement égal au nombre attendu par l’action du hasard. C’est très mauvais signe pour la fiabilité des horoscopes ! Nous allons cependant utiliser nos connaissances en statistique pour analyser ces tests de manière plus quantitative.
  • 23. (a) le nombre de coïncidences positives est compatible avec l’action du hasard seul. Dans le cas d’une répartition au hasard, le nombre de CP doit être, en 1 moyenne, du nombre de réponses. 12 La proportion de CP, p+ , vaut donc : 1 p+ = = 0,083 12 avec un écart type p+ (1 - p+) 0,083 × = 0,013 0,917 σ = += n 418 L’intervalle de confiance à 95 % vaut donc : 0,083 ± 0,026 ou encore : [0,057 ; 0,109] La valeur obtenue par l’étude de notre échantillon vaut : 38 p+ = = 0,082 462 Elle se trouve dans l’intervalle de confiance pour une répartition due au hasard. On peut donc conclure que la petite différence entre la valeur mesurée et la valeur attendue est parfaitement compatible avec le hasard : c’est ce qu’on appelle une fluctuation statistique. Exemple de fluctuation statistique. Si on lance une pièce de monnaie, on s’attend à avoir, en moyenne, autant de « pile » que de « face ». Sur 100 lancers, on n’aura que rarement 50 « pile » et 50 « face » exactement. Les écarts par rapport à ce nombre moyen sont les fluctuations statistiques. ex : 47 pile et 53 face, 52 pile et 48 face,… (b) Avec quelle confiance pouvons-nous conclure à la non-fiabilité des horoscopes ? Nous devons tout d’abord définir ce que nous entendons par fiabilité des horoscopes. Si l’astrologie était une science exacte, elle devrait être capable de prédire avec certitude ce qui va nous arriver. Toutefois, nous ne lui en demanderons pas tant. Nous dirons que les horoscopes sont fiables à 50 % si les prédictions concernant notre signe sont celles qui correspondent le mieux à ce qui nous arrive, dans au moins un cas sur deux.
  • 24. Dans ce cas, au moins la moitié des individus devraient reconnaître leur signe. Remarque : cette définition est très peu contraignante pour l’astrologie. En effet :  nous ne lui demandons pas de prédire avec précision ce qui va nous arriver, mais seulement que la prédiction concernant notre signe soit la plus proche de ce qui va nous arriver, parmi les 12 prédictions.  nous ne demandons pas que cela se produise pour tous les individus, mais seulement pour la moitié d’entre eux. Soit p+ la proportion des individus qui reconnaissent leur signe. Dans notre échantillon, nous avons : 38 p+ = = 0,082 462 avec un écart type : p+ (1 - p+) 0,082 × = 0,013 0,918 σ = += n 462 Pour que les horoscopes soient fiables à 50 %, il faudrait, dans la p+ ≥ 0.5, donc un écart minimum avec population, une proportion notre valeur d’échantillon : δ− 0,418 + = 0,5 0,082 = et donc : δ 0,418 ≅! + 32 = Z0 = σ 0,013 + Cette valeur est si grande qu’elle ne figure pas dans notre table de la loi normale. En fait, il n’y a pas une chance sur des milliards de milliards pour que les horoscopes testés soient fiables à 50 %. Notre échantillon nous permet d’exclure cette hypothèse avec une certitude quasi absolue. Les horoscopes pourraient-ils être fiables à 25 % ? Pourrait-il y avoir une chance sur 4 pour que la prédiction qui correspond le mieux à un individu soit celle de son signe ?
  • 25. Dans ce cas, au moins un quart des individus devraient reconnaître leur signe. Il faudrait donc p+ ≥ 0.25, et donc un écart δ − 0,168 + = 0,25 0,082 = et : δ 0,168 ≅ + 12,9 = Z0 = σ 0,013 + Cette valeur est, une fois de plus, en dehors de la table de la loi normale. Notre test nous permet d’exclure avec une quasi certitude que les horoscopes testés soient fiables une fois sur 4. Tester une fiabilité plus faible n’a pas beaucoup de sens car :  être fiable moins d’une fois sur 4, c’est plutôt être non fiable. le hasard seul donne une fiabilité d’une fois sur 12→on risque  évidemment de trouver que les horoscopes sont fiables une fois sur 12 ! En résumé : Nous pouvons conclure que la fiabilité des horoscopes testés est nulle, puisque l’on obtiendrait le même résultat en choisissant les signes au hasard. Si vous lisez les horoscopes, rien ne sert de connaître votre signe. Les prévisions des autres signes s’appliquent tout aussi bien (ou plutôt : tout aussi mal) à vous ! 6.4.2. La connaissance du signe a-t-elle influencé les réponses ? Nous allons tâcher de déterminer si les individus testés se sont laissé influencer par la connaissance de leur signe, lorsque celui-ci était indiqué. Dans les tests avec signes connus, nous avons 61 coïncidences positives sur 354 réponses, soit une proportion: 61 pc = = 0,172 354 avec un écart type: 0,172 × = 0,020 0,828 σ c= 354
  • 26. Avec les signes inconnus, nous avons 38 coïncidences positives sur 462 réponses, soit une proportion: 38 pi = = 0,082 462 avec un écart type: 0,082 × = 0,013 0,918 σ i= 462 On a donc une proportion plus grande de coïncidences positives lorsque les signes sont connus, ce qui laisse supposer que certains individus se sont laissé influencer par la connaissance de leur signe . Cette différence est-elle statistiquement significatives ? Avec quelle confiance pouvons-nous affirmer que cette différence ne peut pas être due à l'action du hasard (fluctuation statistique). Nous pouvons supposer que les deux échantillons sont indépendants car nous ne voyons pas comment la réponse à un des test pourrait influencer la réponse à l'autre. Nous avons une différence de proportion: δ 0,172 − = pc − 0,082 = 0,090 pi = entre les CP avec signes connus et inconnus. L'écart type sur cette différence vaut: σ δ = σ c + σ i = 0,020 2 + 0,013 2 = 0,024 2 2 Nous obtenons donc: δ 0,090 ≅ 3,7 = Z0 = σ 0,024 δ D'après la loi normale, la probabilité qu'un tel écart soit dû au hasard est de 0,0001. Nous pouvons donc conclure avec 99,99 % de confiance que la connaissance du signe a effectivement influencé les réponses. Ce résultat illustre l'importance de réaliser les tests quot;à l'aveuglequot;, sans que les sujets testés puissent se laisser influencer par la connaissance d'informations de nature à influencer le résultat. Même en essayant de ne pas tenir compte de ces informations, on risque fort de se laisser influencer. 7Corrélation 7.1. Corrélation entre deux variables Jusqu'à présent, nous nous sommes intéressés à des questions du type:  quelle est la taille moyenne des garçons belges âgés d'une vingtaine d'années ?  quelle est la probabilité pour qu'un médicament soit efficace ?
  • 27. quel pourcentage de voix un parti politique recueillera-t-il aux prochaines élections ?  quelle fraction des barres métalliques produites par une usine sera-t- elle rejetée par le client ?  le poids moyen des pains produits dans une boulangerie est-il supérieur à 800 grammes ? Dans toutes ces questions, nous étudions le comportement statistique d'une seule variable: taille, efficacité du médicament, pourcentage de voix, longueur des barres, poids des pains. Il existe cependant toute une gamme de problèmes statistiques où l'on s'intéresse à la relation entre plusieurs variables. Exemples:  les individus les plus grands sont-ils les plus lourds ?  le revenu d'une famille a-t-il une influence sur les résultats scolaires des enfants ?  y a-t-il une relation entre le tabagisme et les cancers du poumon ?  le rendement en céréales dépend-il de la quantité d'engrais utilisée ?  la productivité d'une entreprise est-elle liée au salaire des ouvriers ou employés ? Dans ces questions, nous désirons savoir si le comportement d'une variable est influencé par la valeur d'une autre variable: taille poids revenu résultats tabagisme cancer rendement engrais La relation peut être causale ou non Pour étudier les relations ou corrélations entre deux variables statistiques, on peut les porter sur un graphique. Exemple: relation entre la taille et le poids des individus pour chaque individu de l'échantillon, on porte sur un graphique: sa taille en abscisse (l'abscisse d'un point correspond à sa projection  sur l'axe horizontal) son poids en ordonnée (l'ordonnée d'un point correspond à sa  projection sur l'axe vertical) chaque individu est donc, dans ce graphique, représenté par un point (point représentatif) soit un individu mesurant 172 cm et pesant 66 kg:
  • 28. 70 p 66 o i point représentatif d 60 s (kg) 50 150 160 170 180 172 taille (cm) Dans le graphe, il y aura donc autant de points qu'il y a d'individus dans l'échantillon. . . p . o 80 . ... i .. . . . . d 70 . . .. . . . . s . . .. . . . (kg) 60 .. 50 150 160 170 180 190 200 taille (cm) Relation entre le poids et la taille dans un échantillon de 30 individus. On peut (par la pensée ou réellement) tracer une droite qui passe au mieux par ces points (au milieu du quot;nuagequot; de points).
  • 29. Si cette droite quot;montequot;, on dira qu'il y a corrélation positive entre les deux variables. Si elle quot;descendquot;, c'est une corrélation négative. Si elle est quot;horizontalequot;, ou si on ne peut pas décider, c'est qu'il y a absence de corrélation. Corrélation positive: y . . . . ... .. . . . . . . .. . . . . . . .. . . . .. x Corrélation négative: y . .. . . . . .. .. . . .. . . . . . .. . . .. . . . . x Absence de corrélation: y y . .. . .. . . . . . .. . . . . .. . . . . . . .. . .. . . . . . . . . . . .. . . . . .. . . .. . . x x La qualité de la corrélation entre deux variables peut se mesure par la dispersion des points autour de la relation moyenne. Corrélation parfaite:
  • 30. y . .. .. . . x Bonne corrélation (corrélation forte): y . .. . .. . .. .. x Mauvaise corrélation (corrélation faible): y . . .. . . . . . .. x
  • 31. Exemple: 1. Corrélation entre le poids et la taille pour les garçons de 2ème candidature communication (1998). 100 .. . . p . .. .. o 80 .. . . .. . . . . .. i .. d . . . .. .. . . s . (kg) 60 . 40 140 160 180 200 taille (cm) On constate une augmentation du poids avec la taille (corrélation positive): les garçons les plus grands sont généralement les plus lourds. Mais la dispersion des points est assez grande: la corrélation est assez faible. 2. Corrélation entre le poids et la taille pour les filles de 2ème candi. commu. p o 80 i . . .... . . d . . s . .. ..... . . (kg) 60 . . .. .. .. . . .... . . ..... .. . . .. . 40 140 160 180 200 taille (cm) On ne constate pas de relation entre le poids et la taille (absence de corrélation): le poids des filles est indépendant de leur taille.
  • 32. (Les filles les plus grandes sont donc les plus minces) 7.2. Méthode des moindres carrés Si on se contente de tracer à main levée la droite qui quot;passe au mieuxquot; par les points représentatifs, différentes personnes vont obtenir des résultats différents. Il existe une méthode mathématique pour déterminer la quot;meilleurequot; droite: c'est la méthode des moindres carrés. Elle consiste, dans sa version la plus simple, à trouver la droite qui minimise les carrés des écarts des points représentatifs à cette droite. Y d5 d3 d4 d1 d2 X Trouver la droite telle que la somme des carrés des écarts d1, d2,… soit minimale: ∑ d 2 = minimum Soit Y = aX + b l'équation de la droite cherchée (droite de régression) Les coefficients a et b peuvent être calculés à partir des formules suivantes: Pente: (X )( )( )( ) ( )( ) − X . Y1 − Y + X 2 − X . Y2 − Y +  + X n − X . Yn − Y a= 1 (X − X ) + (X − X ) ++ (X − X ) 2 2 2 1 2 n ou: ∑ ( X − X ).(Y − Y ) a= ∑ (X − X )2
  • 33. Ordonnée à l'origine: b = Y − a. X Rappels: 1 ∑X X= n 1 Y = ∑Y n 7.3. Coefficient de corrélation Le signe de la pente a donne le sens de corrélation, mais pas sa qualité. a>0 corrélation positive a<0 corrélation négative a=0 pas de corrélation La qualité de la corrélation peut être mesurée par un coefficient de corrélation r ∑ ( X − X ).(Y − Y ) r= ∑ ( X − X ) × ∑ (Y − Y )2 2 Le coefficient de corrélation est compris entre −1 et +1. Plus il s'éloigne de zéro, meilleure est la corrélation r = +1 corrélation positive parfaite r = −1 corrélation négative parfaite r=0 absence totale de corrélation
  • 34. Quelques exemples de corrélation (le coefficient de corrélation r est indiqué dans chaque cas)
  • 35. Exemples: 1. Supposons un échantillon aléatoire de 4 firmes pharmaceutiques présentant les dépenses de recherche X et les profits Y suivants (en milliers de dollars): X Y 40 50 40 60 30 40 50 50 Trouvez la droite de régression et le coefficient de corrélation. Calculons tout d'abord X et Y: 1 1 160 ∑ X = 4 ( 40 + 40 + 30 + 50) = 4 = 40 X= n 1 1 200 Y = ∑ Y = ( 50 + 60 + 40 + 50 ) = = 50 n 4 4 Complétons le tableau suivant: ( X − X ) .(Y − Y ) ( X − X ) 2 (Y − Y ) 2 Y X X−X Y −Y 40 50 0 0 0 0 0 40 60 0 +10 0 +100 0 −10 −10 30 40 +100 +100 +100 50 50 +10 0 +100 0 0 On a donc: ∑ ( X − X ) = 200 2 ∑ (Y − Y ) = 200 2 ∑ ( X − X ).(Y − Y ) = 100 Les coefficients de la droite de régression sont: ∑ ( X − X )(Y − Y ) = 100 = 0,5 . a= ∑(X − X ) 2 200 b = Y − a. X = 50 − 0,5 × 40 = 50 − 20 = 30 Et le coefficient de corrélation: ∑ ( X − X )(Y − Y ) . 100 100 r= = = = 0,5 ∑ ( X − X ) × ∑ (Y − Y ) 200 × 200 200 2 2
  • 36. La corrélation est positive et de qualité moyenne Y 60 50 40 30 40 50 60 X 2. La corrélation entre la taille (X) et le poids (Y) pour les garçons de 2ème candi. commu. donne les résultats suivants: (a) droite de régression Y = aX + b a = 0,816 b = -77,0 (b) coefficient de corrélation r = 0,61 la corrélation est donc positive, de qualité moyenne 3. De la même manière, pour les filles, on obtient: (a) droite de régression a = 0,239 b = 16,6 (b) coefficient de corrélation r = 0,20 la corrélation est positive (les filles les plus grandes tendent à être les plus lourdes), mais de très mauvaise qualité (r proche de zéro). Remarques: 1. Le coefficient de corrélation nous donne des informations sur l'existence d'une relation linéaire (sous forme d'une droite) entre les deux grandeurs considérées. Un coefficient de corrélation nul ne signifie pas l'absence de toute relation entre les deux grandeurs. Il peut exister une relation non linéaire entre elles. (cf. exemple (f) ci-dessus: la connaissance de X nous donne des informations sur la valeur de Y).
  • 37. 2. Il ne faut pas confondre corrélation et relation causale. Une bonne corrélation entre deux grandeurs peut révéler une relation de cause à effet entre elles, mais pas nécessairement. Exemples: 1. Si on compare la durée de vie des individus à la quantité de médicaments pour le cœur qu'ils ont absorbée, on observera probablement une corrélation négative. Il serait imprudent de conclure que la prise de médicaments pour le cœur abrège la vie des individus… (en fait, dans ce cas, la corrélation est l'indice d'une cause commune: la maladie de cœur). 2. Le soleil tire son énergie de réactions nucléaires transformant l'hydrogène en hélium. Notre société tire une bonne part de son énergie de la combustion du pétrole. Si on compare, année après année, la quantité d'hélium contenue dans le soleil au prix moyen du pétrole, on obtiendra une bonne corrélation positive, sans qu'il y ait la moindre relation de cause à effet, ni aucune cause commune. 3. Depuis une dizaine d'années, la taille de mon fils cadet, né en 1989, est très bien corrélée avec la puissance de calcul des ordinateurs personnels. Cette excellente corrélation ne révèle bien évidemment aucune relation de cause à effet, ni cause commune. L'existence d'une corrélation, aussi bonne soit elle, n'est jamais la preuve d'une relation de cause à effet.