Licence 2-S3 SI-MASS
Année 2013
Cours de Probabilités
Pierre DUSART
2
Chapitre 1
Éléments d’analyse combinatoire
1.1 Quelques définitions
Disposition sans répétition : c’est une disposition où ...
4 CHAPITRE 1. ÉLÉMENTS D’ANALYSE COMBINATOIRE
1.3 Arrangement sans répétition
Soit Ω un ensemble avec card(Ω) = n. On cons...
Cours Probabilités / Pierre DUSART 5
1.6 Combinaison sans répétition
On considère un ensemble Ω constitué de n éléments to...
6 CHAPITRE 1. ÉLÉMENTS D’ANALYSE COMBINATOIRE
1.7 Combinaison avec répétition
C’est une disposition non-ordonnée de p élém...
Chapitre 2
Probabilités
2.1 Espace probabilisé
2.1.1 Événement et ensemble fondamental
Une épreuve est une expérience dont...
8 CHAPITRE 2. PROBABILITÉS
2.1.2 Axiomatique de Kolmogorov
A chaque événement, on associe un nombre positif compris entre ...
Cours Probabilités / Pierre DUSART 9
Théorème 2.1.1 (Théorème des probabilités totales) Soit Ω = ∪Bi un système complet d’...
10 CHAPITRE 2. PROBABILITÉS
2.2.2 Formule des probabilités composées
Proposition 2.2.1 (Formule des probabilités composées...
Cours Probabilités / Pierre DUSART 11
Que pensez-vous des deux définitions ? Sont-elles équivalentes ?
Exemple : On jette d...
12 CHAPITRE 2. PROBABILITÉS
Chapitre 3
Variables aléatoires
3.1 Définition d’une variable aléatoire
Une variable aléatoire est une fonction définie sur ...
14 CHAPITRE 3. VARIABLES ALÉATOIRES
Variable aléatoire continue
Une variable aléatoire est dite continue si elle peut pren...
Cours Probabilités / Pierre DUSART 15
Propriétés
1. F est non décroissante.
2. F est continue à gauche.
3. ∀x0 ∈ R, P(X = ...
16 CHAPITRE 3. VARIABLES ALÉATOIRES
Graphiquement, cela se traduit par la surface comprise entre a et b en dessous de la c...
Cours Probabilités / Pierre DUSART 17
De façon générale, pour Y une fonction de X, on a
E(Y ) =
n
i=1
piyi ou E(Y ) =
+∞
−...
18 CHAPITRE 3. VARIABLES ALÉATOIRES
La variance mesure la dispersion autour de la moyenne. L’écart-type est la racine carr...
Cours Probabilités / Pierre DUSART 19
Le coefficient d’aplatissement (kurtosis)
Généralement, on observe le coefficient d’apla...
20 CHAPITRE 3. VARIABLES ALÉATOIRES
Remarque (Loi des grands nombres). Cette inégalité est importante car elle permet de d...
Cours Probabilités / Pierre DUSART 21
Par identification avec le développement de ϕX(t) en série de Taylor-Mac-Laurin, on a...
22 CHAPITRE 3. VARIABLES ALÉATOIRES
Chapitre 4
Lois discrètes usuelles
4.1 Loi uniforme discrète
L’ensemble des valeurs possibles est {1, 2, 3, · · · , n}, n ...
24 CHAPITRE 4. LOIS DISCRÈTES USUELLES
On peut également déterminer sa fonction caractéristique :
ϕX(u) =
k
eiuk
·
1
n
=
1...
Cours Probabilités / Pierre DUSART 25
Définition 9 (Loi binomiale) On dit qu’une variable aléatoire X, à valeurs dans {0; 1...
26 CHAPITRE 4. LOIS DISCRÈTES USUELLES
4.5 Loi géométrique
La loi géométrique est la loi du nombre d’essais nécessaires po...
Cours Probabilités / Pierre DUSART 27
4.7 Approximation de B par P
Lorsque n devient grand, le calcul des probabilités d’u...
28 CHAPITRE 4. LOIS DISCRÈTES USUELLES
Chapitre 5
Couple de variables aléatoires
5.1 Couple de v.a. discrètes
5.1.1 Loi d’un couple de variables aléatoires discr...
30 CHAPITRE 5. COUPLE DE VARIABLES ALÉATOIRES
Supposons connue la loi du couple (X, Y ) : {((xi, yj), pij), (i, j) ∈ I × J...
Cours Probabilités / Pierre DUSART 31
1. P(X = xi et Y < yj) = F(xi+1, yj) − F(xi, yj).
2. Les fonctions de répartition FX...
32 CHAPITRE 5. COUPLE DE VARIABLES ALÉATOIRES
Réciproquement, on particularise le couple (a, a ) et (b, b ) en (xi, xi+1) ...
Cours Probabilités / Pierre DUSART 33
Propriétés :
1. r(X, Y ) ∈ [−1, 1].
2. Pour tous réels a, b, c, d (a, c = 0), r(aX +...
34 CHAPITRE 5. COUPLE DE VARIABLES ALÉATOIRES
Propriétés :
1. Pour tout A élément de P(Ω2
), alors P ( (X, Y ) ∈ A) = A
f(...
Cours Probabilités / Pierre DUSART 35
Réciproquement, si f(u, v) = fX(u) fY (v), alors
F(x, y) =
x
−∞
y
−∞
f(u, v) du dv =...
36 CHAPITRE 5. COUPLE DE VARIABLES ALÉATOIRES
Calcul de la fonction densité de Z = X + Y .
On suppose que X et Y sont indé...
Chapitre 6
Lois continues usuelles
6.1 Loi continue uniforme
La variable aléatoire U est distribuée uniformément sur l’int...
38 CHAPITRE 6. LOIS CONTINUES USUELLES
6.3 Loi normale
6.3.1 Rappel : calcul de l’intégrale de Gauss
Soient
G =
+∞
0
e−x2
...
Cours Probabilités / Pierre DUSART 39
6.3.3 Moments
Les moments de cette loi existent tous. Pour tout r ∈ N, le moment d’o...
40 CHAPITRE 6. LOIS CONTINUES USUELLES
6.3.5 Loi Normale ou de Laplace-Gauss
Plus généralement, on dit qu’une variable alé...
Cours Probabilités / Pierre DUSART 41
6.3.7 Somme de carrés de variables gaussiennes
Soient k variables aléatoires indépen...
42 CHAPITRE 6. LOIS CONTINUES USUELLES
6.4 Loi de Weibull
C’est une loi de probabilité continue appliquée aux durées de vi...
Cours Probabilités / Pierre DUSART 43
6.6 Loi de Gumbel
C’est une loi de modélisation de valeurs extrêmes dont la fonction...
44 CHAPITRE 6. LOIS CONTINUES USUELLES
Chapitre 7
Convergences
7.1 Convergence en probabilité
Rappel : Inégalité de Bienaymé-Chebyshev
Soit X une variable aléato...
46 CHAPITRE 7. CONVERGENCES
Ainsi pour tout ε > 0, il existe η > 0 (plus précisément η > 1
4nε2 ) tel que P(|Sn/n − p| ≥ ε...
Cours Probabilités / Pierre DUSART 47
Propriétés : (admises)
1. La convergence en probabilité entraîne la convergence en l...
48 CHAPITRE 7. CONVERGENCES
Corollaire 7.2.3 (Application pratique) On peut remplacer B(n, p) par P(λ) avec λ = np pour n
...
Cours Probabilités / Pierre DUSART 49
et limn→+∞ ϕZn (t) = e−t2
/2
qui est la fonction caractéristique de N(0, 1).
Ce théo...
50 CHAPITRE 7. CONVERGENCES
7.3.4 convergence de B vers N
Corollaire 7.3.4 (Théorème de Moivre-Laplace) Soit (Xn) une suit...
Table des matières
1 Éléments d’analyse combinatoire 3
1.1 Quelques définitions . . . . . . . . . . . . . . . . . . . . . ....
52 TABLE DES MATIÈRES
3.2.2 Paramètres de dispersion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
3....
Cours Probabilités / Pierre DUSART 53
6.3.3 Moments . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ...
Prochain SlideShare
Chargement dans…5
×

Cours probabilite 2013

830 vues

Publié le

probabilite

Publié dans : Économie & finance
0 commentaire
2 j’aime
Statistiques
Remarques
  • Soyez le premier à commenter

Aucun téléchargement
Vues
Nombre de vues
830
Sur SlideShare
0
Issues des intégrations
0
Intégrations
5
Actions
Partages
0
Téléchargements
39
Commentaires
0
J’aime
2
Intégrations 0
Aucune incorporation

Aucune remarque pour cette diapositive

Cours probabilite 2013

  1. 1. Licence 2-S3 SI-MASS Année 2013 Cours de Probabilités Pierre DUSART
  2. 2. 2
  3. 3. Chapitre 1 Éléments d’analyse combinatoire 1.1 Quelques définitions Disposition sans répétition : c’est une disposition où un élément peut apparaître 0 ou 1 fois. Disposition avec répétition : un élément peut figurer plus d’une fois. Disposition ordonnée : l’ordre d’obtention d’un élément est important. Ex. les éléments constituant la plaque minéralogique d’un véhicule. Disposition non-ordonnée : l’ordre d’obtention d’un élément n’est pas important, on n’en tient pas compte dans la caractérisation de la disposition. Ex. Les numéros issus d’un tirage du loto. Exemple 1 : On considère un ensemble à deux éléments {a, b}. Avec deux tirages sans répétition, on peut obtenir {a, b} ou {b, a} ; Avec deux tirages avec répétition, on peut obtenir {a, a}, {a, b}, {b, a} ou {b, b}. Cela correspond à un tirage avec remise. Exemple 2 : Prenons un jeu de dé à 6 faces (éléments discernables) numérotées par Ω = {1; 2; 3; 4; 5; 6}. Après 3 jets, nous obtenons la réalisation A = (2; 5; 1) ; nous réitérons les jets et nous obtenons B = (5; 1; 2). A et B sont équivalents si nous considérons que les dispositions sont non-ordonnées. En revanche, ils ne sont pas équivalents si nous sommes dans le cadre d’une disposition ordonnée. La valeur Factorielle(n), notée n! est définie par n! = 1 · 2 · · · n = n i=1 i. Par convention 0! = 1. Nous pouvons également utiliser une définition récursive n! = n · (n − 1)! 1.2 Arrangement avec répétition Soit Ω un ensemble composé de n éléments : card(Ω) = n. Nous constituons un échantillon E de taille p (card(E) = p) à partir des éléments de Ω. Si nous avons à choisir p éléments parmi n dans une disposition ordonnée (les places sont distinctes) et avec répétition (on peut choisir le même élément plusieurs fois), on dit qu’on a un arrangement de p éléments parmi n. Le nombre d’arrangement avec répétition est np . N.B. Dans ce cas, il est possible que p > n. Réaliser un arrangement avec répétition des éléments de Ω, c’est aussi définir une application d’un ensemble E à p éléments dans Ω. L’ensemble des applications de E dans Ω sera noté ΩE et on a #(ΩE ) = (#Ω)#E .
  4. 4. 4 CHAPITRE 1. ÉLÉMENTS D’ANALYSE COMBINATOIRE 1.3 Arrangement sans répétition Soit Ω un ensemble avec card(Ω) = n. On constitue un échantillon de taille p (p ≤ n), la disposition est ordonnée et sans répétition. On dit qu’on a un arrangement sans répétition de p éléments parmi n. Le nombre de p−arrangements d’un ensemble à n éléments est : Ap n = n! (n − p)! . Réaliser un arrangement sans répétition des éléments de Ω, c’est déterminer un p−uplet (x1, . . . , xp) d’éléments de Ω deux à deux distincts. C’est aussi définir une application injective d’un ensemble E à p éléments dans Ω à n éléments. 1.4 Permutation sans répétition C’est un arrangement sans répétition de n éléments parmi n. Pn = An n = n! (n − n)! = n! Réaliser une permutation des éléments de Ω, c’est réaliser un tirage exhaustif sans remise des éléments de Ω en tenant compte de l’ordre du tirage. C’est aussi définir une bijection de ensemble Ω sur lui-même. L’ensemble des permutations d’un ensemble à n éléments s’appelle le groupe symétrique d’ordre n et se note Sn. On a #Sn = n!. 1.5 Permutation avec répétition On appelle permutation avec répétition de p éléments où n sont distincts (n ≤ p), une disposition ordonnée de l’ensemble de ces p éléments où le premier figure p1 fois, le second p2 fois, etc., tel que p1 + p2 + · · · + pn = p. Le nombre de permutation avec répétitions est p! p1!p2!···pn! Démonstration : (Voir préalablement la définition d’une Combinaison sans répétition) Pour construire un p-uplet correspondant à une combinaison contenant p1 fois x1, p2 fois x2, ..., pn fois xn, il suffit : – de choisir les p1 emplacements des x1, parmi p1 + p2 + ... + pn places disponibles, – de choisir les p2 emplacements des x2, parmi les p2 + ... + pn places restantes, – etc. – de choisir les pn emplacements des xn, parmi les pn places restantes. Au total, il y a Cp1 p1+p2+···+pn · Cp2 p2+···+pn · · · Cpn pn = p! p1!p2! · · · pn! Exemple [Nombre d’anagrammes du mot MATHÉMATIQUE] : nous voyons qu’en échangeant les deux lettres A, le mot reste identique, et par contre en transposant les lettres É et E nous obtenons un mot différent. (M :2 ;A :2 ;T :2 ;H :1 ;É :1 ;I :1 ;Q :1 ;U :1 ;E :1) : #Anagrammes = 12!/(2!2!2!) Exemple 2 : Nombre de quartets binaires de poids de Hamming égal à 2 ; Il y en a 6 =4 !/(2 !2 !) : (0011),(0101),(0110),(1001),(1010),(1100).
  5. 5. Cours Probabilités / Pierre DUSART 5 1.6 Combinaison sans répétition On considère un ensemble Ω constitué de n éléments tous discernables. On forme un échantillon de taille p. Si la disposition est non-ordonnée et sans répétition, on dit que l’on a une combinaison sans répétition de p éléments parmi n. Le nombre de ces combinaisons se note Cp n ou n p . Cp n = n! p!(n − p)! Propriétés : 1. C0 n = Cn n = 1 2. Cp n = Cn−p n (complémentaire) 3. Cp n = Cp n−1 + Cp−1 n−1 (triangle de Pascal) 4. Cp n = Ap n p! Preuve que Cp n = Cp n−1 + Cp−1 n−1 : Cp n−1 + Cp−1 n−1 = (n − 1)! p!(n − p − 1)! + (n − 1)! (p − 1)!(n − p)! = (n − 1)! · (n − p) p!(n − p)! + p · (n − 1)! p!(n − p)! = n · (n − 1)! p!(n − p)! = Cp n Proposition 1.6.1 (Formule du binôme) (a + b)n = n p=0 Cp n · ap · bn−p . Exercice : preuve de la formule du binôme par récurrence sur n Preuve : (a + b)n+1 = (a + b)(a + b)n = (a + b) n p=0 Cp n · ap · bn−p = n p=0 Cp n · ap+1 · bn−p + n p=0 Cp n · ap · bn+1−p = n+1 p =1 Cp −1 n · ap · bn+1−p + n p=0 Cp n · ap · bn+1−p = n p=1 Cp−1 n · ap · bn+1−p + Cn n an+1 b0 + C0 na0 bn+1 + n p=1 Cp n · ap · bn+1−p = an+1 + n p=1 (Cp−1 n + Cp n Cp n+1 ) · ap · bn+1−p + bn+1 (a + b)n+1 = n+1 p=0 Cp n+1 · ap · bn+1−p .
  6. 6. 6 CHAPITRE 1. ÉLÉMENTS D’ANALYSE COMBINATOIRE 1.7 Combinaison avec répétition C’est une disposition non-ordonnée de p éléments, à choisir parmi n éléments discernables, avec répétition. Le nombre de combinaisons avec répétitions de n objets pris p à p est : Kp n = Cp n+p−1 Exemple : [jeu de domino] Les pièces sont constituées en disposant côte à côte deux éléments de l’ensemble {blanc, 1, 2, 3, 4, 5, 6}. Si nous retournons un domino, nous changeons l’ordre des deux éléments, mais le domino reste identique (C’est donc une disposition non-ordonnée). Nous avons une combinaison avec répétition de 2 éléments pris parmi les 7, et au total il y a K2 7 = 28 dominos dans un jeu. Toute p−combinaison avec répétition peut s’écrire : x1 : k1 fois, . . . , xn : kn fois avec 0 ≤ ki ≤ p et n i=1 ki = p. On peut ainsi mettre en bijection l’ensemble des p−combinaisons avec répétition des n éléments de E avec les applications f : E → N telles que x1 −→ f(x1) = k1 · · · xn −→ f(xn) = kn vérifiant n i=1 f(xi) = p Exemple : Dans un jeu de dominos, un domino est une 2-combinaison avec répétition de l’ensemble E = {blanc, 1, 2, 3, 4, 5, 6}. Chaque domino peut être représenté par une application de E dans {0, 1, 2} qui associe à chaque élément de E le nombre de fois où l’élément apparaît sur le domino. Ainsi le domino [blanc,blanc], est représenté par l’application f définie par f(blanc) = 2, f(1) = 0, f(2) = 0, f(3) = 0, f(4) = 0, f(5) = 0, f(6) = 0 et le domino [blanc, 1] par l’application f définie par f(blanc) = 1, f(1) = 1, f(2) = 0, f(3) = 0, f(4) = 0, f(5) = 0, f(6) = 0. On peut aussi mettre cet ensemble en bijection avec l’ensemble des manières de placer p objets dans n boîtes : boîte 1 · · · i · · · n x1 · · · xi · · · xn k1 · · · ki · · · kn Mais placer p objets dans n boîtes c’est aussi se donner n + p − 1 objets et décider que n − 1 d’entre eux seront des cloisons : 0 · · · 0 k1 | 0 · · · 0 k2 | · · · | 0 · · · 0 kn . Inversement, à toute façon de choisir n − 1 objets qui seront des cloisons, on peut associer une et une seule façon de placer p objets dans n boîtes. Il y a une bijection entre l’ensemble des p-combinaisons avec répétition de E et l’ensemble des p-uplets croissants d’éléments de E, ou encore des applications croissantes (au sens large) de {1, 2, ..., p} dans E. Propriété : Kp n = Kp−1 n + Kp n−1. Preuve : Cp n+p−1 = Cp−1 n+p−2 + Cp n+p−2
  7. 7. Chapitre 2 Probabilités 2.1 Espace probabilisé 2.1.1 Événement et ensemble fondamental Une épreuve est une expérience dont l’issue n’est pas prévisible car répétée dans des conditions identiques, elle peut donner lieu à des résultats différents ou aléatoires (expérience aléatoire). L’ensemble des résultats possibles s’appelle l’ensemble fondamental (ou référentiel, univers des possibles) et sera noté Ω. Un événement est un ensemble de résultats (un sous-ensemble de l’univers) d’une expérience aléatoire. Comme l’événement est une affirmation concernant le résultat d’une expérience, nous devons pouvoir dire, pour tout résultat de l’univers, si l’événement se réalise ou non. Un événement donné, souvent défini par une proposition, est identifié à la partie de l’univers pour laquelle il est réalisé. On exige que la collection C des événements dispose de la structure d’une algèbre de Boole : 1. Ω ∈ C; ∅ ∈ C. 2. si A ∈ C; ⇒ A ∈ C; 3. si A, B ∈ C ⇒ A ∪ B ∈ C et A ∩ B ∈ C. On peut préciser le calcul de probabilités d’un événement E. De manière simplifiée, la probabilité théorique vaut P(E) = nombre de cas favorables nombre total de cas . Exemple 1 : Si on lance un dé à 6 faces, le référentiel est composé des six faces Ω = {1, 2, 3, 4, 5, 6}. Exemple 2 : Si on lance trois fois une pièce, le référentiel est composé des 23 arrangements avec répétition des 2 faces distinctes notées P et F : Ω = {PPP, PPF, PFP, PFF, FPP, FPF, FFP, FFF}. Exemple 3 : Si on lance trois pièces identiques simultanément, le référentiel est composé des 3-combinaisons avec répétition des 2 faces distinctes notées P et F : Ω = {PPP, PPF, FFP, FFF}. de cardinal K3 2 . Question : “On lance trois pièces de monnaie. Quelle est la probabilité que toutes trois retombent du même côté, que ce soit pile ou face ?” Définition 1 Deux événements A et B sont dits incompatibles s’ils ne peuvent se réaliser simultanément c’est-à-dire lorsque l’intersection des sous-ensembles A et B est vide : A ∩ B = ∅.
  8. 8. 8 CHAPITRE 2. PROBABILITÉS 2.1.2 Axiomatique de Kolmogorov A chaque événement, on associe un nombre positif compris entre 0 et 1, sa probabilité. La théorie moderne des probabilités repose sur l’axiomatique suivante : Définition 2 On appelle probabilité sur (Ω, C) (où Ω est l’ensemble des événements et C une classe de parties de Ω), ou loi de probabilité, une application P de C dans [0, 1] telle que : 1. Pour tout événement E, 0 ≤ P(E) ≤ 1. 2. P(Ω) = 1 3. pour tout ensemble dénombrable d’événements incompatibles A1, A2, ..., An, on a P(∪Ai) = P(Ai). (σ-additivité de P) Définition 3 On appelle espace probabilisé le triplé (Ω, C, P) où Ω est l’ensemble fondamental, C est une collection de sous-ensembles de Ω (la collection des événements), qui possède la structure précédente de σ-algèbre de Boole et P : C → [0, 1] est une mesure de probabilité sur C. Propriétés élémentaires : de l’axiomatique de Kolmogorov, on peut déduire les propriétés suivantes : 1. P(∅) = 0 2. P(A) = 1 − P(A) 3. P(A ∪ B) = P(A) + P(B) − P(A ∩ B) 4. P(A) ≤ P(B) si A ⊂ B (inégalité de Boole) 5. P(∪iAi) ≤ i P(Ai) (Il n’y a stricte égalité que si les événements Ai sont deux à deux incompatibles.) 6. Si la suite (An) croît vers A (c’est-à-dire ∀n, An ⊂ An+1 et ∪An = A) alors lim P(An) = P(A). 7. Continuité monotone séquentielle. Soient A1 ⊃ A2 ⊃ · · · ⊃ An ⊃ ∅. Si limn→∞ An = ∅ alors limn→∞ P(An) = 0 Démonstration : 1. Soit E un événement quelconque. Comme E ∪ ∅ = E, P(E ∪ ∅) = P(E). D’autre part, on sait que E ∩ ∅ = ∅ (tout événement est incompatible avec l’événement impossible) et d’après le 3ème axiome, P(E ∪ ∅) = P(E) + P(∅). Des deux égalités, on obtient P(∅) = 0. 2. A ∪ A = Ω et A ∩ A = ∅ P(Ω) = P(A ∪ A) = P(A) + P(A) = 1 d’où P(A) = 1 − P(A) 3. On découpe selon une partition de A ∪ B : on a P(A ∪ B) = P (A ∩ B) ∪ (B ∩ A) ∪ (A ∩ B) . Ces ensembles sont deux à deux incompatibles d’où P(A∪B) = P(A∩B)+P(B∩A)+P(A∩B). De plus, P(A) = P(A ∩ B) + P(A ∩ B) et P(B) = P(B ∩ A) + P(A ∩ B), d’où P(A ∩ B) = P(A) − P(A ∩ B) et P(B ∩ A) = P(B) − P(A ∩ B), valeurs que l’on remplace dans la première égalité obtenue. 4. D’après la propriété précédente et la positivité de la probabilité, on a P(A ∪ B) = P(A) + P(B) − P(A ∩ B) ≤ P(A) + P(B), 5. Formule précédente que l’on peut généraliser à un nombre quelconque d’événements : P(∪iAi) ≤ i P(Ai) avec égalité si des événements sont deux à deux incompatibles. 6. On pose B1 = A1 et ∀n ≥ 2, Bn = AnAn−1. Les Bi sont disjoints et vérifient ∪n≥1Bn = ∪n≥1An et ∀n ≥ 1, ∪n k=1Bk = An. Par la propriété de σ-additivité, n≥1 P(Bn) = P(∪n≥1An) et ∀n ≥ 1, n k=1 P(Bk) = P(An). Ainsi limn→∞ P(An) = P(∪nAn) = P(A). 7. On note A = ∩An. Comme An ⊃ An+1, An ⊂ An+1. On pose B1 = A1 et Bn+1 = An+1An. Ainsi ∪nBn = ∪nAn = A et ∪n k=1Bk = An. Ainsi limn→∞ P(An) = limn P(∪Bk) = P(A). En passage au complémentaire, limn→∞ P(An) = P(A). On peut prendre A = ∅.
  9. 9. Cours Probabilités / Pierre DUSART 9 Théorème 2.1.1 (Théorème des probabilités totales) Soit Ω = ∪Bi un système complet d’événe- ments (i.e. tel que les {Bi} constituent une partition de Ω). Alors ∀A : P(A) = i P(A ∩ Bi). Exemples de construction : 1. Si Ω = {x1, . . . , xn} est fini, on définit une probabilité sur P(Ω) en se donnant n nombres pi tels que i pi = 1 en posant P({xi}) = pi. On parle d’équiprobabilité si pour tout i, P({xi}) = 1 n . Dans ce cas, P(A) = card(A) n . 2. Si Ω = {xn, n ∈ N} est dénombrable, on définit une probabilité sur P(Ω) en se donnant une série de terme général pn convergente à termes positifs et de somme égale à 1 en posant P({xi}) = pi. (par exemple : pn = 1 2n+1 ) 3. Si Ω est un intervalle ]a, c[, où a, c appartiennent à R ∪ {−∞, ∞}, on peut définir une probabilité sur tous les intervalles inclus dans Ω en définissant une probabilité sur des intervalles de la forme ]a, b[. Par exemple, P(]a, b[= b a ϕ(t)dt où ϕ est une fonction positive qui vérifie c a ϕ(t)dt = 1. 4. Si Ω =]0, 1[2 , on obtient une probabilité en posant P(A) =surface de A. 2.2 Probabilité conditionnelle On considère la réalisation de deux événements A et B. Que peut-on déduire sur la probabilité de l’événement B sachant que l’événement A est réalisé ? Cette probabilité est appelée probabilité conditionnelle de A sachant B et se note P(A/B) ou PB(A). Par définition, on a P(A/B) = P(A ∩ B) P(B) . Cette probabilité a posteriori est dite Probabilité de Bayes. Exercice : montrer que PB est une probabilité sur Ω. 2.2.1 Formule de Bayes Comme P(B/A) = P (A∩B) P (A) , on a P(A/B) = P (A∩B) P (B) = P (B/A)P (A) P (B) . La formule de Bayes est P(A/B) = P(B/A)P(A) P(B) . On remarque que P(B) = P(A ∩ B) + P(A ∩ B) = P(B/A)P(A) + P(B/A)P(A), ainsi P(A/B) = P(B/A)P(A) P(B/A)P(A) + P(B/A)P(A) . Plus généralement si {Aj} est une partition de l’ensemble des possibles, pout tout i, P(Ai/B) = P(B/Ai)P(Ai) j P(B/Aj)P(Aj) . Exemple : Soit un événement A qui peut dépendre de N causes Ci différentes et incompatibles deux à deux (on ne peut avoir deux causes réalisées simultanément). Etant donnée la réalisation de l’événement A, quelle est la probabilité que ce soit Ci qui en soit la cause ?
  10. 10. 10 CHAPITRE 2. PROBABILITÉS 2.2.2 Formule des probabilités composées Proposition 2.2.1 (Formule des probabilités composées) Soient n événements A1, ..., An tels que P(A1 ∩ · · · ∩ An) = 0. Alors : P(A1 ∩ · · · ∩ An) = P(A1)P(A2|A1)P(A3|A1 ∩ A2) · · · P(An|A1 ∩ · · · An−1) Exemple : Une urne contient initialement 7 boules noires et 3 boules blanches. On tire successivement 3 boules : si on tire une noire, on l’enlève, si on tire une blanche, on la retire, et on ajoute une noire à la place. Quelle est la probabilité de tirer 3 blanches à la suite ? On note Bi l’événement "La i-ème boule tirée est blanche". La probabilité recherchée est : P(B1 ∩ B2 ∩ B3) = P(B3|B1 ∩ B2) · P(B2|B1) · P(B1). Clairement, P(B1) = 3/10. Maintenant, si B1 est réalisé, avant le 2ème tirage, l’urne est constituée de 8 boules noires et 2 blanches. On a donc : P(B2|B1) = 2/10. Si B1 et B2 sont réalisés, avant le 3ème tirage, l’urne est constituée de 9 boules noires et 1 blanche. On en déduit P(B3|B1 ∩ B2) = 1/10. Finalement P(B1 ∩ B2 ∩ B3) = 6/1000 = 3/500. Proposition 2.2.2 (Formule des probabilités totales) Soit {An; n ∈ N} un système complet d’évé- nements, tous de probabilité non nulle. Soit B un événement. Alors : P(B) = n∈N P(An)P(B/An). Cette formule permet de calculer la probabilité d’un événement B en le décomposant suivant un système complet d’événements (En effet, B est égal à la réunion disjointes des B ∩ An). 2.2.3 Evénements indépendants Soient 2 événements A et B. Ils sont indépendants si la réalisation de A n’affecte pas la réalisation de B, et inversement. On peut alors écrire P(A/B) = P(A) P(B/A) = P(B) On dit encore que A et B sont indépendants si et seulement la probabilité de réalisation simultanée de ces événements est égal au produit de leurs probabilités individuelles : P(A ∩ B) = P(A) · P(B). Si deux événements A et B sont indépendants, alors il en est de même pour A et Bc , Ac et B, Ac et Bc . Définition 4 Un ensemble d’événements A1, A2, . . . , An est dit totalement indépendant si pour tout sous- ensemble I ⊂ {1, 2, . . . , n} P(∩i∈IAi) = i∈I P(Ai). Les événements sont deux à deux indépendants si pour tous indices i, j (i = j), P(Ai ∩ Aj) = P(Ai) · P(Aj).
  11. 11. Cours Probabilités / Pierre DUSART 11 Que pensez-vous des deux définitions ? Sont-elles équivalentes ? Exemple : On jette deux dés équilibrés. Soient les événements A = {la somme des dés vaut 7}, B = {le premier dé affiche 4} C = {le second dé affiche 3}. Calculer P(A ∩ B), P(A ∩ C), P(B ∩ C) et P(A|B ∩ C).
  12. 12. 12 CHAPITRE 2. PROBABILITÉS
  13. 13. Chapitre 3 Variables aléatoires 3.1 Définition d’une variable aléatoire Une variable aléatoire est une fonction définie sur l’ensemble des éventualités, c’est-à-dire l’ensemble des résultats possibles d’une expérience aléatoire. On s’intéressera aux valeurs prises xi par une variable aléatoire X, événement noté (X = xi), et plus particulièrement à la probabilité d’obtenir ces valeurs P(X = xi). C’est à peu près la même chose qu’une variable statistique sauf que dans le cas d’une variable statistique on évalue un comportement réalisé (moyenne, etc) alors que dans le cas de variables aléatoires on suppose un comportement futur (Dans ce cas, on parle d’espérance plutôt que de moyenne par exemple) ou théorique. Les variables aléatoires sont utilisées pour modéliser le résultat d’un mécanisme non-déterministe. 3.1.1 Différents types de variables aléatoires Définition 5 Une variable aléatoire (ou v.a.) est une application X : Ω → R. Si X(Ω) est au plus dénombrable, on dit que X est un v.a. discrète sinon on dit qu’elle est continue. Variable aléatoire discrète Si une variable aléatoire X prend un nombre de valeurs fini ou dénombrable (son ensemble de définition est inclus dans N), on parle de variable discrète. On s’intéresse à définir l’ensemble des valeurs possibles et leurs probabilités associées. Quelques exemples : – nombre de “face” dans un lancer de 3 pièces : X(ω) de 0 à 3. – nombre de lancers avant d’obtenir "6" avec un dé : X(ω) de 0 à l’infini ; – nombre de clients attendant au service après-vente : X(ω) de 0 à 10. – nombre de cycles lecture/écriture sur une clé USB : X(ω) de 10000 à 100000. – nombre d’appels arrivant à un standard téléphonique en une minute de 0 à 10.
  14. 14. 14 CHAPITRE 3. VARIABLES ALÉATOIRES Variable aléatoire continue Une variable aléatoire est dite continue si elle peut prendre toutes les valeurs d’un intervalle. En particulier, dans le cas où la variable aléatoire peut prendre toute valeur réelle (son ensemble de définition contient un intervalle de R), on parle de variable aléatoire réelle. Dans ce cas, il ne s’agira plus de calculer une probabilité d’apparition d’une valeur donnée mais d’un intervalle. Quelques exemples : – temps d’attente pour avoir le bus : X(ω) ∈ [0, 10 ] – longueur de cheveux : X(ω) ∈ [0, 4m] – intervalle entre deux averses : X(ω) ∈ [1 , 20 ans] – moyenne des tailles de 20 étudiants pris au hasard : X(ω) ∈ [α, β] 3.1.2 Loi de probabilité Une variable aléatoire est totalement définie par sa loi de probabilité. Cette dernière est caractérisée par : – l’ensemble des valeurs qu’elle peut prendre (son domaine de définition) ; – les probabilités attribuées à chacune des valeurs potentiellement prises P(X = x). Dans ce cas, la loi de la variable aléatoire est la loi de probabilité sur l’ensemble des valeurs possibles de X qui affecte la probabilité P(X = xk) au singleton {xk}. Soit X : Ω → R. Dans le cas où X prend ses valeurs dans un intervalle réel, on cherche à exprimer par exemple la probabilité que X prenne ses valeurs dans ]α, β[. On remarque que X(ω) ∈]α, β[) ⇐⇒ ω ∈ X−1 (]α, β[) et donc on pose P(X ∈]α, β[) = P(X−1 (]α, β[)). 3.1.3 Fonction de répartition Définition 6 La fonction de répartition d’une v.a. X est l’application F de R dans [0, 1] définie par F(x) = P(X < x) = P X−1 (] − ∞, x[) . On s’intéresse souvent à la probabilité cumulée. Par exemple dans le cas de probabilités sur N : P(X < n) = P(X = 0 ou X = 1 ou · · · ou X = n − 1). Les événements étant incompatibles entre eux, on obtient P(X < n) = n−1 j=0 P(X = j), et de façon plus générale, avec x ∈ R, P(X < x) = x−1 j=0 P(X = j). Ainsi pour X une v.a. discrète prenant les valeurs classées xi avec les probabilités pi, on a F(x) = xi<x pi. (Dans ce cas, F est une fonction en escaliers, continue à gauche, ayant pour limite 0 en −∞ et 1 en +∞).
  15. 15. Cours Probabilités / Pierre DUSART 15 Propriétés 1. F est non décroissante. 2. F est continue à gauche. 3. ∀x0 ∈ R, P(X = x0) = limx→x+ 0 F(x) − F(x0). 4. F(−∞) = 0 et F(+∞) = 1 5. P(a ≤ X < b) = F(b) − F(a) Preuves : 1. Montrons que F est croissante (x < y =⇒ F(x) ≤ F(y)). On a la réunion disjointe ] − ∞, y[= ] − ∞, x[∪[x, y[ et F(y) = P(X−1 (] − ∞, y[) = P(X−1 (] − ∞, x[) ∪ X−1 ([x, y[)) et en utilisant les propriétés de P, F(y) = F(x) + P(X ∈ [x, y[) ≥ F(x). 2. Soit x0 ∈ R. X−1 ([x0 − 1/n, x0[) décroît vers ∅ quand n tend vers l’infini, donc F(x0)−F(x0 −1/n) tend vers 0. Comme F est croissante, cela implique que F est continue à gauche. 3. De même, X−1 ([x0, x0 + 1/n[) décroît vers X−1 ({x0}) donc la différence F(x0 +1/n)−F(x0) tend vers P(X−1 {x0}) quand n tend vers l’infini. 4. F étant croissante, F(−∞) = limn→∞ F(−n). Or ] − ∞, −n[ décroît vers ∅ quand n tend vers l’infini ; ainsi F(−n) = P(X−1 (] − ∞, −n[)) décroît vers 0. De même, ] − ∞, n[ croît vers R quand n tend vers l’infini et F(n) = P(X−1 (] − ∞, n[)) croît vers P(X ∈ R) = 1. 5. X−1 (] − ∞, b[) est la réunion disjointe de X−1 (] − ∞, a[) et de X−1 ([a, b[) donc F(b) = P(X ∈ [a, b[) + F(a). Remarque : F est continue à droite dans le cas des v.a. continues. Preuve : D’après la propriété 4 des fonction de répartition, F est continue si et seulement si : ∀x ∈ R, P(X = x) = 0. Remarque : Probabilité ponctuelle pour une variable continue. La vraie distinction entre variables continues et discrètes tient dans le calcul de la probabilité ponctuelle. La probabilité d’un point c situé entre a et b serait limb→a P(a < X < b) = 0. Ainsi, la probabilité d’un point est par définition nulle pour les variables continues. Ainsi P(a < X < b) = P(a ≤ X ≤ b). En réalité, il s’agit bien souvent d’un problème d’échelle ou de précision de mesure. On travaille toujours sur des intervalles (par exemple la précision de la mesure si on a une mesure au centimètre près la valeur x = 160 correspond à x = 160 ± 0.5 soit un intervalle de travail 160 − 0.5 < x < 160 + 0.5. 3.1.4 Densité de probabilité Pour une variable continue, on travaille la plupart du temps avec un ensemble de définition sur les réels. La probabilité ponctuelle P(X = x) = f(x) est la fonction de densité. La fonction de répartition F(x) = P(X < x) est définie par : F(x) = x −∞ f(t)dt La densité de probabilité d’une variable aléatoire continue est la dérivée première par rapport à x de la fonction de répartition. Cette dérivée prend le nom de fonction de densité, notée f(x) = dF (x) dx . Elle est équivalente à P(X = x) dans le cas des variables discrètes. Pour calculer la probabilité P(a ≤ X < b) dans le cas d’une variable continue, le calcul est le suivant b a f(x)dx. Développons cette expression : P(a ≤ X < b) = P(X < b) − P(X < a) = b −∞ f(t)dt − a −∞ f(t)dt = F(b) − F(a)
  16. 16. 16 CHAPITRE 3. VARIABLES ALÉATOIRES Graphiquement, cela se traduit par la surface comprise entre a et b en dessous de la courbe de densité. Propriété : De la même façon que pi ≥ 0 et i pi = 1, on a f(x) ≥ 0 et +∞ −∞ f(x)dx = 1. 3.2 Caractéristiques d’une variable aléatoire 3.2.1 Tendance centrale Les fractiles On appelle quantile ou fractile d’ordre α (0 < α < 1) d’une variable aléatoire X dont la fonction de répartition est F(x), la valeur xα telle que F(xα) = α. La valeur xα s’appelle quantile d’ordre α. Remarque Dans le cas où X est une variable discrète, F(xα) = α s’entend P(X < xα) = α. Nous énumérons ici quelques quantiles particuliers. La médiane : La médiane est le quantile d’ordre α = 1/2, en d’autres termes la médiane Med est définie par F(Med) = 0, 5. La médiane partage la population en deux parties égales, c’est une caractéristique de tendance centrale. Les quartiles : les quartiles, notés Qi (respectivement i = 1; 2; 3) correspondent aux quantiles d’ordre (α = 0, 25 ; 0,5 ; 0,75). Notons que Q2 = Med. Les déciles Le k-ième décile (k = 1 à 9) est le quantile d’ordre k/10. En particulier, le 5-ième décile correspond à la médiane. Le mode On appelle mode (valeur dominante, valeur la plus probable) d’une variable aléatoire, la valeur Mode pour laquelle l’histogramme de fréquence présente son maximum. Dans le cas des variables discrètes, le Mode est la valeur de X associée à la plus grande probabilité, d’où l’appellation valeur la plus probable. Lorsque la variable aléatoire X est continue, avec une fonction de densité pourvue d’une dérivée première et d’une dérivée seconde, le mode M est un maximum de la fonction densité et satisfait à ce titre à f (M) = 0 et f (M) < 0 (concavité vers le bas). Espérance mathématique Soit X une v.a. discrète prenant ses valeurs dans {x1, . . . , xn} et dont les probabilités associées sont P(X = xi) = pi. On définit l’espérance mathématique de X, notée E(X) par E(X) = n i=1 pixi. Cette quantité n’est définie que si la série de terme général [pixi] converge. C’est la moyenne théorique de X. Cette moyenne est à rapprocher de la moyenne expérimentale où chaque événément X = xi se réalise ni fois dans un échantillon de taille N = i ni. La moyenne expérimentale vaut X = 1 N i nixi = i fixi, où fi = ni N est la fréquence observée dans chaque classe d’événement X = xi. Dans le cas continu, E(X) = +∞ −∞ xf(x)dx où f(x) est la densité de probabilité de X. Cette quantité n’existe que si +∞ −∞ xf(x)dx est absolument convergente.
  17. 17. Cours Probabilités / Pierre DUSART 17 De façon générale, pour Y une fonction de X, on a E(Y ) = n i=1 piyi ou E(Y ) = +∞ −∞ y(x)f(x)dx Par exemple, pour Y = X2 , on a E(X2 ) = n i=1 pix2 i ou E(X2 ) = +∞ −∞ x2 f(x)dx. Propriétés : (Espérance d’une constante). E(a) = a. Preuve. E(a) = D af(x)dx = a D f(x)dx = a × 1 = a. On peut en déduire que E[E(X)] = E(X), puisque E(X) n’est pas une variable aléatoire. Caractéristique (opérateur linéaire). E(aX + bY ) = aE(X) + bE(Y ). De manière générale, E i aiXi + b = i aiE(Xi) + b 3.2.2 Paramètres de dispersion Moments • Un moment non-centré d’ordre r est défini de la manière suivante : mr(X) = E(Xr ) Application : pour une v.a. (variable aléatoire) discrète, mr(X) = i pixr i , où pi = P(X = xi) et pour une v.a. continue, mr(X) = D xr f(x)dx. Remarque (Moments non-centrés empiriques, statistique descriptive). Rappelons qu’en statistique descrip- tive, ce moment non-centré, pour une v.a. discrète par exemple, est obtenue avec la formule mr = i fixr i , où fi est la fréquence observée de la valeur xi. Remarque (Cas particuliers). (r = 0) m0(X) = 1 ; (r = 1) m1(X) = E(X), espérance mathématique ; • Un moment centré d’ordre r est défini de la manière suivante : µr(X) = E[(X − E(X))r ] Soit pour une v.a. discrète : µr(X) = i(xi − E(X))r pi et pour une v.a. continue : µr(X) = D (x − E(X))r f(x)dx Remarque (Statistique descriptive). En statistique descriptive, pour une variable discrète, le moment centré d’ordre r est obtenu avec µr = n i=0 fi(xi − x)r Remarque (Cas particuliers). (r = 0 ) µ0(X) = E[(X − E(X))0 ] = E(1) = 1 (r = 1) µ1(X) = E[(X − E(X))] = E(X) − E[E(X)] = E(X) − E(X) = 0 (r = 2 ) µ2(X) = E[(X − E(X))2 ] = V (X) (c’est la variance de X). Variance Définition 7 On appelle variance de X, noté V (X), le moment centré d’ordre 2 de X (s’il existe). V (X) = E([X − E(X)]2 ).
  18. 18. 18 CHAPITRE 3. VARIABLES ALÉATOIRES La variance mesure la dispersion autour de la moyenne. L’écart-type est la racine carrée de la variance : σ(X) = V (X). Remarque (Formule de Koenig). Il est possible d’exprimer la variance à partir des moments non centrés. V (X) = E[(X − E(X))2 ] = E[X2 − 2XE(X) + E(X)2 ] = E(X2 ) + E(X)2 − 2E[XE(X)] = E(X2 ) + E(X)2 − 2E(X)E(X) = E(X2 ) − E(X)2 V (X) = m2(X) − m1(X)2 3.2.3 Caractéristiques de forme Le coefficient d’asymétrie (skewness) Graphiquement, il s’agit de l’étalement à gauche ou à droite de l’histogramme des fréquences de la variable statistique. Le coefficient d’asymétrie de Fisher : Outil banal de la statistique descriptive, il s’agit du moment centré d’ordre 3 normalisé par le cube de l’écart-type, c’est-à-dire (« gamma un ») : γ1 = µ3 σ3 = 1 σ3 i fi(xi − x)3 . Remarque : γ1 = µ3 µ 3/2 2 . Comme c’est un nombre sans dimension, il permet de comparer des distributions même si leurs échelles diffèrent. Lorsque l’étalement est à gauche (moyenne inférieure à la médiane), le coefficient d’asymétrie est négatif et vice versa. Le coefficient d’asymétrie de Pearson β1 (« beta un ») est le carré du coefficient de Fisher, soit : β1 = µ3 σ3 2 . Le coefficient d’asymétrie de Yule et Kendall On a juste besoin des quartiles pour le calculer. u = (Q3 − Q2) − (Q3 − Q1) (Q3 − Q2) + (Q3 − Q1) . Comme il n’existe pas de table, donc pas de critère précis de séparation entre symétrie et asymétrie, on utilisera plutôt ce coefficient comme élément de comparaison entre deux distributions.
  19. 19. Cours Probabilités / Pierre DUSART 19 Le coefficient d’aplatissement (kurtosis) Généralement, on observe le coefficient d’aplatissement (kurtosis) en même temps que celui d’asymétrie. Le coefficient d’aplatissement de Pearson β2 est la valeur obtenue par le calcul suivant : β2 = µ4 σ4 . Un coefficient d’aplatissement élevé indique que la distribution est plutôt pointue en sa moyenne, et des queues de distribution épaisses. Pour une variable aléatoire suivant une loi normale centrée réduite(loi vue par la suite), ce coefficient d’aplatissement vaut 3. C’est pour cela que l’on normalise la valeur pour mesurer l’excès d’aplatissement pour obtenir le coefficient d’aplatissement de Fisher. Le coefficient d’aplatissement de Fisher γ2 est la valeur obtenue par le calcul suivant : γ2 = µ4 σ4 − 3. Remarque : γ2 = µ4 µ2 2 − 3. 3.2.4 Inégalité de Bienaymé-Chebyshev Proposition 3.2.1 (Inégalité de Bienaymé-Chebychev) Soit X une v.a. d’espérance mathématique µ et de variance σ2 . L’inégalité de Bienaymé-Chebychev indique que pour tout nombre réel positif t, la probabilité que X s’écarte de son espérance mathématique d’une grandeur supérieure à t, a pour limite supérieure σ2 /t2 : P(|X − µ| ≥ t) ≤ σ2 t2 Preuve : 1. Dans le cas où X est discrète : On a σ2 = i pi(xi − µ)2 . En enlevant les termes, positifs, corres- pondant aux xi pour lesquels |xi −µ| < t, on obtient σ2 ≥ |xi−µ|≥t pi(xi −µ)2 . Dans cette somme, les xi vérifient tous |xi − µ|2 ≥ t2 donc en remplaçant σ2 ≥ t2 |xi−µ|≥t pi = t2 p (|X − µ| ≥ t). 2. Dans le cas où X est continue : σ2 = +∞ −∞ (x − µ)2 f(x)dx ≥ µ−t −∞ (x − µ)2 f(x)dx + +∞ µ+t (x − µ)2 f(x)dx car pour tout x, (x − µ)2 f(x) est positive ou nulle. Dans les intervalles considérés x ∈ [µ − t, µ + t], on a (x − µ)2 ≥ t2 donc σ2 ≥ t2 µ−t −∞ f(x)dx + +∞ µ+t f(x)dx = t2 (1 − F(µ + t) + F(µ − t)) = t2 P(|X − µ| ≥ t)
  20. 20. 20 CHAPITRE 3. VARIABLES ALÉATOIRES Remarque (Loi des grands nombres). Cette inégalité est importante car elle permet de démontrer la loi dite des "grands nombres". Elle stipule qu’il suffit d’extraire un échantillon d’un effectif suffisant dans une population pour estimer l’espérance mathématique à l’aide de la moyenne arithmétique, ou encore pour estimer une probabilité à l’aide d’une fréquence. On parle alors de convergence en probabilité. Remarque 2 (Une expression plus générale de l’inégalité de Bienaymé-Chebychev). La portée de l’inégalité de Bienaymé-Chebychev est bien plus large que celle couramment présentée dans les ouvrages. Elle peut être définie pour une fonction g(X) telle que P(g(X) ≥ t) ≤ E(g(X)k ) tk La présentation usuelle correspond à k = 2 et g(X) = |X − µ|. 3.2.5 Fonctions génératrices Fonction caractéristique La fonction caractéristique d’une variable aléatoire X est définie sur R par ϕX(t) = E(eitX ), où i est l’unité imaginaire (i2 = −1). Ainsi, pour une variable discrète, ϕX(t) = k eitxk pk et pour une variable continue, ϕX(t) = eitx f(x)dx. Propriétés de la fonction caractéristique : 1. ϕX(t) est bien définiew pour tout t réel. 2. La relation suivante sert, par exemple, à calculer la fonction caractéristique d’une variable centrée réduite, à partir de la fonction caractéristique de la variable de départ : pour tous a, b réels, ϕaX+b(t) = ϕX(at)eitb . 3. Il y a aussi une relation entre les moments et la fonction caractéristique d’une variable aléatoire. Lorsque les moments existent et que la série converge : ϕX(t) = ∞ k=0 ik µk k! tk où µk est le moment d’ordre k. Cette relation sert parfois pour calculer la moyenne (premier moment) et la variance d’une variable aléatoire. Plus explicitement, 1 = ϕX(0), E(X) = −iϕX(0), E(X2 ) = −ϕX(0) et Var(X) = −ϕX(0) + ϕ 2 X(0) ou encore ϕ (k) X (0) = ik E(Xk ). 4. Elle détermine de façon unique la loi d’une variable aléatoire au sens où ϕX = ϕY (égalité de fonctions) équivaut à “X et Y ont la même loi.” Preuve 1. Dans le cas discret, ϕX(t) = k eitxk pk. C’est la somme d’une série absolument conver- gente car |eitxk pk| = pk. Dans le cas continu, ϕX(t) = +∞ −∞ eitx f(x)dx. C’est une intégrale définie absolument convergente car |eitx f(x)| = f(x) dont l’intégrale sur R est égale à 1. 2. Utiliser les propriétés de la fonction exponentielle et de l’espérance. 3. On a ϕX(0) = E(1) = 1. En supposant les bonnes conditions de convergence, on a ϕX(t) = n eitxn pn = n ∞ k=0 (itxn)k k! pn = ∞ k=0 ik k! n pnxk n tk = ∞ k=0 ik k! (mk)tk De même dans le cas continu : E(eitX ) = +∞ −∞ ∞ k=0 (itx)k k! f(x)dx = ∞ k=0 (it)k k! +∞ −∞ xk f(x)dx = ∞ k=0 mk (it)k k! .
  21. 21. Cours Probabilités / Pierre DUSART 21 Par identification avec le développement de ϕX(t) en série de Taylor-Mac-Laurin, on a bien la propriété proposée. 4. (admis) Définition 8 On appelle fonction génératrice des moment de la v.a. X, si elle existe, la fonction : MX(t) = E(etX ).
  22. 22. 22 CHAPITRE 3. VARIABLES ALÉATOIRES
  23. 23. Chapitre 4 Lois discrètes usuelles 4.1 Loi uniforme discrète L’ensemble des valeurs possibles est {1, 2, 3, · · · , n}, n étant un paramètre de la loi. Chaque valeur reçoit la même probabilité 1/n (Uniformité). On obtient la loi de probabilité suivante : xi 1 2 3 · · · n pi 1/n 1/n 1/n · · · 1/n Pour une v.a. X qui suit cette loi, on a : E(X) = n + 1 2 V (X) = (n2 − 1)/12 En effet, E(X) = n i=1 pixi = 1 n n k=1 k = 1 n · n(n + 1) 2 = n + 1 2 et V (X) = i pix2 i − (E(X))2 = 1 n n k=1 k2 − n + 1 2 2 = 1 n · n 6 (n + 1)(2n + 1) − (n + 1)2 4 = 4(n + 1)(2n + 1) − 6(n + 1)(n + 1) 24 = (n + 1)(8n + 4 − 6n − 6) 24 = (n + 1)(n − 1) 12 V (X) = n2 − 1 12
  24. 24. 24 CHAPITRE 4. LOIS DISCRÈTES USUELLES On peut également déterminer sa fonction caractéristique : ϕX(u) = k eiuk · 1 n = 1 n k eiu k = 1 n · eiu 1 − eiun 1 − eiu (somme des premiers termes d’une suite géométrique) Or eiu − 1 = eiu/2+iu/2 − eiu/2−iu/2 = eiu/2   eiu/2 − e−iu/2 2i sin(u/2)    eiun − 1 = einu/2+inu/2 − einu/2−inu/2 = einu/2 2i sin(nu/2) D’où ϕX(u) = 1 n eiun/2 sin(nu/2) eiu/2 sin(u/2) eiu = eiu n+1 2 n · sin(nu/2) sin(u/2) 4.2 Loi de Bernoulli C’est une des lois les plus simples. Elle prend que deux valeurs possibles Vrai/Faux, codées 1 et 0. On note p la probabilité associée à la valeur 1 (ce sera le paramètre de la loi). Evidemment la probabilité associée à la valeur 0 sera 1 − p (parfois notée q pour plus de lisibilité dans les formules). On notera cette loi B(p). Caractéristiques : E(X) = p, V (X) = pq, ϕX(u) = 1 k=0 P(X = k)eiuk = P(X = 0) + P(X = 1)eiu = q + peiu . 4.3 Loi binomiale Considérons une épreuve aléatoire qui ne conduit qu’à deux éventualités exclusives : l’une succès (V ) et l’autre échec F. L’univers associé à cette épreuve est donc Ω = {V ; F}. Soient p la probabilité de l’événement {V } et q la probabilité de l’événement {F} (on a q = 1 − p). L’expérience consistant à répéter n fois cette épreuve de façon indépendante, est appelée suite d’épreuves de Bernoulli, ou schéma de Bernoulli. On s’intéresse au nombre X de succès obtenus au cours de cette suite d’épreuves, la probabilité de l’événement : " on obtient dans un ordre quelconque k succès et n − k échecs " est égal à P(X = k) = Ck npk qn−k avec k ∈ [0, .., n]. En effet, notons Ak l’événement "A se réalise exactement k fois durant les n expériences". Ak peut se réaliser de plusieurs manières chacune deux à deux incompatibles, par exemple A peut se réaliser durant les k premières expériences aléatoires et ne pas se réaliser durant les n−k dernières expériences aléatoires. Il y a Ck n façons de "placer " les k réalisations de A parmi les n expériences aléatoires. La probabilité d’une de ces façons est égale à pk (1 − p)n−k . Ce qui donne : P(Ak) = Ck npk qn−k .
  25. 25. Cours Probabilités / Pierre DUSART 25 Définition 9 (Loi binomiale) On dit qu’une variable aléatoire X, à valeurs dans {0; 1; ...n}, suit une loi binomiale si sa loi de probabilité est P(X = k) = Ck npk qn−k avec k ∈ {0, 1, 2, ..., n}, où n est un entier naturel fixé et où p est un réel de ]0; 1[. Les valeurs n et p sont les deux paramètres de cette loi, que l’on notera B(n, p) Caractéristiques : – L’espérance mathématique d’une variable aléatoire suivant une loi B(n, p) est : E(X) = np – La variance mathématique d’une variable aléatoire suivant une loi B(n, p) est : V (X) = npq = np(1−p) – Sa fonction caractéristique est ϕX(u) = (q + peiu )n . Exercices : Retrouver que k P(X = k) = 1, E(X) et V (X) par calcul direct et en utilisant la fonction caractéristique. Théorème 4.3.1 (Stabilité de la loi binomiale) Si Xn et Xm sont deux variables indépendantes sui- vant des lois binomiales respectivement Xn → B(n, p) et Xm → B(m, p) alors Xn + Xm → B(n + m, p). Exemple : On dispose d’une urne avec 1 boule blanche et 9 noires. On effectue 20 tirages avec remise. Soit X le nombre de sortie de la boule blanche à l’issue des 20 tirages.La variable aléatoire X suit B(n, p). 4.4 Loi hypergéométrique Considérons une population d’effectif N dont on sait qu’un pourcentage p d’éléments possèdent un ca- ractère étudié C. On extrait au hasard un échantillon de n éléments, tirage exhaustif de n éléments (c’est-à-dire n tirages sans remise). Quelle est alors la probabilité qu’exactement k d’entre eux possèdent le caractère C ? Si m désigne le nombre d’éléments possédant le caractère C, alors p = m/N et on peut reformuler le problème en remplaçant la connaissance de p par celle de m et considérer le problème en termes de tirages aléatoires de boules dans une urne : il s’agit d’un tirage simultané de n objets parmi N (équivalent à n tirages sans remise) et on s’intéresse à la variable aléatoire X égale au nombre k (k ≤ m) d’apparitions d’éléments ayant le caractère étudié sachant que leur effectif dans la population est m. Loi de probabilité : Parmi les n objet tirés, k sont souhaités et n − k ne le sont pas. Il y a Ck m façons de constituer des lots de k objets parmi les m présentant le caractère étudié et Cn−k N−m façons de choisir les autres. Le nombre de cas possibles est Cn N . Finalement, la loi de probabilité est fournie par la formule : P(X = k) = Ck m · Cn−k N−m Cn N = Ck Np · Cn−k N(1−p) Cn N , avec 0 ≤ k ≤ [Np]. On note H(N, n, p) la loi hypergéométrique de paramètre N, n et p. Caractéristiques : On peut montrer que l’espérance mathématique de X → H(N, n, p) est E(X) = np (comme dans le cas de la loi binomiale). Sa variance est V (X) = N−n N−1 npq. Sa fonction caractéristiques est compliquée. Convergence : On remarque que si n (la taille de l’échantillon) est petit devant N, alors la variance est sensiblement npq, c’est-à-dire celle de la loi binomiale. Ce résultat n’est pas un hasard... : La limite pour N infini de sorte que m/N tende vers une limite finie p de la loi H(N, n, p) est la loi binomiale B(n, p).
  26. 26. 26 CHAPITRE 4. LOIS DISCRÈTES USUELLES 4.5 Loi géométrique La loi géométrique est la loi du nombre d’essais nécessaires pour faire apparaître un événement de pro- babilité p. On dit qu’une variable aléatoire X suit la loi géométrique de paramètre p, ce que l’on note X → G(p) si : 1. X(Ω) = N∗ 2. P(X = k) = qk−1 p où q = 1 − p. Caractéristiques : E(X) = 1 p V (X) = q p2 ϕX(u) = peiu 1 − qeiu Loi de Pascal d’ordre r : C’est la loi du nombre d’essais nécessaires pour observer exactement r fois un événement de probabilité p. Cette loi est la somme de r lois géométriques indépendantes. On dit qu’une variable aléatoire X suit la loi de Pascal de paramètres r et p, ce que l’on note X → P(r, p) si : 1. X(Ω) = {r, r + 1, · · · } 2. P(X = k) = Cr−1 k−1pr qk−r où q = 1 − p. Caractéristiques : X admet alors une espérance et une variance : E(X) = r p V (X) = r(1 − p) p2 . 4.6 Loi de Poisson Soit λ > 0. On dit qu’une variable aléatoire X suit la loi de Poisson de paramètre λ, ce que l’on note X → P(λ) si : 1. X(Ω) = N 2. P(X = k) = e−λ λk k! . La loi de Poisson est la loi des événements rares (de petite probabilité). Caractéristiques : E(X) = λ V (X) = λ. ϕX(u) = eλ(cos u+i sin u−1) . Remarque : la loi de Poisson a été introduite en 1838 par Siméon-Denis Poisson (1781-1840), qui lui a donné son nom. Aucun rapport avec la loi de Fisher. Exemple : [Le célèbre exemple de Von Bortkiewicz] Von Bortkiewicz a étudié le nombre de morts par ruade de cheval dans l’armée prussienne de 1875 à 1894 dans 200 corps de cavalerie : pendant 20 ans, il a étudié 10 corps de cavalerie par an Nombre de morts par an 0 1 2 3 4 Nombre de corps de cavalerie 109 65 22 3 1 Calculer la moyenne λ du nombre de morts par an. Comparer la distribution réelle à la distribution résultant de l’application de la loi de Poisson de paramètre λ. Exercices : retrouver E(X), V (X), ϕX(u). (Solutions sur http://fr.wikipedia.org/wiki/Loi_de_Poisson)
  27. 27. Cours Probabilités / Pierre DUSART 27 4.7 Approximation de B par P Lorsque n devient grand, le calcul des probabilités d’une loi binomiale devient très fastidieux. On va donc, sous certaines conditions, trouver une approximation de P(X = k) plus manipulable. On constate le comportement asymptotique : si n → ∞ et p → 0, alors X : B(n, p) → P(λ) avec np = λ. Remarque : cette approximation est correcte dès que n > 30 et np < 5 ou dès que n > 50 et p < 0, 1. Preuve : Montrons que P(X = k) = Ck npk qn−k tend vers e−λ λk k! avec λ = np. Comme λ = np, on a p = λ n et q = 1 − λ n que l’on remplace dans la définition de la probabilité binomiale : P(X = k) = n! k!(n − k)! λ n k 1 − λ n n−k . Or 1 − λ n n−k = 1 − λ n n 1 − λ n −k = 1 − λ n n 1 qk , d’où P(X = k) = n(n − 1) · · · (n − k + 1) k! λk nk 1 qk 1 − λ n n = n(n − 1) · · · (n − k + 1) nk λk qk 1 k! 1 − λ n n Si n est assez grand (n ≥ 50 et p proche de 0 donc q proche de 1, on peut faire les approximations suivantes : 1. n(n−1)···(n−k+1) nk = 1 1 − 1 n · · · 1 − k−1 n ≈ 1 2. λk qk ≈ λk 3. 1 − λ n n ≈ e−λ Ainsi P(X = k) ≈ e−λ λk k! .
  28. 28. 28 CHAPITRE 4. LOIS DISCRÈTES USUELLES
  29. 29. Chapitre 5 Couple de variables aléatoires 5.1 Couple de v.a. discrètes 5.1.1 Loi d’un couple de variables aléatoires discrètes Soient X et Y deux variables aléatoires discrètes définies sur le même espace probabilisé (Ω, A, P). On notera X(Ω) = {xi, i ∈ I} et Y (Ω) = {yj, j ∈ J}, l’ensemble des valeurs, ordonnées, prises respectivement par X et Y (où I et J sont des ensembles d’entiers). On appelle couple (X, Y ) l’application (X, Y ) : Ω −→ R2 ω −→ (X(ω), Y (ω)). Alors, l’ensemble (X, Y )(Ω) des valeurs prises par le couple (X, Y ) est inclus dans l’ensemble des couples de réels suivants {(xi, yj), (i, j) ∈ I × J}. Définition 10 On appelle loi conjointe ou loi du couple (X, Y ), l’ensemble des couples {((xi, yj), pij), (i, j) ∈ I × J} où pij = P((X = xi) ∩ (Y = yj)) = P((X, Y )−1 ({(xi, yj)})). On pourra représenter cette loi par un tableau à double entrée. Proposition 5.1.1 {(xi, yj), pij), (i, j) ∈ I × J} est la loi d’un couple de variables discrètes si et seule- ment si pij ≥ 0 pour tout (i, j) ∈ I × J et (i,j)∈I×J pij = 1. Remarque : Dans ce contexte, (i,j)∈I×J pij = i∈I j∈J pij = i∈I   j∈J pij   = j∈J i∈I pij . On peut commen- cer par sommer sur les indices i puis les indices j ou inversement. 5.1.2 Lois marginales Les variables X et Y sont appelées variables marginales du couple (X, Y ) et leur loi, appelée loi marginale de X (resp. de Y ) peut être obtenue de la façon suivante :
  30. 30. 30 CHAPITRE 5. COUPLE DE VARIABLES ALÉATOIRES Supposons connue la loi du couple (X, Y ) : {((xi, yj), pij), (i, j) ∈ I × J}. On cherche maintenant à connaître la loi de X i.e. l’ensemble des couples {(xi, P(X = xi)), i ∈ I}. Or la famille des événements {(Y = yj), j ∈ J} forme un système complet d’événements, donc d’après la formule des probabilités totales appliquée à ce système complet d’événements, on obtient : pi• := P(X = xi) = j∈J P((X = xi) ∩ (Y = yj)) = j∈J pij. De même, la loi de Y s’obtient à l’aide de la formule des probabilités totales appliquée au système complet d’événements {(X = xi), i ∈ I} : p•j := P(Y = yj) = i∈I P((X = xi) ∩ (Y = yj)) = i∈I pij. 5.1.3 Lois conditionnelles On définit les lois conditionnelles par P(X = xi/Y = yj) = PX|Y =yj (xi) = pij p•j et P(Y = yj/X = xi) = PY |X=xi (yj) = pij pi• 5.1.4 Espérance, Variance Sous réserve d’existence (dans le cas infini dénombrable), on a alors dans le cas discret E(X) = i P(X = xi) xi = i pi• xi V (X) = σ2 (X) = i P(X = xi)(xi − E(X))2 = i pi• x2 i − (E(X))2 , ... et de façon plus générale, nous pouvons définir la notion d’espérance mathématique d’une fonction g(X, Y ) du couple : E(g(X, Y )) = i j pij g(xi, yj) dans le cas discret, Ainsi par exemple E(XY ) = E(X2 ) = 5.1.5 Fonction de répartition Définition 11 Soit (X, Y ) un couple de variables aléatoires. On appelle fonction de répartition conjointe de (X, Y ) la fonction F : R2 → R définie par F(x, y) = P(X < x et Y < y). Dans le cas de deux variables discrètes, F(x, y) = {i / xi<x} {j / yj <y} pij. Propriétés :
  31. 31. Cours Probabilités / Pierre DUSART 31 1. P(X = xi et Y < yj) = F(xi+1, yj) − F(xi, yj). 2. Les fonctions de répartition FX et FY des lois marginales vérifient FX(x) = limy→∞ F(x, y) et FY (y) = limx→∞ F(x, y). Preuve : 1. On découpe en une réunion disjointe (X, Y )−1 (] − ∞, xi+1[×] − ∞, yj[) = (X, Y )−1 (] − ∞, xi[×] − ∞, yj[) ∪ (X, Y )−1 ({xi}×] − ∞, yj[). 2. X−1 (] − ∞, x[) = ∪n∈N(X, Y )−1 (] − ∞, x]×] − ∞, n[). 5.1.6 Indépendance Définition 12 Les v.a. X et Y sont indépendantes si pour tous i, j, les événements {X = xi} et {Y = yj} sont indépendants, c’est-à-dire pij = pi• p•j ou encore P((X, Y )−1 ({xi} × {yj})) = P(X−1 ({xi})) × P(Y −1 ({yj})). Théorème 5.1.2 X et Y sont indépendantes si et seulement si pour tous x et y réels, F(x, y) = FX(x) FY (y), c’est-à-dire si les événement {X < x} et {Y < y} sont indépendants. Preuve : Supposons X et Y indépendantes. Alors F(x, y) = {i / xi<x} {j / yj <y} pi• p•j = {i / xi<x} {j / yj <y} pi• p•j = {i / xi<x} pi• {j / yj <y} p•j = {i / xi<x} pi• FY (y) = FY (y) {i / xi<x} pi• F(x, y) = FX(x)FY (y). Réciproquement, si pour tous x, y, F(x, y) = FX(x)FY (y) alors, en remarquant que X = xi et Y < yj+1 ⇐⇒ (X, Y ) = (xi, yj) ou X = xi et Y < yj, F(xi+1, yj+1) − F(xi, yj+1) = P(X = xi et Y < yj+1) = pij + P(X = xi et Y < yj) = pij + F(xi+1, yj) − F(xi, yj). En appliquant l’hypothèse de départ, on a F(xi+1, yj+1) = FX(xi+1)FY (yj+1), F(xi, yj+1) = FX(xi)FY (yj+1), F(xi+1, yj) = FX(xi+1)FY (yj) et F(xi, yj) = FX(xi)FY (yj) d’où pij = (FX(xi+1) − FX(xi)) (FY (yj+1) − FY (yj)) = pi• p•j. Théorème 5.1.3 X et Y sont indépendantes si et seulement si pour tout couple d’intervalles réels [a, a [ et [b, b [, on a P(X ∈ [a, a [ et Y ∈ [b, b [) = P(X ∈ [a, a [) · P(Y ∈ [b, b [). (indépendance des événements X ∈ [a, a [ et Y ∈ [b, b [) Preuve : Si X et Y sont indépendantes, {i / a≤xi<a } {j / b≤yj <b } pij = {i / a≤xi<a } pi• {j / b≤yj <b } p•j.
  32. 32. 32 CHAPITRE 5. COUPLE DE VARIABLES ALÉATOIRES Réciproquement, on particularise le couple (a, a ) et (b, b ) en (xi, xi+1) et (yj, yj+1) respectivement. pij = P(xi ≤ X < xi+1 et yj ≤ Y < yj+1) = P(xi ≤ X < xi+1)P(yj ≤ Y < yj+1) = P(X = xi)P(Y = yj) = pi• p•j. Proposition 5.1.4 Les v.a. X et Y sont indépendantes si et seulement si toutes les lois conditionnelles sont identiques aux lois marginales. Preuve : X, Y indépendantes alors pij = pi• p•j d’où P(Y = yj/X = xi) = pij pi• = pi• p•j pi• = p•j = P(Y = yj). (même chose pour X) Réciproquement, on suppose que pour tous i, j, P(Y = yj/X = xi) = P(Y = yj). P(X = xi et Y = yj) = P(X = xi/Y = yj)P(X = xi) = P(Y = yj)P(X = xi). 5.1.7 Covariance et Corrélation Définition 13 Soient X et Y deux variables aléatoires. On appelle covariance de X et de Y , l’expres- sion Cov(X, Y ) = E [(X − E(X)) · (Y − E(Y ))] . En particulier, pour une variable discrète, Cov(X, Y ) = i j pij(xi − E(X))(yj − E(Y )). Propriétés : 1. Cov(X, Y ) = E(XY ) − E(X)E(Y ) = i j pijxiyj − E(X) · E(Y ). 2. Pour tout λ réel, V (X + λY ) = V (X) + 2λCov(X, Y ) + λ2 V (Y ). 3. Si X et Y sont indépendantes alors E(XY ) = E(X)E(Y ), Cov(X, Y ) = 0 et V (X + Y ) = V (X) + V (Y ). Preuve : 1. Voir théorème de König 2. Par définition de la variance V (X + λY ) = E([X + λY − E(X + λY )]2 ) = E([X − E(X) + λ(Y − E(Y ))]2 ) = E([X − E(X)]2 + 2λ[X − E(X)][Y − E(Y )] + λ2 [Y − E(Y )]2 ) = E([X − E(X)]2 ) + 2λE([X − E(X)][Y − E(Y )]) + λ2 E([Y − E(Y )]2 ) = V (X) + 2λCov(X, Y ) + λ2 V (Y ) 3. E(XY ) = i j pij xi yj (ind) = i j pi• p•j xi yj = i pi• xi j p•j yj = E(X)E(Y ). La réciproque est .... Définition 14 Soient X et Y deux variables aléatoires. On appelle coefficient de corrélation linéaire entre X et de Y , la quantité r(X, Y ) = Cov(X, Y ) σ(X)σ(Y ) .
  33. 33. Cours Probabilités / Pierre DUSART 33 Propriétés : 1. r(X, Y ) ∈ [−1, 1]. 2. Pour tous réels a, b, c, d (a, c = 0), r(aX + b, cY + d) = r(X, Y ). 3. Si X et Y sont indépendantes alors r(X, Y ) = 0. Preuve de (1) : V (X + λY ) ≥ 0 quel que soit λ. Cela implique que le polynôme en λ, λ2 V (Y ) + 2λCov(X, Y )+V (X) a un déterminant ∆ = Cov(X, Y )2 −V (X)V (Y ) négatif ou nul. Ainsi Cov(X, Y )2 ≤ V (X)V (Y ) et r(X, Y ) = Cov(X,Y )2 V (X)V (Y ) ≤ 1. 5.2 Couple de v.a. continues Soient X et Y deux variables aléatoires définies sur le même espace probabilisé (Ω, P). La loi de couple sera définie à partir de sa fonction de répartition : F(x, y) = P (X, Y )−1 (] − ∞, x[×] − ∞, y[) = P(X < x et Y < y). Propriétés : 1. F est totalement croissante au sens large, c’est-à-dire que les fonctions partielles F(x, ·) et F(·, y) sont croissantes pour tous x et y réels. 2. F(x, ·) et F(·, y) sont continues à gauche 3. lim x→−∞ F(x, y) = lim y→−∞ F(x, y) = 0, lim n→+∞ F(n, n) = 1 Preuve : 1. Soit y1 > y0, Alors l’ensemble ] − ∞, x[×] − ∞, y1[ se décompose en (] − ∞, x[×] − ∞, y0[) ∪ (] − ∞, x[×[y0, y1[). Ainsi F(x, y1) − F(x, y0) = P( (X, Y )−1 (] − ∞, x[×[y0, y1[)) ≥ 0. 2. On considère l’ensemble ] − ∞, x[×] − ∞, y0[ qui correspond à la réunion croissante des ensembles ] − ∞, x[×] − ∞, y0 − 1/n[. On en déduit que F(x, y0) = limn→∞ F(x, y0 − 1/n) = limy→y− 0 F(x, y) puisque F(x, ·) est croissante. 3. L’intersection décroissante des ensembles ] − ∞, −n[×] − ∞, y[ est vide et la réunion croissante des ] − ∞, n[×] − ∞, n[ est R2 tout entier. La probabilité pourra être calculée sur tout type d’intervalle à partir de la fonction de répartition : P(X ∈ [a, a [ et Y < y) = F(a , y) − F(a, y) P(X ∈ [a, a [ et Y ∈ [b, b [) = F(a , b ) − F(a, b ) + F(a, b) − F(a , b) Preuve : Il suffit de décomposer en ensembles disjoints : ] − ∞, a [×] − ∞, y[= (] − ∞, a[×] − ∞, y[) ∪ ([a, a [×] − ∞, y[) [a, a [×] − ∞, b [= [a, a [×] − ∞, b[∪[a, a [×[b, b [ 5.2.1 Fonction densité de probabilité Définition 15 Soient X et Y deux variables aléatoires définies sur le même espace probabilisé (Ω, P). La loi du couple (X, Y ) est dite absolument continue s’il existe une fonction positive f de R2 dans R, telle que pour tous x et y réels, F(x, y) = x −∞ y −∞ f(u, v) du dv. La fonction f est dite densité de probabilité du couple (X, Y ).
  34. 34. 34 CHAPITRE 5. COUPLE DE VARIABLES ALÉATOIRES Propriétés : 1. Pour tout A élément de P(Ω2 ), alors P ( (X, Y ) ∈ A) = A f(u, v) du dv. En particulier, R2 f(u, v) du dv = 1. 2. En tout point où f est continue, f(x0, y0) = ∂2 F ∂x∂y (x0, y0). 3. X et Y sont aussi absolument continues, et leurs densités de probabilités respectives sont fX(x) = R f(x, y)dy fY (y) = R f(x, y)dx. Calcul de l’espérance et de la variance : E(X) = R2 x f(x, y) dx dy E(Y ) = R2 y f(x, y) dx dy E(g(X, Y )) = R2 g(x, y) f(x, y) dx dy E(XY ) = V (X) = R2 (x − E(X))2 f(x, y) dx dy V (Y ) = R2 (y − E(Y ))2 f(x, y) dx dy Lorsque les quantités sont définies, on pose, comme dans le cas discret, Cov(X, Y ) = E(XY ) − E(X)E(Y ) et r(X, Y ) = Cov(X, Y ) σ(X)σ(Y ) . 5.2.2 Lois marginales et lois conditionnelles 3 Si l’on s’intéresse à un événement sur X quelle que soit la valeur prise par Y , on obtient la loi de la v.a. X qui, dans le contexte d’un couple de v.a., est appelée (comme auparavant) loi marginale. Comme pour le couple (X, Y ), les lois marginales de X et Y sont connues par leur fonction de répartition : FX(x) = P(X < x) = P(X < x, Y ∈ R) = lim y→+∞ F(x, y). De même, FY (y) = P(Y < y) = P(X ∈ R, Y < y) = lim x→+∞ F(x, y). 3 Soit (X, Y ) un couple aléatoire absolument continu, de densité de probabilité f. Soit fX la densité de probabilité de X et un réel x tel que fX(x) = 0. La loi conditionnnelle de Y liée par la condition X = x est définie par sa densité de probabilité fx(y) = f(x,y) fX (x) . 5.2.3 Indépendance Définition 16 Les variables X et Y sont indépendantes si et seulement si la fonction de répartition du couple est égale au produit des fonctions de répartitions des lois marginales : F(x, y) = FX(x)FY (y) pour tous x et y réels. Proposition 5.2.1 Les variables X et Y sont indépendantes si et seulement si pour tous x et y réels, f(x, y) = fX(x)fY (y). Dans ce cas, Cov(X, Y ) = 0. Preuve Si X et Y sont indépendantes, alors en dérivant F(x, y) = FX(x)FY (y) par rapport à x puis par rapport à y, on obtient ∂F ∂x (x, y) = fX(x)FY (y) puis ∂2 F ∂x∂y (x, y) = fX(x)fY (y) et on utilise la propriété 2 : ∂2 F ∂x∂y (x, y) = f(x, y).
  35. 35. Cours Probabilités / Pierre DUSART 35 Réciproquement, si f(u, v) = fX(u) fY (v), alors F(x, y) = x −∞ y −∞ f(u, v) du dv = x −∞ fX(u) y −∞ fY (v) dv du = FX(x)FY (y). De plus, si f(x, y) = fX(x) fY (y), E(XY ) = R2 xy fX(x)fY (y) dx dy = E(X)E(Y ) et ainsi Cov(X, Y ) = 0. Proposition 5.2.2 Les variables X et Y sont indépendantes si et seulement si pour tous couples d’in- tervalles réels ([a, a [, [b, b [), on a P (X, Y )−1 ([a, a [×[b, b [) = P X−1 ([a, a [) · P Y −1 ([b, b [) . Preuve Si X et Y sont indépendantes, alors P (X, Y )−1 ([a, a [×[b, b [) = F(a, b) + F(a , b ) − F(a, b ) − F(a , b) = FX(a)FY (b) + FX(a )FY (b ) − FX(a)FY (b ) − FX(a )FY (b) = (FX(a ) − FX(a))(FY (b ) − FY (b)) = P X−1 ([a, a [) · P Y −1 ([b, b [) Réciproquement, comme ] − ∞, a [×] − ∞, b [ est la réunion croissante des [−n, a [×[−n, b [, en posant a = b = −n, a = x et b = y dans P (X, Y )−1 ([a, a [×[b, b [) = P X−1 ([a, a [) · P Y −1 ([b, b [) , On a F(x, y) = lim n→∞ P (X, Y )−1 ([−n, x[×[−n, y[) = lim n→∞ P X−1 ([−n, x[) · P Y −1 ([−n, y[) = lim n→∞ (FX(x) − FX(−n))(FY (y) − FY (−n)) = FX(x) FY (y). Proposition 5.2.3 Les variables X et Y sont indépendantes si et seulement si les lois conditionnelles sont identiques aux lois marginales (En particulier, Fx(y) ne dépendra pas de x). 5.3 Somme et Produit 5.3.1 Somme On considère la variable aléatoire Z = X + Y . On peut calculer E(Z) et V (Z) : E(X + Y ) = E(X) + E(Y ) (vraie si X et Y sont indépendantes ou non) V (X + Y ) = V (X) + V (Y ) si X et Y indépendantes et V (X + Y ) = V (X) + V (Y ) + 2 Cov(X, Y ) sinon Si X et Y sont deux variables aléatoires indépendantes, ϕX+Y = ϕXϕY . Plus généralement, si X1, . . . , Xn sont des variables aléatoires indépendantes dans leur ensemble, alors . ϕX1+···+Xn = ϕX1 · · · ϕXn . Remarque (admis) : En appliquant alors la transformée de Fourier à ϕX+Y cela permet de retrouver la loi de X + Y .
  36. 36. 36 CHAPITRE 5. COUPLE DE VARIABLES ALÉATOIRES Calcul de la fonction densité de Z = X + Y . On suppose que X et Y sont indépendantes et absolument continues, de densités respectives fX et fY . Alors la fonction de répartition F de Z = X + Y est définie par : F(z) = P(X + Y < z) = +∞ −∞ fX(x) z−x −∞ fY (y)dy dx = +∞ −∞ fX(x)FY (z − x) dx = +∞ −∞ fY (y)FX(z − y) dy (par symétrie) Par dérivation (théorème admis) par rapport à z, la densité de probabilité de Z est définie par f(z) = +∞ −∞ fX(x)fY (z − x) dx = +∞ −∞ FY (y)FX(z − y) dy. f est le produit de convolution de fX et fY , noté fX ∗ fY . 5.3.2 Produit L’espérance du produit de deux variables aléatoires est donné par la formule E(XY ) = E(X) E(Y ) + Cov(X, Y ), Cov() est la covariance entre les variables. En particulier, lorsque X et Y sont indépendantes, E(XY ) = E(X) E(Y ). 5.3.3 Fonction de variable aléatoire Soit ϕ une fonction dérivable de R dans R. En posant Y = ϕ ◦ X, on obtient une nouvelle variable aléatoire, notée ϕ(X), que l’on étudiera à l’aide de sa fonction de répartition. Exemple : Soit X exprimant la consommation en litres aux 100 kilomètres d’une voiture. Aux Etats-Unis, on s’intéresse plus à la notion de distance parcourue avec un plein, que l’on retranscrit sous la forme Z est le nombre de miles parcourus avec un gallon d’essence (Plus précisément Z = 235/X). 1. Cas où ϕ est monotone croissante Soit F la fonction de répartition de X. La fonction de répartition G de Y est définie, pour y réel, par : G(y) = P(Y < y) = P(X < ϕ−1 (y)) = F(ϕ−1 (y)), soit encore F(x) = G(ϕ(x)). Si X est absolument continue, Y aussi et leurs densités de probabilité respectives, f et g sont liées par : f(x) = g(ϕ(x))ϕ (x) ou g(y) = f(x)/ϕ (x) = f(ϕ−1 (y))/ϕ (ϕ−1 (y)). Exemple : Y = eX a pour densité de probabilité g(y) = f(x)e−x = f(ln y)/y. 2. Cas où ϕ est décroissante Alors X > x équivaut à Y < ϕ(x), donc G(y) = 1 − F(ϕ−1 (y)), que l’on peut écrire F(x) = 1 − G(ϕ(x)). Dans le cas absolument continu, g(y) = −f(x)/ϕ (x) = −f(ϕ−1 (y))/ϕ (ϕ−1 (y)). Exemple : Y = c/X où c > 0 et X est à valeurs dans ]0, +∞[. G(y) = P(Y < y) = P( c X < y) = P(X > c y ) = 1 − F( c y ) pour y > 0 et G(y) = 0 pour y ≤ 0. 3. Cas ϕ quelconque On résout alors au cas par cas l’inéquation Y < y afin de trouver la fonction de répartition de Y . Exemple pour Y = X2 : – pour y < 0, Y < y est impossible ainsi G(Y ) = 0. – pour y ≥ 0, Y < y correspond à − √ y < X < √ y alors G(Y ) = F( √ y) − F(− √ y). Dans le cas où X est absolument continu, g(y) = 1 2 √ y (f( √ y) + f(− √ y)) sur R+ . Calcul de l’espérance : E(Y ) = i piϕ(xi) dans le cas discret et E(Y ) = R ϕ(x)f(x) dx dans le cas continu. Calcul de la variance : V (Y ) = dans le cas discret et V (Y ) = dans le cas continu.
  37. 37. Chapitre 6 Lois continues usuelles 6.1 Loi continue uniforme La variable aléatoire U est distribuée uniformément sur l’intervalle [a, b] si sa densité de probabilité est constante sur cet intervalle : f(x) = 1/(b − a) si x ∈ [a, b] 0 sinon On dit que U suit la loi uniforme et on note U → U(a, b). Par conséquent, sa fonction de répartition est donnée par : F(x) =    0 si x ≤ a (x − a)/(b − a) si x ∈ [a, b] 1 si x > b E(X) = a + b 2 , V (X) = (b − a)2 12 , ϕX(t) = eibt − eiat it(b − a) = eit(a+b)/2 sin(b−a 2 t) b−a 2 t Exercice : calcul de γ1 et γ2. 6.2 Loi exponentielle On souhaite modéliser l’intervalle de temps séparant deux occurrences successives d’un processus de Poisson. Ainsi la probabilité qu’il n’y ait aucune occurrence dans un intervalle de temps de longueur t est égale à p0(t) = e−λt (absence de mémoire de la loi exponentielle) où λ > 0 constituera le paramètre de la loi. Cette loi permet entre autres de modéliser la durée de vie de la radioactivité ou d’un composant électronique. La fonction de répartition de la loi exponentielle E(λ) est F(x) = 1 − e−λx si x ≥ 0 0 si x < 0 et sa fonction de densité f(x) = λe−λx si x ≥ 0 0 si x < 0 Caractéristiques : E(X) = 1/λ, V (X) = 1/λ2 , ϕX(t) = 1/(1 − it/λ).
  38. 38. 38 CHAPITRE 6. LOIS CONTINUES USUELLES 6.3 Loi normale 6.3.1 Rappel : calcul de l’intégrale de Gauss Soient G = +∞ 0 e−x2 dx et H = R+×R+ e−(x2 +y2 ) dx dy. Compte tenu de ce que les variables x et y se séparent, le théorème de Fubini donne : H = R+×R+ e−x2 e−y2 dx dy = +∞ 0 e−x2 dx +∞ 0 e−y2 dy = G2 . On passe en coordonnées polaires en posant x = r cos θ et y = r sin θ ; les variables r et θ se séparent elles aussi : H = R+×[0, π 2 [ e−r2 r dr dθ = +∞ 0 e−r2 r dr π 2 0 dθ = 1 2 · π 2 car +∞ 0 e−r2 r dr = 1 2 +∞ 0 e−u du = 1 2 (par le changement de variable r = √ u). On en déduit : G2 = π 4 , d’où G = 1 2 √ π puisque G ≥ 0, et enfin : +∞ −∞ e−x2 dx = 2G = √ π par parité. 6.3.2 Gaussienne On appelle loi normale (ou gaussienne) centrée réduite la loi définie par la densité de probabilité ϕ : R −→ R+ définie par : ϕ(t) = 1 √ 2π e− t2 2 . On peut vérifier qu’elle est continue et que son intégrale sur R est égale à 1 : On sait que +∞ −∞ e−x2 dx = √ π (intégrale de Gauss) et en posant x = t/ √ 2, on trouve que R ϕ(t) dt = 1. Remarques : 1. la densité ϕ est une fonction paire ; 2. elle est indéfiniment dérivable et vérifie, pour tout t ∈ R, l’identité ϕ (t) = −tϕ(t). La représentation graphique de cette densité est une courbe en cloche (ou courbe de Gauss). On démontre par la suite que la loi définie par cette densité de probabilité admet une espérance nulle et une variance égale à 1. Sa fonction caractéristique vaut ϕX(u) = e−u2 /2 (à ne pas confondre avec la fonction densité). Le calcul se fait de la façon suivante : ϕX(u) = +∞ −∞ eitu e−t2 √ 2π dt. Or −t2 2 + iut = −1 2 (t2 − 2iut) = −1 2 (t2 − 2iut + (−iut)2 − (−iut)2 ) = −1 2 (t − iu)2 + u2 . On pose x = t − iu, ainsi ϕX(u) = 1 √ 2π +∞ −∞ e−x2 /2−u2 /2 dx = e−u2 /2 √ 2π +∞ −∞ e−x2 /2 dx = e−u2 /2 .
  39. 39. Cours Probabilités / Pierre DUSART 39 6.3.3 Moments Les moments de cette loi existent tous. Pour tout r ∈ N, le moment d’ordre r par rapport à l’origine est : mr = +∞ −∞ tn ϕ(t) dt. En raison de la parité de l’intégrande, tous les moments d’ordre impair sont nuls : m2k+1 = 0. Supposons à présent r pair : r = 2k , où k ∈ N. Si k ≥ 1, une intégration par parties donne : m2k = +∞ −∞ t2k−1 tϕ(t)dt = − +∞ −∞ t2k−1 ϕ (t)dt = (2k − 1) +∞ −∞ t2k−2 ϕ(t)dt ce qui fournit la relation de récurrence : m2k = (2k − 1)m2k−2. De cette relation, on déduit, comme m0 = 1, que : m2k = 1 · 3 · · · (2k − 1) = (2k)! 2k k! . En particulier, m1 = 0 et m2 = 1, ainsi l’espérance est nulle (la loi est donc dite centrée) et la variance vaut m2 − m2 1 = 1 (la loi est donc dite réduite). Ceci justifie l’appellation de loi normale centrée réduite. Pour la suite on supposera µ = 0 et σ2 = 1. Des formules précédentes, on déduit encore : m3 = 0 et m4 = 3. La loi étant réduite, les moments centrés sont tous égaux aux moments par rapport à l’origine de même rang ; en particulier : µ2 = σ2 = 1, µ3 = 0 et µ4 = 3σ4 . On en déduit l’asymétrie (skewness) : γ1 = µ3 σ3 = 0 et l’aplatissement (kurtosis) : β2 = µ4 σ4 = 3. 6.3.4 Fonction de répartition On note Φ la fonction de répartition de la loi normale centrée réduite. Elle est définie, pour tout réel x, par : Φ(x) = x −∞ ϕ(t)dt = x −∞ 1 √ 2π e− t2 2 dt. Φ est la primitive de ϕ qui tend vers 0 en −∞ ; cette primitive ne s’exprime pas à l’aide des fonctions usuelles (exponentielle, etc.) mais devient elle-même une fonction usuelle, importante, pour quiconque pratique le calcul des probabilités ou les statistiques. Les valeurs de cette fonction peuvent donc se trouver sous la forme d’une table ou directement dans des logiciels de calcul statistique. Propriétés de Φ : 1. Elle est indéfiniment dérivable, et Φ = ϕ 2. Elle est strictement croissante, tend vers 0 en −∞ et vers 1 en +∞. (c’est donc une bijection R →]0, 1[ : pour tout p ∈]0, 1[, il existe un unique x ∈ R, noté Φ−1 (p), tel que Φ(x) = p) 3. Pour tout x ∈ R, Φ(−x) = 1 − Φ(x) (ceci résulte de la parité de la fonction densité) ; en particulier, Φ(0) = 0, 5. La table de valeurs sera donc établie pour les valeurs x positives.
  40. 40. 40 CHAPITRE 6. LOIS CONTINUES USUELLES 6.3.5 Loi Normale ou de Laplace-Gauss Plus généralement, on dit qu’une variable aléatoire réelle X suit une loi normale (ou loi normale gaus- sienne, loi de Laplace-Gauss) d’espérance µ et d’écart type σ strictement positif si cette variable aléatoire réelle X admet pour densité de probabilité la fonction suivante définie, pour tout nombre réel x, par : d(x) = 1 σ √ 2π e− 1 2 (x−µ σ ) 2 . Une telle variable aléatoire est appelée variable gaussienne. On notera X → N(µ, σ). On aura alors E(X) = µ, V (X) = σ2 et ϕX(u) = eµiu− σ2u2 2 . On pourrait étudier cette loi précisément mais on se ramène au cas précédent (loi normale centrée réduite) en considérant le théorème suivant : Théorème 6.3.1 Si X suit N(µ, σ), alors Z = X−µ σ suit N(0, 1). Ainsi une seule loi sera tabulée (celle de la loi normale centrée réduite), les autres pourront être déduites. Cette loi est une des plus importantes dans la théorie des probabilités. 6.3.6 Somme de deux variables gaussiennes Théorème 6.3.2 Si X et Y sont deux variables indépendantes suivant des lois normales de moyennes respectives µ1 et µ2 et de variances σ2 1 et σ2 2 alors X + Y suit un loi normale de moyenne µ = µ1 + µ2 et de variance σ2 = σ2 1 + σ2 2. Ce théorème se généralise bien sûr à toute somme finie de variables aléatoires normales indépendantes. Preuve : Il s’agit de déterminer la loi de Z = X + Y . Calculons sa fonction caractéristique : ϕZ(t) = ϕX(t) ϕY (t) = eiµ1t− (σ1t)2 2 eiµ2t− (σ2t)2 2 = ei(µ1+µ2)t− (σ2 1+σ2 2)t2 2 On en déduit que Z suit N(µ1 + µ2, σ2 1 + σ2 2).
  41. 41. Cours Probabilités / Pierre DUSART 41 6.3.7 Somme de carrés de variables gaussiennes Soient k variables aléatoires indépendantes X1, · · · , Xk de même loi normale centrée et réduite, alors par définition la variable X, telle que X = k i=1 X2 i suit une loi du χ2 à k degrés de liberté. La loi du χ2 (prononcer « khi-deux ») est une loi caractérisée par un paramètre dit degrés de liberté à valeur dans l’ensemble des entiers naturels (non nuls). Pour une variable aléatoire suivant une loi du χ2 à k degrés de liberté, on notera la loi de χ2 (k) la loi de X. Alors la densité de notée sera : f(x) = 1 2k/2Γ(k/2) xk/2−1 e−x/2 pour tout x positif où Γ (gamma) est la fonction Γ : z → +∞ 0 tz−1 e−t dt. L’espérance mathématique de X vaut k et sa variance vaut 2k. 6.3.8 Approximation de B par N (Voir Chap convergences pour justification) Pour n assez grand, la loi binomiale se comporte comme une loi normale gaussienne d’espérance np et de variance npq. Plus précisément, le théorème de Moivre-Laplace précise que si Φ est la fonction de répartition de la loi normale centrée réduite et si Xn suit une loi binomiale de paramètres n et p, on a alors, pour tout réel t : lim n→∞ P Xn − np √ npq ≤ t = Φ(t). Le théorème de Berry-Esseen fournit une majoration de l’erreur commise quand on remplace P(Xn ≤ x) par P(Yn ≤ x) où Yn suit une loi normale d’espérance np et de variance npq : l’erreur commise est inférieure à C√ npq où C < 0, 4784 (Korolev & Shevtsova (2010)). En pratique, on remplace une loi binomiale par une loi normale pour n grand et p pas trop proche de 0 ni de 1 (par exemple pour n > 30, np > 5 et nq > 5 ou pour npq > 9) 6.3.9 Simulation Pour simuler la loi normale, on peut utiliser la méthode de Box-Muller : Si U1 et U2 sont des variables aléatoires indépendantes qui suivent la loi uniforme sur ]0,1[, alors on démontre assez aisément que les variables aléatoires : T1 = √ −2 ln U1 cos(2πU2) T2 = √ −2 ln U1 sin(2πU2) suivent toutes deux la loi normale centrée réduite (et sont indépendantes). On peut simuler toute loi normale N(µ, σ), en construisant la variable Y = µ + σT1.
  42. 42. 42 CHAPITRE 6. LOIS CONTINUES USUELLES 6.4 Loi de Weibull C’est une loi de probabilité continue appliquée aux durées de vie. C’est donc dans le contrôle de fiabilité que les entreprises ont tendance à l’utiliser, et plus précisément lorsque le taux de défaillance évolue comme une puissance du temps (ce qui est le cas le plus courant). Rappelons que lorsque ce taux est constant, on utilise la loi exponentielle, forme particulière de celle de Weibull, et lorsque le taux augmente proportionnellement au temps, c’est la distribution de Rayleigh qui est employée. La loi de Weibull repose sur deux paramètres positifs, l’un de forme et l’autre d’échelle de temps. La loi de Weibull à trois paramètres prend en compte la "localisation", c’est-à-dire un éventuel décalage du départ de la courbe par rapport à l’origine (soit à gauche soit à droite). On prendra α comme paramètre de forme, et λ étant celui de temps. Le paramètre α est habituellement supérieur à 1 : le taux de défaillance croît avec le temps. S’il est inférieur, c’est pendant le rodage que les risques de défaillance sont élevés et s’il est égal à 1, on retombe sur la loi exponentielle. Sa fonction de répartition F(x) = 1 − e−λxα si x ≥ 0 0 si x < 0 et sa fonction de densité f(x) = αλxα−1 e−λxα si x > 0 0 si x ≤ 0 Caractéristiques : E(X) = Γ(1 + 1/α)/λ1/α , V (X) = Γ(1+2/α)−Γ(1+1/α) λ2/α où Γ est la fonction Gamma d’Euler. Proposition 6.4.1 Si X suit une loi exponentielle de paramètre λ alors X1/α suit une loi de Weibull W(λ, α). 6.5 Loi de Pareto L’économiste italien Vilfredo Pareto (1848-1923) observa au début du XXe siècle que 20% de la population italienne possédait 80% de la richesse nationale d’où le nom de la loi 80-20 ou 20-80. La loi de Pareto admet deux paramètres (c, α). Le premier paramètre (c > 0) tronque la distribution : le domaine de définition de X suivant cette loi est alors restreint à ]c, +∞[ (introduction de la contrainte x > c). Le deuxième paramètre est le paramètre de forme α > 0. Alors la distribution est caractérisée par : P(X > x) = x c −k avec x > c. La fonction de densité est alors f(x) = α c c x α+1 et la fonction de répartition est F(x) = 1 − c x α Caractéristiques : E(X) = αc α−1 pour α > 1, V (X) = α (α−1)2(α−2) c2 pour α > 2, E(Xk ) = α α−c ck pour α > k. Fonction caractéristique : α(−ict)α Γ(−α, −ict)
  43. 43. Cours Probabilités / Pierre DUSART 43 6.6 Loi de Gumbel C’est une loi de modélisation de valeurs extrêmes dont la fonction de répartition est la suivante : F(x) = e−e−(x−α)/β . Sa fonction de densité est f(x) = e−x−e−x Caractéristiques de la loi : E(X) = α + γβ (où γ = 0.5772156 · · · est la constante d’Euler ), V (X) = β2 π2 /6, mode= α. Fonction caractéristique : ϕX(t) = Γ(1 − iβt)eiαt
  44. 44. 44 CHAPITRE 6. LOIS CONTINUES USUELLES
  45. 45. Chapitre 7 Convergences 7.1 Convergence en probabilité Rappel : Inégalité de Bienaymé-Chebyshev Soit X une variable aléatoire admettant une espérance E(X) et de variance finie σ2 (l’hypothèse de variance finie garantit l’existence de l’espérance). L’inégalité de Bienaymé-Tchebychev s’énonce de la façon suivante : pour tout réel ε strictement positif, P(|X − E(X)| ≥ ε) ≤ σ2 ε2 . Définition 17 (Convergence en probabilité) On considère une suite (Xn) d’une v.a. définie sur Ω, X une autre v.a. définie sur Ω. On dit que la suite (Xn) converge en probabilité vers une constante réelle si ∀ε > 0, lim n→∞ P(|Xn − | > ε) = 0. On dit que la suite (Xn) converge en probabilité vers X si ∀ε > 0, lim n→∞ P(|Xn − X| > ε) = 0. Conséquence : Pour que (Xn) converge en probabilité vers X, il faut et il suffit que E(Xn − X) → 0 et V (Xn − X) → 0 lorsque n → ∞ (la démonstration passe par l’inégalité de Bienaymé-Chebychev). 7.1.1 Exemple de la loi binomiale On réalise n expériences indépendantes et on suppose que lors de chacune de ces expériences, la probabilité d’un événement appelé “succès” est p. Soit Sn le nombre de succès obtenus lors de ces n expériences. La variance aléatoire Sn, somme de n variables de Bernoulli indépendantes, de même paramètre p, suit une loi binomiale : Sn → B(n, p). On s’intéresse alors à la variable aléatoire Sn n , proportion de succès sur n expériences, a donc pur espérance E(Sn n ) = p et pour variance V (Sn n ) = 1 n2 V (Sn) = p(1−p) n . Comme p(1 − p) atteint son maximum lorsque p = 1/2, on a ainsi p(1 − p) ≤ 1/4. En appliquant l’inégalité de Bienaymé-Chebyshev, il vient P(|Sn/n − p| ≥ ε) ≤ p(1 − p) nε2 ≤ 1 4nε2 .
  46. 46. 46 CHAPITRE 7. CONVERGENCES Ainsi pour tout ε > 0, il existe η > 0 (plus précisément η > 1 4nε2 ) tel que P(|Sn/n − p| ≥ ε) < η ou encore limn→∞ P(|Sn/n − p| ≥ ε) = 0. La variable aléatoire Sn n converge en probabilité vers p. 7.1.2 Convergence en probabilité Théorème 7.1.1 Soit (Xn) une suite de varaiables aléatoires sur le même espace probabilisé (Ω, P) admettant des espérances et des variances vérifiant lim n→∞ E(Xn) = et lim n→∞ V (Xn) = 0, alors les (Xn) convergent en probabilité vers . Preuve Soit ε > 0. Posons E(Xn) = + un avec lim un = 0. Alors il existe N ∈ N tel que : n ≥ N ⇒ |un| < ε/2 et donc à partir du rang N, |Xn − E(Xn)| < ε/2 ⇒ |Xn − | < ε, (7.1) car |Xn − | = |Xn − E(Xn) + E(Xn) − | ≤ |Xn − E(Xn)| + |E(Xn) − |. L’implication (7.1) peut être encore écrite sous la forme |Xn − | ≥ ε ⇒ |Xn − E(Xn)| ≥ ε/2. Par conséquent, en utilisant l’inégalité de Bienaymé-Chebyshev, P(|Xn − | ≥ ε) ≤ P(|Xn − E(Xn)| ≥ ε/2) ≤ V (Xn) (ε/2)2 , qui tend vers 0 quand n tend vers l’infini. 7.1.3 Loi faible des grands nombres Théorème 7.1.2 Soit (Xn) une suite de variables aléatoires indépendantes sur le même espace probabi- lisé (Ω, P) ayant une même espérance mathématique et des variances vérifiant limn→∞ 1 n2 n i=1 σ2 i = 0. On pose Sn = X1 + · · · + Xn alors Sn n converge en probabilité vers . Si on considère une suite de variables aléatoires (Xn) indépendantes définies sur un même espace probabi- lisé, ayant même espérance et même variance finie notées respectivement E(X) et V (X). La loi faible des grands nombres stipule que, pour tout réel ε strictement positif, la probabilité que la moyenne empirique Sn n s’éloigne de l’espérance d’au moins ε, tend vers 0 quand n tend vers l’infini. La moyenne Sn n converge en probabilité vers l’espérance commune E(X). 7.2 Convergence en loi Définition 18 Soient (Xn) et X des variables aléatoires sur un mêm espace probabilité (Ω, P), de fonc- tions de répartition respectives Fn et F ; on dit que les (Xn) convergent vers X en loi (et on note Xn L → X) si en tout point x où F est continue, les Fn(x) convergent vers F(x).
  47. 47. Cours Probabilités / Pierre DUSART 47 Propriétés : (admises) 1. La convergence en probabilité entraîne la convergence en loi. 2. Si les (Xn) et X sont des variables aléatoires discrètes, alors Xn converge en loi vers X si et seulement si ∀x ∈ R, lim n→∞ P(Xn = x) = P(X = x). Proposition 7.2.1 (Convergence de la loi hypergéométrique vers la loi binomiale) Soit (XN ) une suite de variables aléatoires sur un même espace probabilisé, de loi hypergéométrique : XN → H(N, n, p) où n et p sont supposés constants. Alors (XN ) convergent en loi, quand N tend vers l’in- fini, vers X de loi binomiale B(n, p) (mêmes valeurs de paramètres). Preuve La probabilité ponctuelle de XN est P(XN = k) = Ck NpCn−k Nq Cn N . Lorsque N tend vers l’infini avec n constant, Cn N = N(N − 1) · · · (N − n + 1) n! = Nn (1 − 1 N ) · · · (1 − n − 1 N ) 1 n! ≡ Nn n! car (1 − m N ) ≡ 1 lorsque N tend vers l’infini. De même, lorsque N tend vers l’infini avec p et k fixes, alors Ck Np ≡ (Np)k k! et Cn−k N(1−p) ≡ (N(1 − p))n−k (n − k)! . Finalement, P(XN = k) ≡ pk (1 − p)n−k n! k!(n − k)! = Ck npk (1 − p)n−k , ce qui correspond à la probabilité ponctuelle d’une variable aléatoire qui suit la loi binomiale B(n, p). C’est pour cela que lorsque la population (de taille N) est très grande, on peut assimiler la loi d’une variable aléatoire comptant le nombre de réussite sur un tirage sans remise (loi hypergéométrique) à une loi binomiale (tirage avec remise). Proposition 7.2.2 (Convergence de la loi binomiale vers une loi de Poisson) Soit (Xn) une suite de variables aléatoires binomiales sur un même espace probabilisé : pour tout n, Xn suit B(n, pn). On suppose que limn→+∞ pn = 0 et limn→+∞ npn = λ. Alors (Xn) convergent en loi, quand n tend vers l’infini, vers une loi de Poisson de paramètre λ. Preuve Pour k fixé, P(Xn = k) = n(n − 1) · · · (n − k + 1) k! pk n(1 − pn)n−k = (npn)k k! (1 − pn)n (1 − 1 n ) · · · (1 − k − 1 n )(1 − pn)−k On cherche la limite de (1−pn)n = exp(n ln(1−pn)) = exp(n ln(1−npn/n)). Comme limn→+∞ npn = λ, on pose npn = λ+εn avec limn→+∞ εn = 0 et ainsi ln(1−npn/n) ∼∞ −λ/n donc limn→+∞(1−pn)n = e−λ . Comme k est fixé, limn→+∞(1 − 1 n ) · · · (1 − k−1 n )(1 − pn)−k = 1 Ainsi lim n→+∞ P(Xn = k) = e−λ λk k! , ce qui correspond à la probabilité ponctuelle d’une variable aléatoire qui suit une loi de Poisson P(λ). Il s’agit donc d’une convergence en loi en appliquant le point 2 des propriétés.
  48. 48. 48 CHAPITRE 7. CONVERGENCES Corollaire 7.2.3 (Application pratique) On peut remplacer B(n, p) par P(λ) avec λ = np pour n très grand (n > 50) et p très petit (p < 0, 1). 7.3 Convergence des fonctions caractéristiques 7.3.1 Continuité Théorème 7.3.1 (théorème de continuité de Levy) Soit (Xn) une suite de variables aléatoires de fonctions caractéristiques ϕXn et X une variable aléatoire de fonction caractéristique ϕX, toutes sur un même espace probabilisé. Si les (Xn) convergent en loi vers X alors la suite de fonctions (ϕXn ) converge uniformément vers ϕX qur tout intervalle [−a, a]. Inversement si les (ϕXn ) convergent vers une fonction ϕ dont la partie réelle est continue en 0, alors ϕ est la fonction caractéristique d’une variable aléatoire X vers laquelle les Xn convergent en loi. On peut le résumer ainsi : {∀t ∈ R; ϕXn (t) → ϕX(t)} ⇔ {Xn L → X} 7.3.2 Théorème central limite Corollaire 7.3.2 (Théorème central limite) Soit une suite (Xn) de variables aléatoires définies sur le même espace de probabilité, suivant la même loi D et dont l’espérance µ et l’écart-type σ communes existent et soient finis (σ = 0). On suppose que les (Xn) sont indépendantes. Considérons la somme Sn = X1 + · · · + Xn. Alors l’espérance de Sn est nµ et son écart-type vaut σ √ n et Sn−nµ σ √ n converge en loi vers une variable aléatoire normale centrée réduite. Preuve Posons Yi = Xi−µ σ √ n . Alors ϕYi (t) = ϕXi−µ σ √ n (t) = ϕXi−µ( t σ √ n ) Pour t fixé, lorsque n tend vers l’infini, t σ √ n est infiniment petit. Ecrivons le développement limité, au voisinage de 0, de la fonction caractéristique d’une variable aléatoire W : ϕW (u) = ϕW (0) + u ϕW (0) + t2 2 ϕW (0) + u2 ε(u) = 1 + i u E(W) − u2 2 E(W2 ) + u2 ε(u) En posant W = Xi −µ, u = t/(σ √ n), on a E(W) = E(Xi −µ) = 0 et E(W2 ) = E((Xi −µ)2 ) = V (Xi) = σ2 d’où ϕXi−µ( t σ √ n ) = 1 − t2 2σ2n σ2 + 1 n ε(t3 /σ3 √ n) = 1 − t2 2n + 1 n εi(n) avec limn→+∞ εi(n) = 0. Maintenant, posons Zn = Sn−nµ σ √ n = n i=1 Yi. L’indépendance des Xn entraîne celle des Yi et ainsi ϕZn (t) = n i=1 ϕYi (t) = exp n i=1 ln n(1 − t2 2n + 1 n εi(n))
  49. 49. Cours Probabilités / Pierre DUSART 49 et limn→+∞ ϕZn (t) = e−t2 /2 qui est la fonction caractéristique de N(0, 1). Ce théorème établit une propriété générale, qui va justifier l’importance considérable de la loi normale, à la fois comme modèle pour décrire des situations pratiques, mais aussi comme outil théorique. Il s’énonce ainsi : « Soit X1, ..., Xi, ..., Xn, une suite de n variables aléatoires indépendantes, de moyennes µ1, ..., µi, ..., µn, et de variances s1 2 , ..., si 2 , ..., sn 2 , et de lois de probabilité quelconques, leur somme suit une loi qui, lorsque n augmente, tend vers une loi normale de moyenne µ = n i=1 µi et de variance s2 = n i=1 si 2 . Il y a une seule condition restrictive, c’est que les variances soient finies et qu’aucune ne soit prépondérante devant les autres. » La loi normale comme modèle : prenons l’exemple du fonctionnement d’un tour d’usinage du bois. Le réglage du tour a pour but d’obtenir des pièces présentant une cote bien définie ; mais on sait que de multiples causes perturbatrices agissent au cours de l’usinage d’une pièce : vibrations, usures, variations de courant ... Or si les causes perturbatrices sont nombreuses, si leurs effets interviennent de façon additive, enfin si la dispersion provoquée par chacune d’elles reste faible par rapport à la dispersion totale, alors le théorème central limite signifie qu’on doit observer une fluctuation globale très voisine de la loi normale. Et, comme ce mécanisme d’intervention de causes perturbatrices est très répandu dans la nature, il en résulte que la loi normale occupe en statistique une place privilégiée. 7.3.3 convergence de P vers N Corollaire 7.3.3 Soit (Xn) une suite de variables aléatoires suivants des lois de Poisson de paramètres λn. Si limn→+∞ λn = ∞, alors Xn−λn√ λn converge en loi vers N(0, 1). Preuve On utilise la fonction caractéristique de la loi de Poisson de paramètre λ : ϕX(t) = eλ(cos t+i sin t−1) . En utilisant les propriétés de la fonction caractéristique (ϕaX(t) = ϕ(at) et ϕX+b(t) = eitb ϕX(t)), il vient ϕX−λ(t) = e−itλ eλ(cos t+i sin t−1) puis ϕX−λ√ λ (t) = e λ(cos t√ λ +i sin t√ λ −1) e i t√ λ (−λ) . Or, lorsque λ tend vers l’infini, 1/λ est au voisinage de 0 et cos(t/ √ λ) ∼ 1 − (t/ √ λ)2 2 + 1 λ ε(λ) sin(t/ √ λ) ∼ (t/ √ λ) + 1 λ ε(λ) avec limλ→∞ ε(λ) = 0. Ou encore le développement de l’exposant avec 1/λ au voisinage de 0 est eit/ √ λ − 1 = it √ λ + (it)2 2λ + 1 λ ε(λ). Ainsi λ(cos(t/ √ λ) + i sin(t/ √ λ) − 1) − i √ λt ∼ −t2 /2 et ϕX−λ√ λ (t) ∼ e−t2 /2 , fonction caractéristique de N(0, 1). Application pratique : Pour λ suffisamment grand (disons λ > 1000), la distribution normale de moyenne λ et de variance λ est une excellente approcimation de la distribution de Poisson de paramètre λ. Si λ est plus grand que 10, alors la distribution normale est une bonne approximation si une correction de continuité est appliquée, c’est-à-dire P(X ≤ x) lorsque x est un entier positif ou nul est remplacé par P(X ≤ x + 0, 5).
  50. 50. 50 CHAPITRE 7. CONVERGENCES 7.3.4 convergence de B vers N Corollaire 7.3.4 (Théorème de Moivre-Laplace) Soit (Xn) une suite de variables aléatoires telles que (Xn) ∈ B(n, p). Alors Xn−np √ npq converge en loi vers la variable centrée réduite Z ∈ N(0, 1) ou encore Xn converge en loi vers N(np, √ npq). Preuve On rappelle que l’on a défini une variable de Bernoulli comme une variable qui prend la valeur 1 avec la probabilité p, et la valeur 0 avec la probabilité (1 − p), et montré que sa moyenne est égale à p et sa variance à p(1 − p). Or on peut considérer une variable binomiale comme la somme de n variables de Bernoulli. Il résulte du théorème central limite que, si n est suffisamment grand (en pratique à partir de n = 50), la loi binomiale peut être approximée par une loi normale de moyenne np et de variance np(1 − p). C’est pourquoi les tables de la loi binomiale s’arrêtent généralement à n = 50. Application pratique : on peut assimiler une loi binomiale à une loi normale dès que np > 15 et nq > 15 ou n > 30, np > 5, nq > 5.
  51. 51. Table des matières 1 Éléments d’analyse combinatoire 3 1.1 Quelques définitions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 1.2 Arrangement avec répétition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 1.3 Arrangement sans répétition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4 1.4 Permutation sans répétition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4 1.5 Permutation avec répétition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4 1.6 Combinaison sans répétition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5 1.7 Combinaison avec répétition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6 2 Probabilités 7 2.1 Espace probabilisé . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7 2.1.1 Événement et ensemble fondamental . . . . . . . . . . . . . . . . . . . . . . . . . . 7 2.1.2 Axiomatique de Kolmogorov . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8 2.2 Probabilité conditionnelle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9 2.2.1 Formule de Bayes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9 2.2.2 Formule des probabilités composées . . . . . . . . . . . . . . . . . . . . . . . . . . 10 2.2.3 Evénements indépendants . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10 3 Variables aléatoires 13 3.1 Définition d’une variable aléatoire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13 3.1.1 Différents types de variables aléatoires . . . . . . . . . . . . . . . . . . . . . . . . . 13 3.1.2 Loi de probabilité . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14 3.1.3 Fonction de répartition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14 3.1.4 Densité de probabilité . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15 3.2 Caractéristiques d’une variable aléatoire . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16 3.2.1 Tendance centrale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
  52. 52. 52 TABLE DES MATIÈRES 3.2.2 Paramètres de dispersion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17 3.2.3 Caractéristiques de forme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18 3.2.4 Inégalité de Bienaymé-Chebyshev . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19 3.2.5 Fonctions génératrices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20 4 Lois discrètes usuelles 23 4.1 Loi uniforme discrète . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23 4.2 Loi de Bernoulli . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24 4.3 Loi binomiale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24 4.4 Loi hypergéométrique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25 4.5 Loi géométrique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26 4.6 Loi de Poisson . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26 4.7 Approximation de B par P . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27 5 Couple de variables aléatoires 29 5.1 Couple de v.a. discrètes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29 5.1.1 Loi d’un couple de variables aléatoires discrètes . . . . . . . . . . . . . . . . . . . . 29 5.1.2 Lois marginales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29 5.1.3 Lois conditionnelles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30 5.1.4 Espérance, Variance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30 5.1.5 Fonction de répartition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30 5.1.6 Indépendance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31 5.1.7 Covariance et Corrélation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32 5.2 Couple de v.a. continues . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33 5.2.1 Fonction densité de probabilité . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33 5.2.2 Lois marginales et lois conditionnelles . . . . . . . . . . . . . . . . . . . . . . . . . 34 5.2.3 Indépendance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34 5.3 Somme et Produit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35 5.3.1 Somme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35 5.3.2 Produit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36 5.3.3 Fonction de variable aléatoire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36 6 Lois continues usuelles 37 6.1 Loi continue uniforme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37 6.2 Loi exponentielle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37 6.3 Loi normale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38 6.3.1 Rappel : calcul de l’intégrale de Gauss . . . . . . . . . . . . . . . . . . . . . . . . . 38 6.3.2 Gaussienne . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
  53. 53. Cours Probabilités / Pierre DUSART 53 6.3.3 Moments . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39 6.3.4 Fonction de répartition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39 6.3.5 Loi Normale ou de Laplace-Gauss . . . . . . . . . . . . . . . . . . . . . . . . . . . 40 6.3.6 Somme de deux variables gaussiennes . . . . . . . . . . . . . . . . . . . . . . . . . 40 6.3.7 Somme de carrés de variables gaussiennes . . . . . . . . . . . . . . . . . . . . . . . 41 6.3.8 Approximation de B par N . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41 6.3.9 Simulation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41 6.4 Loi de Weibull . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42 6.5 Loi de Pareto . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42 6.6 Loi de Gumbel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43 7 Convergences 45 7.1 Convergence en probabilité . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45 7.1.1 Exemple de la loi binomiale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45 7.1.2 Convergence en probabilité . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46 7.1.3 Loi faible des grands nombres . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46 7.2 Convergence en loi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46 7.3 Convergence des fonctions caractéristiques . . . . . . . . . . . . . . . . . . . . . . . . . . . 48 7.3.1 Continuité . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48 7.3.2 Théorème central limite . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48 7.3.3 convergence de P vers N . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49 7.3.4 convergence de B vers N . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50 Durée : 12h de cours 18 h TD

×