SlideShare une entreprise Scribd logo
1  sur  100
LES VARIABLES ALEATOIRES
une variable aléatoire est généralement l'ensemble des résultats possibles
d'une expérience aléatoire (Exemple: un lancer de dé, un lancer d’un pièce de
monnaie, la source générant un signal binaire ,,,,etc).
Une variable aléatoire est une description numérique du résultat d'une
expérience statistique.
Les variables aléatoires sont généralement de nature discrètes ou continues.
Des fois elles peuvent être un mélange des deux.
Variable aléatoire X discrète
Une variable aléatoire qui ne peut prendre qu'un nombre fini ou dénombrable est dite
discrète;
Exemples:
• Une variable aléatoire représentant le nombre de voitures vendues chez un
concessionnaire particulier au cours d'une journée serait discrète,
• Les valeurs obtenues après des lancers de dé : X = « face du dé » : prend
les valeurs x = 1, 2, 3, 4, 5, 6 (dénombrables)
• …. etc
GENERALITES
Variable aléatoire X continue
Une variable aléatoire qui peut prendre n'importe quelle valeur dans un certain
intervalle de nombres réels est dit continu.
Exemples:
• Une variable aléatoire représentant le poids d'une personne en kilogrammes
: 50kg<=X<=100kg
• La température exacte d’un four,
• La longueur exacte d’une pièce fabriquée
• La date et l'heure de réception d'un paiement.
GENERALITES
Variable aléatoire X mélange (continue et discrète simultanément)
Une variable aléatoire qui peut prendre en même temps des valeurs discrètes
et continues.
Exemple:
Un récepteur d’une chaine de transmission numérique, reçoit les données
numériques binaires émis par l’émetteur mais ‘’corrompues’’ par un bruit blanc
dû au canal qui est modélisé souvent comme étant une variable aléatoire
continue (Gaussien centré)
GENERALITES
STATISTIQUES DES VARIABLES ALEATOIRES
Loi de probabilité d’une variable aléatoire X discrète
Pour une variable aléatoire discrète, X, la distribution de probabilité est définie
par une fonction de masse de probabilité, notée f(xi); où xi l’ensemble des
valeurs que la variable aléatoire discrète X peut prendre,
Cette fonction fournit la probabilité pour chaque valeur xi de la variable
aléatoire X.
Dans le développement de la fonction de probabilité pour une variable aléatoire
discrète, deux conditions doivent être satisfaites:
(1) f(xi ) doit être non négatif pour chaque valeur de la variable aléatoire,
1  f(xi )  0
(2) la somme des probabilités pour chaque valeur de la variable aléatoire doit
être égale à un.
STATISTIQUES DES VARIABLES ALEATOIRES
Loi de probabilité d’une variable aléatoire X discrète
X
f(xi )
xi
Densité de probabilité d’une variable aléatoire discrète
1
i
p
i
i
i
n
1
i
p
)
x
p(X
x






STATISTIQUES DES VARIABLES ALEATOIRES
Loi de probabilité d’une variable aléatoire X continue
Une variable aléatoire continue peut prendre n'importe quelle valeur dans un
intervalle de valeurs réelle ou dans une collection d'intervalles.
Puisqu'il y a un nombre infini de valeurs dans n'importe quel intervalle, il n'est
pas significatif de parler de la probabilité que la variable aléatoire prenne une
valeur spécifique; au lieu de cela, la probabilité qu'une variable aléatoire
continue se trouve dans un intervalle donné est considérée.
f (x)dx


 1
avec
P(a  X  b) = f (x)dx
a
b
 = P(X  b) - P(X  a)
STATISTIQUES DES VARIABLES ALEATOIRES
Fonction de répartition d’une variable aléatoire discrète/continue
Une fonction de répartition d’une variable aléatoire x est une fonction F(x) qui,
pour tout x, indique la probabilité pour que x soit inférieur ou égal à x1. Elle
correspond donc à la distribution cumulée,
v.a. discrète v.a. continue
 


x
dx
x
f
x
F )
(
)
(
F(k)= P(X≤k)
0
1
0 ≤ F(x) ≤ 1
STATISTIQUES DES VARIABLES ALEATOIRES
L’espérance, notée E(x) correspond à une moyenne pondérée
Variable aléatoire discrète
Soit X un va discrète qui prend des valeurs dans l'ensemble D et a comme
densité de probabilité f(xi). Alors l’espérance mathématique ou moyenne
statistique (ou d’ensemble) de X est:
Variable aléatoire continue
L’espérance mathématique (moyenne statistique) d'une va continue X avec une
fonction de densité de probabilité (pdf) f (x) est:
ESPERANCE MATHEMATIQUE
STATISTIQUES DES VARIABLES ALEATOIRES
La variance d'une variable aléatoire, notée Var(X) ou σ2, est une moyenne
pondérée des écarts au carré de la moyenne.
• Dans le cas discret, les poids sont donnés par la fonction de probabilité,
• Dans le cas continu, les poids sont donnés par la fonction de densité de
probabilité.
L'écart type, noté σ, est la racine carrée positive de la variance. Étant donné
que l'écart-type est mesuré dans les mêmes unités que la variable aléatoire et
que la variance est mesurée en unités au carré, l'écart-type est souvent la
mesure préférée.
Variable aléatoire discrète
Variable aléatoire continue
VARIANCE
Exemple 1: Soit une source qui va émettre le mot suivant:
Alphabet Source = le mot ‘’annaba’’={a, n, n, a, b, a}
Les symboles générés par la source sont formés par 3 lettres de l’alphabet
français à savoir a, n et b, mais pas avec la même loi de probabilité, si on se
restreint à cet exemple basic.
La loi de probabilité est donc (pour ce cas de figure) :
P(‘’a’’)=1/2, P(‘’n’’)=1/3 et P(‘’b’’)=1/6
1- Tracer sa densité de probabilité
2- Sa fonction de répartition
3- Calculer son espérance mathématique, sa variance et son écart type
STATISTIQUES DES VARIABLES ALEATOIRES
Exemple 2:
Soit un bloc d’images en niveaux de gris de taille 8 × 8 pixels
10 10 10 15 200 200 200 200
15 5 255 255 200 200 200 200
10 15 10 5 200 200 200 200
10 10 10 15 200 200 200 200
15 5 255 255 100 200 100 200
10 15 10 5 100 200 100 200
20 30 30 30 100 200 100 200
20 150 20 20 100 200 100 200
 Ces niveaux de gris sont normalement compris entre 0 et 255, ce qui justifie
le choix habituel d’un codage de taille fixe de 8 bits par pixel.
1- Tracer sa densité de probabilité
2- Sa fonction de répartition
3- Calculer son espérance mathématique, sa variance et son écart type
STATISTIQUES DES VARIABLES ALEATOIRES
Propriétés de l’espérance mathématique
1. Propriété de l’addition :
E(X + Y) = E(X) + E(Y)
Démonstration:
2. Propriété de mise à l'échelle (Multiplication par une constante)
E(cX) = cE(X)
STATISTIQUES DES VARIABLES ALEATOIRES
Propriétés de l’espérance mathématique
3. Propriété de linéarité :
A partir des deux propriétés précédentes nous pouvons généraliser la
propriété de linéarité de l’espérance mathématique
4. Inégalités de valeur absolue:
5. Multiplication
E (XY) = E (X) E (Y). Ici, X et Y doivent être indépendants.
6. Addition à une constante
E [X + a] = E [X] + a, où a est une constante
STATISTIQUES DES VARIABLES ALEATOIRES
Propriétés de la variance
1. Propriété 1
2. Propriété 2: d’une manière générale nous avons
3. Propriété 3 : La variance d'une constante est de 0.
STATISTIQUES DES VARIABLES ALEATOIRES
Propriétés de la variance
4. Propriété 4
V (a1X1 + a2 X2 +… + anXn) = a1
2 V (X1) + a2
2 V (X2) +… + an
2 V (Xn).
1. Propriété 2: d’une manière générale nous avons
2. Propriété 3 : La variance d'une constante est de 0.
STATISTIQUES DES VARIABLES ALEATOIRES
CAS DE DEUX VARIABLES ALEATOIRES DISCRETES
Considérons d'abord le cas dans lequel deux variables aléatoires sont
discrètes. C’est un cas très répondu surtout en télécommunications numériques
où les données discrètes de l’émission et celles reçus,
Nous allons donc étendre plusieurs des définitions que nous avons apprises
pour une variable aléatoire discrète, telle que la fonction de masse de
probabilité, la moyenne et la variance, au cas où nous ont deux variables
aléatoires discrètes.
Soit deux variables aléatoire X et Y chacune pouvant prendre une valeur dans
un ensemble de 4 valeurs possibles équiprobables (même probabilité pour les
4 valeurs) :
X = {1, 2, 3, 4} et Y = {1, 2, 3, 4}
Commençons par trouver la «distribution de probabilité conjointe
(x, y) désigne l'un des résultats possibles pour les deux variables
simultanément.
CAS DE DEUX VARIABLES ALEATOIRES DISCRETES
Si nous continuons à énumérer tous les résultats possibles, nous voyons
bientôt que le l’ensemble de possibilités conjointes S a 16 résultats possibles:
S = {(1,1) ; (1,2) ; (1,3) ; (1,4) ; (2,1) ; (2,2) ; (2,3) ; (2,4) ; (3,1) ; (3,2) ; (3,3) ;
(3,4) ; (4,1) ; (4,2) ; (4,3) ; (4,4) }
Comme X et Y sont équiprobables les deux et statistiquement indépendante
l’une de l’autre, nous devrions nous attendre à ce que chacun des 16 résultats
possibles soit équiprobable.
P(X=x,Y=y) = 1/16
La fonction de probabilité conjointe est
généralement notée f (x, y), puisse être définie
comme une formule, comme un graphique ou
comme un tableau.
CAS DE DEUX VARIABLES ALEATOIRES DISCRETES
Densité de probabilité Conjointe
Soit X et Y deux variables aléatoires discrètes, et soit S désignent le support
bidimensionnel de X et Y. Alors, la fonction f(x,y) = P(X=x,Y=y) est une fonction
de masse de probabilité conjointe si elle satisfait les trois conditions suivantes:
CAS DE DEUX VARIABLES ALEATOIRES DISCRETES
Densité de probabilité marginale
Soit X une variable aléatoire discrète avec le support S1, et soit Y une variable
aléatoire discrète avec le support S2.
Soit X et Y la fonction de masse de probabilité conjointe avec le support S.
Alors, la fonction de probabilité de la va X seule, appelée fonction de
probabilité marginale de X, est définie par :
De même, la fonction de probabilité de la va Y seule, appelée fonction de
probabilité marginale de Y, est définie par :
CAS DE DEUX VARIABLES ALEATOIRES DISCRETES
Indépendance et dépendance de 2 va
Les variables aléatoires X et Y sont indépendantes si et seulement si:
P(X=x,Y=y) = P(X=x) × P(Y=y)
 x  S1 et y  S2
Sinon, X et Y sont dits dépendants.
Soit maintenant, une fonction de probabilité conjointe f (x, y), et que nous
voulions trouver la moyenne statistique de X (notée E(X)).
On peut commencer par trouver d'abord la densité de probabilité marginale de
X, puis d'utiliser la définition de l’espérance E (X).
Alternativement, nous pourrions utiliser la définition suivante de la moyenne.
Où u(x,y) est fonction de ces deux
variables aléatoires,
CAS DE DEUX VARIABLES ALEATOIRES DISCRETES
Densité de probabilité conditionnelle
Dans les pages précédentes de ce cours, nous nous sommes intéressés au
comportement conjoint de deux variables aléatoires X et Y.
Nous allons maintenant examiner comment l'une des deux variables aléatoires,
disons Y, se comporte étant donné qu'une autre variable aléatoire, disons X,
s'est déjà comportée d'une certaine manière.
Fonction de masse de probabilité conditionnelle de X :
La fonction de probabilité conditionnelle de X, étant donné que Y = y, est définie
par:
Fonction de masse de probabilité conditionnelle de Y :
La fonction de probabilité conditionnelle de Y, étant donné que X = x, est définie
par:
A condition que fY(y) > 0
A condition que fX(x) > 0
CAS DE DEUX VARIABLES ALEATOIRES DISCRETES
Densité de probabilité conditionnelle
Exemple:
Soit X une variable aléatoire discrète avec support S1 = {0,1}, et soit Y une
variable aléatoire discrète avec support S2 = {0, 1, 2}.
Supposons, sous forme tabulaire, que X et Y aient la distribution de probabilité
conjointe suivante f(x,y):
Quelle est la distribution conditionnelle de X sachant Y? Autrement dit,
qu'est-ce que g (x / y)?
CAS DE DEUX VARIABLES ALEATOIRES DISCRETES
Densité de probabilité conditionnelle
Solution de l’exemple:
En utilisant la formule suivante : A condition que fY(y) > 0
CAS DE DEUX VARIABLES ALEATOIRES DISCRETES
Espérance et variance conditionnelles
Supposons que X et Y sont des variables aléatoires discrètes. Alors, la
moyenne conditionnelle de Y sachant X = x est définie comme:
Et, la moyenne conditionnelle de X sachant Y = y est définie comme:
La variance conditionnelle de Y sachant X = x:
La variance conditionnelle de X sachant Y = y:
CAS DE DEUX VARIABLES ALEATOIRES CONTINUES
Densité de probabilité Conjointe
Soit X et Y deux variables aléatoires continues, et soit S désigne le support
bidimensionnel de X et Y. Alors, la fonction f (x, y) est une fonction de densité
de probabilité conjointe si elle satisfait les trois suivantes conditions:
où {(X, Y) ∈ A} est un événement
dans le plan xy
Fonctions de densité de probabilité marginale
Les fonctions de densité de probabilité marginale des variables aléatoires
continues X et Y sont données respectivement par:
où S1 et S2 sont les supports respectifs de X et Y.
CAS DE DEUX VARIABLES ALEATOIRES CONTINUES
Densité de probabilité conditionnelle
Fonction de masse de probabilité conditionnelle de X :
La fonction de probabilité conditionnelle de X, étant donné que Y = y, est définie
par:
Fonction de masse de probabilité conditionnelle de Y :
La fonction de probabilité conditionnelle de Y, étant donné que X = x, est définie
par:
A condition que fY(y) > 0
A condition que fX(x) > 0
CAS DE DEUX VARIABLES ALEATOIRES CONTINUES
Espérance et variance conditionnelles
Supposons que X et Y sont des variables aléatoires continues. Alors, la
moyenne conditionnelle de Y sachant X = x est définie comme:
La variance conditionnelle de Y sachant X = x:
RELATION ENTRE DEUX VARIABLES ALEATOIRES
Supposons qu'une expérience produise deux variables aléatoires, X et Y.
Que peut-on dire à propos de la relation entre elles?
L'une des meilleures façons de visualiser la relation possible est de tracer la paire (X, Y)
produite par plusieurs essais de l'expérience.
CORRELATION ENTRE LES VARIABLES ALEATOIRES
Un exemple d'échantillons corrélés est présenté à
droite
Source
CANAL
P(Y/X)
Codages
Source/Canal
Décodage
Canal / Source
M C C’ M’
M : Message, variable aléatoire, délivré par la source sous forme d’un alphabet original
{m1, …., ml}
C : les mots de code sous forme d’un alphabet aléatoire {c1, …., cn}
C’ : les mots de code reçu avec présence d’erreurs {c’1, …., c’n}
M’ : les données reconstruites avec présence éventuelles d’une certaine perte
Un exemple typique en télécommunications où nous aurons besoin de connaitre la
relation entre deux variables aléatoires, X représentant les données émises et Y celle
représentant les données reçues.
Le canal étant hostile où il introduit des perturbations (bruits, interférences, effet
Doppler …. etc).
La comparaison entre ces deux variables, de point de vue corrélation, nous permet
d’évaluer le degré de perturbations introduites par le canal
RELATION ENTRE DEUX VARIABLES ALEATOIRES
RELATION ENTRE DEUX VARIABLES ALEATOIRES
Le comportement conjoint de X et Y est entièrement capturé dans la distribution de
probabilité conjointe. Pour une distribution continue
FONCTION DE DENSITE CONJOINTE
• Cas de variables aléatoires continues
• Cas de variables aléatoires discrètes
RELATION ENTRE DEUX VARIABLES ALEATOIRES
La fonction de covariance est un nombre qui mesure la variation commune de X et Y.
Elle est définie comme :
La covariance est déterminée par la différence entre :
E [XY] et E [X] E [Y].
Si X et Y étaient statistiquement indépendants, alors E [XY] serait égal à E [X] E [Y] et
la covariance serait nulle.
La covariance d'une variable aléatoire avec elle-même est égale à sa variance.
cov [X, X] = E [(X − E [X])2] = var [X]
FONCTION DE COVARIANCE ENTRE DEUX VARIABLES ALEATOIRES
RELATION ENTRE DEUX VARIABLES ALEATOIRES
La covariance peut être normalisée pour produire ce que l'on appelle le coefficient de
corrélation, ρ.
Le coefficient de corrélation est borné par −1≤ρ≤1.
Il aura la valeur ρ = 0 lorsque la covariance est nulle et la valeur ρ = ± 1 lorsque X et Y
sont parfaitement corrélés ou anti-corrélés.
COEFFICIENT DE CORRELATION ENTRE DEUX VARIABLES ALEATOIRES
RELATION ENTRE DEUX VARIABLES ALEATOIRES
Exemple
Soit une variable aléatoire X qui indique le nombre de tasses de chocolat chaud vendues
quotidiennement dans un café local, et Y une variable aléatoire qui indique le nombre
de muffins aux pommes et à la cannelle vendus quotidiennement dans le même café.
Ensuite, le gérant du café pourrait bénéficier de savoir si X et Y sont fortement corrélés
ou non.
Si les variables aléatoires sont fortement corrélées, le gestionnaire saurait alors s'assurer
que les deux sont disponibles un jour donné.
Si les variables aléatoires ne sont pas fortement corrélées, alors le gestionnaire saurait
qu'il serait normal que l'un des éléments soit disponible sans l'autre.
Le coefficient de corrélation est la mesure statistique qui va nous permettre de
quantifier le degré de corrélation entre deux variables aléatoires X et Y.
COEFFICIENT DE CORRELATION ENTRE DEUX VARIABLES ALEATOIRES
RELATION ENTRE DEUX VARIABLES ALEATOIRES
La fonction d'autocorrélation est très similaire à la fonction de covariance.
En effet, elle permet de comparer deux variables aléatoires X et Y mais en tenant aussi
compte de leurs moyennes statistiques (Espérance mathématique) ce qui fait la
différence avec la fonction de covariance (qui elle compare uniquement les fluctuations
des variables aléatoires sans leurs moyennes statistiques),
Elle est définie comme :
R (X, Y) = E [XY] = cov (X, Y) + E [X] E [Y]
Elle conserve les valeurs moyennes dans le calcul de la valeur.
Les variables aléatoires sont orthogonales si R (X, Y) = 0
COEFFICIENT DE CORRELATION ENTRE DEUX VARIABLES ALEATOIRES
RELATION ENTRE DEUX VARIABLES ALEATOIRES
La fonction de corrélation est très similaire à la fonction de covariance.
En effet, elle permet de comparer deux variables aléatoires X et Y mais en tenant aussi
compte de leurs moyennes statistiques (Espérance mathématique) ce qui fait la
différence avec la fonction de covariance (qui elle compare uniquement les fluctuations
des variables aléatoires sans leurs moyennes statistiques),
Elle est définie comme :
R (X, Y) = E [XY] = cov (X, Y) + E [X] E [Y]
Elle conserve les valeurs moyennes dans le calcul de la valeur.
Les variables aléatoires sont orthogonales si R (X, Y) = 0
FONCTION DE CORRELATION ENTRE DEUX VARIABLES ALEATOIRES
RELATION ENTRE DEUX VARIABLES ALEATOIRES
FONCTION DE CORRELATION ENTRE DEUX VARIABLES ALEATOIRES
Dans cet exemple nous avons trois (03) exemples qui nous montrent les corrélations
possibles entre deux variables aléatoires X et Y :
1. Dans le premier exemple il y’a une corrélation positive
2. Dans le deuxième cas les deux variables ne sont pas corrélées
3. Dans le troisième exemple il y’a une corrélation mais négative
RELATION ENTRE DEUX VARIABLES ALEATOIRES
FONCTION DE CORRELATION ENTRE DEUX VARIABLES ALEATOIRES
Non corrélation vs Indépendance
Entre deux variables aléatoires X et Y
RELATION ENTRE DEUX VARIABLES ALEATOIRES
CORRELATION, COVARIANCE et COEFFICIENT DE CORRELATION
RELATION ENTRE DEUX VARIABLES ALEATOIRES
INDEPENDANCE VS CORRELATION
L'indépendance entre deux variables aléatoires (VA) X et Y, devrait être
considérée comme disant qu’aucune des deux VA n'a un impact statistique sur
l'autre
Ainsi, les valeurs que l'un prendra probablement devraient être sans rapport
avec la valeur que l'autre prendra.
RELATION ENTRE DEUX VARIABLES ALEATOIRES
INDEPENDANCE VS CORRELATION
Exemple d’une variable aléatoire Gaussienne
1er cas : Indépendant
(moyenne nulle)
2ème cas : Indépendant
(moyenne non nulle)
3ème cas : dépendant
Contours pxy(x,y).
Si X et Y sont
indépendants, alors les
ellipses de contour sont
alignées avec l'axe x ou y
RELATION ENTRE DEUX VARIABLES ALEATOIRES
INDEPENDANCE VS CORRELATION
Deux variables aléatoires X et Y sont indépendantes si :
Rappels :
La fonction de Densité de probabilité décrit ‘’complètement’’ la variable
aléatoire VR
Mais souvent nous avons besoin aussi de :
• L’espérance mathématique ou Moyenne d’ensemble, E[X], de la VA. Elle
Décrit le centre de gravité de la densité de probabilité
• Variance d’une VA qui décrit l’étalement ou propagation de la densité de
probabilité
• Corrélation d’une VA qui décrit un peu «l'inclinaison» de la densité de
probabilité conjointe
RELATION ENTRE DEUX VARIABLES ALEATOIRES
Dans ce cas nous pouvons parler d’un vecteur aléatoires
CORRELATION ET CONVARIANCE ENTRE N VARIABLES ALEATOIRES
Nous obtenons donc une matrice de corrélation, de N× N éléments, du vecteur
x composé des N VA :
Pareil pour la covariance qui devient alors une matrice de N× N éléments,
ENTROPIE D’UNE VARIABLE ALEATOIRE
Comme nous venons de le voir, chaque variable aléatoire M={m1, m2,........,
mK}, est régit par une probabilité d’apparition {P(m1), P(m2),........, P(mk)}. Ceci,
nous permet donc de définir les concepts de base de la théorie d’information à
savoir :
 L’information associée à chaque symbole de la source est :
 L’entropie, qui représente la quantité d’information moyenne, d’une variable
aléatoire M est donnée par:
   
k
k m
P
m
I 2
log


Comme nous pouvons le remarquer, cette quantité moyenne d’information
d’une va, qui est l’entropie, dépend essentiellement de la loi de probabilité P.
 L’entropie, qui représentée la quantité d’information moyenne, d’une va M
est donnée par:
L’entropie d’une source représente donc la quantité d'information moyenne par
caractère de la va. Elle représente aussi une incertitude moyenne par
symbole. Elle peut exprimée en bit par symbole, c’est le cas de l’expression ci-
dessus, si nous travaillons en base 2 (log2).
Plus l'entropie d’une variable aléatoire (va) est grande, plus il y’a de
l’information délivrée par cette va et bien entendu l'incertitude est plus élevée.
On montre que pour une loi de probabilité équiprobable (m, P(mk)=p, et p=1)
nous aurons une entropie maximale égale à :
     
 
 


k
k
k m
P
m
P
M
H 2
log
   
   
p
m
P
M
H k 2
2 log
log 



ENTROPIE D’UNE VARIABLE ALEATOIRE
Exemple 1 : Cas d’une va binaire (alphabet = 0 ou 1) avec : (P(0)=p et
P(1)=1-p), alors cette entropie sera:
     
p
p
p
p
M
H 



 1
log
)
1
(
log 2
2
Si maintenant, nous allons représenter graphiquement cette entropie en
fonction de p, nous aurons:
H(M)
Comme nous l’avons énoncé plus haut,
cette entropie est maximale quand la
loi de probabilité est équiprobable, ici
p=0.5 (P(0)=P(1)=0.5.
On remarque aussi que cette entropie
est nulle pour p=0 et pour p=1
représentant respectivement une
certitude que la source n’émet que des
0 ou que des 1 (pas d’incertitude donc
pas d’information et l’entropie est donc
nulle)
ENTROPIE D’UNE VARIABLE ALEATOIRE
Exemple 2 : Cas d’une va de k symboles {m1, m2,........, mK} équiprobables
{P(m1) = P(m2) = ,........, = P(mK) =1/K}, alors cette entropie sera:
 
K
K
K
K
K
M
H
K
k
2
2
1
2
log
1
log
1
1
log
1


















 

Evidemment, cette entropie est maximale pour cette source compte tenu que la
loi de probabilité qui la régie est équiprobable.
Dans le cas d’une loi quelconque régissant une source de K éléments nous
avons:
    1
log2 

 M
H
K
M
H
ENTROPIE D’UNE VARIABLE ALEATOIRE
REDONDANCE D’UNE VARIABLE ALEATOIRE
Comme nous venons de le voir pour une va M de longueur K, l’entropie où
quantité d’information moyenne délivrée par cette source est notée H(M).
Elle est maximale pour une loi de probabilité équiprobable :
  K
M
H 2
max log

On définit la redondance de la va comme étant l'écart ou la différence entre la
valeur maximale possible (lorsque tous les symboles sont équiprobables) de
son entropie et son entropie réelle.
  )
(
log
)
(
Re 2
max M
H
K
M
H
M
H
dondance 



Une va dont l’entropie est faible est plus redondante. Autrement dit, il y’a moins
d’incertitude et donc moins d’information délivrée par la va et par conséquence
trop de redondance.
ENTROPIE MUTUELLE
Supposons maintenant que nous avons deux va X et Y. Chacune possède alors
une entropie que l’on définit par H(X) et H(Y). On définit :
 I(X) et I(Y) : Information propre de X et de Y respectivement
H(X,Y) : Information conjointe ou entropie mutuelle
H(X/Y) : Informations partielle ou conditionnel de X sachant Y. Elle représente
l’ambigüité ou l’incertitude qui reste sur X pour Y connu.
H(Y/X) : Informations partielle ou conditionnel de Y sachant X. Elle
représente l’ambigüité ou l’incertitude qui reste sur Y pour X connu.
I(X,Y) : Information mutuelle ou quantité d’information de X réellement
apportée par Y
 I(X/Y) et I(Y/X) : Informations conditionnelles
ENTROPIE MUTUELLE
 si X et Y sont deux variables aléatoires indépendantes, on a :
H(X,Y) = H(X) + H(Y
H(X/Y) = H(X)
H(Y/X) = H(Y)
I(X,Y) = I(X)-I(X/Y)=0
 Sinon, une certaine dépendance entre X et Y :
H(X,Y) < H(X) + H(Y) < 2 H(X,Y)
H(X,Y) = H(X) + H(Y/X)
H(X,Y) = H(Y) + H(X/Y)
I(X,Y) = H(X) – H(X/Y) = H(Y) – H(Y/X) = H(X) + H(Y) – H(X,Y) > 0
I(X,Y) = I(X) – I(X/Y) > 0
ENTROPIE MUTUELLE
Pour mieux comprendre ces définitions et cette figure prenons le cas d’un
système de transmission sous sa forme la plus simple
source canal Récepteur
X={x1, x2, …, xK} Y={y1, y2, …, yK}
Si X et Y son complètement indépendantes alors la quantité d’information
de X réellement apportée par Y de X ou I(X,Y) = 0
Dans le cas plus réaliste cette quantité d’information dite mutuelle est
égale à H(X)–H(X/Y).
Donc H(X/Y) est l’incertitude ou erreurs dus aux imperfections du canal.
ENTROPIE MUTUELLE
ENTROPIE MUTUELLE
ENTROPIE MUTUELLE
55
Loi binomiale
Deux des distributions de probabilité discrètes les plus utilisées sont :
• La loi de probabilité Binomiale
• La loi de probabilité de Poisson.
La fonction de probabilité binomiale (équation ci-dessous) fournit la probabilité
que x succès se produiront dans n essais d'une expérience binomiale.
Une variable Binomiale est donc une variable aléatoire X correspondant à la
somme de n variables de Bernoulli. Notée X : B(n,p)
Où X = nombre de succès au cours de n épreuves de Bernoulli identiques et
indépendantes,
EXEMPLES DE LOIS DE PROBABILITES DISCRETES
k)!
(n
k!
n!
C
avec
q
p
C
k)
p(X k
n
k
n
k
k
n



 
56
Loi binomiale
Une expérience binomiale a quatre propriétés:
(1) elle consiste en une séquence de n essais identiques;
(2) deux résultats, succès ou échec, sont possibles pour chaque essai;
(3) la probabilité de succès d'un essai, notée p, ne change pas d'un essai à
l'autre;
(4) les essais sont indépendants.
Une famille qui a trois (03) enfant,
La naissance de chaque enfant garçon ou fille a la même probabilité p=0,5
3 enfant = n
B(3, 0,5) =
EXEMPLES DE LOIS DE PROBABILITES DISCRETES
k)!
(n
k!
n!
C
avec
q
p
C
k)
p(X k
n
k
n
k
k
n



 
57
Loi binomiale
E(X) = np
V(X) = np(1-p)
EXEMPLES DE LOIS DE PROBABILITES DISCRETES
Loi de probabilité d’une loi binomiale
Fonction de répartition d’une loi binomiale
Espérance mathématique d’une loi binomiale
Variance d’une loi binomiale
58
Loi binomiale
Exemple:
Supposons que l'on sache que 10% des propriétaires d'automobiles de deux
ans ont eu des problèmes avec le système électrique de leur automobile. Pour
calculer la probabilité de trouver exactement 2 propriétaires qui ont eu des
problèmes de système électrique sur un groupe de 10 propriétaires, la fonction
de probabilité binomiale peut être utilisée en définissant n = 10, x = 2 et p = 0,1
dans l'équation suivante; dans ce cas, la probabilité est de 0,1937.
EXEMPLES DE LOIS DE PROBABILITES DISCRETES
k)!
(n
k!
n!
C
avec
q
p
C
k)
p(X k
n
k
n
k
k
n



 
59
Loi binomiale
Exemple:
Un couple, tous deux porteurs d'une maladie récessive, souhaite avoir 5
enfants. Ils veulent connaître la probabilité qu'ils aient quatre enfants en bonne
santé
EXEMPLES DE LOIS DE PROBABILITES DISCRETES
k)!
(n
k!
n!
C
avec
q
p
C
k)
p(X k
n
k
n
k
k
n



 
60
Loi binomiale
Exemple:
Répartition du nombre de filles dans les fratries de 4 enfants,
p: probabilité d’avoir une fille à chaque naissance = ½
X(Ω) = {0, 1, 2, 3, 4} Loi de probabilité B (4 ; 1/2)
EXEMPLES DE LOIS DE PROBABILITES DISCRETES
k)!
(n
k!
n!
C
avec
q
p
C
k)
p(X k
n
k
n
k
k
n



 
X=0 GGGG q4 0.0625
X=1 FGGG, GFGG, GGFG, GGGF 4q3p 0.25
X=2 FFGG, FGFG, FGGF, GFFG, GFGF, GGFF 6q2p2 0.375
X=3 FFFG, FFGF, FGFF, GFFF 4qp3 0,25
X=4 FFFF p4 0,0625
Indépendance statistique p (G  G  G  G) = q.q.q.q = q4
somme = 1
61
Loi binomiale
Exemple:
Une famille de n enfants, quelle est la probabilité d’avoir x garçons?
EXEMPLES DE LOIS DE PROBABILITES DISCRETES
B(2,0.5)= 0,52 0,50=0,25
B(7,0.5)?
k)!
(n
k!
n!
C
avec
q
p
C
k)
p(X k
n
k
n
k
k
n



 
62
Loi binomiale
Exemple:
EXEMPLES DE LOIS DE PROBABILITES DISCRETES
Avec n=2: B(2,0.5)
x P(x)
0 0.25
1 0.5
2 0.25
63
Loi binomiale
Exemple:
EXEMPLES DE LOIS DE PROBABILITES DISCRETES
Symétrique!!
64
Loi binomiale
Exemple:
Des rats sont conditionnés. Un passage a 25% d’être emprunté. 5 essais...
EXEMPLES DE LOIS DE PROBABILITES DISCRETES
B(5,0.25)???
65
Loi binomiale
Exemple:
EXEMPLES DE LOIS DE PROBABILITES DISCRETES
Dissymétrique!!!!
66
Espérance mathématique




n
i
i
i x
x
P
x
E
1
)
(
)
(
Pour la loi binomiale:
np
x
E 
)
(
Exemple:
Quelle est l’espérance mathématique du nombre de garçons dans une famille
de 7 enfants?
5
.
3
5
.
0
7
)
( 


 np
x
E
Loi binomiale
EXEMPLES DE LOIS DE PROBABILITES DISCRETES
67
npq

2

Pour une distribution binomiale:
Exemple:
Quelle est la variance du nombre de garçons dans une famille de 7 enfants?
75
.
1
5
.
0
5
.
0
7
2





EXEMPLES DE LOIS DE PROBABILITES DISCRETES
Loi binomiale
68
La distribution de probabilité de Poisson est souvent utilisée comme modèle du
nombre d'arrivées dans une installation au cours d'une période donnée.
Dans le cas d’une variable de Poisson, les événements se produisent les uns
à la suite des autres, de façon aléatoire dans l’espace ou le temps.
Exemple: une variable aléatoire pourrait être définie comme le nombre
d'appels téléphoniques entrant dans un système de réservation d'une
compagnie aérienne pendant une période de 15 minutes. Si le nombre moyen
d'arrivées pendant un intervalle de 15 minutes est connu, la fonction de
probabilité de Poisson donnée par l'équation ci-dessus peut être utilisée pour
calculer la probabilité de x arrivées.
Loi de Poisson

P(X  k)  e k
k!
k = 0, 1, 2, …, ∞
E(X) =  V(X) = 
Loi de probabilité:
Elle est appelée loi de Poisson, notée P(λ)
EXEMPLES DE LOIS DE PROBABILITES DISCRETES
69
Exemple: une variable aléatoire pourrait être définie comme le nombre
d'appels téléphoniques entrant dans un système de réservation d'une
compagnie aérienne pendant une période de 15 minutes. Si le nombre moyen
d'arrivées pendant un intervalle de 15 minutes est connu, la fonction de
probabilité de Poisson donnée par l'équation ci-dessus peut être utilisée pour
calculer la probabilité de x arrivées.
Supposons que le nombre moyen d'appels arrivant dans une période de 15
minutes soit de 10. Pour calculer la probabilité que 5 appels arrivent dans les
15 minutes suivantes, μ = 10 et x = 5 sont substitués dans ci dessus, ce qui
donne un probabilité de 0,0378.
Loi de Poisson
P(X  k)  e k
k!
k = 0, 1, 2, …, ∞
E(X) =  V(X) = 
Loi de probabilité:
Elle est appelée loi de Poisson, notée P(λ)
EXEMPLES DE LOIS DE PROBABILITES DISCRETES
70
La loi de Poisson: distribution théorique discontinue qui dérive de la loi
binomiale.
Une des éventualités a une probabilité très faible.
Surtout utilisé lorsqu’on compte des individus ou des évènements distribués au
hasard dans le temps ou dans l’espace.
Loi binomiale tend vers Poisson si p diminue et n augmente. En pratique un
événement est rare si p<0.05. L’approximation est satisfaisante si n>50.
Loi de Poisson
EXEMPLES DE LOIS DE PROBABILITES DISCRETES
71
Poisson démontre que :
x
x
n
p
q
x
x
n
n
x
P 


!
)!
(
!
)
(
Tend vers:

 


 e
x
x
P
e
x
np
x
P
x
np
x
!
)
(
ou
!
)
(
Avantage: un seul paramètre ()
Loi de Poisson
EXEMPLES DE LOIS DE PROBABILITES DISCRETES
72
Elle est appelée loi normale
Notée N (,)
E(X) =  V(X) = 2
La distribution de probabilité continue la plus largement utilisée en statistique
est la distribution de probabilité normale.
Une variable aléatoire est une variable normale quand elle dépend d’un grand
nombre de causes indépendantes dont aucune n’est prépondérante.

f (x) 
1
 2
e

1
2
(
x

)2
Densité de probabilité:
f symétrique/μ
Max en μ
EXEMPLES DE LOIS DE PROBABILITES CONTINUES
Loi normale
73
(a) = P(U < a)




X
U
U ~ N(0,1)
V. EXEMPLES DE LOIS DE PROBABILITES CONTINUES
Loi normale centrée réduite
74
b
a
?
)
( b
X
a
P 
 )
(





 



 b
X
a
P
)
(



 


 b
U
a
P
)
'
(
)
'
( a
b 
 

)
'
'
( b
U
a
P 





X
U
Loi normale centrée réduite
EXEMPLES DE LOIS DE PROBABILITES CONTINUES
75
0 ea
1-a
a/2
a/2
ea
a
e
e a 
 )
(
P
ε ~ N(0,1)
Loi normale centrée réduite
EXEMPLES DE LOIS DE PROBABILITES CONTINUES
76
E(n
2
)  n
V(n
2
)  2n
On appelle 2 à n degrés de liberté la variable aléatoire
définie par : )
1
,
0
(
~
X
avec
X
....
X
...
X
X i
2
n
2
i
2
2
2
1
2
N





Loi du 2 de Pearson
EXEMPLES DE LOIS DE PROBABILITES CONTINUES
77

U : n
2

V : p
2
E(Fp
n
) 
p
p 2
V(Fp
n
)  2
p2
n
(n  p 2)
(p 2)(p  4)
et
On appelle F à n et p degrés de liberté la variable aléatoir
définie par : ddl
p
à
~
V
et
ddl
n
à
~
U
avec
p
V
n
U
F 2
2



Loi de Fisher-Snedecor
EXEMPLES DE LOIS DE PROBABILITES CONTINUES
78
E(T) = 0
V(T) = n/n-2
On appelle T à n degrés de liberté la variable aléatoire
définie par : ddl
n
à
~
V
et
)
,
(
~
U
avec
n
V
U
T 2
1
0 
N

Loi de Student
EXEMPLES DE LOIS DE PROBABILITES CONTINUES
79
Importance de la loi normale
Théorème central limite de Laplace
Toute somme de v.a. indépendantes de même loi est une
variable asymptotiquement normale.
En particulier: Yn 
Xi
i1
n
  nE(X)
nV(X)
: N(0,1)
EXEMPLES DE LOIS DE PROBABILITES CONTINUES
80
Lorsque n grand, p petit, np constant: B(n,p) -> P( = np)
Lorsque n est grand, la loi binomiale, la loi de Poisson, la loi de
Student, la loi du χ 2, la loi de Fisher … tendent vers la loi
normale
Relations entre lois
Application du théorème centre limite
EXEMPLES DE LOIS DE PROBABILITES CONTINUES
Il est souvent intéressant de connaître les caractéristiques d'un grand groupe
d'éléments tels que les individus, les ménages, les bâtiments, les produits, les
pièces, les clients, etc.
Tous les éléments d'intérêt dans une étude particulière forment la population.
En raison du temps, du coût et d'autres considérations, les données ne peuvent
souvent pas être collectées auprès de chaque élément de la population.
Dans de tels cas, un sous-ensemble de la population, appelé échantillon, est
utilisé pour fournir les données.
Les données de l'échantillon sont ensuite utilisées pour élaborer des
estimations des caractéristiques de l'ensemble de la population.
Le processus consistant à utiliser un échantillon pour faire des inférences sur
une population est appelé inférence statistique.
ESTIMATION
Des caractéristiques telles que la moyenne de la population, la variance de la
population et la proportion de la population sont appelées paramètres de la
population.
Les caractéristiques de l'échantillon telles que la moyenne de l'échantillon, la
variance de l'échantillon et la proportion de l'échantillon sont appelées
statistiques d'échantillon.
Il existe deux types d'estimations:
• le point
• l'intervalle.
ESTIMATION
Une estimation ponctuelle est une valeur d'une statistique d'échantillon qui est
utilisée comme une estimation unique d'un paramètre de population.
Aucune déclaration n'est faite sur la qualité ou la précision d'une estimation
ponctuelle.
Les statisticiens préfèrent les estimations d'intervalle parce que les estimations
d'intervalle sont accompagnées d'un énoncé concernant le degré de confiance
que l'intervalle contient le paramètre de population estimé.
Les estimations d'intervalle des paramètres de population sont appelées
intervalles de confiance.
ESTIMATION
ECHANTILLONNAGE ET DISTRIBUTION D’ECHANTILLONNAGE
Les méthodes d'inférence statistique, et d'estimation en particulier, reposent sur
la notion qu'un échantillon probabiliste a été prélevé.
La principale caractéristique d'un échantillon probabiliste est que chaque
élément de la population a une probabilité connue d'être inclus dans
l'échantillon.
Le type le plus fondamental est un simple échantillon aléatoire.
Pour une population de taille N, un échantillon aléatoire simple est un
échantillon sélectionné de telle sorte que chaque échantillon possible de taille n
ait la même probabilité d'être sélectionné.
Le fait de choisir les éléments de la population un par un afin que chaque
élément ait la même probabilité d'être sélectionné fournira un échantillon
aléatoire simple.
Des tableaux de nombres aléatoires, ou des nombres aléatoires générés par
ordinateur, peuvent être utilisés pour garantir que chaque élément a la même
probabilité d'être sélectionné.
ECHANTILLONNAGE ET DISTRIBUTION D’ECHANTILLONNAGE
Une distribution d'échantillonnage est une distribution de probabilité pour une
statistique d'échantillon.
La connaissance de la distribution d'échantillonnage est nécessaire pour
construire une estimation d'intervalle pour un paramètre de population.
C'est pourquoi un échantillon probabiliste est nécessaire; sans échantillon
probabiliste, la distribution d'échantillonnage ne peut pas être déterminée et
une estimation d'intervalle d'un paramètre ne peut pas être construite.
ESTIMATION D’UNE MOYENNE DE POPULATION
Le processus d'estimation par points et intervalles le plus fondamental implique
l'estimation d'une moyenne de population.
Supposons qu'il soit intéressant d'estimer la moyenne de la population, μ, pour
une variable quantitative.
Les données collectées à partir d'un échantillon aléatoire simple peuvent être
utilisées pour calculer la moyenne de l'échantillon, x
̄ , où la valeur de x
̄ fournit
une estimation ponctuelle de μ.
Lorsque la moyenne de l'échantillon est utilisée comme estimation ponctuelle
de la moyenne de la population, on peut s'attendre à une certaine erreur en
raison du fait qu'un échantillon, ou un sous-ensemble de la population, est
utilisé pour calculer l'estimation ponctuelle.
La valeur absolue de la différence entre la moyenne de l'échantillon, x
̄ , et la
moyenne de la population, μ, écrite | x
̄ - μ |, est appelée erreur
d'échantillonnage.
ESTIMATION D’UNE MOYENNE DE POPULATION
L'estimation d'intervalle incorpore un énoncé de probabilité concernant
l'ampleur de l'erreur d'échantillonnage.
La distribution d'échantillonnage de x
̄ fournit la base d'une telle affirmation.
Les statisticiens ont montré que la moyenne de la distribution d'échantillonnage
de x
̄ est égale à la moyenne de la population, μ, et que l'écart type est donné
par σ / Racine carrée de √n, où σ est l'écart-type de la population.
L'écart type d'une distribution d'échantillonnage est appelé l'erreur standard.
Pour les échantillons de grande taille, le théorème de la limite centrale indique
que la distribution d'échantillonnage de x
̄ peut être approximée par une
distribution de probabilité normale.
En pratique, les statisticiens considèrent généralement que les échantillons de
taille 30 ou plus sont grands.
ESTIMATION D’UNE MOYENNE DE POPULATION
L'estimation d'intervalle incorpore un énoncé de probabilité concernant
l'ampleur de l'erreur d'échantillonnage.
La distribution d'échantillonnage de x
̄ fournit la base d'une telle affirmation.
Les statisticiens ont montré que la moyenne de la distribution d'échantillonnage
de x
̄ est égale à la moyenne de la population, μ, et que l'écart type est donné
par σ / Racine carrée de √n, où σ est l'écart-type de la population.
L'écart type d'une distribution d'échantillonnage est appelé l'erreur standard.
Pour les échantillons de grande taille, le théorème de la limite centrale indique
que la distribution d'échantillonnage de x
̄ peut être approximée par une
distribution de probabilité normale.
En pratique, les statisticiens considèrent généralement que les échantillons de
taille 30 ou plus sont grands.
ESTIMATION D’UNE MOYENNE DE POPULATION
Dans le cas du grand échantillon, une estimation de l'intervalle de confiance à
95% pour la moyenne de la population est donnée par x
̄ ± 1,96σ / Racine
carrée de √n.
Lorsque l'écart type de la population, σ, est inconnu, l'écart type de l'échantillon
est utilisé pour estimer σ dans la formule d'intervalle de confiance.
La quantité 1,96σ / Racine carrée de √n est souvent appelée marge d'erreur
pour l'estimation.
La quantité σ / Racine carrée de √n est l'erreur standard, et 1,96 est le nombre
d'erreurs standard à partir de la moyenne nécessaire pour inclure 95% des
valeurs dans une distribution normale.
L'interprétation d'un intervalle de confiance à 95% est que 95% des intervalles
construits de cette manière contiendront la moyenne de la population.
Ainsi, tout intervalle calculé de cette manière a une confiance de 95% pour
contenir la moyenne de la population.
ESTIMATION D’UNE MOYENNE DE POPULATION
En changeant la constante de 1,96 à 1,645, un intervalle de confiance de 90%
peut être obtenu.
Il convient de noter à partir de la formule pour une estimation d'intervalle qu'un
intervalle de confiance à 90% est plus étroit qu'un intervalle de confiance à
95% et, en tant que tel, a un degré de confiance légèrement plus faible
d'inclusion de la moyenne de la population.
Des niveaux de confiance plus faibles conduisent à des intervalles encore plus
étroits. En pratique, un intervalle de confiance de 95% est le plus utilisé.
En raison de la présence du terme n1 / 2 dans la formule pour une estimation
d'intervalle, la taille de l'échantillon affecte la marge d'erreur.
Des échantillons de plus grande taille entraînent de plus petites marges
d'erreur. Cette observation constitue la base des procédures utilisées pour
sélectionner la taille de l'échantillon.
Les tailles d'échantillon peuvent être choisies de telle sorte que l'intervalle de
confiance satisfasse toutes les exigences souhaitées concernant la taille de la
marge d'erreur.
ESTIMATION D’UNE MOYENNE DE POPULATION
La procédure que nous venons de décrire pour élaborer des estimations
d'intervalle d'une moyenne de population est basée sur l'utilisation d'un grand
échantillon.
Dans le cas du petit échantillon, c'est-à-dire où la taille de l'échantillon n est
inférieure à 30, la distribution t est utilisée pour spécifier la marge d'erreur et
construire une estimation de l'intervalle de confiance.
Par exemple, à un niveau de confiance de 95%, une valeur de la distribution t,
déterminée par la valeur de n, remplacerait la valeur de 1,96 obtenue à partir
de la distribution normale.
Les valeurs t seront toujours plus grandes, conduisant à des intervalles de
confiance plus larges, mais, à mesure que la taille de l'échantillon devient plus
grande, les valeurs t se rapprochent des valeurs correspondantes d'une
distribution normale.
Avec une taille d'échantillon de 25, la valeur t utilisée serait de 2,064, par
rapport à la valeur de distribution de probabilité normale de 1,96 dans le cas du
grand échantillon.
ESTIMATION D’UNE MOYENNE DE POPULATION
Les procédures d'estimation peuvent être étendues à deux populations pour des
études comparatives.
Par exemple, supposons qu'une étude soit menée pour déterminer les différences
entre les salaires versés à une population d'hommes et à une population de
femmes.
Deux échantillons aléatoires simples indépendants, l'un de la population d'hommes
et l'autre de la population de femmes, fourniraient deux moyennes
d'échantillonnage, x
̄ 1 et x
̄ 2.
La différence entre les deux moyennes d'échantillonnage, x
̄ 1 - x
̄ 2, serait utilisée
comme une estimation ponctuelle de la différence entre les deux moyennes de
population.
La distribution d'échantillonnage de x
̄ 1 - x
̄ 2 fournirait la base d'une estimation
d'intervalle de confiance de la différence entre les deux moyennes de population.
Pour les variables qualitatives, les estimations ponctuelles et d'intervalle de la
différence entre les proportions de population peuvent être construites en
considérant la différence entre les proportions de l'échantillon.
TESTS D’HYPOTHESES
Le test d'hypothèse est une forme d'inférence statistique qui utilise les données
d'un échantillon pour tirer des conclusions sur un paramètre de population ou
une distribution de probabilité de population.
Tout d'abord, une hypothèse provisoire est faite sur le paramètre ou la
distribution.
Cette hypothèse est appelée hypothèse nulle et est notée H0.
Une hypothèse alternative (notée Ha), qui est l'opposé de ce qui est énoncé
dans l'hypothèse nulle, est alors définie.
La procédure de test d'hypothèse consiste à utiliser des échantillons de
données pour déterminer si H0 peut être rejeté ou non.
Si H0 est rejeté, la conclusion statistique est que l'hypothèse alternative Ha est
vraie.
TESTS D’HYPOTHESES
Par exemple, supposons qu'une station de radio sélectionne la musique qu'elle
joue en partant de l'hypothèse que l'âge moyen de son auditoire est de 30 ans.
Pour déterminer si cette hypothèse est valide, un test d'hypothèse pourrait être
conduit avec l'hypothèse nulle donnée comme H0: μ = 30 et l'hypothèse
alternative donnée comme Ha: μ ≠ 30.
Sur la base d'un échantillon d'individus du public d'écoute, l'échantillon l'âge
moyen, x
̄ , peut être calculé et utilisé pour déterminer s'il existe des preuves
statistiques suffisantes pour rejeter H0.
Sur le plan conceptuel, une valeur de la moyenne de l'échantillon qui est
«proche» de 30 est cohérente avec l'hypothèse nulle, tandis qu'une valeur de la
moyenne de l'échantillon qui n'est «pas proche» de 30 étaye l'hypothèse
alternative.
Ce qui est considéré comme «proche» et «pas proche» est déterminé en
utilisant la distribution d'échantillonnage de x
̄ . Idéalement, la procédure de test
d'hypothèse conduit à l'acceptation de H0 lorsque H0 est vrai et au rejet de H0
lorsque H0 est faux.
TESTS D’HYPOTHESES
Malheureusement, comme les tests d'hypothèse sont basés sur des
informations d'échantillons, la possibilité d'erreurs doit être considérée. Une
erreur de type I correspond au rejet de H0 lorsque H0 est réellement vrai, et
une erreur de type II correspond à l'acceptation de H0 lorsque H0 est faux.
La probabilité de faire une erreur de type I est notée α et la probabilité de faire
une erreur de type II est notée β.
En utilisant la procédure de test d'hypothèse pour déterminer si l'hypothèse
nulle doit être rejetée, la personne effectuant le test d'hypothèse spécifie la
probabilité maximale admissible de commettre une erreur de type I, appelée
niveau de signification du test.
Les choix courants pour le niveau de signification sont α = 0,05 et α = 0,01.
Bien que la plupart des applications de test d'hypothèse contrôlent la
probabilité de commettre une erreur de type I, elles ne contrôlent pas toujours
la probabilité de commettre une erreur de type II.
TESTS D’HYPOTHESES
Un graphique appelé courbe caractéristique de fonctionnement peut être
construit pour montrer comment les changements dans la taille de l'échantillon
affectent la probabilité de commettre une erreur de type II.
Un concept connu sous le nom de valeur p fournit une base pratique pour tirer
des conclusions dans les applications de test d'hypothèses.
La valeur p est une mesure de la probabilité des résultats de l'échantillon, en
supposant que l'hypothèse nulle est vraie; plus la valeur p est petite, moins les
résultats de l'échantillon sont probables.
Si la valeur p est inférieure à α, l'hypothèse nulle peut être rejetée; sinon,
l'hypothèse nulle ne peut être rejetée.
La valeur p est souvent appelée le niveau de signification observé pour le test.
Un test d'hypothèse peut être effectué sur les paramètres d'une ou plusieurs
populations ainsi que dans diverses autres situations.
Dans chaque cas, le processus commence par la formulation d'hypothèses
nulles et alternatives sur la population.
TESTS D’HYPOTHESES
En plus de la moyenne de la population, des procédures de test d'hypothèses
sont disponibles pour les paramètres de population tels que les proportions, les
variances,
les écarts types et les médianes. Des tests d'hypothèse sont également
effectués dans l'analyse de régression et de corrélation pour déterminer si la
relation de régression et le coefficient de corrélation sont statistiquement
significatifs (voir ci-dessous Analyse de régression et de corrélation).
Un test d'ajustement fait référence à un test d'hypothèse dans lequel
l'hypothèse nulle est que la population a une distribution de probabilité
spécifique, telle qu'une distribution de probabilité normale.
Les méthodes statistiques non paramétriques impliquent également une variété
de procédures de test d'hypothèses.
METHODES BAYESIENNES
Les méthodes d'inférence statistique décrites précédemment sont souvent
appelées méthodes classiques.
Les méthodes bayésiennes (ainsi appelées d'après le mathématicien anglais
Thomas Bayes) fournissent des alternatives qui permettent de combiner des
informations antérieures sur un paramètre de population avec des informations
contenues dans un échantillon pour guider le processus d'inférence statistique.
Une distribution de probabilité préalable pour un paramètre d'intérêt est
spécifiée en premier.
Les informations de l'échantillon sont ensuite obtenues et combinées par une
application du théorème de Bayes pour fournir une distribution de probabilité
postérieure pour le paramètre.
La distribution postérieure fournit la base des inférences statistiques
concernant le paramètre.
Une caractéristique clé, et quelque peu controversée, des méthodes
bayésiennes est la notion de distribution de probabilité pour un paramètre de
population.
METHODES BAYESIENNES
Selon les statistiques classiques, les paramètres sont des constantes et ne
peuvent pas être représentés comme des variables aléatoires.
Les partisans bayésiens soutiennent que, si une valeur de paramètre est
inconnue, il est alors logique de spécifier une distribution de probabilité qui
décrit les valeurs possibles du paramètre ainsi que leur probabilité.
L'approche bayésienne permet d'utiliser des données objectives ou une opinion
subjective pour spécifier une distribution a priori.
Avec l'approche bayésienne, différents individus peuvent spécifier différentes
distributions antérieures.
Les statisticiens classiques affirment que pour cette raison, les méthodes
bayésiennes souffrent d'un manque d'objectivité.
Les partisans bayésiens soutiennent que les méthodes classiques d'inférence
statistique ont une subjectivité intégrée (par le choix d'un plan
d'échantillonnage) et que l'avantage de l'approche bayésienne est que la
subjectivité est rendue explicite.
METHODES BAYESIENNES
Les méthodes bayésiennes ont été largement utilisées dans la théorie de la
décision statistique.
Dans ce contexte, le théorème de Bayes fournit un mécanisme pour combiner
une distribution de probabilité a priori pour les états de la nature avec des
informations d’échantillon pour fournir une distribution de probabilité révisée
(postérieure) sur les états de la nature.
Ces probabilités postérieures sont ensuite utilisées pour prendre de meilleures
décisions.

Contenu connexe

Similaire à CHAPITRE 2 VARIABLE ALEATOIRE probabilité.ppt

Modèles probabilistes chapitre 4 et 3.pdf
Modèles probabilistes chapitre 4 et 3.pdfModèles probabilistes chapitre 4 et 3.pdf
Modèles probabilistes chapitre 4 et 3.pdfKOUADIOPATRICE1
 
Théorie 1234
Théorie 1234Théorie 1234
Théorie 1234goosyboy
 
Mathématiques Générales.pdf
Mathématiques Générales.pdfMathématiques Générales.pdf
Mathématiques Générales.pdfKarimBara2
 
(Statdes regression biv_ensta_21oct2010)
(Statdes regression biv_ensta_21oct2010)(Statdes regression biv_ensta_21oct2010)
(Statdes regression biv_ensta_21oct2010)mohamedchaouche
 
Sommation séries entières
Sommation séries entièresSommation séries entières
Sommation séries entièresLoïc Dilly
 
Analyse de données fonctionnelles par Machines à Vecteurs de Support (SVM)
Analyse de données fonctionnelles par Machines à Vecteurs de Support (SVM) Analyse de données fonctionnelles par Machines à Vecteurs de Support (SVM)
Analyse de données fonctionnelles par Machines à Vecteurs de Support (SVM) tuxette
 
Hasard09 artificiel
Hasard09 artificielHasard09 artificiel
Hasard09 artificielnahdiste
 
Systèmes d'equations lineaires
Systèmes d'equations lineairesSystèmes d'equations lineaires
Systèmes d'equations lineairesCham Nan
 
slides statistique mathématique.pdf
slides statistique mathématique.pdfslides statistique mathématique.pdf
slides statistique mathématique.pdfFadwaZiani
 
Statistiques descriptives [PDF].pptx
Statistiques descriptives [PDF].pptxStatistiques descriptives [PDF].pptx
Statistiques descriptives [PDF].pptxTarekDHAHRI1
 
Statistiques descriptives [PDF].pptx
Statistiques descriptives [PDF].pptxStatistiques descriptives [PDF].pptx
Statistiques descriptives [PDF].pptxTarekDHAHRI1
 
Fonction quadratique TS-4
Fonction quadratique TS-4Fonction quadratique TS-4
Fonction quadratique TS-4mathemathieu
 

Similaire à CHAPITRE 2 VARIABLE ALEATOIRE probabilité.ppt (20)

Vraisembl
VraisemblVraisembl
Vraisembl
 
Vraisembl
VraisemblVraisembl
Vraisembl
 
Chapitre2
Chapitre2Chapitre2
Chapitre2
 
Modèles probabilistes chapitre 4 et 3.pdf
Modèles probabilistes chapitre 4 et 3.pdfModèles probabilistes chapitre 4 et 3.pdf
Modèles probabilistes chapitre 4 et 3.pdf
 
Théorie 1234
Théorie 1234Théorie 1234
Théorie 1234
 
Mathématiques Générales.pdf
Mathématiques Générales.pdfMathématiques Générales.pdf
Mathématiques Générales.pdf
 
Statistiques
StatistiquesStatistiques
Statistiques
 
Chapitre1.pdf
Chapitre1.pdfChapitre1.pdf
Chapitre1.pdf
 
(Statdes regression biv_ensta_21oct2010)
(Statdes regression biv_ensta_21oct2010)(Statdes regression biv_ensta_21oct2010)
(Statdes regression biv_ensta_21oct2010)
 
Sommation séries entières
Sommation séries entièresSommation séries entières
Sommation séries entières
 
Analyse de données fonctionnelles par Machines à Vecteurs de Support (SVM)
Analyse de données fonctionnelles par Machines à Vecteurs de Support (SVM) Analyse de données fonctionnelles par Machines à Vecteurs de Support (SVM)
Analyse de données fonctionnelles par Machines à Vecteurs de Support (SVM)
 
01 lois-à-densité
01 lois-à-densité01 lois-à-densité
01 lois-à-densité
 
Hasard09 artificiel
Hasard09 artificielHasard09 artificiel
Hasard09 artificiel
 
Systèmes d'equations lineaires
Systèmes d'equations lineairesSystèmes d'equations lineaires
Systèmes d'equations lineaires
 
slides statistique mathématique.pdf
slides statistique mathématique.pdfslides statistique mathématique.pdf
slides statistique mathématique.pdf
 
Statistiques descriptives [PDF].pptx
Statistiques descriptives [PDF].pptxStatistiques descriptives [PDF].pptx
Statistiques descriptives [PDF].pptx
 
Statistiques descriptives [PDF].pptx
Statistiques descriptives [PDF].pptxStatistiques descriptives [PDF].pptx
Statistiques descriptives [PDF].pptx
 
Rappels stats-2014-part2
Rappels stats-2014-part2Rappels stats-2014-part2
Rappels stats-2014-part2
 
Fonction quadratique TS-4
Fonction quadratique TS-4Fonction quadratique TS-4
Fonction quadratique TS-4
 
Slides cirm-copulasv3
Slides cirm-copulasv3Slides cirm-copulasv3
Slides cirm-copulasv3
 

CHAPITRE 2 VARIABLE ALEATOIRE probabilité.ppt

  • 2. une variable aléatoire est généralement l'ensemble des résultats possibles d'une expérience aléatoire (Exemple: un lancer de dé, un lancer d’un pièce de monnaie, la source générant un signal binaire ,,,,etc). Une variable aléatoire est une description numérique du résultat d'une expérience statistique. Les variables aléatoires sont généralement de nature discrètes ou continues. Des fois elles peuvent être un mélange des deux. Variable aléatoire X discrète Une variable aléatoire qui ne peut prendre qu'un nombre fini ou dénombrable est dite discrète; Exemples: • Une variable aléatoire représentant le nombre de voitures vendues chez un concessionnaire particulier au cours d'une journée serait discrète, • Les valeurs obtenues après des lancers de dé : X = « face du dé » : prend les valeurs x = 1, 2, 3, 4, 5, 6 (dénombrables) • …. etc GENERALITES
  • 3. Variable aléatoire X continue Une variable aléatoire qui peut prendre n'importe quelle valeur dans un certain intervalle de nombres réels est dit continu. Exemples: • Une variable aléatoire représentant le poids d'une personne en kilogrammes : 50kg<=X<=100kg • La température exacte d’un four, • La longueur exacte d’une pièce fabriquée • La date et l'heure de réception d'un paiement. GENERALITES
  • 4. Variable aléatoire X mélange (continue et discrète simultanément) Une variable aléatoire qui peut prendre en même temps des valeurs discrètes et continues. Exemple: Un récepteur d’une chaine de transmission numérique, reçoit les données numériques binaires émis par l’émetteur mais ‘’corrompues’’ par un bruit blanc dû au canal qui est modélisé souvent comme étant une variable aléatoire continue (Gaussien centré) GENERALITES
  • 5. STATISTIQUES DES VARIABLES ALEATOIRES Loi de probabilité d’une variable aléatoire X discrète Pour une variable aléatoire discrète, X, la distribution de probabilité est définie par une fonction de masse de probabilité, notée f(xi); où xi l’ensemble des valeurs que la variable aléatoire discrète X peut prendre, Cette fonction fournit la probabilité pour chaque valeur xi de la variable aléatoire X. Dans le développement de la fonction de probabilité pour une variable aléatoire discrète, deux conditions doivent être satisfaites: (1) f(xi ) doit être non négatif pour chaque valeur de la variable aléatoire, 1  f(xi )  0 (2) la somme des probabilités pour chaque valeur de la variable aléatoire doit être égale à un.
  • 6. STATISTIQUES DES VARIABLES ALEATOIRES Loi de probabilité d’une variable aléatoire X discrète X f(xi ) xi Densité de probabilité d’une variable aléatoire discrète 1 i p i i i n 1 i p ) x p(X x      
  • 7. STATISTIQUES DES VARIABLES ALEATOIRES Loi de probabilité d’une variable aléatoire X continue Une variable aléatoire continue peut prendre n'importe quelle valeur dans un intervalle de valeurs réelle ou dans une collection d'intervalles. Puisqu'il y a un nombre infini de valeurs dans n'importe quel intervalle, il n'est pas significatif de parler de la probabilité que la variable aléatoire prenne une valeur spécifique; au lieu de cela, la probabilité qu'une variable aléatoire continue se trouve dans un intervalle donné est considérée. f (x)dx    1 avec P(a  X  b) = f (x)dx a b  = P(X  b) - P(X  a)
  • 8. STATISTIQUES DES VARIABLES ALEATOIRES Fonction de répartition d’une variable aléatoire discrète/continue Une fonction de répartition d’une variable aléatoire x est une fonction F(x) qui, pour tout x, indique la probabilité pour que x soit inférieur ou égal à x1. Elle correspond donc à la distribution cumulée, v.a. discrète v.a. continue     x dx x f x F ) ( ) ( F(k)= P(X≤k) 0 1 0 ≤ F(x) ≤ 1
  • 9. STATISTIQUES DES VARIABLES ALEATOIRES L’espérance, notée E(x) correspond à une moyenne pondérée Variable aléatoire discrète Soit X un va discrète qui prend des valeurs dans l'ensemble D et a comme densité de probabilité f(xi). Alors l’espérance mathématique ou moyenne statistique (ou d’ensemble) de X est: Variable aléatoire continue L’espérance mathématique (moyenne statistique) d'une va continue X avec une fonction de densité de probabilité (pdf) f (x) est: ESPERANCE MATHEMATIQUE
  • 10. STATISTIQUES DES VARIABLES ALEATOIRES La variance d'une variable aléatoire, notée Var(X) ou σ2, est une moyenne pondérée des écarts au carré de la moyenne. • Dans le cas discret, les poids sont donnés par la fonction de probabilité, • Dans le cas continu, les poids sont donnés par la fonction de densité de probabilité. L'écart type, noté σ, est la racine carrée positive de la variance. Étant donné que l'écart-type est mesuré dans les mêmes unités que la variable aléatoire et que la variance est mesurée en unités au carré, l'écart-type est souvent la mesure préférée. Variable aléatoire discrète Variable aléatoire continue VARIANCE
  • 11. Exemple 1: Soit une source qui va émettre le mot suivant: Alphabet Source = le mot ‘’annaba’’={a, n, n, a, b, a} Les symboles générés par la source sont formés par 3 lettres de l’alphabet français à savoir a, n et b, mais pas avec la même loi de probabilité, si on se restreint à cet exemple basic. La loi de probabilité est donc (pour ce cas de figure) : P(‘’a’’)=1/2, P(‘’n’’)=1/3 et P(‘’b’’)=1/6 1- Tracer sa densité de probabilité 2- Sa fonction de répartition 3- Calculer son espérance mathématique, sa variance et son écart type STATISTIQUES DES VARIABLES ALEATOIRES
  • 12. Exemple 2: Soit un bloc d’images en niveaux de gris de taille 8 × 8 pixels 10 10 10 15 200 200 200 200 15 5 255 255 200 200 200 200 10 15 10 5 200 200 200 200 10 10 10 15 200 200 200 200 15 5 255 255 100 200 100 200 10 15 10 5 100 200 100 200 20 30 30 30 100 200 100 200 20 150 20 20 100 200 100 200  Ces niveaux de gris sont normalement compris entre 0 et 255, ce qui justifie le choix habituel d’un codage de taille fixe de 8 bits par pixel. 1- Tracer sa densité de probabilité 2- Sa fonction de répartition 3- Calculer son espérance mathématique, sa variance et son écart type STATISTIQUES DES VARIABLES ALEATOIRES
  • 13. Propriétés de l’espérance mathématique 1. Propriété de l’addition : E(X + Y) = E(X) + E(Y) Démonstration: 2. Propriété de mise à l'échelle (Multiplication par une constante) E(cX) = cE(X) STATISTIQUES DES VARIABLES ALEATOIRES
  • 14. Propriétés de l’espérance mathématique 3. Propriété de linéarité : A partir des deux propriétés précédentes nous pouvons généraliser la propriété de linéarité de l’espérance mathématique 4. Inégalités de valeur absolue: 5. Multiplication E (XY) = E (X) E (Y). Ici, X et Y doivent être indépendants. 6. Addition à une constante E [X + a] = E [X] + a, où a est une constante STATISTIQUES DES VARIABLES ALEATOIRES
  • 15. Propriétés de la variance 1. Propriété 1 2. Propriété 2: d’une manière générale nous avons 3. Propriété 3 : La variance d'une constante est de 0. STATISTIQUES DES VARIABLES ALEATOIRES
  • 16. Propriétés de la variance 4. Propriété 4 V (a1X1 + a2 X2 +… + anXn) = a1 2 V (X1) + a2 2 V (X2) +… + an 2 V (Xn). 1. Propriété 2: d’une manière générale nous avons 2. Propriété 3 : La variance d'une constante est de 0. STATISTIQUES DES VARIABLES ALEATOIRES
  • 17. CAS DE DEUX VARIABLES ALEATOIRES DISCRETES Considérons d'abord le cas dans lequel deux variables aléatoires sont discrètes. C’est un cas très répondu surtout en télécommunications numériques où les données discrètes de l’émission et celles reçus, Nous allons donc étendre plusieurs des définitions que nous avons apprises pour une variable aléatoire discrète, telle que la fonction de masse de probabilité, la moyenne et la variance, au cas où nous ont deux variables aléatoires discrètes. Soit deux variables aléatoire X et Y chacune pouvant prendre une valeur dans un ensemble de 4 valeurs possibles équiprobables (même probabilité pour les 4 valeurs) : X = {1, 2, 3, 4} et Y = {1, 2, 3, 4} Commençons par trouver la «distribution de probabilité conjointe (x, y) désigne l'un des résultats possibles pour les deux variables simultanément.
  • 18. CAS DE DEUX VARIABLES ALEATOIRES DISCRETES Si nous continuons à énumérer tous les résultats possibles, nous voyons bientôt que le l’ensemble de possibilités conjointes S a 16 résultats possibles: S = {(1,1) ; (1,2) ; (1,3) ; (1,4) ; (2,1) ; (2,2) ; (2,3) ; (2,4) ; (3,1) ; (3,2) ; (3,3) ; (3,4) ; (4,1) ; (4,2) ; (4,3) ; (4,4) } Comme X et Y sont équiprobables les deux et statistiquement indépendante l’une de l’autre, nous devrions nous attendre à ce que chacun des 16 résultats possibles soit équiprobable. P(X=x,Y=y) = 1/16 La fonction de probabilité conjointe est généralement notée f (x, y), puisse être définie comme une formule, comme un graphique ou comme un tableau.
  • 19. CAS DE DEUX VARIABLES ALEATOIRES DISCRETES Densité de probabilité Conjointe Soit X et Y deux variables aléatoires discrètes, et soit S désignent le support bidimensionnel de X et Y. Alors, la fonction f(x,y) = P(X=x,Y=y) est une fonction de masse de probabilité conjointe si elle satisfait les trois conditions suivantes:
  • 20. CAS DE DEUX VARIABLES ALEATOIRES DISCRETES Densité de probabilité marginale Soit X une variable aléatoire discrète avec le support S1, et soit Y une variable aléatoire discrète avec le support S2. Soit X et Y la fonction de masse de probabilité conjointe avec le support S. Alors, la fonction de probabilité de la va X seule, appelée fonction de probabilité marginale de X, est définie par : De même, la fonction de probabilité de la va Y seule, appelée fonction de probabilité marginale de Y, est définie par :
  • 21. CAS DE DEUX VARIABLES ALEATOIRES DISCRETES Indépendance et dépendance de 2 va Les variables aléatoires X et Y sont indépendantes si et seulement si: P(X=x,Y=y) = P(X=x) × P(Y=y)  x  S1 et y  S2 Sinon, X et Y sont dits dépendants. Soit maintenant, une fonction de probabilité conjointe f (x, y), et que nous voulions trouver la moyenne statistique de X (notée E(X)). On peut commencer par trouver d'abord la densité de probabilité marginale de X, puis d'utiliser la définition de l’espérance E (X). Alternativement, nous pourrions utiliser la définition suivante de la moyenne. Où u(x,y) est fonction de ces deux variables aléatoires,
  • 22. CAS DE DEUX VARIABLES ALEATOIRES DISCRETES Densité de probabilité conditionnelle Dans les pages précédentes de ce cours, nous nous sommes intéressés au comportement conjoint de deux variables aléatoires X et Y. Nous allons maintenant examiner comment l'une des deux variables aléatoires, disons Y, se comporte étant donné qu'une autre variable aléatoire, disons X, s'est déjà comportée d'une certaine manière. Fonction de masse de probabilité conditionnelle de X : La fonction de probabilité conditionnelle de X, étant donné que Y = y, est définie par: Fonction de masse de probabilité conditionnelle de Y : La fonction de probabilité conditionnelle de Y, étant donné que X = x, est définie par: A condition que fY(y) > 0 A condition que fX(x) > 0
  • 23. CAS DE DEUX VARIABLES ALEATOIRES DISCRETES Densité de probabilité conditionnelle Exemple: Soit X une variable aléatoire discrète avec support S1 = {0,1}, et soit Y une variable aléatoire discrète avec support S2 = {0, 1, 2}. Supposons, sous forme tabulaire, que X et Y aient la distribution de probabilité conjointe suivante f(x,y): Quelle est la distribution conditionnelle de X sachant Y? Autrement dit, qu'est-ce que g (x / y)?
  • 24. CAS DE DEUX VARIABLES ALEATOIRES DISCRETES Densité de probabilité conditionnelle Solution de l’exemple: En utilisant la formule suivante : A condition que fY(y) > 0
  • 25. CAS DE DEUX VARIABLES ALEATOIRES DISCRETES Espérance et variance conditionnelles Supposons que X et Y sont des variables aléatoires discrètes. Alors, la moyenne conditionnelle de Y sachant X = x est définie comme: Et, la moyenne conditionnelle de X sachant Y = y est définie comme: La variance conditionnelle de Y sachant X = x: La variance conditionnelle de X sachant Y = y:
  • 26. CAS DE DEUX VARIABLES ALEATOIRES CONTINUES Densité de probabilité Conjointe Soit X et Y deux variables aléatoires continues, et soit S désigne le support bidimensionnel de X et Y. Alors, la fonction f (x, y) est une fonction de densité de probabilité conjointe si elle satisfait les trois suivantes conditions: où {(X, Y) ∈ A} est un événement dans le plan xy Fonctions de densité de probabilité marginale Les fonctions de densité de probabilité marginale des variables aléatoires continues X et Y sont données respectivement par: où S1 et S2 sont les supports respectifs de X et Y.
  • 27. CAS DE DEUX VARIABLES ALEATOIRES CONTINUES Densité de probabilité conditionnelle Fonction de masse de probabilité conditionnelle de X : La fonction de probabilité conditionnelle de X, étant donné que Y = y, est définie par: Fonction de masse de probabilité conditionnelle de Y : La fonction de probabilité conditionnelle de Y, étant donné que X = x, est définie par: A condition que fY(y) > 0 A condition que fX(x) > 0
  • 28. CAS DE DEUX VARIABLES ALEATOIRES CONTINUES Espérance et variance conditionnelles Supposons que X et Y sont des variables aléatoires continues. Alors, la moyenne conditionnelle de Y sachant X = x est définie comme: La variance conditionnelle de Y sachant X = x:
  • 29. RELATION ENTRE DEUX VARIABLES ALEATOIRES Supposons qu'une expérience produise deux variables aléatoires, X et Y. Que peut-on dire à propos de la relation entre elles? L'une des meilleures façons de visualiser la relation possible est de tracer la paire (X, Y) produite par plusieurs essais de l'expérience. CORRELATION ENTRE LES VARIABLES ALEATOIRES Un exemple d'échantillons corrélés est présenté à droite
  • 30. Source CANAL P(Y/X) Codages Source/Canal Décodage Canal / Source M C C’ M’ M : Message, variable aléatoire, délivré par la source sous forme d’un alphabet original {m1, …., ml} C : les mots de code sous forme d’un alphabet aléatoire {c1, …., cn} C’ : les mots de code reçu avec présence d’erreurs {c’1, …., c’n} M’ : les données reconstruites avec présence éventuelles d’une certaine perte Un exemple typique en télécommunications où nous aurons besoin de connaitre la relation entre deux variables aléatoires, X représentant les données émises et Y celle représentant les données reçues. Le canal étant hostile où il introduit des perturbations (bruits, interférences, effet Doppler …. etc). La comparaison entre ces deux variables, de point de vue corrélation, nous permet d’évaluer le degré de perturbations introduites par le canal RELATION ENTRE DEUX VARIABLES ALEATOIRES
  • 31. RELATION ENTRE DEUX VARIABLES ALEATOIRES Le comportement conjoint de X et Y est entièrement capturé dans la distribution de probabilité conjointe. Pour une distribution continue FONCTION DE DENSITE CONJOINTE • Cas de variables aléatoires continues • Cas de variables aléatoires discrètes
  • 32. RELATION ENTRE DEUX VARIABLES ALEATOIRES La fonction de covariance est un nombre qui mesure la variation commune de X et Y. Elle est définie comme : La covariance est déterminée par la différence entre : E [XY] et E [X] E [Y]. Si X et Y étaient statistiquement indépendants, alors E [XY] serait égal à E [X] E [Y] et la covariance serait nulle. La covariance d'une variable aléatoire avec elle-même est égale à sa variance. cov [X, X] = E [(X − E [X])2] = var [X] FONCTION DE COVARIANCE ENTRE DEUX VARIABLES ALEATOIRES
  • 33. RELATION ENTRE DEUX VARIABLES ALEATOIRES La covariance peut être normalisée pour produire ce que l'on appelle le coefficient de corrélation, ρ. Le coefficient de corrélation est borné par −1≤ρ≤1. Il aura la valeur ρ = 0 lorsque la covariance est nulle et la valeur ρ = ± 1 lorsque X et Y sont parfaitement corrélés ou anti-corrélés. COEFFICIENT DE CORRELATION ENTRE DEUX VARIABLES ALEATOIRES
  • 34. RELATION ENTRE DEUX VARIABLES ALEATOIRES Exemple Soit une variable aléatoire X qui indique le nombre de tasses de chocolat chaud vendues quotidiennement dans un café local, et Y une variable aléatoire qui indique le nombre de muffins aux pommes et à la cannelle vendus quotidiennement dans le même café. Ensuite, le gérant du café pourrait bénéficier de savoir si X et Y sont fortement corrélés ou non. Si les variables aléatoires sont fortement corrélées, le gestionnaire saurait alors s'assurer que les deux sont disponibles un jour donné. Si les variables aléatoires ne sont pas fortement corrélées, alors le gestionnaire saurait qu'il serait normal que l'un des éléments soit disponible sans l'autre. Le coefficient de corrélation est la mesure statistique qui va nous permettre de quantifier le degré de corrélation entre deux variables aléatoires X et Y. COEFFICIENT DE CORRELATION ENTRE DEUX VARIABLES ALEATOIRES
  • 35. RELATION ENTRE DEUX VARIABLES ALEATOIRES La fonction d'autocorrélation est très similaire à la fonction de covariance. En effet, elle permet de comparer deux variables aléatoires X et Y mais en tenant aussi compte de leurs moyennes statistiques (Espérance mathématique) ce qui fait la différence avec la fonction de covariance (qui elle compare uniquement les fluctuations des variables aléatoires sans leurs moyennes statistiques), Elle est définie comme : R (X, Y) = E [XY] = cov (X, Y) + E [X] E [Y] Elle conserve les valeurs moyennes dans le calcul de la valeur. Les variables aléatoires sont orthogonales si R (X, Y) = 0 COEFFICIENT DE CORRELATION ENTRE DEUX VARIABLES ALEATOIRES
  • 36. RELATION ENTRE DEUX VARIABLES ALEATOIRES La fonction de corrélation est très similaire à la fonction de covariance. En effet, elle permet de comparer deux variables aléatoires X et Y mais en tenant aussi compte de leurs moyennes statistiques (Espérance mathématique) ce qui fait la différence avec la fonction de covariance (qui elle compare uniquement les fluctuations des variables aléatoires sans leurs moyennes statistiques), Elle est définie comme : R (X, Y) = E [XY] = cov (X, Y) + E [X] E [Y] Elle conserve les valeurs moyennes dans le calcul de la valeur. Les variables aléatoires sont orthogonales si R (X, Y) = 0 FONCTION DE CORRELATION ENTRE DEUX VARIABLES ALEATOIRES
  • 37. RELATION ENTRE DEUX VARIABLES ALEATOIRES FONCTION DE CORRELATION ENTRE DEUX VARIABLES ALEATOIRES Dans cet exemple nous avons trois (03) exemples qui nous montrent les corrélations possibles entre deux variables aléatoires X et Y : 1. Dans le premier exemple il y’a une corrélation positive 2. Dans le deuxième cas les deux variables ne sont pas corrélées 3. Dans le troisième exemple il y’a une corrélation mais négative
  • 38. RELATION ENTRE DEUX VARIABLES ALEATOIRES FONCTION DE CORRELATION ENTRE DEUX VARIABLES ALEATOIRES Non corrélation vs Indépendance Entre deux variables aléatoires X et Y
  • 39. RELATION ENTRE DEUX VARIABLES ALEATOIRES CORRELATION, COVARIANCE et COEFFICIENT DE CORRELATION
  • 40. RELATION ENTRE DEUX VARIABLES ALEATOIRES INDEPENDANCE VS CORRELATION L'indépendance entre deux variables aléatoires (VA) X et Y, devrait être considérée comme disant qu’aucune des deux VA n'a un impact statistique sur l'autre Ainsi, les valeurs que l'un prendra probablement devraient être sans rapport avec la valeur que l'autre prendra.
  • 41. RELATION ENTRE DEUX VARIABLES ALEATOIRES INDEPENDANCE VS CORRELATION Exemple d’une variable aléatoire Gaussienne 1er cas : Indépendant (moyenne nulle) 2ème cas : Indépendant (moyenne non nulle) 3ème cas : dépendant Contours pxy(x,y). Si X et Y sont indépendants, alors les ellipses de contour sont alignées avec l'axe x ou y
  • 42. RELATION ENTRE DEUX VARIABLES ALEATOIRES INDEPENDANCE VS CORRELATION Deux variables aléatoires X et Y sont indépendantes si : Rappels : La fonction de Densité de probabilité décrit ‘’complètement’’ la variable aléatoire VR Mais souvent nous avons besoin aussi de : • L’espérance mathématique ou Moyenne d’ensemble, E[X], de la VA. Elle Décrit le centre de gravité de la densité de probabilité • Variance d’une VA qui décrit l’étalement ou propagation de la densité de probabilité • Corrélation d’une VA qui décrit un peu «l'inclinaison» de la densité de probabilité conjointe
  • 43. RELATION ENTRE DEUX VARIABLES ALEATOIRES Dans ce cas nous pouvons parler d’un vecteur aléatoires CORRELATION ET CONVARIANCE ENTRE N VARIABLES ALEATOIRES Nous obtenons donc une matrice de corrélation, de N× N éléments, du vecteur x composé des N VA : Pareil pour la covariance qui devient alors une matrice de N× N éléments,
  • 44. ENTROPIE D’UNE VARIABLE ALEATOIRE Comme nous venons de le voir, chaque variable aléatoire M={m1, m2,........, mK}, est régit par une probabilité d’apparition {P(m1), P(m2),........, P(mk)}. Ceci, nous permet donc de définir les concepts de base de la théorie d’information à savoir :  L’information associée à chaque symbole de la source est :  L’entropie, qui représente la quantité d’information moyenne, d’une variable aléatoire M est donnée par:     k k m P m I 2 log   Comme nous pouvons le remarquer, cette quantité moyenne d’information d’une va, qui est l’entropie, dépend essentiellement de la loi de probabilité P.
  • 45.  L’entropie, qui représentée la quantité d’information moyenne, d’une va M est donnée par: L’entropie d’une source représente donc la quantité d'information moyenne par caractère de la va. Elle représente aussi une incertitude moyenne par symbole. Elle peut exprimée en bit par symbole, c’est le cas de l’expression ci- dessus, si nous travaillons en base 2 (log2). Plus l'entropie d’une variable aléatoire (va) est grande, plus il y’a de l’information délivrée par cette va et bien entendu l'incertitude est plus élevée. On montre que pour une loi de probabilité équiprobable (m, P(mk)=p, et p=1) nous aurons une entropie maximale égale à :             k k k m P m P M H 2 log         p m P M H k 2 2 log log     ENTROPIE D’UNE VARIABLE ALEATOIRE
  • 46. Exemple 1 : Cas d’une va binaire (alphabet = 0 ou 1) avec : (P(0)=p et P(1)=1-p), alors cette entropie sera:       p p p p M H      1 log ) 1 ( log 2 2 Si maintenant, nous allons représenter graphiquement cette entropie en fonction de p, nous aurons: H(M) Comme nous l’avons énoncé plus haut, cette entropie est maximale quand la loi de probabilité est équiprobable, ici p=0.5 (P(0)=P(1)=0.5. On remarque aussi que cette entropie est nulle pour p=0 et pour p=1 représentant respectivement une certitude que la source n’émet que des 0 ou que des 1 (pas d’incertitude donc pas d’information et l’entropie est donc nulle) ENTROPIE D’UNE VARIABLE ALEATOIRE
  • 47. Exemple 2 : Cas d’une va de k symboles {m1, m2,........, mK} équiprobables {P(m1) = P(m2) = ,........, = P(mK) =1/K}, alors cette entropie sera:   K K K K K M H K k 2 2 1 2 log 1 log 1 1 log 1                      Evidemment, cette entropie est maximale pour cette source compte tenu que la loi de probabilité qui la régie est équiprobable. Dans le cas d’une loi quelconque régissant une source de K éléments nous avons:     1 log2    M H K M H ENTROPIE D’UNE VARIABLE ALEATOIRE
  • 48. REDONDANCE D’UNE VARIABLE ALEATOIRE Comme nous venons de le voir pour une va M de longueur K, l’entropie où quantité d’information moyenne délivrée par cette source est notée H(M). Elle est maximale pour une loi de probabilité équiprobable :   K M H 2 max log  On définit la redondance de la va comme étant l'écart ou la différence entre la valeur maximale possible (lorsque tous les symboles sont équiprobables) de son entropie et son entropie réelle.   ) ( log ) ( Re 2 max M H K M H M H dondance     Une va dont l’entropie est faible est plus redondante. Autrement dit, il y’a moins d’incertitude et donc moins d’information délivrée par la va et par conséquence trop de redondance.
  • 49. ENTROPIE MUTUELLE Supposons maintenant que nous avons deux va X et Y. Chacune possède alors une entropie que l’on définit par H(X) et H(Y). On définit :  I(X) et I(Y) : Information propre de X et de Y respectivement H(X,Y) : Information conjointe ou entropie mutuelle H(X/Y) : Informations partielle ou conditionnel de X sachant Y. Elle représente l’ambigüité ou l’incertitude qui reste sur X pour Y connu. H(Y/X) : Informations partielle ou conditionnel de Y sachant X. Elle représente l’ambigüité ou l’incertitude qui reste sur Y pour X connu. I(X,Y) : Information mutuelle ou quantité d’information de X réellement apportée par Y  I(X/Y) et I(Y/X) : Informations conditionnelles
  • 50. ENTROPIE MUTUELLE  si X et Y sont deux variables aléatoires indépendantes, on a : H(X,Y) = H(X) + H(Y H(X/Y) = H(X) H(Y/X) = H(Y) I(X,Y) = I(X)-I(X/Y)=0  Sinon, une certaine dépendance entre X et Y : H(X,Y) < H(X) + H(Y) < 2 H(X,Y) H(X,Y) = H(X) + H(Y/X) H(X,Y) = H(Y) + H(X/Y) I(X,Y) = H(X) – H(X/Y) = H(Y) – H(Y/X) = H(X) + H(Y) – H(X,Y) > 0 I(X,Y) = I(X) – I(X/Y) > 0
  • 51. ENTROPIE MUTUELLE Pour mieux comprendre ces définitions et cette figure prenons le cas d’un système de transmission sous sa forme la plus simple source canal Récepteur X={x1, x2, …, xK} Y={y1, y2, …, yK} Si X et Y son complètement indépendantes alors la quantité d’information de X réellement apportée par Y de X ou I(X,Y) = 0 Dans le cas plus réaliste cette quantité d’information dite mutuelle est égale à H(X)–H(X/Y). Donc H(X/Y) est l’incertitude ou erreurs dus aux imperfections du canal.
  • 55. 55 Loi binomiale Deux des distributions de probabilité discrètes les plus utilisées sont : • La loi de probabilité Binomiale • La loi de probabilité de Poisson. La fonction de probabilité binomiale (équation ci-dessous) fournit la probabilité que x succès se produiront dans n essais d'une expérience binomiale. Une variable Binomiale est donc une variable aléatoire X correspondant à la somme de n variables de Bernoulli. Notée X : B(n,p) Où X = nombre de succès au cours de n épreuves de Bernoulli identiques et indépendantes, EXEMPLES DE LOIS DE PROBABILITES DISCRETES k)! (n k! n! C avec q p C k) p(X k n k n k k n     
  • 56. 56 Loi binomiale Une expérience binomiale a quatre propriétés: (1) elle consiste en une séquence de n essais identiques; (2) deux résultats, succès ou échec, sont possibles pour chaque essai; (3) la probabilité de succès d'un essai, notée p, ne change pas d'un essai à l'autre; (4) les essais sont indépendants. Une famille qui a trois (03) enfant, La naissance de chaque enfant garçon ou fille a la même probabilité p=0,5 3 enfant = n B(3, 0,5) = EXEMPLES DE LOIS DE PROBABILITES DISCRETES k)! (n k! n! C avec q p C k) p(X k n k n k k n     
  • 57. 57 Loi binomiale E(X) = np V(X) = np(1-p) EXEMPLES DE LOIS DE PROBABILITES DISCRETES Loi de probabilité d’une loi binomiale Fonction de répartition d’une loi binomiale Espérance mathématique d’une loi binomiale Variance d’une loi binomiale
  • 58. 58 Loi binomiale Exemple: Supposons que l'on sache que 10% des propriétaires d'automobiles de deux ans ont eu des problèmes avec le système électrique de leur automobile. Pour calculer la probabilité de trouver exactement 2 propriétaires qui ont eu des problèmes de système électrique sur un groupe de 10 propriétaires, la fonction de probabilité binomiale peut être utilisée en définissant n = 10, x = 2 et p = 0,1 dans l'équation suivante; dans ce cas, la probabilité est de 0,1937. EXEMPLES DE LOIS DE PROBABILITES DISCRETES k)! (n k! n! C avec q p C k) p(X k n k n k k n     
  • 59. 59 Loi binomiale Exemple: Un couple, tous deux porteurs d'une maladie récessive, souhaite avoir 5 enfants. Ils veulent connaître la probabilité qu'ils aient quatre enfants en bonne santé EXEMPLES DE LOIS DE PROBABILITES DISCRETES k)! (n k! n! C avec q p C k) p(X k n k n k k n     
  • 60. 60 Loi binomiale Exemple: Répartition du nombre de filles dans les fratries de 4 enfants, p: probabilité d’avoir une fille à chaque naissance = ½ X(Ω) = {0, 1, 2, 3, 4} Loi de probabilité B (4 ; 1/2) EXEMPLES DE LOIS DE PROBABILITES DISCRETES k)! (n k! n! C avec q p C k) p(X k n k n k k n      X=0 GGGG q4 0.0625 X=1 FGGG, GFGG, GGFG, GGGF 4q3p 0.25 X=2 FFGG, FGFG, FGGF, GFFG, GFGF, GGFF 6q2p2 0.375 X=3 FFFG, FFGF, FGFF, GFFF 4qp3 0,25 X=4 FFFF p4 0,0625 Indépendance statistique p (G  G  G  G) = q.q.q.q = q4 somme = 1
  • 61. 61 Loi binomiale Exemple: Une famille de n enfants, quelle est la probabilité d’avoir x garçons? EXEMPLES DE LOIS DE PROBABILITES DISCRETES B(2,0.5)= 0,52 0,50=0,25 B(7,0.5)? k)! (n k! n! C avec q p C k) p(X k n k n k k n     
  • 62. 62 Loi binomiale Exemple: EXEMPLES DE LOIS DE PROBABILITES DISCRETES Avec n=2: B(2,0.5) x P(x) 0 0.25 1 0.5 2 0.25
  • 63. 63 Loi binomiale Exemple: EXEMPLES DE LOIS DE PROBABILITES DISCRETES Symétrique!!
  • 64. 64 Loi binomiale Exemple: Des rats sont conditionnés. Un passage a 25% d’être emprunté. 5 essais... EXEMPLES DE LOIS DE PROBABILITES DISCRETES B(5,0.25)???
  • 65. 65 Loi binomiale Exemple: EXEMPLES DE LOIS DE PROBABILITES DISCRETES Dissymétrique!!!!
  • 66. 66 Espérance mathématique     n i i i x x P x E 1 ) ( ) ( Pour la loi binomiale: np x E  ) ( Exemple: Quelle est l’espérance mathématique du nombre de garçons dans une famille de 7 enfants? 5 . 3 5 . 0 7 ) (     np x E Loi binomiale EXEMPLES DE LOIS DE PROBABILITES DISCRETES
  • 67. 67 npq  2  Pour une distribution binomiale: Exemple: Quelle est la variance du nombre de garçons dans une famille de 7 enfants? 75 . 1 5 . 0 5 . 0 7 2      EXEMPLES DE LOIS DE PROBABILITES DISCRETES Loi binomiale
  • 68. 68 La distribution de probabilité de Poisson est souvent utilisée comme modèle du nombre d'arrivées dans une installation au cours d'une période donnée. Dans le cas d’une variable de Poisson, les événements se produisent les uns à la suite des autres, de façon aléatoire dans l’espace ou le temps. Exemple: une variable aléatoire pourrait être définie comme le nombre d'appels téléphoniques entrant dans un système de réservation d'une compagnie aérienne pendant une période de 15 minutes. Si le nombre moyen d'arrivées pendant un intervalle de 15 minutes est connu, la fonction de probabilité de Poisson donnée par l'équation ci-dessus peut être utilisée pour calculer la probabilité de x arrivées. Loi de Poisson  P(X  k)  e k k! k = 0, 1, 2, …, ∞ E(X) =  V(X) =  Loi de probabilité: Elle est appelée loi de Poisson, notée P(λ) EXEMPLES DE LOIS DE PROBABILITES DISCRETES
  • 69. 69 Exemple: une variable aléatoire pourrait être définie comme le nombre d'appels téléphoniques entrant dans un système de réservation d'une compagnie aérienne pendant une période de 15 minutes. Si le nombre moyen d'arrivées pendant un intervalle de 15 minutes est connu, la fonction de probabilité de Poisson donnée par l'équation ci-dessus peut être utilisée pour calculer la probabilité de x arrivées. Supposons que le nombre moyen d'appels arrivant dans une période de 15 minutes soit de 10. Pour calculer la probabilité que 5 appels arrivent dans les 15 minutes suivantes, μ = 10 et x = 5 sont substitués dans ci dessus, ce qui donne un probabilité de 0,0378. Loi de Poisson P(X  k)  e k k! k = 0, 1, 2, …, ∞ E(X) =  V(X) =  Loi de probabilité: Elle est appelée loi de Poisson, notée P(λ) EXEMPLES DE LOIS DE PROBABILITES DISCRETES
  • 70. 70 La loi de Poisson: distribution théorique discontinue qui dérive de la loi binomiale. Une des éventualités a une probabilité très faible. Surtout utilisé lorsqu’on compte des individus ou des évènements distribués au hasard dans le temps ou dans l’espace. Loi binomiale tend vers Poisson si p diminue et n augmente. En pratique un événement est rare si p<0.05. L’approximation est satisfaisante si n>50. Loi de Poisson EXEMPLES DE LOIS DE PROBABILITES DISCRETES
  • 71. 71 Poisson démontre que : x x n p q x x n n x P    ! )! ( ! ) ( Tend vers:       e x x P e x np x P x np x ! ) ( ou ! ) ( Avantage: un seul paramètre () Loi de Poisson EXEMPLES DE LOIS DE PROBABILITES DISCRETES
  • 72. 72 Elle est appelée loi normale Notée N (,) E(X) =  V(X) = 2 La distribution de probabilité continue la plus largement utilisée en statistique est la distribution de probabilité normale. Une variable aléatoire est une variable normale quand elle dépend d’un grand nombre de causes indépendantes dont aucune n’est prépondérante.  f (x)  1  2 e  1 2 ( x  )2 Densité de probabilité: f symétrique/μ Max en μ EXEMPLES DE LOIS DE PROBABILITES CONTINUES Loi normale
  • 73. 73 (a) = P(U < a)     X U U ~ N(0,1) V. EXEMPLES DE LOIS DE PROBABILITES CONTINUES Loi normale centrée réduite
  • 74. 74 b a ? ) ( b X a P   ) (            b X a P ) (         b U a P ) ' ( ) ' ( a b     ) ' ' ( b U a P       X U Loi normale centrée réduite EXEMPLES DE LOIS DE PROBABILITES CONTINUES
  • 75. 75 0 ea 1-a a/2 a/2 ea a e e a   ) ( P ε ~ N(0,1) Loi normale centrée réduite EXEMPLES DE LOIS DE PROBABILITES CONTINUES
  • 76. 76 E(n 2 )  n V(n 2 )  2n On appelle 2 à n degrés de liberté la variable aléatoire définie par : ) 1 , 0 ( ~ X avec X .... X ... X X i 2 n 2 i 2 2 2 1 2 N      Loi du 2 de Pearson EXEMPLES DE LOIS DE PROBABILITES CONTINUES
  • 77. 77  U : n 2  V : p 2 E(Fp n )  p p 2 V(Fp n )  2 p2 n (n  p 2) (p 2)(p  4) et On appelle F à n et p degrés de liberté la variable aléatoir définie par : ddl p à ~ V et ddl n à ~ U avec p V n U F 2 2    Loi de Fisher-Snedecor EXEMPLES DE LOIS DE PROBABILITES CONTINUES
  • 78. 78 E(T) = 0 V(T) = n/n-2 On appelle T à n degrés de liberté la variable aléatoire définie par : ddl n à ~ V et ) , ( ~ U avec n V U T 2 1 0  N  Loi de Student EXEMPLES DE LOIS DE PROBABILITES CONTINUES
  • 79. 79 Importance de la loi normale Théorème central limite de Laplace Toute somme de v.a. indépendantes de même loi est une variable asymptotiquement normale. En particulier: Yn  Xi i1 n   nE(X) nV(X) : N(0,1) EXEMPLES DE LOIS DE PROBABILITES CONTINUES
  • 80. 80 Lorsque n grand, p petit, np constant: B(n,p) -> P( = np) Lorsque n est grand, la loi binomiale, la loi de Poisson, la loi de Student, la loi du χ 2, la loi de Fisher … tendent vers la loi normale Relations entre lois Application du théorème centre limite EXEMPLES DE LOIS DE PROBABILITES CONTINUES
  • 81. Il est souvent intéressant de connaître les caractéristiques d'un grand groupe d'éléments tels que les individus, les ménages, les bâtiments, les produits, les pièces, les clients, etc. Tous les éléments d'intérêt dans une étude particulière forment la population. En raison du temps, du coût et d'autres considérations, les données ne peuvent souvent pas être collectées auprès de chaque élément de la population. Dans de tels cas, un sous-ensemble de la population, appelé échantillon, est utilisé pour fournir les données. Les données de l'échantillon sont ensuite utilisées pour élaborer des estimations des caractéristiques de l'ensemble de la population. Le processus consistant à utiliser un échantillon pour faire des inférences sur une population est appelé inférence statistique. ESTIMATION
  • 82. Des caractéristiques telles que la moyenne de la population, la variance de la population et la proportion de la population sont appelées paramètres de la population. Les caractéristiques de l'échantillon telles que la moyenne de l'échantillon, la variance de l'échantillon et la proportion de l'échantillon sont appelées statistiques d'échantillon. Il existe deux types d'estimations: • le point • l'intervalle. ESTIMATION
  • 83. Une estimation ponctuelle est une valeur d'une statistique d'échantillon qui est utilisée comme une estimation unique d'un paramètre de population. Aucune déclaration n'est faite sur la qualité ou la précision d'une estimation ponctuelle. Les statisticiens préfèrent les estimations d'intervalle parce que les estimations d'intervalle sont accompagnées d'un énoncé concernant le degré de confiance que l'intervalle contient le paramètre de population estimé. Les estimations d'intervalle des paramètres de population sont appelées intervalles de confiance. ESTIMATION
  • 84. ECHANTILLONNAGE ET DISTRIBUTION D’ECHANTILLONNAGE Les méthodes d'inférence statistique, et d'estimation en particulier, reposent sur la notion qu'un échantillon probabiliste a été prélevé. La principale caractéristique d'un échantillon probabiliste est que chaque élément de la population a une probabilité connue d'être inclus dans l'échantillon. Le type le plus fondamental est un simple échantillon aléatoire. Pour une population de taille N, un échantillon aléatoire simple est un échantillon sélectionné de telle sorte que chaque échantillon possible de taille n ait la même probabilité d'être sélectionné. Le fait de choisir les éléments de la population un par un afin que chaque élément ait la même probabilité d'être sélectionné fournira un échantillon aléatoire simple. Des tableaux de nombres aléatoires, ou des nombres aléatoires générés par ordinateur, peuvent être utilisés pour garantir que chaque élément a la même probabilité d'être sélectionné.
  • 85. ECHANTILLONNAGE ET DISTRIBUTION D’ECHANTILLONNAGE Une distribution d'échantillonnage est une distribution de probabilité pour une statistique d'échantillon. La connaissance de la distribution d'échantillonnage est nécessaire pour construire une estimation d'intervalle pour un paramètre de population. C'est pourquoi un échantillon probabiliste est nécessaire; sans échantillon probabiliste, la distribution d'échantillonnage ne peut pas être déterminée et une estimation d'intervalle d'un paramètre ne peut pas être construite.
  • 86. ESTIMATION D’UNE MOYENNE DE POPULATION Le processus d'estimation par points et intervalles le plus fondamental implique l'estimation d'une moyenne de population. Supposons qu'il soit intéressant d'estimer la moyenne de la population, μ, pour une variable quantitative. Les données collectées à partir d'un échantillon aléatoire simple peuvent être utilisées pour calculer la moyenne de l'échantillon, x ̄ , où la valeur de x ̄ fournit une estimation ponctuelle de μ. Lorsque la moyenne de l'échantillon est utilisée comme estimation ponctuelle de la moyenne de la population, on peut s'attendre à une certaine erreur en raison du fait qu'un échantillon, ou un sous-ensemble de la population, est utilisé pour calculer l'estimation ponctuelle. La valeur absolue de la différence entre la moyenne de l'échantillon, x ̄ , et la moyenne de la population, μ, écrite | x ̄ - μ |, est appelée erreur d'échantillonnage.
  • 87. ESTIMATION D’UNE MOYENNE DE POPULATION L'estimation d'intervalle incorpore un énoncé de probabilité concernant l'ampleur de l'erreur d'échantillonnage. La distribution d'échantillonnage de x ̄ fournit la base d'une telle affirmation. Les statisticiens ont montré que la moyenne de la distribution d'échantillonnage de x ̄ est égale à la moyenne de la population, μ, et que l'écart type est donné par σ / Racine carrée de √n, où σ est l'écart-type de la population. L'écart type d'une distribution d'échantillonnage est appelé l'erreur standard. Pour les échantillons de grande taille, le théorème de la limite centrale indique que la distribution d'échantillonnage de x ̄ peut être approximée par une distribution de probabilité normale. En pratique, les statisticiens considèrent généralement que les échantillons de taille 30 ou plus sont grands.
  • 88. ESTIMATION D’UNE MOYENNE DE POPULATION L'estimation d'intervalle incorpore un énoncé de probabilité concernant l'ampleur de l'erreur d'échantillonnage. La distribution d'échantillonnage de x ̄ fournit la base d'une telle affirmation. Les statisticiens ont montré que la moyenne de la distribution d'échantillonnage de x ̄ est égale à la moyenne de la population, μ, et que l'écart type est donné par σ / Racine carrée de √n, où σ est l'écart-type de la population. L'écart type d'une distribution d'échantillonnage est appelé l'erreur standard. Pour les échantillons de grande taille, le théorème de la limite centrale indique que la distribution d'échantillonnage de x ̄ peut être approximée par une distribution de probabilité normale. En pratique, les statisticiens considèrent généralement que les échantillons de taille 30 ou plus sont grands.
  • 89. ESTIMATION D’UNE MOYENNE DE POPULATION Dans le cas du grand échantillon, une estimation de l'intervalle de confiance à 95% pour la moyenne de la population est donnée par x ̄ ± 1,96σ / Racine carrée de √n. Lorsque l'écart type de la population, σ, est inconnu, l'écart type de l'échantillon est utilisé pour estimer σ dans la formule d'intervalle de confiance. La quantité 1,96σ / Racine carrée de √n est souvent appelée marge d'erreur pour l'estimation. La quantité σ / Racine carrée de √n est l'erreur standard, et 1,96 est le nombre d'erreurs standard à partir de la moyenne nécessaire pour inclure 95% des valeurs dans une distribution normale. L'interprétation d'un intervalle de confiance à 95% est que 95% des intervalles construits de cette manière contiendront la moyenne de la population. Ainsi, tout intervalle calculé de cette manière a une confiance de 95% pour contenir la moyenne de la population.
  • 90. ESTIMATION D’UNE MOYENNE DE POPULATION En changeant la constante de 1,96 à 1,645, un intervalle de confiance de 90% peut être obtenu. Il convient de noter à partir de la formule pour une estimation d'intervalle qu'un intervalle de confiance à 90% est plus étroit qu'un intervalle de confiance à 95% et, en tant que tel, a un degré de confiance légèrement plus faible d'inclusion de la moyenne de la population. Des niveaux de confiance plus faibles conduisent à des intervalles encore plus étroits. En pratique, un intervalle de confiance de 95% est le plus utilisé. En raison de la présence du terme n1 / 2 dans la formule pour une estimation d'intervalle, la taille de l'échantillon affecte la marge d'erreur. Des échantillons de plus grande taille entraînent de plus petites marges d'erreur. Cette observation constitue la base des procédures utilisées pour sélectionner la taille de l'échantillon. Les tailles d'échantillon peuvent être choisies de telle sorte que l'intervalle de confiance satisfasse toutes les exigences souhaitées concernant la taille de la marge d'erreur.
  • 91. ESTIMATION D’UNE MOYENNE DE POPULATION La procédure que nous venons de décrire pour élaborer des estimations d'intervalle d'une moyenne de population est basée sur l'utilisation d'un grand échantillon. Dans le cas du petit échantillon, c'est-à-dire où la taille de l'échantillon n est inférieure à 30, la distribution t est utilisée pour spécifier la marge d'erreur et construire une estimation de l'intervalle de confiance. Par exemple, à un niveau de confiance de 95%, une valeur de la distribution t, déterminée par la valeur de n, remplacerait la valeur de 1,96 obtenue à partir de la distribution normale. Les valeurs t seront toujours plus grandes, conduisant à des intervalles de confiance plus larges, mais, à mesure que la taille de l'échantillon devient plus grande, les valeurs t se rapprochent des valeurs correspondantes d'une distribution normale. Avec une taille d'échantillon de 25, la valeur t utilisée serait de 2,064, par rapport à la valeur de distribution de probabilité normale de 1,96 dans le cas du grand échantillon.
  • 92. ESTIMATION D’UNE MOYENNE DE POPULATION Les procédures d'estimation peuvent être étendues à deux populations pour des études comparatives. Par exemple, supposons qu'une étude soit menée pour déterminer les différences entre les salaires versés à une population d'hommes et à une population de femmes. Deux échantillons aléatoires simples indépendants, l'un de la population d'hommes et l'autre de la population de femmes, fourniraient deux moyennes d'échantillonnage, x ̄ 1 et x ̄ 2. La différence entre les deux moyennes d'échantillonnage, x ̄ 1 - x ̄ 2, serait utilisée comme une estimation ponctuelle de la différence entre les deux moyennes de population. La distribution d'échantillonnage de x ̄ 1 - x ̄ 2 fournirait la base d'une estimation d'intervalle de confiance de la différence entre les deux moyennes de population. Pour les variables qualitatives, les estimations ponctuelles et d'intervalle de la différence entre les proportions de population peuvent être construites en considérant la différence entre les proportions de l'échantillon.
  • 93. TESTS D’HYPOTHESES Le test d'hypothèse est une forme d'inférence statistique qui utilise les données d'un échantillon pour tirer des conclusions sur un paramètre de population ou une distribution de probabilité de population. Tout d'abord, une hypothèse provisoire est faite sur le paramètre ou la distribution. Cette hypothèse est appelée hypothèse nulle et est notée H0. Une hypothèse alternative (notée Ha), qui est l'opposé de ce qui est énoncé dans l'hypothèse nulle, est alors définie. La procédure de test d'hypothèse consiste à utiliser des échantillons de données pour déterminer si H0 peut être rejeté ou non. Si H0 est rejeté, la conclusion statistique est que l'hypothèse alternative Ha est vraie.
  • 94. TESTS D’HYPOTHESES Par exemple, supposons qu'une station de radio sélectionne la musique qu'elle joue en partant de l'hypothèse que l'âge moyen de son auditoire est de 30 ans. Pour déterminer si cette hypothèse est valide, un test d'hypothèse pourrait être conduit avec l'hypothèse nulle donnée comme H0: μ = 30 et l'hypothèse alternative donnée comme Ha: μ ≠ 30. Sur la base d'un échantillon d'individus du public d'écoute, l'échantillon l'âge moyen, x ̄ , peut être calculé et utilisé pour déterminer s'il existe des preuves statistiques suffisantes pour rejeter H0. Sur le plan conceptuel, une valeur de la moyenne de l'échantillon qui est «proche» de 30 est cohérente avec l'hypothèse nulle, tandis qu'une valeur de la moyenne de l'échantillon qui n'est «pas proche» de 30 étaye l'hypothèse alternative. Ce qui est considéré comme «proche» et «pas proche» est déterminé en utilisant la distribution d'échantillonnage de x ̄ . Idéalement, la procédure de test d'hypothèse conduit à l'acceptation de H0 lorsque H0 est vrai et au rejet de H0 lorsque H0 est faux.
  • 95. TESTS D’HYPOTHESES Malheureusement, comme les tests d'hypothèse sont basés sur des informations d'échantillons, la possibilité d'erreurs doit être considérée. Une erreur de type I correspond au rejet de H0 lorsque H0 est réellement vrai, et une erreur de type II correspond à l'acceptation de H0 lorsque H0 est faux. La probabilité de faire une erreur de type I est notée α et la probabilité de faire une erreur de type II est notée β. En utilisant la procédure de test d'hypothèse pour déterminer si l'hypothèse nulle doit être rejetée, la personne effectuant le test d'hypothèse spécifie la probabilité maximale admissible de commettre une erreur de type I, appelée niveau de signification du test. Les choix courants pour le niveau de signification sont α = 0,05 et α = 0,01. Bien que la plupart des applications de test d'hypothèse contrôlent la probabilité de commettre une erreur de type I, elles ne contrôlent pas toujours la probabilité de commettre une erreur de type II.
  • 96. TESTS D’HYPOTHESES Un graphique appelé courbe caractéristique de fonctionnement peut être construit pour montrer comment les changements dans la taille de l'échantillon affectent la probabilité de commettre une erreur de type II. Un concept connu sous le nom de valeur p fournit une base pratique pour tirer des conclusions dans les applications de test d'hypothèses. La valeur p est une mesure de la probabilité des résultats de l'échantillon, en supposant que l'hypothèse nulle est vraie; plus la valeur p est petite, moins les résultats de l'échantillon sont probables. Si la valeur p est inférieure à α, l'hypothèse nulle peut être rejetée; sinon, l'hypothèse nulle ne peut être rejetée. La valeur p est souvent appelée le niveau de signification observé pour le test. Un test d'hypothèse peut être effectué sur les paramètres d'une ou plusieurs populations ainsi que dans diverses autres situations. Dans chaque cas, le processus commence par la formulation d'hypothèses nulles et alternatives sur la population.
  • 97. TESTS D’HYPOTHESES En plus de la moyenne de la population, des procédures de test d'hypothèses sont disponibles pour les paramètres de population tels que les proportions, les variances, les écarts types et les médianes. Des tests d'hypothèse sont également effectués dans l'analyse de régression et de corrélation pour déterminer si la relation de régression et le coefficient de corrélation sont statistiquement significatifs (voir ci-dessous Analyse de régression et de corrélation). Un test d'ajustement fait référence à un test d'hypothèse dans lequel l'hypothèse nulle est que la population a une distribution de probabilité spécifique, telle qu'une distribution de probabilité normale. Les méthodes statistiques non paramétriques impliquent également une variété de procédures de test d'hypothèses.
  • 98. METHODES BAYESIENNES Les méthodes d'inférence statistique décrites précédemment sont souvent appelées méthodes classiques. Les méthodes bayésiennes (ainsi appelées d'après le mathématicien anglais Thomas Bayes) fournissent des alternatives qui permettent de combiner des informations antérieures sur un paramètre de population avec des informations contenues dans un échantillon pour guider le processus d'inférence statistique. Une distribution de probabilité préalable pour un paramètre d'intérêt est spécifiée en premier. Les informations de l'échantillon sont ensuite obtenues et combinées par une application du théorème de Bayes pour fournir une distribution de probabilité postérieure pour le paramètre. La distribution postérieure fournit la base des inférences statistiques concernant le paramètre. Une caractéristique clé, et quelque peu controversée, des méthodes bayésiennes est la notion de distribution de probabilité pour un paramètre de population.
  • 99. METHODES BAYESIENNES Selon les statistiques classiques, les paramètres sont des constantes et ne peuvent pas être représentés comme des variables aléatoires. Les partisans bayésiens soutiennent que, si une valeur de paramètre est inconnue, il est alors logique de spécifier une distribution de probabilité qui décrit les valeurs possibles du paramètre ainsi que leur probabilité. L'approche bayésienne permet d'utiliser des données objectives ou une opinion subjective pour spécifier une distribution a priori. Avec l'approche bayésienne, différents individus peuvent spécifier différentes distributions antérieures. Les statisticiens classiques affirment que pour cette raison, les méthodes bayésiennes souffrent d'un manque d'objectivité. Les partisans bayésiens soutiennent que les méthodes classiques d'inférence statistique ont une subjectivité intégrée (par le choix d'un plan d'échantillonnage) et que l'avantage de l'approche bayésienne est que la subjectivité est rendue explicite.
  • 100. METHODES BAYESIENNES Les méthodes bayésiennes ont été largement utilisées dans la théorie de la décision statistique. Dans ce contexte, le théorème de Bayes fournit un mécanisme pour combiner une distribution de probabilité a priori pour les états de la nature avec des informations d’échantillon pour fournir une distribution de probabilité révisée (postérieure) sur les états de la nature. Ces probabilités postérieures sont ensuite utilisées pour prendre de meilleures décisions.