SlideShare une entreprise Scribd logo
1  sur  45
Télécharger pour lire hors ligne
DAMASwww.damas.ift.ulaval.ca
Outline
Un Tutorial sur les Tests Statistiques
Abdeslam Boularias
Laboratoire DAMAS, Département d’informatique et de Génie Logiciel
Université Laval
26 Janvier 2007
Un Tutorial sur les Tests Statistiques Abdeslam Boularias 1 / 41
DAMASwww.damas.ift.ulaval.ca
Outline
Outline
1 Rappel sur les Probabilités
2 Lois de Probabilités Importantes
3 Test d’hypothèse
4 Tests Statistiques Importants
5 Conclusion
Un Tutorial sur les Tests Statistiques Abdeslam Boularias 2 / 41
DAMASwww.damas.ift.ulaval.ca
Outline
Outline
1 Rappel sur les Probabilités
2 Lois de Probabilités Importantes
3 Test d’hypothèse
4 Tests Statistiques Importants
5 Conclusion
Un Tutorial sur les Tests Statistiques Abdeslam Boularias 2 / 41
DAMASwww.damas.ift.ulaval.ca
Outline
Outline
1 Rappel sur les Probabilités
2 Lois de Probabilités Importantes
3 Test d’hypothèse
4 Tests Statistiques Importants
5 Conclusion
Un Tutorial sur les Tests Statistiques Abdeslam Boularias 2 / 41
DAMASwww.damas.ift.ulaval.ca
Outline
Outline
1 Rappel sur les Probabilités
2 Lois de Probabilités Importantes
3 Test d’hypothèse
4 Tests Statistiques Importants
5 Conclusion
Un Tutorial sur les Tests Statistiques Abdeslam Boularias 2 / 41
DAMASwww.damas.ift.ulaval.ca
Outline
Outline
1 Rappel sur les Probabilités
2 Lois de Probabilités Importantes
3 Test d’hypothèse
4 Tests Statistiques Importants
5 Conclusion
Un Tutorial sur les Tests Statistiques Abdeslam Boularias 2 / 41
DAMASwww.damas.ift.ulaval.ca
Rappel Lois Importantes Test d’hypothèse Tests Importants Conclusion
Rappel sur les Probabilités
Variables aléatoires:
La théorie des probabilités est l’ étude mathématiques des
phénomènes incertains où aléatoires.
Une variable aléatoire X est une fonction qui associe à chaque
résultat d’une expérience aléatoire un nombre réel.
L’ensemble des résultats d’une expérience est appelé l’ univers
Ω.
Exemple:
Une variable aléatoire X qui traduit le résultat ω ∈ Ω du jet d’un dé en
un nombre réel X(ω) ∈ {1, 2, 3, 4, 5, 6}
Un Tutorial sur les Tests Statistiques Abdeslam Boularias 3 / 41
DAMASwww.damas.ift.ulaval.ca
Rappel Lois Importantes Test d’hypothèse Tests Importants Conclusion
Axiomes de Kolmogorov
Axiomes de Kolmogorov:
Une fonction P est dite une probabilité sur Ω ssi:
Pour tout évènement A: 0 ≤ P(A) ≤ 1.
P(Ω) = 1
Pour toute suite d’évènements deux à deux disjoints A1, A2, . . . ,
on a :
P(
∞
i=0
Ai ) =
∞
i=0
P(Ai )
Un Tutorial sur les Tests Statistiques Abdeslam Boularias 4 / 41
DAMASwww.damas.ift.ulaval.ca
Rappel Lois Importantes Test d’hypothèse Tests Importants Conclusion
Règles élémentaires
Règle de l’union:
P(A∪B) = P(A)+P(B)−P(A∩B)
Règle de la conditionnelle:
P(A|B) =
P(A ∩ B)
P(B)
Règle de l’intersection:
P(A ∩ B) = P(B)P(A|B)
Règle de Bayes:
P(A|B) = P(B|A)
P(A)
P(B)
Un Tutorial sur les Tests Statistiques Abdeslam Boularias 5 / 41
DAMASwww.damas.ift.ulaval.ca
Rappel Lois Importantes Test d’hypothèse Tests Importants Conclusion
Loi de probabilités et fonction de répartition:
Pour une variable aléatoire discrete X:
Une loi de probabilité f associe à chaque valeur a la probabilité
PX (x = a).
Pour une variable aléatoire continue X:
Une fonction de répartition F associe à chaque valeur a la probabilité
PX (x ≤ a).
On a:
F(a) =
a
−∞
f(t)dt
Un Tutorial sur les Tests Statistiques Abdeslam Boularias 6 / 41
DAMASwww.damas.ift.ulaval.ca
Rappel Lois Importantes Test d’hypothèse Tests Importants Conclusion
L’espérance, la variance, et l’écart-type
Soit X une variable aléatoire discrete:
L’espérance mathématique de X:
E(X) =
x∈X(Ω)
xP(x)
La variance de X:
V(X) = E((X − E(X))2
) =
x∈X(Ω)
(x − E(X))2
P(x)
L’écart type de X:
δ = V(X)
Un Tutorial sur les Tests Statistiques Abdeslam Boularias 7 / 41
DAMASwww.damas.ift.ulaval.ca
Rappel Lois Importantes Test d’hypothèse Tests Importants Conclusion
L’espérance, la variance, et l’écart-type
Soit X une variable aléatoire continue:
L’espérance mathématique de X:
E(X) =
∞
−∞
xf(x)dx
La variance de X:
V(X) = E((X − E(X))2
) =
∞
−∞
(x − E(X))2
f(x)dx
L’écart type de X:
δ = V(X)
Un Tutorial sur les Tests Statistiques Abdeslam Boularias 8 / 41
DAMASwww.damas.ift.ulaval.ca
Rappel Lois Importantes Test d’hypothèse Tests Importants Conclusion
Loi des grands nombres
La loi faible des grands nombres
lim
n→∞
P(|
X1 + X2 + · · · + Xn
n
− E(X)| ≥ ) = 0
La loi forte des grands nombres
lim
n→∞
P(
X1 + X2 + · · · + Xn
n
= E(X)) = 1
C’est à dire?
L’approche fréquentiste est une bonne estimation des paramètres
réels de la distribution.
Un Tutorial sur les Tests Statistiques Abdeslam Boularias 9 / 41
DAMASwww.damas.ift.ulaval.ca
Rappel Lois Importantes Test d’hypothèse Tests Importants Conclusion
La loi uniforme discrete
C’est quoi?
C’est la loi des phénomènes où tous les évènements ont la
même probabilité de se réaliser.
Exemple: Le jet d’un dé non biaisé.
On utilise cette distribution lorsqu’on connait rien sur la véritable
distribution.
Exemple: Dans un POMDP où on ne sait rien sur l’état de
départ, on initialise l’état de croyance avec une distribution
uniforme sur tous les états.
∀x ∈ X(Ω) : PX (x) =
1
|X(Ω)|
E(X) =
1
|X(Ω)|
x∈X(Ω)
x
Un Tutorial sur les Tests Statistiques Abdeslam Boularias 10 / 41
DAMASwww.damas.ift.ulaval.ca
Rappel Lois Importantes Test d’hypothèse Tests Importants Conclusion
La loi uniforme discrete, un exemple
http://upload.wikimedia.org/wikipedia/commons/6/6f/DUniform_distribution_PDF.png
http://upload.wikimedia.org/wikipedia/commons/6/6f/DUniform_distribution_PDF.png2007-01-23 18:09:33
http://upload.wikimedia.org/wikipedia/commons/c/c3/DUniform_distribution_CDF.png
http://upload.wikimedia.org/wikipedia/commons/c/c3/DUniform_distribution_CDF.png2007-01-23 18:22:29
Un Tutorial sur les Tests Statistiques Abdeslam Boularias 11 / 41
DAMASwww.damas.ift.ulaval.ca
Rappel Lois Importantes Test d’hypothèse Tests Importants Conclusion
La loi uniforme continue
Les valeurs de la variable aléatoire X sont dans un intervalle
continu [a, b].
Les sous intervalles de même longeurs ont la même probabilité.
∀x ∈ [a, b] : PX (x) =
1
b − a
∀x ∈ [a, b] : FX (x) =
x − a
b − a
E(X) =
a + b
2
, V(X) =
(b − a)2
12
Un Tutorial sur les Tests Statistiques Abdeslam Boularias 12 / 41
DAMASwww.damas.ift.ulaval.ca
Rappel Lois Importantes Test d’hypothèse Tests Importants Conclusion
La loi uniforme continue, un exemple
http://upload.wikimedia.org/wikipedia/commons/9/9c/Uniform_distribution_PDF.png
http://upload.wikimedia.org/wikipedia/commons/9/9c/Uniform_distribution_PDF.png2007-01-24 14:13:36
http://upload.wikimedia.org/wikipedia/commons/b/b7/Uniform_distribution_CDF.png
http://upload.wikimedia.org/wikipedia/commons/b/b7/Uniform_distribution_CDF.png2007-01-24 14:15:12
Un Tutorial sur les Tests Statistiques Abdeslam Boularias 13 / 41
DAMASwww.damas.ift.ulaval.ca
Rappel Lois Importantes Test d’hypothèse Tests Importants Conclusion
La loi de Bernoulli
La loi de Bernoulli:
C’est la loi des deux évènements disjoints : Succés/Échec.
Exemple: pile ou face, retirer une boule à partir d’une urne et
vérifier si cette boule est rouge ou non.
Le seul paramètre de cette loi est p, la probabilité de succés.
P(x) =
p si x = 1
1 − p si x = 0
E(X) = p, V(X) = p(1 − p)
Un Tutorial sur les Tests Statistiques Abdeslam Boularias 14 / 41
DAMASwww.damas.ift.ulaval.ca
Rappel Lois Importantes Test d’hypothèse Tests Importants Conclusion
La loi Binomiale
Une Binomiale= plusieurs Bernoulli
On renouvelle n fois d’une manière indépendante, une
expérience de Bernoulli de paramètre p, et on compte le nombre
de succés.
P(x = k) = Ck
n pk
(1 − p)n−k
L’espérence E(X) est la somme des espérences, soit np
La variance V(X) est la somme des variances, soit np(1 − p)
Exemples:
Répéter pile ou face n fois.
Retirer n boules, avec remise, d’une urne qui contient une
proportion p de boules rouges.
Sans remise?
Un Tutorial sur les Tests Statistiques Abdeslam Boularias 15 / 41
DAMASwww.damas.ift.ulaval.ca
Rappel Lois Importantes Test d’hypothèse Tests Importants Conclusion
La loi de Poisson
On connait λ, le nombre de fois moyen qu’un certain évènement
apparait pendant un certain intervalle de temps.
Exemple 1: Une frigate attaquée par un MIG-29 reçoit en
moyenne 1 missile/minute.
Exemple 2: Dans une certaine route, il y’a en moyenne 2.5
voitures/seconde qui rentrent.
Exemple 3: Pendant les trois mois d’Été à Québec, on a en
moyenne 0.4 incendies/jour.
Un Tutorial sur les Tests Statistiques Abdeslam Boularias 16 / 41
DAMASwww.damas.ift.ulaval.ca
Rappel Lois Importantes Test d’hypothèse Tests Importants Conclusion
La loi de Poisson
On cherche: la probabilité d’avoir k évènements pendant cet
intervalle de temps.
C’est la loi de Poisson:
P(k) =
e−λ
λk
k!
E(X) = λ, V(X) = λ
On peut approximer une Binomiale B(n, p) par une loi de Poisson de
paramètre λ = np lorsque n → ∞.
Un Tutorial sur les Tests Statistiques Abdeslam Boularias 17 / 41
DAMASwww.damas.ift.ulaval.ca
Rappel Lois Importantes Test d’hypothèse Tests Importants Conclusion
La loi de Poisson, un exemple
http://upload.wikimedia.org/wikipedia/commons/c/c1/Poisson_distribution_PMF.png
http://upload.wikimedia.org/wikipedia/commons/c/c1/Poisson_distribution_PMF.png2007-01-24 16:39:01
http://upload.wikimedia.org/wikipedia/en/a/a2/PoissonCDF.png
http://upload.wikimedia.org/wikipedia/en/a/a2/PoissonCDF.png2007-01-24 16:39:52
Un Tutorial sur les Tests Statistiques Abdeslam Boularias 18 / 41
DAMASwww.damas.ift.ulaval.ca
Rappel Lois Importantes Test d’hypothèse Tests Importants Conclusion
La loi Multinomiale
Multinomiale = Généralisation de la Binomiale
On lance un dé n fois, et on aimerai connaitre la probabilité
d’observer x1 fois le 0, x2 fois le 2, x3 fois le 3, x4 fois le 4, x5 fois
le 5, et x6 fois le 6.
C’est la loi Multinomiale:
P(X1 = x1, . . . , Xk = xk ) =
n!
x1!...xk ! px1
1 . . . pxk
k si k
i=1 xi = n
0 sinon
E(Xi ) = npi , V(Xi ) = npi (1 − pi )
Une petite histoire de boules ...
Une urne contient des boules rouges avec une proportion pr , des
boules vertes, avec une proportion pv , et des boules bleus avec une
proportion pb. On tire n boules avec remise, et on s’interesse à la
probabilité d’avoir xr boules rouges, xv boules vertes, et xb boules
bleus.
Un Tutorial sur les Tests Statistiques Abdeslam Boularias 19 / 41
DAMASwww.damas.ift.ulaval.ca
Rappel Lois Importantes Test d’hypothèse Tests Importants Conclusion
Exemple1: U-tree, A. McCallum et al. 1995
0.30
0.30 0.30
0.30
0.30 0.30
0.35
0.25 0.30
0.30
0.40 0.30
0.25
0.35 0.30
0.30
0.20 0.30
Question:
= ?
O1
O1 O2 O1 O2
O2O1O1 O2
O2
O1
O1 O2 O1 O2
O2O1O1 O2
O2 O1
O1 O2 O1 O2
O2O1O1 O2
O2
O1 O2
Un Tutorial sur les Tests Statistiques Abdeslam Boularias 20 / 41
DAMASwww.damas.ift.ulaval.ca
Rappel Lois Importantes Test d’hypothèse Tests Importants Conclusion
Exemple2: représentations prédictive des états
52
Dépend de ?
O1
O1 O2
O2
O2O1O1 O2
O2 O1
O1 O2
O2
O2O1O1 O2
O2
t1
t2
a1
a1
a2
a1
a2
a1
a1
a2
a1
a2
40
t1
81
t1
14
t1
12
t1
24
t2
19
t2
43
t2
6
t2
7
Une simulation….
…. et une question:
Es-ce que t1 t2
Un Tutorial sur les Tests Statistiques Abdeslam Boularias 21 / 41
DAMASwww.damas.ift.ulaval.ca
Rappel Lois Importantes Test d’hypothèse Tests Importants Conclusion
Test d’hypothèse
D’une manière générale:
Un test statistique est une démarche consistant à accepter ou à
rejeter une hypothèse (une conjecture) en se basant sur un
échantillon de données.
C’est une méthode rigoureuse car elle permet de distinguer les
fluctuation stochastiques des variation réelles.
L’hypothèse à vérifier est appelée: l’hpothèse nulle H0. On
définie aussi une hypothèse alternative H1.
Le résultat de test: Accepter H0 ou Rejeter H0
On distingue deux types de tests statistiques:
Test d’homogénéité: On vérifie si deux échantillons de données ont
la même loi de prababilités.
Test de conformité: On vérifie si un échantillon de données est
conforme à une certaine loi de prababilités qu’on a défini.
Un Tutorial sur les Tests Statistiques Abdeslam Boularias 22 / 41
DAMASwww.damas.ift.ulaval.ca
Rappel Lois Importantes Test d’hypothèse Tests Importants Conclusion
Exemple 1
Test d’indépendance entre t1 et t2
Test/historique h1 h2 h3 h4 h5
t1 40 50 81 12 14
t2 19 24 43 6 7
Hypothèse H0: t2 dépend de t1.
Hypothèse H1: t2 ne dépend de t1.
Un Tutorial sur les Tests Statistiques Abdeslam Boularias 23 / 41
DAMASwww.damas.ift.ulaval.ca
Rappel Lois Importantes Test d’hypothèse Tests Importants Conclusion
Exemple 2
Test d’indépendance entre le salaire et le sexe de l’individu
1000-2000 2000-3000 3000-4000 4000-5000 Totale
Hommes 50 70 110 60 290
Femmes 60 75 100 50 285
Total 110 145 210 110 575
Hypothèse H0: le salaire dépend de sexe.
Hypothèse H1: le salaire ne dépend pas de sexe.
Un Tutorial sur les Tests Statistiques Abdeslam Boularias 24 / 41
DAMASwww.damas.ift.ulaval.ca
Rappel Lois Importantes Test d’hypothèse Tests Importants Conclusion
Schéma général
Les 4 étapes d’un tests statistiques:
1 Définir l’hypothèse H0 et l’hypothèse H1.
2 Calculer la variable de décision du test statistique choisi, cette
variable mesure une distance entre les deux échantillions, ou
entre l’échantillon et sa loi théorique supposée.
3 Calculer le risque de première espèce α.
4 Conclure le test en comparant α à αseuil .
Un Tutorial sur les Tests Statistiques Abdeslam Boularias 25 / 41
DAMASwww.damas.ift.ulaval.ca
Rappel Lois Importantes Test d’hypothèse Tests Importants Conclusion
Risque de première et deuxième espèce
Le risque de première espèce α est indique la probabilité de
rejeter H0 dans le cas ou H0 est vrai (C’est la probabilité, lorsque
H0 est vrai, d’obtenir une distance supérieur ou égale à celle
qu’on a trouvé).
Le risque de deuxième espèce β indique la probabilité
d’accepter H0 dans le cas ou H0 est fausse.
Décision/Vérité H0 H1
H0 1 − α β
H1 α 1 − β
α est souvent appelé "Le seuil de la signification du test".
1 − β est souvent appelé "La puissance du test".
Un Tutorial sur les Tests Statistiques Abdeslam Boularias 26 / 41
DAMASwww.damas.ift.ulaval.ca
Rappel Lois Importantes Test d’hypothèse Tests Importants Conclusion
le test de χ2
Le principe:
C’est le premier test à être proposé, et c’est toujours le plus
utilisé.
Basé sur le principe des moindres carrés.
Les individus de l’échantillon doivent être des variables
aléatoires indépendantes et identiquement distribués (iid).
Si les variables aléatoires sont qualitatives ou discretes, alors on
regroupe les individus dans des classes et on considère la
fréquence de chaque classe.
Exemple:
On veut connaitre la cote de la popularité de G. W. Bush, on fait alors
un sondage sur un certain échantillion de la population. On classifie
les individus dans deux classe Pour ou Contre et on calcule la
fréquence de chaque classe.
Un Tutorial sur les Tests Statistiques Abdeslam Boularias 27 / 41
DAMASwww.damas.ift.ulaval.ca
Rappel Lois Importantes Test d’hypothèse Tests Importants Conclusion
le test de χ2
Le principe:
La distance entre l’échantillon et la loi théoriques est donnée par:
Distance =
Individu i
[(Valeur observée de i) − (Valeur attendue de i)]2
Valeur attendue de i
C’est une somme des carrés de variables Gaussiennes centrées et
réduites,
X =
k
1
X2
i avec Xi ∼ N(0, 1), alors X ∼ χ2
(k)
On cherche α tel que P(X > Distance) ≤ α
Un Tutorial sur les Tests Statistiques Abdeslam Boularias 28 / 41
DAMASwww.damas.ift.ulaval.ca
Rappel Lois Importantes Test d’hypothèse Tests Importants Conclusion
La loi de χ2
http://upload.wikimedia.org/wikipedia/commons/2/21/Chi-square_distributionPDF.png
http://upload.wikimedia.org/wikipedia/commons/2/21/Chi-square_distributionPDF.png2007-01-25 23:42:40
http://upload.wikimedia.org/wikipedia/commons/c/cb/Chi-square_distributionCDF.png
http://upload.wikimedia.org/wikipedia/commons/c/cb/Chi-square_distributionCDF.png2007-01-25 23:42:01
Un Tutorial sur les Tests Statistiques Abdeslam Boularias 29 / 41
DAMASwww.damas.ift.ulaval.ca
Rappel Lois Importantes Test d’hypothèse Tests Importants Conclusion
le test de χ2
d’adéquation
La popularité de Bush?!
Celui qui n’est pas avec nous est contre nous: C’est une loi de
Bernoulli donc (Succés/Échec).
Sur un premier échantillon, on a trouvé que 35% de la population
est Pour (ppour = 0.35, pcontre = 0.65).
Peut on conclure que la cote de popularité du Président est de
35% ?
Si c’est le cas, alors le nombre de fans de Bush sur n personnes
doit suivre une Binomiale de paramètres (n, 0.35)
Un Tutorial sur les Tests Statistiques Abdeslam Boularias 30 / 41
DAMASwww.damas.ift.ulaval.ca
Rappel Lois Importantes Test d’hypothèse Tests Importants Conclusion
le test de χ2
d’adéquation
Confrontons donc la théorie à la réalité:
On prend un autre échantillon de taille n, on calcul le nombre
npour de personnes Pour et ncontre de personnes contre.
On calcul la somme suivante:
distance =
(npour − npour ppour )2
npour ppour
+
(ncontre − ncontrepcontre)2
ncontrepcontre
Supposons que le résulat est Distance = 7, et que notre seuil de
risque est de 5%.
Sur la table de χ2
(1), on trouve que
P(La vrai distance > 7) ≤ 0.01 < 0.05%.
Donc on accepte l’hypothèse que: 35% des américains sont
pour bush, et 65% contre.
Un Tutorial sur les Tests Statistiques Abdeslam Boularias 31 / 41
DAMASwww.damas.ift.ulaval.ca
Rappel Lois Importantes Test d’hypothèse Tests Importants Conclusion
le test de χ2
d’homogénéité
Bush est-il si populaire à Boston qu’à Texas?!
Pour vérifier si les deux populations sont homogènes, on fait la
même chose, sauf que le premier échantillon sera pris à partir
d’une population, et le deuxième d’une autre population.
On peut même se passer de calculer les probabilité:
distance =
(nBoston
pour − nTexas
pour )2
nTexas
pour
+
(nBoston
contre − nTexas
contre)2
nTexas
contre
Un Tutorial sur les Tests Statistiques Abdeslam Boularias 32 / 41
DAMASwww.damas.ift.ulaval.ca
Rappel Lois Importantes Test d’hypothèse Tests Importants Conclusion
le test de χ2
d’indépendance
Le salaire dépend-t-il du sexe de l’individu? (exemple pris de
Wikipedia)
1000-2000 2000-3000 3000-4000 4000-5000 Totale
Hommes 55.5 73.1 105.9 55.5 290
Femmes 54.5 71.9 104.1 54.5 285
Total 110 145 210 110 575
Un Tutorial sur les Tests Statistiques Abdeslam Boularias 33 / 41
DAMASwww.damas.ift.ulaval.ca
Rappel Lois Importantes Test d’hypothèse Tests Importants Conclusion
le test de χ2
d’indépendance
On calcule la distance entre la population Homme et la population
Femme de la même manière que dans le test de l’homogénéité:
1000-2000 2000-3000 3000-4000 4000-5000 Totale
Hommes 0.54 0.13 0.16 0.37 1.20
Femmes 0.55 0.14 0.16 0.38 1.22
Total 1.09 0.27 0.32 0.74 2.42
Un Tutorial sur les Tests Statistiques Abdeslam Boularias 34 / 41
DAMASwww.damas.ift.ulaval.ca
Rappel Lois Importantes Test d’hypothèse Tests Importants Conclusion
le test de χ2
d’indépendance
On a 3 variables indépendantes par colonne, et 1 variables
indépendante par ligne, donc 3 degrés de liberté.
Selon la table de χ2
(3), P(La vrai distance > 2.42) ≤ 0.05
On accepte l’hopothèse que le salaire ne dépend pas de sexe.
Un Tutorial sur les Tests Statistiques Abdeslam Boularias 35 / 41
DAMASwww.damas.ift.ulaval.ca
Rappel Lois Importantes Test d’hypothèse Tests Importants Conclusion
Le test de Student
Ce test sert à comparer les moyennes µ1 et µ2 de deux
populations de loi Normal, et d’écart-type δ1, δ2.
Exemple: On sait que le Q.I. suit une loi normale, on veut
comparer les moyennes du Q.I. de deux groupes de la
population.
On l’utlise aussi pour comparer la moyenne de l’erreur d’une
regression linéaire à une moyenne nulle.
Lorsque les deux échantillons ont la même taille:
Distance =
µ1 − µ2
δ2
1 + δ2
2
Lorsque les deux échantillons ont des tailles N1, N2:
Distance =
µ1 − µ2
(N1−1)δ2
1
+(N2−1)δ2
2
N1+N2−2 ( 1
N1
+ 1
N2
)
Un Tutorial sur les Tests Statistiques Abdeslam Boularias 36 / 41
DAMASwww.damas.ift.ulaval.ca
Rappel Lois Importantes Test d’hypothèse Tests Importants Conclusion
le test de Student
Ce test sert à comparer les variances δ1 et δ2 de deux
populations de loi Normal, et de moyenne µ1, µ2.
Même principe que le test de Student
Exemple: On sait que le Q.I. suit une loi normale, et on sait que
les moyennes de deux groupes de la population sont égales,
mais on veut savoir si les deux populations ont les mêmes
variations.
Distance =
N1(N2 − 1)δ2
1
N2(N1 − 1)δ2
2
Un Tutorial sur les Tests Statistiques Abdeslam Boularias 37 / 41
DAMASwww.damas.ift.ulaval.ca
Rappel Lois Importantes Test d’hypothèse Tests Importants Conclusion
le test de Kolmogorov-Smirnov
Utilisé pour les tests d’homogénéité: Déterminer si deux
populations ont les même lois de probabilités F et G.
Exemple: Les Q-valeurs dans les noeuds de deux arbres U-tree
ont t-elles la même distribution de probabilité?
Fn(x) =
1
n
n
1
δyi ≤x
avec
δyi ≤x
1 si yi ≤ x
0 sinon
et:
Distance = sup
x∈R
|F(x) − G(x)|
Un Tutorial sur les Tests Statistiques Abdeslam Boularias 38 / 41
DAMASwww.damas.ift.ulaval.ca
Rappel Lois Importantes Test d’hypothèse Tests Importants Conclusion
le test de corrélation
On veut savoir si deux caractéristiques de la population sont
reliées entre elle.
Contrairement à chi2
, les deux carractéristiques sont
quantitatives.
Existe-t-il une relation entre la taille de l’individu et sont
espérance de vie.
Théoriquement, il faut que le paramètre p sont nulle pour
conclure que les deux variables sont indépendantes.
p =
cov(X, Y)
v(x)v(y)
Tel que
cov(X, Y) = E(X − E(X))E(Y − E(Y))
Un Tutorial sur les Tests Statistiques Abdeslam Boularias 39 / 41
DAMASwww.damas.ift.ulaval.ca
Rappel Lois Importantes Test d’hypothèse Tests Importants Conclusion
le test de corrélation
À partir d’un échantillon de taille n, on peut estimer p par:
R =
n
i=1(Xi − ¯X)(Yi − ¯Y)
(
n
i=1(Xi − ¯X)2)(
n
i=1(Yi − ¯Y)2)
Un Tutorial sur les Tests Statistiques Abdeslam Boularias 40 / 41
DAMASwww.damas.ift.ulaval.ca
Rappel Lois Importantes Test d’hypothèse Tests Importants Conclusion
Conclucion
Les projets de recherche au Damas portent sur des modèles
stochastiques, les variables de ces modèles (Valeurs espérés,
proba de transition ..) suivent des loi de probabilité.
Tirer profit de ces lois afin de faire de meilleurs algorithmes de
planification.
Les tests statistiques est un outil puissant, très populaires dans
beaucoups de domaines, mais peu utilisé en intelligence
artificielle.
On peut utiliser cet outil dans tous les problèmes
d’apprentissage oû on veut comparer deux situations différentes:
Réduction de l’espace des états, des actions . . . etc.
Un Tutorial sur les Tests Statistiques Abdeslam Boularias 41 / 41

Contenu connexe

En vedette

Lafotodelaverdaderasoledad
LafotodelaverdaderasoledadLafotodelaverdaderasoledad
Lafotodelaverdaderasoledad
alexander1979
 
Anaphylaxie alimentaire hassen 2
Anaphylaxie alimentaire hassen 2Anaphylaxie alimentaire hassen 2
Anaphylaxie alimentaire hassen 2
hcinou
 
Mon séjour à Auch. Carlos Illanes
Mon séjour à Auch. Carlos IllanesMon séjour à Auch. Carlos Illanes
Mon séjour à Auch. Carlos Illanes
francesmiraflores
 

En vedette (20)

Cours & Exercice métalogénie (Dr. sorokoby)
Cours & Exercice métalogénie (Dr. sorokoby)Cours & Exercice métalogénie (Dr. sorokoby)
Cours & Exercice métalogénie (Dr. sorokoby)
 
Cartographie et SIG 2016 - Partie 2
Cartographie et SIG 2016 - Partie 2Cartographie et SIG 2016 - Partie 2
Cartographie et SIG 2016 - Partie 2
 
Cartographie et SIG 2016 - Partie 3
Cartographie et SIG 2016 - Partie 3Cartographie et SIG 2016 - Partie 3
Cartographie et SIG 2016 - Partie 3
 
Cartographie et SIG 2016 - Partie 1
Cartographie et SIG 2016 - Partie 1Cartographie et SIG 2016 - Partie 1
Cartographie et SIG 2016 - Partie 1
 
Introduction to mapinfo
Introduction to mapinfoIntroduction to mapinfo
Introduction to mapinfo
 
Spss tp1
Spss tp1Spss tp1
Spss tp1
 
Lafotodelaverdaderasoledad
LafotodelaverdaderasoledadLafotodelaverdaderasoledad
Lafotodelaverdaderasoledad
 
Présentation Formation Médias $ociaux
Présentation Formation Médias $ociaux Présentation Formation Médias $ociaux
Présentation Formation Médias $ociaux
 
La résilience de la Ville et la Sécurité
La résilience de la Ville et la Sécurité La résilience de la Ville et la Sécurité
La résilience de la Ville et la Sécurité
 
Dossier de production SKEMA LILLE GP 40
Dossier de production SKEMA LILLE GP 40Dossier de production SKEMA LILLE GP 40
Dossier de production SKEMA LILLE GP 40
 
Paradoja
ParadojaParadoja
Paradoja
 
Anaphylaxie alimentaire hassen 2
Anaphylaxie alimentaire hassen 2Anaphylaxie alimentaire hassen 2
Anaphylaxie alimentaire hassen 2
 
Si A La Reforma Energetica
Si A La Reforma EnergeticaSi A La Reforma Energetica
Si A La Reforma Energetica
 
Sectores económicos
Sectores económicosSectores económicos
Sectores económicos
 
Violeta
VioletaVioleta
Violeta
 
Abrazo
AbrazoAbrazo
Abrazo
 
Mon séjour à Auch. Carlos Illanes
Mon séjour à Auch. Carlos IllanesMon séjour à Auch. Carlos Illanes
Mon séjour à Auch. Carlos Illanes
 
Trabajofinal
TrabajofinalTrabajofinal
Trabajofinal
 
exposicion de Gervacio
exposicion de Gervacioexposicion de Gervacio
exposicion de Gervacio
 
Où va le web?
Où va le web?Où va le web?
Où va le web?
 

Plus de Loic Sarton

Mémoire master complementaire de loic sarton
Mémoire master complementaire de loic sartonMémoire master complementaire de loic sarton
Mémoire master complementaire de loic sarton
Loic Sarton
 
Loic sarton la csp partie de lolo et clementine (page de garde question 1 et 2)
Loic sarton la csp partie de lolo et clementine (page de garde question 1 et 2)Loic sarton la csp partie de lolo et clementine (page de garde question 1 et 2)
Loic sarton la csp partie de lolo et clementine (page de garde question 1 et 2)
Loic Sarton
 
Loic sarton questionnaire gestion du_changement du prof
Loic sarton questionnaire gestion du_changement du profLoic sarton questionnaire gestion du_changement du prof
Loic sarton questionnaire gestion du_changement du prof
Loic Sarton
 
Loic sarton guide d entretien_illustratif - du prof
Loic sarton guide d entretien_illustratif - du profLoic sarton guide d entretien_illustratif - du prof
Loic sarton guide d entretien_illustratif - du prof
Loic Sarton
 

Plus de Loic Sarton (20)

Mémoire master complementaire de loic sarton
Mémoire master complementaire de loic sartonMémoire master complementaire de loic sarton
Mémoire master complementaire de loic sarton
 
Case bouygues
Case bouyguesCase bouygues
Case bouygues
 
Case bouygues
Case bouyguesCase bouygues
Case bouygues
 
Loic sarton
Loic sartonLoic sarton
Loic sarton
 
Loic sarton
Loic sartonLoic sarton
Loic sarton
 
Loic sarton la csp partie de lolo et clementine (page de garde question 1 et 2)
Loic sarton la csp partie de lolo et clementine (page de garde question 1 et 2)Loic sarton la csp partie de lolo et clementine (page de garde question 1 et 2)
Loic sarton la csp partie de lolo et clementine (page de garde question 1 et 2)
 
Loic sarton csp internet
Loic sarton csp internetLoic sarton csp internet
Loic sarton csp internet
 
Loic sarton cas belgacom
Loic sarton cas belgacomLoic sarton cas belgacom
Loic sarton cas belgacom
 
Loic sarton
Loic sartonLoic sarton
Loic sarton
 
Loic sarton
Loic sartonLoic sarton
Loic sarton
 
Loic sarton questionnaire gestion du_changement du prof
Loic sarton questionnaire gestion du_changement du profLoic sarton questionnaire gestion du_changement du prof
Loic sarton questionnaire gestion du_changement du prof
 
Loic sarton le modele de mckinsey
Loic sarton le modele de mckinseyLoic sarton le modele de mckinsey
Loic sarton le modele de mckinsey
 
Loic sarton guide d entretien_illustratif - du prof
Loic sarton guide d entretien_illustratif - du profLoic sarton guide d entretien_illustratif - du prof
Loic sarton guide d entretien_illustratif - du prof
 
Loic sarton guide d entretien
Loic sarton guide d entretienLoic sarton guide d entretien
Loic sarton guide d entretien
 
Loic sarton le modele des composantes
Loic sarton le modele des composantesLoic sarton le modele des composantes
Loic sarton le modele des composantes
 
Loic sarton
Loic sartonLoic sarton
Loic sarton
 
Loic sarton
Loic sartonLoic sarton
Loic sarton
 
Loic sarton (3)
Loic sarton (3)Loic sarton (3)
Loic sarton (3)
 
Loic sarton (2)
Loic sarton (2)Loic sarton (2)
Loic sarton (2)
 
Loic sarton critiques
Loic sarton   critiquesLoic sarton   critiques
Loic sarton critiques
 

Loic sarton presentation abdeslamtests

  • 1. DAMASwww.damas.ift.ulaval.ca Outline Un Tutorial sur les Tests Statistiques Abdeslam Boularias Laboratoire DAMAS, Département d’informatique et de Génie Logiciel Université Laval 26 Janvier 2007 Un Tutorial sur les Tests Statistiques Abdeslam Boularias 1 / 41
  • 2. DAMASwww.damas.ift.ulaval.ca Outline Outline 1 Rappel sur les Probabilités 2 Lois de Probabilités Importantes 3 Test d’hypothèse 4 Tests Statistiques Importants 5 Conclusion Un Tutorial sur les Tests Statistiques Abdeslam Boularias 2 / 41
  • 3. DAMASwww.damas.ift.ulaval.ca Outline Outline 1 Rappel sur les Probabilités 2 Lois de Probabilités Importantes 3 Test d’hypothèse 4 Tests Statistiques Importants 5 Conclusion Un Tutorial sur les Tests Statistiques Abdeslam Boularias 2 / 41
  • 4. DAMASwww.damas.ift.ulaval.ca Outline Outline 1 Rappel sur les Probabilités 2 Lois de Probabilités Importantes 3 Test d’hypothèse 4 Tests Statistiques Importants 5 Conclusion Un Tutorial sur les Tests Statistiques Abdeslam Boularias 2 / 41
  • 5. DAMASwww.damas.ift.ulaval.ca Outline Outline 1 Rappel sur les Probabilités 2 Lois de Probabilités Importantes 3 Test d’hypothèse 4 Tests Statistiques Importants 5 Conclusion Un Tutorial sur les Tests Statistiques Abdeslam Boularias 2 / 41
  • 6. DAMASwww.damas.ift.ulaval.ca Outline Outline 1 Rappel sur les Probabilités 2 Lois de Probabilités Importantes 3 Test d’hypothèse 4 Tests Statistiques Importants 5 Conclusion Un Tutorial sur les Tests Statistiques Abdeslam Boularias 2 / 41
  • 7. DAMASwww.damas.ift.ulaval.ca Rappel Lois Importantes Test d’hypothèse Tests Importants Conclusion Rappel sur les Probabilités Variables aléatoires: La théorie des probabilités est l’ étude mathématiques des phénomènes incertains où aléatoires. Une variable aléatoire X est une fonction qui associe à chaque résultat d’une expérience aléatoire un nombre réel. L’ensemble des résultats d’une expérience est appelé l’ univers Ω. Exemple: Une variable aléatoire X qui traduit le résultat ω ∈ Ω du jet d’un dé en un nombre réel X(ω) ∈ {1, 2, 3, 4, 5, 6} Un Tutorial sur les Tests Statistiques Abdeslam Boularias 3 / 41
  • 8. DAMASwww.damas.ift.ulaval.ca Rappel Lois Importantes Test d’hypothèse Tests Importants Conclusion Axiomes de Kolmogorov Axiomes de Kolmogorov: Une fonction P est dite une probabilité sur Ω ssi: Pour tout évènement A: 0 ≤ P(A) ≤ 1. P(Ω) = 1 Pour toute suite d’évènements deux à deux disjoints A1, A2, . . . , on a : P( ∞ i=0 Ai ) = ∞ i=0 P(Ai ) Un Tutorial sur les Tests Statistiques Abdeslam Boularias 4 / 41
  • 9. DAMASwww.damas.ift.ulaval.ca Rappel Lois Importantes Test d’hypothèse Tests Importants Conclusion Règles élémentaires Règle de l’union: P(A∪B) = P(A)+P(B)−P(A∩B) Règle de la conditionnelle: P(A|B) = P(A ∩ B) P(B) Règle de l’intersection: P(A ∩ B) = P(B)P(A|B) Règle de Bayes: P(A|B) = P(B|A) P(A) P(B) Un Tutorial sur les Tests Statistiques Abdeslam Boularias 5 / 41
  • 10. DAMASwww.damas.ift.ulaval.ca Rappel Lois Importantes Test d’hypothèse Tests Importants Conclusion Loi de probabilités et fonction de répartition: Pour une variable aléatoire discrete X: Une loi de probabilité f associe à chaque valeur a la probabilité PX (x = a). Pour une variable aléatoire continue X: Une fonction de répartition F associe à chaque valeur a la probabilité PX (x ≤ a). On a: F(a) = a −∞ f(t)dt Un Tutorial sur les Tests Statistiques Abdeslam Boularias 6 / 41
  • 11. DAMASwww.damas.ift.ulaval.ca Rappel Lois Importantes Test d’hypothèse Tests Importants Conclusion L’espérance, la variance, et l’écart-type Soit X une variable aléatoire discrete: L’espérance mathématique de X: E(X) = x∈X(Ω) xP(x) La variance de X: V(X) = E((X − E(X))2 ) = x∈X(Ω) (x − E(X))2 P(x) L’écart type de X: δ = V(X) Un Tutorial sur les Tests Statistiques Abdeslam Boularias 7 / 41
  • 12. DAMASwww.damas.ift.ulaval.ca Rappel Lois Importantes Test d’hypothèse Tests Importants Conclusion L’espérance, la variance, et l’écart-type Soit X une variable aléatoire continue: L’espérance mathématique de X: E(X) = ∞ −∞ xf(x)dx La variance de X: V(X) = E((X − E(X))2 ) = ∞ −∞ (x − E(X))2 f(x)dx L’écart type de X: δ = V(X) Un Tutorial sur les Tests Statistiques Abdeslam Boularias 8 / 41
  • 13. DAMASwww.damas.ift.ulaval.ca Rappel Lois Importantes Test d’hypothèse Tests Importants Conclusion Loi des grands nombres La loi faible des grands nombres lim n→∞ P(| X1 + X2 + · · · + Xn n − E(X)| ≥ ) = 0 La loi forte des grands nombres lim n→∞ P( X1 + X2 + · · · + Xn n = E(X)) = 1 C’est à dire? L’approche fréquentiste est une bonne estimation des paramètres réels de la distribution. Un Tutorial sur les Tests Statistiques Abdeslam Boularias 9 / 41
  • 14. DAMASwww.damas.ift.ulaval.ca Rappel Lois Importantes Test d’hypothèse Tests Importants Conclusion La loi uniforme discrete C’est quoi? C’est la loi des phénomènes où tous les évènements ont la même probabilité de se réaliser. Exemple: Le jet d’un dé non biaisé. On utilise cette distribution lorsqu’on connait rien sur la véritable distribution. Exemple: Dans un POMDP où on ne sait rien sur l’état de départ, on initialise l’état de croyance avec une distribution uniforme sur tous les états. ∀x ∈ X(Ω) : PX (x) = 1 |X(Ω)| E(X) = 1 |X(Ω)| x∈X(Ω) x Un Tutorial sur les Tests Statistiques Abdeslam Boularias 10 / 41
  • 15. DAMASwww.damas.ift.ulaval.ca Rappel Lois Importantes Test d’hypothèse Tests Importants Conclusion La loi uniforme discrete, un exemple http://upload.wikimedia.org/wikipedia/commons/6/6f/DUniform_distribution_PDF.png http://upload.wikimedia.org/wikipedia/commons/6/6f/DUniform_distribution_PDF.png2007-01-23 18:09:33 http://upload.wikimedia.org/wikipedia/commons/c/c3/DUniform_distribution_CDF.png http://upload.wikimedia.org/wikipedia/commons/c/c3/DUniform_distribution_CDF.png2007-01-23 18:22:29 Un Tutorial sur les Tests Statistiques Abdeslam Boularias 11 / 41
  • 16. DAMASwww.damas.ift.ulaval.ca Rappel Lois Importantes Test d’hypothèse Tests Importants Conclusion La loi uniforme continue Les valeurs de la variable aléatoire X sont dans un intervalle continu [a, b]. Les sous intervalles de même longeurs ont la même probabilité. ∀x ∈ [a, b] : PX (x) = 1 b − a ∀x ∈ [a, b] : FX (x) = x − a b − a E(X) = a + b 2 , V(X) = (b − a)2 12 Un Tutorial sur les Tests Statistiques Abdeslam Boularias 12 / 41
  • 17. DAMASwww.damas.ift.ulaval.ca Rappel Lois Importantes Test d’hypothèse Tests Importants Conclusion La loi uniforme continue, un exemple http://upload.wikimedia.org/wikipedia/commons/9/9c/Uniform_distribution_PDF.png http://upload.wikimedia.org/wikipedia/commons/9/9c/Uniform_distribution_PDF.png2007-01-24 14:13:36 http://upload.wikimedia.org/wikipedia/commons/b/b7/Uniform_distribution_CDF.png http://upload.wikimedia.org/wikipedia/commons/b/b7/Uniform_distribution_CDF.png2007-01-24 14:15:12 Un Tutorial sur les Tests Statistiques Abdeslam Boularias 13 / 41
  • 18. DAMASwww.damas.ift.ulaval.ca Rappel Lois Importantes Test d’hypothèse Tests Importants Conclusion La loi de Bernoulli La loi de Bernoulli: C’est la loi des deux évènements disjoints : Succés/Échec. Exemple: pile ou face, retirer une boule à partir d’une urne et vérifier si cette boule est rouge ou non. Le seul paramètre de cette loi est p, la probabilité de succés. P(x) = p si x = 1 1 − p si x = 0 E(X) = p, V(X) = p(1 − p) Un Tutorial sur les Tests Statistiques Abdeslam Boularias 14 / 41
  • 19. DAMASwww.damas.ift.ulaval.ca Rappel Lois Importantes Test d’hypothèse Tests Importants Conclusion La loi Binomiale Une Binomiale= plusieurs Bernoulli On renouvelle n fois d’une manière indépendante, une expérience de Bernoulli de paramètre p, et on compte le nombre de succés. P(x = k) = Ck n pk (1 − p)n−k L’espérence E(X) est la somme des espérences, soit np La variance V(X) est la somme des variances, soit np(1 − p) Exemples: Répéter pile ou face n fois. Retirer n boules, avec remise, d’une urne qui contient une proportion p de boules rouges. Sans remise? Un Tutorial sur les Tests Statistiques Abdeslam Boularias 15 / 41
  • 20. DAMASwww.damas.ift.ulaval.ca Rappel Lois Importantes Test d’hypothèse Tests Importants Conclusion La loi de Poisson On connait λ, le nombre de fois moyen qu’un certain évènement apparait pendant un certain intervalle de temps. Exemple 1: Une frigate attaquée par un MIG-29 reçoit en moyenne 1 missile/minute. Exemple 2: Dans une certaine route, il y’a en moyenne 2.5 voitures/seconde qui rentrent. Exemple 3: Pendant les trois mois d’Été à Québec, on a en moyenne 0.4 incendies/jour. Un Tutorial sur les Tests Statistiques Abdeslam Boularias 16 / 41
  • 21. DAMASwww.damas.ift.ulaval.ca Rappel Lois Importantes Test d’hypothèse Tests Importants Conclusion La loi de Poisson On cherche: la probabilité d’avoir k évènements pendant cet intervalle de temps. C’est la loi de Poisson: P(k) = e−λ λk k! E(X) = λ, V(X) = λ On peut approximer une Binomiale B(n, p) par une loi de Poisson de paramètre λ = np lorsque n → ∞. Un Tutorial sur les Tests Statistiques Abdeslam Boularias 17 / 41
  • 22. DAMASwww.damas.ift.ulaval.ca Rappel Lois Importantes Test d’hypothèse Tests Importants Conclusion La loi de Poisson, un exemple http://upload.wikimedia.org/wikipedia/commons/c/c1/Poisson_distribution_PMF.png http://upload.wikimedia.org/wikipedia/commons/c/c1/Poisson_distribution_PMF.png2007-01-24 16:39:01 http://upload.wikimedia.org/wikipedia/en/a/a2/PoissonCDF.png http://upload.wikimedia.org/wikipedia/en/a/a2/PoissonCDF.png2007-01-24 16:39:52 Un Tutorial sur les Tests Statistiques Abdeslam Boularias 18 / 41
  • 23. DAMASwww.damas.ift.ulaval.ca Rappel Lois Importantes Test d’hypothèse Tests Importants Conclusion La loi Multinomiale Multinomiale = Généralisation de la Binomiale On lance un dé n fois, et on aimerai connaitre la probabilité d’observer x1 fois le 0, x2 fois le 2, x3 fois le 3, x4 fois le 4, x5 fois le 5, et x6 fois le 6. C’est la loi Multinomiale: P(X1 = x1, . . . , Xk = xk ) = n! x1!...xk ! px1 1 . . . pxk k si k i=1 xi = n 0 sinon E(Xi ) = npi , V(Xi ) = npi (1 − pi ) Une petite histoire de boules ... Une urne contient des boules rouges avec une proportion pr , des boules vertes, avec une proportion pv , et des boules bleus avec une proportion pb. On tire n boules avec remise, et on s’interesse à la probabilité d’avoir xr boules rouges, xv boules vertes, et xb boules bleus. Un Tutorial sur les Tests Statistiques Abdeslam Boularias 19 / 41
  • 24. DAMASwww.damas.ift.ulaval.ca Rappel Lois Importantes Test d’hypothèse Tests Importants Conclusion Exemple1: U-tree, A. McCallum et al. 1995 0.30 0.30 0.30 0.30 0.30 0.30 0.35 0.25 0.30 0.30 0.40 0.30 0.25 0.35 0.30 0.30 0.20 0.30 Question: = ? O1 O1 O2 O1 O2 O2O1O1 O2 O2 O1 O1 O2 O1 O2 O2O1O1 O2 O2 O1 O1 O2 O1 O2 O2O1O1 O2 O2 O1 O2 Un Tutorial sur les Tests Statistiques Abdeslam Boularias 20 / 41
  • 25. DAMASwww.damas.ift.ulaval.ca Rappel Lois Importantes Test d’hypothèse Tests Importants Conclusion Exemple2: représentations prédictive des états 52 Dépend de ? O1 O1 O2 O2 O2O1O1 O2 O2 O1 O1 O2 O2 O2O1O1 O2 O2 t1 t2 a1 a1 a2 a1 a2 a1 a1 a2 a1 a2 40 t1 81 t1 14 t1 12 t1 24 t2 19 t2 43 t2 6 t2 7 Une simulation…. …. et une question: Es-ce que t1 t2 Un Tutorial sur les Tests Statistiques Abdeslam Boularias 21 / 41
  • 26. DAMASwww.damas.ift.ulaval.ca Rappel Lois Importantes Test d’hypothèse Tests Importants Conclusion Test d’hypothèse D’une manière générale: Un test statistique est une démarche consistant à accepter ou à rejeter une hypothèse (une conjecture) en se basant sur un échantillon de données. C’est une méthode rigoureuse car elle permet de distinguer les fluctuation stochastiques des variation réelles. L’hypothèse à vérifier est appelée: l’hpothèse nulle H0. On définie aussi une hypothèse alternative H1. Le résultat de test: Accepter H0 ou Rejeter H0 On distingue deux types de tests statistiques: Test d’homogénéité: On vérifie si deux échantillons de données ont la même loi de prababilités. Test de conformité: On vérifie si un échantillon de données est conforme à une certaine loi de prababilités qu’on a défini. Un Tutorial sur les Tests Statistiques Abdeslam Boularias 22 / 41
  • 27. DAMASwww.damas.ift.ulaval.ca Rappel Lois Importantes Test d’hypothèse Tests Importants Conclusion Exemple 1 Test d’indépendance entre t1 et t2 Test/historique h1 h2 h3 h4 h5 t1 40 50 81 12 14 t2 19 24 43 6 7 Hypothèse H0: t2 dépend de t1. Hypothèse H1: t2 ne dépend de t1. Un Tutorial sur les Tests Statistiques Abdeslam Boularias 23 / 41
  • 28. DAMASwww.damas.ift.ulaval.ca Rappel Lois Importantes Test d’hypothèse Tests Importants Conclusion Exemple 2 Test d’indépendance entre le salaire et le sexe de l’individu 1000-2000 2000-3000 3000-4000 4000-5000 Totale Hommes 50 70 110 60 290 Femmes 60 75 100 50 285 Total 110 145 210 110 575 Hypothèse H0: le salaire dépend de sexe. Hypothèse H1: le salaire ne dépend pas de sexe. Un Tutorial sur les Tests Statistiques Abdeslam Boularias 24 / 41
  • 29. DAMASwww.damas.ift.ulaval.ca Rappel Lois Importantes Test d’hypothèse Tests Importants Conclusion Schéma général Les 4 étapes d’un tests statistiques: 1 Définir l’hypothèse H0 et l’hypothèse H1. 2 Calculer la variable de décision du test statistique choisi, cette variable mesure une distance entre les deux échantillions, ou entre l’échantillon et sa loi théorique supposée. 3 Calculer le risque de première espèce α. 4 Conclure le test en comparant α à αseuil . Un Tutorial sur les Tests Statistiques Abdeslam Boularias 25 / 41
  • 30. DAMASwww.damas.ift.ulaval.ca Rappel Lois Importantes Test d’hypothèse Tests Importants Conclusion Risque de première et deuxième espèce Le risque de première espèce α est indique la probabilité de rejeter H0 dans le cas ou H0 est vrai (C’est la probabilité, lorsque H0 est vrai, d’obtenir une distance supérieur ou égale à celle qu’on a trouvé). Le risque de deuxième espèce β indique la probabilité d’accepter H0 dans le cas ou H0 est fausse. Décision/Vérité H0 H1 H0 1 − α β H1 α 1 − β α est souvent appelé "Le seuil de la signification du test". 1 − β est souvent appelé "La puissance du test". Un Tutorial sur les Tests Statistiques Abdeslam Boularias 26 / 41
  • 31. DAMASwww.damas.ift.ulaval.ca Rappel Lois Importantes Test d’hypothèse Tests Importants Conclusion le test de χ2 Le principe: C’est le premier test à être proposé, et c’est toujours le plus utilisé. Basé sur le principe des moindres carrés. Les individus de l’échantillon doivent être des variables aléatoires indépendantes et identiquement distribués (iid). Si les variables aléatoires sont qualitatives ou discretes, alors on regroupe les individus dans des classes et on considère la fréquence de chaque classe. Exemple: On veut connaitre la cote de la popularité de G. W. Bush, on fait alors un sondage sur un certain échantillion de la population. On classifie les individus dans deux classe Pour ou Contre et on calcule la fréquence de chaque classe. Un Tutorial sur les Tests Statistiques Abdeslam Boularias 27 / 41
  • 32. DAMASwww.damas.ift.ulaval.ca Rappel Lois Importantes Test d’hypothèse Tests Importants Conclusion le test de χ2 Le principe: La distance entre l’échantillon et la loi théoriques est donnée par: Distance = Individu i [(Valeur observée de i) − (Valeur attendue de i)]2 Valeur attendue de i C’est une somme des carrés de variables Gaussiennes centrées et réduites, X = k 1 X2 i avec Xi ∼ N(0, 1), alors X ∼ χ2 (k) On cherche α tel que P(X > Distance) ≤ α Un Tutorial sur les Tests Statistiques Abdeslam Boularias 28 / 41
  • 33. DAMASwww.damas.ift.ulaval.ca Rappel Lois Importantes Test d’hypothèse Tests Importants Conclusion La loi de χ2 http://upload.wikimedia.org/wikipedia/commons/2/21/Chi-square_distributionPDF.png http://upload.wikimedia.org/wikipedia/commons/2/21/Chi-square_distributionPDF.png2007-01-25 23:42:40 http://upload.wikimedia.org/wikipedia/commons/c/cb/Chi-square_distributionCDF.png http://upload.wikimedia.org/wikipedia/commons/c/cb/Chi-square_distributionCDF.png2007-01-25 23:42:01 Un Tutorial sur les Tests Statistiques Abdeslam Boularias 29 / 41
  • 34. DAMASwww.damas.ift.ulaval.ca Rappel Lois Importantes Test d’hypothèse Tests Importants Conclusion le test de χ2 d’adéquation La popularité de Bush?! Celui qui n’est pas avec nous est contre nous: C’est une loi de Bernoulli donc (Succés/Échec). Sur un premier échantillon, on a trouvé que 35% de la population est Pour (ppour = 0.35, pcontre = 0.65). Peut on conclure que la cote de popularité du Président est de 35% ? Si c’est le cas, alors le nombre de fans de Bush sur n personnes doit suivre une Binomiale de paramètres (n, 0.35) Un Tutorial sur les Tests Statistiques Abdeslam Boularias 30 / 41
  • 35. DAMASwww.damas.ift.ulaval.ca Rappel Lois Importantes Test d’hypothèse Tests Importants Conclusion le test de χ2 d’adéquation Confrontons donc la théorie à la réalité: On prend un autre échantillon de taille n, on calcul le nombre npour de personnes Pour et ncontre de personnes contre. On calcul la somme suivante: distance = (npour − npour ppour )2 npour ppour + (ncontre − ncontrepcontre)2 ncontrepcontre Supposons que le résulat est Distance = 7, et que notre seuil de risque est de 5%. Sur la table de χ2 (1), on trouve que P(La vrai distance > 7) ≤ 0.01 < 0.05%. Donc on accepte l’hypothèse que: 35% des américains sont pour bush, et 65% contre. Un Tutorial sur les Tests Statistiques Abdeslam Boularias 31 / 41
  • 36. DAMASwww.damas.ift.ulaval.ca Rappel Lois Importantes Test d’hypothèse Tests Importants Conclusion le test de χ2 d’homogénéité Bush est-il si populaire à Boston qu’à Texas?! Pour vérifier si les deux populations sont homogènes, on fait la même chose, sauf que le premier échantillon sera pris à partir d’une population, et le deuxième d’une autre population. On peut même se passer de calculer les probabilité: distance = (nBoston pour − nTexas pour )2 nTexas pour + (nBoston contre − nTexas contre)2 nTexas contre Un Tutorial sur les Tests Statistiques Abdeslam Boularias 32 / 41
  • 37. DAMASwww.damas.ift.ulaval.ca Rappel Lois Importantes Test d’hypothèse Tests Importants Conclusion le test de χ2 d’indépendance Le salaire dépend-t-il du sexe de l’individu? (exemple pris de Wikipedia) 1000-2000 2000-3000 3000-4000 4000-5000 Totale Hommes 55.5 73.1 105.9 55.5 290 Femmes 54.5 71.9 104.1 54.5 285 Total 110 145 210 110 575 Un Tutorial sur les Tests Statistiques Abdeslam Boularias 33 / 41
  • 38. DAMASwww.damas.ift.ulaval.ca Rappel Lois Importantes Test d’hypothèse Tests Importants Conclusion le test de χ2 d’indépendance On calcule la distance entre la population Homme et la population Femme de la même manière que dans le test de l’homogénéité: 1000-2000 2000-3000 3000-4000 4000-5000 Totale Hommes 0.54 0.13 0.16 0.37 1.20 Femmes 0.55 0.14 0.16 0.38 1.22 Total 1.09 0.27 0.32 0.74 2.42 Un Tutorial sur les Tests Statistiques Abdeslam Boularias 34 / 41
  • 39. DAMASwww.damas.ift.ulaval.ca Rappel Lois Importantes Test d’hypothèse Tests Importants Conclusion le test de χ2 d’indépendance On a 3 variables indépendantes par colonne, et 1 variables indépendante par ligne, donc 3 degrés de liberté. Selon la table de χ2 (3), P(La vrai distance > 2.42) ≤ 0.05 On accepte l’hopothèse que le salaire ne dépend pas de sexe. Un Tutorial sur les Tests Statistiques Abdeslam Boularias 35 / 41
  • 40. DAMASwww.damas.ift.ulaval.ca Rappel Lois Importantes Test d’hypothèse Tests Importants Conclusion Le test de Student Ce test sert à comparer les moyennes µ1 et µ2 de deux populations de loi Normal, et d’écart-type δ1, δ2. Exemple: On sait que le Q.I. suit une loi normale, on veut comparer les moyennes du Q.I. de deux groupes de la population. On l’utlise aussi pour comparer la moyenne de l’erreur d’une regression linéaire à une moyenne nulle. Lorsque les deux échantillons ont la même taille: Distance = µ1 − µ2 δ2 1 + δ2 2 Lorsque les deux échantillons ont des tailles N1, N2: Distance = µ1 − µ2 (N1−1)δ2 1 +(N2−1)δ2 2 N1+N2−2 ( 1 N1 + 1 N2 ) Un Tutorial sur les Tests Statistiques Abdeslam Boularias 36 / 41
  • 41. DAMASwww.damas.ift.ulaval.ca Rappel Lois Importantes Test d’hypothèse Tests Importants Conclusion le test de Student Ce test sert à comparer les variances δ1 et δ2 de deux populations de loi Normal, et de moyenne µ1, µ2. Même principe que le test de Student Exemple: On sait que le Q.I. suit une loi normale, et on sait que les moyennes de deux groupes de la population sont égales, mais on veut savoir si les deux populations ont les mêmes variations. Distance = N1(N2 − 1)δ2 1 N2(N1 − 1)δ2 2 Un Tutorial sur les Tests Statistiques Abdeslam Boularias 37 / 41
  • 42. DAMASwww.damas.ift.ulaval.ca Rappel Lois Importantes Test d’hypothèse Tests Importants Conclusion le test de Kolmogorov-Smirnov Utilisé pour les tests d’homogénéité: Déterminer si deux populations ont les même lois de probabilités F et G. Exemple: Les Q-valeurs dans les noeuds de deux arbres U-tree ont t-elles la même distribution de probabilité? Fn(x) = 1 n n 1 δyi ≤x avec δyi ≤x 1 si yi ≤ x 0 sinon et: Distance = sup x∈R |F(x) − G(x)| Un Tutorial sur les Tests Statistiques Abdeslam Boularias 38 / 41
  • 43. DAMASwww.damas.ift.ulaval.ca Rappel Lois Importantes Test d’hypothèse Tests Importants Conclusion le test de corrélation On veut savoir si deux caractéristiques de la population sont reliées entre elle. Contrairement à chi2 , les deux carractéristiques sont quantitatives. Existe-t-il une relation entre la taille de l’individu et sont espérance de vie. Théoriquement, il faut que le paramètre p sont nulle pour conclure que les deux variables sont indépendantes. p = cov(X, Y) v(x)v(y) Tel que cov(X, Y) = E(X − E(X))E(Y − E(Y)) Un Tutorial sur les Tests Statistiques Abdeslam Boularias 39 / 41
  • 44. DAMASwww.damas.ift.ulaval.ca Rappel Lois Importantes Test d’hypothèse Tests Importants Conclusion le test de corrélation À partir d’un échantillon de taille n, on peut estimer p par: R = n i=1(Xi − ¯X)(Yi − ¯Y) ( n i=1(Xi − ¯X)2)( n i=1(Yi − ¯Y)2) Un Tutorial sur les Tests Statistiques Abdeslam Boularias 40 / 41
  • 45. DAMASwww.damas.ift.ulaval.ca Rappel Lois Importantes Test d’hypothèse Tests Importants Conclusion Conclucion Les projets de recherche au Damas portent sur des modèles stochastiques, les variables de ces modèles (Valeurs espérés, proba de transition ..) suivent des loi de probabilité. Tirer profit de ces lois afin de faire de meilleurs algorithmes de planification. Les tests statistiques est un outil puissant, très populaires dans beaucoups de domaines, mais peu utilisé en intelligence artificielle. On peut utiliser cet outil dans tous les problèmes d’apprentissage oû on veut comparer deux situations différentes: Réduction de l’espace des états, des actions . . . etc. Un Tutorial sur les Tests Statistiques Abdeslam Boularias 41 / 41