DAMASwww.damas.ift.ulaval.ca
Outline
Un Tutorial sur les Tests Statistiques
Abdeslam Boularias
Laboratoire DAMAS, Départem...
DAMASwww.damas.ift.ulaval.ca
Outline
Outline
1 Rappel sur les Probabilités
2 Lois de Probabilités Importantes
3 Test d’hyp...
DAMASwww.damas.ift.ulaval.ca
Outline
Outline
1 Rappel sur les Probabilités
2 Lois de Probabilités Importantes
3 Test d’hyp...
DAMASwww.damas.ift.ulaval.ca
Outline
Outline
1 Rappel sur les Probabilités
2 Lois de Probabilités Importantes
3 Test d’hyp...
DAMASwww.damas.ift.ulaval.ca
Outline
Outline
1 Rappel sur les Probabilités
2 Lois de Probabilités Importantes
3 Test d’hyp...
DAMASwww.damas.ift.ulaval.ca
Outline
Outline
1 Rappel sur les Probabilités
2 Lois de Probabilités Importantes
3 Test d’hyp...
DAMASwww.damas.ift.ulaval.ca
Rappel Lois Importantes Test d’hypothèse Tests Importants Conclusion
Rappel sur les Probabili...
DAMASwww.damas.ift.ulaval.ca
Rappel Lois Importantes Test d’hypothèse Tests Importants Conclusion
Axiomes de Kolmogorov
Ax...
DAMASwww.damas.ift.ulaval.ca
Rappel Lois Importantes Test d’hypothèse Tests Importants Conclusion
Règles élémentaires
Règl...
DAMASwww.damas.ift.ulaval.ca
Rappel Lois Importantes Test d’hypothèse Tests Importants Conclusion
Loi de probabilités et f...
DAMASwww.damas.ift.ulaval.ca
Rappel Lois Importantes Test d’hypothèse Tests Importants Conclusion
L’espérance, la variance...
DAMASwww.damas.ift.ulaval.ca
Rappel Lois Importantes Test d’hypothèse Tests Importants Conclusion
L’espérance, la variance...
DAMASwww.damas.ift.ulaval.ca
Rappel Lois Importantes Test d’hypothèse Tests Importants Conclusion
Loi des grands nombres
L...
DAMASwww.damas.ift.ulaval.ca
Rappel Lois Importantes Test d’hypothèse Tests Importants Conclusion
La loi uniforme discrete...
DAMASwww.damas.ift.ulaval.ca
Rappel Lois Importantes Test d’hypothèse Tests Importants Conclusion
La loi uniforme discrete...
DAMASwww.damas.ift.ulaval.ca
Rappel Lois Importantes Test d’hypothèse Tests Importants Conclusion
La loi uniforme continue...
DAMASwww.damas.ift.ulaval.ca
Rappel Lois Importantes Test d’hypothèse Tests Importants Conclusion
La loi uniforme continue...
DAMASwww.damas.ift.ulaval.ca
Rappel Lois Importantes Test d’hypothèse Tests Importants Conclusion
La loi de Bernoulli
La l...
DAMASwww.damas.ift.ulaval.ca
Rappel Lois Importantes Test d’hypothèse Tests Importants Conclusion
La loi Binomiale
Une Bin...
DAMASwww.damas.ift.ulaval.ca
Rappel Lois Importantes Test d’hypothèse Tests Importants Conclusion
La loi de Poisson
On con...
DAMASwww.damas.ift.ulaval.ca
Rappel Lois Importantes Test d’hypothèse Tests Importants Conclusion
La loi de Poisson
On che...
DAMASwww.damas.ift.ulaval.ca
Rappel Lois Importantes Test d’hypothèse Tests Importants Conclusion
La loi de Poisson, un ex...
DAMASwww.damas.ift.ulaval.ca
Rappel Lois Importantes Test d’hypothèse Tests Importants Conclusion
La loi Multinomiale
Mult...
DAMASwww.damas.ift.ulaval.ca
Rappel Lois Importantes Test d’hypothèse Tests Importants Conclusion
Exemple1: U-tree, A. McC...
DAMASwww.damas.ift.ulaval.ca
Rappel Lois Importantes Test d’hypothèse Tests Importants Conclusion
Exemple2: représentation...
DAMASwww.damas.ift.ulaval.ca
Rappel Lois Importantes Test d’hypothèse Tests Importants Conclusion
Test d’hypothèse
D’une m...
DAMASwww.damas.ift.ulaval.ca
Rappel Lois Importantes Test d’hypothèse Tests Importants Conclusion
Exemple 1
Test d’indépen...
DAMASwww.damas.ift.ulaval.ca
Rappel Lois Importantes Test d’hypothèse Tests Importants Conclusion
Exemple 2
Test d’indépen...
DAMASwww.damas.ift.ulaval.ca
Rappel Lois Importantes Test d’hypothèse Tests Importants Conclusion
Schéma général
Les 4 éta...
DAMASwww.damas.ift.ulaval.ca
Rappel Lois Importantes Test d’hypothèse Tests Importants Conclusion
Risque de première et de...
DAMASwww.damas.ift.ulaval.ca
Rappel Lois Importantes Test d’hypothèse Tests Importants Conclusion
le test de χ2
Le princip...
DAMASwww.damas.ift.ulaval.ca
Rappel Lois Importantes Test d’hypothèse Tests Importants Conclusion
le test de χ2
Le princip...
DAMASwww.damas.ift.ulaval.ca
Rappel Lois Importantes Test d’hypothèse Tests Importants Conclusion
La loi de χ2
http://uplo...
DAMASwww.damas.ift.ulaval.ca
Rappel Lois Importantes Test d’hypothèse Tests Importants Conclusion
le test de χ2
d’adéquati...
DAMASwww.damas.ift.ulaval.ca
Rappel Lois Importantes Test d’hypothèse Tests Importants Conclusion
le test de χ2
d’adéquati...
DAMASwww.damas.ift.ulaval.ca
Rappel Lois Importantes Test d’hypothèse Tests Importants Conclusion
le test de χ2
d’homogéné...
DAMASwww.damas.ift.ulaval.ca
Rappel Lois Importantes Test d’hypothèse Tests Importants Conclusion
le test de χ2
d’indépend...
DAMASwww.damas.ift.ulaval.ca
Rappel Lois Importantes Test d’hypothèse Tests Importants Conclusion
le test de χ2
d’indépend...
DAMASwww.damas.ift.ulaval.ca
Rappel Lois Importantes Test d’hypothèse Tests Importants Conclusion
le test de χ2
d’indépend...
DAMASwww.damas.ift.ulaval.ca
Rappel Lois Importantes Test d’hypothèse Tests Importants Conclusion
Le test de Student
Ce te...
DAMASwww.damas.ift.ulaval.ca
Rappel Lois Importantes Test d’hypothèse Tests Importants Conclusion
le test de Student
Ce te...
DAMASwww.damas.ift.ulaval.ca
Rappel Lois Importantes Test d’hypothèse Tests Importants Conclusion
le test de Kolmogorov-Sm...
DAMASwww.damas.ift.ulaval.ca
Rappel Lois Importantes Test d’hypothèse Tests Importants Conclusion
le test de corrélation
O...
DAMASwww.damas.ift.ulaval.ca
Rappel Lois Importantes Test d’hypothèse Tests Importants Conclusion
le test de corrélation
À...
DAMASwww.damas.ift.ulaval.ca
Rappel Lois Importantes Test d’hypothèse Tests Importants Conclusion
Conclucion
Les projets d...
Prochain SlideShare
Chargement dans…5
×

Loic sarton presentation abdeslamtests

540 vues

Publié le

loic sarton

0 commentaire
0 j’aime
Statistiques
Remarques
  • Soyez le premier à commenter

  • Soyez le premier à aimer ceci

Aucun téléchargement
Vues
Nombre de vues
540
Sur SlideShare
0
Issues des intégrations
0
Intégrations
2
Actions
Partages
0
Téléchargements
21
Commentaires
0
J’aime
0
Intégrations 0
Aucune incorporation

Aucune remarque pour cette diapositive

Loic sarton presentation abdeslamtests

  1. 1. DAMASwww.damas.ift.ulaval.ca Outline Un Tutorial sur les Tests Statistiques Abdeslam Boularias Laboratoire DAMAS, Département d’informatique et de Génie Logiciel Université Laval 26 Janvier 2007 Un Tutorial sur les Tests Statistiques Abdeslam Boularias 1 / 41
  2. 2. DAMASwww.damas.ift.ulaval.ca Outline Outline 1 Rappel sur les Probabilités 2 Lois de Probabilités Importantes 3 Test d’hypothèse 4 Tests Statistiques Importants 5 Conclusion Un Tutorial sur les Tests Statistiques Abdeslam Boularias 2 / 41
  3. 3. DAMASwww.damas.ift.ulaval.ca Outline Outline 1 Rappel sur les Probabilités 2 Lois de Probabilités Importantes 3 Test d’hypothèse 4 Tests Statistiques Importants 5 Conclusion Un Tutorial sur les Tests Statistiques Abdeslam Boularias 2 / 41
  4. 4. DAMASwww.damas.ift.ulaval.ca Outline Outline 1 Rappel sur les Probabilités 2 Lois de Probabilités Importantes 3 Test d’hypothèse 4 Tests Statistiques Importants 5 Conclusion Un Tutorial sur les Tests Statistiques Abdeslam Boularias 2 / 41
  5. 5. DAMASwww.damas.ift.ulaval.ca Outline Outline 1 Rappel sur les Probabilités 2 Lois de Probabilités Importantes 3 Test d’hypothèse 4 Tests Statistiques Importants 5 Conclusion Un Tutorial sur les Tests Statistiques Abdeslam Boularias 2 / 41
  6. 6. DAMASwww.damas.ift.ulaval.ca Outline Outline 1 Rappel sur les Probabilités 2 Lois de Probabilités Importantes 3 Test d’hypothèse 4 Tests Statistiques Importants 5 Conclusion Un Tutorial sur les Tests Statistiques Abdeslam Boularias 2 / 41
  7. 7. DAMASwww.damas.ift.ulaval.ca Rappel Lois Importantes Test d’hypothèse Tests Importants Conclusion Rappel sur les Probabilités Variables aléatoires: La théorie des probabilités est l’ étude mathématiques des phénomènes incertains où aléatoires. Une variable aléatoire X est une fonction qui associe à chaque résultat d’une expérience aléatoire un nombre réel. L’ensemble des résultats d’une expérience est appelé l’ univers Ω. Exemple: Une variable aléatoire X qui traduit le résultat ω ∈ Ω du jet d’un dé en un nombre réel X(ω) ∈ {1, 2, 3, 4, 5, 6} Un Tutorial sur les Tests Statistiques Abdeslam Boularias 3 / 41
  8. 8. DAMASwww.damas.ift.ulaval.ca Rappel Lois Importantes Test d’hypothèse Tests Importants Conclusion Axiomes de Kolmogorov Axiomes de Kolmogorov: Une fonction P est dite une probabilité sur Ω ssi: Pour tout évènement A: 0 ≤ P(A) ≤ 1. P(Ω) = 1 Pour toute suite d’évènements deux à deux disjoints A1, A2, . . . , on a : P( ∞ i=0 Ai ) = ∞ i=0 P(Ai ) Un Tutorial sur les Tests Statistiques Abdeslam Boularias 4 / 41
  9. 9. DAMASwww.damas.ift.ulaval.ca Rappel Lois Importantes Test d’hypothèse Tests Importants Conclusion Règles élémentaires Règle de l’union: P(A∪B) = P(A)+P(B)−P(A∩B) Règle de la conditionnelle: P(A|B) = P(A ∩ B) P(B) Règle de l’intersection: P(A ∩ B) = P(B)P(A|B) Règle de Bayes: P(A|B) = P(B|A) P(A) P(B) Un Tutorial sur les Tests Statistiques Abdeslam Boularias 5 / 41
  10. 10. DAMASwww.damas.ift.ulaval.ca Rappel Lois Importantes Test d’hypothèse Tests Importants Conclusion Loi de probabilités et fonction de répartition: Pour une variable aléatoire discrete X: Une loi de probabilité f associe à chaque valeur a la probabilité PX (x = a). Pour une variable aléatoire continue X: Une fonction de répartition F associe à chaque valeur a la probabilité PX (x ≤ a). On a: F(a) = a −∞ f(t)dt Un Tutorial sur les Tests Statistiques Abdeslam Boularias 6 / 41
  11. 11. DAMASwww.damas.ift.ulaval.ca Rappel Lois Importantes Test d’hypothèse Tests Importants Conclusion L’espérance, la variance, et l’écart-type Soit X une variable aléatoire discrete: L’espérance mathématique de X: E(X) = x∈X(Ω) xP(x) La variance de X: V(X) = E((X − E(X))2 ) = x∈X(Ω) (x − E(X))2 P(x) L’écart type de X: δ = V(X) Un Tutorial sur les Tests Statistiques Abdeslam Boularias 7 / 41
  12. 12. DAMASwww.damas.ift.ulaval.ca Rappel Lois Importantes Test d’hypothèse Tests Importants Conclusion L’espérance, la variance, et l’écart-type Soit X une variable aléatoire continue: L’espérance mathématique de X: E(X) = ∞ −∞ xf(x)dx La variance de X: V(X) = E((X − E(X))2 ) = ∞ −∞ (x − E(X))2 f(x)dx L’écart type de X: δ = V(X) Un Tutorial sur les Tests Statistiques Abdeslam Boularias 8 / 41
  13. 13. DAMASwww.damas.ift.ulaval.ca Rappel Lois Importantes Test d’hypothèse Tests Importants Conclusion Loi des grands nombres La loi faible des grands nombres lim n→∞ P(| X1 + X2 + · · · + Xn n − E(X)| ≥ ) = 0 La loi forte des grands nombres lim n→∞ P( X1 + X2 + · · · + Xn n = E(X)) = 1 C’est à dire? L’approche fréquentiste est une bonne estimation des paramètres réels de la distribution. Un Tutorial sur les Tests Statistiques Abdeslam Boularias 9 / 41
  14. 14. DAMASwww.damas.ift.ulaval.ca Rappel Lois Importantes Test d’hypothèse Tests Importants Conclusion La loi uniforme discrete C’est quoi? C’est la loi des phénomènes où tous les évènements ont la même probabilité de se réaliser. Exemple: Le jet d’un dé non biaisé. On utilise cette distribution lorsqu’on connait rien sur la véritable distribution. Exemple: Dans un POMDP où on ne sait rien sur l’état de départ, on initialise l’état de croyance avec une distribution uniforme sur tous les états. ∀x ∈ X(Ω) : PX (x) = 1 |X(Ω)| E(X) = 1 |X(Ω)| x∈X(Ω) x Un Tutorial sur les Tests Statistiques Abdeslam Boularias 10 / 41
  15. 15. DAMASwww.damas.ift.ulaval.ca Rappel Lois Importantes Test d’hypothèse Tests Importants Conclusion La loi uniforme discrete, un exemple http://upload.wikimedia.org/wikipedia/commons/6/6f/DUniform_distribution_PDF.png http://upload.wikimedia.org/wikipedia/commons/6/6f/DUniform_distribution_PDF.png2007-01-23 18:09:33 http://upload.wikimedia.org/wikipedia/commons/c/c3/DUniform_distribution_CDF.png http://upload.wikimedia.org/wikipedia/commons/c/c3/DUniform_distribution_CDF.png2007-01-23 18:22:29 Un Tutorial sur les Tests Statistiques Abdeslam Boularias 11 / 41
  16. 16. DAMASwww.damas.ift.ulaval.ca Rappel Lois Importantes Test d’hypothèse Tests Importants Conclusion La loi uniforme continue Les valeurs de la variable aléatoire X sont dans un intervalle continu [a, b]. Les sous intervalles de même longeurs ont la même probabilité. ∀x ∈ [a, b] : PX (x) = 1 b − a ∀x ∈ [a, b] : FX (x) = x − a b − a E(X) = a + b 2 , V(X) = (b − a)2 12 Un Tutorial sur les Tests Statistiques Abdeslam Boularias 12 / 41
  17. 17. DAMASwww.damas.ift.ulaval.ca Rappel Lois Importantes Test d’hypothèse Tests Importants Conclusion La loi uniforme continue, un exemple http://upload.wikimedia.org/wikipedia/commons/9/9c/Uniform_distribution_PDF.png http://upload.wikimedia.org/wikipedia/commons/9/9c/Uniform_distribution_PDF.png2007-01-24 14:13:36 http://upload.wikimedia.org/wikipedia/commons/b/b7/Uniform_distribution_CDF.png http://upload.wikimedia.org/wikipedia/commons/b/b7/Uniform_distribution_CDF.png2007-01-24 14:15:12 Un Tutorial sur les Tests Statistiques Abdeslam Boularias 13 / 41
  18. 18. DAMASwww.damas.ift.ulaval.ca Rappel Lois Importantes Test d’hypothèse Tests Importants Conclusion La loi de Bernoulli La loi de Bernoulli: C’est la loi des deux évènements disjoints : Succés/Échec. Exemple: pile ou face, retirer une boule à partir d’une urne et vérifier si cette boule est rouge ou non. Le seul paramètre de cette loi est p, la probabilité de succés. P(x) = p si x = 1 1 − p si x = 0 E(X) = p, V(X) = p(1 − p) Un Tutorial sur les Tests Statistiques Abdeslam Boularias 14 / 41
  19. 19. DAMASwww.damas.ift.ulaval.ca Rappel Lois Importantes Test d’hypothèse Tests Importants Conclusion La loi Binomiale Une Binomiale= plusieurs Bernoulli On renouvelle n fois d’une manière indépendante, une expérience de Bernoulli de paramètre p, et on compte le nombre de succés. P(x = k) = Ck n pk (1 − p)n−k L’espérence E(X) est la somme des espérences, soit np La variance V(X) est la somme des variances, soit np(1 − p) Exemples: Répéter pile ou face n fois. Retirer n boules, avec remise, d’une urne qui contient une proportion p de boules rouges. Sans remise? Un Tutorial sur les Tests Statistiques Abdeslam Boularias 15 / 41
  20. 20. DAMASwww.damas.ift.ulaval.ca Rappel Lois Importantes Test d’hypothèse Tests Importants Conclusion La loi de Poisson On connait λ, le nombre de fois moyen qu’un certain évènement apparait pendant un certain intervalle de temps. Exemple 1: Une frigate attaquée par un MIG-29 reçoit en moyenne 1 missile/minute. Exemple 2: Dans une certaine route, il y’a en moyenne 2.5 voitures/seconde qui rentrent. Exemple 3: Pendant les trois mois d’Été à Québec, on a en moyenne 0.4 incendies/jour. Un Tutorial sur les Tests Statistiques Abdeslam Boularias 16 / 41
  21. 21. DAMASwww.damas.ift.ulaval.ca Rappel Lois Importantes Test d’hypothèse Tests Importants Conclusion La loi de Poisson On cherche: la probabilité d’avoir k évènements pendant cet intervalle de temps. C’est la loi de Poisson: P(k) = e−λ λk k! E(X) = λ, V(X) = λ On peut approximer une Binomiale B(n, p) par une loi de Poisson de paramètre λ = np lorsque n → ∞. Un Tutorial sur les Tests Statistiques Abdeslam Boularias 17 / 41
  22. 22. DAMASwww.damas.ift.ulaval.ca Rappel Lois Importantes Test d’hypothèse Tests Importants Conclusion La loi de Poisson, un exemple http://upload.wikimedia.org/wikipedia/commons/c/c1/Poisson_distribution_PMF.png http://upload.wikimedia.org/wikipedia/commons/c/c1/Poisson_distribution_PMF.png2007-01-24 16:39:01 http://upload.wikimedia.org/wikipedia/en/a/a2/PoissonCDF.png http://upload.wikimedia.org/wikipedia/en/a/a2/PoissonCDF.png2007-01-24 16:39:52 Un Tutorial sur les Tests Statistiques Abdeslam Boularias 18 / 41
  23. 23. DAMASwww.damas.ift.ulaval.ca Rappel Lois Importantes Test d’hypothèse Tests Importants Conclusion La loi Multinomiale Multinomiale = Généralisation de la Binomiale On lance un dé n fois, et on aimerai connaitre la probabilité d’observer x1 fois le 0, x2 fois le 2, x3 fois le 3, x4 fois le 4, x5 fois le 5, et x6 fois le 6. C’est la loi Multinomiale: P(X1 = x1, . . . , Xk = xk ) = n! x1!...xk ! px1 1 . . . pxk k si k i=1 xi = n 0 sinon E(Xi ) = npi , V(Xi ) = npi (1 − pi ) Une petite histoire de boules ... Une urne contient des boules rouges avec une proportion pr , des boules vertes, avec une proportion pv , et des boules bleus avec une proportion pb. On tire n boules avec remise, et on s’interesse à la probabilité d’avoir xr boules rouges, xv boules vertes, et xb boules bleus. Un Tutorial sur les Tests Statistiques Abdeslam Boularias 19 / 41
  24. 24. DAMASwww.damas.ift.ulaval.ca Rappel Lois Importantes Test d’hypothèse Tests Importants Conclusion Exemple1: U-tree, A. McCallum et al. 1995 0.30 0.30 0.30 0.30 0.30 0.30 0.35 0.25 0.30 0.30 0.40 0.30 0.25 0.35 0.30 0.30 0.20 0.30 Question: = ? O1 O1 O2 O1 O2 O2O1O1 O2 O2 O1 O1 O2 O1 O2 O2O1O1 O2 O2 O1 O1 O2 O1 O2 O2O1O1 O2 O2 O1 O2 Un Tutorial sur les Tests Statistiques Abdeslam Boularias 20 / 41
  25. 25. DAMASwww.damas.ift.ulaval.ca Rappel Lois Importantes Test d’hypothèse Tests Importants Conclusion Exemple2: représentations prédictive des états 52 Dépend de ? O1 O1 O2 O2 O2O1O1 O2 O2 O1 O1 O2 O2 O2O1O1 O2 O2 t1 t2 a1 a1 a2 a1 a2 a1 a1 a2 a1 a2 40 t1 81 t1 14 t1 12 t1 24 t2 19 t2 43 t2 6 t2 7 Une simulation…. …. et une question: Es-ce que t1 t2 Un Tutorial sur les Tests Statistiques Abdeslam Boularias 21 / 41
  26. 26. DAMASwww.damas.ift.ulaval.ca Rappel Lois Importantes Test d’hypothèse Tests Importants Conclusion Test d’hypothèse D’une manière générale: Un test statistique est une démarche consistant à accepter ou à rejeter une hypothèse (une conjecture) en se basant sur un échantillon de données. C’est une méthode rigoureuse car elle permet de distinguer les fluctuation stochastiques des variation réelles. L’hypothèse à vérifier est appelée: l’hpothèse nulle H0. On définie aussi une hypothèse alternative H1. Le résultat de test: Accepter H0 ou Rejeter H0 On distingue deux types de tests statistiques: Test d’homogénéité: On vérifie si deux échantillons de données ont la même loi de prababilités. Test de conformité: On vérifie si un échantillon de données est conforme à une certaine loi de prababilités qu’on a défini. Un Tutorial sur les Tests Statistiques Abdeslam Boularias 22 / 41
  27. 27. DAMASwww.damas.ift.ulaval.ca Rappel Lois Importantes Test d’hypothèse Tests Importants Conclusion Exemple 1 Test d’indépendance entre t1 et t2 Test/historique h1 h2 h3 h4 h5 t1 40 50 81 12 14 t2 19 24 43 6 7 Hypothèse H0: t2 dépend de t1. Hypothèse H1: t2 ne dépend de t1. Un Tutorial sur les Tests Statistiques Abdeslam Boularias 23 / 41
  28. 28. DAMASwww.damas.ift.ulaval.ca Rappel Lois Importantes Test d’hypothèse Tests Importants Conclusion Exemple 2 Test d’indépendance entre le salaire et le sexe de l’individu 1000-2000 2000-3000 3000-4000 4000-5000 Totale Hommes 50 70 110 60 290 Femmes 60 75 100 50 285 Total 110 145 210 110 575 Hypothèse H0: le salaire dépend de sexe. Hypothèse H1: le salaire ne dépend pas de sexe. Un Tutorial sur les Tests Statistiques Abdeslam Boularias 24 / 41
  29. 29. DAMASwww.damas.ift.ulaval.ca Rappel Lois Importantes Test d’hypothèse Tests Importants Conclusion Schéma général Les 4 étapes d’un tests statistiques: 1 Définir l’hypothèse H0 et l’hypothèse H1. 2 Calculer la variable de décision du test statistique choisi, cette variable mesure une distance entre les deux échantillions, ou entre l’échantillon et sa loi théorique supposée. 3 Calculer le risque de première espèce α. 4 Conclure le test en comparant α à αseuil . Un Tutorial sur les Tests Statistiques Abdeslam Boularias 25 / 41
  30. 30. DAMASwww.damas.ift.ulaval.ca Rappel Lois Importantes Test d’hypothèse Tests Importants Conclusion Risque de première et deuxième espèce Le risque de première espèce α est indique la probabilité de rejeter H0 dans le cas ou H0 est vrai (C’est la probabilité, lorsque H0 est vrai, d’obtenir une distance supérieur ou égale à celle qu’on a trouvé). Le risque de deuxième espèce β indique la probabilité d’accepter H0 dans le cas ou H0 est fausse. Décision/Vérité H0 H1 H0 1 − α β H1 α 1 − β α est souvent appelé "Le seuil de la signification du test". 1 − β est souvent appelé "La puissance du test". Un Tutorial sur les Tests Statistiques Abdeslam Boularias 26 / 41
  31. 31. DAMASwww.damas.ift.ulaval.ca Rappel Lois Importantes Test d’hypothèse Tests Importants Conclusion le test de χ2 Le principe: C’est le premier test à être proposé, et c’est toujours le plus utilisé. Basé sur le principe des moindres carrés. Les individus de l’échantillon doivent être des variables aléatoires indépendantes et identiquement distribués (iid). Si les variables aléatoires sont qualitatives ou discretes, alors on regroupe les individus dans des classes et on considère la fréquence de chaque classe. Exemple: On veut connaitre la cote de la popularité de G. W. Bush, on fait alors un sondage sur un certain échantillion de la population. On classifie les individus dans deux classe Pour ou Contre et on calcule la fréquence de chaque classe. Un Tutorial sur les Tests Statistiques Abdeslam Boularias 27 / 41
  32. 32. DAMASwww.damas.ift.ulaval.ca Rappel Lois Importantes Test d’hypothèse Tests Importants Conclusion le test de χ2 Le principe: La distance entre l’échantillon et la loi théoriques est donnée par: Distance = Individu i [(Valeur observée de i) − (Valeur attendue de i)]2 Valeur attendue de i C’est une somme des carrés de variables Gaussiennes centrées et réduites, X = k 1 X2 i avec Xi ∼ N(0, 1), alors X ∼ χ2 (k) On cherche α tel que P(X > Distance) ≤ α Un Tutorial sur les Tests Statistiques Abdeslam Boularias 28 / 41
  33. 33. DAMASwww.damas.ift.ulaval.ca Rappel Lois Importantes Test d’hypothèse Tests Importants Conclusion La loi de χ2 http://upload.wikimedia.org/wikipedia/commons/2/21/Chi-square_distributionPDF.png http://upload.wikimedia.org/wikipedia/commons/2/21/Chi-square_distributionPDF.png2007-01-25 23:42:40 http://upload.wikimedia.org/wikipedia/commons/c/cb/Chi-square_distributionCDF.png http://upload.wikimedia.org/wikipedia/commons/c/cb/Chi-square_distributionCDF.png2007-01-25 23:42:01 Un Tutorial sur les Tests Statistiques Abdeslam Boularias 29 / 41
  34. 34. DAMASwww.damas.ift.ulaval.ca Rappel Lois Importantes Test d’hypothèse Tests Importants Conclusion le test de χ2 d’adéquation La popularité de Bush?! Celui qui n’est pas avec nous est contre nous: C’est une loi de Bernoulli donc (Succés/Échec). Sur un premier échantillon, on a trouvé que 35% de la population est Pour (ppour = 0.35, pcontre = 0.65). Peut on conclure que la cote de popularité du Président est de 35% ? Si c’est le cas, alors le nombre de fans de Bush sur n personnes doit suivre une Binomiale de paramètres (n, 0.35) Un Tutorial sur les Tests Statistiques Abdeslam Boularias 30 / 41
  35. 35. DAMASwww.damas.ift.ulaval.ca Rappel Lois Importantes Test d’hypothèse Tests Importants Conclusion le test de χ2 d’adéquation Confrontons donc la théorie à la réalité: On prend un autre échantillon de taille n, on calcul le nombre npour de personnes Pour et ncontre de personnes contre. On calcul la somme suivante: distance = (npour − npour ppour )2 npour ppour + (ncontre − ncontrepcontre)2 ncontrepcontre Supposons que le résulat est Distance = 7, et que notre seuil de risque est de 5%. Sur la table de χ2 (1), on trouve que P(La vrai distance > 7) ≤ 0.01 < 0.05%. Donc on accepte l’hypothèse que: 35% des américains sont pour bush, et 65% contre. Un Tutorial sur les Tests Statistiques Abdeslam Boularias 31 / 41
  36. 36. DAMASwww.damas.ift.ulaval.ca Rappel Lois Importantes Test d’hypothèse Tests Importants Conclusion le test de χ2 d’homogénéité Bush est-il si populaire à Boston qu’à Texas?! Pour vérifier si les deux populations sont homogènes, on fait la même chose, sauf que le premier échantillon sera pris à partir d’une population, et le deuxième d’une autre population. On peut même se passer de calculer les probabilité: distance = (nBoston pour − nTexas pour )2 nTexas pour + (nBoston contre − nTexas contre)2 nTexas contre Un Tutorial sur les Tests Statistiques Abdeslam Boularias 32 / 41
  37. 37. DAMASwww.damas.ift.ulaval.ca Rappel Lois Importantes Test d’hypothèse Tests Importants Conclusion le test de χ2 d’indépendance Le salaire dépend-t-il du sexe de l’individu? (exemple pris de Wikipedia) 1000-2000 2000-3000 3000-4000 4000-5000 Totale Hommes 55.5 73.1 105.9 55.5 290 Femmes 54.5 71.9 104.1 54.5 285 Total 110 145 210 110 575 Un Tutorial sur les Tests Statistiques Abdeslam Boularias 33 / 41
  38. 38. DAMASwww.damas.ift.ulaval.ca Rappel Lois Importantes Test d’hypothèse Tests Importants Conclusion le test de χ2 d’indépendance On calcule la distance entre la population Homme et la population Femme de la même manière que dans le test de l’homogénéité: 1000-2000 2000-3000 3000-4000 4000-5000 Totale Hommes 0.54 0.13 0.16 0.37 1.20 Femmes 0.55 0.14 0.16 0.38 1.22 Total 1.09 0.27 0.32 0.74 2.42 Un Tutorial sur les Tests Statistiques Abdeslam Boularias 34 / 41
  39. 39. DAMASwww.damas.ift.ulaval.ca Rappel Lois Importantes Test d’hypothèse Tests Importants Conclusion le test de χ2 d’indépendance On a 3 variables indépendantes par colonne, et 1 variables indépendante par ligne, donc 3 degrés de liberté. Selon la table de χ2 (3), P(La vrai distance > 2.42) ≤ 0.05 On accepte l’hopothèse que le salaire ne dépend pas de sexe. Un Tutorial sur les Tests Statistiques Abdeslam Boularias 35 / 41
  40. 40. DAMASwww.damas.ift.ulaval.ca Rappel Lois Importantes Test d’hypothèse Tests Importants Conclusion Le test de Student Ce test sert à comparer les moyennes µ1 et µ2 de deux populations de loi Normal, et d’écart-type δ1, δ2. Exemple: On sait que le Q.I. suit une loi normale, on veut comparer les moyennes du Q.I. de deux groupes de la population. On l’utlise aussi pour comparer la moyenne de l’erreur d’une regression linéaire à une moyenne nulle. Lorsque les deux échantillons ont la même taille: Distance = µ1 − µ2 δ2 1 + δ2 2 Lorsque les deux échantillons ont des tailles N1, N2: Distance = µ1 − µ2 (N1−1)δ2 1 +(N2−1)δ2 2 N1+N2−2 ( 1 N1 + 1 N2 ) Un Tutorial sur les Tests Statistiques Abdeslam Boularias 36 / 41
  41. 41. DAMASwww.damas.ift.ulaval.ca Rappel Lois Importantes Test d’hypothèse Tests Importants Conclusion le test de Student Ce test sert à comparer les variances δ1 et δ2 de deux populations de loi Normal, et de moyenne µ1, µ2. Même principe que le test de Student Exemple: On sait que le Q.I. suit une loi normale, et on sait que les moyennes de deux groupes de la population sont égales, mais on veut savoir si les deux populations ont les mêmes variations. Distance = N1(N2 − 1)δ2 1 N2(N1 − 1)δ2 2 Un Tutorial sur les Tests Statistiques Abdeslam Boularias 37 / 41
  42. 42. DAMASwww.damas.ift.ulaval.ca Rappel Lois Importantes Test d’hypothèse Tests Importants Conclusion le test de Kolmogorov-Smirnov Utilisé pour les tests d’homogénéité: Déterminer si deux populations ont les même lois de probabilités F et G. Exemple: Les Q-valeurs dans les noeuds de deux arbres U-tree ont t-elles la même distribution de probabilité? Fn(x) = 1 n n 1 δyi ≤x avec δyi ≤x 1 si yi ≤ x 0 sinon et: Distance = sup x∈R |F(x) − G(x)| Un Tutorial sur les Tests Statistiques Abdeslam Boularias 38 / 41
  43. 43. DAMASwww.damas.ift.ulaval.ca Rappel Lois Importantes Test d’hypothèse Tests Importants Conclusion le test de corrélation On veut savoir si deux caractéristiques de la population sont reliées entre elle. Contrairement à chi2 , les deux carractéristiques sont quantitatives. Existe-t-il une relation entre la taille de l’individu et sont espérance de vie. Théoriquement, il faut que le paramètre p sont nulle pour conclure que les deux variables sont indépendantes. p = cov(X, Y) v(x)v(y) Tel que cov(X, Y) = E(X − E(X))E(Y − E(Y)) Un Tutorial sur les Tests Statistiques Abdeslam Boularias 39 / 41
  44. 44. DAMASwww.damas.ift.ulaval.ca Rappel Lois Importantes Test d’hypothèse Tests Importants Conclusion le test de corrélation À partir d’un échantillon de taille n, on peut estimer p par: R = n i=1(Xi − ¯X)(Yi − ¯Y) ( n i=1(Xi − ¯X)2)( n i=1(Yi − ¯Y)2) Un Tutorial sur les Tests Statistiques Abdeslam Boularias 40 / 41
  45. 45. DAMASwww.damas.ift.ulaval.ca Rappel Lois Importantes Test d’hypothèse Tests Importants Conclusion Conclucion Les projets de recherche au Damas portent sur des modèles stochastiques, les variables de ces modèles (Valeurs espérés, proba de transition ..) suivent des loi de probabilité. Tirer profit de ces lois afin de faire de meilleurs algorithmes de planification. Les tests statistiques est un outil puissant, très populaires dans beaucoups de domaines, mais peu utilisé en intelligence artificielle. On peut utiliser cet outil dans tous les problèmes d’apprentissage oû on veut comparer deux situations différentes: Réduction de l’espace des états, des actions . . . etc. Un Tutorial sur les Tests Statistiques Abdeslam Boularias 41 / 41

×