Version DRAFT d'une formation Data Scientist que j'ai conçue à partir de sources diverses (voir références bibliographiques à la fin de chaque diapositive).
La formation est destinée aux personnes possédant des bases (~BAC+2) en statistiques et programmation (j'utilise R).
Je reste ouvert à tout commentaire, critique et correction. Je continuerai à mettre à jour les diapositives et à en ajouter d'autres si j'ai le temps.
Ce test utilise tableau croisé (appelé aussi tableau de contingence) pour examiner la relation entre deux variables catégorielles. C’est un arrangement dans lequel les données sont classées selon deux variables catégorielles. Les catégories d'une variable apparaissent dans les lignes et les catégories de l'autre variable apparaissent dans les colonnes
Test de corrélation simple et test de Normalité Adad Med Chérif
La corrélation de Pearson, qui est un test paramétrique, sert à croiser 2 variables quantitatives discrètes ou continues ( valeurs mesurées à l’aide d’intervalles ou de rapport).
Analyse en composantes principales, ACP, sous SPSS (Principal Component Analy...Adad Med Chérif
Analyse en composantes principales (ACP) est une analyse statistique descriptive multivariée qu’on applique à un ensemble de variables initiales qu’ on veut réduire en quelques facteurs ou composantes (nouvelles variables). . Ces derniers sont aussi appelés axes. Elle consiste à synthétiser les données issues d’un croisement entre plusieurs variables numériques
Version DRAFT d'une formation Data Scientist que j'ai conçue à partir de sources diverses (voir références bibliographiques à la fin de chaque diapositive).
La formation est destinée aux personnes possédant des bases (~BAC+2) en statistiques et programmation (j'utilise R).
Je reste ouvert à tout commentaire, critique et correction. Je continuerai à mettre à jour les diapositives et à en ajouter d'autres si j'ai le temps.
Ce test utilise tableau croisé (appelé aussi tableau de contingence) pour examiner la relation entre deux variables catégorielles. C’est un arrangement dans lequel les données sont classées selon deux variables catégorielles. Les catégories d'une variable apparaissent dans les lignes et les catégories de l'autre variable apparaissent dans les colonnes
Test de corrélation simple et test de Normalité Adad Med Chérif
La corrélation de Pearson, qui est un test paramétrique, sert à croiser 2 variables quantitatives discrètes ou continues ( valeurs mesurées à l’aide d’intervalles ou de rapport).
Analyse en composantes principales, ACP, sous SPSS (Principal Component Analy...Adad Med Chérif
Analyse en composantes principales (ACP) est une analyse statistique descriptive multivariée qu’on applique à un ensemble de variables initiales qu’ on veut réduire en quelques facteurs ou composantes (nouvelles variables). . Ces derniers sont aussi appelés axes. Elle consiste à synthétiser les données issues d’un croisement entre plusieurs variables numériques
ANOVA à 1 facteur, Analyse de variance, (One-way ANOVA)Adad Med Chérif
Dans ce tutoriel, il s’agit de montrer comment peut-on procéder à l’analyse ANOVA à 1 facteur entre des échantillons indépendants par le biais du logiciel SPSS et quels sont les résultats à mettre sur le rapport final ?
SPSS est un outil puissant, efficace et assez facile à manipuler. Ce logiciel sert à faire des analyses statistiques (ANOVA, ACP, ANCOVA etc.). Il nous évite de faire des calculs longs et fastidieux. Les résultats sont très explicites et bien mis en forme, ils apparaissent dans des tableaux et sous formes de graphes
Un réseau de neurones artificiels ou Neural Network est un système informatique s’inspirant du fonctionnement du cerveau humain pour apprendre. Découvrez tout ce que vous devez savoir sur cette technologie d’intelligence artificielle de la famille du Deep Learning.
T test sur des échantillons appariés avec test de normalité Adad Med Chérif
Analyse de T test sur des échantillons apparié. L'échantillon aléatoire de la population. Deux échelles de mesure pour chaque individu. La distribution des diverses mesures (Avant et après) est assez normale ( pas parfaitement normale) avec homogénéité des variances
Visual Explanation of Ridge Regression and LASSOKazuki Yoshida
Ridge regression and LASSO are regularization techniques used to address overfitting in regression analysis. Ridge regression minimizes residuals while also penalizing large coefficients, resulting in all coefficients remaining in the model. LASSO also minimizes residuals while penalizing large coefficients, but performs continuous variable selection by driving some coefficients to exactly zero. Both techniques involve a tuning parameter that controls the strength of regularization. Cross-validation is commonly used to select the optimal tuning parameter value.
Samira OUKARFI Statistique Descriptive S1 Economie Gestion
Tableaux statistiques à un caractère
Tableaux statistiques à deux caractères
Paramètres
Représentation graphique
Version DRAFT d'une formation Data Scientist que j'ai conçue à partir de sources diverses (voir références bibliographiques à la fin de chaque diapositive).
La formation est destinée aux personnes possédant des bases (~BAC+2) en statistiques et programmation (j'utilise R).
Je reste ouvert à tout commentaire, critique et correction. Je continuerai à mettre à jour les diapositives et à en ajouter d'autres si j'ai le temps.
Scala: Pattern matching, Concepts and ImplementationsMICHRAFY MUSTAFA
In the following slides, we attempt to present the pattern matching and its implementation in Scala.
The concepts introduced are: Basic pattern matching, Pattern alternative, Pattern guards, Pattern matching and recursive function, Typed patterns, Tuple patterns, Matching on option, Matching on immutable collection, Matching on List, Matching on case class, Nested pattern matching in case classes, and
Matching on regular expression.
ANOVA à 1 facteur, Analyse de variance, (One-way ANOVA)Adad Med Chérif
Dans ce tutoriel, il s’agit de montrer comment peut-on procéder à l’analyse ANOVA à 1 facteur entre des échantillons indépendants par le biais du logiciel SPSS et quels sont les résultats à mettre sur le rapport final ?
SPSS est un outil puissant, efficace et assez facile à manipuler. Ce logiciel sert à faire des analyses statistiques (ANOVA, ACP, ANCOVA etc.). Il nous évite de faire des calculs longs et fastidieux. Les résultats sont très explicites et bien mis en forme, ils apparaissent dans des tableaux et sous formes de graphes
Un réseau de neurones artificiels ou Neural Network est un système informatique s’inspirant du fonctionnement du cerveau humain pour apprendre. Découvrez tout ce que vous devez savoir sur cette technologie d’intelligence artificielle de la famille du Deep Learning.
T test sur des échantillons appariés avec test de normalité Adad Med Chérif
Analyse de T test sur des échantillons apparié. L'échantillon aléatoire de la population. Deux échelles de mesure pour chaque individu. La distribution des diverses mesures (Avant et après) est assez normale ( pas parfaitement normale) avec homogénéité des variances
Visual Explanation of Ridge Regression and LASSOKazuki Yoshida
Ridge regression and LASSO are regularization techniques used to address overfitting in regression analysis. Ridge regression minimizes residuals while also penalizing large coefficients, resulting in all coefficients remaining in the model. LASSO also minimizes residuals while penalizing large coefficients, but performs continuous variable selection by driving some coefficients to exactly zero. Both techniques involve a tuning parameter that controls the strength of regularization. Cross-validation is commonly used to select the optimal tuning parameter value.
Samira OUKARFI Statistique Descriptive S1 Economie Gestion
Tableaux statistiques à un caractère
Tableaux statistiques à deux caractères
Paramètres
Représentation graphique
Version DRAFT d'une formation Data Scientist que j'ai conçue à partir de sources diverses (voir références bibliographiques à la fin de chaque diapositive).
La formation est destinée aux personnes possédant des bases (~BAC+2) en statistiques et programmation (j'utilise R).
Je reste ouvert à tout commentaire, critique et correction. Je continuerai à mettre à jour les diapositives et à en ajouter d'autres si j'ai le temps.
Scala: Pattern matching, Concepts and ImplementationsMICHRAFY MUSTAFA
In the following slides, we attempt to present the pattern matching and its implementation in Scala.
The concepts introduced are: Basic pattern matching, Pattern alternative, Pattern guards, Pattern matching and recursive function, Typed patterns, Tuple patterns, Matching on option, Matching on immutable collection, Matching on List, Matching on case class, Nested pattern matching in case classes, and
Matching on regular expression.
Ce étude vise à présenter la platforme Spark et les opérations (Transformation et Action) d'une RDD. Les points abordés sont Spark motivation, Positionnement de Spark dans l'écosystème BigData, Composants de Spark, Drivers et Workers, RDD & caractéristiques, vue logique de spark, vue globale sur les APIs Spark (dépendance et interaction), les différentes opérations de spark. Chaque opération est sur une fiche (objectif, signature, "à retenir" et exemple de code).
Apache SPARK ML : principes, concepts et mise en œuvre MICHRAFY MUSTAFA
Cette étude vise à présenter les concepts et les étapes pour la mise en œuvre d’une méthode d’apprentissage dans le cadre de Spark ML (API de méthodes d'apprentissage en SPARK) :
1. Spark ML : motivations
2. Transformateurs et estimateurs
3. Concepts de Pipeline
4. Évaluation d’une méthode d’apprentissage
5. Validation croisée et sélection des variables
6. Mise en œuvre des concepts sous Spark ML
Point sur la situation alimentaire au sahel (psa)Fatimata Kone
Point sur la Situation Alimentaire au Sahel (PSA)
Bulletin mensuel d’information sur le prix des céréales: Niger -Mali -Burkina Faso
Suivi de campagne n°154-février 2014
Este documento presenta indicadores sobre la estructura y situación del sistema educativo mexicano en 2013. Contiene información sobre la población objetivo, cobertura, acceso, trayectoria escolar, recursos, gasto y resultados educativos a nivel básico y medio superior. El documento fue publicado por el Instituto Nacional para la Evaluación de la Educación y provee datos estadísticos de referencia para monitorear el desempeño y progreso del sistema educativo nacional.
El documento resume los principales estilos y artistas del Barroco en Italia, Holanda y Flandes. En Italia, el documento discute el tenebrismo de Caravaggio y el clasicismo de Carracci. En Holanda, se mencionan a Rembrandt, Vermeer y Frans Hals. En Flandes, el documento cubre a Rubens y Van Dyck. Ejemplos clave de obras de cada artista se enumeran para ilustrar sus estilos.
El poema habla sobre la amistad y lo que un amigo puede y no puede hacer por otro. Un amigo puede escuchar y compartir, estar presente en los momentos difíciles pero no puede cambiar el pasado o futuro de otro ni evitar que sufran. Aunque no pueden quitar el dolor, pueden llorar juntos. Lo más importante es aceptar al otro tal como es y brindar amor incondicional.
XCIII ASAMBLEA PLENARIA DE LA CONFERENCIA EPISCOPAL ESPAÑOLAMaestroPedro .
El documento presenta el discurso inaugural del Cardenal Rouco Varela en la XCIII Asamblea Plenaria de la Conferencia Episcopal Española. Habla sobre la llegada de la Cruz de las Jornadas Mundiales de la Juventud a España de cara a la celebración en Madrid en 2011, y el Año Sacerdotal convocado por el Papa Benedicto XVI del 19 de junio de 2009 al 19 de junio de 2010 en conmemoración del Cura de Ars.
El documento resume varios temas relacionados con la Unión Europea, incluyendo la Europa de los jóvenes y el programa Erasmus, la Europa del cine y su apoyo a la industria cinematográfica, la Europa del deporte y las competiciones europeas, y la Europa de la creatividad y la innovación. También discute brevemente sobre política en Europa, incluyendo los desafíos de la distancia entre las palabras y los hechos de los políticos. Finalmente, presenta la visión de Cantabria para el futuro, centrándose en temas como
Este documento resume las principales ideas de una presentación sobre ciencias, ingeniería y gestión de servicios. Brevemente describe las disciplinas de ciencia de servicios, ingeniería de servicios y gestión de servicios. También menciona las perspectivas multi e interdisciplinarias requeridas y la importancia de las tecnologías de la información para la economía de servicios.
Este documento presenta el programa de las Primeras Jornadas Internacionales de Derecho Natural que se llevarán a cabo del 18 al 21 de octubre de 2005. El objetivo es discutir problemas morales y sociales contemporáneos a la luz de los principios del orden natural. Se contará con la participación de expertos nacionales y extranjeros. Además, se fundará la Sociedad Chilena de Derecho Natural para promover el estudio de esta disciplina.
El documento habla sobre una palomita que es feliz a pesar de no saber lo que es el dinero, insinuando que el dinero no es lo más importante en la vida. También menciona cheques, sugiriendo que hay otras formas de intercambiar valor además del dinero en efectivo.
El documento describe las características principales del arte románico, incluyendo su arquitectura, pintura y escultura. La arquitectura románica se caracteriza por plantas de cruz latina con naves, ábsides y bóvedas de cañón soportadas por pilares. La pintura y escultura románicas se enfocan en temas religiosos como Jesús, la Virgen y los santos y están subordinadas a la arquitectura para ocupar espacios específicos. Buscan fines didácticos para enseñar la
El documento presenta información sobre conceptos contables como el balance general, la cuenta de resultados, el activo circulante neto y el flujo de caja. Explica que el balance general muestra la situación financiera de una empresa en una fecha determinada, la cuenta de resultados mide los ingresos y gastos durante un período, y el flujo de caja es importante para analizar los movimientos reales de efectivo de la empresa. También incluye ejemplos del balance y la cuenta de resultados de la compañía U.S. Composite Corporation.
Une introduction à la géométrie de l'informationFrank Nielsen
These are the slide deck in french of a 40 minute lecture given at College de France on 23 February 2022 in the curriculum "Information and Complexity" of Prof. Stephane Mallat. https://www.college-de-france.fr/site/stephane-mallat/seminar-2022-02-23-11h15.htm
Si la baisse de la productivité est effective dans toutes les économies développées... elle est particulièrement marquée en France. Au niveau national, cet essoufflement touche tous les secteurs, et plus particulièrement celui de l’industrie, usuellement caractérisé par des gains de productivité élevés. Depuis la crise Covid, le secteur industriel contribue pour 35 % environ à cette perte, alors qu’il ne représente que 9,3 % de la valeur ajoutée nationale brute en 2023. Dans ce contexte, est-il possible de mener une politique de réindustrialisation du pays sans y associer un objectif de hausse des gains de productivité ?Non rappelle ce Cube. Au contraire, ces deux objectifs, jusqu’alors indépendants l’un de l’autre, sont désormais deux défis à relever conjointement. En analysant les différents explications à la baisse de celle-ci observée en France et dans les autres économies développées, ce Cube suggère que l’augmenter en parallèle d’une politique de réindustrialisation sous-entend une réallocation des facteurs de production vers les entreprises industrielles à fort potentiel. Elle suppose également une une meilleure affectation des ressources.
Dans un contexte où la transmission et l'installation d'agriculteurs sont des enjeux cruciaux pour la profession agricole, de nouveaux agriculteurs s'installent chaque année et, parmi eux, certains Bac+5 ou plus. Les cursus des écoles d'ingénieurs n'ont pas vocation à former de futurs agriculteurs. Pourtant, certains apprenants ayant suivi ces cursus BAC + 5, qu'ils soient ou non issus du milieu agricole, tentent l'aventure de l'entrepreneuriat agricole. Qui sont-ils ? Quelles sont leurs motivations et visions ? Comment travaillent-ils ?
2. Plan
• Introduction
• Régression simple
• Estimation des paramètres
• Validation du modèle
• Intervalle de confiance
• Commande R pour la régression simple
• Formules mathématiques
• Loi Student : Rappel
M. MICHRAFY & B. KOUAKOU datascience.km@gmail.com
3. Prérequis
• Connaissance de l’algèbre linéaire
• Notions en optimisation mathématique
• Connaissance de la statistique de test
M. MICHRAFY & B. KOUAKOU datascience.km@gmail.com
4. Introduction 1
• Qu’est-ce la régression ?
La régression est un ensemble de méthodes statistiques servant à analyser la
relation entre une variable Y et une (ou plusieurs autres) variable(s) X.
Exemple : établir la relation entre la taille d’une personne (variable expliquée)
et son poids (variable explicative).
• Qu’est-ce qu’un modèle de régression ?
C’est une équation visant à représenter la relation entre les variables X et Y :
Y = f(X) + ߝ
• Qu’est-ce qu’une variable explicative ?
C’est la variable connue X utilisée pour prédire la variable Y.
• Qu’est qu’une variable expliquée ?
C’est la variable Y (inconnue) dont on veut déterminer (prédire) la valeur à
partir des valeurs de X
M. MICHRAFY & B. KOUAKOU datascience.km@gmail.com
5. Introduction 2
• Qu’est-ce que le résidu ?
C’est la marge d’erreur ou d’imprécision du modèle ; (elle est désignée
par ߝ dans l’équation du modèle précédent).
• Qu’est-ce la régression linéaire ?
C’est d’abord un modèle de régression.
De plus, il est fait l'hypothèse que la fonction qui relie les variables
explicatives à la variable expliquée est linéaire dans ses paramètres.
Exemple : Y = ߚଵx + ߚ + ߝ.
• Qu’est-ce que la régression linéaire simple.
C’est un modèle de régression où la relation entre la variable
expliquée Y et la variable explicative X est réduite à : Y = ߚଵx + ߚ + ߝ.
M. MICHRAFY & B. KOUAKOU datascience.km@gmail.com
6. Régression Simple
• Vise à mettre en relation une variable Y à expliquer et une
variable explicative X.
• Pour chaque valeur x1, x2, …xn de X, on observe (prédit)
les valeurs correspondantes y1, y2, …yn.
• On postule l’existence d’une relation E(Y) = ߚଵx + ߚ.
• Elle est équivalente, à : Y = ߚଵx + ߚ + ߝ avec E(ߝ)=0.
• On cherche des estimateurs ߚଵ
et ߚ
de ߚଵ et ߚ .
M. MICHRAFY & B. KOUAKOU datascience.km@gmail.com
7. Méthodes de calcul des estimateurs
• Quelques méthodes pour calculer les estimateurs.
• La méthode des moindres carrés ordinaires, MCO :
Consiste à rechercher les paramètres a et b minimisant les
différences : ∑ ሺݕ െ ߚ
െ ߚଵ
ݔሻଶ
ୀଵ
Elle sera utilisée dans la suite de ce document
• La méthode du Maximum de vraisemblance
• La méthode par inférence bayésienne
M. MICHRAFY & B. KOUAKOU datascience.km@gmail.com
8. Méthode des moindres carrés Ordinaires
(MCO)
Notation :
ݕො ൌ ߚ
ߚଵ
ݔla droite qui ajuste le nuage de points (ߚ
et ߚଵ
sont les
estimateurs calculés).
ݕഥ ൌ
∑ ௬
, la moyenne des ݕ .
ܴܵܥ ൌ ∑ ሺݕ െ ݕොሻଶ
, la somme des carrés résiduels
ܵܧܥ ൌ ∑ ሺݕො െ ݕതሻଶ
, la somme des carrés expliqués.
SCT = ∑ ሺݕ െ ݕതሻଶ
, la somme des carrés totaux :
M. MICHRAFY & B. KOUAKOU datascience.km@gmail.com
9. MCO (Régression avec constante)
Régression avec constante (ߚଵ et ߚ sont non nulls)
SCT = SCE + SCR, i.e.
∑ ሺݕ െ ݕതሻଶ
ൌ ∑ ሺݕො െ ݕതሻଶ ∑ ሺݕ െ ݕොሻଶ
.
• Interpretation des quantités:
SCR est la somme des carrés totaux. Elle traduit la variabilité totale de Y.
Permet de d’apprécier l'information disponible dans les données.
SCE est la somme des carrés expliqués. Elle indique la variation de Y
expliquée par X. on parle alors de Variabilité expliquée.
SCR est somme des carrés résiduels. Elle indique l'écart entre les valeurs
observées de Y et celles prédites par le modèle. On parle de variabilité non-
expliquée.
M. MICHRAFY & B. KOUAKOU datascience.km@gmail.com
10. MCO (Régression avec constante)
• Meilleur des cas.
SCR = 0 et donc SCT = SCE.
les variations de Y sont complètement expliquées par celles de X.
On a un modèle parfait.
La droite de régression passe exactement par tous les points du
nuage, puisque ݕො ൌ ݕ.
• Pire Cas.
SCE= 0:
X n'apporte aucune information sur Y. Ainsi, ݕො ൌ ݕത.
Ainsi, la meilleure prédiction de Y est sa propre moyenne.
M. MICHRAFY & B. KOUAKOU datascience.km@gmail.com
11. MCO (avec constante) Coefficient de
détermination R
Le coefficient ࡾ
est un indicateur de synthèse.
Il est défini par ܴଶ
ൌ
ௌா
ௌ்
ൌ 1 െ
ௌோ
ௌ்
.
Il indique la proportion de variance de Y expliquée par le modèle.
Le coefficient R est compris entre 0 et 1
Plus il sera proche de la valeur 1, meilleur sera le modèle.
Ainsi, la connaissance des valeurs de X permet de prédire avec
davantage de précision la valeur de Y.
ܴଶ
proche de 0 indique que X n'apporte pas d'informations utiles
(intéressantes) sur Y ; la connaissance des valeurs de X ne nous dit
rien sur celles de Y.
M. MICHRAFY & B. KOUAKOU datascience.km@gmail.com
12. MCO : Coefficient de corrélation linéaire
multiple
Il est noté R
Il est défini par R ൌ ܴଶ.
• Pour la régression simple (uniquement), on montre qu'il
est égal (au signe près) au coefficient de corrélation ݎ௬௫ de
Pearson : ݎ௬௫ୀ௦ ො ൈோ.
M. MICHRAFY & B. KOUAKOU datascience.km@gmail.com
13. Hypothèses
• Ces hypothèses ont un impact sur les propriétés des
estimateurs (biais, convergence) et l'inférence statistique
(distribution des coefficients estimés).
• H1 : Hypothèses sur Y et X.
X et Y sont des grandeurs numériques mesurées sans erreur.
X est une donnée exogène supposée non aléatoire.
Y est aléatoire par l'intermédiaire de ߝ.
• H2 : Hypothèses sur ࢿ.
Les ߝ sont indépendants et identiquement distribués.
M. MICHRAFY & B. KOUAKOU datascience.km@gmail.com
14. Hypothèses 2
• H2.1 E(ߝ) = 0, en moyenne les erreurs s'annulent, donc
le modèle est bien spécifié.
• H2.2 hypothèse d'homoscédasticité :
V (ߝ) =ߪఌ
ଶ () : la variance de l'erreur est constante (ne dépend pas
de l'observation).
La variance du bruit (erreur) ne doit dépendre ni des valeurs de la
variable à expliquer, ni des valeurs des variables explicatives
• H2.3 L'erreur est indépendante de la variable exogène,
ainsi COV (ݔ, ߝ) = 0.
M. MICHRAFY & B. KOUAKOU datascience.km@gmail.com
15. Hypothèses 3
• H2.4 Indépendance des erreurs.
Les erreurs de 2 observations sont indépendantes :
COV(ߝ, ߝ) = 0 ; donc "non auto-corrélation des erreurs".
Le bruit doit être un «vrai» bruit (pas de structure de
corrélation évidente)
• H2.5 Hypothèse de normalité : ߝ ≡ N(0; ߪఌ).
Primordiale pour l'inférence statistique.
M. MICHRAFY & B. KOUAKOU datascience.km@gmail.com
16. Hypothèse pour la validation du modèle
(rappel et synthèse)
• Le modèle de la régression linéaire simple suppose que :
1. Modèle bien spécifié :
En moyenne les erreurs s’annulent i.e. ࡱ ࢿ ൌ , ൌ . .
2. Homoscédasticité :
La variance des erreurs est une constante i.e. ࢂ ࢿ ൌ ࣌
, ൌ …
3. Indépendance des observations :
Les erreurs ne dépend pas du variable explicative.
. ࢋ. ࡻࢂ ࢞, ࢿ ൌ , ൌ …
4. Non auto-corrélation des erreurs
Les erreurs relatives à deux observations sont indépendantes
. ࢋ. ۱܄۽ ઽܑ, ઽܑ ൌ , ܑ, ܒ ൌ … ܑ ܜ܍ ܖ ് ܒ
5. Normalité des erreurs
Les erreurs sont issues d’une loi gaussienne
i.e. ࢿ ≡ ࡺ , ࣌ , ൌ . .
M. MICHRAFY & B. KOUAKOU datascience.km@gmail.com
17. Hétéroscédasticité des erreurs
• Dans ce cas, les erreurs dépendent du variable
explicative.
• Les conséquences sont :
Estimateur sans bais.
Estimateur n’est plus à variance minimale
• Les causes peuvent être :
Les moyennes des observations sont obtenues à partir de
différents échantillons.
L’association de la même valeur de la variable à expliquer aux
différentes valeurs de la variable explicative.
Certaines valeurs de la variable explicative sont entachées
d’erreur.
M. MICHRAFY & B. KOUAKOU datascience.km@gmail.com
18. Auto-corrélation des erreurs
• Les conséquences sont :
Estimateur sans bais.
Estimateur n’est plus à variance minimale.
• Les causes d’auto-corrélation peuvent être :
Absence d’une variable explicative importante.
Modèle linéaire n’est pas adapté.
Lissage par moyenne mobile ou par interpolation.
M. MICHRAFY & B. KOUAKOU datascience.km@gmail.com
19. Hypothèse Homoscédasticité
• Pour vérifier l’hypothèse d’homoscédasticité, on peut tracer
le graphe ݔ, ܧ ݑ ܻ, ܧ .
• 3 cas possibles
La variance se comporte comme un vrai bruit : hypothèse vérifiée .
La variance augmente en fonction de ݔ ou ܻ : hypothèse non vérifiée.
Une structure ”particulière” du nuage de points du graphe des résidus :
hypothèse non vérifiée.
M. MICHRAFY & B. KOUAKOU datascience.km@gmail.com
20. Hypothèse de normalité
• Pour tester la normalité des résidus, on peut utiliser :
Un histogramme.
Un graphique de probabilité normal des résidus.
Un test de normalité (Shapiro-Wilk, Anderson-Darling, Kolmogorov-
Smirnov) dans le cas ou le nombre d’observations est assez important.
M. MICHRAFY & B. KOUAKOU datascience.km@gmail.com
21. Hypothèse de Non auto-corrélation
• On peut tester la non auto-corrélation des résidus en:
Traçant le graphique des résidus, la présence d’une structure
particulière ou une courbe montre que les résidus contiennent des
informations du modèle i.e. le modèle est inapproprié.
Réalisant le test non paramétrique de Durbin-Watson
M. MICHRAFY & B. KOUAKOU datascience.km@gmail.com
22. Évaluation des estimateurs.
• 2 propriétés importantes lors l'évaluation d'un estimateur
ߠ.
L’estimateur est-il sans biais, c.-à-d. en moyenne,
obtenons-nous la vraie valeur du paramètre ?
ܧ ߠ ൌ ߠ ?
L’estimateur est-il convergent, c.-à-d. à mesure que la
taille de l'échantillon augmente, l'estimation devient-elle
de plus en plus précise ?
M. MICHRAFY & B. KOUAKOU datascience.km@gmail.com
23. Évaluation des estimateurs
Biais de ߚଵ
et ߚ
.
Pour la méthode MCO,ߚଵ
et ߚ
sont sans biais, si et seulement si :
1. (H1) L'exogène X n'est pas stochastique (X est non aléatoire) ;
2. (H2.1) ܧሺߝሻ = 0, l'espérance de l'erreur est nulle.
Ainsi sous ces hypothèses, nous avons : ܧሺߚଵ
ሻ ൌ ߚଵet ܧሺߚ
ሻ ൌ ߚ.
M. MICHRAFY & B. KOUAKOU datascience.km@gmail.com
24. Évaluation des estimateurs
Convergence.
L'estimation devient-elle de plus en plus précise quand la taille de
l’échantillon augmente ?
• 1. Un estimateur ߠ sans biais de ߠ est convergent si et
seulement si ܸሺߠሻ
→ஶ
0.
ܸ ߚଵ
ൌ ܧሺߚଵ
െ ߚଵሻଶ.
M. MICHRAFY & B. KOUAKOU datascience.km@gmail.com
25. Évaluation des estimateurs
Convergence : Rappel des hypothèses.
H2.2, (homoscédasticité) : la variance de l’erreur est constante, i.e. ܧ ߝ
ଶ
ൌ ܸ ߳ ൌ ߪఌ
ଶ
H2.4 (non autocorrélation des erreurs) : ܸܱܥ ߝߝ ൌ ܧ ߝߝ ൌ 0.
• Sous les hypthèses H2.2 et H2.4 :
ܸሺߚଵሻ ൌ
ఙഄ
మ
∑ ሺ௫ି௫̅ሻమ
et ܸሺߚሻ ൌ ߪఌ
ଶ
ሾ
ଵ
௫̅
∑ ௫ି௫̅
మ
ሿ
Consequence :
ߚଵ
est un estimateur convergent de a, puisque ܸሺߚଵ
) tend vers l’infini pour des
échantillons de grande taille.
ߚ est un estimateur convergent de ߚ.
M. MICHRAFY & B. KOUAKOU datascience.km@gmail.com
26. Évaluation des estimateurs
Bilan des formules de la variance:
• Une faible variance de l'erreur implique que la régression est de bonne
qualité.
• Une forte dispersion des X implique que les points recouvrent bien l'espace
de représentation.
• Le nombre d'observations n est élevé.
M. MICHRAFY & B. KOUAKOU datascience.km@gmail.com
27. Commande R : analyse du modèle
• model <- lm(formula=y~x) data=donnee.csv) :
établir un modèle de régression linéaire simple, x est le prédicteur et y
est la variable à expliquer.
• Names(model)
[1] "coefficients" "residuals" "effects" "rank“
[5] "fitted.values" "assign" "qr" "df.residual"
[9] "xlevels" "call" "terms" "model"
• model$coef : le vecteur ߚመ ሺ ߚ, ߚଵሻ
• model$res : le vecteur résidus ܧ ൌ ܻ െ ܻ
• model$fitted : le vecteur estimé ܻ
• model$df.residual : le nombre des dll des résidus
M. MICHRAFY & B. KOUAKOU datascience.km@gmail.com
28. Test de significativité
• Objectif:
• Répondre à la question :
La régression est-elle globalement significative ?
Ou encore la variable X emmène-t-elle significativement de
l'information sur Y , permettant de construire une relation linéaire
réelle dans la population?
M. MICHRAFY & B. KOUAKOU datascience.km@gmail.com
29. Test de significativité (1)
• ANOVA (Analysis Of Variance).
comparer (analyser) les variances, pour tester la significativité
statistique entre des moyennes.
F =
ࡿࡾ
ࡿࡱ
ష
désigne l’équivalent du F-ratio de l’ANOVA.
F =
࣑ሺሻ
࣑ሺషሻ
ష
ൌ ࣠ሺ, െ ሻ, sous l’hypothèse H0. F suit donc une loi
de Fisher.
M. MICHRAFY & B. KOUAKOU datascience.km@gmail.com
30. Test de significativité (2)
• Région critique, R.C, du test
RC est La règle de décision au risque ࢻ.
RC correspond au rejet de H0.
RC au risque ࢻ est définie pour les valeurs anormalement élevées
de F, i.e. R.C. : ࡲ ऐିࢻሺ, െ ሻ
• Soit ߙᇱ la p-value, i.e. la probabilité que la loi de Fisher dépasse la
statistique calculée F ; ߙᇱ est aussi appelée probabilité critique.
Alors, la règle de décision au risque ࢻ devient :
R.C. : ߙᇱ
൏ ߙ
M. MICHRAFY & B. KOUAKOU datascience.km@gmail.com
31. Intervalle de confiance : intérêt
• L'intervalle de confiance permet d'encadrer un indicateur (
moyenne, variance, etc.) avec une probabilité associée.
• On dit que l’intervalle de confiance I est associé à l’indicateur
rho avec une probabilité alpha si :
(1 - alpha)% des indicateurs rho calculés sont contenu dans
l’intervalle de confiance I
alpha% des indicateurs rho calculés à travers les expériences
réalisées ne se trouvent pas dans l’intervalle de confiance I.
• Réduire le risque -diminuer la valeur de alpha- ne fait que
augmenter l'amplitude de l intervalle de confiance.
• Un compromis entre la qualité de l’intervalle et le niveau de
risque consiste à prendre alpha = 0.05
M. MICHRAFY & B. KOUAKOU datascience.km@gmail.com
32. Intervalle de confiance : résultats (1)
• Resultat 1 : la statistique
ࢼ
ି ࢼ
ࡿࡱࡾ
ష
ା
ࢄഥ
ࡿࢄ
suit une loi de
Student à n - 2 degrés de liberté.
• Resultat 2 : la statistique
ࢼ
ି ࢼ
ࡿࡱࡾ
ష ࡿࢄ
ൗ
suit une loi de
Student à n – 2 degrés de liberté.
M. MICHRAFY & B. KOUAKOU datascience.km@gmail.com
33. Intervalle de confiance : resultats(2)
• Résultat 3 : un intervalle de confiance de ߚ ݆ ݎݑ ൌ 1,2
est donné par :
ߚ െ ݐ ିଶ ଵିఈ
ଶൗ ఙෝഁೕ
ߚ ݐ ିଶ ଵିఈ
ଶൗ ఙෝഁೕ
Où ݐ ିଶ ଵିഀ
మ⁄ ఙෝഁೕ
désigne la fractile de niveau 1 െ ఈ
ଶ⁄ du loi de
Student ݐିଶ ( à n – 2 degrés de liberté)
Avec
• ߪොఉభ
ଶ
ൌ ߪොଶ ∑
మ
∑ ି ത మ
• ߪොఉమ
ଶ
ൌ
ఙෝమ
∑ ି ത మ
M. MICHRAFY & B. KOUAKOU datascience.km@gmail.com
34. Formules mathématiques (1)
݊ Nombre d’observations
Nombre de variables
ܺത ∑ ܺ
ୀଵ
݊ൗ
ܵ
ሺܻܺ െ ܺതܻሻ
ߚଵ ܵ
ܵ
ߚ ܻത െ ߚଵܺത
ܻ ߚመ ߚመଵ ܺ
ܧ ܻ െ ܻ
M. MICHRAFY & B. KOUAKOU datascience.km@gmail.com
37. Commande R : analyse de la variance
• anVar <- anova(model)
Donne l’analyse de la variance
• names(anVar) :
[1] "Df" "Sum Sq" "Mean Sq" "F value" "Pr(>F)"
• anVar$Df : vecteur de dll
• anVar$ "Sum Sq" : vecteur ܯܥெ , ܯܥோ
• anVar$”F value” : donne ܨ௦
• anvar$"Pr(>F)" : donne la probabilité critique (p-value)
M. MICHRAFY & B. KOUAKOU datascience.km@gmail.com
38. Commande R : Vérification des
hypothèses
• rstudent(model) : résidus studentarisée
• acf(model) : graphe d’autocorrelation des résidus
• qqnorm(model$res) : normal Q-Q plot
• plot(model$fitted,rstudent(model)) : graphe pour
identifier les points qui sont hors l’intervalle [-2,2]
• hist(resid(model)) : histogramme des résidus
M. MICHRAFY & B. KOUAKOU datascience.km@gmail.com
39. Modèle de la régression simple
ߚመ
ܨ௦
ܴଶ
ܴଶ
௨௦௧é
݁ܿܽݐݎ െ ݁ݕݐሺ ܻ െ ܻ
ଶ
ሻ
dll
Statistique de test
Probabilité critique
M. MICHRAFY & B. KOUAKOU datascience.km@gmail.com
40. Analyse de la variance
dll Vecteur ܯܥெ , ܯܥோ ܨ௦ Probabilité critique
M. MICHRAFY & B. KOUAKOU datascience.km@gmail.com
41. Loi t student t : définition
• Soit la variable t définie par :
ݐ ൌ
ܼ
ܷ
݇ൗ
avec Z une variable aléatoire de loi normal, centrée et réduite
U une variable indépendant de Z de loi ࢄà k degré de liberté (ddl)
Par définition on dit que la variable t suit une loi de Student à k
degrés de liberté (dll).
Sa densité est : ݂௧ ݔ ൌ
ଵ
గ
ఊሺ
ೖశభ
మ
ሻ
ఊሺ
ೖ
మ
ሻ
ሺ1
௫మ
ሻି
ೖశభ
మ ݇ ݎݑ
0
Ou ߛ est la fonction Gamme d’Euler
M. MICHRAFY & B. KOUAKOU datascience.km@gmail.com
42. Loi student t : propriétés
• La densité ݂௧ -associée à t est :
symétrique ( ݂ ௧ ݔ ൌ ݂௧ሺെݔሻ ሻ
son espérance est égale à 0 pour k > 1 et non définit pour k = 1
Sa variance est égale k/k-1 pour k > 2 et infinie pour k =1 et non
définie pour k=1
Résultat : pour k dll assez grand, la loi de Student converge vers la
loi normale.
M. MICHRAFY & B. KOUAKOU datascience.km@gmail.com
43. Loi student t : cumul et densité
M. MICHRAFY & B. KOUAKOU datascience.km@gmail.com
44. Loi student t : applications
• Conformité d'une moyenne sur un petit échantillon ( n <
30)
• Test de comparaison de moyennes de 2 petits
échantillons ( n < 30)
• Évaluation de la qualité de coefficients de régression
linéaire simple ou multiple
M. MICHRAFY & B. KOUAKOU datascience.km@gmail.com
45. Loi student t : commandes R
• dt(x, df, ncp, log = FALSE)
• pt(q, df, ncp, lower.tail = TRUE, log.p = FALSE)
• qt(p, df, ncp, lower.tail = TRUE, log.p = FALSE)
• rt(n, df, ncp)
M. MICHRAFY & B. KOUAKOU datascience.km@gmail.com
46. Les auteurs
• Mustapha. MICHRAFY
• Bull/Fastconnect
• Bernard KOUAKOU
• CGI inc.
M. MICHRAFY & B. KOUAKOU datascience.km@gmail.com
Contact des auteurs :
datascience.km@gmail.com
47. Références
• Data Mining et statistique décisionnelle, Stéphane TUFFÉRY
• Econométrie, la régression linéaire simple et multiple, Ricco Rakotomalala,
http://eric.univ lyon2.fr/~ricco/cours/cours/econometrie_regression.pdf
• Statistiques avec R, Pierre André Cornillon, François Husson, Nicolas Jégou, Eric
Matzner Lober
•Décision et prévision statistique, Thierry Verdel et al., Groupe des écoles de mine,
http://tice.inpl nancy.fr/modules/unit stat/
• http://www.statsoft.fr/concepts statistiques/anova manova/anova
manova.htm#.VcYDqflRqy1
• https://leanpub.com/LittleInferenceBook/read
M. MICHRAFY & B. KOUAKOU datascience.km@gmail.com