Traitement des données manquantes et aberrantes sous R
1. Exploration de donn´ees
Types de donn´ees manquantes
M´ethodes de traitement de donn´ees manquantes
Valeurs aberrantes : Outliers
Sommaire
Exploration et traitement de donn´ees
Traitement des valeurs manquantes et aberrantes sous R
Mohamed Ali KHOUAJA
IFELab www.emi.ac.ma/ifelab
LERMA, EMI
Universit´e Mohamed V
Rabat - Maroc
S´eminaire, 5/5/2016
Mohamed Ali KHOUAJA Traitement des valeurs manquantes et aberrantes sous R
2. Exploration de donn´ees
Types de donn´ees manquantes
M´ethodes de traitement de donn´ees manquantes
Valeurs aberrantes : Outliers
Sommaire
Plan
1 Exploration de donn´ees
Traitements pr´eliminaires
Pourquoi le traitement des donn´ees manquantes
2 Types de donn´ees manquantes
Donn´ees MCAR
Donn´ees MAR
Donn´ees MNAR
3 M´ethodes de traitement de donn´ees manquantes
Exclure les Donn´ees Manquantes DM
L’imputation simple
L’imputation multiple
4 Valeurs aberrantes : Outliers
D´efinition
Traitement
Mohamed Ali KHOUAJA Traitement des valeurs manquantes et aberrantes sous R
3. Exploration de donn´ees
Types de donn´ees manquantes
M´ethodes de traitement de donn´ees manquantes
Valeurs aberrantes : Outliers
Sommaire
Traitements pr´eliminaires
Pourquoi le traitement des donn´ees manquantes
Outline
1 Exploration de donn´ees
Traitements pr´eliminaires
Pourquoi le traitement des donn´ees manquantes
2 Types de donn´ees manquantes
Donn´ees MCAR
Donn´ees MAR
Donn´ees MNAR
3 M´ethodes de traitement de donn´ees manquantes
Exclure les Donn´ees Manquantes DM
L’imputation simple
L’imputation multiple
4 Valeurs aberrantes : Outliers
D´efinition
Traitement
Mohamed Ali KHOUAJA Traitement des valeurs manquantes et aberrantes sous R
4. Exploration de donn´ees
Types de donn´ees manquantes
M´ethodes de traitement de donn´ees manquantes
Valeurs aberrantes : Outliers
Sommaire
Traitements pr´eliminaires
Pourquoi le traitement des donn´ees manquantes
Data mining process
Figure – Data mining process, Datacamp.com
Mohamed Ali KHOUAJA Traitement des valeurs manquantes et aberrantes sous R
5. Exploration de donn´ees
Types de donn´ees manquantes
M´ethodes de traitement de donn´ees manquantes
Valeurs aberrantes : Outliers
Sommaire
Traitements pr´eliminaires
Pourquoi le traitement des donn´ees manquantes
Data cleaning in statistical analysis
Figure – Statistical analysis value chain, voir [1]
Mohamed Ali KHOUAJA Traitement des valeurs manquantes et aberrantes sous R
8. Exploration de donn´ees
Types de donn´ees manquantes
M´ethodes de traitement de donn´ees manquantes
Valeurs aberrantes : Outliers
Sommaire
Traitements pr´eliminaires
Pourquoi le traitement des donn´ees manquantes
Outline
1 Exploration de donn´ees
Traitements pr´eliminaires
Pourquoi le traitement des donn´ees manquantes
2 Types de donn´ees manquantes
Donn´ees MCAR
Donn´ees MAR
Donn´ees MNAR
3 M´ethodes de traitement de donn´ees manquantes
Exclure les Donn´ees Manquantes DM
L’imputation simple
L’imputation multiple
4 Valeurs aberrantes : Outliers
D´efinition
Traitement
Mohamed Ali KHOUAJA Traitement des valeurs manquantes et aberrantes sous R
9. Exploration de donn´ees
Types de donn´ees manquantes
M´ethodes de traitement de donn´ees manquantes
Valeurs aberrantes : Outliers
Sommaire
Traitements pr´eliminaires
Pourquoi le traitement des donn´ees manquantes
Motivation
Les donn´ees manquantes constituent un probl`eme majeur,
puisque l’information `a disposition est incompl`ete et donc
moins fiable.
Parmi les causes :
Il peut ˆetre impossible de contacter une personne s´electionn´ee
pour faire partie d’une enquˆete (non r´eponse totale)
Ou un r´epondant peut refuser de r´epondre `a une ou plusieurs
questions (non-r´eponse partielle).
Une mauvaise saisie de l’information peut ´egalement g´en´erer
des DM.
Donn´ees aberrantes
Mohamed Ali KHOUAJA Traitement des valeurs manquantes et aberrantes sous R
10. Exploration de donn´ees
Types de donn´ees manquantes
M´ethodes de traitement de donn´ees manquantes
Valeurs aberrantes : Outliers
Sommaire
Traitements pr´eliminaires
Pourquoi le traitement des donn´ees manquantes
Motivation
Les donn´ees manquantes constituent un probl`eme majeur,
puisque l’information `a disposition est incompl`ete et donc
moins fiable.
Parmi les causes :
Il peut ˆetre impossible de contacter une personne s´electionn´ee
pour faire partie d’une enquˆete (non r´eponse totale)
Ou un r´epondant peut refuser de r´epondre `a une ou plusieurs
questions (non-r´eponse partielle).
Une mauvaise saisie de l’information peut ´egalement g´en´erer
des DM.
Donn´ees aberrantes
Mohamed Ali KHOUAJA Traitement des valeurs manquantes et aberrantes sous R
11. Exploration de donn´ees
Types de donn´ees manquantes
M´ethodes de traitement de donn´ees manquantes
Valeurs aberrantes : Outliers
Sommaire
Traitements pr´eliminaires
Pourquoi le traitement des donn´ees manquantes
Motivation
Les donn´ees manquantes constituent un probl`eme majeur,
puisque l’information `a disposition est incompl`ete et donc
moins fiable.
Parmi les causes :
Il peut ˆetre impossible de contacter une personne s´electionn´ee
pour faire partie d’une enquˆete (non r´eponse totale)
Ou un r´epondant peut refuser de r´epondre `a une ou plusieurs
questions (non-r´eponse partielle).
Une mauvaise saisie de l’information peut ´egalement g´en´erer
des DM.
Donn´ees aberrantes
Mohamed Ali KHOUAJA Traitement des valeurs manquantes et aberrantes sous R
12. Exploration de donn´ees
Types de donn´ees manquantes
M´ethodes de traitement de donn´ees manquantes
Valeurs aberrantes : Outliers
Sommaire
Traitements pr´eliminaires
Pourquoi le traitement des donn´ees manquantes
Motivation
Les donn´ees manquantes constituent un probl`eme majeur,
puisque l’information `a disposition est incompl`ete et donc
moins fiable.
Parmi les causes :
Il peut ˆetre impossible de contacter une personne s´electionn´ee
pour faire partie d’une enquˆete (non r´eponse totale)
Ou un r´epondant peut refuser de r´epondre `a une ou plusieurs
questions (non-r´eponse partielle).
Une mauvaise saisie de l’information peut ´egalement g´en´erer
des DM.
Donn´ees aberrantes
Mohamed Ali KHOUAJA Traitement des valeurs manquantes et aberrantes sous R
13. Exploration de donn´ees
Types de donn´ees manquantes
M´ethodes de traitement de donn´ees manquantes
Valeurs aberrantes : Outliers
Sommaire
Traitements pr´eliminaires
Pourquoi le traitement des donn´ees manquantes
Motivation
Les donn´ees manquantes constituent un probl`eme majeur,
puisque l’information `a disposition est incompl`ete et donc
moins fiable.
Parmi les causes :
Il peut ˆetre impossible de contacter une personne s´electionn´ee
pour faire partie d’une enquˆete (non r´eponse totale)
Ou un r´epondant peut refuser de r´epondre `a une ou plusieurs
questions (non-r´eponse partielle).
Une mauvaise saisie de l’information peut ´egalement g´en´erer
des DM.
Donn´ees aberrantes
Mohamed Ali KHOUAJA Traitement des valeurs manquantes et aberrantes sous R
14. Exploration de donn´ees
Types de donn´ees manquantes
M´ethodes de traitement de donn´ees manquantes
Valeurs aberrantes : Outliers
Sommaire
Traitements pr´eliminaires
Pourquoi le traitement des donn´ees manquantes
Motivation
Les donn´ees manquantes constituent un probl`eme majeur,
puisque l’information `a disposition est incompl`ete et donc
moins fiable.
Parmi les causes :
Il peut ˆetre impossible de contacter une personne s´electionn´ee
pour faire partie d’une enquˆete (non r´eponse totale)
Ou un r´epondant peut refuser de r´epondre `a une ou plusieurs
questions (non-r´eponse partielle).
Une mauvaise saisie de l’information peut ´egalement g´en´erer
des DM.
Donn´ees aberrantes
Mohamed Ali KHOUAJA Traitement des valeurs manquantes et aberrantes sous R
15. Exploration de donn´ees
Types de donn´ees manquantes
M´ethodes de traitement de donn´ees manquantes
Valeurs aberrantes : Outliers
Sommaire
Traitements pr´eliminaires
Pourquoi le traitement des donn´ees manquantes
Probl´ematique G´en´erale des Donn´ees NA
L’ensemble des donn´ees avec lequel on doit travailler n’est pas
toujours complet (NA)
Donn´ees manquantes :
Variable `a expliquer
Variable(s) explicative(s)
Mohamed Ali KHOUAJA Traitement des valeurs manquantes et aberrantes sous R
16. Exploration de donn´ees
Types de donn´ees manquantes
M´ethodes de traitement de donn´ees manquantes
Valeurs aberrantes : Outliers
Sommaire
Traitements pr´eliminaires
Pourquoi le traitement des donn´ees manquantes
Probl´ematique G´en´erale des Donn´ees NA
L’ensemble des donn´ees avec lequel on doit travailler n’est pas
toujours complet (NA)
Donn´ees manquantes :
Variable `a expliquer
Variable(s) explicative(s)
Mohamed Ali KHOUAJA Traitement des valeurs manquantes et aberrantes sous R
17. Exploration de donn´ees
Types de donn´ees manquantes
M´ethodes de traitement de donn´ees manquantes
Valeurs aberrantes : Outliers
Sommaire
Traitements pr´eliminaires
Pourquoi le traitement des donn´ees manquantes
Probl´ematique G´en´erale des Donn´ees NA
Impact Perte d’information non pertinente et/ou non
informative (Impact Nul)
Perte d’information pertinente et/ou informative
(Impact fonction du taux de NA + Biais possible
dans l’estimation de la pr´ecision et de l’exactitude)
Solution Ne rien faire (Lorsque la proportion de NA de
l’´echantillon est faible <5%)
Utiliser une proc´edure adapt´ee de remplacement des
NA
Mohamed Ali KHOUAJA Traitement des valeurs manquantes et aberrantes sous R
18. Exploration de donn´ees
Types de donn´ees manquantes
M´ethodes de traitement de donn´ees manquantes
Valeurs aberrantes : Outliers
Sommaire
Traitements pr´eliminaires
Pourquoi le traitement des donn´ees manquantes
Probl´ematique G´en´erale des Donn´ees NA
Impact Perte d’information non pertinente et/ou non
informative (Impact Nul)
Perte d’information pertinente et/ou informative
(Impact fonction du taux de NA + Biais possible
dans l’estimation de la pr´ecision et de l’exactitude)
Solution Ne rien faire (Lorsque la proportion de NA de
l’´echantillon est faible <5%)
Utiliser une proc´edure adapt´ee de remplacement des
NA
Mohamed Ali KHOUAJA Traitement des valeurs manquantes et aberrantes sous R
19. Exploration de donn´ees
Types de donn´ees manquantes
M´ethodes de traitement de donn´ees manquantes
Valeurs aberrantes : Outliers
Sommaire
Traitements pr´eliminaires
Pourquoi le traitement des donn´ees manquantes
Probl´ematique G´en´erale des Donn´ees NA
Impact Perte d’information non pertinente et/ou non
informative (Impact Nul)
Perte d’information pertinente et/ou informative
(Impact fonction du taux de NA + Biais possible
dans l’estimation de la pr´ecision et de l’exactitude)
Solution Ne rien faire (Lorsque la proportion de NA de
l’´echantillon est faible <5%)
Utiliser une proc´edure adapt´ee de remplacement des
NA
Mohamed Ali KHOUAJA Traitement des valeurs manquantes et aberrantes sous R
20. Exploration de donn´ees
Types de donn´ees manquantes
M´ethodes de traitement de donn´ees manquantes
Valeurs aberrantes : Outliers
Sommaire
Traitements pr´eliminaires
Pourquoi le traitement des donn´ees manquantes
Probl´ematique G´en´erale des Donn´ees NA
Impact Perte d’information non pertinente et/ou non
informative (Impact Nul)
Perte d’information pertinente et/ou informative
(Impact fonction du taux de NA + Biais possible
dans l’estimation de la pr´ecision et de l’exactitude)
Solution Ne rien faire (Lorsque la proportion de NA de
l’´echantillon est faible <5%)
Utiliser une proc´edure adapt´ee de remplacement des
NA
Mohamed Ali KHOUAJA Traitement des valeurs manquantes et aberrantes sous R
21. Exploration de donn´ees
Types de donn´ees manquantes
M´ethodes de traitement de donn´ees manquantes
Valeurs aberrantes : Outliers
Sommaire
Traitements pr´eliminaires
Pourquoi le traitement des donn´ees manquantes
Probl´ematique G´en´erale des Donn´ees NA
Impact Perte d’information non pertinente et/ou non
informative (Impact Nul)
Perte d’information pertinente et/ou informative
(Impact fonction du taux de NA + Biais possible
dans l’estimation de la pr´ecision et de l’exactitude)
Solution Ne rien faire (Lorsque la proportion de NA de
l’´echantillon est faible <5%)
Utiliser une proc´edure adapt´ee de remplacement des
NA
Mohamed Ali KHOUAJA Traitement des valeurs manquantes et aberrantes sous R
22. Exploration de donn´ees
Types de donn´ees manquantes
M´ethodes de traitement de donn´ees manquantes
Valeurs aberrantes : Outliers
Sommaire
Donn´ees MCAR
Donn´ees MAR
Donn´ees MNAR
Choix de types de donn´ees manquantes
Sommaire
1 Exploration de donn´ees
Traitements pr´eliminaires
Pourquoi le traitement des donn´ees manquantes
2 Types de donn´ees manquantes
Donn´ees MCAR
Donn´ees MAR
Donn´ees MNAR
3 M´ethodes de traitement de donn´ees manquantes
Exclure les Donn´ees Manquantes DM
L’imputation simple
L’imputation multiple
4 Valeurs aberrantes : Outliers
D´efinition
Traitement
Mohamed Ali KHOUAJA Traitement des valeurs manquantes et aberrantes sous R
23. Exploration de donn´ees
Types de donn´ees manquantes
M´ethodes de traitement de donn´ees manquantes
Valeurs aberrantes : Outliers
Sommaire
Donn´ees MCAR
Donn´ees MAR
Donn´ees MNAR
Choix de types de donn´ees manquantes
Types de donn´ees manquantes
Typologie de donn´ees manquantes, selon Little Rubin (1987), 3
cat´egories :
MCAR (”Missing completely at random”)
MAR (”Missing at random”)
MNAR (”Missing not at random”)
Mohamed Ali KHOUAJA Traitement des valeurs manquantes et aberrantes sous R
24. Exploration de donn´ees
Types de donn´ees manquantes
M´ethodes de traitement de donn´ees manquantes
Valeurs aberrantes : Outliers
Sommaire
Donn´ees MCAR
Donn´ees MAR
Donn´ees MNAR
Choix de types de donn´ees manquantes
Outline
1 Exploration de donn´ees
Traitements pr´eliminaires
Pourquoi le traitement des donn´ees manquantes
2 Types de donn´ees manquantes
Donn´ees MCAR
Donn´ees MAR
Donn´ees MNAR
3 M´ethodes de traitement de donn´ees manquantes
Exclure les Donn´ees Manquantes DM
L’imputation simple
L’imputation multiple
4 Valeurs aberrantes : Outliers
D´efinition
Traitement
Mohamed Ali KHOUAJA Traitement des valeurs manquantes et aberrantes sous R
25. Exploration de donn´ees
Types de donn´ees manquantes
M´ethodes de traitement de donn´ees manquantes
Valeurs aberrantes : Outliers
Sommaire
Donn´ees MCAR
Donn´ees MAR
Donn´ees MNAR
Choix de types de donn´ees manquantes
Donn´ees MCAR
Missing Completely At Random
La probabilit´e qu’une valeur de la variable X1 soit manquante
ne d´epend pas des valeurs prises par les autres variables Xj=1,
qu’elles soient manquantes ou pas.
Il n’est donc pas possible de d´efinir un profil des individus
ayant des valeurs manquantes, la probabilit´e de ces donn´ees
est uniforme.
P(xi1manquant|xijobserve, xijmanquant) = P(xi1manquant)
De mani`ere g´en´erale, ce type de DM est tr`es rare.
Mohamed Ali KHOUAJA Traitement des valeurs manquantes et aberrantes sous R
26. Exploration de donn´ees
Types de donn´ees manquantes
M´ethodes de traitement de donn´ees manquantes
Valeurs aberrantes : Outliers
Sommaire
Donn´ees MCAR
Donn´ees MAR
Donn´ees MNAR
Choix de types de donn´ees manquantes
Donn´ees MCAR
Missing Completely At Random
La probabilit´e qu’une valeur de la variable X1 soit manquante
ne d´epend pas des valeurs prises par les autres variables Xj=1,
qu’elles soient manquantes ou pas.
Il n’est donc pas possible de d´efinir un profil des individus
ayant des valeurs manquantes, la probabilit´e de ces donn´ees
est uniforme.
P(xi1manquant|xijobserve, xijmanquant) = P(xi1manquant)
De mani`ere g´en´erale, ce type de DM est tr`es rare.
Mohamed Ali KHOUAJA Traitement des valeurs manquantes et aberrantes sous R
27. Exploration de donn´ees
Types de donn´ees manquantes
M´ethodes de traitement de donn´ees manquantes
Valeurs aberrantes : Outliers
Sommaire
Donn´ees MCAR
Donn´ees MAR
Donn´ees MNAR
Choix de types de donn´ees manquantes
Donn´ees MCAR
Missing Completely At Random
La probabilit´e qu’une valeur de la variable X1 soit manquante
ne d´epend pas des valeurs prises par les autres variables Xj=1,
qu’elles soient manquantes ou pas.
Il n’est donc pas possible de d´efinir un profil des individus
ayant des valeurs manquantes, la probabilit´e de ces donn´ees
est uniforme.
P(xi1manquant|xijobserve, xijmanquant) = P(xi1manquant)
De mani`ere g´en´erale, ce type de DM est tr`es rare.
Mohamed Ali KHOUAJA Traitement des valeurs manquantes et aberrantes sous R
28. Exploration de donn´ees
Types de donn´ees manquantes
M´ethodes de traitement de donn´ees manquantes
Valeurs aberrantes : Outliers
Sommaire
Donn´ees MCAR
Donn´ees MAR
Donn´ees MNAR
Choix de types de donn´ees manquantes
Donn´ees MCAR
Missing Completely At Random
La probabilit´e qu’une valeur de la variable X1 soit manquante
ne d´epend pas des valeurs prises par les autres variables Xj=1,
qu’elles soient manquantes ou pas.
Il n’est donc pas possible de d´efinir un profil des individus
ayant des valeurs manquantes, la probabilit´e de ces donn´ees
est uniforme.
P(xi1manquant|xijobserve, xijmanquant) = P(xi1manquant)
De mani`ere g´en´erale, ce type de DM est tr`es rare.
Mohamed Ali KHOUAJA Traitement des valeurs manquantes et aberrantes sous R
29. Exploration de donn´ees
Types de donn´ees manquantes
M´ethodes de traitement de donn´ees manquantes
Valeurs aberrantes : Outliers
Sommaire
Donn´ees MCAR
Donn´ees MAR
Donn´ees MNAR
Choix de types de donn´ees manquantes
Outline
1 Exploration de donn´ees
Traitements pr´eliminaires
Pourquoi le traitement des donn´ees manquantes
2 Types de donn´ees manquantes
Donn´ees MCAR
Donn´ees MAR
Donn´ees MNAR
3 M´ethodes de traitement de donn´ees manquantes
Exclure les Donn´ees Manquantes DM
L’imputation simple
L’imputation multiple
4 Valeurs aberrantes : Outliers
D´efinition
Traitement
Mohamed Ali KHOUAJA Traitement des valeurs manquantes et aberrantes sous R
30. Exploration de donn´ees
Types de donn´ees manquantes
M´ethodes de traitement de donn´ees manquantes
Valeurs aberrantes : Outliers
Sommaire
Donn´ees MCAR
Donn´ees MAR
Donn´ees MNAR
Choix de types de donn´ees manquantes
Donn´ees MAR
Missing At Random
La probabilit´e qu’une valeur de la variable X1 soit manquante
ne d´epend pas des valeurs prises par les autres variables Xj=1
manquantes, mais de leurs valeurs observ´ees.
Exemple : Il existe une diff´erence de non-r´eponse entre les
hommes et les femmes concernant la question du revenu, mais
parmi les hommes entre eux ou parmi les femmes entre elles,
la probabilit´e d’avoir des non-r´eponses est identique quel que
soit le niveau du revenu
P(xi1manquant|xijobserve, xijmanquant) = P(xi1manquant|xijobserve)
Mohamed Ali KHOUAJA Traitement des valeurs manquantes et aberrantes sous R
31. Exploration de donn´ees
Types de donn´ees manquantes
M´ethodes de traitement de donn´ees manquantes
Valeurs aberrantes : Outliers
Sommaire
Donn´ees MCAR
Donn´ees MAR
Donn´ees MNAR
Choix de types de donn´ees manquantes
Donn´ees MAR
Missing At Random
La probabilit´e qu’une valeur de la variable X1 soit manquante
ne d´epend pas des valeurs prises par les autres variables Xj=1
manquantes, mais de leurs valeurs observ´ees.
Exemple : Il existe une diff´erence de non-r´eponse entre les
hommes et les femmes concernant la question du revenu, mais
parmi les hommes entre eux ou parmi les femmes entre elles,
la probabilit´e d’avoir des non-r´eponses est identique quel que
soit le niveau du revenu
P(xi1manquant|xijobserve, xijmanquant) = P(xi1manquant|xijobserve)
Mohamed Ali KHOUAJA Traitement des valeurs manquantes et aberrantes sous R
32. Exploration de donn´ees
Types de donn´ees manquantes
M´ethodes de traitement de donn´ees manquantes
Valeurs aberrantes : Outliers
Sommaire
Donn´ees MCAR
Donn´ees MAR
Donn´ees MNAR
Choix de types de donn´ees manquantes
Donn´ees MAR
Missing At Random
La probabilit´e qu’une valeur de la variable X1 soit manquante
ne d´epend pas des valeurs prises par les autres variables Xj=1
manquantes, mais de leurs valeurs observ´ees.
Exemple : Il existe une diff´erence de non-r´eponse entre les
hommes et les femmes concernant la question du revenu, mais
parmi les hommes entre eux ou parmi les femmes entre elles,
la probabilit´e d’avoir des non-r´eponses est identique quel que
soit le niveau du revenu
P(xi1manquant|xijobserve, xijmanquant) = P(xi1manquant|xijobserve)
Mohamed Ali KHOUAJA Traitement des valeurs manquantes et aberrantes sous R
33. Exploration de donn´ees
Types de donn´ees manquantes
M´ethodes de traitement de donn´ees manquantes
Valeurs aberrantes : Outliers
Sommaire
Donn´ees MCAR
Donn´ees MAR
Donn´ees MNAR
Choix de types de donn´ees manquantes
Outline
1 Exploration de donn´ees
Traitements pr´eliminaires
Pourquoi le traitement des donn´ees manquantes
2 Types de donn´ees manquantes
Donn´ees MCAR
Donn´ees MAR
Donn´ees MNAR
3 M´ethodes de traitement de donn´ees manquantes
Exclure les Donn´ees Manquantes DM
L’imputation simple
L’imputation multiple
4 Valeurs aberrantes : Outliers
D´efinition
Traitement
Mohamed Ali KHOUAJA Traitement des valeurs manquantes et aberrantes sous R
34. Exploration de donn´ees
Types de donn´ees manquantes
M´ethodes de traitement de donn´ees manquantes
Valeurs aberrantes : Outliers
Sommaire
Donn´ees MCAR
Donn´ees MAR
Donn´ees MNAR
Choix de types de donn´ees manquantes
Donn´ees MNAR
Missing Not At Random
La donn´ee est manquante pour une raison pr´ecise voulue.
La probabilit´e qu’une valeur de la variable x soit manquante
ne d´epend pas des valeurs prises par les autres variables Xj=i
observ´ees, mais de leurs valeurs manquantes
P(xi1manquant|xijobserve, xijmanquant) = P(xi1manquant|xmanquant)
Mohamed Ali KHOUAJA Traitement des valeurs manquantes et aberrantes sous R
35. Exploration de donn´ees
Types de donn´ees manquantes
M´ethodes de traitement de donn´ees manquantes
Valeurs aberrantes : Outliers
Sommaire
Donn´ees MCAR
Donn´ees MAR
Donn´ees MNAR
Choix de types de donn´ees manquantes
Donn´ees MNAR
Missing Not At Random
La donn´ee est manquante pour une raison pr´ecise voulue.
La probabilit´e qu’une valeur de la variable x soit manquante
ne d´epend pas des valeurs prises par les autres variables Xj=i
observ´ees, mais de leurs valeurs manquantes
P(xi1manquant|xijobserve, xijmanquant) = P(xi1manquant|xmanquant)
Mohamed Ali KHOUAJA Traitement des valeurs manquantes et aberrantes sous R
36. Exploration de donn´ees
Types de donn´ees manquantes
M´ethodes de traitement de donn´ees manquantes
Valeurs aberrantes : Outliers
Sommaire
Donn´ees MCAR
Donn´ees MAR
Donn´ees MNAR
Choix de types de donn´ees manquantes
Donn´ees MNAR
Missing Not At Random
La donn´ee est manquante pour une raison pr´ecise voulue.
La probabilit´e qu’une valeur de la variable x soit manquante
ne d´epend pas des valeurs prises par les autres variables Xj=i
observ´ees, mais de leurs valeurs manquantes
P(xi1manquant|xijobserve, xijmanquant) = P(xi1manquant|xmanquant)
Mohamed Ali KHOUAJA Traitement des valeurs manquantes et aberrantes sous R
37. Exploration de donn´ees
Types de donn´ees manquantes
M´ethodes de traitement de donn´ees manquantes
Valeurs aberrantes : Outliers
Sommaire
Donn´ees MCAR
Donn´ees MAR
Donn´ees MNAR
Choix de types de donn´ees manquantes
Typologie de donn´ees manquantes
Choix de types de donn´ees
Malheureusement
On ne peut g´en´eralement pas dire, `a partir des donn´ees, quel
est le m´echanisme de manque (MCAR, MAR, MNAR)
Dans le cas MNAR, il est rare que l’on connaisse le mod`ele
associ´e au manquement
Mohamed Ali KHOUAJA Traitement des valeurs manquantes et aberrantes sous R
38. Exploration de donn´ees
Types de donn´ees manquantes
M´ethodes de traitement de donn´ees manquantes
Valeurs aberrantes : Outliers
Sommaire
Donn´ees MCAR
Donn´ees MAR
Donn´ees MNAR
Choix de types de donn´ees manquantes
Typologie de donn´ees manquantes
Choix de types de donn´ees
Malheureusement
On ne peut g´en´eralement pas dire, `a partir des donn´ees, quel
est le m´echanisme de manque (MCAR, MAR, MNAR)
Dans le cas MNAR, il est rare que l’on connaisse le mod`ele
associ´e au manquement
Mohamed Ali KHOUAJA Traitement des valeurs manquantes et aberrantes sous R
39. Exploration de donn´ees
Types de donn´ees manquantes
M´ethodes de traitement de donn´ees manquantes
Valeurs aberrantes : Outliers
Sommaire
Exclure les Donn´ees Manquantes DM
L’imputation simple
L’imputation multiple
Sommaire
1 Exploration de donn´ees
Traitements pr´eliminaires
Pourquoi le traitement des donn´ees manquantes
2 Types de donn´ees manquantes
Donn´ees MCAR
Donn´ees MAR
Donn´ees MNAR
3 M´ethodes de traitement de donn´ees manquantes
Exclure les Donn´ees Manquantes DM
L’imputation simple
L’imputation multiple
4 Valeurs aberrantes : Outliers
D´efinition
Traitement
Mohamed Ali KHOUAJA Traitement des valeurs manquantes et aberrantes sous R
40. Exploration de donn´ees
Types de donn´ees manquantes
M´ethodes de traitement de donn´ees manquantes
Valeurs aberrantes : Outliers
Sommaire
Exclure les Donn´ees Manquantes DM
L’imputation simple
L’imputation multiple
Outline
1 Exploration de donn´ees
Traitements pr´eliminaires
Pourquoi le traitement des donn´ees manquantes
2 Types de donn´ees manquantes
Donn´ees MCAR
Donn´ees MAR
Donn´ees MNAR
3 M´ethodes de traitement de donn´ees manquantes
Exclure les Donn´ees Manquantes DM
L’imputation simple
L’imputation multiple
4 Valeurs aberrantes : Outliers
D´efinition
Traitement
Mohamed Ali KHOUAJA Traitement des valeurs manquantes et aberrantes sous R
41. Exploration de donn´ees
Types de donn´ees manquantes
M´ethodes de traitement de donn´ees manquantes
Valeurs aberrantes : Outliers
Sommaire
Exclure les Donn´ees Manquantes DM
L’imputation simple
L’imputation multiple
Exclure les DM
List Wise Deletion Toutes les observations ayant au moins une
donn´ee manquante, cela permet d’effectuer des
analyses sur des cas dont toutes les donn´ees sont
connues. En plus elle est peu efficiente, car beaucoup
d’observations peuvent disparaitre,
Pair Wise Deletion On performe notre analyse avec toutes les
cases dont les variables en question sont pr´esentes.
Son d´esaventage est d’utiliser diff´erentes tailles
d’´echantillons pour les diff´erentes variables.
Valide seulement en cas de MCAR
Mohamed Ali KHOUAJA Traitement des valeurs manquantes et aberrantes sous R
42. Exploration de donn´ees
Types de donn´ees manquantes
M´ethodes de traitement de donn´ees manquantes
Valeurs aberrantes : Outliers
Sommaire
Exclure les Donn´ees Manquantes DM
L’imputation simple
L’imputation multiple
Exclure les DM
List Wise Deletion Toutes les observations ayant au moins une
donn´ee manquante, cela permet d’effectuer des
analyses sur des cas dont toutes les donn´ees sont
connues. En plus elle est peu efficiente, car beaucoup
d’observations peuvent disparaitre,
Pair Wise Deletion On performe notre analyse avec toutes les
cases dont les variables en question sont pr´esentes.
Son d´esaventage est d’utiliser diff´erentes tailles
d’´echantillons pour les diff´erentes variables.
Valide seulement en cas de MCAR
Mohamed Ali KHOUAJA Traitement des valeurs manquantes et aberrantes sous R
43. Exploration de donn´ees
Types de donn´ees manquantes
M´ethodes de traitement de donn´ees manquantes
Valeurs aberrantes : Outliers
Sommaire
Exclure les Donn´ees Manquantes DM
L’imputation simple
L’imputation multiple
Exclure les DM
List Wise Deletion Toutes les observations ayant au moins une
donn´ee manquante, cela permet d’effectuer des
analyses sur des cas dont toutes les donn´ees sont
connues. En plus elle est peu efficiente, car beaucoup
d’observations peuvent disparaitre,
Pair Wise Deletion On performe notre analyse avec toutes les
cases dont les variables en question sont pr´esentes.
Son d´esaventage est d’utiliser diff´erentes tailles
d’´echantillons pour les diff´erentes variables.
Valide seulement en cas de MCAR
Mohamed Ali KHOUAJA Traitement des valeurs manquantes et aberrantes sous R
44. Exploration de donn´ees
Types de donn´ees manquantes
M´ethodes de traitement de donn´ees manquantes
Valeurs aberrantes : Outliers
Sommaire
Exclure les Donn´ees Manquantes DM
L’imputation simple
L’imputation multiple
Outline
1 Exploration de donn´ees
Traitements pr´eliminaires
Pourquoi le traitement des donn´ees manquantes
2 Types de donn´ees manquantes
Donn´ees MCAR
Donn´ees MAR
Donn´ees MNAR
3 M´ethodes de traitement de donn´ees manquantes
Exclure les Donn´ees Manquantes DM
L’imputation simple
L’imputation multiple
4 Valeurs aberrantes : Outliers
D´efinition
Traitement
Mohamed Ali KHOUAJA Traitement des valeurs manquantes et aberrantes sous R
45. Exploration de donn´ees
Types de donn´ees manquantes
M´ethodes de traitement de donn´ees manquantes
Valeurs aberrantes : Outliers
Sommaire
Exclure les Donn´ees Manquantes DM
L’imputation simple
L’imputation multiple
L’imputation simple
Principe : remplacer chaque donn´ee manquante par une valeur
plausible. Cela peut ˆetre : la moyenne ou m´ediane pour les
attributs quantis ou le mode pour les attributs qualis.
Cette m´ethode peut comprendre deux types :
Generalized Imputation On calcule la moyenne/m´ediane de toute
les valeurs non manquantes que prend la variable,
puis on remplace les DM par la valeur de la
moyenne/m´ediane ou le mode pour les attributs
qualis.
Similar case Imputation qui remplace les donn´ees manquantes par
des valeurs provenant d’individus similaires pour
lesquels toute l’information a ´et´e observ´ee, (voir
l’exemple en slide suivante)
Mohamed Ali KHOUAJA Traitement des valeurs manquantes et aberrantes sous R
46. Exploration de donn´ees
Types de donn´ees manquantes
M´ethodes de traitement de donn´ees manquantes
Valeurs aberrantes : Outliers
Sommaire
Exclure les Donn´ees Manquantes DM
L’imputation simple
L’imputation multiple
L’imputation simple
Principe : remplacer chaque donn´ee manquante par une valeur
plausible. Cela peut ˆetre : la moyenne ou m´ediane pour les
attributs quantis ou le mode pour les attributs qualis.
Cette m´ethode peut comprendre deux types :
Generalized Imputation On calcule la moyenne/m´ediane de toute
les valeurs non manquantes que prend la variable,
puis on remplace les DM par la valeur de la
moyenne/m´ediane ou le mode pour les attributs
qualis.
Similar case Imputation qui remplace les donn´ees manquantes par
des valeurs provenant d’individus similaires pour
lesquels toute l’information a ´et´e observ´ee, (voir
l’exemple en slide suivante)
Mohamed Ali KHOUAJA Traitement des valeurs manquantes et aberrantes sous R
47. Exploration de donn´ees
Types de donn´ees manquantes
M´ethodes de traitement de donn´ees manquantes
Valeurs aberrantes : Outliers
Sommaire
Exclure les Donn´ees Manquantes DM
L’imputation simple
L’imputation multiple
L’imputation simple
Exemple de Similar case Imputation
Gender Manpower Sales
1 M 25.00 343.00
2 F 280.00
3 M 33.00 332.00
4 M 272.00
5 F 25.00
6 M 29.00 326.00
7 26.00 259.00
8 M 32.00 297.00
Table – Jeu de donn´ees avec DM
Mohamed Ali KHOUAJA Traitement des valeurs manquantes et aberrantes sous R
48. Exploration de donn´ees
Types de donn´ees manquantes
M´ethodes de traitement de donn´ees manquantes
Valeurs aberrantes : Outliers
Sommaire
Exclure les Donn´ees Manquantes DM
L’imputation simple
L’imputation multiple
L’imputation simple
Exemple de Similar case Imputation
Gender Manpower Sales
1 M 25.00 343.00
2 F NA 280.00
3 M 33.00 332.00
4 M NA 272.00
5 F 25.00 NA
6 M 29.00 326.00
7 NA 26.00 259.00
8 M 32.00 297.00
Table – Jeu de donn´ees avec DM
Mohamed Ali KHOUAJA Traitement des valeurs manquantes et aberrantes sous R
49. Exploration de donn´ees
Types de donn´ees manquantes
M´ethodes de traitement de donn´ees manquantes
Valeurs aberrantes : Outliers
Sommaire
Exclure les Donn´ees Manquantes DM
L’imputation simple
L’imputation multiple
L’imputation simple
Exemple de Similar case Imputation
On calcule la moyenne (en variable Manpower) pour le genre
(Man) :
> mean(ListDM[Gender==c("M"),]$Manpower, na.rm = TRUE)
[1] 29.75
et (Female), pour les valeurs non manquantes :
> mean(ListDM[Gender==c("F"),]$Manpower, na.rm = TRUE)
[1] 25
Ensuite on remplace les DM, pour ”M”par 29.75 et pour ”F”par 25.
Mohamed Ali KHOUAJA Traitement des valeurs manquantes et aberrantes sous R
50. Exploration de donn´ees
Types de donn´ees manquantes
M´ethodes de traitement de donn´ees manquantes
Valeurs aberrantes : Outliers
Sommaire
Exclure les Donn´ees Manquantes DM
L’imputation simple
L’imputation multiple
L’imputation simple
Ratio Imputation
Ici, la valeur est estim´ee ˆxi par un ratio multipli´e par la valeur
conjugu´ee de covariant yi .
ˆxi = ˆRyi
Impl´ementation sur R :
> x=ListDM[,2]
> y=ListDM[,3]
> I= is.na(x)
> R=sum(x[!I])/sum(y[!I & !is.na(y)])
> x[I]=R*y[I]
Mohamed Ali KHOUAJA Traitement des valeurs manquantes et aberrantes sous R
51. Exploration de donn´ees
Types de donn´ees manquantes
M´ethodes de traitement de donn´ees manquantes
Valeurs aberrantes : Outliers
Sommaire
Exclure les Donn´ees Manquantes DM
L’imputation simple
L’imputation multiple
Mod`ele de pr´ediction
Ici,
On construit un mod`ele de pr´ediction pour estimer les valeurs
avec lesquelles on substitue les DM.
ˆxi = ˆβ0 + ˆβ1y1,i + ... + ˆβkyk,i
On peut utiliser : Regr´ession, ANOVA, R´egression logistique
A noter que les packages Hmisc, VIM, mi et mice,
impl´ementent des m´ethodes d’imputation utilisant de formes
de r´egression
Mohamed Ali KHOUAJA Traitement des valeurs manquantes et aberrantes sous R
52. Exploration de donn´ees
Types de donn´ees manquantes
M´ethodes de traitement de donn´ees manquantes
Valeurs aberrantes : Outliers
Sommaire
Exclure les Donn´ees Manquantes DM
L’imputation simple
L’imputation multiple
Imputation KNN
Dans cette m´ethode :
Les DM d’un attribut sont imput´es en utilisant les attributs
les plus similaires `a celui en question.
La similatit´e entre deux attributs est d´etermin´ee en utilisant
une fonction de distance.
Le package VIM de R, utilise une fonction appel´ee kNN qui
impl´emente une distance de Gowers pour d´eterminer les K
proches voisins
Mohamed Ali KHOUAJA Traitement des valeurs manquantes et aberrantes sous R
53. Exploration de donn´ees
Types de donn´ees manquantes
M´ethodes de traitement de donn´ees manquantes
Valeurs aberrantes : Outliers
Sommaire
Exclure les Donn´ees Manquantes DM
L’imputation simple
L’imputation multiple
Imputation KNN
Exemple sous R
> library(VIM)
> data(iris)
> n <- nrow(iris)
> # provide some empty values (10 in each column, randomly)
> for (i in 1:ncol(iris)) {
+ iris[sample(1:n, 10, replace = FALSE), i] <- NA
+ }
> iris2 <- kNN(iris)
Time difference of 0.058038 secs
Mohamed Ali KHOUAJA Traitement des valeurs manquantes et aberrantes sous R
54. Exploration de donn´ees
Types de donn´ees manquantes
M´ethodes de traitement de donn´ees manquantes
Valeurs aberrantes : Outliers
Sommaire
Exclure les Donn´ees Manquantes DM
L’imputation simple
L’imputation multiple
Autres m´ethodes d’imputation
Hot deck imputation Imputer la valeur manquante avec une valeur
observ´ee de la mˆeme BDD al´eatoirement (sous R, la
fonction impute du package Hmisc impl´emente
cette m´ethode en ajoutant le param`etre ”random”)
Exemple : Soit ”height”les tailles extraites du jeu de donn´ees
”women”:
> height <- women$height
> height[c(6,9)]<-NA #Ajouter des DM
> height<-Hmisc::impute(height, "random")
> height
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
58 59 60 61 62 65* 64 65 61* 67 68 69 70 71 72
Mohamed Ali KHOUAJA Traitement des valeurs manquantes et aberrantes sous R
55. Exploration de donn´ees
Types de donn´ees manquantes
M´ethodes de traitement de donn´ees manquantes
Valeurs aberrantes : Outliers
Sommaire
Exclure les Donn´ees Manquantes DM
L’imputation simple
L’imputation multiple
Outline
1 Exploration de donn´ees
Traitements pr´eliminaires
Pourquoi le traitement des donn´ees manquantes
2 Types de donn´ees manquantes
Donn´ees MCAR
Donn´ees MAR
Donn´ees MNAR
3 M´ethodes de traitement de donn´ees manquantes
Exclure les Donn´ees Manquantes DM
L’imputation simple
L’imputation multiple
4 Valeurs aberrantes : Outliers
D´efinition
Traitement
Mohamed Ali KHOUAJA Traitement des valeurs manquantes et aberrantes sous R
56. Exploration de donn´ees
Types de donn´ees manquantes
M´ethodes de traitement de donn´ees manquantes
Valeurs aberrantes : Outliers
Sommaire
Exclure les Donn´ees Manquantes DM
L’imputation simple
L’imputation multiple
L’imputation multiple
Principe : proc´eder `a m > 1 imputations afin d’obtenir m valeurs
pour chaque donn´ee manquante, et `a combiner ensuite les
statistiques calcul´ees ind´ependamment sur les m jeux de donn´ees.
les r´esultats peuvent varier selon les logiciels et les mod`eles
Souvent, on opte pour l’imputation multiple et cela revient `a
plusieurs raisons :
Sous l’hypoth`ese MAR, MI produit des estimations non
biais´ees ainsi que des variances non biais´ees
M´ethode tr`es flexible
Large disponibilit´e des techniques de MI dans les logiciels de
statistique
Les packages mice et mi impl´ementent de tels m´ethodes
Mohamed Ali KHOUAJA Traitement des valeurs manquantes et aberrantes sous R
57. Exploration de donn´ees
Types de donn´ees manquantes
M´ethodes de traitement de donn´ees manquantes
Valeurs aberrantes : Outliers
Sommaire
Exclure les Donn´ees Manquantes DM
L’imputation simple
L’imputation multiple
L’imputation multiple
Etape 1 : on remplace chaque valeur manquante par M (>1)
valeurs tir´ees d’une distribution appropri´ee.
Mohamed Ali KHOUAJA Traitement des valeurs manquantes et aberrantes sous R
58. Exploration de donn´ees
Types de donn´ees manquantes
M´ethodes de traitement de donn´ees manquantes
Valeurs aberrantes : Outliers
Sommaire
Exclure les Donn´ees Manquantes DM
L’imputation simple
L’imputation multiple
L’imputation multiple
Etape 2 : on r´ealise des analyses ind´ependantes, mais avec la
mˆeme m´ethode, de M bases imput´ees.
Mohamed Ali KHOUAJA Traitement des valeurs manquantes et aberrantes sous R
59. Exploration de donn´ees
Types de donn´ees manquantes
M´ethodes de traitement de donn´ees manquantes
Valeurs aberrantes : Outliers
Sommaire
Exclure les Donn´ees Manquantes DM
L’imputation simple
L’imputation multiple
L’imputation multiple
Etape 3 : on combine les r´esultats de ces analyses afin de refl´eter
la variabilit´e suppl´ementaire due aux donn´ees manquantes.
Mohamed Ali KHOUAJA Traitement des valeurs manquantes et aberrantes sous R
60. Exploration de donn´ees
Types de donn´ees manquantes
M´ethodes de traitement de donn´ees manquantes
Valeurs aberrantes : Outliers
Sommaire
Exclure les Donn´ees Manquantes DM
L’imputation simple
L’imputation multiple
L’imputation multiple
Exemple sous R
> summary(iris) #Apr`es g´en´eration des DM sur le jeu de donn´ees "iris"
Sepal.Length Sepal.Width Petal.Length Petal.Width
Min. :4.400 Min. :2.000 Min. :1.000 Min. :0.100
1st Qu.:5.100 1st Qu.:2.800 1st Qu.:1.575 1st Qu.:0.375
Median :5.900 Median :3.000 Median :4.350 Median :1.300
Mean :5.911 Mean :3.042 Mean :3.773 Mean :1.215
3rd Qu.:6.500 3rd Qu.:3.300 3rd Qu.:5.100 3rd Qu.:1.800
Max. :7.900 Max. :4.400 Max. :6.900 Max. :2.500
NA's :17 NA's :20 NA's :18 NA's :18
Species
setosa :45
versicolor:44
virginica :41
NA's :20
Pour imputer les valeurs manquantes :
> imputed.data <- mice(iris.mis, m=5, maxit = 50, method = 'pmm', seed = 100);
m repr´esente 5 jeux de donn´ees imput´es
maxit d´esigne le nombre d’it´erations pris pour imputer les DM
method d´esigne la m´ethode d’imputation utilis´ee (ici ; Predective Mean Matching)
Mohamed Ali KHOUAJA Traitement des valeurs manquantes et aberrantes sous R
61. Exploration de donn´ees
Types de donn´ees manquantes
M´ethodes de traitement de donn´ees manquantes
Valeurs aberrantes : Outliers
Sommaire
Exclure les Donn´ees Manquantes DM
L’imputation simple
L’imputation multiple
L’imputation multiple
Exemple sous R
> summary(imputed.data)
Multiply imputed data set
Call:
mice(data = iris.mis, m = 5, method = "pmm", maxit = 50, seed = 100)
Number of multiple imputations: 5
Missing cells per column:
Sepal.Length Sepal.Width Petal.Length Petal.Width
17 20 18 18
Imputation methods:
Sepal.Length Sepal.Width Petal.Length Petal.Width
"pmm" "pmm" "pmm" "pmm"
VisitSequence:
Sepal.Length Sepal.Width Petal.Length Petal.Width
1 2 3 4
PredictorMatrix:
Sepal.Length Sepal.Width Petal.Length Petal.Width
Sepal.Length 0 1 1 1
Sepal.Width 1 0 1 1
Petal.Length 1 1 0 1
Petal.Width 1 1 1 0
Random generator seed value: 100
Mohamed Ali KHOUAJA Traitement des valeurs manquantes et aberrantes sous R
62. Exploration de donn´ees
Types de donn´ees manquantes
M´ethodes de traitement de donn´ees manquantes
Valeurs aberrantes : Outliers
Sommaire
Exclure les Donn´ees Manquantes DM
L’imputation simple
L’imputation multiple
L’imputation multiple
Exemple sous R
Pour s´el´ectionner un jeu de donn´ees des 5 imput´es, on utilise la fonction complete()
> completeData <- complete(imputed.data, 2)
> summary(completeData)
Sepal.Length Sepal.Width Petal.Length Petal.Width
Min. :4.400 Min. :2.000 Min. :1.000 Min. :0.100
1st Qu.:5.100 1st Qu.:2.800 1st Qu.:1.600 1st Qu.:0.325
Median :5.800 Median :3.000 Median :4.250 Median :1.300
Mean :5.864 Mean :3.054 Mean :3.749 Mean :1.202
3rd Qu.:6.400 3rd Qu.:3.300 3rd Qu.:5.100 3rd Qu.:1.800
Max. :7.900 Max. :4.400 Max. :6.900 Max. :2.500
Mohamed Ali KHOUAJA Traitement des valeurs manquantes et aberrantes sous R
64. Exploration de donn´ees
Types de donn´ees manquantes
M´ethodes de traitement de donn´ees manquantes
Valeurs aberrantes : Outliers
Sommaire
D´efinition
Traitement
Outline
1 Exploration de donn´ees
Traitements pr´eliminaires
Pourquoi le traitement des donn´ees manquantes
2 Types de donn´ees manquantes
Donn´ees MCAR
Donn´ees MAR
Donn´ees MNAR
3 M´ethodes de traitement de donn´ees manquantes
Exclure les Donn´ees Manquantes DM
L’imputation simple
L’imputation multiple
4 Valeurs aberrantes : Outliers
D´efinition
Traitement
Mohamed Ali KHOUAJA Traitement des valeurs manquantes et aberrantes sous R
65. Exploration de donn´ees
Types de donn´ees manquantes
M´ethodes de traitement de donn´ees manquantes
Valeurs aberrantes : Outliers
Sommaire
D´efinition
Traitement
Outliers
D´efinition
Une valeur aberrante est une valeur extrˆeme de la distribution
d’une variable, c’est-`a-dire qui diff`ere significativement de
l’ensemble des grandeurs d’une variable donn´ee.
Pour les rep´erer : Boxplot Elle d´efinit les valeurs extrˆemes
comme les valeurs sup´erieures ou inf´erieures `a I (=1.5
g´en´eralement) fois l’´ecart interquartile [3]
Mohamed Ali KHOUAJA Traitement des valeurs manquantes et aberrantes sous R
66. Exploration de donn´ees
Types de donn´ees manquantes
M´ethodes de traitement de donn´ees manquantes
Valeurs aberrantes : Outliers
Sommaire
D´efinition
Traitement
D´etection des Outliers
Les boites `a moustaches
Figure – D´etection des valeurs extrˆemes avec les boˆıtes `a moustaches [3]
Mohamed Ali KHOUAJA Traitement des valeurs manquantes et aberrantes sous R
67. Exploration de donn´ees
Types de donn´ees manquantes
M´ethodes de traitement de donn´ees manquantes
Valeurs aberrantes : Outliers
Sommaire
D´efinition
Traitement
D´etection des Outliers
Les boites `a moustaches
> x <- c(1:10, 20, 30)
> boxplot.stats(x)$out
[1] 20 30
Mohamed Ali KHOUAJA Traitement des valeurs manquantes et aberrantes sous R
68. Exploration de donn´ees
Types de donn´ees manquantes
M´ethodes de traitement de donn´ees manquantes
Valeurs aberrantes : Outliers
Sommaire
D´efinition
Traitement
Outline
1 Exploration de donn´ees
Traitements pr´eliminaires
Pourquoi le traitement des donn´ees manquantes
2 Types de donn´ees manquantes
Donn´ees MCAR
Donn´ees MAR
Donn´ees MNAR
3 M´ethodes de traitement de donn´ees manquantes
Exclure les Donn´ees Manquantes DM
L’imputation simple
L’imputation multiple
4 Valeurs aberrantes : Outliers
D´efinition
Traitement
Mohamed Ali KHOUAJA Traitement des valeurs manquantes et aberrantes sous R
69. Exploration de donn´ees
Types de donn´ees manquantes
M´ethodes de traitement de donn´ees manquantes
Valeurs aberrantes : Outliers
Sommaire
D´efinition
Traitement
Traitement des Outliers
Les valeurs aberrantes peuvent ne pas ˆetre des erreurs, mais
bel et bien r´ev´eler des situations extraordinaires
(´etude de comportements frauduleux ou d’´ev´enements rares).
Dans le cas des erreurs (valeurs aberrantes), on pro¸c`ede par
les m´ethodes d’imputation des NA
Mohamed Ali KHOUAJA Traitement des valeurs manquantes et aberrantes sous R
70. Exploration de donn´ees
Types de donn´ees manquantes
M´ethodes de traitement de donn´ees manquantes
Valeurs aberrantes : Outliers
Sommaire
Sommaire
Les jeux de donn´ees `a analyser peuvent contenir des valeurs
manquantes.
Si possible, on va chercher `a les remplacer par une valeur
plausible.
Diff´erentes m´ethodes statistiques existent pour cela. L’une des
plus utilis´ees est l’imputation multiple.
Mohamed Ali KHOUAJA Traitement des valeurs manquantes et aberrantes sous R
71. Annexe R´ef´erences
R´ef´erences I
De Jong, E., Van der Loo, M. : An Introduction to Data
Cleaning with R. Statistics Netherlands, The Hauge (2013)
Kabacoff, R. R in Action, Data analysis and graphics with R -
Manning Publications (2015)
Biernat, E. and Lutz, M. Data science : fondamentaux et
´etudes de cas, EYROLLES (2011)
Zumel, N. and Mount, J. Practical Data Science with R -
Manning Publications (2014)
Mohamed Ali KHOUAJA Traitement des valeurs manquantes et aberrantes sous R