SlideShare une entreprise Scribd logo
1  sur  72
Télécharger pour lire hors ligne
Exploration de donn´ees
Types de donn´ees manquantes
M´ethodes de traitement de donn´ees manquantes
Valeurs aberrantes : Outliers
Sommaire
Exploration et traitement de donn´ees
Traitement des valeurs manquantes et aberrantes sous R
Mohamed Ali KHOUAJA
IFELab www.emi.ac.ma/ifelab
LERMA, EMI
Universit´e Mohamed V
Rabat - Maroc
S´eminaire, 5/5/2016
Mohamed Ali KHOUAJA Traitement des valeurs manquantes et aberrantes sous R
Exploration de donn´ees
Types de donn´ees manquantes
M´ethodes de traitement de donn´ees manquantes
Valeurs aberrantes : Outliers
Sommaire
Plan
1 Exploration de donn´ees
Traitements pr´eliminaires
Pourquoi le traitement des donn´ees manquantes
2 Types de donn´ees manquantes
Donn´ees MCAR
Donn´ees MAR
Donn´ees MNAR
3 M´ethodes de traitement de donn´ees manquantes
Exclure les Donn´ees Manquantes DM
L’imputation simple
L’imputation multiple
4 Valeurs aberrantes : Outliers
D´efinition
Traitement
Mohamed Ali KHOUAJA Traitement des valeurs manquantes et aberrantes sous R
Exploration de donn´ees
Types de donn´ees manquantes
M´ethodes de traitement de donn´ees manquantes
Valeurs aberrantes : Outliers
Sommaire
Traitements pr´eliminaires
Pourquoi le traitement des donn´ees manquantes
Outline
1 Exploration de donn´ees
Traitements pr´eliminaires
Pourquoi le traitement des donn´ees manquantes
2 Types de donn´ees manquantes
Donn´ees MCAR
Donn´ees MAR
Donn´ees MNAR
3 M´ethodes de traitement de donn´ees manquantes
Exclure les Donn´ees Manquantes DM
L’imputation simple
L’imputation multiple
4 Valeurs aberrantes : Outliers
D´efinition
Traitement
Mohamed Ali KHOUAJA Traitement des valeurs manquantes et aberrantes sous R
Exploration de donn´ees
Types de donn´ees manquantes
M´ethodes de traitement de donn´ees manquantes
Valeurs aberrantes : Outliers
Sommaire
Traitements pr´eliminaires
Pourquoi le traitement des donn´ees manquantes
Data mining process
Figure – Data mining process, Datacamp.com
Mohamed Ali KHOUAJA Traitement des valeurs manquantes et aberrantes sous R
Exploration de donn´ees
Types de donn´ees manquantes
M´ethodes de traitement de donn´ees manquantes
Valeurs aberrantes : Outliers
Sommaire
Traitements pr´eliminaires
Pourquoi le traitement des donn´ees manquantes
Data cleaning in statistical analysis
Figure – Statistical analysis value chain, voir [1]
Mohamed Ali KHOUAJA Traitement des valeurs manquantes et aberrantes sous R
Etapes d’´elaboration d’un mod`ele pr´edictif
Figure – Etapes d’´elaboration d’un mod`ele pr´edictif
Etapes d’´elaboration d’un mod`ele pr´edictif
Figure – Etapes d’´elaboration d’un mod`ele pr´edictif
Exploration de donn´ees
Types de donn´ees manquantes
M´ethodes de traitement de donn´ees manquantes
Valeurs aberrantes : Outliers
Sommaire
Traitements pr´eliminaires
Pourquoi le traitement des donn´ees manquantes
Outline
1 Exploration de donn´ees
Traitements pr´eliminaires
Pourquoi le traitement des donn´ees manquantes
2 Types de donn´ees manquantes
Donn´ees MCAR
Donn´ees MAR
Donn´ees MNAR
3 M´ethodes de traitement de donn´ees manquantes
Exclure les Donn´ees Manquantes DM
L’imputation simple
L’imputation multiple
4 Valeurs aberrantes : Outliers
D´efinition
Traitement
Mohamed Ali KHOUAJA Traitement des valeurs manquantes et aberrantes sous R
Exploration de donn´ees
Types de donn´ees manquantes
M´ethodes de traitement de donn´ees manquantes
Valeurs aberrantes : Outliers
Sommaire
Traitements pr´eliminaires
Pourquoi le traitement des donn´ees manquantes
Motivation
Les donn´ees manquantes constituent un probl`eme majeur,
puisque l’information `a disposition est incompl`ete et donc
moins fiable.
Parmi les causes :
Il peut ˆetre impossible de contacter une personne s´electionn´ee
pour faire partie d’une enquˆete (non r´eponse totale)
Ou un r´epondant peut refuser de r´epondre `a une ou plusieurs
questions (non-r´eponse partielle).
Une mauvaise saisie de l’information peut ´egalement g´en´erer
des DM.
Donn´ees aberrantes
Mohamed Ali KHOUAJA Traitement des valeurs manquantes et aberrantes sous R
Exploration de donn´ees
Types de donn´ees manquantes
M´ethodes de traitement de donn´ees manquantes
Valeurs aberrantes : Outliers
Sommaire
Traitements pr´eliminaires
Pourquoi le traitement des donn´ees manquantes
Motivation
Les donn´ees manquantes constituent un probl`eme majeur,
puisque l’information `a disposition est incompl`ete et donc
moins fiable.
Parmi les causes :
Il peut ˆetre impossible de contacter une personne s´electionn´ee
pour faire partie d’une enquˆete (non r´eponse totale)
Ou un r´epondant peut refuser de r´epondre `a une ou plusieurs
questions (non-r´eponse partielle).
Une mauvaise saisie de l’information peut ´egalement g´en´erer
des DM.
Donn´ees aberrantes
Mohamed Ali KHOUAJA Traitement des valeurs manquantes et aberrantes sous R
Exploration de donn´ees
Types de donn´ees manquantes
M´ethodes de traitement de donn´ees manquantes
Valeurs aberrantes : Outliers
Sommaire
Traitements pr´eliminaires
Pourquoi le traitement des donn´ees manquantes
Motivation
Les donn´ees manquantes constituent un probl`eme majeur,
puisque l’information `a disposition est incompl`ete et donc
moins fiable.
Parmi les causes :
Il peut ˆetre impossible de contacter une personne s´electionn´ee
pour faire partie d’une enquˆete (non r´eponse totale)
Ou un r´epondant peut refuser de r´epondre `a une ou plusieurs
questions (non-r´eponse partielle).
Une mauvaise saisie de l’information peut ´egalement g´en´erer
des DM.
Donn´ees aberrantes
Mohamed Ali KHOUAJA Traitement des valeurs manquantes et aberrantes sous R
Exploration de donn´ees
Types de donn´ees manquantes
M´ethodes de traitement de donn´ees manquantes
Valeurs aberrantes : Outliers
Sommaire
Traitements pr´eliminaires
Pourquoi le traitement des donn´ees manquantes
Motivation
Les donn´ees manquantes constituent un probl`eme majeur,
puisque l’information `a disposition est incompl`ete et donc
moins fiable.
Parmi les causes :
Il peut ˆetre impossible de contacter une personne s´electionn´ee
pour faire partie d’une enquˆete (non r´eponse totale)
Ou un r´epondant peut refuser de r´epondre `a une ou plusieurs
questions (non-r´eponse partielle).
Une mauvaise saisie de l’information peut ´egalement g´en´erer
des DM.
Donn´ees aberrantes
Mohamed Ali KHOUAJA Traitement des valeurs manquantes et aberrantes sous R
Exploration de donn´ees
Types de donn´ees manquantes
M´ethodes de traitement de donn´ees manquantes
Valeurs aberrantes : Outliers
Sommaire
Traitements pr´eliminaires
Pourquoi le traitement des donn´ees manquantes
Motivation
Les donn´ees manquantes constituent un probl`eme majeur,
puisque l’information `a disposition est incompl`ete et donc
moins fiable.
Parmi les causes :
Il peut ˆetre impossible de contacter une personne s´electionn´ee
pour faire partie d’une enquˆete (non r´eponse totale)
Ou un r´epondant peut refuser de r´epondre `a une ou plusieurs
questions (non-r´eponse partielle).
Une mauvaise saisie de l’information peut ´egalement g´en´erer
des DM.
Donn´ees aberrantes
Mohamed Ali KHOUAJA Traitement des valeurs manquantes et aberrantes sous R
Exploration de donn´ees
Types de donn´ees manquantes
M´ethodes de traitement de donn´ees manquantes
Valeurs aberrantes : Outliers
Sommaire
Traitements pr´eliminaires
Pourquoi le traitement des donn´ees manquantes
Motivation
Les donn´ees manquantes constituent un probl`eme majeur,
puisque l’information `a disposition est incompl`ete et donc
moins fiable.
Parmi les causes :
Il peut ˆetre impossible de contacter une personne s´electionn´ee
pour faire partie d’une enquˆete (non r´eponse totale)
Ou un r´epondant peut refuser de r´epondre `a une ou plusieurs
questions (non-r´eponse partielle).
Une mauvaise saisie de l’information peut ´egalement g´en´erer
des DM.
Donn´ees aberrantes
Mohamed Ali KHOUAJA Traitement des valeurs manquantes et aberrantes sous R
Exploration de donn´ees
Types de donn´ees manquantes
M´ethodes de traitement de donn´ees manquantes
Valeurs aberrantes : Outliers
Sommaire
Traitements pr´eliminaires
Pourquoi le traitement des donn´ees manquantes
Probl´ematique G´en´erale des Donn´ees NA
L’ensemble des donn´ees avec lequel on doit travailler n’est pas
toujours complet (NA)
Donn´ees manquantes :
Variable `a expliquer
Variable(s) explicative(s)
Mohamed Ali KHOUAJA Traitement des valeurs manquantes et aberrantes sous R
Exploration de donn´ees
Types de donn´ees manquantes
M´ethodes de traitement de donn´ees manquantes
Valeurs aberrantes : Outliers
Sommaire
Traitements pr´eliminaires
Pourquoi le traitement des donn´ees manquantes
Probl´ematique G´en´erale des Donn´ees NA
L’ensemble des donn´ees avec lequel on doit travailler n’est pas
toujours complet (NA)
Donn´ees manquantes :
Variable `a expliquer
Variable(s) explicative(s)
Mohamed Ali KHOUAJA Traitement des valeurs manquantes et aberrantes sous R
Exploration de donn´ees
Types de donn´ees manquantes
M´ethodes de traitement de donn´ees manquantes
Valeurs aberrantes : Outliers
Sommaire
Traitements pr´eliminaires
Pourquoi le traitement des donn´ees manquantes
Probl´ematique G´en´erale des Donn´ees NA
Impact Perte d’information non pertinente et/ou non
informative (Impact Nul)
Perte d’information pertinente et/ou informative
(Impact fonction du taux de NA + Biais possible
dans l’estimation de la pr´ecision et de l’exactitude)
Solution Ne rien faire (Lorsque la proportion de NA de
l’´echantillon est faible <5%)
Utiliser une proc´edure adapt´ee de remplacement des
NA
Mohamed Ali KHOUAJA Traitement des valeurs manquantes et aberrantes sous R
Exploration de donn´ees
Types de donn´ees manquantes
M´ethodes de traitement de donn´ees manquantes
Valeurs aberrantes : Outliers
Sommaire
Traitements pr´eliminaires
Pourquoi le traitement des donn´ees manquantes
Probl´ematique G´en´erale des Donn´ees NA
Impact Perte d’information non pertinente et/ou non
informative (Impact Nul)
Perte d’information pertinente et/ou informative
(Impact fonction du taux de NA + Biais possible
dans l’estimation de la pr´ecision et de l’exactitude)
Solution Ne rien faire (Lorsque la proportion de NA de
l’´echantillon est faible <5%)
Utiliser une proc´edure adapt´ee de remplacement des
NA
Mohamed Ali KHOUAJA Traitement des valeurs manquantes et aberrantes sous R
Exploration de donn´ees
Types de donn´ees manquantes
M´ethodes de traitement de donn´ees manquantes
Valeurs aberrantes : Outliers
Sommaire
Traitements pr´eliminaires
Pourquoi le traitement des donn´ees manquantes
Probl´ematique G´en´erale des Donn´ees NA
Impact Perte d’information non pertinente et/ou non
informative (Impact Nul)
Perte d’information pertinente et/ou informative
(Impact fonction du taux de NA + Biais possible
dans l’estimation de la pr´ecision et de l’exactitude)
Solution Ne rien faire (Lorsque la proportion de NA de
l’´echantillon est faible <5%)
Utiliser une proc´edure adapt´ee de remplacement des
NA
Mohamed Ali KHOUAJA Traitement des valeurs manquantes et aberrantes sous R
Exploration de donn´ees
Types de donn´ees manquantes
M´ethodes de traitement de donn´ees manquantes
Valeurs aberrantes : Outliers
Sommaire
Traitements pr´eliminaires
Pourquoi le traitement des donn´ees manquantes
Probl´ematique G´en´erale des Donn´ees NA
Impact Perte d’information non pertinente et/ou non
informative (Impact Nul)
Perte d’information pertinente et/ou informative
(Impact fonction du taux de NA + Biais possible
dans l’estimation de la pr´ecision et de l’exactitude)
Solution Ne rien faire (Lorsque la proportion de NA de
l’´echantillon est faible <5%)
Utiliser une proc´edure adapt´ee de remplacement des
NA
Mohamed Ali KHOUAJA Traitement des valeurs manquantes et aberrantes sous R
Exploration de donn´ees
Types de donn´ees manquantes
M´ethodes de traitement de donn´ees manquantes
Valeurs aberrantes : Outliers
Sommaire
Traitements pr´eliminaires
Pourquoi le traitement des donn´ees manquantes
Probl´ematique G´en´erale des Donn´ees NA
Impact Perte d’information non pertinente et/ou non
informative (Impact Nul)
Perte d’information pertinente et/ou informative
(Impact fonction du taux de NA + Biais possible
dans l’estimation de la pr´ecision et de l’exactitude)
Solution Ne rien faire (Lorsque la proportion de NA de
l’´echantillon est faible <5%)
Utiliser une proc´edure adapt´ee de remplacement des
NA
Mohamed Ali KHOUAJA Traitement des valeurs manquantes et aberrantes sous R
Exploration de donn´ees
Types de donn´ees manquantes
M´ethodes de traitement de donn´ees manquantes
Valeurs aberrantes : Outliers
Sommaire
Donn´ees MCAR
Donn´ees MAR
Donn´ees MNAR
Choix de types de donn´ees manquantes
Sommaire
1 Exploration de donn´ees
Traitements pr´eliminaires
Pourquoi le traitement des donn´ees manquantes
2 Types de donn´ees manquantes
Donn´ees MCAR
Donn´ees MAR
Donn´ees MNAR
3 M´ethodes de traitement de donn´ees manquantes
Exclure les Donn´ees Manquantes DM
L’imputation simple
L’imputation multiple
4 Valeurs aberrantes : Outliers
D´efinition
Traitement
Mohamed Ali KHOUAJA Traitement des valeurs manquantes et aberrantes sous R
Exploration de donn´ees
Types de donn´ees manquantes
M´ethodes de traitement de donn´ees manquantes
Valeurs aberrantes : Outliers
Sommaire
Donn´ees MCAR
Donn´ees MAR
Donn´ees MNAR
Choix de types de donn´ees manquantes
Types de donn´ees manquantes
Typologie de donn´ees manquantes, selon Little Rubin (1987), 3
cat´egories :
MCAR (”Missing completely at random”)
MAR (”Missing at random”)
MNAR (”Missing not at random”)
Mohamed Ali KHOUAJA Traitement des valeurs manquantes et aberrantes sous R
Exploration de donn´ees
Types de donn´ees manquantes
M´ethodes de traitement de donn´ees manquantes
Valeurs aberrantes : Outliers
Sommaire
Donn´ees MCAR
Donn´ees MAR
Donn´ees MNAR
Choix de types de donn´ees manquantes
Outline
1 Exploration de donn´ees
Traitements pr´eliminaires
Pourquoi le traitement des donn´ees manquantes
2 Types de donn´ees manquantes
Donn´ees MCAR
Donn´ees MAR
Donn´ees MNAR
3 M´ethodes de traitement de donn´ees manquantes
Exclure les Donn´ees Manquantes DM
L’imputation simple
L’imputation multiple
4 Valeurs aberrantes : Outliers
D´efinition
Traitement
Mohamed Ali KHOUAJA Traitement des valeurs manquantes et aberrantes sous R
Exploration de donn´ees
Types de donn´ees manquantes
M´ethodes de traitement de donn´ees manquantes
Valeurs aberrantes : Outliers
Sommaire
Donn´ees MCAR
Donn´ees MAR
Donn´ees MNAR
Choix de types de donn´ees manquantes
Donn´ees MCAR
Missing Completely At Random
La probabilit´e qu’une valeur de la variable X1 soit manquante
ne d´epend pas des valeurs prises par les autres variables Xj=1,
qu’elles soient manquantes ou pas.
Il n’est donc pas possible de d´efinir un profil des individus
ayant des valeurs manquantes, la probabilit´e de ces donn´ees
est uniforme.
P(xi1manquant|xijobserve, xijmanquant) = P(xi1manquant)
De mani`ere g´en´erale, ce type de DM est tr`es rare.
Mohamed Ali KHOUAJA Traitement des valeurs manquantes et aberrantes sous R
Exploration de donn´ees
Types de donn´ees manquantes
M´ethodes de traitement de donn´ees manquantes
Valeurs aberrantes : Outliers
Sommaire
Donn´ees MCAR
Donn´ees MAR
Donn´ees MNAR
Choix de types de donn´ees manquantes
Donn´ees MCAR
Missing Completely At Random
La probabilit´e qu’une valeur de la variable X1 soit manquante
ne d´epend pas des valeurs prises par les autres variables Xj=1,
qu’elles soient manquantes ou pas.
Il n’est donc pas possible de d´efinir un profil des individus
ayant des valeurs manquantes, la probabilit´e de ces donn´ees
est uniforme.
P(xi1manquant|xijobserve, xijmanquant) = P(xi1manquant)
De mani`ere g´en´erale, ce type de DM est tr`es rare.
Mohamed Ali KHOUAJA Traitement des valeurs manquantes et aberrantes sous R
Exploration de donn´ees
Types de donn´ees manquantes
M´ethodes de traitement de donn´ees manquantes
Valeurs aberrantes : Outliers
Sommaire
Donn´ees MCAR
Donn´ees MAR
Donn´ees MNAR
Choix de types de donn´ees manquantes
Donn´ees MCAR
Missing Completely At Random
La probabilit´e qu’une valeur de la variable X1 soit manquante
ne d´epend pas des valeurs prises par les autres variables Xj=1,
qu’elles soient manquantes ou pas.
Il n’est donc pas possible de d´efinir un profil des individus
ayant des valeurs manquantes, la probabilit´e de ces donn´ees
est uniforme.
P(xi1manquant|xijobserve, xijmanquant) = P(xi1manquant)
De mani`ere g´en´erale, ce type de DM est tr`es rare.
Mohamed Ali KHOUAJA Traitement des valeurs manquantes et aberrantes sous R
Exploration de donn´ees
Types de donn´ees manquantes
M´ethodes de traitement de donn´ees manquantes
Valeurs aberrantes : Outliers
Sommaire
Donn´ees MCAR
Donn´ees MAR
Donn´ees MNAR
Choix de types de donn´ees manquantes
Donn´ees MCAR
Missing Completely At Random
La probabilit´e qu’une valeur de la variable X1 soit manquante
ne d´epend pas des valeurs prises par les autres variables Xj=1,
qu’elles soient manquantes ou pas.
Il n’est donc pas possible de d´efinir un profil des individus
ayant des valeurs manquantes, la probabilit´e de ces donn´ees
est uniforme.
P(xi1manquant|xijobserve, xijmanquant) = P(xi1manquant)
De mani`ere g´en´erale, ce type de DM est tr`es rare.
Mohamed Ali KHOUAJA Traitement des valeurs manquantes et aberrantes sous R
Exploration de donn´ees
Types de donn´ees manquantes
M´ethodes de traitement de donn´ees manquantes
Valeurs aberrantes : Outliers
Sommaire
Donn´ees MCAR
Donn´ees MAR
Donn´ees MNAR
Choix de types de donn´ees manquantes
Outline
1 Exploration de donn´ees
Traitements pr´eliminaires
Pourquoi le traitement des donn´ees manquantes
2 Types de donn´ees manquantes
Donn´ees MCAR
Donn´ees MAR
Donn´ees MNAR
3 M´ethodes de traitement de donn´ees manquantes
Exclure les Donn´ees Manquantes DM
L’imputation simple
L’imputation multiple
4 Valeurs aberrantes : Outliers
D´efinition
Traitement
Mohamed Ali KHOUAJA Traitement des valeurs manquantes et aberrantes sous R
Exploration de donn´ees
Types de donn´ees manquantes
M´ethodes de traitement de donn´ees manquantes
Valeurs aberrantes : Outliers
Sommaire
Donn´ees MCAR
Donn´ees MAR
Donn´ees MNAR
Choix de types de donn´ees manquantes
Donn´ees MAR
Missing At Random
La probabilit´e qu’une valeur de la variable X1 soit manquante
ne d´epend pas des valeurs prises par les autres variables Xj=1
manquantes, mais de leurs valeurs observ´ees.
Exemple : Il existe une diff´erence de non-r´eponse entre les
hommes et les femmes concernant la question du revenu, mais
parmi les hommes entre eux ou parmi les femmes entre elles,
la probabilit´e d’avoir des non-r´eponses est identique quel que
soit le niveau du revenu
P(xi1manquant|xijobserve, xijmanquant) = P(xi1manquant|xijobserve)
Mohamed Ali KHOUAJA Traitement des valeurs manquantes et aberrantes sous R
Exploration de donn´ees
Types de donn´ees manquantes
M´ethodes de traitement de donn´ees manquantes
Valeurs aberrantes : Outliers
Sommaire
Donn´ees MCAR
Donn´ees MAR
Donn´ees MNAR
Choix de types de donn´ees manquantes
Donn´ees MAR
Missing At Random
La probabilit´e qu’une valeur de la variable X1 soit manquante
ne d´epend pas des valeurs prises par les autres variables Xj=1
manquantes, mais de leurs valeurs observ´ees.
Exemple : Il existe une diff´erence de non-r´eponse entre les
hommes et les femmes concernant la question du revenu, mais
parmi les hommes entre eux ou parmi les femmes entre elles,
la probabilit´e d’avoir des non-r´eponses est identique quel que
soit le niveau du revenu
P(xi1manquant|xijobserve, xijmanquant) = P(xi1manquant|xijobserve)
Mohamed Ali KHOUAJA Traitement des valeurs manquantes et aberrantes sous R
Exploration de donn´ees
Types de donn´ees manquantes
M´ethodes de traitement de donn´ees manquantes
Valeurs aberrantes : Outliers
Sommaire
Donn´ees MCAR
Donn´ees MAR
Donn´ees MNAR
Choix de types de donn´ees manquantes
Donn´ees MAR
Missing At Random
La probabilit´e qu’une valeur de la variable X1 soit manquante
ne d´epend pas des valeurs prises par les autres variables Xj=1
manquantes, mais de leurs valeurs observ´ees.
Exemple : Il existe une diff´erence de non-r´eponse entre les
hommes et les femmes concernant la question du revenu, mais
parmi les hommes entre eux ou parmi les femmes entre elles,
la probabilit´e d’avoir des non-r´eponses est identique quel que
soit le niveau du revenu
P(xi1manquant|xijobserve, xijmanquant) = P(xi1manquant|xijobserve)
Mohamed Ali KHOUAJA Traitement des valeurs manquantes et aberrantes sous R
Exploration de donn´ees
Types de donn´ees manquantes
M´ethodes de traitement de donn´ees manquantes
Valeurs aberrantes : Outliers
Sommaire
Donn´ees MCAR
Donn´ees MAR
Donn´ees MNAR
Choix de types de donn´ees manquantes
Outline
1 Exploration de donn´ees
Traitements pr´eliminaires
Pourquoi le traitement des donn´ees manquantes
2 Types de donn´ees manquantes
Donn´ees MCAR
Donn´ees MAR
Donn´ees MNAR
3 M´ethodes de traitement de donn´ees manquantes
Exclure les Donn´ees Manquantes DM
L’imputation simple
L’imputation multiple
4 Valeurs aberrantes : Outliers
D´efinition
Traitement
Mohamed Ali KHOUAJA Traitement des valeurs manquantes et aberrantes sous R
Exploration de donn´ees
Types de donn´ees manquantes
M´ethodes de traitement de donn´ees manquantes
Valeurs aberrantes : Outliers
Sommaire
Donn´ees MCAR
Donn´ees MAR
Donn´ees MNAR
Choix de types de donn´ees manquantes
Donn´ees MNAR
Missing Not At Random
La donn´ee est manquante pour une raison pr´ecise voulue.
La probabilit´e qu’une valeur de la variable x soit manquante
ne d´epend pas des valeurs prises par les autres variables Xj=i
observ´ees, mais de leurs valeurs manquantes
P(xi1manquant|xijobserve, xijmanquant) = P(xi1manquant|xmanquant)
Mohamed Ali KHOUAJA Traitement des valeurs manquantes et aberrantes sous R
Exploration de donn´ees
Types de donn´ees manquantes
M´ethodes de traitement de donn´ees manquantes
Valeurs aberrantes : Outliers
Sommaire
Donn´ees MCAR
Donn´ees MAR
Donn´ees MNAR
Choix de types de donn´ees manquantes
Donn´ees MNAR
Missing Not At Random
La donn´ee est manquante pour une raison pr´ecise voulue.
La probabilit´e qu’une valeur de la variable x soit manquante
ne d´epend pas des valeurs prises par les autres variables Xj=i
observ´ees, mais de leurs valeurs manquantes
P(xi1manquant|xijobserve, xijmanquant) = P(xi1manquant|xmanquant)
Mohamed Ali KHOUAJA Traitement des valeurs manquantes et aberrantes sous R
Exploration de donn´ees
Types de donn´ees manquantes
M´ethodes de traitement de donn´ees manquantes
Valeurs aberrantes : Outliers
Sommaire
Donn´ees MCAR
Donn´ees MAR
Donn´ees MNAR
Choix de types de donn´ees manquantes
Donn´ees MNAR
Missing Not At Random
La donn´ee est manquante pour une raison pr´ecise voulue.
La probabilit´e qu’une valeur de la variable x soit manquante
ne d´epend pas des valeurs prises par les autres variables Xj=i
observ´ees, mais de leurs valeurs manquantes
P(xi1manquant|xijobserve, xijmanquant) = P(xi1manquant|xmanquant)
Mohamed Ali KHOUAJA Traitement des valeurs manquantes et aberrantes sous R
Exploration de donn´ees
Types de donn´ees manquantes
M´ethodes de traitement de donn´ees manquantes
Valeurs aberrantes : Outliers
Sommaire
Donn´ees MCAR
Donn´ees MAR
Donn´ees MNAR
Choix de types de donn´ees manquantes
Typologie de donn´ees manquantes
Choix de types de donn´ees
Malheureusement
On ne peut g´en´eralement pas dire, `a partir des donn´ees, quel
est le m´echanisme de manque (MCAR, MAR, MNAR)
Dans le cas MNAR, il est rare que l’on connaisse le mod`ele
associ´e au manquement
Mohamed Ali KHOUAJA Traitement des valeurs manquantes et aberrantes sous R
Exploration de donn´ees
Types de donn´ees manquantes
M´ethodes de traitement de donn´ees manquantes
Valeurs aberrantes : Outliers
Sommaire
Donn´ees MCAR
Donn´ees MAR
Donn´ees MNAR
Choix de types de donn´ees manquantes
Typologie de donn´ees manquantes
Choix de types de donn´ees
Malheureusement
On ne peut g´en´eralement pas dire, `a partir des donn´ees, quel
est le m´echanisme de manque (MCAR, MAR, MNAR)
Dans le cas MNAR, il est rare que l’on connaisse le mod`ele
associ´e au manquement
Mohamed Ali KHOUAJA Traitement des valeurs manquantes et aberrantes sous R
Exploration de donn´ees
Types de donn´ees manquantes
M´ethodes de traitement de donn´ees manquantes
Valeurs aberrantes : Outliers
Sommaire
Exclure les Donn´ees Manquantes DM
L’imputation simple
L’imputation multiple
Sommaire
1 Exploration de donn´ees
Traitements pr´eliminaires
Pourquoi le traitement des donn´ees manquantes
2 Types de donn´ees manquantes
Donn´ees MCAR
Donn´ees MAR
Donn´ees MNAR
3 M´ethodes de traitement de donn´ees manquantes
Exclure les Donn´ees Manquantes DM
L’imputation simple
L’imputation multiple
4 Valeurs aberrantes : Outliers
D´efinition
Traitement
Mohamed Ali KHOUAJA Traitement des valeurs manquantes et aberrantes sous R
Exploration de donn´ees
Types de donn´ees manquantes
M´ethodes de traitement de donn´ees manquantes
Valeurs aberrantes : Outliers
Sommaire
Exclure les Donn´ees Manquantes DM
L’imputation simple
L’imputation multiple
Outline
1 Exploration de donn´ees
Traitements pr´eliminaires
Pourquoi le traitement des donn´ees manquantes
2 Types de donn´ees manquantes
Donn´ees MCAR
Donn´ees MAR
Donn´ees MNAR
3 M´ethodes de traitement de donn´ees manquantes
Exclure les Donn´ees Manquantes DM
L’imputation simple
L’imputation multiple
4 Valeurs aberrantes : Outliers
D´efinition
Traitement
Mohamed Ali KHOUAJA Traitement des valeurs manquantes et aberrantes sous R
Exploration de donn´ees
Types de donn´ees manquantes
M´ethodes de traitement de donn´ees manquantes
Valeurs aberrantes : Outliers
Sommaire
Exclure les Donn´ees Manquantes DM
L’imputation simple
L’imputation multiple
Exclure les DM
List Wise Deletion Toutes les observations ayant au moins une
donn´ee manquante, cela permet d’effectuer des
analyses sur des cas dont toutes les donn´ees sont
connues. En plus elle est peu efficiente, car beaucoup
d’observations peuvent disparaitre,
Pair Wise Deletion On performe notre analyse avec toutes les
cases dont les variables en question sont pr´esentes.
Son d´esaventage est d’utiliser diff´erentes tailles
d’´echantillons pour les diff´erentes variables.
Valide seulement en cas de MCAR
Mohamed Ali KHOUAJA Traitement des valeurs manquantes et aberrantes sous R
Exploration de donn´ees
Types de donn´ees manquantes
M´ethodes de traitement de donn´ees manquantes
Valeurs aberrantes : Outliers
Sommaire
Exclure les Donn´ees Manquantes DM
L’imputation simple
L’imputation multiple
Exclure les DM
List Wise Deletion Toutes les observations ayant au moins une
donn´ee manquante, cela permet d’effectuer des
analyses sur des cas dont toutes les donn´ees sont
connues. En plus elle est peu efficiente, car beaucoup
d’observations peuvent disparaitre,
Pair Wise Deletion On performe notre analyse avec toutes les
cases dont les variables en question sont pr´esentes.
Son d´esaventage est d’utiliser diff´erentes tailles
d’´echantillons pour les diff´erentes variables.
Valide seulement en cas de MCAR
Mohamed Ali KHOUAJA Traitement des valeurs manquantes et aberrantes sous R
Exploration de donn´ees
Types de donn´ees manquantes
M´ethodes de traitement de donn´ees manquantes
Valeurs aberrantes : Outliers
Sommaire
Exclure les Donn´ees Manquantes DM
L’imputation simple
L’imputation multiple
Exclure les DM
List Wise Deletion Toutes les observations ayant au moins une
donn´ee manquante, cela permet d’effectuer des
analyses sur des cas dont toutes les donn´ees sont
connues. En plus elle est peu efficiente, car beaucoup
d’observations peuvent disparaitre,
Pair Wise Deletion On performe notre analyse avec toutes les
cases dont les variables en question sont pr´esentes.
Son d´esaventage est d’utiliser diff´erentes tailles
d’´echantillons pour les diff´erentes variables.
Valide seulement en cas de MCAR
Mohamed Ali KHOUAJA Traitement des valeurs manquantes et aberrantes sous R
Exploration de donn´ees
Types de donn´ees manquantes
M´ethodes de traitement de donn´ees manquantes
Valeurs aberrantes : Outliers
Sommaire
Exclure les Donn´ees Manquantes DM
L’imputation simple
L’imputation multiple
Outline
1 Exploration de donn´ees
Traitements pr´eliminaires
Pourquoi le traitement des donn´ees manquantes
2 Types de donn´ees manquantes
Donn´ees MCAR
Donn´ees MAR
Donn´ees MNAR
3 M´ethodes de traitement de donn´ees manquantes
Exclure les Donn´ees Manquantes DM
L’imputation simple
L’imputation multiple
4 Valeurs aberrantes : Outliers
D´efinition
Traitement
Mohamed Ali KHOUAJA Traitement des valeurs manquantes et aberrantes sous R
Exploration de donn´ees
Types de donn´ees manquantes
M´ethodes de traitement de donn´ees manquantes
Valeurs aberrantes : Outliers
Sommaire
Exclure les Donn´ees Manquantes DM
L’imputation simple
L’imputation multiple
L’imputation simple
Principe : remplacer chaque donn´ee manquante par une valeur
plausible. Cela peut ˆetre : la moyenne ou m´ediane pour les
attributs quantis ou le mode pour les attributs qualis.
Cette m´ethode peut comprendre deux types :
Generalized Imputation On calcule la moyenne/m´ediane de toute
les valeurs non manquantes que prend la variable,
puis on remplace les DM par la valeur de la
moyenne/m´ediane ou le mode pour les attributs
qualis.
Similar case Imputation qui remplace les donn´ees manquantes par
des valeurs provenant d’individus similaires pour
lesquels toute l’information a ´et´e observ´ee, (voir
l’exemple en slide suivante)
Mohamed Ali KHOUAJA Traitement des valeurs manquantes et aberrantes sous R
Exploration de donn´ees
Types de donn´ees manquantes
M´ethodes de traitement de donn´ees manquantes
Valeurs aberrantes : Outliers
Sommaire
Exclure les Donn´ees Manquantes DM
L’imputation simple
L’imputation multiple
L’imputation simple
Principe : remplacer chaque donn´ee manquante par une valeur
plausible. Cela peut ˆetre : la moyenne ou m´ediane pour les
attributs quantis ou le mode pour les attributs qualis.
Cette m´ethode peut comprendre deux types :
Generalized Imputation On calcule la moyenne/m´ediane de toute
les valeurs non manquantes que prend la variable,
puis on remplace les DM par la valeur de la
moyenne/m´ediane ou le mode pour les attributs
qualis.
Similar case Imputation qui remplace les donn´ees manquantes par
des valeurs provenant d’individus similaires pour
lesquels toute l’information a ´et´e observ´ee, (voir
l’exemple en slide suivante)
Mohamed Ali KHOUAJA Traitement des valeurs manquantes et aberrantes sous R
Exploration de donn´ees
Types de donn´ees manquantes
M´ethodes de traitement de donn´ees manquantes
Valeurs aberrantes : Outliers
Sommaire
Exclure les Donn´ees Manquantes DM
L’imputation simple
L’imputation multiple
L’imputation simple
Exemple de Similar case Imputation
Gender Manpower Sales
1 M 25.00 343.00
2 F 280.00
3 M 33.00 332.00
4 M 272.00
5 F 25.00
6 M 29.00 326.00
7 26.00 259.00
8 M 32.00 297.00
Table – Jeu de donn´ees avec DM
Mohamed Ali KHOUAJA Traitement des valeurs manquantes et aberrantes sous R
Exploration de donn´ees
Types de donn´ees manquantes
M´ethodes de traitement de donn´ees manquantes
Valeurs aberrantes : Outliers
Sommaire
Exclure les Donn´ees Manquantes DM
L’imputation simple
L’imputation multiple
L’imputation simple
Exemple de Similar case Imputation
Gender Manpower Sales
1 M 25.00 343.00
2 F NA 280.00
3 M 33.00 332.00
4 M NA 272.00
5 F 25.00 NA
6 M 29.00 326.00
7 NA 26.00 259.00
8 M 32.00 297.00
Table – Jeu de donn´ees avec DM
Mohamed Ali KHOUAJA Traitement des valeurs manquantes et aberrantes sous R
Exploration de donn´ees
Types de donn´ees manquantes
M´ethodes de traitement de donn´ees manquantes
Valeurs aberrantes : Outliers
Sommaire
Exclure les Donn´ees Manquantes DM
L’imputation simple
L’imputation multiple
L’imputation simple
Exemple de Similar case Imputation
On calcule la moyenne (en variable Manpower) pour le genre
(Man) :
> mean(ListDM[Gender==c("M"),]$Manpower, na.rm = TRUE)
[1] 29.75
et (Female), pour les valeurs non manquantes :
> mean(ListDM[Gender==c("F"),]$Manpower, na.rm = TRUE)
[1] 25
Ensuite on remplace les DM, pour ”M”par 29.75 et pour ”F”par 25.
Mohamed Ali KHOUAJA Traitement des valeurs manquantes et aberrantes sous R
Exploration de donn´ees
Types de donn´ees manquantes
M´ethodes de traitement de donn´ees manquantes
Valeurs aberrantes : Outliers
Sommaire
Exclure les Donn´ees Manquantes DM
L’imputation simple
L’imputation multiple
L’imputation simple
Ratio Imputation
Ici, la valeur est estim´ee ˆxi par un ratio multipli´e par la valeur
conjugu´ee de covariant yi .
ˆxi = ˆRyi
Impl´ementation sur R :
> x=ListDM[,2]
> y=ListDM[,3]
> I= is.na(x)
> R=sum(x[!I])/sum(y[!I & !is.na(y)])
> x[I]=R*y[I]
Mohamed Ali KHOUAJA Traitement des valeurs manquantes et aberrantes sous R
Exploration de donn´ees
Types de donn´ees manquantes
M´ethodes de traitement de donn´ees manquantes
Valeurs aberrantes : Outliers
Sommaire
Exclure les Donn´ees Manquantes DM
L’imputation simple
L’imputation multiple
Mod`ele de pr´ediction
Ici,
On construit un mod`ele de pr´ediction pour estimer les valeurs
avec lesquelles on substitue les DM.
ˆxi = ˆβ0 + ˆβ1y1,i + ... + ˆβkyk,i
On peut utiliser : Regr´ession, ANOVA, R´egression logistique
A noter que les packages Hmisc, VIM, mi et mice,
impl´ementent des m´ethodes d’imputation utilisant de formes
de r´egression
Mohamed Ali KHOUAJA Traitement des valeurs manquantes et aberrantes sous R
Exploration de donn´ees
Types de donn´ees manquantes
M´ethodes de traitement de donn´ees manquantes
Valeurs aberrantes : Outliers
Sommaire
Exclure les Donn´ees Manquantes DM
L’imputation simple
L’imputation multiple
Imputation KNN
Dans cette m´ethode :
Les DM d’un attribut sont imput´es en utilisant les attributs
les plus similaires `a celui en question.
La similatit´e entre deux attributs est d´etermin´ee en utilisant
une fonction de distance.
Le package VIM de R, utilise une fonction appel´ee kNN qui
impl´emente une distance de Gowers pour d´eterminer les K
proches voisins
Mohamed Ali KHOUAJA Traitement des valeurs manquantes et aberrantes sous R
Exploration de donn´ees
Types de donn´ees manquantes
M´ethodes de traitement de donn´ees manquantes
Valeurs aberrantes : Outliers
Sommaire
Exclure les Donn´ees Manquantes DM
L’imputation simple
L’imputation multiple
Imputation KNN
Exemple sous R
> library(VIM)
> data(iris)
> n <- nrow(iris)
> # provide some empty values (10 in each column, randomly)
> for (i in 1:ncol(iris)) {
+ iris[sample(1:n, 10, replace = FALSE), i] <- NA
+ }
> iris2 <- kNN(iris)
Time difference of 0.058038 secs
Mohamed Ali KHOUAJA Traitement des valeurs manquantes et aberrantes sous R
Exploration de donn´ees
Types de donn´ees manquantes
M´ethodes de traitement de donn´ees manquantes
Valeurs aberrantes : Outliers
Sommaire
Exclure les Donn´ees Manquantes DM
L’imputation simple
L’imputation multiple
Autres m´ethodes d’imputation
Hot deck imputation Imputer la valeur manquante avec une valeur
observ´ee de la mˆeme BDD al´eatoirement (sous R, la
fonction impute du package Hmisc impl´emente
cette m´ethode en ajoutant le param`etre ”random”)
Exemple : Soit ”height”les tailles extraites du jeu de donn´ees
”women”:
> height <- women$height
> height[c(6,9)]<-NA #Ajouter des DM
> height<-Hmisc::impute(height, "random")
> height
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
58 59 60 61 62 65* 64 65 61* 67 68 69 70 71 72
Mohamed Ali KHOUAJA Traitement des valeurs manquantes et aberrantes sous R
Exploration de donn´ees
Types de donn´ees manquantes
M´ethodes de traitement de donn´ees manquantes
Valeurs aberrantes : Outliers
Sommaire
Exclure les Donn´ees Manquantes DM
L’imputation simple
L’imputation multiple
Outline
1 Exploration de donn´ees
Traitements pr´eliminaires
Pourquoi le traitement des donn´ees manquantes
2 Types de donn´ees manquantes
Donn´ees MCAR
Donn´ees MAR
Donn´ees MNAR
3 M´ethodes de traitement de donn´ees manquantes
Exclure les Donn´ees Manquantes DM
L’imputation simple
L’imputation multiple
4 Valeurs aberrantes : Outliers
D´efinition
Traitement
Mohamed Ali KHOUAJA Traitement des valeurs manquantes et aberrantes sous R
Exploration de donn´ees
Types de donn´ees manquantes
M´ethodes de traitement de donn´ees manquantes
Valeurs aberrantes : Outliers
Sommaire
Exclure les Donn´ees Manquantes DM
L’imputation simple
L’imputation multiple
L’imputation multiple
Principe : proc´eder `a m > 1 imputations afin d’obtenir m valeurs
pour chaque donn´ee manquante, et `a combiner ensuite les
statistiques calcul´ees ind´ependamment sur les m jeux de donn´ees.
les r´esultats peuvent varier selon les logiciels et les mod`eles
Souvent, on opte pour l’imputation multiple et cela revient `a
plusieurs raisons :
Sous l’hypoth`ese MAR, MI produit des estimations non
biais´ees ainsi que des variances non biais´ees
M´ethode tr`es flexible
Large disponibilit´e des techniques de MI dans les logiciels de
statistique
Les packages mice et mi impl´ementent de tels m´ethodes
Mohamed Ali KHOUAJA Traitement des valeurs manquantes et aberrantes sous R
Exploration de donn´ees
Types de donn´ees manquantes
M´ethodes de traitement de donn´ees manquantes
Valeurs aberrantes : Outliers
Sommaire
Exclure les Donn´ees Manquantes DM
L’imputation simple
L’imputation multiple
L’imputation multiple
Etape 1 : on remplace chaque valeur manquante par M (>1)
valeurs tir´ees d’une distribution appropri´ee.
Mohamed Ali KHOUAJA Traitement des valeurs manquantes et aberrantes sous R
Exploration de donn´ees
Types de donn´ees manquantes
M´ethodes de traitement de donn´ees manquantes
Valeurs aberrantes : Outliers
Sommaire
Exclure les Donn´ees Manquantes DM
L’imputation simple
L’imputation multiple
L’imputation multiple
Etape 2 : on r´ealise des analyses ind´ependantes, mais avec la
mˆeme m´ethode, de M bases imput´ees.
Mohamed Ali KHOUAJA Traitement des valeurs manquantes et aberrantes sous R
Exploration de donn´ees
Types de donn´ees manquantes
M´ethodes de traitement de donn´ees manquantes
Valeurs aberrantes : Outliers
Sommaire
Exclure les Donn´ees Manquantes DM
L’imputation simple
L’imputation multiple
L’imputation multiple
Etape 3 : on combine les r´esultats de ces analyses afin de refl´eter
la variabilit´e suppl´ementaire due aux donn´ees manquantes.
Mohamed Ali KHOUAJA Traitement des valeurs manquantes et aberrantes sous R
Exploration de donn´ees
Types de donn´ees manquantes
M´ethodes de traitement de donn´ees manquantes
Valeurs aberrantes : Outliers
Sommaire
Exclure les Donn´ees Manquantes DM
L’imputation simple
L’imputation multiple
L’imputation multiple
Exemple sous R
> summary(iris) #Apr`es g´en´eration des DM sur le jeu de donn´ees "iris"
Sepal.Length Sepal.Width Petal.Length Petal.Width
Min. :4.400 Min. :2.000 Min. :1.000 Min. :0.100
1st Qu.:5.100 1st Qu.:2.800 1st Qu.:1.575 1st Qu.:0.375
Median :5.900 Median :3.000 Median :4.350 Median :1.300
Mean :5.911 Mean :3.042 Mean :3.773 Mean :1.215
3rd Qu.:6.500 3rd Qu.:3.300 3rd Qu.:5.100 3rd Qu.:1.800
Max. :7.900 Max. :4.400 Max. :6.900 Max. :2.500
NA's :17 NA's :20 NA's :18 NA's :18
Species
setosa :45
versicolor:44
virginica :41
NA's :20
Pour imputer les valeurs manquantes :
> imputed.data <- mice(iris.mis, m=5, maxit = 50, method = 'pmm', seed = 100);
m repr´esente 5 jeux de donn´ees imput´es
maxit d´esigne le nombre d’it´erations pris pour imputer les DM
method d´esigne la m´ethode d’imputation utilis´ee (ici ; Predective Mean Matching)
Mohamed Ali KHOUAJA Traitement des valeurs manquantes et aberrantes sous R
Exploration de donn´ees
Types de donn´ees manquantes
M´ethodes de traitement de donn´ees manquantes
Valeurs aberrantes : Outliers
Sommaire
Exclure les Donn´ees Manquantes DM
L’imputation simple
L’imputation multiple
L’imputation multiple
Exemple sous R
> summary(imputed.data)
Multiply imputed data set
Call:
mice(data = iris.mis, m = 5, method = "pmm", maxit = 50, seed = 100)
Number of multiple imputations: 5
Missing cells per column:
Sepal.Length Sepal.Width Petal.Length Petal.Width
17 20 18 18
Imputation methods:
Sepal.Length Sepal.Width Petal.Length Petal.Width
"pmm" "pmm" "pmm" "pmm"
VisitSequence:
Sepal.Length Sepal.Width Petal.Length Petal.Width
1 2 3 4
PredictorMatrix:
Sepal.Length Sepal.Width Petal.Length Petal.Width
Sepal.Length 0 1 1 1
Sepal.Width 1 0 1 1
Petal.Length 1 1 0 1
Petal.Width 1 1 1 0
Random generator seed value: 100
Mohamed Ali KHOUAJA Traitement des valeurs manquantes et aberrantes sous R
Exploration de donn´ees
Types de donn´ees manquantes
M´ethodes de traitement de donn´ees manquantes
Valeurs aberrantes : Outliers
Sommaire
Exclure les Donn´ees Manquantes DM
L’imputation simple
L’imputation multiple
L’imputation multiple
Exemple sous R
Pour s´el´ectionner un jeu de donn´ees des 5 imput´es, on utilise la fonction complete()
> completeData <- complete(imputed.data, 2)
> summary(completeData)
Sepal.Length Sepal.Width Petal.Length Petal.Width
Min. :4.400 Min. :2.000 Min. :1.000 Min. :0.100
1st Qu.:5.100 1st Qu.:2.800 1st Qu.:1.600 1st Qu.:0.325
Median :5.800 Median :3.000 Median :4.250 Median :1.300
Mean :5.864 Mean :3.054 Mean :3.749 Mean :1.202
3rd Qu.:6.400 3rd Qu.:3.300 3rd Qu.:5.100 3rd Qu.:1.800
Max. :7.900 Max. :4.400 Max. :6.900 Max. :2.500
Mohamed Ali KHOUAJA Traitement des valeurs manquantes et aberrantes sous R
Les m´ethodes d’imputations en packages de R
Figure – Les m´ethodes d’imputations en packages de R [1]
Exploration de donn´ees
Types de donn´ees manquantes
M´ethodes de traitement de donn´ees manquantes
Valeurs aberrantes : Outliers
Sommaire
D´efinition
Traitement
Outline
1 Exploration de donn´ees
Traitements pr´eliminaires
Pourquoi le traitement des donn´ees manquantes
2 Types de donn´ees manquantes
Donn´ees MCAR
Donn´ees MAR
Donn´ees MNAR
3 M´ethodes de traitement de donn´ees manquantes
Exclure les Donn´ees Manquantes DM
L’imputation simple
L’imputation multiple
4 Valeurs aberrantes : Outliers
D´efinition
Traitement
Mohamed Ali KHOUAJA Traitement des valeurs manquantes et aberrantes sous R
Exploration de donn´ees
Types de donn´ees manquantes
M´ethodes de traitement de donn´ees manquantes
Valeurs aberrantes : Outliers
Sommaire
D´efinition
Traitement
Outliers
D´efinition
Une valeur aberrante est une valeur extrˆeme de la distribution
d’une variable, c’est-`a-dire qui diff`ere significativement de
l’ensemble des grandeurs d’une variable donn´ee.
Pour les rep´erer : Boxplot Elle d´efinit les valeurs extrˆemes
comme les valeurs sup´erieures ou inf´erieures `a I (=1.5
g´en´eralement) fois l’´ecart interquartile [3]
Mohamed Ali KHOUAJA Traitement des valeurs manquantes et aberrantes sous R
Exploration de donn´ees
Types de donn´ees manquantes
M´ethodes de traitement de donn´ees manquantes
Valeurs aberrantes : Outliers
Sommaire
D´efinition
Traitement
D´etection des Outliers
Les boites `a moustaches
Figure – D´etection des valeurs extrˆemes avec les boˆıtes `a moustaches [3]
Mohamed Ali KHOUAJA Traitement des valeurs manquantes et aberrantes sous R
Exploration de donn´ees
Types de donn´ees manquantes
M´ethodes de traitement de donn´ees manquantes
Valeurs aberrantes : Outliers
Sommaire
D´efinition
Traitement
D´etection des Outliers
Les boites `a moustaches
> x <- c(1:10, 20, 30)
> boxplot.stats(x)$out
[1] 20 30
Mohamed Ali KHOUAJA Traitement des valeurs manquantes et aberrantes sous R
Exploration de donn´ees
Types de donn´ees manquantes
M´ethodes de traitement de donn´ees manquantes
Valeurs aberrantes : Outliers
Sommaire
D´efinition
Traitement
Outline
1 Exploration de donn´ees
Traitements pr´eliminaires
Pourquoi le traitement des donn´ees manquantes
2 Types de donn´ees manquantes
Donn´ees MCAR
Donn´ees MAR
Donn´ees MNAR
3 M´ethodes de traitement de donn´ees manquantes
Exclure les Donn´ees Manquantes DM
L’imputation simple
L’imputation multiple
4 Valeurs aberrantes : Outliers
D´efinition
Traitement
Mohamed Ali KHOUAJA Traitement des valeurs manquantes et aberrantes sous R
Exploration de donn´ees
Types de donn´ees manquantes
M´ethodes de traitement de donn´ees manquantes
Valeurs aberrantes : Outliers
Sommaire
D´efinition
Traitement
Traitement des Outliers
Les valeurs aberrantes peuvent ne pas ˆetre des erreurs, mais
bel et bien r´ev´eler des situations extraordinaires
(´etude de comportements frauduleux ou d’´ev´enements rares).
Dans le cas des erreurs (valeurs aberrantes), on pro¸c`ede par
les m´ethodes d’imputation des NA
Mohamed Ali KHOUAJA Traitement des valeurs manquantes et aberrantes sous R
Exploration de donn´ees
Types de donn´ees manquantes
M´ethodes de traitement de donn´ees manquantes
Valeurs aberrantes : Outliers
Sommaire
Sommaire
Les jeux de donn´ees `a analyser peuvent contenir des valeurs
manquantes.
Si possible, on va chercher `a les remplacer par une valeur
plausible.
Diff´erentes m´ethodes statistiques existent pour cela. L’une des
plus utilis´ees est l’imputation multiple.
Mohamed Ali KHOUAJA Traitement des valeurs manquantes et aberrantes sous R
Annexe R´ef´erences
R´ef´erences I
De Jong, E., Van der Loo, M. : An Introduction to Data
Cleaning with R. Statistics Netherlands, The Hauge (2013)
Kabacoff, R. R in Action, Data analysis and graphics with R -
Manning Publications (2015)
Biernat, E. and Lutz, M. Data science : fondamentaux et
´etudes de cas, EYROLLES (2011)
Zumel, N. and Mount, J. Practical Data Science with R -
Manning Publications (2014)
Mohamed Ali KHOUAJA Traitement des valeurs manquantes et aberrantes sous R
Annexe R´ef´erences
R´ef´erences II
analyticsvidhya.com/blog
A Comprehensive guide to Data Exploration.
Tutorial on 5 Powerful R Packages used for imputing missing
values
Mohamed Ali KHOUAJA Traitement des valeurs manquantes et aberrantes sous R

Contenu connexe

Tendances

Data Mining (Partie 1).pdf
Data Mining (Partie 1).pdfData Mining (Partie 1).pdf
Data Mining (Partie 1).pdfOuailChoukhairi
 
La prédiction du churn client dans le domaine du telecom
La prédiction du churn client dans le domaine du telecomLa prédiction du churn client dans le domaine du telecom
La prédiction du churn client dans le domaine du telecomIsmail Sanni
 
Présentation data warehouse etl et olap
Présentation data warehouse etl et olapPrésentation data warehouse etl et olap
Présentation data warehouse etl et olapCynapsys It Hotspot
 
DataWarehouse
DataWarehouseDataWarehouse
DataWarehousenzuguem
 
BigData_Chp1: Introduction à la Big Data
BigData_Chp1: Introduction à la Big DataBigData_Chp1: Introduction à la Big Data
BigData_Chp1: Introduction à la Big DataLilia Sfaxi
 
Rapport data-mining
Rapport data-miningRapport data-mining
Rapport data-miningSawsen Larbi
 
Techniques du data mining
Techniques du data miningTechniques du data mining
Techniques du data miningDonia Hammami
 
Data mining - Classification - arbres de décision
Data mining - Classification - arbres de décisionData mining - Classification - arbres de décision
Data mining - Classification - arbres de décisionMohamed Heny SELMI
 
Data Visualisation, Business Intelligence et Big Data
Data Visualisation, Business Intelligence et Big DataData Visualisation, Business Intelligence et Big Data
Data Visualisation, Business Intelligence et Big DataVincent Lagorce
 
03 Apprentissage statistique
03 Apprentissage statistique03 Apprentissage statistique
03 Apprentissage statistiqueBoris Guarisma
 
Seminaire datamining Ecole de Statistique et d'Economie Appliquée
Seminaire datamining Ecole de Statistique et d'Economie AppliquéeSeminaire datamining Ecole de Statistique et d'Economie Appliquée
Seminaire datamining Ecole de Statistique et d'Economie AppliquéeJean Roger Mably
 
PFE BI - INPT
PFE BI - INPTPFE BI - INPT
PFE BI - INPTriyadadva
 
Data mining - ACP Analyse en Composantes Principales
Data mining - ACP Analyse en Composantes PrincipalesData mining - ACP Analyse en Composantes Principales
Data mining - ACP Analyse en Composantes PrincipalesMohamed Heny SELMI
 
De la business intelligence au Big Data
De la business intelligence au Big DataDe la business intelligence au Big Data
De la business intelligence au Big DataTechnofutur TIC
 
Business Intelligence au coeur de la décision
Business Intelligence au coeur de la décisionBusiness Intelligence au coeur de la décision
Business Intelligence au coeur de la décisionAmal Brioual
 

Tendances (20)

Data Mining (Partie 1).pdf
Data Mining (Partie 1).pdfData Mining (Partie 1).pdf
Data Mining (Partie 1).pdf
 
Regression simple
Regression simpleRegression simple
Regression simple
 
La prédiction du churn client dans le domaine du telecom
La prédiction du churn client dans le domaine du telecomLa prédiction du churn client dans le domaine du telecom
La prédiction du churn client dans le domaine du telecom
 
Présentation data warehouse etl et olap
Présentation data warehouse etl et olapPrésentation data warehouse etl et olap
Présentation data warehouse etl et olap
 
DataWarehouse
DataWarehouseDataWarehouse
DataWarehouse
 
BigData_Chp1: Introduction à la Big Data
BigData_Chp1: Introduction à la Big DataBigData_Chp1: Introduction à la Big Data
BigData_Chp1: Introduction à la Big Data
 
Rapport data-mining
Rapport data-miningRapport data-mining
Rapport data-mining
 
Resume de BI
Resume de BIResume de BI
Resume de BI
 
Techniques du data mining
Techniques du data miningTechniques du data mining
Techniques du data mining
 
Data mining - Classification - arbres de décision
Data mining - Classification - arbres de décisionData mining - Classification - arbres de décision
Data mining - Classification - arbres de décision
 
Analyse de données avec spss,
Analyse de données avec spss,Analyse de données avec spss,
Analyse de données avec spss,
 
Data Visualisation, Business Intelligence et Big Data
Data Visualisation, Business Intelligence et Big DataData Visualisation, Business Intelligence et Big Data
Data Visualisation, Business Intelligence et Big Data
 
Partie2BI-DW2019
Partie2BI-DW2019Partie2BI-DW2019
Partie2BI-DW2019
 
03 Apprentissage statistique
03 Apprentissage statistique03 Apprentissage statistique
03 Apprentissage statistique
 
Bi
BiBi
Bi
 
Seminaire datamining Ecole de Statistique et d'Economie Appliquée
Seminaire datamining Ecole de Statistique et d'Economie AppliquéeSeminaire datamining Ecole de Statistique et d'Economie Appliquée
Seminaire datamining Ecole de Statistique et d'Economie Appliquée
 
PFE BI - INPT
PFE BI - INPTPFE BI - INPT
PFE BI - INPT
 
Data mining - ACP Analyse en Composantes Principales
Data mining - ACP Analyse en Composantes PrincipalesData mining - ACP Analyse en Composantes Principales
Data mining - ACP Analyse en Composantes Principales
 
De la business intelligence au Big Data
De la business intelligence au Big DataDe la business intelligence au Big Data
De la business intelligence au Big Data
 
Business Intelligence au coeur de la décision
Business Intelligence au coeur de la décisionBusiness Intelligence au coeur de la décision
Business Intelligence au coeur de la décision
 

En vedette

Cheat sheet régression linéaire simple Sous R
Cheat sheet régression linéaire simple Sous RCheat sheet régression linéaire simple Sous R
Cheat sheet régression linéaire simple Sous RMohamed Ali KHOUAJA
 
Optimisation portefeuillerobuste27032014
Optimisation portefeuillerobuste27032014Optimisation portefeuillerobuste27032014
Optimisation portefeuillerobuste27032014François Oustry
 
Strategies De Gestion De Portefeuille
Strategies De Gestion De PortefeuilleStrategies De Gestion De Portefeuille
Strategies De Gestion De PortefeuilleMeyer-Waarden
 
34639001 evaluation-des-performances-des-portefeuilles
34639001 evaluation-des-performances-des-portefeuilles34639001 evaluation-des-performances-des-portefeuilles
34639001 evaluation-des-performances-des-portefeuillesHafssa Bdh
 
La gestion de portefeuille Agile - c'est pas compliqué!
La gestion de portefeuille Agile - c'est pas compliqué! La gestion de portefeuille Agile - c'est pas compliqué!
La gestion de portefeuille Agile - c'est pas compliqué! Pyxis Technologies
 
La Gestion De Portefeuille - Concepts De Base
La Gestion De Portefeuille - Concepts De BaseLa Gestion De Portefeuille - Concepts De Base
La Gestion De Portefeuille - Concepts De BaseDave Caissy
 
Construction de portefeuille : recherche d'une cohérence entre le risque stra...
Construction de portefeuille : recherche d'une cohérence entre le risque stra...Construction de portefeuille : recherche d'une cohérence entre le risque stra...
Construction de portefeuille : recherche d'une cohérence entre le risque stra...Franck Nicolas
 
Gestion de portefeuille d'action
Gestion de portefeuille d'actionGestion de portefeuille d'action
Gestion de portefeuille d'actionHicham Talbi
 

En vedette (12)

Cheat sheet régression linéaire simple Sous R
Cheat sheet régression linéaire simple Sous RCheat sheet régression linéaire simple Sous R
Cheat sheet régression linéaire simple Sous R
 
Statistique bivariée avec R
Statistique bivariée avec RStatistique bivariée avec R
Statistique bivariée avec R
 
Optimisation portefeuillerobuste27032014
Optimisation portefeuillerobuste27032014Optimisation portefeuillerobuste27032014
Optimisation portefeuillerobuste27032014
 
Strategies De Gestion De Portefeuille
Strategies De Gestion De PortefeuilleStrategies De Gestion De Portefeuille
Strategies De Gestion De Portefeuille
 
34639001 evaluation-des-performances-des-portefeuilles
34639001 evaluation-des-performances-des-portefeuilles34639001 evaluation-des-performances-des-portefeuilles
34639001 evaluation-des-performances-des-portefeuilles
 
La gestion de portefeuille Agile - c'est pas compliqué!
La gestion de portefeuille Agile - c'est pas compliqué! La gestion de portefeuille Agile - c'est pas compliqué!
La gestion de portefeuille Agile - c'est pas compliqué!
 
K-Nearest Neighbor
K-Nearest NeighborK-Nearest Neighbor
K-Nearest Neighbor
 
La Gestion De Portefeuille - Concepts De Base
La Gestion De Portefeuille - Concepts De BaseLa Gestion De Portefeuille - Concepts De Base
La Gestion De Portefeuille - Concepts De Base
 
Algorithme knn
Algorithme knnAlgorithme knn
Algorithme knn
 
Construction de portefeuille : recherche d'une cohérence entre le risque stra...
Construction de portefeuille : recherche d'une cohérence entre le risque stra...Construction de portefeuille : recherche d'une cohérence entre le risque stra...
Construction de portefeuille : recherche d'une cohérence entre le risque stra...
 
Rapport de stage Cnss
Rapport de stage CnssRapport de stage Cnss
Rapport de stage Cnss
 
Gestion de portefeuille d'action
Gestion de portefeuille d'actionGestion de portefeuille d'action
Gestion de portefeuille d'action
 

Traitement des données manquantes et aberrantes sous R

  • 1. Exploration de donn´ees Types de donn´ees manquantes M´ethodes de traitement de donn´ees manquantes Valeurs aberrantes : Outliers Sommaire Exploration et traitement de donn´ees Traitement des valeurs manquantes et aberrantes sous R Mohamed Ali KHOUAJA IFELab www.emi.ac.ma/ifelab LERMA, EMI Universit´e Mohamed V Rabat - Maroc S´eminaire, 5/5/2016 Mohamed Ali KHOUAJA Traitement des valeurs manquantes et aberrantes sous R
  • 2. Exploration de donn´ees Types de donn´ees manquantes M´ethodes de traitement de donn´ees manquantes Valeurs aberrantes : Outliers Sommaire Plan 1 Exploration de donn´ees Traitements pr´eliminaires Pourquoi le traitement des donn´ees manquantes 2 Types de donn´ees manquantes Donn´ees MCAR Donn´ees MAR Donn´ees MNAR 3 M´ethodes de traitement de donn´ees manquantes Exclure les Donn´ees Manquantes DM L’imputation simple L’imputation multiple 4 Valeurs aberrantes : Outliers D´efinition Traitement Mohamed Ali KHOUAJA Traitement des valeurs manquantes et aberrantes sous R
  • 3. Exploration de donn´ees Types de donn´ees manquantes M´ethodes de traitement de donn´ees manquantes Valeurs aberrantes : Outliers Sommaire Traitements pr´eliminaires Pourquoi le traitement des donn´ees manquantes Outline 1 Exploration de donn´ees Traitements pr´eliminaires Pourquoi le traitement des donn´ees manquantes 2 Types de donn´ees manquantes Donn´ees MCAR Donn´ees MAR Donn´ees MNAR 3 M´ethodes de traitement de donn´ees manquantes Exclure les Donn´ees Manquantes DM L’imputation simple L’imputation multiple 4 Valeurs aberrantes : Outliers D´efinition Traitement Mohamed Ali KHOUAJA Traitement des valeurs manquantes et aberrantes sous R
  • 4. Exploration de donn´ees Types de donn´ees manquantes M´ethodes de traitement de donn´ees manquantes Valeurs aberrantes : Outliers Sommaire Traitements pr´eliminaires Pourquoi le traitement des donn´ees manquantes Data mining process Figure – Data mining process, Datacamp.com Mohamed Ali KHOUAJA Traitement des valeurs manquantes et aberrantes sous R
  • 5. Exploration de donn´ees Types de donn´ees manquantes M´ethodes de traitement de donn´ees manquantes Valeurs aberrantes : Outliers Sommaire Traitements pr´eliminaires Pourquoi le traitement des donn´ees manquantes Data cleaning in statistical analysis Figure – Statistical analysis value chain, voir [1] Mohamed Ali KHOUAJA Traitement des valeurs manquantes et aberrantes sous R
  • 6. Etapes d’´elaboration d’un mod`ele pr´edictif Figure – Etapes d’´elaboration d’un mod`ele pr´edictif
  • 7. Etapes d’´elaboration d’un mod`ele pr´edictif Figure – Etapes d’´elaboration d’un mod`ele pr´edictif
  • 8. Exploration de donn´ees Types de donn´ees manquantes M´ethodes de traitement de donn´ees manquantes Valeurs aberrantes : Outliers Sommaire Traitements pr´eliminaires Pourquoi le traitement des donn´ees manquantes Outline 1 Exploration de donn´ees Traitements pr´eliminaires Pourquoi le traitement des donn´ees manquantes 2 Types de donn´ees manquantes Donn´ees MCAR Donn´ees MAR Donn´ees MNAR 3 M´ethodes de traitement de donn´ees manquantes Exclure les Donn´ees Manquantes DM L’imputation simple L’imputation multiple 4 Valeurs aberrantes : Outliers D´efinition Traitement Mohamed Ali KHOUAJA Traitement des valeurs manquantes et aberrantes sous R
  • 9. Exploration de donn´ees Types de donn´ees manquantes M´ethodes de traitement de donn´ees manquantes Valeurs aberrantes : Outliers Sommaire Traitements pr´eliminaires Pourquoi le traitement des donn´ees manquantes Motivation Les donn´ees manquantes constituent un probl`eme majeur, puisque l’information `a disposition est incompl`ete et donc moins fiable. Parmi les causes : Il peut ˆetre impossible de contacter une personne s´electionn´ee pour faire partie d’une enquˆete (non r´eponse totale) Ou un r´epondant peut refuser de r´epondre `a une ou plusieurs questions (non-r´eponse partielle). Une mauvaise saisie de l’information peut ´egalement g´en´erer des DM. Donn´ees aberrantes Mohamed Ali KHOUAJA Traitement des valeurs manquantes et aberrantes sous R
  • 10. Exploration de donn´ees Types de donn´ees manquantes M´ethodes de traitement de donn´ees manquantes Valeurs aberrantes : Outliers Sommaire Traitements pr´eliminaires Pourquoi le traitement des donn´ees manquantes Motivation Les donn´ees manquantes constituent un probl`eme majeur, puisque l’information `a disposition est incompl`ete et donc moins fiable. Parmi les causes : Il peut ˆetre impossible de contacter une personne s´electionn´ee pour faire partie d’une enquˆete (non r´eponse totale) Ou un r´epondant peut refuser de r´epondre `a une ou plusieurs questions (non-r´eponse partielle). Une mauvaise saisie de l’information peut ´egalement g´en´erer des DM. Donn´ees aberrantes Mohamed Ali KHOUAJA Traitement des valeurs manquantes et aberrantes sous R
  • 11. Exploration de donn´ees Types de donn´ees manquantes M´ethodes de traitement de donn´ees manquantes Valeurs aberrantes : Outliers Sommaire Traitements pr´eliminaires Pourquoi le traitement des donn´ees manquantes Motivation Les donn´ees manquantes constituent un probl`eme majeur, puisque l’information `a disposition est incompl`ete et donc moins fiable. Parmi les causes : Il peut ˆetre impossible de contacter une personne s´electionn´ee pour faire partie d’une enquˆete (non r´eponse totale) Ou un r´epondant peut refuser de r´epondre `a une ou plusieurs questions (non-r´eponse partielle). Une mauvaise saisie de l’information peut ´egalement g´en´erer des DM. Donn´ees aberrantes Mohamed Ali KHOUAJA Traitement des valeurs manquantes et aberrantes sous R
  • 12. Exploration de donn´ees Types de donn´ees manquantes M´ethodes de traitement de donn´ees manquantes Valeurs aberrantes : Outliers Sommaire Traitements pr´eliminaires Pourquoi le traitement des donn´ees manquantes Motivation Les donn´ees manquantes constituent un probl`eme majeur, puisque l’information `a disposition est incompl`ete et donc moins fiable. Parmi les causes : Il peut ˆetre impossible de contacter une personne s´electionn´ee pour faire partie d’une enquˆete (non r´eponse totale) Ou un r´epondant peut refuser de r´epondre `a une ou plusieurs questions (non-r´eponse partielle). Une mauvaise saisie de l’information peut ´egalement g´en´erer des DM. Donn´ees aberrantes Mohamed Ali KHOUAJA Traitement des valeurs manquantes et aberrantes sous R
  • 13. Exploration de donn´ees Types de donn´ees manquantes M´ethodes de traitement de donn´ees manquantes Valeurs aberrantes : Outliers Sommaire Traitements pr´eliminaires Pourquoi le traitement des donn´ees manquantes Motivation Les donn´ees manquantes constituent un probl`eme majeur, puisque l’information `a disposition est incompl`ete et donc moins fiable. Parmi les causes : Il peut ˆetre impossible de contacter une personne s´electionn´ee pour faire partie d’une enquˆete (non r´eponse totale) Ou un r´epondant peut refuser de r´epondre `a une ou plusieurs questions (non-r´eponse partielle). Une mauvaise saisie de l’information peut ´egalement g´en´erer des DM. Donn´ees aberrantes Mohamed Ali KHOUAJA Traitement des valeurs manquantes et aberrantes sous R
  • 14. Exploration de donn´ees Types de donn´ees manquantes M´ethodes de traitement de donn´ees manquantes Valeurs aberrantes : Outliers Sommaire Traitements pr´eliminaires Pourquoi le traitement des donn´ees manquantes Motivation Les donn´ees manquantes constituent un probl`eme majeur, puisque l’information `a disposition est incompl`ete et donc moins fiable. Parmi les causes : Il peut ˆetre impossible de contacter une personne s´electionn´ee pour faire partie d’une enquˆete (non r´eponse totale) Ou un r´epondant peut refuser de r´epondre `a une ou plusieurs questions (non-r´eponse partielle). Une mauvaise saisie de l’information peut ´egalement g´en´erer des DM. Donn´ees aberrantes Mohamed Ali KHOUAJA Traitement des valeurs manquantes et aberrantes sous R
  • 15. Exploration de donn´ees Types de donn´ees manquantes M´ethodes de traitement de donn´ees manquantes Valeurs aberrantes : Outliers Sommaire Traitements pr´eliminaires Pourquoi le traitement des donn´ees manquantes Probl´ematique G´en´erale des Donn´ees NA L’ensemble des donn´ees avec lequel on doit travailler n’est pas toujours complet (NA) Donn´ees manquantes : Variable `a expliquer Variable(s) explicative(s) Mohamed Ali KHOUAJA Traitement des valeurs manquantes et aberrantes sous R
  • 16. Exploration de donn´ees Types de donn´ees manquantes M´ethodes de traitement de donn´ees manquantes Valeurs aberrantes : Outliers Sommaire Traitements pr´eliminaires Pourquoi le traitement des donn´ees manquantes Probl´ematique G´en´erale des Donn´ees NA L’ensemble des donn´ees avec lequel on doit travailler n’est pas toujours complet (NA) Donn´ees manquantes : Variable `a expliquer Variable(s) explicative(s) Mohamed Ali KHOUAJA Traitement des valeurs manquantes et aberrantes sous R
  • 17. Exploration de donn´ees Types de donn´ees manquantes M´ethodes de traitement de donn´ees manquantes Valeurs aberrantes : Outliers Sommaire Traitements pr´eliminaires Pourquoi le traitement des donn´ees manquantes Probl´ematique G´en´erale des Donn´ees NA Impact Perte d’information non pertinente et/ou non informative (Impact Nul) Perte d’information pertinente et/ou informative (Impact fonction du taux de NA + Biais possible dans l’estimation de la pr´ecision et de l’exactitude) Solution Ne rien faire (Lorsque la proportion de NA de l’´echantillon est faible <5%) Utiliser une proc´edure adapt´ee de remplacement des NA Mohamed Ali KHOUAJA Traitement des valeurs manquantes et aberrantes sous R
  • 18. Exploration de donn´ees Types de donn´ees manquantes M´ethodes de traitement de donn´ees manquantes Valeurs aberrantes : Outliers Sommaire Traitements pr´eliminaires Pourquoi le traitement des donn´ees manquantes Probl´ematique G´en´erale des Donn´ees NA Impact Perte d’information non pertinente et/ou non informative (Impact Nul) Perte d’information pertinente et/ou informative (Impact fonction du taux de NA + Biais possible dans l’estimation de la pr´ecision et de l’exactitude) Solution Ne rien faire (Lorsque la proportion de NA de l’´echantillon est faible <5%) Utiliser une proc´edure adapt´ee de remplacement des NA Mohamed Ali KHOUAJA Traitement des valeurs manquantes et aberrantes sous R
  • 19. Exploration de donn´ees Types de donn´ees manquantes M´ethodes de traitement de donn´ees manquantes Valeurs aberrantes : Outliers Sommaire Traitements pr´eliminaires Pourquoi le traitement des donn´ees manquantes Probl´ematique G´en´erale des Donn´ees NA Impact Perte d’information non pertinente et/ou non informative (Impact Nul) Perte d’information pertinente et/ou informative (Impact fonction du taux de NA + Biais possible dans l’estimation de la pr´ecision et de l’exactitude) Solution Ne rien faire (Lorsque la proportion de NA de l’´echantillon est faible <5%) Utiliser une proc´edure adapt´ee de remplacement des NA Mohamed Ali KHOUAJA Traitement des valeurs manquantes et aberrantes sous R
  • 20. Exploration de donn´ees Types de donn´ees manquantes M´ethodes de traitement de donn´ees manquantes Valeurs aberrantes : Outliers Sommaire Traitements pr´eliminaires Pourquoi le traitement des donn´ees manquantes Probl´ematique G´en´erale des Donn´ees NA Impact Perte d’information non pertinente et/ou non informative (Impact Nul) Perte d’information pertinente et/ou informative (Impact fonction du taux de NA + Biais possible dans l’estimation de la pr´ecision et de l’exactitude) Solution Ne rien faire (Lorsque la proportion de NA de l’´echantillon est faible <5%) Utiliser une proc´edure adapt´ee de remplacement des NA Mohamed Ali KHOUAJA Traitement des valeurs manquantes et aberrantes sous R
  • 21. Exploration de donn´ees Types de donn´ees manquantes M´ethodes de traitement de donn´ees manquantes Valeurs aberrantes : Outliers Sommaire Traitements pr´eliminaires Pourquoi le traitement des donn´ees manquantes Probl´ematique G´en´erale des Donn´ees NA Impact Perte d’information non pertinente et/ou non informative (Impact Nul) Perte d’information pertinente et/ou informative (Impact fonction du taux de NA + Biais possible dans l’estimation de la pr´ecision et de l’exactitude) Solution Ne rien faire (Lorsque la proportion de NA de l’´echantillon est faible <5%) Utiliser une proc´edure adapt´ee de remplacement des NA Mohamed Ali KHOUAJA Traitement des valeurs manquantes et aberrantes sous R
  • 22. Exploration de donn´ees Types de donn´ees manquantes M´ethodes de traitement de donn´ees manquantes Valeurs aberrantes : Outliers Sommaire Donn´ees MCAR Donn´ees MAR Donn´ees MNAR Choix de types de donn´ees manquantes Sommaire 1 Exploration de donn´ees Traitements pr´eliminaires Pourquoi le traitement des donn´ees manquantes 2 Types de donn´ees manquantes Donn´ees MCAR Donn´ees MAR Donn´ees MNAR 3 M´ethodes de traitement de donn´ees manquantes Exclure les Donn´ees Manquantes DM L’imputation simple L’imputation multiple 4 Valeurs aberrantes : Outliers D´efinition Traitement Mohamed Ali KHOUAJA Traitement des valeurs manquantes et aberrantes sous R
  • 23. Exploration de donn´ees Types de donn´ees manquantes M´ethodes de traitement de donn´ees manquantes Valeurs aberrantes : Outliers Sommaire Donn´ees MCAR Donn´ees MAR Donn´ees MNAR Choix de types de donn´ees manquantes Types de donn´ees manquantes Typologie de donn´ees manquantes, selon Little Rubin (1987), 3 cat´egories : MCAR (”Missing completely at random”) MAR (”Missing at random”) MNAR (”Missing not at random”) Mohamed Ali KHOUAJA Traitement des valeurs manquantes et aberrantes sous R
  • 24. Exploration de donn´ees Types de donn´ees manquantes M´ethodes de traitement de donn´ees manquantes Valeurs aberrantes : Outliers Sommaire Donn´ees MCAR Donn´ees MAR Donn´ees MNAR Choix de types de donn´ees manquantes Outline 1 Exploration de donn´ees Traitements pr´eliminaires Pourquoi le traitement des donn´ees manquantes 2 Types de donn´ees manquantes Donn´ees MCAR Donn´ees MAR Donn´ees MNAR 3 M´ethodes de traitement de donn´ees manquantes Exclure les Donn´ees Manquantes DM L’imputation simple L’imputation multiple 4 Valeurs aberrantes : Outliers D´efinition Traitement Mohamed Ali KHOUAJA Traitement des valeurs manquantes et aberrantes sous R
  • 25. Exploration de donn´ees Types de donn´ees manquantes M´ethodes de traitement de donn´ees manquantes Valeurs aberrantes : Outliers Sommaire Donn´ees MCAR Donn´ees MAR Donn´ees MNAR Choix de types de donn´ees manquantes Donn´ees MCAR Missing Completely At Random La probabilit´e qu’une valeur de la variable X1 soit manquante ne d´epend pas des valeurs prises par les autres variables Xj=1, qu’elles soient manquantes ou pas. Il n’est donc pas possible de d´efinir un profil des individus ayant des valeurs manquantes, la probabilit´e de ces donn´ees est uniforme. P(xi1manquant|xijobserve, xijmanquant) = P(xi1manquant) De mani`ere g´en´erale, ce type de DM est tr`es rare. Mohamed Ali KHOUAJA Traitement des valeurs manquantes et aberrantes sous R
  • 26. Exploration de donn´ees Types de donn´ees manquantes M´ethodes de traitement de donn´ees manquantes Valeurs aberrantes : Outliers Sommaire Donn´ees MCAR Donn´ees MAR Donn´ees MNAR Choix de types de donn´ees manquantes Donn´ees MCAR Missing Completely At Random La probabilit´e qu’une valeur de la variable X1 soit manquante ne d´epend pas des valeurs prises par les autres variables Xj=1, qu’elles soient manquantes ou pas. Il n’est donc pas possible de d´efinir un profil des individus ayant des valeurs manquantes, la probabilit´e de ces donn´ees est uniforme. P(xi1manquant|xijobserve, xijmanquant) = P(xi1manquant) De mani`ere g´en´erale, ce type de DM est tr`es rare. Mohamed Ali KHOUAJA Traitement des valeurs manquantes et aberrantes sous R
  • 27. Exploration de donn´ees Types de donn´ees manquantes M´ethodes de traitement de donn´ees manquantes Valeurs aberrantes : Outliers Sommaire Donn´ees MCAR Donn´ees MAR Donn´ees MNAR Choix de types de donn´ees manquantes Donn´ees MCAR Missing Completely At Random La probabilit´e qu’une valeur de la variable X1 soit manquante ne d´epend pas des valeurs prises par les autres variables Xj=1, qu’elles soient manquantes ou pas. Il n’est donc pas possible de d´efinir un profil des individus ayant des valeurs manquantes, la probabilit´e de ces donn´ees est uniforme. P(xi1manquant|xijobserve, xijmanquant) = P(xi1manquant) De mani`ere g´en´erale, ce type de DM est tr`es rare. Mohamed Ali KHOUAJA Traitement des valeurs manquantes et aberrantes sous R
  • 28. Exploration de donn´ees Types de donn´ees manquantes M´ethodes de traitement de donn´ees manquantes Valeurs aberrantes : Outliers Sommaire Donn´ees MCAR Donn´ees MAR Donn´ees MNAR Choix de types de donn´ees manquantes Donn´ees MCAR Missing Completely At Random La probabilit´e qu’une valeur de la variable X1 soit manquante ne d´epend pas des valeurs prises par les autres variables Xj=1, qu’elles soient manquantes ou pas. Il n’est donc pas possible de d´efinir un profil des individus ayant des valeurs manquantes, la probabilit´e de ces donn´ees est uniforme. P(xi1manquant|xijobserve, xijmanquant) = P(xi1manquant) De mani`ere g´en´erale, ce type de DM est tr`es rare. Mohamed Ali KHOUAJA Traitement des valeurs manquantes et aberrantes sous R
  • 29. Exploration de donn´ees Types de donn´ees manquantes M´ethodes de traitement de donn´ees manquantes Valeurs aberrantes : Outliers Sommaire Donn´ees MCAR Donn´ees MAR Donn´ees MNAR Choix de types de donn´ees manquantes Outline 1 Exploration de donn´ees Traitements pr´eliminaires Pourquoi le traitement des donn´ees manquantes 2 Types de donn´ees manquantes Donn´ees MCAR Donn´ees MAR Donn´ees MNAR 3 M´ethodes de traitement de donn´ees manquantes Exclure les Donn´ees Manquantes DM L’imputation simple L’imputation multiple 4 Valeurs aberrantes : Outliers D´efinition Traitement Mohamed Ali KHOUAJA Traitement des valeurs manquantes et aberrantes sous R
  • 30. Exploration de donn´ees Types de donn´ees manquantes M´ethodes de traitement de donn´ees manquantes Valeurs aberrantes : Outliers Sommaire Donn´ees MCAR Donn´ees MAR Donn´ees MNAR Choix de types de donn´ees manquantes Donn´ees MAR Missing At Random La probabilit´e qu’une valeur de la variable X1 soit manquante ne d´epend pas des valeurs prises par les autres variables Xj=1 manquantes, mais de leurs valeurs observ´ees. Exemple : Il existe une diff´erence de non-r´eponse entre les hommes et les femmes concernant la question du revenu, mais parmi les hommes entre eux ou parmi les femmes entre elles, la probabilit´e d’avoir des non-r´eponses est identique quel que soit le niveau du revenu P(xi1manquant|xijobserve, xijmanquant) = P(xi1manquant|xijobserve) Mohamed Ali KHOUAJA Traitement des valeurs manquantes et aberrantes sous R
  • 31. Exploration de donn´ees Types de donn´ees manquantes M´ethodes de traitement de donn´ees manquantes Valeurs aberrantes : Outliers Sommaire Donn´ees MCAR Donn´ees MAR Donn´ees MNAR Choix de types de donn´ees manquantes Donn´ees MAR Missing At Random La probabilit´e qu’une valeur de la variable X1 soit manquante ne d´epend pas des valeurs prises par les autres variables Xj=1 manquantes, mais de leurs valeurs observ´ees. Exemple : Il existe une diff´erence de non-r´eponse entre les hommes et les femmes concernant la question du revenu, mais parmi les hommes entre eux ou parmi les femmes entre elles, la probabilit´e d’avoir des non-r´eponses est identique quel que soit le niveau du revenu P(xi1manquant|xijobserve, xijmanquant) = P(xi1manquant|xijobserve) Mohamed Ali KHOUAJA Traitement des valeurs manquantes et aberrantes sous R
  • 32. Exploration de donn´ees Types de donn´ees manquantes M´ethodes de traitement de donn´ees manquantes Valeurs aberrantes : Outliers Sommaire Donn´ees MCAR Donn´ees MAR Donn´ees MNAR Choix de types de donn´ees manquantes Donn´ees MAR Missing At Random La probabilit´e qu’une valeur de la variable X1 soit manquante ne d´epend pas des valeurs prises par les autres variables Xj=1 manquantes, mais de leurs valeurs observ´ees. Exemple : Il existe une diff´erence de non-r´eponse entre les hommes et les femmes concernant la question du revenu, mais parmi les hommes entre eux ou parmi les femmes entre elles, la probabilit´e d’avoir des non-r´eponses est identique quel que soit le niveau du revenu P(xi1manquant|xijobserve, xijmanquant) = P(xi1manquant|xijobserve) Mohamed Ali KHOUAJA Traitement des valeurs manquantes et aberrantes sous R
  • 33. Exploration de donn´ees Types de donn´ees manquantes M´ethodes de traitement de donn´ees manquantes Valeurs aberrantes : Outliers Sommaire Donn´ees MCAR Donn´ees MAR Donn´ees MNAR Choix de types de donn´ees manquantes Outline 1 Exploration de donn´ees Traitements pr´eliminaires Pourquoi le traitement des donn´ees manquantes 2 Types de donn´ees manquantes Donn´ees MCAR Donn´ees MAR Donn´ees MNAR 3 M´ethodes de traitement de donn´ees manquantes Exclure les Donn´ees Manquantes DM L’imputation simple L’imputation multiple 4 Valeurs aberrantes : Outliers D´efinition Traitement Mohamed Ali KHOUAJA Traitement des valeurs manquantes et aberrantes sous R
  • 34. Exploration de donn´ees Types de donn´ees manquantes M´ethodes de traitement de donn´ees manquantes Valeurs aberrantes : Outliers Sommaire Donn´ees MCAR Donn´ees MAR Donn´ees MNAR Choix de types de donn´ees manquantes Donn´ees MNAR Missing Not At Random La donn´ee est manquante pour une raison pr´ecise voulue. La probabilit´e qu’une valeur de la variable x soit manquante ne d´epend pas des valeurs prises par les autres variables Xj=i observ´ees, mais de leurs valeurs manquantes P(xi1manquant|xijobserve, xijmanquant) = P(xi1manquant|xmanquant) Mohamed Ali KHOUAJA Traitement des valeurs manquantes et aberrantes sous R
  • 35. Exploration de donn´ees Types de donn´ees manquantes M´ethodes de traitement de donn´ees manquantes Valeurs aberrantes : Outliers Sommaire Donn´ees MCAR Donn´ees MAR Donn´ees MNAR Choix de types de donn´ees manquantes Donn´ees MNAR Missing Not At Random La donn´ee est manquante pour une raison pr´ecise voulue. La probabilit´e qu’une valeur de la variable x soit manquante ne d´epend pas des valeurs prises par les autres variables Xj=i observ´ees, mais de leurs valeurs manquantes P(xi1manquant|xijobserve, xijmanquant) = P(xi1manquant|xmanquant) Mohamed Ali KHOUAJA Traitement des valeurs manquantes et aberrantes sous R
  • 36. Exploration de donn´ees Types de donn´ees manquantes M´ethodes de traitement de donn´ees manquantes Valeurs aberrantes : Outliers Sommaire Donn´ees MCAR Donn´ees MAR Donn´ees MNAR Choix de types de donn´ees manquantes Donn´ees MNAR Missing Not At Random La donn´ee est manquante pour une raison pr´ecise voulue. La probabilit´e qu’une valeur de la variable x soit manquante ne d´epend pas des valeurs prises par les autres variables Xj=i observ´ees, mais de leurs valeurs manquantes P(xi1manquant|xijobserve, xijmanquant) = P(xi1manquant|xmanquant) Mohamed Ali KHOUAJA Traitement des valeurs manquantes et aberrantes sous R
  • 37. Exploration de donn´ees Types de donn´ees manquantes M´ethodes de traitement de donn´ees manquantes Valeurs aberrantes : Outliers Sommaire Donn´ees MCAR Donn´ees MAR Donn´ees MNAR Choix de types de donn´ees manquantes Typologie de donn´ees manquantes Choix de types de donn´ees Malheureusement On ne peut g´en´eralement pas dire, `a partir des donn´ees, quel est le m´echanisme de manque (MCAR, MAR, MNAR) Dans le cas MNAR, il est rare que l’on connaisse le mod`ele associ´e au manquement Mohamed Ali KHOUAJA Traitement des valeurs manquantes et aberrantes sous R
  • 38. Exploration de donn´ees Types de donn´ees manquantes M´ethodes de traitement de donn´ees manquantes Valeurs aberrantes : Outliers Sommaire Donn´ees MCAR Donn´ees MAR Donn´ees MNAR Choix de types de donn´ees manquantes Typologie de donn´ees manquantes Choix de types de donn´ees Malheureusement On ne peut g´en´eralement pas dire, `a partir des donn´ees, quel est le m´echanisme de manque (MCAR, MAR, MNAR) Dans le cas MNAR, il est rare que l’on connaisse le mod`ele associ´e au manquement Mohamed Ali KHOUAJA Traitement des valeurs manquantes et aberrantes sous R
  • 39. Exploration de donn´ees Types de donn´ees manquantes M´ethodes de traitement de donn´ees manquantes Valeurs aberrantes : Outliers Sommaire Exclure les Donn´ees Manquantes DM L’imputation simple L’imputation multiple Sommaire 1 Exploration de donn´ees Traitements pr´eliminaires Pourquoi le traitement des donn´ees manquantes 2 Types de donn´ees manquantes Donn´ees MCAR Donn´ees MAR Donn´ees MNAR 3 M´ethodes de traitement de donn´ees manquantes Exclure les Donn´ees Manquantes DM L’imputation simple L’imputation multiple 4 Valeurs aberrantes : Outliers D´efinition Traitement Mohamed Ali KHOUAJA Traitement des valeurs manquantes et aberrantes sous R
  • 40. Exploration de donn´ees Types de donn´ees manquantes M´ethodes de traitement de donn´ees manquantes Valeurs aberrantes : Outliers Sommaire Exclure les Donn´ees Manquantes DM L’imputation simple L’imputation multiple Outline 1 Exploration de donn´ees Traitements pr´eliminaires Pourquoi le traitement des donn´ees manquantes 2 Types de donn´ees manquantes Donn´ees MCAR Donn´ees MAR Donn´ees MNAR 3 M´ethodes de traitement de donn´ees manquantes Exclure les Donn´ees Manquantes DM L’imputation simple L’imputation multiple 4 Valeurs aberrantes : Outliers D´efinition Traitement Mohamed Ali KHOUAJA Traitement des valeurs manquantes et aberrantes sous R
  • 41. Exploration de donn´ees Types de donn´ees manquantes M´ethodes de traitement de donn´ees manquantes Valeurs aberrantes : Outliers Sommaire Exclure les Donn´ees Manquantes DM L’imputation simple L’imputation multiple Exclure les DM List Wise Deletion Toutes les observations ayant au moins une donn´ee manquante, cela permet d’effectuer des analyses sur des cas dont toutes les donn´ees sont connues. En plus elle est peu efficiente, car beaucoup d’observations peuvent disparaitre, Pair Wise Deletion On performe notre analyse avec toutes les cases dont les variables en question sont pr´esentes. Son d´esaventage est d’utiliser diff´erentes tailles d’´echantillons pour les diff´erentes variables. Valide seulement en cas de MCAR Mohamed Ali KHOUAJA Traitement des valeurs manquantes et aberrantes sous R
  • 42. Exploration de donn´ees Types de donn´ees manquantes M´ethodes de traitement de donn´ees manquantes Valeurs aberrantes : Outliers Sommaire Exclure les Donn´ees Manquantes DM L’imputation simple L’imputation multiple Exclure les DM List Wise Deletion Toutes les observations ayant au moins une donn´ee manquante, cela permet d’effectuer des analyses sur des cas dont toutes les donn´ees sont connues. En plus elle est peu efficiente, car beaucoup d’observations peuvent disparaitre, Pair Wise Deletion On performe notre analyse avec toutes les cases dont les variables en question sont pr´esentes. Son d´esaventage est d’utiliser diff´erentes tailles d’´echantillons pour les diff´erentes variables. Valide seulement en cas de MCAR Mohamed Ali KHOUAJA Traitement des valeurs manquantes et aberrantes sous R
  • 43. Exploration de donn´ees Types de donn´ees manquantes M´ethodes de traitement de donn´ees manquantes Valeurs aberrantes : Outliers Sommaire Exclure les Donn´ees Manquantes DM L’imputation simple L’imputation multiple Exclure les DM List Wise Deletion Toutes les observations ayant au moins une donn´ee manquante, cela permet d’effectuer des analyses sur des cas dont toutes les donn´ees sont connues. En plus elle est peu efficiente, car beaucoup d’observations peuvent disparaitre, Pair Wise Deletion On performe notre analyse avec toutes les cases dont les variables en question sont pr´esentes. Son d´esaventage est d’utiliser diff´erentes tailles d’´echantillons pour les diff´erentes variables. Valide seulement en cas de MCAR Mohamed Ali KHOUAJA Traitement des valeurs manquantes et aberrantes sous R
  • 44. Exploration de donn´ees Types de donn´ees manquantes M´ethodes de traitement de donn´ees manquantes Valeurs aberrantes : Outliers Sommaire Exclure les Donn´ees Manquantes DM L’imputation simple L’imputation multiple Outline 1 Exploration de donn´ees Traitements pr´eliminaires Pourquoi le traitement des donn´ees manquantes 2 Types de donn´ees manquantes Donn´ees MCAR Donn´ees MAR Donn´ees MNAR 3 M´ethodes de traitement de donn´ees manquantes Exclure les Donn´ees Manquantes DM L’imputation simple L’imputation multiple 4 Valeurs aberrantes : Outliers D´efinition Traitement Mohamed Ali KHOUAJA Traitement des valeurs manquantes et aberrantes sous R
  • 45. Exploration de donn´ees Types de donn´ees manquantes M´ethodes de traitement de donn´ees manquantes Valeurs aberrantes : Outliers Sommaire Exclure les Donn´ees Manquantes DM L’imputation simple L’imputation multiple L’imputation simple Principe : remplacer chaque donn´ee manquante par une valeur plausible. Cela peut ˆetre : la moyenne ou m´ediane pour les attributs quantis ou le mode pour les attributs qualis. Cette m´ethode peut comprendre deux types : Generalized Imputation On calcule la moyenne/m´ediane de toute les valeurs non manquantes que prend la variable, puis on remplace les DM par la valeur de la moyenne/m´ediane ou le mode pour les attributs qualis. Similar case Imputation qui remplace les donn´ees manquantes par des valeurs provenant d’individus similaires pour lesquels toute l’information a ´et´e observ´ee, (voir l’exemple en slide suivante) Mohamed Ali KHOUAJA Traitement des valeurs manquantes et aberrantes sous R
  • 46. Exploration de donn´ees Types de donn´ees manquantes M´ethodes de traitement de donn´ees manquantes Valeurs aberrantes : Outliers Sommaire Exclure les Donn´ees Manquantes DM L’imputation simple L’imputation multiple L’imputation simple Principe : remplacer chaque donn´ee manquante par une valeur plausible. Cela peut ˆetre : la moyenne ou m´ediane pour les attributs quantis ou le mode pour les attributs qualis. Cette m´ethode peut comprendre deux types : Generalized Imputation On calcule la moyenne/m´ediane de toute les valeurs non manquantes que prend la variable, puis on remplace les DM par la valeur de la moyenne/m´ediane ou le mode pour les attributs qualis. Similar case Imputation qui remplace les donn´ees manquantes par des valeurs provenant d’individus similaires pour lesquels toute l’information a ´et´e observ´ee, (voir l’exemple en slide suivante) Mohamed Ali KHOUAJA Traitement des valeurs manquantes et aberrantes sous R
  • 47. Exploration de donn´ees Types de donn´ees manquantes M´ethodes de traitement de donn´ees manquantes Valeurs aberrantes : Outliers Sommaire Exclure les Donn´ees Manquantes DM L’imputation simple L’imputation multiple L’imputation simple Exemple de Similar case Imputation Gender Manpower Sales 1 M 25.00 343.00 2 F 280.00 3 M 33.00 332.00 4 M 272.00 5 F 25.00 6 M 29.00 326.00 7 26.00 259.00 8 M 32.00 297.00 Table – Jeu de donn´ees avec DM Mohamed Ali KHOUAJA Traitement des valeurs manquantes et aberrantes sous R
  • 48. Exploration de donn´ees Types de donn´ees manquantes M´ethodes de traitement de donn´ees manquantes Valeurs aberrantes : Outliers Sommaire Exclure les Donn´ees Manquantes DM L’imputation simple L’imputation multiple L’imputation simple Exemple de Similar case Imputation Gender Manpower Sales 1 M 25.00 343.00 2 F NA 280.00 3 M 33.00 332.00 4 M NA 272.00 5 F 25.00 NA 6 M 29.00 326.00 7 NA 26.00 259.00 8 M 32.00 297.00 Table – Jeu de donn´ees avec DM Mohamed Ali KHOUAJA Traitement des valeurs manquantes et aberrantes sous R
  • 49. Exploration de donn´ees Types de donn´ees manquantes M´ethodes de traitement de donn´ees manquantes Valeurs aberrantes : Outliers Sommaire Exclure les Donn´ees Manquantes DM L’imputation simple L’imputation multiple L’imputation simple Exemple de Similar case Imputation On calcule la moyenne (en variable Manpower) pour le genre (Man) : > mean(ListDM[Gender==c("M"),]$Manpower, na.rm = TRUE) [1] 29.75 et (Female), pour les valeurs non manquantes : > mean(ListDM[Gender==c("F"),]$Manpower, na.rm = TRUE) [1] 25 Ensuite on remplace les DM, pour ”M”par 29.75 et pour ”F”par 25. Mohamed Ali KHOUAJA Traitement des valeurs manquantes et aberrantes sous R
  • 50. Exploration de donn´ees Types de donn´ees manquantes M´ethodes de traitement de donn´ees manquantes Valeurs aberrantes : Outliers Sommaire Exclure les Donn´ees Manquantes DM L’imputation simple L’imputation multiple L’imputation simple Ratio Imputation Ici, la valeur est estim´ee ˆxi par un ratio multipli´e par la valeur conjugu´ee de covariant yi . ˆxi = ˆRyi Impl´ementation sur R : > x=ListDM[,2] > y=ListDM[,3] > I= is.na(x) > R=sum(x[!I])/sum(y[!I & !is.na(y)]) > x[I]=R*y[I] Mohamed Ali KHOUAJA Traitement des valeurs manquantes et aberrantes sous R
  • 51. Exploration de donn´ees Types de donn´ees manquantes M´ethodes de traitement de donn´ees manquantes Valeurs aberrantes : Outliers Sommaire Exclure les Donn´ees Manquantes DM L’imputation simple L’imputation multiple Mod`ele de pr´ediction Ici, On construit un mod`ele de pr´ediction pour estimer les valeurs avec lesquelles on substitue les DM. ˆxi = ˆβ0 + ˆβ1y1,i + ... + ˆβkyk,i On peut utiliser : Regr´ession, ANOVA, R´egression logistique A noter que les packages Hmisc, VIM, mi et mice, impl´ementent des m´ethodes d’imputation utilisant de formes de r´egression Mohamed Ali KHOUAJA Traitement des valeurs manquantes et aberrantes sous R
  • 52. Exploration de donn´ees Types de donn´ees manquantes M´ethodes de traitement de donn´ees manquantes Valeurs aberrantes : Outliers Sommaire Exclure les Donn´ees Manquantes DM L’imputation simple L’imputation multiple Imputation KNN Dans cette m´ethode : Les DM d’un attribut sont imput´es en utilisant les attributs les plus similaires `a celui en question. La similatit´e entre deux attributs est d´etermin´ee en utilisant une fonction de distance. Le package VIM de R, utilise une fonction appel´ee kNN qui impl´emente une distance de Gowers pour d´eterminer les K proches voisins Mohamed Ali KHOUAJA Traitement des valeurs manquantes et aberrantes sous R
  • 53. Exploration de donn´ees Types de donn´ees manquantes M´ethodes de traitement de donn´ees manquantes Valeurs aberrantes : Outliers Sommaire Exclure les Donn´ees Manquantes DM L’imputation simple L’imputation multiple Imputation KNN Exemple sous R > library(VIM) > data(iris) > n <- nrow(iris) > # provide some empty values (10 in each column, randomly) > for (i in 1:ncol(iris)) { + iris[sample(1:n, 10, replace = FALSE), i] <- NA + } > iris2 <- kNN(iris) Time difference of 0.058038 secs Mohamed Ali KHOUAJA Traitement des valeurs manquantes et aberrantes sous R
  • 54. Exploration de donn´ees Types de donn´ees manquantes M´ethodes de traitement de donn´ees manquantes Valeurs aberrantes : Outliers Sommaire Exclure les Donn´ees Manquantes DM L’imputation simple L’imputation multiple Autres m´ethodes d’imputation Hot deck imputation Imputer la valeur manquante avec une valeur observ´ee de la mˆeme BDD al´eatoirement (sous R, la fonction impute du package Hmisc impl´emente cette m´ethode en ajoutant le param`etre ”random”) Exemple : Soit ”height”les tailles extraites du jeu de donn´ees ”women”: > height <- women$height > height[c(6,9)]<-NA #Ajouter des DM > height<-Hmisc::impute(height, "random") > height 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 58 59 60 61 62 65* 64 65 61* 67 68 69 70 71 72 Mohamed Ali KHOUAJA Traitement des valeurs manquantes et aberrantes sous R
  • 55. Exploration de donn´ees Types de donn´ees manquantes M´ethodes de traitement de donn´ees manquantes Valeurs aberrantes : Outliers Sommaire Exclure les Donn´ees Manquantes DM L’imputation simple L’imputation multiple Outline 1 Exploration de donn´ees Traitements pr´eliminaires Pourquoi le traitement des donn´ees manquantes 2 Types de donn´ees manquantes Donn´ees MCAR Donn´ees MAR Donn´ees MNAR 3 M´ethodes de traitement de donn´ees manquantes Exclure les Donn´ees Manquantes DM L’imputation simple L’imputation multiple 4 Valeurs aberrantes : Outliers D´efinition Traitement Mohamed Ali KHOUAJA Traitement des valeurs manquantes et aberrantes sous R
  • 56. Exploration de donn´ees Types de donn´ees manquantes M´ethodes de traitement de donn´ees manquantes Valeurs aberrantes : Outliers Sommaire Exclure les Donn´ees Manquantes DM L’imputation simple L’imputation multiple L’imputation multiple Principe : proc´eder `a m > 1 imputations afin d’obtenir m valeurs pour chaque donn´ee manquante, et `a combiner ensuite les statistiques calcul´ees ind´ependamment sur les m jeux de donn´ees. les r´esultats peuvent varier selon les logiciels et les mod`eles Souvent, on opte pour l’imputation multiple et cela revient `a plusieurs raisons : Sous l’hypoth`ese MAR, MI produit des estimations non biais´ees ainsi que des variances non biais´ees M´ethode tr`es flexible Large disponibilit´e des techniques de MI dans les logiciels de statistique Les packages mice et mi impl´ementent de tels m´ethodes Mohamed Ali KHOUAJA Traitement des valeurs manquantes et aberrantes sous R
  • 57. Exploration de donn´ees Types de donn´ees manquantes M´ethodes de traitement de donn´ees manquantes Valeurs aberrantes : Outliers Sommaire Exclure les Donn´ees Manquantes DM L’imputation simple L’imputation multiple L’imputation multiple Etape 1 : on remplace chaque valeur manquante par M (>1) valeurs tir´ees d’une distribution appropri´ee. Mohamed Ali KHOUAJA Traitement des valeurs manquantes et aberrantes sous R
  • 58. Exploration de donn´ees Types de donn´ees manquantes M´ethodes de traitement de donn´ees manquantes Valeurs aberrantes : Outliers Sommaire Exclure les Donn´ees Manquantes DM L’imputation simple L’imputation multiple L’imputation multiple Etape 2 : on r´ealise des analyses ind´ependantes, mais avec la mˆeme m´ethode, de M bases imput´ees. Mohamed Ali KHOUAJA Traitement des valeurs manquantes et aberrantes sous R
  • 59. Exploration de donn´ees Types de donn´ees manquantes M´ethodes de traitement de donn´ees manquantes Valeurs aberrantes : Outliers Sommaire Exclure les Donn´ees Manquantes DM L’imputation simple L’imputation multiple L’imputation multiple Etape 3 : on combine les r´esultats de ces analyses afin de refl´eter la variabilit´e suppl´ementaire due aux donn´ees manquantes. Mohamed Ali KHOUAJA Traitement des valeurs manquantes et aberrantes sous R
  • 60. Exploration de donn´ees Types de donn´ees manquantes M´ethodes de traitement de donn´ees manquantes Valeurs aberrantes : Outliers Sommaire Exclure les Donn´ees Manquantes DM L’imputation simple L’imputation multiple L’imputation multiple Exemple sous R > summary(iris) #Apr`es g´en´eration des DM sur le jeu de donn´ees "iris" Sepal.Length Sepal.Width Petal.Length Petal.Width Min. :4.400 Min. :2.000 Min. :1.000 Min. :0.100 1st Qu.:5.100 1st Qu.:2.800 1st Qu.:1.575 1st Qu.:0.375 Median :5.900 Median :3.000 Median :4.350 Median :1.300 Mean :5.911 Mean :3.042 Mean :3.773 Mean :1.215 3rd Qu.:6.500 3rd Qu.:3.300 3rd Qu.:5.100 3rd Qu.:1.800 Max. :7.900 Max. :4.400 Max. :6.900 Max. :2.500 NA's :17 NA's :20 NA's :18 NA's :18 Species setosa :45 versicolor:44 virginica :41 NA's :20 Pour imputer les valeurs manquantes : > imputed.data <- mice(iris.mis, m=5, maxit = 50, method = 'pmm', seed = 100); m repr´esente 5 jeux de donn´ees imput´es maxit d´esigne le nombre d’it´erations pris pour imputer les DM method d´esigne la m´ethode d’imputation utilis´ee (ici ; Predective Mean Matching) Mohamed Ali KHOUAJA Traitement des valeurs manquantes et aberrantes sous R
  • 61. Exploration de donn´ees Types de donn´ees manquantes M´ethodes de traitement de donn´ees manquantes Valeurs aberrantes : Outliers Sommaire Exclure les Donn´ees Manquantes DM L’imputation simple L’imputation multiple L’imputation multiple Exemple sous R > summary(imputed.data) Multiply imputed data set Call: mice(data = iris.mis, m = 5, method = "pmm", maxit = 50, seed = 100) Number of multiple imputations: 5 Missing cells per column: Sepal.Length Sepal.Width Petal.Length Petal.Width 17 20 18 18 Imputation methods: Sepal.Length Sepal.Width Petal.Length Petal.Width "pmm" "pmm" "pmm" "pmm" VisitSequence: Sepal.Length Sepal.Width Petal.Length Petal.Width 1 2 3 4 PredictorMatrix: Sepal.Length Sepal.Width Petal.Length Petal.Width Sepal.Length 0 1 1 1 Sepal.Width 1 0 1 1 Petal.Length 1 1 0 1 Petal.Width 1 1 1 0 Random generator seed value: 100 Mohamed Ali KHOUAJA Traitement des valeurs manquantes et aberrantes sous R
  • 62. Exploration de donn´ees Types de donn´ees manquantes M´ethodes de traitement de donn´ees manquantes Valeurs aberrantes : Outliers Sommaire Exclure les Donn´ees Manquantes DM L’imputation simple L’imputation multiple L’imputation multiple Exemple sous R Pour s´el´ectionner un jeu de donn´ees des 5 imput´es, on utilise la fonction complete() > completeData <- complete(imputed.data, 2) > summary(completeData) Sepal.Length Sepal.Width Petal.Length Petal.Width Min. :4.400 Min. :2.000 Min. :1.000 Min. :0.100 1st Qu.:5.100 1st Qu.:2.800 1st Qu.:1.600 1st Qu.:0.325 Median :5.800 Median :3.000 Median :4.250 Median :1.300 Mean :5.864 Mean :3.054 Mean :3.749 Mean :1.202 3rd Qu.:6.400 3rd Qu.:3.300 3rd Qu.:5.100 3rd Qu.:1.800 Max. :7.900 Max. :4.400 Max. :6.900 Max. :2.500 Mohamed Ali KHOUAJA Traitement des valeurs manquantes et aberrantes sous R
  • 63. Les m´ethodes d’imputations en packages de R Figure – Les m´ethodes d’imputations en packages de R [1]
  • 64. Exploration de donn´ees Types de donn´ees manquantes M´ethodes de traitement de donn´ees manquantes Valeurs aberrantes : Outliers Sommaire D´efinition Traitement Outline 1 Exploration de donn´ees Traitements pr´eliminaires Pourquoi le traitement des donn´ees manquantes 2 Types de donn´ees manquantes Donn´ees MCAR Donn´ees MAR Donn´ees MNAR 3 M´ethodes de traitement de donn´ees manquantes Exclure les Donn´ees Manquantes DM L’imputation simple L’imputation multiple 4 Valeurs aberrantes : Outliers D´efinition Traitement Mohamed Ali KHOUAJA Traitement des valeurs manquantes et aberrantes sous R
  • 65. Exploration de donn´ees Types de donn´ees manquantes M´ethodes de traitement de donn´ees manquantes Valeurs aberrantes : Outliers Sommaire D´efinition Traitement Outliers D´efinition Une valeur aberrante est une valeur extrˆeme de la distribution d’une variable, c’est-`a-dire qui diff`ere significativement de l’ensemble des grandeurs d’une variable donn´ee. Pour les rep´erer : Boxplot Elle d´efinit les valeurs extrˆemes comme les valeurs sup´erieures ou inf´erieures `a I (=1.5 g´en´eralement) fois l’´ecart interquartile [3] Mohamed Ali KHOUAJA Traitement des valeurs manquantes et aberrantes sous R
  • 66. Exploration de donn´ees Types de donn´ees manquantes M´ethodes de traitement de donn´ees manquantes Valeurs aberrantes : Outliers Sommaire D´efinition Traitement D´etection des Outliers Les boites `a moustaches Figure – D´etection des valeurs extrˆemes avec les boˆıtes `a moustaches [3] Mohamed Ali KHOUAJA Traitement des valeurs manquantes et aberrantes sous R
  • 67. Exploration de donn´ees Types de donn´ees manquantes M´ethodes de traitement de donn´ees manquantes Valeurs aberrantes : Outliers Sommaire D´efinition Traitement D´etection des Outliers Les boites `a moustaches > x <- c(1:10, 20, 30) > boxplot.stats(x)$out [1] 20 30 Mohamed Ali KHOUAJA Traitement des valeurs manquantes et aberrantes sous R
  • 68. Exploration de donn´ees Types de donn´ees manquantes M´ethodes de traitement de donn´ees manquantes Valeurs aberrantes : Outliers Sommaire D´efinition Traitement Outline 1 Exploration de donn´ees Traitements pr´eliminaires Pourquoi le traitement des donn´ees manquantes 2 Types de donn´ees manquantes Donn´ees MCAR Donn´ees MAR Donn´ees MNAR 3 M´ethodes de traitement de donn´ees manquantes Exclure les Donn´ees Manquantes DM L’imputation simple L’imputation multiple 4 Valeurs aberrantes : Outliers D´efinition Traitement Mohamed Ali KHOUAJA Traitement des valeurs manquantes et aberrantes sous R
  • 69. Exploration de donn´ees Types de donn´ees manquantes M´ethodes de traitement de donn´ees manquantes Valeurs aberrantes : Outliers Sommaire D´efinition Traitement Traitement des Outliers Les valeurs aberrantes peuvent ne pas ˆetre des erreurs, mais bel et bien r´ev´eler des situations extraordinaires (´etude de comportements frauduleux ou d’´ev´enements rares). Dans le cas des erreurs (valeurs aberrantes), on pro¸c`ede par les m´ethodes d’imputation des NA Mohamed Ali KHOUAJA Traitement des valeurs manquantes et aberrantes sous R
  • 70. Exploration de donn´ees Types de donn´ees manquantes M´ethodes de traitement de donn´ees manquantes Valeurs aberrantes : Outliers Sommaire Sommaire Les jeux de donn´ees `a analyser peuvent contenir des valeurs manquantes. Si possible, on va chercher `a les remplacer par une valeur plausible. Diff´erentes m´ethodes statistiques existent pour cela. L’une des plus utilis´ees est l’imputation multiple. Mohamed Ali KHOUAJA Traitement des valeurs manquantes et aberrantes sous R
  • 71. Annexe R´ef´erences R´ef´erences I De Jong, E., Van der Loo, M. : An Introduction to Data Cleaning with R. Statistics Netherlands, The Hauge (2013) Kabacoff, R. R in Action, Data analysis and graphics with R - Manning Publications (2015) Biernat, E. and Lutz, M. Data science : fondamentaux et ´etudes de cas, EYROLLES (2011) Zumel, N. and Mount, J. Practical Data Science with R - Manning Publications (2014) Mohamed Ali KHOUAJA Traitement des valeurs manquantes et aberrantes sous R
  • 72. Annexe R´ef´erences R´ef´erences II analyticsvidhya.com/blog A Comprehensive guide to Data Exploration. Tutorial on 5 Powerful R Packages used for imputing missing values Mohamed Ali KHOUAJA Traitement des valeurs manquantes et aberrantes sous R