SlideShare une entreprise Scribd logo
BIG DATA ET
SCIENCE DE DONNÉES
INTRODUCTION A LA SCIENCE DE
DONNEES
Master 1 Intelligence Artificielle
Université de M’sila, Département d’Informatique
Dr Mehenni Tahar
2020-2021
Les origines scientifiques de la
science des données
L’aide à la décision etles bases de données
décisionnelles (data warehouse)
Le processus d’extraction de connaissances
(KDD: Knowledge Discovery from Data
Qu’est-ce que le machine learning ?
• Arthur Samuel, 1959: « le machine learning est le champ
d’étude visant à donner la capacité à une machine d’apprendre
sans être explicitement programmée ».
• Tom Mitchell, 1997: « A computer program is said to learn from
experience E with respect to some class of tasks T and
performance measure P, if its performance at tasks in T, as
measured by P, improves with experience E ».
Algorithmes supervisés et non
supervisés
• Les algorithmes supervisés: Extraient de la connaissance à partir
d’un ensemble de données contenant des couples entrée-sortie.
• Ces couples sont déjà « connus », dans le sens où les sorties sont définies a
priori.
• La valeur de sortie peut être une indication fournie par un expert : par exemple,
des valeurs de vérité de type OUI/NON ou MALADE/SAIN.
• Ces algorithmes cherchent à définir une représentation compacte des
associations entrée-sortie, par l’intermédiaire d’une fonction de prédiction.
• les algorithmes non supervisés: n’intègrent pas la notion d’entrée-
sortie.
• Toutes les données sont équivalentes (on pourrait dire qu’il n’y a que des
entrées).
• les algorithmes cherchent à organiser les données en groupes.
• Chaque groupe doit comprendre des données similaires et les données
différentes doivent se retrouver dans des groupes distincts.
• L’apprentissage ne se fait plus à partir d’une indication qui peut être
préalablement fournie par un expert, mais uniquement à partir des fluctuations
observables dans les données.
Algorithmes de régression et de
classification
• La distinction régression/classification se fait au sujet des
algorithmes supervisés.
• Dans un problème de régression: Y peut prendre une
infinité de valeurs dans l’ensemble continu des réels (noté
Y ∈ ). Ce peut être des températures, des tailles, des PIB,
des taux de chômage, ou tout autre type de mesure
n’ayant pas de valeurs finies a priori.
• Dans un problème de classification: Y prend un
nombre fini k de valeurs (Y ={1, …, k}). On parle alors
d’étiquettes attribuées aux valeurs d’entrée. C’est le cas
des valeurs de vérité de type OUI/NON ou MALADE/SAIN
évoqués précédemment.
Algorithmes du Data Scientist
La validation croisée
• Créer un échantillon d’entraînement, sur lequel on va
constituer le modèle, et un échantillon de test, sur lequel on
va tester le modèle.
• le data scientist choisit généralement de diviser ses données
en trois :
• un jeu d’entraînement, bien sûr;
• un jeu dit de validation : celui-ci va être utilisé pour tester les différents
modèles paramétrés sur le jeu d’entraînement
• et un vrai jeu de test, qu’on garde de côté et qui ne sera utilisé que tout
à la fin du processus de modélisation, afin de tester le plus
honnêtement possible la capacité de généralisation du modèle retenu.
Principales Méthodes de validation
croisée
• La méthode LOOV (leave-one-out cross-validation): Sortir une
observation i de l’ensemble du jeu de données et à calculer le
modèle sur les m-1 données restantes. On utilise ce modèle pour
prédire i et on calcule l’erreur de prévision. On répète ce processus
pour toutes les valeurs de i = 1, …, m. Les m erreurs de prévision
peuvent alors être utilisés pour évaluer la performance du modèle
en validation croisée.
• La méthode LKOV (leave-k-out cross-validation): même principe
que LOOV, sauf que l’on sort non pas une, mais k observations à
prédire à chaque étape (donc LOOV est équivalent à LKOV pour k =
1). Le processus est répété de façon à avoir réalisé tous les
découpages possibles en données de modélisation/de prévision.
• La méthode k-fold cross-validation: les données sont
aléatoirement divisées en k sous-échantillons de tailles égales, dont
l’un est utilisé pour la prévision et les k-1 restants pour l’estimation
du modèle. Le processus n’est répété que k fois.
Choix de la métrique de performance
• Pour les problèmes de régression
• Nombreuses sont les mesures disponibles pour évaluer
la qualité d’un modèle de régression.
Choix de la métrique de performance
• Pour les problèmes de classification
• L’évaluation d’un problème de classification se base sur une
matrice de confusion, qui met en regard des données prédites et
des données observées
• Recall: VP/(VP + FN)
• Précision: VP/(VP + FP)
• F1 score: 2*(Recall*Precision)/(Recall+Precision)
La courbe ROC
• ROC signifie Receiver Operating Characteristic.
• La courbe ROC est tracée dans un espace de deux dimensions définies par α
(taux de Vrais Positifs VP) en ordonnée et 1-β (β taux de Vrais Négatifs VN) en
abscisse.
• À (0, 0) le classificateur déclare toujours
'négatif'
• À (1, 1) le classificateur déclare toujours
'positif'
• Un classificateur aléatoire tracera une droite
allant de (0, 0) à (1, 1).
• À (0, 1) le classificateur n’a aucun faux positif
ni aucun faux négatif, et est par conséquent
parfaitement exact, ne se trompant jamais.
• À (1, 0) le classificateur n’a aucun vrai négatif
ni aucun vrai positif.
• AUC indique la probabilité pour que la fonction SCORE place un positif devant
un négatif (dans le meilleur des cas AUC = 1).
• Si SCORE classe au hasard les individus (c.-à-d. le modèle de prédiction ne sert
à rien), AUC = 0.5 (droite en diagonal: au-dessus: meilleur que l’aléatoire, au-
dessous: moins bine que l’aléatoire)
Les espaces de grande dimension
• La dimension d’un problème de machine learning correspond
au nombre n de variables de la matrice X.
• Un n grand peut poser de nombreux pièges que le data
scientist doit savoir surmonter.
• En général, on cherche à sélectionner judicieusement un sous-
espace pertinent, pour améliorer la modélisation.
• L’objectif est de conserver le maximum de l’information
contenue dans les données, avec un minimum de variables.
• Deux approches sont envisageables:
• Sélectionner un nombre restreint des variables les plus importantes
(Exemple: feature selection).
• Créer des variables « synthétiques » à partir des variables initiales,
ensuite reconstruire un nouvel espace de dimension réduite (Exemple:
Analyse en Composantes Principales).
Les valeurs manquantes
• Deux grandes catégories de données manquantes:
• Lorsque l’on ne dispose d’aucune information sur un individu (c’est-
à-dire une ligne complètement vide dans une matrice).
• Lorsque l’on dispose d’une information incomplète sur un individu
(une ligne partiellement renseignée).
• Traitement des valeurs manquantes:
• Imputation par règle : si on la connaît, on peut définir une règle
métier qui permet de calculer la valeur manquante à partir des
autres données disponibles ;
• Replacement des valeurs manquantes par la valeur moyenne de
l’ensemble des réponses
• Imputation par régression.
• Méthode du plus proche voisin

Contenu connexe

Tendances

Analyse factorielle des_correspondances-afc
Analyse factorielle des_correspondances-afcAnalyse factorielle des_correspondances-afc
Analyse factorielle des_correspondances-afc
Rémi Bachelet
 
Chapitre 4-Apprentissage non supervisé (1) (1).pdf
Chapitre 4-Apprentissage non supervisé (1) (1).pdfChapitre 4-Apprentissage non supervisé (1) (1).pdf
Chapitre 4-Apprentissage non supervisé (1) (1).pdf
ZizoAziz
 
Le langage sql
Le langage sqlLe langage sql
Le langage sql
Abderrahim Aitali
 
Introduction au traitement d'images
Introduction au traitement d'imagesIntroduction au traitement d'images
Introduction au traitement d'images
Abdelouahed Abdou
 
Les algorithmes de génération des règles d association
Les algorithmes de génération des règles d associationLes algorithmes de génération des règles d association
Les algorithmes de génération des règles d association
Hajer Trabelsi
 
5.1 K plus proches voisins
5.1 K plus proches voisins5.1 K plus proches voisins
5.1 K plus proches voisins
Boris Guarisma
 
Exposé réseaux des neurones (NN) - (RN)
Exposé réseaux des neurones (NN) - (RN)Exposé réseaux des neurones (NN) - (RN)
Exposé réseaux des neurones (NN) - (RN)
Soumia Elyakote HERMA
 
5.5 Clustering
5.5 Clustering5.5 Clustering
5.5 Clustering
Boris Guarisma
 
réseaux de neurones artificiels
réseaux de neurones artificiels réseaux de neurones artificiels
réseaux de neurones artificiels
Oussama Werfelli
 
Data mining - Classification - arbres de décision
Data mining - Classification - arbres de décisionData mining - Classification - arbres de décision
Data mining - Classification - arbres de décision
Mohamed Heny SELMI
 
Examen principal - Fondement Multimedia - correction
Examen principal - Fondement Multimedia - correctionExamen principal - Fondement Multimedia - correction
Examen principal - Fondement Multimedia - correction
Ines Ouaz
 
Présentation sur le Data Mining
Présentation sur le Data MiningPrésentation sur le Data Mining
Présentation sur le Data Mining
Takfarinas KENOUCHE
 
Data mining - Associativité
Data mining - AssociativitéData mining - Associativité
Data mining - Associativité
Mohamed Heny SELMI
 
Les 10 plus populaires algorithmes du machine learning
Les 10 plus populaires algorithmes du machine learningLes 10 plus populaires algorithmes du machine learning
Les 10 plus populaires algorithmes du machine learning
Hakim Nasaoui
 
Règles d’association
Règles d’associationRègles d’association
Règles d’association
Hassine Hammami
 
Chapitre 4 heuristiques et méta heuristiques
Chapitre 4 heuristiques et méta heuristiquesChapitre 4 heuristiques et méta heuristiques
Chapitre 4 heuristiques et méta heuristiques
Sana Aroussi
 
Le problème de voyageur de commerce: algorithme génétique
Le problème de voyageur de commerce: algorithme génétiqueLe problème de voyageur de commerce: algorithme génétique
Le problème de voyageur de commerce: algorithme génétique
Rima Lassoued
 
Apprentissage supervisé.pdf
Apprentissage supervisé.pdfApprentissage supervisé.pdf
Apprentissage supervisé.pdf
hanamettali
 
Cours Big Data Chap1
Cours Big Data Chap1Cours Big Data Chap1
Cours Big Data Chap1
Amal Abid
 

Tendances (20)

Analyse factorielle des_correspondances-afc
Analyse factorielle des_correspondances-afcAnalyse factorielle des_correspondances-afc
Analyse factorielle des_correspondances-afc
 
Chapitre 4-Apprentissage non supervisé (1) (1).pdf
Chapitre 4-Apprentissage non supervisé (1) (1).pdfChapitre 4-Apprentissage non supervisé (1) (1).pdf
Chapitre 4-Apprentissage non supervisé (1) (1).pdf
 
Le langage sql
Le langage sqlLe langage sql
Le langage sql
 
Introduction au traitement d'images
Introduction au traitement d'imagesIntroduction au traitement d'images
Introduction au traitement d'images
 
Les algorithmes de génération des règles d association
Les algorithmes de génération des règles d associationLes algorithmes de génération des règles d association
Les algorithmes de génération des règles d association
 
5.1 K plus proches voisins
5.1 K plus proches voisins5.1 K plus proches voisins
5.1 K plus proches voisins
 
Exposé réseaux des neurones (NN) - (RN)
Exposé réseaux des neurones (NN) - (RN)Exposé réseaux des neurones (NN) - (RN)
Exposé réseaux des neurones (NN) - (RN)
 
5.5 Clustering
5.5 Clustering5.5 Clustering
5.5 Clustering
 
réseaux de neurones artificiels
réseaux de neurones artificiels réseaux de neurones artificiels
réseaux de neurones artificiels
 
Data mining - Classification - arbres de décision
Data mining - Classification - arbres de décisionData mining - Classification - arbres de décision
Data mining - Classification - arbres de décision
 
Algorithme knn
Algorithme knnAlgorithme knn
Algorithme knn
 
Examen principal - Fondement Multimedia - correction
Examen principal - Fondement Multimedia - correctionExamen principal - Fondement Multimedia - correction
Examen principal - Fondement Multimedia - correction
 
Présentation sur le Data Mining
Présentation sur le Data MiningPrésentation sur le Data Mining
Présentation sur le Data Mining
 
Data mining - Associativité
Data mining - AssociativitéData mining - Associativité
Data mining - Associativité
 
Les 10 plus populaires algorithmes du machine learning
Les 10 plus populaires algorithmes du machine learningLes 10 plus populaires algorithmes du machine learning
Les 10 plus populaires algorithmes du machine learning
 
Règles d’association
Règles d’associationRègles d’association
Règles d’association
 
Chapitre 4 heuristiques et méta heuristiques
Chapitre 4 heuristiques et méta heuristiquesChapitre 4 heuristiques et méta heuristiques
Chapitre 4 heuristiques et méta heuristiques
 
Le problème de voyageur de commerce: algorithme génétique
Le problème de voyageur de commerce: algorithme génétiqueLe problème de voyageur de commerce: algorithme génétique
Le problème de voyageur de commerce: algorithme génétique
 
Apprentissage supervisé.pdf
Apprentissage supervisé.pdfApprentissage supervisé.pdf
Apprentissage supervisé.pdf
 
Cours Big Data Chap1
Cours Big Data Chap1Cours Big Data Chap1
Cours Big Data Chap1
 

Similaire à Ch6 Introduction à la Science de Données.pdf

Conférence: Catalyseurs de l'Intelligence Artificielle et Écosystème des Fram...
Conférence: Catalyseurs de l'Intelligence Artificielle et Écosystème des Fram...Conférence: Catalyseurs de l'Intelligence Artificielle et Écosystème des Fram...
Conférence: Catalyseurs de l'Intelligence Artificielle et Écosystème des Fram...
ENSET, Université Hassan II Casablanca
 
Marketing et Big Data
Marketing et Big DataMarketing et Big Data
Marketing et Big Data
Jeremy Greze
 
Mise en oeuvre des framework de machines et deep learning v1
Mise en oeuvre des framework de machines et deep learning v1 Mise en oeuvre des framework de machines et deep learning v1
Mise en oeuvre des framework de machines et deep learning v1
ENSET, Université Hassan II Casablanca
 
FLTauR - Construction de modèles de prévision sous r avec le package caret
FLTauR - Construction de modèles de prévision sous r avec le package caretFLTauR - Construction de modèles de prévision sous r avec le package caret
FLTauR - Construction de modèles de prévision sous r avec le package caret
jfeudeline
 
fr_Tanagra_Naive_Bayes_Classifier_Explained.pdf
fr_Tanagra_Naive_Bayes_Classifier_Explained.pdffr_Tanagra_Naive_Bayes_Classifier_Explained.pdf
fr_Tanagra_Naive_Bayes_Classifier_Explained.pdf
SidiAbdallah1
 
Data Mining (Partie 3).pdf
Data Mining (Partie 3).pdfData Mining (Partie 3).pdf
Data Mining (Partie 3).pdf
OuailChoukhairi
 
resampling_evaluation.pdf
resampling_evaluation.pdfresampling_evaluation.pdf
resampling_evaluation.pdf
SidiAbdallah1
 
test
testtest
test
dehbimoad
 
présentation six sigma uptraining français
présentation six sigma uptraining françaisprésentation six sigma uptraining français
présentation six sigma uptraining français
simon leclercq
 
IBM Paris Bluemix Meetup #12 - Ecole 42 - 9 décembre 2015
IBM Paris Bluemix Meetup #12 - Ecole 42 - 9 décembre 2015IBM Paris Bluemix Meetup #12 - Ecole 42 - 9 décembre 2015
IBM Paris Bluemix Meetup #12 - Ecole 42 - 9 décembre 2015
IBM France Lab
 
Owf 2013 rii panorama leroy
Owf 2013 rii panorama leroyOwf 2013 rii panorama leroy
Owf 2013 rii panorama leroy
Patrick MOREAU
 
arbres de decision.ppt
arbres de decision.pptarbres de decision.ppt
arbres de decision.ppt
Jihane Elârrouchi
 
L’apport des techniques statistiques dans les projets Lean 6 Sigma
L’apport des techniques statistiques dans les projets Lean 6 SigmaL’apport des techniques statistiques dans les projets Lean 6 Sigma
L’apport des techniques statistiques dans les projets Lean 6 Sigma
XL Formation
 
Analyse en composantes principales, ACP, sous SPSS (Principal Component Analy...
Analyse en composantes principales, ACP, sous SPSS (Principal Component Analy...Analyse en composantes principales, ACP, sous SPSS (Principal Component Analy...
Analyse en composantes principales, ACP, sous SPSS (Principal Component Analy...
Adad Med Chérif
 
Data Mining
Data MiningData Mining
Forêts uniformément aléatoires - Saïp CISS
Forêts uniformément aléatoires - Saïp CISSForêts uniformément aléatoires - Saïp CISS
Forêts uniformément aléatoires - Saïp CISS
Kezhan SHI
 
Machine Leargning_supérvisé.pptx
Machine Leargning_supérvisé.pptxMachine Leargning_supérvisé.pptx
Machine Leargning_supérvisé.pptx
bely26
 
Analyzing a churn data set
Analyzing a churn data set Analyzing a churn data set
Analyzing a churn data set
Rasoul Baharifard
 
Etude comparative des classifieurs Naïve Bayes et SVM
Etude comparative des classifieurs Naïve Bayes et SVMEtude comparative des classifieurs Naïve Bayes et SVM
Etude comparative des classifieurs Naïve Bayes et SVM
SamirAwad14
 
Amélioration continue - 6 sigma - ibtissam el hassani-chapitre 2015-2016
Amélioration continue - 6 sigma - ibtissam el hassani-chapitre 2015-2016Amélioration continue - 6 sigma - ibtissam el hassani-chapitre 2015-2016
Amélioration continue - 6 sigma - ibtissam el hassani-chapitre 2015-2016
ibtissam el hassani
 

Similaire à Ch6 Introduction à la Science de Données.pdf (20)

Conférence: Catalyseurs de l'Intelligence Artificielle et Écosystème des Fram...
Conférence: Catalyseurs de l'Intelligence Artificielle et Écosystème des Fram...Conférence: Catalyseurs de l'Intelligence Artificielle et Écosystème des Fram...
Conférence: Catalyseurs de l'Intelligence Artificielle et Écosystème des Fram...
 
Marketing et Big Data
Marketing et Big DataMarketing et Big Data
Marketing et Big Data
 
Mise en oeuvre des framework de machines et deep learning v1
Mise en oeuvre des framework de machines et deep learning v1 Mise en oeuvre des framework de machines et deep learning v1
Mise en oeuvre des framework de machines et deep learning v1
 
FLTauR - Construction de modèles de prévision sous r avec le package caret
FLTauR - Construction de modèles de prévision sous r avec le package caretFLTauR - Construction de modèles de prévision sous r avec le package caret
FLTauR - Construction de modèles de prévision sous r avec le package caret
 
fr_Tanagra_Naive_Bayes_Classifier_Explained.pdf
fr_Tanagra_Naive_Bayes_Classifier_Explained.pdffr_Tanagra_Naive_Bayes_Classifier_Explained.pdf
fr_Tanagra_Naive_Bayes_Classifier_Explained.pdf
 
Data Mining (Partie 3).pdf
Data Mining (Partie 3).pdfData Mining (Partie 3).pdf
Data Mining (Partie 3).pdf
 
resampling_evaluation.pdf
resampling_evaluation.pdfresampling_evaluation.pdf
resampling_evaluation.pdf
 
test
testtest
test
 
présentation six sigma uptraining français
présentation six sigma uptraining françaisprésentation six sigma uptraining français
présentation six sigma uptraining français
 
IBM Paris Bluemix Meetup #12 - Ecole 42 - 9 décembre 2015
IBM Paris Bluemix Meetup #12 - Ecole 42 - 9 décembre 2015IBM Paris Bluemix Meetup #12 - Ecole 42 - 9 décembre 2015
IBM Paris Bluemix Meetup #12 - Ecole 42 - 9 décembre 2015
 
Owf 2013 rii panorama leroy
Owf 2013 rii panorama leroyOwf 2013 rii panorama leroy
Owf 2013 rii panorama leroy
 
arbres de decision.ppt
arbres de decision.pptarbres de decision.ppt
arbres de decision.ppt
 
L’apport des techniques statistiques dans les projets Lean 6 Sigma
L’apport des techniques statistiques dans les projets Lean 6 SigmaL’apport des techniques statistiques dans les projets Lean 6 Sigma
L’apport des techniques statistiques dans les projets Lean 6 Sigma
 
Analyse en composantes principales, ACP, sous SPSS (Principal Component Analy...
Analyse en composantes principales, ACP, sous SPSS (Principal Component Analy...Analyse en composantes principales, ACP, sous SPSS (Principal Component Analy...
Analyse en composantes principales, ACP, sous SPSS (Principal Component Analy...
 
Data Mining
Data MiningData Mining
Data Mining
 
Forêts uniformément aléatoires - Saïp CISS
Forêts uniformément aléatoires - Saïp CISSForêts uniformément aléatoires - Saïp CISS
Forêts uniformément aléatoires - Saïp CISS
 
Machine Leargning_supérvisé.pptx
Machine Leargning_supérvisé.pptxMachine Leargning_supérvisé.pptx
Machine Leargning_supérvisé.pptx
 
Analyzing a churn data set
Analyzing a churn data set Analyzing a churn data set
Analyzing a churn data set
 
Etude comparative des classifieurs Naïve Bayes et SVM
Etude comparative des classifieurs Naïve Bayes et SVMEtude comparative des classifieurs Naïve Bayes et SVM
Etude comparative des classifieurs Naïve Bayes et SVM
 
Amélioration continue - 6 sigma - ibtissam el hassani-chapitre 2015-2016
Amélioration continue - 6 sigma - ibtissam el hassani-chapitre 2015-2016Amélioration continue - 6 sigma - ibtissam el hassani-chapitre 2015-2016
Amélioration continue - 6 sigma - ibtissam el hassani-chapitre 2015-2016
 

Ch6 Introduction à la Science de Données.pdf

  • 1. BIG DATA ET SCIENCE DE DONNÉES INTRODUCTION A LA SCIENCE DE DONNEES Master 1 Intelligence Artificielle Université de M’sila, Département d’Informatique Dr Mehenni Tahar 2020-2021
  • 2. Les origines scientifiques de la science des données
  • 3. L’aide à la décision etles bases de données décisionnelles (data warehouse)
  • 4. Le processus d’extraction de connaissances (KDD: Knowledge Discovery from Data
  • 5. Qu’est-ce que le machine learning ? • Arthur Samuel, 1959: « le machine learning est le champ d’étude visant à donner la capacité à une machine d’apprendre sans être explicitement programmée ». • Tom Mitchell, 1997: « A computer program is said to learn from experience E with respect to some class of tasks T and performance measure P, if its performance at tasks in T, as measured by P, improves with experience E ».
  • 6. Algorithmes supervisés et non supervisés • Les algorithmes supervisés: Extraient de la connaissance à partir d’un ensemble de données contenant des couples entrée-sortie. • Ces couples sont déjà « connus », dans le sens où les sorties sont définies a priori. • La valeur de sortie peut être une indication fournie par un expert : par exemple, des valeurs de vérité de type OUI/NON ou MALADE/SAIN. • Ces algorithmes cherchent à définir une représentation compacte des associations entrée-sortie, par l’intermédiaire d’une fonction de prédiction. • les algorithmes non supervisés: n’intègrent pas la notion d’entrée- sortie. • Toutes les données sont équivalentes (on pourrait dire qu’il n’y a que des entrées). • les algorithmes cherchent à organiser les données en groupes. • Chaque groupe doit comprendre des données similaires et les données différentes doivent se retrouver dans des groupes distincts. • L’apprentissage ne se fait plus à partir d’une indication qui peut être préalablement fournie par un expert, mais uniquement à partir des fluctuations observables dans les données.
  • 7. Algorithmes de régression et de classification • La distinction régression/classification se fait au sujet des algorithmes supervisés. • Dans un problème de régression: Y peut prendre une infinité de valeurs dans l’ensemble continu des réels (noté Y ∈ ). Ce peut être des températures, des tailles, des PIB, des taux de chômage, ou tout autre type de mesure n’ayant pas de valeurs finies a priori. • Dans un problème de classification: Y prend un nombre fini k de valeurs (Y ={1, …, k}). On parle alors d’étiquettes attribuées aux valeurs d’entrée. C’est le cas des valeurs de vérité de type OUI/NON ou MALADE/SAIN évoqués précédemment.
  • 9. La validation croisée • Créer un échantillon d’entraînement, sur lequel on va constituer le modèle, et un échantillon de test, sur lequel on va tester le modèle. • le data scientist choisit généralement de diviser ses données en trois : • un jeu d’entraînement, bien sûr; • un jeu dit de validation : celui-ci va être utilisé pour tester les différents modèles paramétrés sur le jeu d’entraînement • et un vrai jeu de test, qu’on garde de côté et qui ne sera utilisé que tout à la fin du processus de modélisation, afin de tester le plus honnêtement possible la capacité de généralisation du modèle retenu.
  • 10. Principales Méthodes de validation croisée • La méthode LOOV (leave-one-out cross-validation): Sortir une observation i de l’ensemble du jeu de données et à calculer le modèle sur les m-1 données restantes. On utilise ce modèle pour prédire i et on calcule l’erreur de prévision. On répète ce processus pour toutes les valeurs de i = 1, …, m. Les m erreurs de prévision peuvent alors être utilisés pour évaluer la performance du modèle en validation croisée. • La méthode LKOV (leave-k-out cross-validation): même principe que LOOV, sauf que l’on sort non pas une, mais k observations à prédire à chaque étape (donc LOOV est équivalent à LKOV pour k = 1). Le processus est répété de façon à avoir réalisé tous les découpages possibles en données de modélisation/de prévision. • La méthode k-fold cross-validation: les données sont aléatoirement divisées en k sous-échantillons de tailles égales, dont l’un est utilisé pour la prévision et les k-1 restants pour l’estimation du modèle. Le processus n’est répété que k fois.
  • 11. Choix de la métrique de performance • Pour les problèmes de régression • Nombreuses sont les mesures disponibles pour évaluer la qualité d’un modèle de régression.
  • 12. Choix de la métrique de performance • Pour les problèmes de classification • L’évaluation d’un problème de classification se base sur une matrice de confusion, qui met en regard des données prédites et des données observées • Recall: VP/(VP + FN) • Précision: VP/(VP + FP) • F1 score: 2*(Recall*Precision)/(Recall+Precision)
  • 13. La courbe ROC • ROC signifie Receiver Operating Characteristic. • La courbe ROC est tracée dans un espace de deux dimensions définies par α (taux de Vrais Positifs VP) en ordonnée et 1-β (β taux de Vrais Négatifs VN) en abscisse. • À (0, 0) le classificateur déclare toujours 'négatif' • À (1, 1) le classificateur déclare toujours 'positif' • Un classificateur aléatoire tracera une droite allant de (0, 0) à (1, 1). • À (0, 1) le classificateur n’a aucun faux positif ni aucun faux négatif, et est par conséquent parfaitement exact, ne se trompant jamais. • À (1, 0) le classificateur n’a aucun vrai négatif ni aucun vrai positif. • AUC indique la probabilité pour que la fonction SCORE place un positif devant un négatif (dans le meilleur des cas AUC = 1). • Si SCORE classe au hasard les individus (c.-à-d. le modèle de prédiction ne sert à rien), AUC = 0.5 (droite en diagonal: au-dessus: meilleur que l’aléatoire, au- dessous: moins bine que l’aléatoire)
  • 14. Les espaces de grande dimension • La dimension d’un problème de machine learning correspond au nombre n de variables de la matrice X. • Un n grand peut poser de nombreux pièges que le data scientist doit savoir surmonter. • En général, on cherche à sélectionner judicieusement un sous- espace pertinent, pour améliorer la modélisation. • L’objectif est de conserver le maximum de l’information contenue dans les données, avec un minimum de variables. • Deux approches sont envisageables: • Sélectionner un nombre restreint des variables les plus importantes (Exemple: feature selection). • Créer des variables « synthétiques » à partir des variables initiales, ensuite reconstruire un nouvel espace de dimension réduite (Exemple: Analyse en Composantes Principales).
  • 15. Les valeurs manquantes • Deux grandes catégories de données manquantes: • Lorsque l’on ne dispose d’aucune information sur un individu (c’est- à-dire une ligne complètement vide dans une matrice). • Lorsque l’on dispose d’une information incomplète sur un individu (une ligne partiellement renseignée). • Traitement des valeurs manquantes: • Imputation par règle : si on la connaît, on peut définir une règle métier qui permet de calculer la valeur manquante à partir des autres données disponibles ; • Replacement des valeurs manquantes par la valeur moyenne de l’ensemble des réponses • Imputation par régression. • Méthode du plus proche voisin