SlideShare une entreprise Scribd logo
Département d’informatique
Sidi Bel Abbes
Introduction :
Data mining (fouille de données , forage de données …) apparait dans
les années 1990 aux Etats-Unis comme une nouvelle discipline a l’interface
de la statistique et des technologies de l’information exemple : base de donnée ,
intelligence artificielle …
Le data mining est devenu aujourd'hui un domaine très en vogue adapter et utiliser dans un large
nombre de domaines d'activités. Dans les plus connus on peut mentionner:
1/ Médical / pharmaceutique:
** Explication ou prédiction de la réponse d'un patient à un traitement.
** Etude des corrélations entre le dosage dans un traitement et l'apparition d'effets
secondaires .
2/ Assurance et santé :
** Détection d'association de comportements pour la découverte de clients
à risque.
** Découverte d'associations des demandes de remboursements
3/ Banques / Finances :
** Crédit scoring - évaluer le risque de non remboursement (technique
data mining la plus déployée).
** Prédiction - prévoir quels clients seront intéressés par une offre.
4/ Marketing :
** déterminer ce qui caractérise un groupe particulier de clients .
** déterminer le prix "optimal" pour un produit.
Définition :
Le datamining est un processus d’extractions automatique d’informations prédictives
à partir de grandes bases de données. L’objectif est de:
** Développer des techniques et systèmes efficaces et extensibles pour l’exploration de
BD larges et multidimensionnelles et des Données distribuées.
** Représentation simple de la connaissance.
Il existe deux type d’apprentissage : apprentissage supervisé et apprentissage non
supervisé.
1/ Apprentissage supervisé :
l'apprenant considère un ensemble d'exemples, et infère l'appartenance d'un objet à
une
classe en considérant les similarités entre l'objet et les éléments de la classe . Les
classes sont étiquetées préalablement. EX : arbre de décision , 1-R , KNN …
2/ Apprentissage non supervisé :
Construction d'un modèle et découverte des relations dans les données sans référence
à d'autres données. On ne dispose d'aucune autre information préalable que la
description des exemples. EX : K-means .
Les données en datamining :
Dans un problème de Datamining, les informations caractérisant une étude sont
présentées sous la forme d’attributs et d’instances.
Attributs :
• Un attribut est un descripteur d’une entité. On l’appelle également
variable, champs, caractéristiques ou observations.
Instances :
• Une instance est une entité caractérisant un objet et est donc constitué d’attributs.
Types de données :
• numérique continue : la valeur de la variable peut prendre une valeur
dans R (par exemple : le montant du compte en banques).
• numérique discrète : la valeur de la variable appartient à Z ou N
• catégorie : avec ou sans relation d’ordre (par exemple : { rouge, vert,
bleu }).
• binaire
• Chaînes de caractères (par exemple : un texte)
• Arbre : (par exemple Page XML)
• Données structurées : graphe, enregistrement
Le processus du datamining :
Le processus du datamining comporte 6 phases :
1- Compréhension métier :
· Énoncer clairement les objectifs globaux du projet et les contraintes de l’entreprise.
· Traduire ces objectifs et ces contraintes en un problème de data mining.
· Préparer une stratégie initiale pour atteindre ces objectifs.
2- Compréhension des données :
· Recueillir les données.
· Utiliser l’analyse exploratoire pour se familiariser avec les données, commencer à les
comprendre et imaginer ce qu’on pourrait en tirer comme connaissance.
· Évaluer la qualité des données.
· Éventuellement, sélectionner des sous-ensembles intéressants.
3- Préparation des données :
· Préparer, à partir des données brutes, l’ensemble final des données qui va être utilisé
pour toutes les phases suivantes.
· Sélectionner les cas et les variables à analyser.
· Réaliser si nécessaire les transformations de certaines données.
· Réaliser si nécessaire la suppression de certaines données.
Cette phase fait suite à la compréhension des données. Celle-ci a mis au jour les
corrélations, les valeurs aberrantes, les valeurs manquantes : on peut donc faire la
préparation.
4- Modélisation:
· Sélectionner les techniques de modélisation appropriées (souvent plusieurs techniques
peuvent être utilisées pour le même problème).
5- Evaluation :
· Pour chaque technique de modélisation utilisée, évaluer la qualité (la pertinence, la
signification) des résultats obtenus.
· Déterminer si les résultats obtenus atteignent les objectifs globaux identifiés pendant la
phase de compréhension du métier.
· Décider si on passe à la phase suivante (le déploiement) ou si on souhaite reprendre
l’étude en complétant le jeu de données.
6- Déploiement :
· Prendre les décisions en conséquences des résultats de l’étude de data mining
· Préparer la collecte des informations futures pour permettre de vérifier la pertinence
des décisions effectivement mis en œuvre.
1.Apprentissage supervisé
One Rule :
-Règle de classification qui travaille sur un attribut indépendamment de l’autre.
-le modèle étant constitue sur la base d’un seul attribut.
ID3 :
ID3 construit un arbre de décision de façon récursive en choisissant l’attribut qui
maxime le gain d’information selon l’entropie de Shannon. Cet algorithme fonctionne
exclusivement avec des attributs catégoriques et un nœud est créé pour chaque
valeur des attributs sélectionnés.
C4.5:
C4.5 est une amélioration d’ID3 qui permet de travailler à la fois avec des données
discrètes et des données continues. Il permet également de travailler avec des valeurs
d’attribut manquantes.
Naïve bays:
Modélisation statistique; tout les attributs constituent dans le modèle de façon équitable
et indépendante mais la pratique a montré que la méthode bien simple et plutôt efficace.
K-NN:
C’est un fainéant algorithme , consiste à prendre en compte (de façon identique) les k
échantillons d'apprentissage dont l’entrée est la plus proche de la nouvelle entrée x,
selon une distance à définir.
2. Apprentissage non-supervisé:
 Clustering:
est une méthode statistique d’analyse de données qui a pour but de regrouper un
ensemble de données en différents groupes homogènes Chaque sous-
ensemble regroupe des éléments ayant des caractéristiques communes qui
correspondent à des critères de proximité.
Arbres de décision – Exemple
Détection de fraudes fiscales
id Ristourne S,f Impôt
revenu
Fraude
1 oui Célibat 125 Non
2 non Marié 100 Non
3 non Célibat 70 Non
4 oui Marié 120 Non
5 non Divorcé 95 Oui
6 Non Marié 60 Non
7 oui Divorcé 220 Non
8 Non Célibat 85 Oui
9 Non Marié 75 Non
10 non Célibat 90 Oui
On a 3 attributs ristourne , situation famille , impôt revenu :
**Ristourne est de type :symbolique .
**Situation famille est de type :symbolique .
**Impôt revenu (qui porte sur les revenus des individus les taux augmentent en
fonction de l’importance des revenus déclarés) est de type : numérique .
La classe Fraude qui va prendre 2 valeurs {oui , non}
En utilisant l’arbre de décision :
Ristourne
Non Situation
Impôt Non
Non Oui
Oui Non
MariéCélibat ,
Divorcé
>= 80< 80
Pour classer une instance : descendre dans l’arbre selon les réponses
aux différents tests.
Ex = (Ristourne=Non, Situation=Divorcé, Impôt=100) => oui
Ristourne
Non Situation
Impôt
Non
Non Oui
Oui Non
MariéCélibat ,
Divorcé
>=
80< 80
1
2
3
Pour bien mener un projet de DM
•Identifier et énoncer clairement les besoins.
•Créer ou obtenir des données représentatives du problème
•Identifier le contexte de l’apprentissage
•Analyser et réduire la dimension des données
•Choisir un algorithme et/ou un espace d’hypothèses.
•Choisir un modèle en appliquant l’algorithme aux données prétraitées.
•Valider les performances de la méthode.

Contenu connexe

Tendances

Arbre de décision
Arbre de décisionArbre de décision
Arbre de décision
Yassine Badri
 
La prédiction du churn client dans le domaine du telecom
La prédiction du churn client dans le domaine du telecomLa prédiction du churn client dans le domaine du telecom
La prédiction du churn client dans le domaine du telecom
Ismail Sanni
 
Bases de Données non relationnelles, NoSQL (Introduction) 1er cours
Bases de Données non relationnelles, NoSQL (Introduction) 1er coursBases de Données non relationnelles, NoSQL (Introduction) 1er cours
Bases de Données non relationnelles, NoSQL (Introduction) 1er cours
Hatim CHAHDI
 
Big data
Big dataBig data
Data mining - Classification - arbres de décision
Data mining - Classification - arbres de décisionData mining - Classification - arbres de décision
Data mining - Classification - arbres de décision
Mohamed Heny SELMI
 
BigData_Chp4: NOSQL
BigData_Chp4: NOSQLBigData_Chp4: NOSQL
BigData_Chp4: NOSQL
Lilia Sfaxi
 
La classification des Emails utilisant le modèle MapReduce
La classification des Emails utilisant le modèle MapReduce La classification des Emails utilisant le modèle MapReduce
La classification des Emails utilisant le modèle MapReduce
Nour El Houda Megherbi
 
Introduction au datamining, concepts et techniques
Introduction au datamining, concepts et techniquesIntroduction au datamining, concepts et techniques
Introduction au datamining, concepts et techniques
Ismail CHAIB
 
Les arbres de décisions
Les arbres de décisionsLes arbres de décisions
Les arbres de décisions
Mariem Chaaben
 
Rapport data-mining
Rapport data-miningRapport data-mining
Rapport data-mining
Sawsen Larbi
 
Chp1 - Introduction à l'Informatique Décisionnelle
Chp1 - Introduction à l'Informatique DécisionnelleChp1 - Introduction à l'Informatique Décisionnelle
Chp1 - Introduction à l'Informatique Décisionnelle
Lilia Sfaxi
 
Chp2 - Les Entrepôts de Données
Chp2 - Les Entrepôts de DonnéesChp2 - Les Entrepôts de Données
Chp2 - Les Entrepôts de Données
Lilia Sfaxi
 
Apprentissage automatique avec RapidMiner
Apprentissage automatique avec RapidMinerApprentissage automatique avec RapidMiner
Apprentissage automatique avec RapidMiner
Majdi Hannachi
 
Les 10 plus populaires algorithmes du machine learning
Les 10 plus populaires algorithmes du machine learningLes 10 plus populaires algorithmes du machine learning
Les 10 plus populaires algorithmes du machine learning
Hakim Nasaoui
 
Cours Big Data Chap1
Cours Big Data Chap1Cours Big Data Chap1
Cours Big Data Chap1
Amal Abid
 
BigData_Chp2: Hadoop & Map-Reduce
BigData_Chp2: Hadoop & Map-ReduceBigData_Chp2: Hadoop & Map-Reduce
BigData_Chp2: Hadoop & Map-Reduce
Lilia Sfaxi
 
Apache SPARK ML : principes, concepts et mise en œuvre
Apache SPARK  ML : principes, concepts et  mise en œuvre Apache SPARK  ML : principes, concepts et  mise en œuvre
Apache SPARK ML : principes, concepts et mise en œuvre
MICHRAFY MUSTAFA
 
Les algorithmes de génération des règles d association
Les algorithmes de génération des règles d associationLes algorithmes de génération des règles d association
Les algorithmes de génération des règles d association
Hajer Trabelsi
 
exercices business intelligence
exercices business intelligence exercices business intelligence
exercices business intelligence
Yassine Badri
 

Tendances (20)

Arbre de décision
Arbre de décisionArbre de décision
Arbre de décision
 
Data warehouse
Data warehouseData warehouse
Data warehouse
 
La prédiction du churn client dans le domaine du telecom
La prédiction du churn client dans le domaine du telecomLa prédiction du churn client dans le domaine du telecom
La prédiction du churn client dans le domaine du telecom
 
Bases de Données non relationnelles, NoSQL (Introduction) 1er cours
Bases de Données non relationnelles, NoSQL (Introduction) 1er coursBases de Données non relationnelles, NoSQL (Introduction) 1er cours
Bases de Données non relationnelles, NoSQL (Introduction) 1er cours
 
Big data
Big dataBig data
Big data
 
Data mining - Classification - arbres de décision
Data mining - Classification - arbres de décisionData mining - Classification - arbres de décision
Data mining - Classification - arbres de décision
 
BigData_Chp4: NOSQL
BigData_Chp4: NOSQLBigData_Chp4: NOSQL
BigData_Chp4: NOSQL
 
La classification des Emails utilisant le modèle MapReduce
La classification des Emails utilisant le modèle MapReduce La classification des Emails utilisant le modèle MapReduce
La classification des Emails utilisant le modèle MapReduce
 
Introduction au datamining, concepts et techniques
Introduction au datamining, concepts et techniquesIntroduction au datamining, concepts et techniques
Introduction au datamining, concepts et techniques
 
Les arbres de décisions
Les arbres de décisionsLes arbres de décisions
Les arbres de décisions
 
Rapport data-mining
Rapport data-miningRapport data-mining
Rapport data-mining
 
Chp1 - Introduction à l'Informatique Décisionnelle
Chp1 - Introduction à l'Informatique DécisionnelleChp1 - Introduction à l'Informatique Décisionnelle
Chp1 - Introduction à l'Informatique Décisionnelle
 
Chp2 - Les Entrepôts de Données
Chp2 - Les Entrepôts de DonnéesChp2 - Les Entrepôts de Données
Chp2 - Les Entrepôts de Données
 
Apprentissage automatique avec RapidMiner
Apprentissage automatique avec RapidMinerApprentissage automatique avec RapidMiner
Apprentissage automatique avec RapidMiner
 
Les 10 plus populaires algorithmes du machine learning
Les 10 plus populaires algorithmes du machine learningLes 10 plus populaires algorithmes du machine learning
Les 10 plus populaires algorithmes du machine learning
 
Cours Big Data Chap1
Cours Big Data Chap1Cours Big Data Chap1
Cours Big Data Chap1
 
BigData_Chp2: Hadoop & Map-Reduce
BigData_Chp2: Hadoop & Map-ReduceBigData_Chp2: Hadoop & Map-Reduce
BigData_Chp2: Hadoop & Map-Reduce
 
Apache SPARK ML : principes, concepts et mise en œuvre
Apache SPARK  ML : principes, concepts et  mise en œuvre Apache SPARK  ML : principes, concepts et  mise en œuvre
Apache SPARK ML : principes, concepts et mise en œuvre
 
Les algorithmes de génération des règles d association
Les algorithmes de génération des règles d associationLes algorithmes de génération des règles d association
Les algorithmes de génération des règles d association
 
exercices business intelligence
exercices business intelligence exercices business intelligence
exercices business intelligence
 

En vedette

Opinion Mining
Opinion Mining Opinion Mining
Opinion Mining
Nour El Houda Megherbi
 
Les systèmes intelligents
Les systèmes intelligentsLes systèmes intelligents
Les systèmes intelligents
Nour El Houda Megherbi
 
Opinion Mining
Opinion MiningOpinion Mining
Opinion Mining
Nour El Houda Megherbi
 
La détection des spam
La détection des spamLa détection des spam
La détection des spam
Nour El Houda Megherbi
 
Web sémantique
Web sémantique Web sémantique
Web sémantique
Nour El Houda Megherbi
 

En vedette (7)

Réseaux de neurones
Réseaux de neurones Réseaux de neurones
Réseaux de neurones
 
Opinion Mining
Opinion Mining Opinion Mining
Opinion Mining
 
Les systèmes intelligents
Les systèmes intelligentsLes systèmes intelligents
Les systèmes intelligents
 
Opinion Mining
Opinion MiningOpinion Mining
Opinion Mining
 
La détection des spam
La détection des spamLa détection des spam
La détection des spam
 
Web sémantique
Web sémantique Web sémantique
Web sémantique
 
Introduction à Hadoop
Introduction à HadoopIntroduction à Hadoop
Introduction à Hadoop
 

Similaire à Data Mining

Introduction au Machine Learning
Introduction au Machine Learning Introduction au Machine Learning
Introduction au Machine Learning
Novagen Conseil
 
Introduction au Data Marketing
Introduction au Data MarketingIntroduction au Data Marketing
Introduction au Data Marketing
Amar LAKEL, PhD
 
DataMining.pdf
DataMining.pdfDataMining.pdf
DataMining.pdf
CoulibalyYoussoufngo
 
Analyse des données1.pptx
Analyse des données1.pptxAnalyse des données1.pptx
Analyse des données1.pptx
hanensayed2
 
Cours fouille de donn+®es part1
Cours fouille de donn+®es part1Cours fouille de donn+®es part1
Cours fouille de donn+®es part1Amani Baklouti
 
Data mining et data science
Data mining et data scienceData mining et data science
Data mining et data science
Rima Jamli Faidi
 
Introduction au Big data
Introduction au Big data Introduction au Big data
Introduction au Big data
fatimabenjelloun1
 
arbres de decision.ppt
arbres de decision.pptarbres de decision.ppt
arbres de decision.ppt
Jihane Elârrouchi
 
PPnknknkTnjbjbjbjbjbjbjbjbjbjbjbjbjbpart2.pptx
PPnknknkTnjbjbjbjbjbjbjbjbjbjbjbjbjbpart2.pptxPPnknknkTnjbjbjbjbjbjbjbjbjbjbjbjbjbpart2.pptx
PPnknknkTnjbjbjbjbjbjbjbjbjbjbjbjbjbpart2.pptx
MiliArwa
 
Seance 1 &amp; 2 deploiement de la bi dans l'entreprise
Seance 1 &amp; 2 deploiement de la bi dans l'entrepriseSeance 1 &amp; 2 deploiement de la bi dans l'entreprise
Seance 1 &amp; 2 deploiement de la bi dans l'entreprise
sciafrique
 
Analyzing a churn data set
Analyzing a churn data set Analyzing a churn data set
Analyzing a churn data set
Rasoul Baharifard
 
Classer et catégoriser pour mieux appréhender les données en éducation
Classer et catégoriser pour mieux appréhender les données en éducationClasser et catégoriser pour mieux appréhender les données en éducation
Classer et catégoriser pour mieux appréhender les données en éducation
UMONS
 
Diagnostic territorial
Diagnostic territorialDiagnostic territorial
Diagnostic territorial
Challenges Academia
 
systeme expert_systeme expert_systeme expert
systeme expert_systeme expert_systeme expertsysteme expert_systeme expert_systeme expert
systeme expert_systeme expert_systeme expert
ChristianMbip
 
Vers une meilleure connaissance client grâce au big data
Vers une meilleure connaissance client grâce au big dataVers une meilleure connaissance client grâce au big data
Vers une meilleure connaissance client grâce au big data
Data2B
 
méthodologie séminaire (2).pptx
méthodologie séminaire (2).pptxméthodologie séminaire (2).pptx
méthodologie séminaire (2).pptx
VivendisConseil
 
AlgerieTelecoTIR to be scientifc into ingeneer
AlgerieTelecoTIR to be scientifc into ingeneerAlgerieTelecoTIR to be scientifc into ingeneer
AlgerieTelecoTIR to be scientifc into ingeneer
KatadaHamidzitch
 
Debuteraveclesmls
DebuteraveclesmlsDebuteraveclesmls
test
testtest
test
dehbimoad
 
L_analyse de la valeur.ppt
L_analyse de la valeur.pptL_analyse de la valeur.ppt
L_analyse de la valeur.ppt
DanielNzedom
 

Similaire à Data Mining (20)

Introduction au Machine Learning
Introduction au Machine Learning Introduction au Machine Learning
Introduction au Machine Learning
 
Introduction au Data Marketing
Introduction au Data MarketingIntroduction au Data Marketing
Introduction au Data Marketing
 
DataMining.pdf
DataMining.pdfDataMining.pdf
DataMining.pdf
 
Analyse des données1.pptx
Analyse des données1.pptxAnalyse des données1.pptx
Analyse des données1.pptx
 
Cours fouille de donn+®es part1
Cours fouille de donn+®es part1Cours fouille de donn+®es part1
Cours fouille de donn+®es part1
 
Data mining et data science
Data mining et data scienceData mining et data science
Data mining et data science
 
Introduction au Big data
Introduction au Big data Introduction au Big data
Introduction au Big data
 
arbres de decision.ppt
arbres de decision.pptarbres de decision.ppt
arbres de decision.ppt
 
PPnknknkTnjbjbjbjbjbjbjbjbjbjbjbjbjbpart2.pptx
PPnknknkTnjbjbjbjbjbjbjbjbjbjbjbjbjbpart2.pptxPPnknknkTnjbjbjbjbjbjbjbjbjbjbjbjbjbpart2.pptx
PPnknknkTnjbjbjbjbjbjbjbjbjbjbjbjbjbpart2.pptx
 
Seance 1 &amp; 2 deploiement de la bi dans l'entreprise
Seance 1 &amp; 2 deploiement de la bi dans l'entrepriseSeance 1 &amp; 2 deploiement de la bi dans l'entreprise
Seance 1 &amp; 2 deploiement de la bi dans l'entreprise
 
Analyzing a churn data set
Analyzing a churn data set Analyzing a churn data set
Analyzing a churn data set
 
Classer et catégoriser pour mieux appréhender les données en éducation
Classer et catégoriser pour mieux appréhender les données en éducationClasser et catégoriser pour mieux appréhender les données en éducation
Classer et catégoriser pour mieux appréhender les données en éducation
 
Diagnostic territorial
Diagnostic territorialDiagnostic territorial
Diagnostic territorial
 
systeme expert_systeme expert_systeme expert
systeme expert_systeme expert_systeme expertsysteme expert_systeme expert_systeme expert
systeme expert_systeme expert_systeme expert
 
Vers une meilleure connaissance client grâce au big data
Vers une meilleure connaissance client grâce au big dataVers une meilleure connaissance client grâce au big data
Vers une meilleure connaissance client grâce au big data
 
méthodologie séminaire (2).pptx
méthodologie séminaire (2).pptxméthodologie séminaire (2).pptx
méthodologie séminaire (2).pptx
 
AlgerieTelecoTIR to be scientifc into ingeneer
AlgerieTelecoTIR to be scientifc into ingeneerAlgerieTelecoTIR to be scientifc into ingeneer
AlgerieTelecoTIR to be scientifc into ingeneer
 
Debuteraveclesmls
DebuteraveclesmlsDebuteraveclesmls
Debuteraveclesmls
 
test
testtest
test
 
L_analyse de la valeur.ppt
L_analyse de la valeur.pptL_analyse de la valeur.ppt
L_analyse de la valeur.ppt
 

Dernier

Riding motorbikes in country side 20
Riding motorbikes in country side 20Riding motorbikes in country side 20
Riding motorbikes in country side 20
RDM-ROW history
 
Les logiciels libres : une opportunite pour votre entreprise?
Les logiciels libres : une opportunite pour votre entreprise?Les logiciels libres : une opportunite pour votre entreprise?
Les logiciels libres : une opportunite pour votre entreprise?
Asher256
 
Netflix, OCS et Disney avec ou sans engagement
Netflix, OCS et Disney avec ou sans engagementNetflix, OCS et Disney avec ou sans engagement
Netflix, OCS et Disney avec ou sans engagement
ABO IPTV PREMIUM
 
Conseils pour mieux Sécuriser votre système Linux
Conseils pour mieux Sécuriser votre système LinuxConseils pour mieux Sécuriser votre système Linux
Conseils pour mieux Sécuriser votre système Linux
Asher256
 
Riding motorbikes in country side 15
Riding motorbikes in country side 15Riding motorbikes in country side 15
Riding motorbikes in country side 15
RDM-ROW history
 
Stratégies pour accroître la visibilité et l'engagement de votre blog
Stratégies pour accroître la visibilité et l'engagement de votre blogStratégies pour accroître la visibilité et l'engagement de votre blog
Stratégies pour accroître la visibilité et l'engagement de votre blog
Asher256
 

Dernier (6)

Riding motorbikes in country side 20
Riding motorbikes in country side 20Riding motorbikes in country side 20
Riding motorbikes in country side 20
 
Les logiciels libres : une opportunite pour votre entreprise?
Les logiciels libres : une opportunite pour votre entreprise?Les logiciels libres : une opportunite pour votre entreprise?
Les logiciels libres : une opportunite pour votre entreprise?
 
Netflix, OCS et Disney avec ou sans engagement
Netflix, OCS et Disney avec ou sans engagementNetflix, OCS et Disney avec ou sans engagement
Netflix, OCS et Disney avec ou sans engagement
 
Conseils pour mieux Sécuriser votre système Linux
Conseils pour mieux Sécuriser votre système LinuxConseils pour mieux Sécuriser votre système Linux
Conseils pour mieux Sécuriser votre système Linux
 
Riding motorbikes in country side 15
Riding motorbikes in country side 15Riding motorbikes in country side 15
Riding motorbikes in country side 15
 
Stratégies pour accroître la visibilité et l'engagement de votre blog
Stratégies pour accroître la visibilité et l'engagement de votre blogStratégies pour accroître la visibilité et l'engagement de votre blog
Stratégies pour accroître la visibilité et l'engagement de votre blog
 

Data Mining

  • 2. Introduction : Data mining (fouille de données , forage de données …) apparait dans les années 1990 aux Etats-Unis comme une nouvelle discipline a l’interface de la statistique et des technologies de l’information exemple : base de donnée , intelligence artificielle … Le data mining est devenu aujourd'hui un domaine très en vogue adapter et utiliser dans un large nombre de domaines d'activités. Dans les plus connus on peut mentionner: 1/ Médical / pharmaceutique: ** Explication ou prédiction de la réponse d'un patient à un traitement. ** Etude des corrélations entre le dosage dans un traitement et l'apparition d'effets secondaires . 2/ Assurance et santé : ** Détection d'association de comportements pour la découverte de clients à risque. ** Découverte d'associations des demandes de remboursements 3/ Banques / Finances : ** Crédit scoring - évaluer le risque de non remboursement (technique data mining la plus déployée). ** Prédiction - prévoir quels clients seront intéressés par une offre. 4/ Marketing : ** déterminer ce qui caractérise un groupe particulier de clients . ** déterminer le prix "optimal" pour un produit.
  • 3. Définition : Le datamining est un processus d’extractions automatique d’informations prédictives à partir de grandes bases de données. L’objectif est de: ** Développer des techniques et systèmes efficaces et extensibles pour l’exploration de BD larges et multidimensionnelles et des Données distribuées. ** Représentation simple de la connaissance. Il existe deux type d’apprentissage : apprentissage supervisé et apprentissage non supervisé. 1/ Apprentissage supervisé : l'apprenant considère un ensemble d'exemples, et infère l'appartenance d'un objet à une classe en considérant les similarités entre l'objet et les éléments de la classe . Les classes sont étiquetées préalablement. EX : arbre de décision , 1-R , KNN … 2/ Apprentissage non supervisé : Construction d'un modèle et découverte des relations dans les données sans référence à d'autres données. On ne dispose d'aucune autre information préalable que la description des exemples. EX : K-means . Les données en datamining : Dans un problème de Datamining, les informations caractérisant une étude sont présentées sous la forme d’attributs et d’instances.
  • 4. Attributs : • Un attribut est un descripteur d’une entité. On l’appelle également variable, champs, caractéristiques ou observations. Instances : • Une instance est une entité caractérisant un objet et est donc constitué d’attributs. Types de données : • numérique continue : la valeur de la variable peut prendre une valeur dans R (par exemple : le montant du compte en banques). • numérique discrète : la valeur de la variable appartient à Z ou N • catégorie : avec ou sans relation d’ordre (par exemple : { rouge, vert, bleu }). • binaire • Chaînes de caractères (par exemple : un texte) • Arbre : (par exemple Page XML) • Données structurées : graphe, enregistrement
  • 5. Le processus du datamining :
  • 6. Le processus du datamining comporte 6 phases : 1- Compréhension métier : · Énoncer clairement les objectifs globaux du projet et les contraintes de l’entreprise. · Traduire ces objectifs et ces contraintes en un problème de data mining. · Préparer une stratégie initiale pour atteindre ces objectifs. 2- Compréhension des données : · Recueillir les données. · Utiliser l’analyse exploratoire pour se familiariser avec les données, commencer à les comprendre et imaginer ce qu’on pourrait en tirer comme connaissance. · Évaluer la qualité des données. · Éventuellement, sélectionner des sous-ensembles intéressants. 3- Préparation des données : · Préparer, à partir des données brutes, l’ensemble final des données qui va être utilisé pour toutes les phases suivantes. · Sélectionner les cas et les variables à analyser. · Réaliser si nécessaire les transformations de certaines données. · Réaliser si nécessaire la suppression de certaines données. Cette phase fait suite à la compréhension des données. Celle-ci a mis au jour les corrélations, les valeurs aberrantes, les valeurs manquantes : on peut donc faire la préparation.
  • 7. 4- Modélisation: · Sélectionner les techniques de modélisation appropriées (souvent plusieurs techniques peuvent être utilisées pour le même problème). 5- Evaluation : · Pour chaque technique de modélisation utilisée, évaluer la qualité (la pertinence, la signification) des résultats obtenus. · Déterminer si les résultats obtenus atteignent les objectifs globaux identifiés pendant la phase de compréhension du métier. · Décider si on passe à la phase suivante (le déploiement) ou si on souhaite reprendre l’étude en complétant le jeu de données. 6- Déploiement : · Prendre les décisions en conséquences des résultats de l’étude de data mining · Préparer la collecte des informations futures pour permettre de vérifier la pertinence des décisions effectivement mis en œuvre.
  • 8. 1.Apprentissage supervisé One Rule : -Règle de classification qui travaille sur un attribut indépendamment de l’autre. -le modèle étant constitue sur la base d’un seul attribut. ID3 : ID3 construit un arbre de décision de façon récursive en choisissant l’attribut qui maxime le gain d’information selon l’entropie de Shannon. Cet algorithme fonctionne exclusivement avec des attributs catégoriques et un nœud est créé pour chaque valeur des attributs sélectionnés.
  • 9. C4.5: C4.5 est une amélioration d’ID3 qui permet de travailler à la fois avec des données discrètes et des données continues. Il permet également de travailler avec des valeurs d’attribut manquantes. Naïve bays: Modélisation statistique; tout les attributs constituent dans le modèle de façon équitable et indépendante mais la pratique a montré que la méthode bien simple et plutôt efficace. K-NN: C’est un fainéant algorithme , consiste à prendre en compte (de façon identique) les k échantillons d'apprentissage dont l’entrée est la plus proche de la nouvelle entrée x, selon une distance à définir.
  • 10. 2. Apprentissage non-supervisé:  Clustering: est une méthode statistique d’analyse de données qui a pour but de regrouper un ensemble de données en différents groupes homogènes Chaque sous- ensemble regroupe des éléments ayant des caractéristiques communes qui correspondent à des critères de proximité.
  • 11. Arbres de décision – Exemple Détection de fraudes fiscales id Ristourne S,f Impôt revenu Fraude 1 oui Célibat 125 Non 2 non Marié 100 Non 3 non Célibat 70 Non 4 oui Marié 120 Non 5 non Divorcé 95 Oui 6 Non Marié 60 Non 7 oui Divorcé 220 Non 8 Non Célibat 85 Oui 9 Non Marié 75 Non 10 non Célibat 90 Oui
  • 12. On a 3 attributs ristourne , situation famille , impôt revenu : **Ristourne est de type :symbolique . **Situation famille est de type :symbolique . **Impôt revenu (qui porte sur les revenus des individus les taux augmentent en fonction de l’importance des revenus déclarés) est de type : numérique . La classe Fraude qui va prendre 2 valeurs {oui , non} En utilisant l’arbre de décision : Ristourne Non Situation Impôt Non Non Oui Oui Non MariéCélibat , Divorcé >= 80< 80
  • 13. Pour classer une instance : descendre dans l’arbre selon les réponses aux différents tests. Ex = (Ristourne=Non, Situation=Divorcé, Impôt=100) => oui Ristourne Non Situation Impôt Non Non Oui Oui Non MariéCélibat , Divorcé >= 80< 80 1 2 3
  • 14. Pour bien mener un projet de DM •Identifier et énoncer clairement les besoins. •Créer ou obtenir des données représentatives du problème •Identifier le contexte de l’apprentissage •Analyser et réduire la dimension des données •Choisir un algorithme et/ou un espace d’hypothèses. •Choisir un modèle en appliquant l’algorithme aux données prétraitées. •Valider les performances de la méthode.