SlideShare une entreprise Scribd logo
1  sur  14
Département d’informatique
Sidi Bel Abbes
Introduction :
Data mining (fouille de données , forage de données …) apparait dans
les années 1990 aux Etats-Unis comme une nouvelle discipline a l’interface
de la statistique et des technologies de l’information exemple : base de donnée ,
intelligence artificielle …
Le data mining est devenu aujourd'hui un domaine très en vogue adapter et utiliser dans un large
nombre de domaines d'activités. Dans les plus connus on peut mentionner:
1/ Médical / pharmaceutique:
** Explication ou prédiction de la réponse d'un patient à un traitement.
** Etude des corrélations entre le dosage dans un traitement et l'apparition d'effets
secondaires .
2/ Assurance et santé :
** Détection d'association de comportements pour la découverte de clients
à risque.
** Découverte d'associations des demandes de remboursements
3/ Banques / Finances :
** Crédit scoring - évaluer le risque de non remboursement (technique
data mining la plus déployée).
** Prédiction - prévoir quels clients seront intéressés par une offre.
4/ Marketing :
** déterminer ce qui caractérise un groupe particulier de clients .
** déterminer le prix "optimal" pour un produit.
Définition :
Le datamining est un processus d’extractions automatique d’informations prédictives
à partir de grandes bases de données. L’objectif est de:
** Développer des techniques et systèmes efficaces et extensibles pour l’exploration de
BD larges et multidimensionnelles et des Données distribuées.
** Représentation simple de la connaissance.
Il existe deux type d’apprentissage : apprentissage supervisé et apprentissage non
supervisé.
1/ Apprentissage supervisé :
l'apprenant considère un ensemble d'exemples, et infère l'appartenance d'un objet à
une
classe en considérant les similarités entre l'objet et les éléments de la classe . Les
classes sont étiquetées préalablement. EX : arbre de décision , 1-R , KNN …
2/ Apprentissage non supervisé :
Construction d'un modèle et découverte des relations dans les données sans référence
à d'autres données. On ne dispose d'aucune autre information préalable que la
description des exemples. EX : K-means .
Les données en datamining :
Dans un problème de Datamining, les informations caractérisant une étude sont
présentées sous la forme d’attributs et d’instances.
Attributs :
• Un attribut est un descripteur d’une entité. On l’appelle également
variable, champs, caractéristiques ou observations.
Instances :
• Une instance est une entité caractérisant un objet et est donc constitué d’attributs.
Types de données :
• numérique continue : la valeur de la variable peut prendre une valeur
dans R (par exemple : le montant du compte en banques).
• numérique discrète : la valeur de la variable appartient à Z ou N
• catégorie : avec ou sans relation d’ordre (par exemple : { rouge, vert,
bleu }).
• binaire
• Chaînes de caractères (par exemple : un texte)
• Arbre : (par exemple Page XML)
• Données structurées : graphe, enregistrement
Le processus du datamining :
Le processus du datamining comporte 6 phases :
1- Compréhension métier :
· Énoncer clairement les objectifs globaux du projet et les contraintes de l’entreprise.
· Traduire ces objectifs et ces contraintes en un problème de data mining.
· Préparer une stratégie initiale pour atteindre ces objectifs.
2- Compréhension des données :
· Recueillir les données.
· Utiliser l’analyse exploratoire pour se familiariser avec les données, commencer à les
comprendre et imaginer ce qu’on pourrait en tirer comme connaissance.
· Évaluer la qualité des données.
· Éventuellement, sélectionner des sous-ensembles intéressants.
3- Préparation des données :
· Préparer, à partir des données brutes, l’ensemble final des données qui va être utilisé
pour toutes les phases suivantes.
· Sélectionner les cas et les variables à analyser.
· Réaliser si nécessaire les transformations de certaines données.
· Réaliser si nécessaire la suppression de certaines données.
Cette phase fait suite à la compréhension des données. Celle-ci a mis au jour les
corrélations, les valeurs aberrantes, les valeurs manquantes : on peut donc faire la
préparation.
4- Modélisation:
· Sélectionner les techniques de modélisation appropriées (souvent plusieurs techniques
peuvent être utilisées pour le même problème).
5- Evaluation :
· Pour chaque technique de modélisation utilisée, évaluer la qualité (la pertinence, la
signification) des résultats obtenus.
· Déterminer si les résultats obtenus atteignent les objectifs globaux identifiés pendant la
phase de compréhension du métier.
· Décider si on passe à la phase suivante (le déploiement) ou si on souhaite reprendre
l’étude en complétant le jeu de données.
6- Déploiement :
· Prendre les décisions en conséquences des résultats de l’étude de data mining
· Préparer la collecte des informations futures pour permettre de vérifier la pertinence
des décisions effectivement mis en œuvre.
1.Apprentissage supervisé
One Rule :
-Règle de classification qui travaille sur un attribut indépendamment de l’autre.
-le modèle étant constitue sur la base d’un seul attribut.
ID3 :
ID3 construit un arbre de décision de façon récursive en choisissant l’attribut qui
maxime le gain d’information selon l’entropie de Shannon. Cet algorithme fonctionne
exclusivement avec des attributs catégoriques et un nœud est créé pour chaque
valeur des attributs sélectionnés.
C4.5:
C4.5 est une amélioration d’ID3 qui permet de travailler à la fois avec des données
discrètes et des données continues. Il permet également de travailler avec des valeurs
d’attribut manquantes.
Naïve bays:
Modélisation statistique; tout les attributs constituent dans le modèle de façon équitable
et indépendante mais la pratique a montré que la méthode bien simple et plutôt efficace.
K-NN:
C’est un fainéant algorithme , consiste à prendre en compte (de façon identique) les k
échantillons d'apprentissage dont l’entrée est la plus proche de la nouvelle entrée x,
selon une distance à définir.
2. Apprentissage non-supervisé:
 Clustering:
est une méthode statistique d’analyse de données qui a pour but de regrouper un
ensemble de données en différents groupes homogènes Chaque sous-
ensemble regroupe des éléments ayant des caractéristiques communes qui
correspondent à des critères de proximité.
Arbres de décision – Exemple
Détection de fraudes fiscales
id Ristourne S,f Impôt
revenu
Fraude
1 oui Célibat 125 Non
2 non Marié 100 Non
3 non Célibat 70 Non
4 oui Marié 120 Non
5 non Divorcé 95 Oui
6 Non Marié 60 Non
7 oui Divorcé 220 Non
8 Non Célibat 85 Oui
9 Non Marié 75 Non
10 non Célibat 90 Oui
On a 3 attributs ristourne , situation famille , impôt revenu :
**Ristourne est de type :symbolique .
**Situation famille est de type :symbolique .
**Impôt revenu (qui porte sur les revenus des individus les taux augmentent en
fonction de l’importance des revenus déclarés) est de type : numérique .
La classe Fraude qui va prendre 2 valeurs {oui , non}
En utilisant l’arbre de décision :
Ristourne
Non Situation
Impôt Non
Non Oui
Oui Non
MariéCélibat ,
Divorcé
>= 80< 80
Pour classer une instance : descendre dans l’arbre selon les réponses
aux différents tests.
Ex = (Ristourne=Non, Situation=Divorcé, Impôt=100) => oui
Ristourne
Non Situation
Impôt
Non
Non Oui
Oui Non
MariéCélibat ,
Divorcé
>=
80< 80
1
2
3
Pour bien mener un projet de DM
•Identifier et énoncer clairement les besoins.
•Créer ou obtenir des données représentatives du problème
•Identifier le contexte de l’apprentissage
•Analyser et réduire la dimension des données
•Choisir un algorithme et/ou un espace d’hypothèses.
•Choisir un modèle en appliquant l’algorithme aux données prétraitées.
•Valider les performances de la méthode.

Contenu connexe

Tendances

Business Intelligence
Business IntelligenceBusiness Intelligence
Business IntelligenceLilia Sfaxi
 
Chapitre 1 les entrepôts de données
Chapitre 1 les entrepôts de donnéesChapitre 1 les entrepôts de données
Chapitre 1 les entrepôts de donnéesMohamed Mkaouar
 
Chp2 - Les Entrepôts de Données
Chp2 - Les Entrepôts de DonnéesChp2 - Les Entrepôts de Données
Chp2 - Les Entrepôts de DonnéesLilia Sfaxi
 
Conception datawarehouse
Conception datawarehouseConception datawarehouse
Conception datawarehouseHassane Dkhissi
 
Techniques du data mining
Techniques du data miningTechniques du data mining
Techniques du data miningDonia Hammami
 
La BI : Qu’est-ce que c’est ? A quoi ça sert ?
La BI : Qu’est-ce que c’est ? A quoi ça sert ?La BI : Qu’est-ce que c’est ? A quoi ça sert ?
La BI : Qu’est-ce que c’est ? A quoi ça sert ?Jean-Marc Dupont
 
BigData_Chp1: Introduction à la Big Data
BigData_Chp1: Introduction à la Big DataBigData_Chp1: Introduction à la Big Data
BigData_Chp1: Introduction à la Big DataLilia Sfaxi
 
Les arbres de décisions
Les arbres de décisionsLes arbres de décisions
Les arbres de décisionsMariem Chaaben
 
Chapitre1 introduction
Chapitre1 introductionChapitre1 introduction
Chapitre1 introductionMouna Torjmen
 
Chp3 - Modélisation Multidimensionnelle
Chp3 - Modélisation MultidimensionnelleChp3 - Modélisation Multidimensionnelle
Chp3 - Modélisation MultidimensionnelleLilia Sfaxi
 
Ia project Apprentissage Automatique
Ia project Apprentissage AutomatiqueIa project Apprentissage Automatique
Ia project Apprentissage AutomatiqueNizar Bechir
 

Tendances (20)

Resume de BI
Resume de BIResume de BI
Resume de BI
 
Règles d’association
Règles d’associationRègles d’association
Règles d’association
 
Business Intelligence
Business IntelligenceBusiness Intelligence
Business Intelligence
 
Chapitre 1 les entrepôts de données
Chapitre 1 les entrepôts de donnéesChapitre 1 les entrepôts de données
Chapitre 1 les entrepôts de données
 
Chp2 - Les Entrepôts de Données
Chp2 - Les Entrepôts de DonnéesChp2 - Les Entrepôts de Données
Chp2 - Les Entrepôts de Données
 
Conception datawarehouse
Conception datawarehouseConception datawarehouse
Conception datawarehouse
 
Le processus ETL (Extraction, Transformation, Chargement)
Le processus ETL (Extraction, Transformation, Chargement)Le processus ETL (Extraction, Transformation, Chargement)
Le processus ETL (Extraction, Transformation, Chargement)
 
Partie1BI-DW2019
Partie1BI-DW2019Partie1BI-DW2019
Partie1BI-DW2019
 
Techniques du data mining
Techniques du data miningTechniques du data mining
Techniques du data mining
 
Bi
BiBi
Bi
 
La BI : Qu’est-ce que c’est ? A quoi ça sert ?
La BI : Qu’est-ce que c’est ? A quoi ça sert ?La BI : Qu’est-ce que c’est ? A quoi ça sert ?
La BI : Qu’est-ce que c’est ? A quoi ça sert ?
 
Cours datamining
Cours dataminingCours datamining
Cours datamining
 
BigData_Chp1: Introduction à la Big Data
BigData_Chp1: Introduction à la Big DataBigData_Chp1: Introduction à la Big Data
BigData_Chp1: Introduction à la Big Data
 
Les arbres de décisions
Les arbres de décisionsLes arbres de décisions
Les arbres de décisions
 
Chapitre1 introduction
Chapitre1 introductionChapitre1 introduction
Chapitre1 introduction
 
Data mining - Associativité
Data mining - AssociativitéData mining - Associativité
Data mining - Associativité
 
Chp3 - Modélisation Multidimensionnelle
Chp3 - Modélisation MultidimensionnelleChp3 - Modélisation Multidimensionnelle
Chp3 - Modélisation Multidimensionnelle
 
Arbre de décision
Arbre de décisionArbre de décision
Arbre de décision
 
Ia project Apprentissage Automatique
Ia project Apprentissage AutomatiqueIa project Apprentissage Automatique
Ia project Apprentissage Automatique
 
Qu'est-ce qu'un ETL ?
Qu'est-ce qu'un ETL ?Qu'est-ce qu'un ETL ?
Qu'est-ce qu'un ETL ?
 

En vedette (8)

Réseaux de neurones
Réseaux de neurones Réseaux de neurones
Réseaux de neurones
 
Opinion Mining
Opinion Mining Opinion Mining
Opinion Mining
 
Les systèmes intelligents
Les systèmes intelligentsLes systèmes intelligents
Les systèmes intelligents
 
Opinion Mining
Opinion MiningOpinion Mining
Opinion Mining
 
La classification des Emails utilisant le modèle MapReduce
La classification des Emails utilisant le modèle MapReduce La classification des Emails utilisant le modèle MapReduce
La classification des Emails utilisant le modèle MapReduce
 
La détection des spam
La détection des spamLa détection des spam
La détection des spam
 
Web sémantique
Web sémantique Web sémantique
Web sémantique
 
Introduction à Hadoop
Introduction à HadoopIntroduction à Hadoop
Introduction à Hadoop
 

Similaire à Data Mining

Introduction au Machine Learning
Introduction au Machine Learning Introduction au Machine Learning
Introduction au Machine Learning Novagen Conseil
 
Introduction au Data Marketing
Introduction au Data MarketingIntroduction au Data Marketing
Introduction au Data MarketingAmar LAKEL, PhD
 
Analyse des données1.pptx
Analyse des données1.pptxAnalyse des données1.pptx
Analyse des données1.pptxhanensayed2
 
Cours fouille de donn+®es part1
Cours fouille de donn+®es part1Cours fouille de donn+®es part1
Cours fouille de donn+®es part1Amani Baklouti
 
Data mining et data science
Data mining et data scienceData mining et data science
Data mining et data scienceRima Jamli Faidi
 
PPnknknkTnjbjbjbjbjbjbjbjbjbjbjbjbjbpart2.pptx
PPnknknkTnjbjbjbjbjbjbjbjbjbjbjbjbjbpart2.pptxPPnknknkTnjbjbjbjbjbjbjbjbjbjbjbjbjbpart2.pptx
PPnknknkTnjbjbjbjbjbjbjbjbjbjbjbjbjbpart2.pptxMiliArwa
 
Seance 1 &amp; 2 deploiement de la bi dans l'entreprise
Seance 1 &amp; 2 deploiement de la bi dans l'entrepriseSeance 1 &amp; 2 deploiement de la bi dans l'entreprise
Seance 1 &amp; 2 deploiement de la bi dans l'entreprisesciafrique
 
Classer et catégoriser pour mieux appréhender les données en éducation
Classer et catégoriser pour mieux appréhender les données en éducationClasser et catégoriser pour mieux appréhender les données en éducation
Classer et catégoriser pour mieux appréhender les données en éducationUMONS
 
Apprentissage automatique avec RapidMiner
Apprentissage automatique avec RapidMinerApprentissage automatique avec RapidMiner
Apprentissage automatique avec RapidMinerMajdi Hannachi
 
systeme expert_systeme expert_systeme expert
systeme expert_systeme expert_systeme expertsysteme expert_systeme expert_systeme expert
systeme expert_systeme expert_systeme expertChristianMbip
 
Vers une meilleure connaissance client grâce au big data
Vers une meilleure connaissance client grâce au big dataVers une meilleure connaissance client grâce au big data
Vers une meilleure connaissance client grâce au big dataData2B
 
méthodologie séminaire (2).pptx
méthodologie séminaire (2).pptxméthodologie séminaire (2).pptx
méthodologie séminaire (2).pptxVivendisConseil
 
L_analyse de la valeur.ppt
L_analyse de la valeur.pptL_analyse de la valeur.ppt
L_analyse de la valeur.pptDanielNzedom
 

Similaire à Data Mining (20)

Introduction au Machine Learning
Introduction au Machine Learning Introduction au Machine Learning
Introduction au Machine Learning
 
Introduction au Data Marketing
Introduction au Data MarketingIntroduction au Data Marketing
Introduction au Data Marketing
 
DataMining.pdf
DataMining.pdfDataMining.pdf
DataMining.pdf
 
Analyse des données1.pptx
Analyse des données1.pptxAnalyse des données1.pptx
Analyse des données1.pptx
 
Cours fouille de donn+®es part1
Cours fouille de donn+®es part1Cours fouille de donn+®es part1
Cours fouille de donn+®es part1
 
Data mining et data science
Data mining et data scienceData mining et data science
Data mining et data science
 
Introduction au Big data
Introduction au Big data Introduction au Big data
Introduction au Big data
 
arbres de decision.ppt
arbres de decision.pptarbres de decision.ppt
arbres de decision.ppt
 
PPnknknkTnjbjbjbjbjbjbjbjbjbjbjbjbjbpart2.pptx
PPnknknkTnjbjbjbjbjbjbjbjbjbjbjbjbjbpart2.pptxPPnknknkTnjbjbjbjbjbjbjbjbjbjbjbjbjbpart2.pptx
PPnknknkTnjbjbjbjbjbjbjbjbjbjbjbjbjbpart2.pptx
 
Seance 1 &amp; 2 deploiement de la bi dans l'entreprise
Seance 1 &amp; 2 deploiement de la bi dans l'entrepriseSeance 1 &amp; 2 deploiement de la bi dans l'entreprise
Seance 1 &amp; 2 deploiement de la bi dans l'entreprise
 
Analyzing a churn data set
Analyzing a churn data set Analyzing a churn data set
Analyzing a churn data set
 
Classer et catégoriser pour mieux appréhender les données en éducation
Classer et catégoriser pour mieux appréhender les données en éducationClasser et catégoriser pour mieux appréhender les données en éducation
Classer et catégoriser pour mieux appréhender les données en éducation
 
Diagnostic territorial
Diagnostic territorialDiagnostic territorial
Diagnostic territorial
 
Apprentissage automatique avec RapidMiner
Apprentissage automatique avec RapidMinerApprentissage automatique avec RapidMiner
Apprentissage automatique avec RapidMiner
 
systeme expert_systeme expert_systeme expert
systeme expert_systeme expert_systeme expertsysteme expert_systeme expert_systeme expert
systeme expert_systeme expert_systeme expert
 
Vers une meilleure connaissance client grâce au big data
Vers une meilleure connaissance client grâce au big dataVers une meilleure connaissance client grâce au big data
Vers une meilleure connaissance client grâce au big data
 
méthodologie séminaire (2).pptx
méthodologie séminaire (2).pptxméthodologie séminaire (2).pptx
méthodologie séminaire (2).pptx
 
Debuteraveclesmls
DebuteraveclesmlsDebuteraveclesmls
Debuteraveclesmls
 
test
testtest
test
 
L_analyse de la valeur.ppt
L_analyse de la valeur.pptL_analyse de la valeur.ppt
L_analyse de la valeur.ppt
 

Data Mining

  • 2. Introduction : Data mining (fouille de données , forage de données …) apparait dans les années 1990 aux Etats-Unis comme une nouvelle discipline a l’interface de la statistique et des technologies de l’information exemple : base de donnée , intelligence artificielle … Le data mining est devenu aujourd'hui un domaine très en vogue adapter et utiliser dans un large nombre de domaines d'activités. Dans les plus connus on peut mentionner: 1/ Médical / pharmaceutique: ** Explication ou prédiction de la réponse d'un patient à un traitement. ** Etude des corrélations entre le dosage dans un traitement et l'apparition d'effets secondaires . 2/ Assurance et santé : ** Détection d'association de comportements pour la découverte de clients à risque. ** Découverte d'associations des demandes de remboursements 3/ Banques / Finances : ** Crédit scoring - évaluer le risque de non remboursement (technique data mining la plus déployée). ** Prédiction - prévoir quels clients seront intéressés par une offre. 4/ Marketing : ** déterminer ce qui caractérise un groupe particulier de clients . ** déterminer le prix "optimal" pour un produit.
  • 3. Définition : Le datamining est un processus d’extractions automatique d’informations prédictives à partir de grandes bases de données. L’objectif est de: ** Développer des techniques et systèmes efficaces et extensibles pour l’exploration de BD larges et multidimensionnelles et des Données distribuées. ** Représentation simple de la connaissance. Il existe deux type d’apprentissage : apprentissage supervisé et apprentissage non supervisé. 1/ Apprentissage supervisé : l'apprenant considère un ensemble d'exemples, et infère l'appartenance d'un objet à une classe en considérant les similarités entre l'objet et les éléments de la classe . Les classes sont étiquetées préalablement. EX : arbre de décision , 1-R , KNN … 2/ Apprentissage non supervisé : Construction d'un modèle et découverte des relations dans les données sans référence à d'autres données. On ne dispose d'aucune autre information préalable que la description des exemples. EX : K-means . Les données en datamining : Dans un problème de Datamining, les informations caractérisant une étude sont présentées sous la forme d’attributs et d’instances.
  • 4. Attributs : • Un attribut est un descripteur d’une entité. On l’appelle également variable, champs, caractéristiques ou observations. Instances : • Une instance est une entité caractérisant un objet et est donc constitué d’attributs. Types de données : • numérique continue : la valeur de la variable peut prendre une valeur dans R (par exemple : le montant du compte en banques). • numérique discrète : la valeur de la variable appartient à Z ou N • catégorie : avec ou sans relation d’ordre (par exemple : { rouge, vert, bleu }). • binaire • Chaînes de caractères (par exemple : un texte) • Arbre : (par exemple Page XML) • Données structurées : graphe, enregistrement
  • 5. Le processus du datamining :
  • 6. Le processus du datamining comporte 6 phases : 1- Compréhension métier : · Énoncer clairement les objectifs globaux du projet et les contraintes de l’entreprise. · Traduire ces objectifs et ces contraintes en un problème de data mining. · Préparer une stratégie initiale pour atteindre ces objectifs. 2- Compréhension des données : · Recueillir les données. · Utiliser l’analyse exploratoire pour se familiariser avec les données, commencer à les comprendre et imaginer ce qu’on pourrait en tirer comme connaissance. · Évaluer la qualité des données. · Éventuellement, sélectionner des sous-ensembles intéressants. 3- Préparation des données : · Préparer, à partir des données brutes, l’ensemble final des données qui va être utilisé pour toutes les phases suivantes. · Sélectionner les cas et les variables à analyser. · Réaliser si nécessaire les transformations de certaines données. · Réaliser si nécessaire la suppression de certaines données. Cette phase fait suite à la compréhension des données. Celle-ci a mis au jour les corrélations, les valeurs aberrantes, les valeurs manquantes : on peut donc faire la préparation.
  • 7. 4- Modélisation: · Sélectionner les techniques de modélisation appropriées (souvent plusieurs techniques peuvent être utilisées pour le même problème). 5- Evaluation : · Pour chaque technique de modélisation utilisée, évaluer la qualité (la pertinence, la signification) des résultats obtenus. · Déterminer si les résultats obtenus atteignent les objectifs globaux identifiés pendant la phase de compréhension du métier. · Décider si on passe à la phase suivante (le déploiement) ou si on souhaite reprendre l’étude en complétant le jeu de données. 6- Déploiement : · Prendre les décisions en conséquences des résultats de l’étude de data mining · Préparer la collecte des informations futures pour permettre de vérifier la pertinence des décisions effectivement mis en œuvre.
  • 8. 1.Apprentissage supervisé One Rule : -Règle de classification qui travaille sur un attribut indépendamment de l’autre. -le modèle étant constitue sur la base d’un seul attribut. ID3 : ID3 construit un arbre de décision de façon récursive en choisissant l’attribut qui maxime le gain d’information selon l’entropie de Shannon. Cet algorithme fonctionne exclusivement avec des attributs catégoriques et un nœud est créé pour chaque valeur des attributs sélectionnés.
  • 9. C4.5: C4.5 est une amélioration d’ID3 qui permet de travailler à la fois avec des données discrètes et des données continues. Il permet également de travailler avec des valeurs d’attribut manquantes. Naïve bays: Modélisation statistique; tout les attributs constituent dans le modèle de façon équitable et indépendante mais la pratique a montré que la méthode bien simple et plutôt efficace. K-NN: C’est un fainéant algorithme , consiste à prendre en compte (de façon identique) les k échantillons d'apprentissage dont l’entrée est la plus proche de la nouvelle entrée x, selon une distance à définir.
  • 10. 2. Apprentissage non-supervisé:  Clustering: est une méthode statistique d’analyse de données qui a pour but de regrouper un ensemble de données en différents groupes homogènes Chaque sous- ensemble regroupe des éléments ayant des caractéristiques communes qui correspondent à des critères de proximité.
  • 11. Arbres de décision – Exemple Détection de fraudes fiscales id Ristourne S,f Impôt revenu Fraude 1 oui Célibat 125 Non 2 non Marié 100 Non 3 non Célibat 70 Non 4 oui Marié 120 Non 5 non Divorcé 95 Oui 6 Non Marié 60 Non 7 oui Divorcé 220 Non 8 Non Célibat 85 Oui 9 Non Marié 75 Non 10 non Célibat 90 Oui
  • 12. On a 3 attributs ristourne , situation famille , impôt revenu : **Ristourne est de type :symbolique . **Situation famille est de type :symbolique . **Impôt revenu (qui porte sur les revenus des individus les taux augmentent en fonction de l’importance des revenus déclarés) est de type : numérique . La classe Fraude qui va prendre 2 valeurs {oui , non} En utilisant l’arbre de décision : Ristourne Non Situation Impôt Non Non Oui Oui Non MariéCélibat , Divorcé >= 80< 80
  • 13. Pour classer une instance : descendre dans l’arbre selon les réponses aux différents tests. Ex = (Ristourne=Non, Situation=Divorcé, Impôt=100) => oui Ristourne Non Situation Impôt Non Non Oui Oui Non MariéCélibat , Divorcé >= 80< 80 1 2 3
  • 14. Pour bien mener un projet de DM •Identifier et énoncer clairement les besoins. •Créer ou obtenir des données représentatives du problème •Identifier le contexte de l’apprentissage •Analyser et réduire la dimension des données •Choisir un algorithme et/ou un espace d’hypothèses. •Choisir un modèle en appliquant l’algorithme aux données prétraitées. •Valider les performances de la méthode.