SlideShare une entreprise Scribd logo
1  sur  14
Département d’informatique
Sidi Bel Abbes
Introduction :
Data mining (fouille de données , forage de données …) apparait dans
les années 1990 aux Etats-Unis comme une nouvelle discipline a l’interface
de la statistique et des technologies de l’information exemple : base de donnée ,
intelligence artificielle …
Le data mining est devenu aujourd'hui un domaine très en vogue adapter et utiliser dans un large
nombre de domaines d'activités. Dans les plus connus on peut mentionner:
1/ Médical / pharmaceutique:
** Explication ou prédiction de la réponse d'un patient à un traitement.
** Etude des corrélations entre le dosage dans un traitement et l'apparition d'effets
secondaires .
2/ Assurance et santé :
** Détection d'association de comportements pour la découverte de clients
à risque.
** Découverte d'associations des demandes de remboursements
3/ Banques / Finances :
** Crédit scoring - évaluer le risque de non remboursement (technique
data mining la plus déployée).
** Prédiction - prévoir quels clients seront intéressés par une offre.
4/ Marketing :
** déterminer ce qui caractérise un groupe particulier de clients .
** déterminer le prix "optimal" pour un produit.
Définition :
Le datamining est un processus d’extractions automatique d’informations prédictives
à partir de grandes bases de données. L’objectif est de:
** Développer des techniques et systèmes efficaces et extensibles pour l’exploration de
BD larges et multidimensionnelles et des Données distribuées.
** Représentation simple de la connaissance.
Il existe deux type d’apprentissage : apprentissage supervisé et apprentissage non
supervisé.
1/ Apprentissage supervisé :
l'apprenant considère un ensemble d'exemples, et infère l'appartenance d'un objet à
une
classe en considérant les similarités entre l'objet et les éléments de la classe . Les
classes sont étiquetées préalablement. EX : arbre de décision , 1-R , KNN …
2/ Apprentissage non supervisé :
Construction d'un modèle et découverte des relations dans les données sans référence
à d'autres données. On ne dispose d'aucune autre information préalable que la
description des exemples. EX : K-means .
Les données en datamining :
Dans un problème de Datamining, les informations caractérisant une étude sont
présentées sous la forme d’attributs et d’instances.
Attributs :
• Un attribut est un descripteur d’une entité. On l’appelle également
variable, champs, caractéristiques ou observations.
Instances :
• Une instance est une entité caractérisant un objet et est donc constitué d’attributs.
Types de données :
• numérique continue : la valeur de la variable peut prendre une valeur
dans R (par exemple : le montant du compte en banques).
• numérique discrète : la valeur de la variable appartient à Z ou N
• catégorie : avec ou sans relation d’ordre (par exemple : { rouge, vert,
bleu }).
• binaire
• Chaînes de caractères (par exemple : un texte)
• Arbre : (par exemple Page XML)
• Données structurées : graphe, enregistrement
Le processus du datamining :
Le processus du datamining comporte 6 phases :
1- Compréhension métier :
· Énoncer clairement les objectifs globaux du projet et les contraintes de l’entreprise.
· Traduire ces objectifs et ces contraintes en un problème de data mining.
· Préparer une stratégie initiale pour atteindre ces objectifs.
2- Compréhension des données :
· Recueillir les données.
· Utiliser l’analyse exploratoire pour se familiariser avec les données, commencer à les
comprendre et imaginer ce qu’on pourrait en tirer comme connaissance.
· Évaluer la qualité des données.
· Éventuellement, sélectionner des sous-ensembles intéressants.
3- Préparation des données :
· Préparer, à partir des données brutes, l’ensemble final des données qui va être utilisé
pour toutes les phases suivantes.
· Sélectionner les cas et les variables à analyser.
· Réaliser si nécessaire les transformations de certaines données.
· Réaliser si nécessaire la suppression de certaines données.
Cette phase fait suite à la compréhension des données. Celle-ci a mis au jour les
corrélations, les valeurs aberrantes, les valeurs manquantes : on peut donc faire la
préparation.
4- Modélisation:
· Sélectionner les techniques de modélisation appropriées (souvent plusieurs techniques
peuvent être utilisées pour le même problème).
5- Evaluation :
· Pour chaque technique de modélisation utilisée, évaluer la qualité (la pertinence, la
signification) des résultats obtenus.
· Déterminer si les résultats obtenus atteignent les objectifs globaux identifiés pendant la
phase de compréhension du métier.
· Décider si on passe à la phase suivante (le déploiement) ou si on souhaite reprendre
l’étude en complétant le jeu de données.
6- Déploiement :
· Prendre les décisions en conséquences des résultats de l’étude de data mining
· Préparer la collecte des informations futures pour permettre de vérifier la pertinence
des décisions effectivement mis en œuvre.
1.Apprentissage supervisé
One Rule :
-Règle de classification qui travaille sur un attribut indépendamment de l’autre.
-le modèle étant constitue sur la base d’un seul attribut.
ID3 :
ID3 construit un arbre de décision de façon récursive en choisissant l’attribut qui
maxime le gain d’information selon l’entropie de Shannon. Cet algorithme fonctionne
exclusivement avec des attributs catégoriques et un nœud est créé pour chaque
valeur des attributs sélectionnés.
C4.5:
C4.5 est une amélioration d’ID3 qui permet de travailler à la fois avec des données
discrètes et des données continues. Il permet également de travailler avec des valeurs
d’attribut manquantes.
Naïve bays:
Modélisation statistique; tout les attributs constituent dans le modèle de façon équitable
et indépendante mais la pratique a montré que la méthode bien simple et plutôt efficace.
K-NN:
C’est un fainéant algorithme , consiste à prendre en compte (de façon identique) les k
échantillons d'apprentissage dont l’entrée est la plus proche de la nouvelle entrée x,
selon une distance à définir.
2. Apprentissage non-supervisé:
 Clustering:
est une méthode statistique d’analyse de données qui a pour but de regrouper un
ensemble de données en différents groupes homogènes Chaque sous-
ensemble regroupe des éléments ayant des caractéristiques communes qui
correspondent à des critères de proximité.
Arbres de décision – Exemple
Détection de fraudes fiscales
id Ristourne S,f Impôt
revenu
Fraude
1 oui Célibat 125 Non
2 non Marié 100 Non
3 non Célibat 70 Non
4 oui Marié 120 Non
5 non Divorcé 95 Oui
6 Non Marié 60 Non
7 oui Divorcé 220 Non
8 Non Célibat 85 Oui
9 Non Marié 75 Non
10 non Célibat 90 Oui
On a 3 attributs ristourne , situation famille , impôt revenu :
**Ristourne est de type :symbolique .
**Situation famille est de type :symbolique .
**Impôt revenu (qui porte sur les revenus des individus les taux augmentent en
fonction de l’importance des revenus déclarés) est de type : numérique .
La classe Fraude qui va prendre 2 valeurs {oui , non}
En utilisant l’arbre de décision :
Ristourne
Non Situation
Impôt Non
Non Oui
Oui Non
MariéCélibat ,
Divorcé
>= 80< 80
Pour classer une instance : descendre dans l’arbre selon les réponses
aux différents tests.
Ex = (Ristourne=Non, Situation=Divorcé, Impôt=100) => oui
Ristourne
Non Situation
Impôt
Non
Non Oui
Oui Non
MariéCélibat ,
Divorcé
>=
80< 80
1
2
3
Pour bien mener un projet de DM
•Identifier et énoncer clairement les besoins.
•Créer ou obtenir des données représentatives du problème
•Identifier le contexte de l’apprentissage
•Analyser et réduire la dimension des données
•Choisir un algorithme et/ou un espace d’hypothèses.
•Choisir un modèle en appliquant l’algorithme aux données prétraitées.
•Valider les performances de la méthode.

Contenu connexe

Tendances

Seminaire datamining Ecole de Statistique et d'Economie Appliquée
Seminaire datamining Ecole de Statistique et d'Economie AppliquéeSeminaire datamining Ecole de Statistique et d'Economie Appliquée
Seminaire datamining Ecole de Statistique et d'Economie AppliquéeJean Roger Mably
 
AI Apprentissage Automatique, Machine Learnig
AI Apprentissage Automatique, Machine LearnigAI Apprentissage Automatique, Machine Learnig
AI Apprentissage Automatique, Machine LearnigFelipe Sanchez Garzon
 
Machine Learning et Intelligence Artificielle
Machine Learning et Intelligence ArtificielleMachine Learning et Intelligence Artificielle
Machine Learning et Intelligence ArtificielleSoft Computing
 
Data mining - Classification - arbres de décision
Data mining - Classification - arbres de décisionData mining - Classification - arbres de décision
Data mining - Classification - arbres de décisionMohamed Heny SELMI
 
Ch6 Introduction à la Science de Données.pdf
Ch6 Introduction à la Science de Données.pdfCh6 Introduction à la Science de Données.pdf
Ch6 Introduction à la Science de Données.pdfnesrinetaamallah
 
Cours data warehouse
Cours data warehouseCours data warehouse
Cours data warehousekhlifi z
 
Les 10 plus populaires algorithmes du machine learning
Les 10 plus populaires algorithmes du machine learningLes 10 plus populaires algorithmes du machine learning
Les 10 plus populaires algorithmes du machine learningHakim Nasaoui
 
Comprendre l’intelligence artificielle [webinaire]
Comprendre l’intelligence artificielle [webinaire]Comprendre l’intelligence artificielle [webinaire]
Comprendre l’intelligence artificielle [webinaire]Technologia Formation
 
Les réseaux de neurones
Les réseaux de neuronesLes réseaux de neurones
Les réseaux de neuronesMariam Amchayd
 
Rapport data-mining
Rapport data-miningRapport data-mining
Rapport data-miningSawsen Larbi
 
Introduction au Deep Learning
Introduction au Deep Learning Introduction au Deep Learning
Introduction au Deep Learning Niji
 
La classification des Emails utilisant le modèle MapReduce
La classification des Emails utilisant le modèle MapReduce La classification des Emails utilisant le modèle MapReduce
La classification des Emails utilisant le modèle MapReduce Nour El Houda Megherbi
 
La BI : Qu’est-ce que c’est ? A quoi ça sert ?
La BI : Qu’est-ce que c’est ? A quoi ça sert ?La BI : Qu’est-ce que c’est ? A quoi ça sert ?
La BI : Qu’est-ce que c’est ? A quoi ça sert ?Jean-Marc Dupont
 
Intelligence artificielle
Intelligence artificielleIntelligence artificielle
Intelligence artificiellehadjerdermane
 
Introduction au Machine Learning
Introduction au Machine LearningIntroduction au Machine Learning
Introduction au Machine LearningMathieu Goeminne
 
Datamining appliqué au churn client dans les télécommunications
Datamining appliqué au churn client dans les télécommunicationsDatamining appliqué au churn client dans les télécommunications
Datamining appliqué au churn client dans les télécommunicationsabdelmoumène taleb
 

Tendances (20)

Seminaire datamining Ecole de Statistique et d'Economie Appliquée
Seminaire datamining Ecole de Statistique et d'Economie AppliquéeSeminaire datamining Ecole de Statistique et d'Economie Appliquée
Seminaire datamining Ecole de Statistique et d'Economie Appliquée
 
AI Apprentissage Automatique, Machine Learnig
AI Apprentissage Automatique, Machine LearnigAI Apprentissage Automatique, Machine Learnig
AI Apprentissage Automatique, Machine Learnig
 
Machine Learning et Intelligence Artificielle
Machine Learning et Intelligence ArtificielleMachine Learning et Intelligence Artificielle
Machine Learning et Intelligence Artificielle
 
Data mining - Classification - arbres de décision
Data mining - Classification - arbres de décisionData mining - Classification - arbres de décision
Data mining - Classification - arbres de décision
 
Ch6 Introduction à la Science de Données.pdf
Ch6 Introduction à la Science de Données.pdfCh6 Introduction à la Science de Données.pdf
Ch6 Introduction à la Science de Données.pdf
 
5.5 Clustering
5.5 Clustering5.5 Clustering
5.5 Clustering
 
Cours data warehouse
Cours data warehouseCours data warehouse
Cours data warehouse
 
Les 10 plus populaires algorithmes du machine learning
Les 10 plus populaires algorithmes du machine learningLes 10 plus populaires algorithmes du machine learning
Les 10 plus populaires algorithmes du machine learning
 
Comprendre l’intelligence artificielle [webinaire]
Comprendre l’intelligence artificielle [webinaire]Comprendre l’intelligence artificielle [webinaire]
Comprendre l’intelligence artificielle [webinaire]
 
Data warehouse
Data warehouseData warehouse
Data warehouse
 
Les réseaux de neurones
Les réseaux de neuronesLes réseaux de neurones
Les réseaux de neurones
 
Règles d’association
Règles d’associationRègles d’association
Règles d’association
 
Rapport data-mining
Rapport data-miningRapport data-mining
Rapport data-mining
 
Introduction au Deep Learning
Introduction au Deep Learning Introduction au Deep Learning
Introduction au Deep Learning
 
La classification des Emails utilisant le modèle MapReduce
La classification des Emails utilisant le modèle MapReduce La classification des Emails utilisant le modèle MapReduce
La classification des Emails utilisant le modèle MapReduce
 
La BI : Qu’est-ce que c’est ? A quoi ça sert ?
La BI : Qu’est-ce que c’est ? A quoi ça sert ?La BI : Qu’est-ce que c’est ? A quoi ça sert ?
La BI : Qu’est-ce que c’est ? A quoi ça sert ?
 
Intelligence artificielle
Intelligence artificielleIntelligence artificielle
Intelligence artificielle
 
Machine Learning
Machine LearningMachine Learning
Machine Learning
 
Introduction au Machine Learning
Introduction au Machine LearningIntroduction au Machine Learning
Introduction au Machine Learning
 
Datamining appliqué au churn client dans les télécommunications
Datamining appliqué au churn client dans les télécommunicationsDatamining appliqué au churn client dans les télécommunications
Datamining appliqué au churn client dans les télécommunications
 

En vedette (7)

Réseaux de neurones
Réseaux de neurones Réseaux de neurones
Réseaux de neurones
 
Opinion Mining
Opinion Mining Opinion Mining
Opinion Mining
 
Les systèmes intelligents
Les systèmes intelligentsLes systèmes intelligents
Les systèmes intelligents
 
Opinion Mining
Opinion MiningOpinion Mining
Opinion Mining
 
La détection des spam
La détection des spamLa détection des spam
La détection des spam
 
Web sémantique
Web sémantique Web sémantique
Web sémantique
 
Introduction à Hadoop
Introduction à HadoopIntroduction à Hadoop
Introduction à Hadoop
 

Similaire à Data Mining

Introduction au Machine Learning
Introduction au Machine Learning Introduction au Machine Learning
Introduction au Machine Learning Novagen Conseil
 
Introduction au Data Marketing
Introduction au Data MarketingIntroduction au Data Marketing
Introduction au Data MarketingAmar LAKEL, PhD
 
Analyse des données1.pptx
Analyse des données1.pptxAnalyse des données1.pptx
Analyse des données1.pptxhanensayed2
 
Cours fouille de donn+®es part1
Cours fouille de donn+®es part1Cours fouille de donn+®es part1
Cours fouille de donn+®es part1Amani Baklouti
 
Data mining et data science
Data mining et data scienceData mining et data science
Data mining et data scienceRima Jamli Faidi
 
Seance 1 &amp; 2 deploiement de la bi dans l'entreprise
Seance 1 &amp; 2 deploiement de la bi dans l'entrepriseSeance 1 &amp; 2 deploiement de la bi dans l'entreprise
Seance 1 &amp; 2 deploiement de la bi dans l'entreprisesciafrique
 
Classer et catégoriser pour mieux appréhender les données en éducation
Classer et catégoriser pour mieux appréhender les données en éducationClasser et catégoriser pour mieux appréhender les données en éducation
Classer et catégoriser pour mieux appréhender les données en éducationUMONS
 
Apprentissage automatique avec RapidMiner
Apprentissage automatique avec RapidMinerApprentissage automatique avec RapidMiner
Apprentissage automatique avec RapidMinerMajdi Hannachi
 
Vers une meilleure connaissance client grâce au big data
Vers une meilleure connaissance client grâce au big dataVers une meilleure connaissance client grâce au big data
Vers une meilleure connaissance client grâce au big dataData2B
 
méthodologie séminaire (2).pptx
méthodologie séminaire (2).pptxméthodologie séminaire (2).pptx
méthodologie séminaire (2).pptxVivendisConseil
 
L_analyse de la valeur.ppt
L_analyse de la valeur.pptL_analyse de la valeur.ppt
L_analyse de la valeur.pptDanielNzedom
 
Forêts uniformément aléatoires - Saïp CISS
Forêts uniformément aléatoires - Saïp CISSForêts uniformément aléatoires - Saïp CISS
Forêts uniformément aléatoires - Saïp CISSKezhan SHI
 
Aaf archivistes these
Aaf archivistes   theseAaf archivistes   these
Aaf archivistes theseAssociationAF
 

Similaire à Data Mining (20)

Introduction au Machine Learning
Introduction au Machine Learning Introduction au Machine Learning
Introduction au Machine Learning
 
Introduction au Data Marketing
Introduction au Data MarketingIntroduction au Data Marketing
Introduction au Data Marketing
 
DataMining.pdf
DataMining.pdfDataMining.pdf
DataMining.pdf
 
Analyse des données1.pptx
Analyse des données1.pptxAnalyse des données1.pptx
Analyse des données1.pptx
 
Cours fouille de donn+®es part1
Cours fouille de donn+®es part1Cours fouille de donn+®es part1
Cours fouille de donn+®es part1
 
Data mining et data science
Data mining et data scienceData mining et data science
Data mining et data science
 
Introduction au Big data
Introduction au Big data Introduction au Big data
Introduction au Big data
 
arbres de decision.ppt
arbres de decision.pptarbres de decision.ppt
arbres de decision.ppt
 
Seance 1 &amp; 2 deploiement de la bi dans l'entreprise
Seance 1 &amp; 2 deploiement de la bi dans l'entrepriseSeance 1 &amp; 2 deploiement de la bi dans l'entreprise
Seance 1 &amp; 2 deploiement de la bi dans l'entreprise
 
Analyzing a churn data set
Analyzing a churn data set Analyzing a churn data set
Analyzing a churn data set
 
Classer et catégoriser pour mieux appréhender les données en éducation
Classer et catégoriser pour mieux appréhender les données en éducationClasser et catégoriser pour mieux appréhender les données en éducation
Classer et catégoriser pour mieux appréhender les données en éducation
 
Diagnostic territorial
Diagnostic territorialDiagnostic territorial
Diagnostic territorial
 
Apprentissage automatique avec RapidMiner
Apprentissage automatique avec RapidMinerApprentissage automatique avec RapidMiner
Apprentissage automatique avec RapidMiner
 
Vers une meilleure connaissance client grâce au big data
Vers une meilleure connaissance client grâce au big dataVers une meilleure connaissance client grâce au big data
Vers une meilleure connaissance client grâce au big data
 
méthodologie séminaire (2).pptx
méthodologie séminaire (2).pptxméthodologie séminaire (2).pptx
méthodologie séminaire (2).pptx
 
Debuteraveclesmls
DebuteraveclesmlsDebuteraveclesmls
Debuteraveclesmls
 
test
testtest
test
 
L_analyse de la valeur.ppt
L_analyse de la valeur.pptL_analyse de la valeur.ppt
L_analyse de la valeur.ppt
 
Forêts uniformément aléatoires - Saïp CISS
Forêts uniformément aléatoires - Saïp CISSForêts uniformément aléatoires - Saïp CISS
Forêts uniformément aléatoires - Saïp CISS
 
Aaf archivistes these
Aaf archivistes   theseAaf archivistes   these
Aaf archivistes these
 

Data Mining

  • 2. Introduction : Data mining (fouille de données , forage de données …) apparait dans les années 1990 aux Etats-Unis comme une nouvelle discipline a l’interface de la statistique et des technologies de l’information exemple : base de donnée , intelligence artificielle … Le data mining est devenu aujourd'hui un domaine très en vogue adapter et utiliser dans un large nombre de domaines d'activités. Dans les plus connus on peut mentionner: 1/ Médical / pharmaceutique: ** Explication ou prédiction de la réponse d'un patient à un traitement. ** Etude des corrélations entre le dosage dans un traitement et l'apparition d'effets secondaires . 2/ Assurance et santé : ** Détection d'association de comportements pour la découverte de clients à risque. ** Découverte d'associations des demandes de remboursements 3/ Banques / Finances : ** Crédit scoring - évaluer le risque de non remboursement (technique data mining la plus déployée). ** Prédiction - prévoir quels clients seront intéressés par une offre. 4/ Marketing : ** déterminer ce qui caractérise un groupe particulier de clients . ** déterminer le prix "optimal" pour un produit.
  • 3. Définition : Le datamining est un processus d’extractions automatique d’informations prédictives à partir de grandes bases de données. L’objectif est de: ** Développer des techniques et systèmes efficaces et extensibles pour l’exploration de BD larges et multidimensionnelles et des Données distribuées. ** Représentation simple de la connaissance. Il existe deux type d’apprentissage : apprentissage supervisé et apprentissage non supervisé. 1/ Apprentissage supervisé : l'apprenant considère un ensemble d'exemples, et infère l'appartenance d'un objet à une classe en considérant les similarités entre l'objet et les éléments de la classe . Les classes sont étiquetées préalablement. EX : arbre de décision , 1-R , KNN … 2/ Apprentissage non supervisé : Construction d'un modèle et découverte des relations dans les données sans référence à d'autres données. On ne dispose d'aucune autre information préalable que la description des exemples. EX : K-means . Les données en datamining : Dans un problème de Datamining, les informations caractérisant une étude sont présentées sous la forme d’attributs et d’instances.
  • 4. Attributs : • Un attribut est un descripteur d’une entité. On l’appelle également variable, champs, caractéristiques ou observations. Instances : • Une instance est une entité caractérisant un objet et est donc constitué d’attributs. Types de données : • numérique continue : la valeur de la variable peut prendre une valeur dans R (par exemple : le montant du compte en banques). • numérique discrète : la valeur de la variable appartient à Z ou N • catégorie : avec ou sans relation d’ordre (par exemple : { rouge, vert, bleu }). • binaire • Chaînes de caractères (par exemple : un texte) • Arbre : (par exemple Page XML) • Données structurées : graphe, enregistrement
  • 5. Le processus du datamining :
  • 6. Le processus du datamining comporte 6 phases : 1- Compréhension métier : · Énoncer clairement les objectifs globaux du projet et les contraintes de l’entreprise. · Traduire ces objectifs et ces contraintes en un problème de data mining. · Préparer une stratégie initiale pour atteindre ces objectifs. 2- Compréhension des données : · Recueillir les données. · Utiliser l’analyse exploratoire pour se familiariser avec les données, commencer à les comprendre et imaginer ce qu’on pourrait en tirer comme connaissance. · Évaluer la qualité des données. · Éventuellement, sélectionner des sous-ensembles intéressants. 3- Préparation des données : · Préparer, à partir des données brutes, l’ensemble final des données qui va être utilisé pour toutes les phases suivantes. · Sélectionner les cas et les variables à analyser. · Réaliser si nécessaire les transformations de certaines données. · Réaliser si nécessaire la suppression de certaines données. Cette phase fait suite à la compréhension des données. Celle-ci a mis au jour les corrélations, les valeurs aberrantes, les valeurs manquantes : on peut donc faire la préparation.
  • 7. 4- Modélisation: · Sélectionner les techniques de modélisation appropriées (souvent plusieurs techniques peuvent être utilisées pour le même problème). 5- Evaluation : · Pour chaque technique de modélisation utilisée, évaluer la qualité (la pertinence, la signification) des résultats obtenus. · Déterminer si les résultats obtenus atteignent les objectifs globaux identifiés pendant la phase de compréhension du métier. · Décider si on passe à la phase suivante (le déploiement) ou si on souhaite reprendre l’étude en complétant le jeu de données. 6- Déploiement : · Prendre les décisions en conséquences des résultats de l’étude de data mining · Préparer la collecte des informations futures pour permettre de vérifier la pertinence des décisions effectivement mis en œuvre.
  • 8. 1.Apprentissage supervisé One Rule : -Règle de classification qui travaille sur un attribut indépendamment de l’autre. -le modèle étant constitue sur la base d’un seul attribut. ID3 : ID3 construit un arbre de décision de façon récursive en choisissant l’attribut qui maxime le gain d’information selon l’entropie de Shannon. Cet algorithme fonctionne exclusivement avec des attributs catégoriques et un nœud est créé pour chaque valeur des attributs sélectionnés.
  • 9. C4.5: C4.5 est une amélioration d’ID3 qui permet de travailler à la fois avec des données discrètes et des données continues. Il permet également de travailler avec des valeurs d’attribut manquantes. Naïve bays: Modélisation statistique; tout les attributs constituent dans le modèle de façon équitable et indépendante mais la pratique a montré que la méthode bien simple et plutôt efficace. K-NN: C’est un fainéant algorithme , consiste à prendre en compte (de façon identique) les k échantillons d'apprentissage dont l’entrée est la plus proche de la nouvelle entrée x, selon une distance à définir.
  • 10. 2. Apprentissage non-supervisé:  Clustering: est une méthode statistique d’analyse de données qui a pour but de regrouper un ensemble de données en différents groupes homogènes Chaque sous- ensemble regroupe des éléments ayant des caractéristiques communes qui correspondent à des critères de proximité.
  • 11. Arbres de décision – Exemple Détection de fraudes fiscales id Ristourne S,f Impôt revenu Fraude 1 oui Célibat 125 Non 2 non Marié 100 Non 3 non Célibat 70 Non 4 oui Marié 120 Non 5 non Divorcé 95 Oui 6 Non Marié 60 Non 7 oui Divorcé 220 Non 8 Non Célibat 85 Oui 9 Non Marié 75 Non 10 non Célibat 90 Oui
  • 12. On a 3 attributs ristourne , situation famille , impôt revenu : **Ristourne est de type :symbolique . **Situation famille est de type :symbolique . **Impôt revenu (qui porte sur les revenus des individus les taux augmentent en fonction de l’importance des revenus déclarés) est de type : numérique . La classe Fraude qui va prendre 2 valeurs {oui , non} En utilisant l’arbre de décision : Ristourne Non Situation Impôt Non Non Oui Oui Non MariéCélibat , Divorcé >= 80< 80
  • 13. Pour classer une instance : descendre dans l’arbre selon les réponses aux différents tests. Ex = (Ristourne=Non, Situation=Divorcé, Impôt=100) => oui Ristourne Non Situation Impôt Non Non Oui Oui Non MariéCélibat , Divorcé >= 80< 80 1 2 3
  • 14. Pour bien mener un projet de DM •Identifier et énoncer clairement les besoins. •Créer ou obtenir des données représentatives du problème •Identifier le contexte de l’apprentissage •Analyser et réduire la dimension des données •Choisir un algorithme et/ou un espace d’hypothèses. •Choisir un modèle en appliquant l’algorithme aux données prétraitées. •Valider les performances de la méthode.