SlideShare une entreprise Scribd logo
1  sur  25
Module : Analyse de données
<< Data mining >>
KENOUCHE TAKFARINAS
Année 2012 - 2013
Les technologies de data mining permettent, grâce aux processus d’intelligence
artificielle, de traiter des masses gigantesques de données afin d’en extraire
l’information cruciale (connaissance), celle qui sera déterminante pour une prise de
décision efficace.
Introduction
Le data mining est apparu au début des années 1990
Le processus ECD
Le data mining est une étape d’une chaine de traitement plus complète, le processus
d’extraction de connaissances à partir de données (ECD).
Qu’est-ce que l’ECD ?
Quels sont ses étapes ?
1.Définition
L’extraction de Connaissances à partir de Données (ECD) désigne tout le cycle de
découverte d'informations ou de connaissances dans les bases de données. Il regroupe
donc toutes les opérations à effectuer pour extraire de l'information de ces données.
2. Etapes du processus ECD
L’ECD est un processus complexe qui se déroule suivant une suite d’opérations.
Peut être vu comme un processus en sept étapes :
1. Positionnement du problème ;
2. Collecte et sélection des données ;
3. Nettoyage des données ;
4. Actions sur les attributs ;
5. Construction du modèle ;
6. Evaluation des résultats ;
7. Intégration de la connaissance.
2. Etapes du processus ECD
Data mining
Définition
Le data mining (ou fouille de données) est l’une des étapes du processus ECD.
Cette étape regroupe l’ensemble des méthodes et techniques destinées à l’exploration
des bases de données de façon automatique, ou semi-automatique, pour détecter :
-des règles,
-des associations,
-des tendances nouvelles et imprévisibles,
-des structures particulières restituant l’essentiel de l’information utile.
Il s’agit d’un processus de sélection, exploration, modification et modélisation de
grandes bases de données afin de découvrir des relations entre les données.
Principe
Le principe derrière le data mining est de faire sortir à partir de données brutes des
inférences (déductions) que l'expérimentateur peut ne pas soupçonner, et dont il
aura à valider la pertinence à l’aide des techniques et des algorithmes.
Tâches de data mining
Le data mining est un ensemble de techniques complémentaires dédiées à différentes
tâches. Selon, ces technique sont partagées, principalement, entre la classification
automatique et la recherche d’associations.
La classification automatique supervisée ( clustering):
examiner les caractéristiques d’un objet nouvellement présenté afin de l’affecter à
une classe d’un ensemble prédéfini.
Le modèle généré permet de prédire ou estimer la valeur manquante ou erronée en
utilisant le modèle de classification comme référence.
La classification automatique non supervisée:
vise à identifier des ensembles d’éléments qui partagent certaines similarités. Elle
ne se base pas sur des classes prédéfinies.
Les règles d’association :
C’est une tâche qui permet de découvrir les rapports de lien qui peuvent exister dans
une base de données. Ces liens sont généralement exprimés sous la forme ‘‘ A è B ’’
qui signifie que la présence de A implique la présence de B (avec une certaine
probabilité).
Exemple : Un étudiant qui réussit en mathématiques réussira en algorithmique dans
80% des cas.
Techniques de data mining
 Les techniques de data mining diffèrent en fonction des besoins de l’utilisateur,
(selon les taches à effectuer).
 Chacune des tâches regroupe une multitude d’algorithmes pour construire le
modèle auquel elle est associée.
 Selon, les dix algorithmes les plus populaires dans le domaine de data mining
sont, dans l’ordre: C4.5, k-Means, SVM, Apriori, EM, PageRank, AdaBoost, k-NN,
Naive Bayes et CART.
 Ces algorithmes sont classifiés, selon la tâche associée, comme suit :
- Algorithmes de construction des arbres de décision : CART, C4.5 ;
- Algorithmes de classification non supervisée : k-Means, EM ;
- Algorithmes de classification supervisée : k-NN, SVM, Naive Bayes et AdaBoost ;
- Algorithme d’extraction des règles d’association : Apriori ;
- Algorithme de classification automatique des pages Web : PageRank.
Description de quelques algorithme
 L’algorithme k-Means a été introduit par J.MacQuenn et mis en oeuvre sous sa
forme actuelle par E.Forgy.
 Il est le plus utilisé dans les applications scientifiques et industrielles car il est le
plus simple et le plus rapide.
• chaque classe est représentée par la moyenne (centroide).
• k-Means est un algorithme itératif.
• Il commence avec un ensemble de k individus de référence choisis de façon
aléatoire.
• Les individus de données sont ainsi partitionnés dans k classes ; un individu
appartient à une classe si le centre de cette classe est le plus proche de lui (en
terme de distance).
• La mise à jour des centroides et l’affectation des individus de données aux classes
sont réalisées pendant les itérations successives.
Algorithmes de classification non supervisée L’algorithme k-Means
La Figure 1 montre un exemple de déroulement de l’algorithme k-Means
sur un nuage d’objets bidimensionnels, avec k = 3.
 Comme avantages de cet algorithme, on cite:
• Il s’adapte bien pour des populations de tailles importantes ;
• Il est relativement efficace ;
• Il est indépendant de l’ordre d’arrivée des données.
 Parmi les inconvénients de cet algorithme, on cite :
• Il est applicable seulement dans le cas où la moyenne des objets est définie ;
• Le nombre de classes k, doit être spécifié à priori ;
• Il est sensible aux objets isolés (bruits) ;
• Il n’est pas adapté pour découvrir de tailles et formes différentes.
1.2. L’algorithme k-Medoids
Il est introduit par Kaufman et Rousseew. L’esquisse de l’algorithme k-Medoids
ressemble à celle de k-Means sauf que, contrairement à l’algorithme k-Means où
la classe est représentée par une valeur moyenne, le centroide, dans l’algorithme
k-Medoids, une classe est représentée par un de ses objets prédominants, le
médoide.
L’algorithme k-Medoids utilise une fonction objectif qui définit la distance
moyenne entre un objet et le médoide.
La Figure 2 est une illustration du déroulement de l’algorithme k-Medoids sur un
nuage d’objets bidimensionnels avec k = 3.
La Figure 2 est une illustration du déroulement de l’algorithme k-Medoids sur
un nuage d’objets bidimensionnels avec k = 3.
 Comme avantages de cet algorithme par rapport à k-Means, on cite :
• Il s’adapte à n'importe quel type de données ;
• Il est insensible aux objets isolés.
1. Les arbres de décision
permet de classifier une population d’individus selon les valeurs de leurs attributs.
C’est une représentation graphique de la procédure de classification où :
- Une feuille indique une classe ;
- Un noeud spécifie un test que doit subir un certain attribut ;
- Chaque branche correspond à une valeur possible de l’attribut
Pour classifier un nouvel objet, on suit le chemin partant de la racine (noeud
initial) à une feuille en effectuant les différents tests d’attributs à chaque noeud.
Domaines d’application
Ouverte à tout domaine susceptible de utiliser une masse importante de données.
- Sociétés commerciales : L’étude de tendance
- Grandes surfaces : L’analyse du ticket de la supérette
- Secteur bancaire : Etude des caractéristiques des clients permet de discriminer
les clients à risque élevé
- Secteur d’assurances : Dans le secteur d’assurances, le data mining est utilisé
pour la détection de fraudes et leur anticipation ;
- Secteur médical :Les études sur les associations de médicament permettent,
entre autres, de révéler les anomalies de prescription.
- Secteur de l’éducation : Le data mining est employé dans les établissements
scolaires pour améliorer la qualité d’enseignement. Par exemple, répartir les élèves
ayant une grande capacité d’assimilation dans la même classe.
Difficultés de data mining
Qualité des données :
60% à 70% du temps de travail dans un projet de data mining est consacré au
prétraitement des données (sélection, correction, transcodage, chargement…), qui
influe sur le temps global du projet.
Choix des algorithmes et de l'itinéraire du travail :
Des algorithmes doivent être choisis en fonction du problème traité. Il faut que
l'expert en datamining soit aussi un animateur et possède des qualités que l'on trouve
rarement ensemble chez la même personne : rigueur dans la méthode, ouverture et
chaleur humaine dans la communication.
Evaluation des résultats :
Il est important d’évaluer le model. Ceci permettra d’être certain qu’il permet
d’atteindre les objectifs fixés.
A la fin, une décision sur l’utilisation des résultats fournis par les outils de data
mining devrait être prise. (Car un facteur important peut ne pas etre pris en
considération)
Conclusion
Les techniques de data mining ne font pas état des hypothèses fixées à priori,
comme le font les statistiques traditionnelles, mais cherchent à ‘‘établir’’ un modèle
par l’exploration des bases de données. Le data mining fait passer de l’analyse
confirmatoire à l’analyse exploratoire.
Le choix d’un algorithme approprié dépend fortement du contexte de son
application, la nature des données et les ressources disponibles. Une analyse
attentive des données aide à bien choisir le meilleur algorithme à partir du moment
qu’il n’existe pas un algorithme qui peut répondre à toutes les demandes.

Contenu connexe

Tendances

Data mining - Classification - arbres de décision
Data mining - Classification - arbres de décisionData mining - Classification - arbres de décision
Data mining - Classification - arbres de décisionMohamed Heny SELMI
 
Les 10 plus populaires algorithmes du machine learning
Les 10 plus populaires algorithmes du machine learningLes 10 plus populaires algorithmes du machine learning
Les 10 plus populaires algorithmes du machine learningHakim Nasaoui
 
Les arbres de décisions
Les arbres de décisionsLes arbres de décisions
Les arbres de décisionsMariem Chaaben
 
Introduction au Data Mining et Méthodes Statistiques
Introduction au Data Mining et Méthodes StatistiquesIntroduction au Data Mining et Méthodes Statistiques
Introduction au Data Mining et Méthodes StatistiquesGiorgio Pauletto
 
Introduction au traitement d'images
Introduction au traitement d'imagesIntroduction au traitement d'images
Introduction au traitement d'imagesAbdelouahed Abdou
 
réseaux de neurones artificiels
réseaux de neurones artificiels réseaux de neurones artificiels
réseaux de neurones artificiels Oussama Werfelli
 
Exposé segmentation
Exposé segmentationExposé segmentation
Exposé segmentationDonia Hammami
 
Data mining - Segmentation(k-means, cah)
Data mining - Segmentation(k-means, cah)Data mining - Segmentation(k-means, cah)
Data mining - Segmentation(k-means, cah)Mohamed Heny SELMI
 
Outils décisionnels : Data-Mining and Data-warehouse
Outils décisionnels : Data-Mining and Data-warehouseOutils décisionnels : Data-Mining and Data-warehouse
Outils décisionnels : Data-Mining and Data-warehouseBEL MRHAR Mohamed Amine
 
Rapport data-mining
Rapport data-miningRapport data-mining
Rapport data-miningSawsen Larbi
 
applications-reparties
applications-repartiesapplications-reparties
applications-repartiesmourad50
 
Machine Learning et Intelligence Artificielle
Machine Learning et Intelligence ArtificielleMachine Learning et Intelligence Artificielle
Machine Learning et Intelligence ArtificielleSoft Computing
 
Data mining - ACP Analyse en Composantes Principales
Data mining - ACP Analyse en Composantes PrincipalesData mining - ACP Analyse en Composantes Principales
Data mining - ACP Analyse en Composantes PrincipalesMohamed Heny SELMI
 
Introduction au datamining, concepts et techniques
Introduction au datamining, concepts et techniquesIntroduction au datamining, concepts et techniques
Introduction au datamining, concepts et techniquesIsmail CHAIB
 
BigData_Chp1: Introduction à la Big Data
BigData_Chp1: Introduction à la Big DataBigData_Chp1: Introduction à la Big Data
BigData_Chp1: Introduction à la Big DataLilia Sfaxi
 
BigData_Chp2: Hadoop & Map-Reduce
BigData_Chp2: Hadoop & Map-ReduceBigData_Chp2: Hadoop & Map-Reduce
BigData_Chp2: Hadoop & Map-ReduceLilia Sfaxi
 

Tendances (20)

Data mining - Associativité
Data mining - AssociativitéData mining - Associativité
Data mining - Associativité
 
Data mining - Classification - arbres de décision
Data mining - Classification - arbres de décisionData mining - Classification - arbres de décision
Data mining - Classification - arbres de décision
 
5.5 Clustering
5.5 Clustering5.5 Clustering
5.5 Clustering
 
Les 10 plus populaires algorithmes du machine learning
Les 10 plus populaires algorithmes du machine learningLes 10 plus populaires algorithmes du machine learning
Les 10 plus populaires algorithmes du machine learning
 
Les arbres de décisions
Les arbres de décisionsLes arbres de décisions
Les arbres de décisions
 
Introduction au Data Mining et Méthodes Statistiques
Introduction au Data Mining et Méthodes StatistiquesIntroduction au Data Mining et Méthodes Statistiques
Introduction au Data Mining et Méthodes Statistiques
 
Introduction au traitement d'images
Introduction au traitement d'imagesIntroduction au traitement d'images
Introduction au traitement d'images
 
réseaux de neurones artificiels
réseaux de neurones artificiels réseaux de neurones artificiels
réseaux de neurones artificiels
 
Exposé segmentation
Exposé segmentationExposé segmentation
Exposé segmentation
 
Data mining - Segmentation(k-means, cah)
Data mining - Segmentation(k-means, cah)Data mining - Segmentation(k-means, cah)
Data mining - Segmentation(k-means, cah)
 
Outils décisionnels : Data-Mining and Data-warehouse
Outils décisionnels : Data-Mining and Data-warehouseOutils décisionnels : Data-Mining and Data-warehouse
Outils décisionnels : Data-Mining and Data-warehouse
 
Algorithme knn
Algorithme knnAlgorithme knn
Algorithme knn
 
Rapport data-mining
Rapport data-miningRapport data-mining
Rapport data-mining
 
applications-reparties
applications-repartiesapplications-reparties
applications-reparties
 
Machine Learning et Intelligence Artificielle
Machine Learning et Intelligence ArtificielleMachine Learning et Intelligence Artificielle
Machine Learning et Intelligence Artificielle
 
Data mining - ACP Analyse en Composantes Principales
Data mining - ACP Analyse en Composantes PrincipalesData mining - ACP Analyse en Composantes Principales
Data mining - ACP Analyse en Composantes Principales
 
Introduction au datamining, concepts et techniques
Introduction au datamining, concepts et techniquesIntroduction au datamining, concepts et techniques
Introduction au datamining, concepts et techniques
 
BigData_Chp1: Introduction à la Big Data
BigData_Chp1: Introduction à la Big DataBigData_Chp1: Introduction à la Big Data
BigData_Chp1: Introduction à la Big Data
 
Chapitre 2 hadoop
Chapitre 2 hadoopChapitre 2 hadoop
Chapitre 2 hadoop
 
BigData_Chp2: Hadoop & Map-Reduce
BigData_Chp2: Hadoop & Map-ReduceBigData_Chp2: Hadoop & Map-Reduce
BigData_Chp2: Hadoop & Map-Reduce
 

Similaire à Présentation sur le Data Mining

Introduction au Machine Learning
Introduction au Machine Learning Introduction au Machine Learning
Introduction au Machine Learning Novagen Conseil
 
La classification des Emails utilisant le modèle MapReduce
La classification des Emails utilisant le modèle MapReduce La classification des Emails utilisant le modèle MapReduce
La classification des Emails utilisant le modèle MapReduce Nour El Houda Megherbi
 
Comment le Data et Deep Learning révolutionnent la science
Comment le Data et Deep Learning révolutionnent la scienceComment le Data et Deep Learning révolutionnent la science
Comment le Data et Deep Learning révolutionnent la sciencehabib200
 
Séminaire IA & VA- Dominique Gruyer, Univ Gustave Eiffel
Séminaire IA & VA- Dominique Gruyer, Univ Gustave EiffelSéminaire IA & VA- Dominique Gruyer, Univ Gustave Eiffel
Séminaire IA & VA- Dominique Gruyer, Univ Gustave EiffelMahdi Zarg Ayouna
 
Rapport-du-projet CNN.docx
Rapport-du-projet CNN.docxRapport-du-projet CNN.docx
Rapport-du-projet CNN.docxkhalil Ismail
 
Apprentissage automatique avec RapidMiner
Apprentissage automatique avec RapidMinerApprentissage automatique avec RapidMiner
Apprentissage automatique avec RapidMinerMajdi Hannachi
 
Automatic Subspace Clustering of High Dimensional Data for Data Mining Applic...
Automatic Subspace Clustering of High Dimensional Data for DataMining Applic...Automatic Subspace Clustering of High Dimensional Data for DataMining Applic...
Automatic Subspace Clustering of High Dimensional Data for Data Mining Applic...Hajer Trabelsi
 
Détection communautaire dans des réseaux complexe a l'aide de l'algorithme gé...
Détection communautaire dans des réseaux complexe a l'aide de l'algorithme gé...Détection communautaire dans des réseaux complexe a l'aide de l'algorithme gé...
Détection communautaire dans des réseaux complexe a l'aide de l'algorithme gé...AHMEDBELGHITH4
 
Apprentissage Automatique et moteurs de recherche
Apprentissage Automatique et moteurs de rechercheApprentissage Automatique et moteurs de recherche
Apprentissage Automatique et moteurs de recherchePhilippe YONNET
 
Management des risques ibtissam el hassani-chapitre3 : MADS/MOSAR
Management des risques   ibtissam el hassani-chapitre3 : MADS/MOSARManagement des risques   ibtissam el hassani-chapitre3 : MADS/MOSAR
Management des risques ibtissam el hassani-chapitre3 : MADS/MOSARibtissam el hassani
 
Démystifions le machine learning avec spark par David Martin pour le Salon B...
Démystifions le machine learning avec spark par David Martin pour le Salon B...Démystifions le machine learning avec spark par David Martin pour le Salon B...
Démystifions le machine learning avec spark par David Martin pour le Salon B...Ippon
 
Data mining for the evaluation of AODV and DSDV protocols in AD-HOC topologies
Data mining for the evaluation of AODV and DSDV protocols in AD-HOC topologiesData mining for the evaluation of AODV and DSDV protocols in AD-HOC topologies
Data mining for the evaluation of AODV and DSDV protocols in AD-HOC topologiesEmna Trabelsi
 
Digital GraphTour Paris - Les graphes pour l'IA et le Machine Learning
Digital GraphTour Paris - Les graphes pour l'IA et le Machine LearningDigital GraphTour Paris - Les graphes pour l'IA et le Machine Learning
Digital GraphTour Paris - Les graphes pour l'IA et le Machine LearningNeo4j
 
Ch6 Introduction à la Science de Données.pdf
Ch6 Introduction à la Science de Données.pdfCh6 Introduction à la Science de Données.pdf
Ch6 Introduction à la Science de Données.pdfnesrinetaamallah
 

Similaire à Présentation sur le Data Mining (20)

Introduction au Machine Learning
Introduction au Machine Learning Introduction au Machine Learning
Introduction au Machine Learning
 
test
testtest
test
 
La classification des Emails utilisant le modèle MapReduce
La classification des Emails utilisant le modèle MapReduce La classification des Emails utilisant le modèle MapReduce
La classification des Emails utilisant le modèle MapReduce
 
Comment le Data et Deep Learning révolutionnent la science
Comment le Data et Deep Learning révolutionnent la scienceComment le Data et Deep Learning révolutionnent la science
Comment le Data et Deep Learning révolutionnent la science
 
DataMining.pdf
DataMining.pdfDataMining.pdf
DataMining.pdf
 
Séminaire IA & VA- Dominique Gruyer, Univ Gustave Eiffel
Séminaire IA & VA- Dominique Gruyer, Univ Gustave EiffelSéminaire IA & VA- Dominique Gruyer, Univ Gustave Eiffel
Séminaire IA & VA- Dominique Gruyer, Univ Gustave Eiffel
 
Rapport-du-projet CNN.docx
Rapport-du-projet CNN.docxRapport-du-projet CNN.docx
Rapport-du-projet CNN.docx
 
Apprentissage automatique avec RapidMiner
Apprentissage automatique avec RapidMinerApprentissage automatique avec RapidMiner
Apprentissage automatique avec RapidMiner
 
Automatic Subspace Clustering of High Dimensional Data for Data Mining Applic...
Automatic Subspace Clustering of High Dimensional Data for DataMining Applic...Automatic Subspace Clustering of High Dimensional Data for DataMining Applic...
Automatic Subspace Clustering of High Dimensional Data for Data Mining Applic...
 
Détection communautaire dans des réseaux complexe a l'aide de l'algorithme gé...
Détection communautaire dans des réseaux complexe a l'aide de l'algorithme gé...Détection communautaire dans des réseaux complexe a l'aide de l'algorithme gé...
Détection communautaire dans des réseaux complexe a l'aide de l'algorithme gé...
 
Apprentissage Automatique et moteurs de recherche
Apprentissage Automatique et moteurs de rechercheApprentissage Automatique et moteurs de recherche
Apprentissage Automatique et moteurs de recherche
 
Management des risques ibtissam el hassani-chapitre3 : MADS/MOSAR
Management des risques   ibtissam el hassani-chapitre3 : MADS/MOSARManagement des risques   ibtissam el hassani-chapitre3 : MADS/MOSAR
Management des risques ibtissam el hassani-chapitre3 : MADS/MOSAR
 
Analyzing a churn data set
Analyzing a churn data set Analyzing a churn data set
Analyzing a churn data set
 
Démystifions le machine learning avec spark par David Martin pour le Salon B...
Démystifions le machine learning avec spark par David Martin pour le Salon B...Démystifions le machine learning avec spark par David Martin pour le Salon B...
Démystifions le machine learning avec spark par David Martin pour le Salon B...
 
mars2005_BD
mars2005_BDmars2005_BD
mars2005_BD
 
Data mining for the evaluation of AODV and DSDV protocols in AD-HOC topologies
Data mining for the evaluation of AODV and DSDV protocols in AD-HOC topologiesData mining for the evaluation of AODV and DSDV protocols in AD-HOC topologies
Data mining for the evaluation of AODV and DSDV protocols in AD-HOC topologies
 
Rapport final-2
Rapport final-2Rapport final-2
Rapport final-2
 
Debuteraveclesmls
DebuteraveclesmlsDebuteraveclesmls
Debuteraveclesmls
 
Digital GraphTour Paris - Les graphes pour l'IA et le Machine Learning
Digital GraphTour Paris - Les graphes pour l'IA et le Machine LearningDigital GraphTour Paris - Les graphes pour l'IA et le Machine Learning
Digital GraphTour Paris - Les graphes pour l'IA et le Machine Learning
 
Ch6 Introduction à la Science de Données.pdf
Ch6 Introduction à la Science de Données.pdfCh6 Introduction à la Science de Données.pdf
Ch6 Introduction à la Science de Données.pdf
 

Présentation sur le Data Mining

  • 1. Module : Analyse de données << Data mining >> KENOUCHE TAKFARINAS Année 2012 - 2013
  • 2. Les technologies de data mining permettent, grâce aux processus d’intelligence artificielle, de traiter des masses gigantesques de données afin d’en extraire l’information cruciale (connaissance), celle qui sera déterminante pour une prise de décision efficace. Introduction Le data mining est apparu au début des années 1990
  • 3. Le processus ECD Le data mining est une étape d’une chaine de traitement plus complète, le processus d’extraction de connaissances à partir de données (ECD). Qu’est-ce que l’ECD ? Quels sont ses étapes ?
  • 4. 1.Définition L’extraction de Connaissances à partir de Données (ECD) désigne tout le cycle de découverte d'informations ou de connaissances dans les bases de données. Il regroupe donc toutes les opérations à effectuer pour extraire de l'information de ces données.
  • 5. 2. Etapes du processus ECD L’ECD est un processus complexe qui se déroule suivant une suite d’opérations. Peut être vu comme un processus en sept étapes : 1. Positionnement du problème ; 2. Collecte et sélection des données ; 3. Nettoyage des données ; 4. Actions sur les attributs ; 5. Construction du modèle ; 6. Evaluation des résultats ; 7. Intégration de la connaissance.
  • 6. 2. Etapes du processus ECD
  • 8. Définition Le data mining (ou fouille de données) est l’une des étapes du processus ECD. Cette étape regroupe l’ensemble des méthodes et techniques destinées à l’exploration des bases de données de façon automatique, ou semi-automatique, pour détecter : -des règles, -des associations, -des tendances nouvelles et imprévisibles, -des structures particulières restituant l’essentiel de l’information utile. Il s’agit d’un processus de sélection, exploration, modification et modélisation de grandes bases de données afin de découvrir des relations entre les données.
  • 9. Principe Le principe derrière le data mining est de faire sortir à partir de données brutes des inférences (déductions) que l'expérimentateur peut ne pas soupçonner, et dont il aura à valider la pertinence à l’aide des techniques et des algorithmes.
  • 10. Tâches de data mining Le data mining est un ensemble de techniques complémentaires dédiées à différentes tâches. Selon, ces technique sont partagées, principalement, entre la classification automatique et la recherche d’associations.
  • 11. La classification automatique supervisée ( clustering): examiner les caractéristiques d’un objet nouvellement présenté afin de l’affecter à une classe d’un ensemble prédéfini. Le modèle généré permet de prédire ou estimer la valeur manquante ou erronée en utilisant le modèle de classification comme référence. La classification automatique non supervisée: vise à identifier des ensembles d’éléments qui partagent certaines similarités. Elle ne se base pas sur des classes prédéfinies.
  • 12. Les règles d’association : C’est une tâche qui permet de découvrir les rapports de lien qui peuvent exister dans une base de données. Ces liens sont généralement exprimés sous la forme ‘‘ A è B ’’ qui signifie que la présence de A implique la présence de B (avec une certaine probabilité). Exemple : Un étudiant qui réussit en mathématiques réussira en algorithmique dans 80% des cas.
  • 13. Techniques de data mining  Les techniques de data mining diffèrent en fonction des besoins de l’utilisateur, (selon les taches à effectuer).  Chacune des tâches regroupe une multitude d’algorithmes pour construire le modèle auquel elle est associée.  Selon, les dix algorithmes les plus populaires dans le domaine de data mining sont, dans l’ordre: C4.5, k-Means, SVM, Apriori, EM, PageRank, AdaBoost, k-NN, Naive Bayes et CART.
  • 14.  Ces algorithmes sont classifiés, selon la tâche associée, comme suit : - Algorithmes de construction des arbres de décision : CART, C4.5 ; - Algorithmes de classification non supervisée : k-Means, EM ; - Algorithmes de classification supervisée : k-NN, SVM, Naive Bayes et AdaBoost ; - Algorithme d’extraction des règles d’association : Apriori ; - Algorithme de classification automatique des pages Web : PageRank.
  • 16.  L’algorithme k-Means a été introduit par J.MacQuenn et mis en oeuvre sous sa forme actuelle par E.Forgy.  Il est le plus utilisé dans les applications scientifiques et industrielles car il est le plus simple et le plus rapide. • chaque classe est représentée par la moyenne (centroide). • k-Means est un algorithme itératif. • Il commence avec un ensemble de k individus de référence choisis de façon aléatoire. • Les individus de données sont ainsi partitionnés dans k classes ; un individu appartient à une classe si le centre de cette classe est le plus proche de lui (en terme de distance). • La mise à jour des centroides et l’affectation des individus de données aux classes sont réalisées pendant les itérations successives. Algorithmes de classification non supervisée L’algorithme k-Means
  • 17. La Figure 1 montre un exemple de déroulement de l’algorithme k-Means sur un nuage d’objets bidimensionnels, avec k = 3.
  • 18.  Comme avantages de cet algorithme, on cite: • Il s’adapte bien pour des populations de tailles importantes ; • Il est relativement efficace ; • Il est indépendant de l’ordre d’arrivée des données.  Parmi les inconvénients de cet algorithme, on cite : • Il est applicable seulement dans le cas où la moyenne des objets est définie ; • Le nombre de classes k, doit être spécifié à priori ; • Il est sensible aux objets isolés (bruits) ; • Il n’est pas adapté pour découvrir de tailles et formes différentes.
  • 19. 1.2. L’algorithme k-Medoids Il est introduit par Kaufman et Rousseew. L’esquisse de l’algorithme k-Medoids ressemble à celle de k-Means sauf que, contrairement à l’algorithme k-Means où la classe est représentée par une valeur moyenne, le centroide, dans l’algorithme k-Medoids, une classe est représentée par un de ses objets prédominants, le médoide. L’algorithme k-Medoids utilise une fonction objectif qui définit la distance moyenne entre un objet et le médoide. La Figure 2 est une illustration du déroulement de l’algorithme k-Medoids sur un nuage d’objets bidimensionnels avec k = 3.
  • 20. La Figure 2 est une illustration du déroulement de l’algorithme k-Medoids sur un nuage d’objets bidimensionnels avec k = 3.  Comme avantages de cet algorithme par rapport à k-Means, on cite : • Il s’adapte à n'importe quel type de données ; • Il est insensible aux objets isolés.
  • 21. 1. Les arbres de décision permet de classifier une population d’individus selon les valeurs de leurs attributs. C’est une représentation graphique de la procédure de classification où : - Une feuille indique une classe ; - Un noeud spécifie un test que doit subir un certain attribut ; - Chaque branche correspond à une valeur possible de l’attribut Pour classifier un nouvel objet, on suit le chemin partant de la racine (noeud initial) à une feuille en effectuant les différents tests d’attributs à chaque noeud.
  • 22.
  • 23. Domaines d’application Ouverte à tout domaine susceptible de utiliser une masse importante de données. - Sociétés commerciales : L’étude de tendance - Grandes surfaces : L’analyse du ticket de la supérette - Secteur bancaire : Etude des caractéristiques des clients permet de discriminer les clients à risque élevé - Secteur d’assurances : Dans le secteur d’assurances, le data mining est utilisé pour la détection de fraudes et leur anticipation ; - Secteur médical :Les études sur les associations de médicament permettent, entre autres, de révéler les anomalies de prescription. - Secteur de l’éducation : Le data mining est employé dans les établissements scolaires pour améliorer la qualité d’enseignement. Par exemple, répartir les élèves ayant une grande capacité d’assimilation dans la même classe.
  • 24. Difficultés de data mining Qualité des données : 60% à 70% du temps de travail dans un projet de data mining est consacré au prétraitement des données (sélection, correction, transcodage, chargement…), qui influe sur le temps global du projet. Choix des algorithmes et de l'itinéraire du travail : Des algorithmes doivent être choisis en fonction du problème traité. Il faut que l'expert en datamining soit aussi un animateur et possède des qualités que l'on trouve rarement ensemble chez la même personne : rigueur dans la méthode, ouverture et chaleur humaine dans la communication. Evaluation des résultats : Il est important d’évaluer le model. Ceci permettra d’être certain qu’il permet d’atteindre les objectifs fixés. A la fin, une décision sur l’utilisation des résultats fournis par les outils de data mining devrait être prise. (Car un facteur important peut ne pas etre pris en considération)
  • 25. Conclusion Les techniques de data mining ne font pas état des hypothèses fixées à priori, comme le font les statistiques traditionnelles, mais cherchent à ‘‘établir’’ un modèle par l’exploration des bases de données. Le data mining fait passer de l’analyse confirmatoire à l’analyse exploratoire. Le choix d’un algorithme approprié dépend fortement du contexte de son application, la nature des données et les ressources disponibles. Une analyse attentive des données aide à bien choisir le meilleur algorithme à partir du moment qu’il n’existe pas un algorithme qui peut répondre à toutes les demandes.

Notes de l'éditeur

  1. Data mining constitue une étape d’un processus ECD
  2. Des regle pour donner un sens au données située dans des base de données
  3. repose sur le regroupement des objets de telle manière que ceux qui appartiennent à la même classe soient fortement similaires entre eux et fortement dissimilaires avec les objets qui appartiennent aux autres classes. Cette tâche précède, généralement, la phase de clustering.