SlideShare une entreprise Scribd logo
Module : Analyse de données
<< Data mining >>
KENOUCHE TAKFARINAS
Année 2012 - 2013
Les technologies de data mining permettent, grâce aux processus d’intelligence
artificielle, de traiter des masses gigantesques de données afin d’en extraire
l’information cruciale (connaissance), celle qui sera déterminante pour une prise de
décision efficace.
Introduction
Le data mining est apparu au début des années 1990
Le processus ECD
Le data mining est une étape d’une chaine de traitement plus complète, le processus
d’extraction de connaissances à partir de données (ECD).
Qu’est-ce que l’ECD ?
Quels sont ses étapes ?
1.Définition
L’extraction de Connaissances à partir de Données (ECD) désigne tout le cycle de
découverte d'informations ou de connaissances dans les bases de données. Il regroupe
donc toutes les opérations à effectuer pour extraire de l'information de ces données.
2. Etapes du processus ECD
L’ECD est un processus complexe qui se déroule suivant une suite d’opérations.
Peut être vu comme un processus en sept étapes :
1. Positionnement du problème ;
2. Collecte et sélection des données ;
3. Nettoyage des données ;
4. Actions sur les attributs ;
5. Construction du modèle ;
6. Evaluation des résultats ;
7. Intégration de la connaissance.
2. Etapes du processus ECD
Data mining
Définition
Le data mining (ou fouille de données) est l’une des étapes du processus ECD.
Cette étape regroupe l’ensemble des méthodes et techniques destinées à l’exploration
des bases de données de façon automatique, ou semi-automatique, pour détecter :
-des règles,
-des associations,
-des tendances nouvelles et imprévisibles,
-des structures particulières restituant l’essentiel de l’information utile.
Il s’agit d’un processus de sélection, exploration, modification et modélisation de
grandes bases de données afin de découvrir des relations entre les données.
Principe
Le principe derrière le data mining est de faire sortir à partir de données brutes des
inférences (déductions) que l'expérimentateur peut ne pas soupçonner, et dont il
aura à valider la pertinence à l’aide des techniques et des algorithmes.
Tâches de data mining
Le data mining est un ensemble de techniques complémentaires dédiées à différentes
tâches. Selon, ces technique sont partagées, principalement, entre la classification
automatique et la recherche d’associations.
La classification automatique supervisée ( clustering):
examiner les caractéristiques d’un objet nouvellement présenté afin de l’affecter à
une classe d’un ensemble prédéfini.
Le modèle généré permet de prédire ou estimer la valeur manquante ou erronée en
utilisant le modèle de classification comme référence.
La classification automatique non supervisée:
vise à identifier des ensembles d’éléments qui partagent certaines similarités. Elle
ne se base pas sur des classes prédéfinies.
Les règles d’association :
C’est une tâche qui permet de découvrir les rapports de lien qui peuvent exister dans
une base de données. Ces liens sont généralement exprimés sous la forme ‘‘ A è B ’’
qui signifie que la présence de A implique la présence de B (avec une certaine
probabilité).
Exemple : Un étudiant qui réussit en mathématiques réussira en algorithmique dans
80% des cas.
Techniques de data mining
 Les techniques de data mining diffèrent en fonction des besoins de l’utilisateur,
(selon les taches à effectuer).
 Chacune des tâches regroupe une multitude d’algorithmes pour construire le
modèle auquel elle est associée.
 Selon, les dix algorithmes les plus populaires dans le domaine de data mining
sont, dans l’ordre: C4.5, k-Means, SVM, Apriori, EM, PageRank, AdaBoost, k-NN,
Naive Bayes et CART.
 Ces algorithmes sont classifiés, selon la tâche associée, comme suit :
- Algorithmes de construction des arbres de décision : CART, C4.5 ;
- Algorithmes de classification non supervisée : k-Means, EM ;
- Algorithmes de classification supervisée : k-NN, SVM, Naive Bayes et AdaBoost ;
- Algorithme d’extraction des règles d’association : Apriori ;
- Algorithme de classification automatique des pages Web : PageRank.
Description de quelques algorithme
 L’algorithme k-Means a été introduit par J.MacQuenn et mis en oeuvre sous sa
forme actuelle par E.Forgy.
 Il est le plus utilisé dans les applications scientifiques et industrielles car il est le
plus simple et le plus rapide.
• chaque classe est représentée par la moyenne (centroide).
• k-Means est un algorithme itératif.
• Il commence avec un ensemble de k individus de référence choisis de façon
aléatoire.
• Les individus de données sont ainsi partitionnés dans k classes ; un individu
appartient à une classe si le centre de cette classe est le plus proche de lui (en
terme de distance).
• La mise à jour des centroides et l’affectation des individus de données aux classes
sont réalisées pendant les itérations successives.
Algorithmes de classification non supervisée L’algorithme k-Means
La Figure 1 montre un exemple de déroulement de l’algorithme k-Means
sur un nuage d’objets bidimensionnels, avec k = 3.
 Comme avantages de cet algorithme, on cite:
• Il s’adapte bien pour des populations de tailles importantes ;
• Il est relativement efficace ;
• Il est indépendant de l’ordre d’arrivée des données.
 Parmi les inconvénients de cet algorithme, on cite :
• Il est applicable seulement dans le cas où la moyenne des objets est définie ;
• Le nombre de classes k, doit être spécifié à priori ;
• Il est sensible aux objets isolés (bruits) ;
• Il n’est pas adapté pour découvrir de tailles et formes différentes.
1.2. L’algorithme k-Medoids
Il est introduit par Kaufman et Rousseew. L’esquisse de l’algorithme k-Medoids
ressemble à celle de k-Means sauf que, contrairement à l’algorithme k-Means où
la classe est représentée par une valeur moyenne, le centroide, dans l’algorithme
k-Medoids, une classe est représentée par un de ses objets prédominants, le
médoide.
L’algorithme k-Medoids utilise une fonction objectif qui définit la distance
moyenne entre un objet et le médoide.
La Figure 2 est une illustration du déroulement de l’algorithme k-Medoids sur un
nuage d’objets bidimensionnels avec k = 3.
La Figure 2 est une illustration du déroulement de l’algorithme k-Medoids sur
un nuage d’objets bidimensionnels avec k = 3.
 Comme avantages de cet algorithme par rapport à k-Means, on cite :
• Il s’adapte à n'importe quel type de données ;
• Il est insensible aux objets isolés.
1. Les arbres de décision
permet de classifier une population d’individus selon les valeurs de leurs attributs.
C’est une représentation graphique de la procédure de classification où :
- Une feuille indique une classe ;
- Un noeud spécifie un test que doit subir un certain attribut ;
- Chaque branche correspond à une valeur possible de l’attribut
Pour classifier un nouvel objet, on suit le chemin partant de la racine (noeud
initial) à une feuille en effectuant les différents tests d’attributs à chaque noeud.
Domaines d’application
Ouverte à tout domaine susceptible de utiliser une masse importante de données.
- Sociétés commerciales : L’étude de tendance
- Grandes surfaces : L’analyse du ticket de la supérette
- Secteur bancaire : Etude des caractéristiques des clients permet de discriminer
les clients à risque élevé
- Secteur d’assurances : Dans le secteur d’assurances, le data mining est utilisé
pour la détection de fraudes et leur anticipation ;
- Secteur médical :Les études sur les associations de médicament permettent,
entre autres, de révéler les anomalies de prescription.
- Secteur de l’éducation : Le data mining est employé dans les établissements
scolaires pour améliorer la qualité d’enseignement. Par exemple, répartir les élèves
ayant une grande capacité d’assimilation dans la même classe.
Difficultés de data mining
Qualité des données :
60% à 70% du temps de travail dans un projet de data mining est consacré au
prétraitement des données (sélection, correction, transcodage, chargement…), qui
influe sur le temps global du projet.
Choix des algorithmes et de l'itinéraire du travail :
Des algorithmes doivent être choisis en fonction du problème traité. Il faut que
l'expert en datamining soit aussi un animateur et possède des qualités que l'on trouve
rarement ensemble chez la même personne : rigueur dans la méthode, ouverture et
chaleur humaine dans la communication.
Evaluation des résultats :
Il est important d’évaluer le model. Ceci permettra d’être certain qu’il permet
d’atteindre les objectifs fixés.
A la fin, une décision sur l’utilisation des résultats fournis par les outils de data
mining devrait être prise. (Car un facteur important peut ne pas etre pris en
considération)
Conclusion
Les techniques de data mining ne font pas état des hypothèses fixées à priori,
comme le font les statistiques traditionnelles, mais cherchent à ‘‘établir’’ un modèle
par l’exploration des bases de données. Le data mining fait passer de l’analyse
confirmatoire à l’analyse exploratoire.
Le choix d’un algorithme approprié dépend fortement du contexte de son
application, la nature des données et les ressources disponibles. Une analyse
attentive des données aide à bien choisir le meilleur algorithme à partir du moment
qu’il n’existe pas un algorithme qui peut répondre à toutes les demandes.

Contenu connexe

Tendances

Data mining - Associativité
Data mining - AssociativitéData mining - Associativité
Data mining - Associativité
Mohamed Heny SELMI
 
Chp1 - Introduction à l'Informatique Décisionnelle
Chp1 - Introduction à l'Informatique DécisionnelleChp1 - Introduction à l'Informatique Décisionnelle
Chp1 - Introduction à l'Informatique Décisionnelle
Lilia Sfaxi
 
Apprentissage supervisé.pdf
Apprentissage supervisé.pdfApprentissage supervisé.pdf
Apprentissage supervisé.pdf
hanamettali
 
Rapport data-mining
Rapport data-miningRapport data-mining
Rapport data-mining
Sawsen Larbi
 
Exposé segmentation
Exposé segmentationExposé segmentation
Exposé segmentation
Donia Hammami
 
Data mining - ACP Analyse en Composantes Principales
Data mining - ACP Analyse en Composantes PrincipalesData mining - ACP Analyse en Composantes Principales
Data mining - ACP Analyse en Composantes Principales
Mohamed Heny SELMI
 
Arbre de décision
Arbre de décisionArbre de décision
Arbre de décision
Yassine Badri
 
réseaux de neurones artificiels
réseaux de neurones artificiels réseaux de neurones artificiels
réseaux de neurones artificiels
Oussama Werfelli
 
Data mining - Segmentation(k-means, cah)
Data mining - Segmentation(k-means, cah)Data mining - Segmentation(k-means, cah)
Data mining - Segmentation(k-means, cah)
Mohamed Heny SELMI
 
Les arbres de décisions
Les arbres de décisionsLes arbres de décisions
Les arbres de décisions
Mariem Chaaben
 
Intelligence Artificielle - Algorithmes de recherche
Intelligence Artificielle - Algorithmes de rechercheIntelligence Artificielle - Algorithmes de recherche
Intelligence Artificielle - Algorithmes de recherche
Mohamed Heny SELMI
 
Le Reseau De Neurones
Le Reseau De NeuronesLe Reseau De Neurones
Le Reseau De Neuronesguestf80d95
 
Introduction au Machine Learning
Introduction au Machine LearningIntroduction au Machine Learning
Introduction au Machine Learning
Mathieu Goeminne
 
Exercice arbre de décision
Exercice arbre de décision Exercice arbre de décision
Exercice arbre de décision
Yassine Badri
 
Intelligence Artificielle - Systèmes experts
Intelligence Artificielle - Systèmes expertsIntelligence Artificielle - Systèmes experts
Intelligence Artificielle - Systèmes experts
Mohamed Heny SELMI
 
Réseaux de neurones récurrents et LSTM
Réseaux de neurones récurrents et LSTMRéseaux de neurones récurrents et LSTM
Réseaux de neurones récurrents et LSTM
Jaouad Dabounou
 
5.5 Clustering
5.5 Clustering5.5 Clustering
5.5 Clustering
Boris Guarisma
 
Chp2 - Les Entrepôts de Données
Chp2 - Les Entrepôts de DonnéesChp2 - Les Entrepôts de Données
Chp2 - Les Entrepôts de Données
Lilia Sfaxi
 

Tendances (20)

Data mining - Associativité
Data mining - AssociativitéData mining - Associativité
Data mining - Associativité
 
Chp1 - Introduction à l'Informatique Décisionnelle
Chp1 - Introduction à l'Informatique DécisionnelleChp1 - Introduction à l'Informatique Décisionnelle
Chp1 - Introduction à l'Informatique Décisionnelle
 
Apprentissage supervisé.pdf
Apprentissage supervisé.pdfApprentissage supervisé.pdf
Apprentissage supervisé.pdf
 
Rapport data-mining
Rapport data-miningRapport data-mining
Rapport data-mining
 
Exposé segmentation
Exposé segmentationExposé segmentation
Exposé segmentation
 
Data mining - ACP Analyse en Composantes Principales
Data mining - ACP Analyse en Composantes PrincipalesData mining - ACP Analyse en Composantes Principales
Data mining - ACP Analyse en Composantes Principales
 
Algorithme knn
Algorithme knnAlgorithme knn
Algorithme knn
 
Arbre de décision
Arbre de décisionArbre de décision
Arbre de décision
 
réseaux de neurones artificiels
réseaux de neurones artificiels réseaux de neurones artificiels
réseaux de neurones artificiels
 
Data mining - Segmentation(k-means, cah)
Data mining - Segmentation(k-means, cah)Data mining - Segmentation(k-means, cah)
Data mining - Segmentation(k-means, cah)
 
Les arbres de décisions
Les arbres de décisionsLes arbres de décisions
Les arbres de décisions
 
Intelligence Artificielle - Algorithmes de recherche
Intelligence Artificielle - Algorithmes de rechercheIntelligence Artificielle - Algorithmes de recherche
Intelligence Artificielle - Algorithmes de recherche
 
Le Reseau De Neurones
Le Reseau De NeuronesLe Reseau De Neurones
Le Reseau De Neurones
 
Introduction au Machine Learning
Introduction au Machine LearningIntroduction au Machine Learning
Introduction au Machine Learning
 
Exercice arbre de décision
Exercice arbre de décision Exercice arbre de décision
Exercice arbre de décision
 
clustering
clusteringclustering
clustering
 
Intelligence Artificielle - Systèmes experts
Intelligence Artificielle - Systèmes expertsIntelligence Artificielle - Systèmes experts
Intelligence Artificielle - Systèmes experts
 
Réseaux de neurones récurrents et LSTM
Réseaux de neurones récurrents et LSTMRéseaux de neurones récurrents et LSTM
Réseaux de neurones récurrents et LSTM
 
5.5 Clustering
5.5 Clustering5.5 Clustering
5.5 Clustering
 
Chp2 - Les Entrepôts de Données
Chp2 - Les Entrepôts de DonnéesChp2 - Les Entrepôts de Données
Chp2 - Les Entrepôts de Données
 

Similaire à Présentation sur le Data Mining

Introduction au Machine Learning
Introduction au Machine Learning Introduction au Machine Learning
Introduction au Machine Learning
Novagen Conseil
 
test
testtest
test
dehbimoad
 
La classification des Emails utilisant le modèle MapReduce
La classification des Emails utilisant le modèle MapReduce La classification des Emails utilisant le modèle MapReduce
La classification des Emails utilisant le modèle MapReduce
Nour El Houda Megherbi
 
Comment le Data et Deep Learning révolutionnent la science
Comment le Data et Deep Learning révolutionnent la scienceComment le Data et Deep Learning révolutionnent la science
Comment le Data et Deep Learning révolutionnent la science
habib200
 
DataMining.pdf
DataMining.pdfDataMining.pdf
DataMining.pdf
CoulibalyYoussoufngo
 
Séminaire IA & VA- Dominique Gruyer, Univ Gustave Eiffel
Séminaire IA & VA- Dominique Gruyer, Univ Gustave EiffelSéminaire IA & VA- Dominique Gruyer, Univ Gustave Eiffel
Séminaire IA & VA- Dominique Gruyer, Univ Gustave Eiffel
Mahdi Zarg Ayouna
 
CSI_COURS_diapo_part1...............ppsx
CSI_COURS_diapo_part1...............ppsxCSI_COURS_diapo_part1...............ppsx
CSI_COURS_diapo_part1...............ppsx
FUR7
 
Cours datamining
Cours dataminingCours datamining
Cours datamining
sarah Benmerzouk
 
Rapport-du-projet CNN.docx
Rapport-du-projet CNN.docxRapport-du-projet CNN.docx
Rapport-du-projet CNN.docx
khalil Ismail
 
Apprentissage automatique avec RapidMiner
Apprentissage automatique avec RapidMinerApprentissage automatique avec RapidMiner
Apprentissage automatique avec RapidMiner
Majdi Hannachi
 
Automatic Subspace Clustering of High Dimensional Data for Data Mining Applic...
Automatic Subspace Clustering of High Dimensional Data for DataMining Applic...Automatic Subspace Clustering of High Dimensional Data for DataMining Applic...
Automatic Subspace Clustering of High Dimensional Data for Data Mining Applic...
Hajer Trabelsi
 
Détection communautaire dans des réseaux complexe a l'aide de l'algorithme gé...
Détection communautaire dans des réseaux complexe a l'aide de l'algorithme gé...Détection communautaire dans des réseaux complexe a l'aide de l'algorithme gé...
Détection communautaire dans des réseaux complexe a l'aide de l'algorithme gé...
AHMEDBELGHITH4
 
Apprentissage Automatique et moteurs de recherche
Apprentissage Automatique et moteurs de rechercheApprentissage Automatique et moteurs de recherche
Apprentissage Automatique et moteurs de recherche
Philippe YONNET
 
Management des risques ibtissam el hassani-chapitre3 : MADS/MOSAR
Management des risques   ibtissam el hassani-chapitre3 : MADS/MOSARManagement des risques   ibtissam el hassani-chapitre3 : MADS/MOSAR
Management des risques ibtissam el hassani-chapitre3 : MADS/MOSAR
ibtissam el hassani
 
Analyzing a churn data set
Analyzing a churn data set Analyzing a churn data set
Analyzing a churn data set
Rasoul Baharifard
 
Démystifions le machine learning avec spark par David Martin pour le Salon B...
Démystifions le machine learning avec spark par David Martin pour le Salon B...Démystifions le machine learning avec spark par David Martin pour le Salon B...
Démystifions le machine learning avec spark par David Martin pour le Salon B...
Ippon
 
Data mining for the evaluation of AODV and DSDV protocols in AD-HOC topologies
Data mining for the evaluation of AODV and DSDV protocols in AD-HOC topologiesData mining for the evaluation of AODV and DSDV protocols in AD-HOC topologies
Data mining for the evaluation of AODV and DSDV protocols in AD-HOC topologies
Emna Trabelsi
 
Rapport final-2
Rapport final-2Rapport final-2
Rapport final-2
IMANE ERRHIF
 
Debuteraveclesmls
DebuteraveclesmlsDebuteraveclesmls

Similaire à Présentation sur le Data Mining (20)

Introduction au Machine Learning
Introduction au Machine Learning Introduction au Machine Learning
Introduction au Machine Learning
 
test
testtest
test
 
La classification des Emails utilisant le modèle MapReduce
La classification des Emails utilisant le modèle MapReduce La classification des Emails utilisant le modèle MapReduce
La classification des Emails utilisant le modèle MapReduce
 
Comment le Data et Deep Learning révolutionnent la science
Comment le Data et Deep Learning révolutionnent la scienceComment le Data et Deep Learning révolutionnent la science
Comment le Data et Deep Learning révolutionnent la science
 
DataMining.pdf
DataMining.pdfDataMining.pdf
DataMining.pdf
 
Séminaire IA & VA- Dominique Gruyer, Univ Gustave Eiffel
Séminaire IA & VA- Dominique Gruyer, Univ Gustave EiffelSéminaire IA & VA- Dominique Gruyer, Univ Gustave Eiffel
Séminaire IA & VA- Dominique Gruyer, Univ Gustave Eiffel
 
CSI_COURS_diapo_part1...............ppsx
CSI_COURS_diapo_part1...............ppsxCSI_COURS_diapo_part1...............ppsx
CSI_COURS_diapo_part1...............ppsx
 
Cours datamining
Cours dataminingCours datamining
Cours datamining
 
Rapport-du-projet CNN.docx
Rapport-du-projet CNN.docxRapport-du-projet CNN.docx
Rapport-du-projet CNN.docx
 
Apprentissage automatique avec RapidMiner
Apprentissage automatique avec RapidMinerApprentissage automatique avec RapidMiner
Apprentissage automatique avec RapidMiner
 
Automatic Subspace Clustering of High Dimensional Data for Data Mining Applic...
Automatic Subspace Clustering of High Dimensional Data for DataMining Applic...Automatic Subspace Clustering of High Dimensional Data for DataMining Applic...
Automatic Subspace Clustering of High Dimensional Data for Data Mining Applic...
 
Détection communautaire dans des réseaux complexe a l'aide de l'algorithme gé...
Détection communautaire dans des réseaux complexe a l'aide de l'algorithme gé...Détection communautaire dans des réseaux complexe a l'aide de l'algorithme gé...
Détection communautaire dans des réseaux complexe a l'aide de l'algorithme gé...
 
Apprentissage Automatique et moteurs de recherche
Apprentissage Automatique et moteurs de rechercheApprentissage Automatique et moteurs de recherche
Apprentissage Automatique et moteurs de recherche
 
Management des risques ibtissam el hassani-chapitre3 : MADS/MOSAR
Management des risques   ibtissam el hassani-chapitre3 : MADS/MOSARManagement des risques   ibtissam el hassani-chapitre3 : MADS/MOSAR
Management des risques ibtissam el hassani-chapitre3 : MADS/MOSAR
 
Analyzing a churn data set
Analyzing a churn data set Analyzing a churn data set
Analyzing a churn data set
 
Démystifions le machine learning avec spark par David Martin pour le Salon B...
Démystifions le machine learning avec spark par David Martin pour le Salon B...Démystifions le machine learning avec spark par David Martin pour le Salon B...
Démystifions le machine learning avec spark par David Martin pour le Salon B...
 
mars2005_BD
mars2005_BDmars2005_BD
mars2005_BD
 
Data mining for the evaluation of AODV and DSDV protocols in AD-HOC topologies
Data mining for the evaluation of AODV and DSDV protocols in AD-HOC topologiesData mining for the evaluation of AODV and DSDV protocols in AD-HOC topologies
Data mining for the evaluation of AODV and DSDV protocols in AD-HOC topologies
 
Rapport final-2
Rapport final-2Rapport final-2
Rapport final-2
 
Debuteraveclesmls
DebuteraveclesmlsDebuteraveclesmls
Debuteraveclesmls
 

Dernier

Comprendre le vote aux élections européennes du 9 juin 2024
Comprendre le vote aux élections européennes du 9 juin 2024Comprendre le vote aux élections européennes du 9 juin 2024
Comprendre le vote aux élections européennes du 9 juin 2024
contact Elabe
 
Webinaire Qui sont les jeunes installés avec un bac +5 ?
Webinaire Qui sont les jeunes installés avec un bac +5 ?Webinaire Qui sont les jeunes installés avec un bac +5 ?
Webinaire Qui sont les jeunes installés avec un bac +5 ?
Institut de l'Elevage - Idele
 
Estimations ELABE BFMTV ABSTENTION élections européennes 2024
Estimations ELABE BFMTV ABSTENTION élections européennes 2024Estimations ELABE BFMTV ABSTENTION élections européennes 2024
Estimations ELABE BFMTV ABSTENTION élections européennes 2024
contact Elabe
 
Productivité et politique industrielles: deux défis à relever conjointement
Productivité et politique industrielles: deux défis à relever conjointementProductivité et politique industrielles: deux défis à relever conjointement
Productivité et politique industrielles: deux défis à relever conjointement
La Fabrique de l'industrie
 
Barometre_de_l_Economie_S1_2024_-_BAT__1_.pdf
Barometre_de_l_Economie_S1_2024_-_BAT__1_.pdfBarometre_de_l_Economie_S1_2024_-_BAT__1_.pdf
Barometre_de_l_Economie_S1_2024_-_BAT__1_.pdf
Paperjam_redaction
 
Estimation élections européennes 2024 ELABE
Estimation élections européennes 2024 ELABEEstimation élections européennes 2024 ELABE
Estimation élections européennes 2024 ELABE
contact Elabe
 
Deuxième actualisation estimation élections européennes 2024
Deuxième actualisation estimation élections européennes 2024Deuxième actualisation estimation élections européennes 2024
Deuxième actualisation estimation élections européennes 2024
contact Elabe
 
Actualisation estimation élections européennes 2024
Actualisation estimation élections européennes 2024Actualisation estimation élections européennes 2024
Actualisation estimation élections européennes 2024
contact Elabe
 
Les Français et les élections européennes - 9ème vague
Les Français et les élections européennes - 9ème vagueLes Français et les élections européennes - 9ème vague
Les Français et les élections européennes - 9ème vague
contact Elabe
 
Webinaire_les aides aux investissements.pptx
Webinaire_les aides aux investissements.pptxWebinaire_les aides aux investissements.pptx
Webinaire_les aides aux investissements.pptx
Institut de l'Elevage - Idele
 

Dernier (10)

Comprendre le vote aux élections européennes du 9 juin 2024
Comprendre le vote aux élections européennes du 9 juin 2024Comprendre le vote aux élections européennes du 9 juin 2024
Comprendre le vote aux élections européennes du 9 juin 2024
 
Webinaire Qui sont les jeunes installés avec un bac +5 ?
Webinaire Qui sont les jeunes installés avec un bac +5 ?Webinaire Qui sont les jeunes installés avec un bac +5 ?
Webinaire Qui sont les jeunes installés avec un bac +5 ?
 
Estimations ELABE BFMTV ABSTENTION élections européennes 2024
Estimations ELABE BFMTV ABSTENTION élections européennes 2024Estimations ELABE BFMTV ABSTENTION élections européennes 2024
Estimations ELABE BFMTV ABSTENTION élections européennes 2024
 
Productivité et politique industrielles: deux défis à relever conjointement
Productivité et politique industrielles: deux défis à relever conjointementProductivité et politique industrielles: deux défis à relever conjointement
Productivité et politique industrielles: deux défis à relever conjointement
 
Barometre_de_l_Economie_S1_2024_-_BAT__1_.pdf
Barometre_de_l_Economie_S1_2024_-_BAT__1_.pdfBarometre_de_l_Economie_S1_2024_-_BAT__1_.pdf
Barometre_de_l_Economie_S1_2024_-_BAT__1_.pdf
 
Estimation élections européennes 2024 ELABE
Estimation élections européennes 2024 ELABEEstimation élections européennes 2024 ELABE
Estimation élections européennes 2024 ELABE
 
Deuxième actualisation estimation élections européennes 2024
Deuxième actualisation estimation élections européennes 2024Deuxième actualisation estimation élections européennes 2024
Deuxième actualisation estimation élections européennes 2024
 
Actualisation estimation élections européennes 2024
Actualisation estimation élections européennes 2024Actualisation estimation élections européennes 2024
Actualisation estimation élections européennes 2024
 
Les Français et les élections européennes - 9ème vague
Les Français et les élections européennes - 9ème vagueLes Français et les élections européennes - 9ème vague
Les Français et les élections européennes - 9ème vague
 
Webinaire_les aides aux investissements.pptx
Webinaire_les aides aux investissements.pptxWebinaire_les aides aux investissements.pptx
Webinaire_les aides aux investissements.pptx
 

Présentation sur le Data Mining

  • 1. Module : Analyse de données << Data mining >> KENOUCHE TAKFARINAS Année 2012 - 2013
  • 2. Les technologies de data mining permettent, grâce aux processus d’intelligence artificielle, de traiter des masses gigantesques de données afin d’en extraire l’information cruciale (connaissance), celle qui sera déterminante pour une prise de décision efficace. Introduction Le data mining est apparu au début des années 1990
  • 3. Le processus ECD Le data mining est une étape d’une chaine de traitement plus complète, le processus d’extraction de connaissances à partir de données (ECD). Qu’est-ce que l’ECD ? Quels sont ses étapes ?
  • 4. 1.Définition L’extraction de Connaissances à partir de Données (ECD) désigne tout le cycle de découverte d'informations ou de connaissances dans les bases de données. Il regroupe donc toutes les opérations à effectuer pour extraire de l'information de ces données.
  • 5. 2. Etapes du processus ECD L’ECD est un processus complexe qui se déroule suivant une suite d’opérations. Peut être vu comme un processus en sept étapes : 1. Positionnement du problème ; 2. Collecte et sélection des données ; 3. Nettoyage des données ; 4. Actions sur les attributs ; 5. Construction du modèle ; 6. Evaluation des résultats ; 7. Intégration de la connaissance.
  • 6. 2. Etapes du processus ECD
  • 8. Définition Le data mining (ou fouille de données) est l’une des étapes du processus ECD. Cette étape regroupe l’ensemble des méthodes et techniques destinées à l’exploration des bases de données de façon automatique, ou semi-automatique, pour détecter : -des règles, -des associations, -des tendances nouvelles et imprévisibles, -des structures particulières restituant l’essentiel de l’information utile. Il s’agit d’un processus de sélection, exploration, modification et modélisation de grandes bases de données afin de découvrir des relations entre les données.
  • 9. Principe Le principe derrière le data mining est de faire sortir à partir de données brutes des inférences (déductions) que l'expérimentateur peut ne pas soupçonner, et dont il aura à valider la pertinence à l’aide des techniques et des algorithmes.
  • 10. Tâches de data mining Le data mining est un ensemble de techniques complémentaires dédiées à différentes tâches. Selon, ces technique sont partagées, principalement, entre la classification automatique et la recherche d’associations.
  • 11. La classification automatique supervisée ( clustering): examiner les caractéristiques d’un objet nouvellement présenté afin de l’affecter à une classe d’un ensemble prédéfini. Le modèle généré permet de prédire ou estimer la valeur manquante ou erronée en utilisant le modèle de classification comme référence. La classification automatique non supervisée: vise à identifier des ensembles d’éléments qui partagent certaines similarités. Elle ne se base pas sur des classes prédéfinies.
  • 12. Les règles d’association : C’est une tâche qui permet de découvrir les rapports de lien qui peuvent exister dans une base de données. Ces liens sont généralement exprimés sous la forme ‘‘ A è B ’’ qui signifie que la présence de A implique la présence de B (avec une certaine probabilité). Exemple : Un étudiant qui réussit en mathématiques réussira en algorithmique dans 80% des cas.
  • 13. Techniques de data mining  Les techniques de data mining diffèrent en fonction des besoins de l’utilisateur, (selon les taches à effectuer).  Chacune des tâches regroupe une multitude d’algorithmes pour construire le modèle auquel elle est associée.  Selon, les dix algorithmes les plus populaires dans le domaine de data mining sont, dans l’ordre: C4.5, k-Means, SVM, Apriori, EM, PageRank, AdaBoost, k-NN, Naive Bayes et CART.
  • 14.  Ces algorithmes sont classifiés, selon la tâche associée, comme suit : - Algorithmes de construction des arbres de décision : CART, C4.5 ; - Algorithmes de classification non supervisée : k-Means, EM ; - Algorithmes de classification supervisée : k-NN, SVM, Naive Bayes et AdaBoost ; - Algorithme d’extraction des règles d’association : Apriori ; - Algorithme de classification automatique des pages Web : PageRank.
  • 16.  L’algorithme k-Means a été introduit par J.MacQuenn et mis en oeuvre sous sa forme actuelle par E.Forgy.  Il est le plus utilisé dans les applications scientifiques et industrielles car il est le plus simple et le plus rapide. • chaque classe est représentée par la moyenne (centroide). • k-Means est un algorithme itératif. • Il commence avec un ensemble de k individus de référence choisis de façon aléatoire. • Les individus de données sont ainsi partitionnés dans k classes ; un individu appartient à une classe si le centre de cette classe est le plus proche de lui (en terme de distance). • La mise à jour des centroides et l’affectation des individus de données aux classes sont réalisées pendant les itérations successives. Algorithmes de classification non supervisée L’algorithme k-Means
  • 17. La Figure 1 montre un exemple de déroulement de l’algorithme k-Means sur un nuage d’objets bidimensionnels, avec k = 3.
  • 18.  Comme avantages de cet algorithme, on cite: • Il s’adapte bien pour des populations de tailles importantes ; • Il est relativement efficace ; • Il est indépendant de l’ordre d’arrivée des données.  Parmi les inconvénients de cet algorithme, on cite : • Il est applicable seulement dans le cas où la moyenne des objets est définie ; • Le nombre de classes k, doit être spécifié à priori ; • Il est sensible aux objets isolés (bruits) ; • Il n’est pas adapté pour découvrir de tailles et formes différentes.
  • 19. 1.2. L’algorithme k-Medoids Il est introduit par Kaufman et Rousseew. L’esquisse de l’algorithme k-Medoids ressemble à celle de k-Means sauf que, contrairement à l’algorithme k-Means où la classe est représentée par une valeur moyenne, le centroide, dans l’algorithme k-Medoids, une classe est représentée par un de ses objets prédominants, le médoide. L’algorithme k-Medoids utilise une fonction objectif qui définit la distance moyenne entre un objet et le médoide. La Figure 2 est une illustration du déroulement de l’algorithme k-Medoids sur un nuage d’objets bidimensionnels avec k = 3.
  • 20. La Figure 2 est une illustration du déroulement de l’algorithme k-Medoids sur un nuage d’objets bidimensionnels avec k = 3.  Comme avantages de cet algorithme par rapport à k-Means, on cite : • Il s’adapte à n'importe quel type de données ; • Il est insensible aux objets isolés.
  • 21. 1. Les arbres de décision permet de classifier une population d’individus selon les valeurs de leurs attributs. C’est une représentation graphique de la procédure de classification où : - Une feuille indique une classe ; - Un noeud spécifie un test que doit subir un certain attribut ; - Chaque branche correspond à une valeur possible de l’attribut Pour classifier un nouvel objet, on suit le chemin partant de la racine (noeud initial) à une feuille en effectuant les différents tests d’attributs à chaque noeud.
  • 22.
  • 23. Domaines d’application Ouverte à tout domaine susceptible de utiliser une masse importante de données. - Sociétés commerciales : L’étude de tendance - Grandes surfaces : L’analyse du ticket de la supérette - Secteur bancaire : Etude des caractéristiques des clients permet de discriminer les clients à risque élevé - Secteur d’assurances : Dans le secteur d’assurances, le data mining est utilisé pour la détection de fraudes et leur anticipation ; - Secteur médical :Les études sur les associations de médicament permettent, entre autres, de révéler les anomalies de prescription. - Secteur de l’éducation : Le data mining est employé dans les établissements scolaires pour améliorer la qualité d’enseignement. Par exemple, répartir les élèves ayant une grande capacité d’assimilation dans la même classe.
  • 24. Difficultés de data mining Qualité des données : 60% à 70% du temps de travail dans un projet de data mining est consacré au prétraitement des données (sélection, correction, transcodage, chargement…), qui influe sur le temps global du projet. Choix des algorithmes et de l'itinéraire du travail : Des algorithmes doivent être choisis en fonction du problème traité. Il faut que l'expert en datamining soit aussi un animateur et possède des qualités que l'on trouve rarement ensemble chez la même personne : rigueur dans la méthode, ouverture et chaleur humaine dans la communication. Evaluation des résultats : Il est important d’évaluer le model. Ceci permettra d’être certain qu’il permet d’atteindre les objectifs fixés. A la fin, une décision sur l’utilisation des résultats fournis par les outils de data mining devrait être prise. (Car un facteur important peut ne pas etre pris en considération)
  • 25. Conclusion Les techniques de data mining ne font pas état des hypothèses fixées à priori, comme le font les statistiques traditionnelles, mais cherchent à ‘‘établir’’ un modèle par l’exploration des bases de données. Le data mining fait passer de l’analyse confirmatoire à l’analyse exploratoire. Le choix d’un algorithme approprié dépend fortement du contexte de son application, la nature des données et les ressources disponibles. Une analyse attentive des données aide à bien choisir le meilleur algorithme à partir du moment qu’il n’existe pas un algorithme qui peut répondre à toutes les demandes.

Notes de l'éditeur

  1. Data mining constitue une étape d’un processus ECD
  2. Des regle pour donner un sens au données située dans des base de données
  3. repose sur le regroupement des objets de telle manière que ceux qui appartiennent à la même classe soient fortement similaires entre eux et fortement dissimilaires avec les objets qui appartiennent aux autres classes. Cette tâche précède, généralement, la phase de clustering.