SlideShare une entreprise Scribd logo
1  sur  56
Télécharger pour lire hors ligne
Data Mining
(Partie 1)
Master Big Data & Cloud Computing
2021/2022
Département Informatique
Plan de cours
Partie 1
Partie 2
Data Mining : Techniques & Concepts
Exploration et visualisation des données en R
Partie 3
Manipulation des données en R
Partie 4
Etude de cas (Prédire les proliférations d'algues)
2
Introduction
Extraction d'informations intéressantes a partir de grandes bases de données
C'est analyser les données pour trouver des patrons (patterns) caches en utilisant
des moyens automatiques.
C'est un processus non élémentaire de recherche de relations, corrélations,
dépendances, associations, modèles, structures, tendances, classes (clusters),
segments, lesquelles sont obtenues de grande quantité de données
L'objectif principale de Data Mining c'est de créer un processus automatique qui a
comme point de départ les données y comme finalité l'aide a la prise des décisions.
Qu'est-ce que le Data Mining ?
3
Communications
Pour prédire le comportement des clients afin de proposer des campagnes très
ciblées et pertinentes.
Où le Data Mining est-il utilisé?
4
Assurance
Data Mining aide les compagnies d'assurance a rentabiliser leurs produits et a
promouvoir de nouvelles offres auprès de leurs clients existants ou nouveaux.
Où le Data Mining est-il utilisé?
5
Education
Data Mining permet aux enseignants d'accéder aux données des élevés, de prévoir
leurs niveaux de performance et de trouver des élevés ou des groupes d'élevés qui
nécessitent une attention particulière.
Exemple
les étudiants qui sont faibles en matière de mathématiques.
Où le Data Mining est-il utilisé?
6
Fabrication
Avec l'aide de Data Mining, les fabricants peuvent prévoir l'usure des actifs de
production. Ils peuvent anticiper la maintenance, ce qui les aide a les réduire et a
minimiser les temps d'arret.
Où le Data Mining est-il utilisé?
7
Bancaire
Data Mining aide le secteur banquier a se faire une idée des risques du marché et a
gérer la conformité règlementaire. Il aide les banques a identifier les défaillants
probables afin de décider d'émettre des cartes de crédit, des prêts, etc.
Où le Data Mining est-il utilisé?
8
Vente en details
Les techniques de Data Mining aident les centres commerciaux et les épiceries a
identifier et organiser les articles les plus vendables dans les positions les plus
attentives.
Il aide les propriétaires de magasins a proposer une offre qui encourage les clients a
augmenter leurs dépenses.
Où le Data Mining est-il utilisé?
9
Service providers
Les fournisseurs de services comme les industries de la téléphonie mobile et des
services publics utilisent Data Mining pour prédire les raisons lorsqu'un client quitte
son entreprise.
Ils analysent les détails de la facturation, les interactions du service client, les plaintes
adressées a l'entreprise pour attribuer a chaque client un score de probabilité et des
incitations.
Où le Data Mining est-il utilisé?
10
E-Commerce
Les sites Web de commerce électronique utilisent Data Mining pour proposer des
ventes croisées et des ventes supplémentaires via leurs sites Web. L'un des noms les
plus célèbres est Amazon, qui utilise des techniques d'exploration de données pour
attirer davantage de clients dans sa boutique en ligne.
Où le Data Mining est-il utilisé?
11
Enquête criminelle
Data Mining aide les agences d'enquêtes criminelles a déployer des forces de police
(ou un crime est-il le plus susceptible de se produire et quand?).
Où le Data Mining est-il utilisé?
12
Bio-informatique
Data Mining permet d'exploiter des données biologiques a partir d'énormes jeux de
données rassembles en biologie et en médecine.
Où le Data Mining est-il utilisé?
13
Types de données
Sur quels types de données s'applique le Data Mining?
Fichiers plats
BD's relationnelles
Data warehouses
BD's transactionnelles
BD's avancées
• BD's objet et objet-relationnelles
• BD's spatiales
• Séries temporelles
• BD's Textes et multimédia
• BD's Hétérogènes
• WWW (web mining)
• Capteurs → variables quantitatives,
qualitatives, ordinales
• Texte → Chaîne de caractères
• Parole → Séries temporelles
• Images → données 2D
• Videos → données 2D + temps
• Réseaux → Graphes
• Flux → Logs, coupons. . .
• Etiquettes → information d’évaluation
14
Data Mining vs KDD
KDD (Knowledge Discovery in Databses) : C'est le processus de trouver information et/ou
partons utiles a partir de données.
Data Mining : C'est l'utilisation des algorithmes pour extraire information et/ou partons
comme partie du processus KDD.
15
Data Mining vs KDD
Processuc
KDD
Data Mining: C'est une partie du
processus KDD
Data Mining: Le cœur du processus
d'extraction de connaissances.
16
Data Mining
• Des millions d'individus
• Des centaines de variables
• Données recueillies sans étude
préalable
• Nécessite de calculs rapide
• Corpus d'apprentissage
Statistiques
• Quelques centaines d'individus
• Quelques variables
• Fortes hypothèses sur les lois
statistiques
• Importance accordée au calcul
• Echantillon aléatoire
VS
Data Mining vs Statistiques
17
Data Mining vs
machine Learning
Machine Learning: C'est un sujet de l'intelligence artificielle (IA) qui s'occupe de la façon
d'écrire des programmes qui peuvent apprendre. Dans le Data Mining, Machine Learning est
habituellement utilises pour la prédiction et classification.
18
Data Mining vs
machine Learning
• La différence distinct entre l'apprentissage supervisé et l'apprentissage non- supervisé est le fait
que l'apprentissage non-supervisé cherche a trouver des partitions de modelés par lui-même,
• l'extraction des données est donc descriptive.
• L'apprentissage supervisé est utilisé quand l'utilisateur sait labelliser les informations.
• l'extraction des données est donc prédictive.
Machine Learning
Apprentissage
supervisé
Classification
Apprentissage non
supervisé
Clustering
19
Applications par
domaine
Application du Data Mining
20
Les étapes du
Data Mining
1. Nettoyage des données (erreurs, données manquantes);
2. Transformation éventuelle des données (normalisation, linéarisation...);
3. Explicitation de l'objectif de l'analyse en terme statistique (régression, classification,
clustering...);
4. Choix de la méthode a utiliser;
5. Mise en œuvre informatique
6. Test (validation de la qualité des résultats);
7. Exploitation
21
Les étapes du
Data Mining
1. Nettoyage des données (erreurs, données manquantes);
2. Transformation éventuelle des données (normalisation, linéarisation...);
3. Explicitation de l'objectif de l'analyse en terme statistique (régression, classification,
clustering...);
4. Choix de la méthode a utiliser;
5. Mise en œuvre informatique
6. Test (validation de la qualité des résultats);
7. Exploitation
22
Cycle de vie d'un
projet de Data Mining
1. Apprentissage du domaine d'application :
• Connaissances nécessaires et buts de l'application
2. Création du jeu de données cible :
• sélection des données
3. Nettoyage et prétraitement des données (jusqu'a 60% du travail !)
4. Réduction et transformation des données:
• Trouver les caractéristiques utiles, dimensionnalité/réduction des variables
5. Choix des fonctionnalités Data Mining synthèse, classification régression, association, clustering;
6. Choix des algorithmes;
7. Data Mining : recherche de motifs (patterns) intéressants
8. Evaluation des motifs et représentation des connaissances: visualisation, transformation, élimination des motifs
redondants, etc.
9. Utilisation des connaissances découvertes.
23
Les techniques du Data Mining
LES TECHNIQUES DU Data Mining
Classification Clustering Regréssion
Détection
extérieure
Patterns
séquentiels
Prédiction
Règles
d'association
24
Taches en Data Mining
Data Mining
Predictive
Regression
Classification
Prediction
Analyse des
series
temporelles
Descriptive
Clustering
Régles
d’association
Découvrir
sequences
Analyse
sommaire
Descriptives
consiste à trouver les caractéristiques
générales relatives aux données
fouillées (résumé/synthèse,
Clustering, Règles d’association)
Prédictives
Consiste à utiliser certaines variables
pour prédire les valeurs futures
inconnues de la même variable ou
d’autres variables (Séries temporelles,
Régression, Classification).
25
Les algorithmes
basiques
Les algorithmes basiques du Data Mining
Classication Clustering Régression
Règles
d'association
Decision tree (C4.5)
K-means
CART (Classification
And Regression Tree)
Apriori
Algorithms
SVM (Support Vector
Machine)
K-NN (k-Nearest
Neighbor) EM (Expectation
Maximation)
Naive Bayes
26
Les techniques du Data Mining
Classification
• Cette analyse est utilisée pour extraire des informations importantes et
pertinentes sur les données et les métadonnées. Cette méthode
d'exploration de données permet de classer les données dans différentes
classes.
• Associer des données a des groupes prédéfinis (apprentissage supervisé).
• Trouver des modelés (fonctions) qui décrivent et distinguent des concepts
pour de futures prédictions
Methodes
Arbres de decision;
Regles de classification;
Reseaux neuronaux. tures predictions
27
SVM (Support Vector
Machine )
• La machine a vecteurs de support SVM appelés aussi séparateurs a vaste marge est une technique
d’apprentissage supervise destinée a résoudre des problèmes de classification.
• SVM est une méthode de classification a deux classes qui tente de séparer parfaitement les deux
ensembles d’exemples.
• La méthode cherche alors l’hyperplan qui sépare les ensembles de données, en garantissant que la
marge entre le plus proche de ces données soit maximale.
SVM (Support Vector Machine)
28
SVM (Support Vector
Machine )
L'objectif est de faire une classification a deux classes qui tente de séparer les point positifs des point
négatives dans l’ensemble des exemples.
SVM linéaire cherche alors l’hyperplan qui sépare les deux classes des points. La distance entre le plus
proche des positifs et des négatives soit toujours maximale.
Hyperplan
X2
= +1
= -1
Donnée:
<𝑥!,𝑦!>, i=1,2,3,4….,+∞
𝑥! ∈ 𝑅"
𝑦! ∈ {−1 , +1}
SVM (Support Vector Machine)
29
SVM (Support Vector
Machine)
Tous les hyperplans de 𝑅!
sont paramètres par un vecteur (w) et une constant b.
w*x+b=0
Le but est de trouver un tel hyperplan f(x)=signe(w*x+b), qui classifie correctement ces points.
SVM (Support Vector Machine)
F(x)
X2
= +1
= -1
Donnée:
<𝑥!,𝑦!>, i=1,2,3,4….,+∞
𝑥! ∈ 𝑅"
𝑦! ∈ {−1 , +1}
30
Avantages de
SVM
• Les SVM fournissent généralement des prévisions précises.
• Les SVM déterminant l’hyperplan optimal par les points les plus proches uniquement et non par des
points distants.
• Les points supports donne une bonne indication de la complexité du problème traité
SVM (Support Vector Machine)
31
Inconvénients de
SVM
• Difficulté a identifier les bonnes valeurs des paramètres.
• Problème lorsque les classes sont bruitée (multiplication des ponts supports).
• Difficulté d’interprétations (ex pertinence des variables).
• Le traitement des problèmes multi-classes reste un question ouverte.
SVM (Support Vector Machine)
32
Arbre de décision
C4.5
Les arbres de décision sont des schémas représentant les résultats possibles d’une série de choix
interconnectes. Ils sont des classifier(non des classeurs) qui opérant sur des instances représentées par
des formalismes attribut/valeur.
Les nœuds testent les attributs. Il y a une branche pour chaque valeur testé. Les feuilles servent a
spécifier les catégories (deux ou plus).
Arbre de decision C4.5
Un arbre de décision est
un arbre ou :
Nœud : test sur un attribut
une branche d’un nœud : un test sur un attribut
Feuilles : classe donnée
Problème : choix de l’attribut
33
Arbre de décision
C4.5
L’objectifs de C4.5 est de construire un arbre de décision avec un attribut a chaque nœud. Cet
algorithme a quelques cas de base:
• L’arbre est construit en commençant a la racine de l’arbre
• Trouver l’attribut avec un gain maximale d’information a la base de la fonction entropie
• Placez un nœud enfant pour chaque valeur de cette attribut
• Ajoutez tous les informations de l’ensemble d’apprentissage au nœud enfant correspondant
• Si tous les informations d’un nœud enfant appartiennent a la même classe, mettez la classe en-bas et
remonter dans l’arbre
• Sinon, continuez avec l'étape 2 pendant que les attributs sont affectées
• Quand plus d’abréviations sont affectées, mettez la classification de la majorité des informations a ce nœud.
Arbre de decision C4.5
34
Avantages de
C4.5
• Ils sont faciles a comprendre
• Multi-classe par nature
• De nouvelles options peuvent être ajoutées aux arbres existants.
• Ils permettant de sélectionner l’option la plus appropriée parmi plusieurs.
• Il est facile de les associer a d’autres outils de prise de décision
Arbre de decision C4.5
35
Inconvénients de
C4.5
• Ils sont instables, c,a,d un petit changement dans les données peut entrainer une modification
importante de la structure de l’arbre de décision optimal.
• Les calcules peuvent devenir très complexes.
• Ne gère pas les données en streaming
• Evolutivité dans le temps: si les données évoluent dans le temps, il est nécessaire de relancé la phase
d'apprentissage
Arbre de decision C4.5
36
k-NN: la méthode des
k plus proches voisins
• Le k-NN est un algorithme qui peut server pour la classification supervise.
• Le principe de ce modèle consiste en effet a choisir les k instances les plus proches du point étudié
selon un distance a définir afin den prédire sa classe.
Le k-NN nécessite seulement:
Un entier k
Une base d’apprentissage
Une métrique pour la proximité (la distance euclidienne)
la méthode des k plus proches voisins
37
k-NN: la méthode des
k plus proches voisins
Exemple
Le but est de trouver la valeur de la classe de l’inconnu x
On prend la distance euclidienne et k=5 voisins.
Des 5 plus proches voisins (5-NN), 4 appartiennent a la clase w1 et 1
appartient a la classe w3.
Donc x est affecté a w1 classe majoritaire
la méthode des k plus proches voisins
38
Résumé de
l’algorithme k-NN
Etape 1:
• Définissez la distance ou mesure de similarité de deux échantillons(instances)
Etape 2:
• Déterminer k (généralement impaire pour faciliter le vote)
Etape 3:
• Calculer les distances entre la nouvelle entrée et toutes les données de la base de l’apprentissage
Etape 4:
• Triez la distance et déterminez les k plus proches voisins sur la base de la distance minimale
Etape 5:
• Rassemblez les étiquettes de classe de ces voisins
Etape 6:
• Déterminer l’étiquette de prédiction en fonction de votre classe majoritaire
la méthode des k plus proches voisins
39
Avantages de
k-NN
• Apprentissage rapide
• Méthode facile a comprendre
• Adapte aux domaines ou chaque classe est représenté par plusieurs prototypes
la méthode des k plus proches voisins
40
Inconvénients de
k-NN
• Prédiction lente car il faut revoir tous les exemples a chaque fois
• Méthode gourmande en place mémoire
• Vulnérable aux données de grande dimension
la méthode des k plus proches voisins
41
Naïve Bayes
La classification Naïve Bayésienne est un type de classification probabiliste simple basée sur le
théorème de bayes avec une forte indépendance (naïve).
Le problème de classification peut être formulé:
P(C|X)= probabilité que le tuple X= <X1,……Xk> est dans la classe C
But: affecter a une instance X la classe C telle que P(C|X) est maximale
Naïve Bayes
42
Les techniques du Data Mining
Clustering
• Identifier les données qui se ressemblent. Ce processus aide a comprendre les differences et les
similitudes entre les données. c'est similaire a la classification, sauf que les groupes no sont pas
prédéfinies.
• L'objectif est de décomposer ou de segmenter un ensemble de données ou individus en groupes qui
peuvent être disjoints ou non.
• Les groupes se forment a base de la similarité des données o des individus en certaines variables
• Comme groupes suggères (imposes) par les données, l'expert doit donner une interprétation des
groupes qui se forment.
Méthodes :
• K-means
• Classification hiérarchique (groupes disjoints)
• Classification pyramidale (groupes non disjoints) 43
Qualité d'un
clustering
Une bonne méthode de clustering produira des clusters d'excellente qualité avec :
-Similarité importante intra-classe
-Similarité faible inter-classe
La qualité d'un clustering dépend de :
-La mesure de similarité utilisée
-L'implémentation de la mesure de similarité
La qualité d'une méthode de clustering est évaluée par son habilité a découvrir certains ou tous les
"patterns" cachés.
Les algorithmes basiques du Data Mining
44
Objectifs du
clustering
Les algorithmes basiques du Data Mining
45
Workflow de
Classification supervise
Classification supervisé
Feature
Extraction/Selection
Feature
Extraction/Selection
Classifier
Class 1 Class 2 Class n
Training
Algorithm
Test Data Training data
model
…
46
Important !
• Pas de garantie que l’algorithme trouve la solution optimale
• Une mauvaise sélection initiale des centres peut conduire à un groupement pauvre
• Recommandation: Exécuter l’algorithme plusieurs fois avec des points différents.
• K-means, comme n’importe quel algorithme qui se calcule à base des distances, peut être affecté par
les unités de mesure des variables
• Les variables mesurées en grandes unités dominent la construction des clusters
• Recommandation: Standardiser les variables avant de commencer la recherche des clusters.
Les algorithmes basiques du Data Mining
47
Avantages de
K-Means
• Rapidité, peut être appliqué à des bases données relativement grandes.
• Economique de point de vue stockage de données (stoker les K centres)
K-means
48
Inconvénients de
K-Means
• Suppose la connaissance de K (en réalité jamais connu)
• Sensible à la présence des observations extrêmes
Clustering
49
Les techniques du Data Mining
Régression
• L'analyse de régression est la méthode d'exploration de données permettant d'identifier et d'analyser
la relation entre les variables. Il est utilisé pour identifier la probabilité d'une variable spécifique, étant
donné la présence d'autres variables.
• Prédire les valeurs absentes d'une variable en se basant sur sa relation avec les autres variables de
l'ensemble de données.
• linéaire;
• non linéaire;
• logistique;
• logarithmique;
• univariee;
• multivariee;
• ....
50
Les techniques du Data Mining
Règles d'association
• Cette technique d'exploration de données permet de trouver l'association entre deux ou plusieurs
éléments. Il découvre un motif caché dans le jeu de données.
• Analyse d'anuité : connue comme (Link Analysis) se réfère a découvrir les relations non évidentes
entre les données.
Méthodes :
Règles d'associations (association rules)
Analyse de corrélation
51
Les techniques du Data Mining
Prédiction
• Prédiction a utilisé une combinaison des autres techniques d'exploration de données telles que les
tendances, les modelés séquentiels, les regroupements, la classification, etc.
• Elle analyse les évènements ou instances passées dans le bon ordre pour prédire un évènement futur.
52
Avantages du Data Mining
Avantages du Data Mining
• La technique du Data Mining aide les entreprises a obtenir des informations basees sur les
connaissances.
• L'exploration de donnees aide les organisations a effectuer les ajustements rentables en termes
d'exploitation et de production.
• L'exploration de donnees est une solution rentable et efficace par rapport a d'autres applications de
donnees statistiques.
• L'exploration de donnees facilite le processus de prise de decision.
• Facilite la prediction automatisee des tendances et des comportements, ainsi que la decouverte
automatisee des modeles caches.
• Il peut ^etre implemente dans de nouveaux systemes ainsi que sur des plates-formes existantes.
• C'est le processus rapide qui permet aux utilisateurs d'analyser une quantite enorme de donnees en
moins de temps. 53
Inconvénients du Data Mining
Inconvénients du Data Mining
• Il y a des chances que les entreprises vendent des informations utiles de leurs clients a d'autres
entreprises pour de l'argent.
• Par exemple: American Express a vendu les achats effectués par carte de crédit de ses clients a
d'autres sociétés.
• De nombreux logiciels d'analyse de Data Mining sont difficiles a utiliser et nécessitent une formation
avancée.
• Différents outils d'exploration de données fonctionnent de différentes manières en raison des
différents algorithmes utilisés dans leur conception. Par conséquent, la sélection d'un outil
d'exploration de données correct est une tache très difficile.
54
Conclusion
Résumé
• Le Data Mining consiste a expliquer le passé et a prédire l'avenir pour analyse.
• Le Data Mining permet d'extraire des informations a partir d'énormes ensembles de données. C'est la
procédure d'extraction de connaissances a partir de données.
• Le processus du Data Mining comprend la compréhension des activités, la compréhension des
données, la préparation des données, la modélisation, l'évolution, le déploiement.
• Les techniques du Data Mining importantes sont la classification, la mise en cluster, la régression, les
règles d'association, la détection externe, les modelés séquentiels et la prédiction.
55
Conclusion
Résumé
• Le langage R et Oracle Data Mining sont des outils du Data Mining de premier plan.
• La technique du Data Mining aide les entreprises a obtenir des informations basées sur les
connaissances.
• Le principal inconvénient du Data Mining est que de nombreux logiciels d'analyse sont difficiles a
utiliser et nécessitent une formation avancée.
• Le Data Mining est utilisé dans divers secteurs tels que les communications, les assurances,
l'éducation, la fabrication, la banque, la vente au détails, les prestataires de services, le commerce
électronique, la bio-informatique des supermarchés.
56

Contenu connexe

Tendances

Data mining - Introduction générale
Data mining - Introduction généraleData mining - Introduction générale
Data mining - Introduction généraleMohamed Heny SELMI
 
Les arbres de décisions
Les arbres de décisionsLes arbres de décisions
Les arbres de décisionsMariem Chaaben
 
Les algorithmes de génération des règles d association
Les algorithmes de génération des règles d associationLes algorithmes de génération des règles d association
Les algorithmes de génération des règles d associationHajer Trabelsi
 
Introduction au Data Mining et Méthodes Statistiques
Introduction au Data Mining et Méthodes StatistiquesIntroduction au Data Mining et Méthodes Statistiques
Introduction au Data Mining et Méthodes StatistiquesGiorgio Pauletto
 
Datamining appliqué au churn client dans les télécommunications
Datamining appliqué au churn client dans les télécommunicationsDatamining appliqué au churn client dans les télécommunications
Datamining appliqué au churn client dans les télécommunicationsabdelmoumène taleb
 
Data mining - Segmentation(k-means, cah)
Data mining - Segmentation(k-means, cah)Data mining - Segmentation(k-means, cah)
Data mining - Segmentation(k-means, cah)Mohamed Heny SELMI
 
Business Intelligence
Business IntelligenceBusiness Intelligence
Business IntelligenceLilia Sfaxi
 
Cours Big Data Chap1
Cours Big Data Chap1Cours Big Data Chap1
Cours Big Data Chap1Amal Abid
 
BigData_Chp1: Introduction à la Big Data
BigData_Chp1: Introduction à la Big DataBigData_Chp1: Introduction à la Big Data
BigData_Chp1: Introduction à la Big DataLilia Sfaxi
 
Outils décisionnels : Data-Mining and Data-warehouse
Outils décisionnels : Data-Mining and Data-warehouseOutils décisionnels : Data-Mining and Data-warehouse
Outils décisionnels : Data-Mining and Data-warehouseBEL MRHAR Mohamed Amine
 
Data Mining Spatial
Data Mining Spatial Data Mining Spatial
Data Mining Spatial dihiaselma
 
Exposé segmentation
Exposé segmentationExposé segmentation
Exposé segmentationDonia Hammami
 
Système de recommandations de films
Système de recommandations de filmsSystème de recommandations de films
Système de recommandations de filmsIbn Tofail University
 
Rapport data-mining
Rapport data-miningRapport data-mining
Rapport data-miningSawsen Larbi
 
Cours éthique et droit liés aux données numériques
Cours éthique et droit liés aux données numériquesCours éthique et droit liés aux données numériques
Cours éthique et droit liés aux données numériquesmarysesalles
 
La prédiction du churn client dans le domaine du telecom
La prédiction du churn client dans le domaine du telecomLa prédiction du churn client dans le domaine du telecom
La prédiction du churn client dans le domaine du telecomIsmail Sanni
 

Tendances (20)

Data mining - Introduction générale
Data mining - Introduction généraleData mining - Introduction générale
Data mining - Introduction générale
 
Les arbres de décisions
Les arbres de décisionsLes arbres de décisions
Les arbres de décisions
 
Les algorithmes de génération des règles d association
Les algorithmes de génération des règles d associationLes algorithmes de génération des règles d association
Les algorithmes de génération des règles d association
 
Introduction au Data Mining et Méthodes Statistiques
Introduction au Data Mining et Méthodes StatistiquesIntroduction au Data Mining et Méthodes Statistiques
Introduction au Data Mining et Méthodes Statistiques
 
Datamining appliqué au churn client dans les télécommunications
Datamining appliqué au churn client dans les télécommunicationsDatamining appliqué au churn client dans les télécommunications
Datamining appliqué au churn client dans les télécommunications
 
Data mining - Segmentation(k-means, cah)
Data mining - Segmentation(k-means, cah)Data mining - Segmentation(k-means, cah)
Data mining - Segmentation(k-means, cah)
 
Business Intelligence
Business IntelligenceBusiness Intelligence
Business Intelligence
 
Cours Big Data Chap1
Cours Big Data Chap1Cours Big Data Chap1
Cours Big Data Chap1
 
BigData_Chp1: Introduction à la Big Data
BigData_Chp1: Introduction à la Big DataBigData_Chp1: Introduction à la Big Data
BigData_Chp1: Introduction à la Big Data
 
Outils décisionnels : Data-Mining and Data-warehouse
Outils décisionnels : Data-Mining and Data-warehouseOutils décisionnels : Data-Mining and Data-warehouse
Outils décisionnels : Data-Mining and Data-warehouse
 
Data Mining Spatial
Data Mining Spatial Data Mining Spatial
Data Mining Spatial
 
Exposé segmentation
Exposé segmentationExposé segmentation
Exposé segmentation
 
Système de recommandations de films
Système de recommandations de filmsSystème de recommandations de films
Système de recommandations de films
 
Introduction au BIG DATA
Introduction au BIG DATAIntroduction au BIG DATA
Introduction au BIG DATA
 
Rapport data-mining
Rapport data-miningRapport data-mining
Rapport data-mining
 
Big data
Big dataBig data
Big data
 
Technologies pour le Big Data
Technologies pour le Big DataTechnologies pour le Big Data
Technologies pour le Big Data
 
Big data
Big dataBig data
Big data
 
Cours éthique et droit liés aux données numériques
Cours éthique et droit liés aux données numériquesCours éthique et droit liés aux données numériques
Cours éthique et droit liés aux données numériques
 
La prédiction du churn client dans le domaine du telecom
La prédiction du churn client dans le domaine du telecomLa prédiction du churn client dans le domaine du telecom
La prédiction du churn client dans le domaine du telecom
 

Similaire à Data Mining (Partie 1).pdf

Introduction au datamining partiel 1.pdf
Introduction au datamining partiel 1.pdfIntroduction au datamining partiel 1.pdf
Introduction au datamining partiel 1.pdfamarasidibeavm
 
Introduction_au_Data_Mining.pdf
Introduction_au_Data_Mining.pdfIntroduction_au_Data_Mining.pdf
Introduction_au_Data_Mining.pdfSidiAbdallah1
 
Introduction au Machine Learning
Introduction au Machine Learning Introduction au Machine Learning
Introduction au Machine Learning Novagen Conseil
 
La protection de la vie privée à l'heure du BIG DATA
La protection de la vie privée à l'heure du BIG DATALa protection de la vie privée à l'heure du BIG DATA
La protection de la vie privée à l'heure du BIG DATAISACA Chapitre de Québec
 
uyéyefygjhqjhgjhgequtCours-Data-Mining.pdf
uyéyefygjhqjhgjhgequtCours-Data-Mining.pdfuyéyefygjhqjhgjhgequtCours-Data-Mining.pdf
uyéyefygjhqjhgjhgequtCours-Data-Mining.pdfNajlaAllouche
 
Seance 1 &amp; 2 deploiement de la bi dans l'entreprise
Seance 1 &amp; 2 deploiement de la bi dans l'entrepriseSeance 1 &amp; 2 deploiement de la bi dans l'entreprise
Seance 1 &amp; 2 deploiement de la bi dans l'entreprisesciafrique
 
#Fiche Produit : Diagnostic & Feuille de Route (Big) Data Marketing !
#Fiche Produit : Diagnostic & Feuille de Route (Big) Data Marketing !#Fiche Produit : Diagnostic & Feuille de Route (Big) Data Marketing !
#Fiche Produit : Diagnostic & Feuille de Route (Big) Data Marketing !Camp de Bases (Webedia Data Services)
 
Big Data Des méandres des outils au potentiel business
Big Data   Des méandres des outils au potentiel businessBig Data   Des méandres des outils au potentiel business
Big Data Des méandres des outils au potentiel businessMouhsine LAKHDISSI
 
Vers une meilleure connaissance client grâce au big data
Vers une meilleure connaissance client grâce au big dataVers une meilleure connaissance client grâce au big data
Vers une meilleure connaissance client grâce au big dataData2B
 
La data n’a pas besoin d’être « big » pour générer de la valeur
La data n’a pas besoin d’être « big » pour générer de la valeurLa data n’a pas besoin d’être « big » pour générer de la valeur
La data n’a pas besoin d’être « big » pour générer de la valeurMicrosoft Ideas
 
Apprentissage automatique avec RapidMiner
Apprentissage automatique avec RapidMinerApprentissage automatique avec RapidMiner
Apprentissage automatique avec RapidMinerMajdi Hannachi
 
Quel est l'avenir des stratégies de données?
Quel est l'avenir des stratégies de données?Quel est l'avenir des stratégies de données?
Quel est l'avenir des stratégies de données?Denodo
 
Veilleur stratégique
Veilleur stratégiqueVeilleur stratégique
Veilleur stratégiquebenj_2
 

Similaire à Data Mining (Partie 1).pdf (20)

DataMining.pdf
DataMining.pdfDataMining.pdf
DataMining.pdf
 
Introduction au datamining partiel 1.pdf
Introduction au datamining partiel 1.pdfIntroduction au datamining partiel 1.pdf
Introduction au datamining partiel 1.pdf
 
Final
FinalFinal
Final
 
Final
FinalFinal
Final
 
Introduction_au_Data_Mining.pdf
Introduction_au_Data_Mining.pdfIntroduction_au_Data_Mining.pdf
Introduction_au_Data_Mining.pdf
 
Introduction au Machine Learning
Introduction au Machine Learning Introduction au Machine Learning
Introduction au Machine Learning
 
Introduction au Big data
Introduction au Big data Introduction au Big data
Introduction au Big data
 
La protection de la vie privée à l'heure du BIG DATA
La protection de la vie privée à l'heure du BIG DATALa protection de la vie privée à l'heure du BIG DATA
La protection de la vie privée à l'heure du BIG DATA
 
uyéyefygjhqjhgjhgequtCours-Data-Mining.pdf
uyéyefygjhqjhgjhgequtCours-Data-Mining.pdfuyéyefygjhqjhgjhgequtCours-Data-Mining.pdf
uyéyefygjhqjhgjhgequtCours-Data-Mining.pdf
 
Seance 1 &amp; 2 deploiement de la bi dans l'entreprise
Seance 1 &amp; 2 deploiement de la bi dans l'entrepriseSeance 1 &amp; 2 deploiement de la bi dans l'entreprise
Seance 1 &amp; 2 deploiement de la bi dans l'entreprise
 
#Fiche Produit : Diagnostic & Feuille de Route (Big) Data Marketing !
#Fiche Produit : Diagnostic & Feuille de Route (Big) Data Marketing !#Fiche Produit : Diagnostic & Feuille de Route (Big) Data Marketing !
#Fiche Produit : Diagnostic & Feuille de Route (Big) Data Marketing !
 
Big Data Des méandres des outils au potentiel business
Big Data   Des méandres des outils au potentiel businessBig Data   Des méandres des outils au potentiel business
Big Data Des méandres des outils au potentiel business
 
Vers une meilleure connaissance client grâce au big data
Vers une meilleure connaissance client grâce au big dataVers une meilleure connaissance client grâce au big data
Vers une meilleure connaissance client grâce au big data
 
La data n’a pas besoin d’être « big » pour générer de la valeur
La data n’a pas besoin d’être « big » pour générer de la valeurLa data n’a pas besoin d’être « big » pour générer de la valeur
La data n’a pas besoin d’être « big » pour générer de la valeur
 
Big data
Big dataBig data
Big data
 
Apprentissage automatique avec RapidMiner
Apprentissage automatique avec RapidMinerApprentissage automatique avec RapidMiner
Apprentissage automatique avec RapidMiner
 
Quel est l'avenir des stratégies de données?
Quel est l'avenir des stratégies de données?Quel est l'avenir des stratégies de données?
Quel est l'avenir des stratégies de données?
 
Veilleur stratégique
Veilleur stratégiqueVeilleur stratégique
Veilleur stratégique
 
Big data
Big dataBig data
Big data
 
test
testtest
test
 

Plus de OuailChoukhairi

Plus de OuailChoukhairi (10)

the-blockchain-innovation-hub.pptx
the-blockchain-innovation-hub.pptxthe-blockchain-innovation-hub.pptx
the-blockchain-innovation-hub.pptx
 
BI_Part1_2020.pdf
BI_Part1_2020.pdfBI_Part1_2020.pdf
BI_Part1_2020.pdf
 
_3_expo_MM.pdf
_3_expo_MM.pdf_3_expo_MM.pdf
_3_expo_MM.pdf
 
Data Mining (Partie 3).pdf
Data Mining (Partie 3).pdfData Mining (Partie 3).pdf
Data Mining (Partie 3).pdf
 
Data Mining (Partie 2).pdf
Data Mining (Partie 2).pdfData Mining (Partie 2).pdf
Data Mining (Partie 2).pdf
 
_2_expo_DW_DM.pdf
_2_expo_DW_DM.pdf_2_expo_DW_DM.pdf
_2_expo_DW_DM.pdf
 
_1_expo_SIAD.pdf
_1_expo_SIAD.pdf_1_expo_SIAD.pdf
_1_expo_SIAD.pdf
 
___WS_Chap-3__RDF.pdf
___WS_Chap-3__RDF.pdf___WS_Chap-3__RDF.pdf
___WS_Chap-3__RDF.pdf
 
___WS_Chap-5__SPARQL.pdf
___WS_Chap-5__SPARQL.pdf___WS_Chap-5__SPARQL.pdf
___WS_Chap-5__SPARQL.pdf
 
___WS_Chap-4__RDFS.pdf
___WS_Chap-4__RDFS.pdf___WS_Chap-4__RDFS.pdf
___WS_Chap-4__RDFS.pdf
 

Dernier

Les Français, l'Europe et Emmanuel Macron
Les Français, l'Europe et Emmanuel MacronLes Français, l'Europe et Emmanuel Macron
Les Français, l'Europe et Emmanuel Macroncontact Elabe
 
Recurrent neural network_PresentationRNN.pptx
Recurrent neural network_PresentationRNN.pptxRecurrent neural network_PresentationRNN.pptx
Recurrent neural network_PresentationRNN.pptxbahija babzine
 
Bidirectional Encoder Representations from Transformers
Bidirectional Encoder Representations from TransformersBidirectional Encoder Representations from Transformers
Bidirectional Encoder Representations from Transformersbahija babzine
 
Montant moyen du droit d'allocation chômage versé aux demandeurs d'emploi ind...
Montant moyen du droit d'allocation chômage versé aux demandeurs d'emploi ind...Montant moyen du droit d'allocation chômage versé aux demandeurs d'emploi ind...
Montant moyen du droit d'allocation chômage versé aux demandeurs d'emploi ind...France Travail
 
Le contrôle de la recherche d'emploi en 2023
Le contrôle de la recherche d'emploi en 2023Le contrôle de la recherche d'emploi en 2023
Le contrôle de la recherche d'emploi en 2023France Travail
 
To_understand_transformers_together presentation
To_understand_transformers_together presentationTo_understand_transformers_together presentation
To_understand_transformers_together presentationbahija babzine
 
ELABE BFMTV L'Opinion en direct - Les Français et les 100 jours de Gabriel Attal
ELABE BFMTV L'Opinion en direct - Les Français et les 100 jours de Gabriel AttalELABE BFMTV L'Opinion en direct - Les Français et les 100 jours de Gabriel Attal
ELABE BFMTV L'Opinion en direct - Les Français et les 100 jours de Gabriel Attalcontact Elabe
 

Dernier (7)

Les Français, l'Europe et Emmanuel Macron
Les Français, l'Europe et Emmanuel MacronLes Français, l'Europe et Emmanuel Macron
Les Français, l'Europe et Emmanuel Macron
 
Recurrent neural network_PresentationRNN.pptx
Recurrent neural network_PresentationRNN.pptxRecurrent neural network_PresentationRNN.pptx
Recurrent neural network_PresentationRNN.pptx
 
Bidirectional Encoder Representations from Transformers
Bidirectional Encoder Representations from TransformersBidirectional Encoder Representations from Transformers
Bidirectional Encoder Representations from Transformers
 
Montant moyen du droit d'allocation chômage versé aux demandeurs d'emploi ind...
Montant moyen du droit d'allocation chômage versé aux demandeurs d'emploi ind...Montant moyen du droit d'allocation chômage versé aux demandeurs d'emploi ind...
Montant moyen du droit d'allocation chômage versé aux demandeurs d'emploi ind...
 
Le contrôle de la recherche d'emploi en 2023
Le contrôle de la recherche d'emploi en 2023Le contrôle de la recherche d'emploi en 2023
Le contrôle de la recherche d'emploi en 2023
 
To_understand_transformers_together presentation
To_understand_transformers_together presentationTo_understand_transformers_together presentation
To_understand_transformers_together presentation
 
ELABE BFMTV L'Opinion en direct - Les Français et les 100 jours de Gabriel Attal
ELABE BFMTV L'Opinion en direct - Les Français et les 100 jours de Gabriel AttalELABE BFMTV L'Opinion en direct - Les Français et les 100 jours de Gabriel Attal
ELABE BFMTV L'Opinion en direct - Les Français et les 100 jours de Gabriel Attal
 

Data Mining (Partie 1).pdf

  • 1. Data Mining (Partie 1) Master Big Data & Cloud Computing 2021/2022 Département Informatique
  • 2. Plan de cours Partie 1 Partie 2 Data Mining : Techniques & Concepts Exploration et visualisation des données en R Partie 3 Manipulation des données en R Partie 4 Etude de cas (Prédire les proliférations d'algues) 2
  • 3. Introduction Extraction d'informations intéressantes a partir de grandes bases de données C'est analyser les données pour trouver des patrons (patterns) caches en utilisant des moyens automatiques. C'est un processus non élémentaire de recherche de relations, corrélations, dépendances, associations, modèles, structures, tendances, classes (clusters), segments, lesquelles sont obtenues de grande quantité de données L'objectif principale de Data Mining c'est de créer un processus automatique qui a comme point de départ les données y comme finalité l'aide a la prise des décisions. Qu'est-ce que le Data Mining ? 3
  • 4. Communications Pour prédire le comportement des clients afin de proposer des campagnes très ciblées et pertinentes. Où le Data Mining est-il utilisé? 4
  • 5. Assurance Data Mining aide les compagnies d'assurance a rentabiliser leurs produits et a promouvoir de nouvelles offres auprès de leurs clients existants ou nouveaux. Où le Data Mining est-il utilisé? 5
  • 6. Education Data Mining permet aux enseignants d'accéder aux données des élevés, de prévoir leurs niveaux de performance et de trouver des élevés ou des groupes d'élevés qui nécessitent une attention particulière. Exemple les étudiants qui sont faibles en matière de mathématiques. Où le Data Mining est-il utilisé? 6
  • 7. Fabrication Avec l'aide de Data Mining, les fabricants peuvent prévoir l'usure des actifs de production. Ils peuvent anticiper la maintenance, ce qui les aide a les réduire et a minimiser les temps d'arret. Où le Data Mining est-il utilisé? 7
  • 8. Bancaire Data Mining aide le secteur banquier a se faire une idée des risques du marché et a gérer la conformité règlementaire. Il aide les banques a identifier les défaillants probables afin de décider d'émettre des cartes de crédit, des prêts, etc. Où le Data Mining est-il utilisé? 8
  • 9. Vente en details Les techniques de Data Mining aident les centres commerciaux et les épiceries a identifier et organiser les articles les plus vendables dans les positions les plus attentives. Il aide les propriétaires de magasins a proposer une offre qui encourage les clients a augmenter leurs dépenses. Où le Data Mining est-il utilisé? 9
  • 10. Service providers Les fournisseurs de services comme les industries de la téléphonie mobile et des services publics utilisent Data Mining pour prédire les raisons lorsqu'un client quitte son entreprise. Ils analysent les détails de la facturation, les interactions du service client, les plaintes adressées a l'entreprise pour attribuer a chaque client un score de probabilité et des incitations. Où le Data Mining est-il utilisé? 10
  • 11. E-Commerce Les sites Web de commerce électronique utilisent Data Mining pour proposer des ventes croisées et des ventes supplémentaires via leurs sites Web. L'un des noms les plus célèbres est Amazon, qui utilise des techniques d'exploration de données pour attirer davantage de clients dans sa boutique en ligne. Où le Data Mining est-il utilisé? 11
  • 12. Enquête criminelle Data Mining aide les agences d'enquêtes criminelles a déployer des forces de police (ou un crime est-il le plus susceptible de se produire et quand?). Où le Data Mining est-il utilisé? 12
  • 13. Bio-informatique Data Mining permet d'exploiter des données biologiques a partir d'énormes jeux de données rassembles en biologie et en médecine. Où le Data Mining est-il utilisé? 13
  • 14. Types de données Sur quels types de données s'applique le Data Mining? Fichiers plats BD's relationnelles Data warehouses BD's transactionnelles BD's avancées • BD's objet et objet-relationnelles • BD's spatiales • Séries temporelles • BD's Textes et multimédia • BD's Hétérogènes • WWW (web mining) • Capteurs → variables quantitatives, qualitatives, ordinales • Texte → Chaîne de caractères • Parole → Séries temporelles • Images → données 2D • Videos → données 2D + temps • Réseaux → Graphes • Flux → Logs, coupons. . . • Etiquettes → information d’évaluation 14
  • 15. Data Mining vs KDD KDD (Knowledge Discovery in Databses) : C'est le processus de trouver information et/ou partons utiles a partir de données. Data Mining : C'est l'utilisation des algorithmes pour extraire information et/ou partons comme partie du processus KDD. 15
  • 16. Data Mining vs KDD Processuc KDD Data Mining: C'est une partie du processus KDD Data Mining: Le cœur du processus d'extraction de connaissances. 16
  • 17. Data Mining • Des millions d'individus • Des centaines de variables • Données recueillies sans étude préalable • Nécessite de calculs rapide • Corpus d'apprentissage Statistiques • Quelques centaines d'individus • Quelques variables • Fortes hypothèses sur les lois statistiques • Importance accordée au calcul • Echantillon aléatoire VS Data Mining vs Statistiques 17
  • 18. Data Mining vs machine Learning Machine Learning: C'est un sujet de l'intelligence artificielle (IA) qui s'occupe de la façon d'écrire des programmes qui peuvent apprendre. Dans le Data Mining, Machine Learning est habituellement utilises pour la prédiction et classification. 18
  • 19. Data Mining vs machine Learning • La différence distinct entre l'apprentissage supervisé et l'apprentissage non- supervisé est le fait que l'apprentissage non-supervisé cherche a trouver des partitions de modelés par lui-même, • l'extraction des données est donc descriptive. • L'apprentissage supervisé est utilisé quand l'utilisateur sait labelliser les informations. • l'extraction des données est donc prédictive. Machine Learning Apprentissage supervisé Classification Apprentissage non supervisé Clustering 19
  • 21. Les étapes du Data Mining 1. Nettoyage des données (erreurs, données manquantes); 2. Transformation éventuelle des données (normalisation, linéarisation...); 3. Explicitation de l'objectif de l'analyse en terme statistique (régression, classification, clustering...); 4. Choix de la méthode a utiliser; 5. Mise en œuvre informatique 6. Test (validation de la qualité des résultats); 7. Exploitation 21
  • 22. Les étapes du Data Mining 1. Nettoyage des données (erreurs, données manquantes); 2. Transformation éventuelle des données (normalisation, linéarisation...); 3. Explicitation de l'objectif de l'analyse en terme statistique (régression, classification, clustering...); 4. Choix de la méthode a utiliser; 5. Mise en œuvre informatique 6. Test (validation de la qualité des résultats); 7. Exploitation 22
  • 23. Cycle de vie d'un projet de Data Mining 1. Apprentissage du domaine d'application : • Connaissances nécessaires et buts de l'application 2. Création du jeu de données cible : • sélection des données 3. Nettoyage et prétraitement des données (jusqu'a 60% du travail !) 4. Réduction et transformation des données: • Trouver les caractéristiques utiles, dimensionnalité/réduction des variables 5. Choix des fonctionnalités Data Mining synthèse, classification régression, association, clustering; 6. Choix des algorithmes; 7. Data Mining : recherche de motifs (patterns) intéressants 8. Evaluation des motifs et représentation des connaissances: visualisation, transformation, élimination des motifs redondants, etc. 9. Utilisation des connaissances découvertes. 23
  • 24. Les techniques du Data Mining LES TECHNIQUES DU Data Mining Classification Clustering Regréssion Détection extérieure Patterns séquentiels Prédiction Règles d'association 24
  • 25. Taches en Data Mining Data Mining Predictive Regression Classification Prediction Analyse des series temporelles Descriptive Clustering Régles d’association Découvrir sequences Analyse sommaire Descriptives consiste à trouver les caractéristiques générales relatives aux données fouillées (résumé/synthèse, Clustering, Règles d’association) Prédictives Consiste à utiliser certaines variables pour prédire les valeurs futures inconnues de la même variable ou d’autres variables (Séries temporelles, Régression, Classification). 25
  • 26. Les algorithmes basiques Les algorithmes basiques du Data Mining Classication Clustering Régression Règles d'association Decision tree (C4.5) K-means CART (Classification And Regression Tree) Apriori Algorithms SVM (Support Vector Machine) K-NN (k-Nearest Neighbor) EM (Expectation Maximation) Naive Bayes 26
  • 27. Les techniques du Data Mining Classification • Cette analyse est utilisée pour extraire des informations importantes et pertinentes sur les données et les métadonnées. Cette méthode d'exploration de données permet de classer les données dans différentes classes. • Associer des données a des groupes prédéfinis (apprentissage supervisé). • Trouver des modelés (fonctions) qui décrivent et distinguent des concepts pour de futures prédictions Methodes Arbres de decision; Regles de classification; Reseaux neuronaux. tures predictions 27
  • 28. SVM (Support Vector Machine ) • La machine a vecteurs de support SVM appelés aussi séparateurs a vaste marge est une technique d’apprentissage supervise destinée a résoudre des problèmes de classification. • SVM est une méthode de classification a deux classes qui tente de séparer parfaitement les deux ensembles d’exemples. • La méthode cherche alors l’hyperplan qui sépare les ensembles de données, en garantissant que la marge entre le plus proche de ces données soit maximale. SVM (Support Vector Machine) 28
  • 29. SVM (Support Vector Machine ) L'objectif est de faire une classification a deux classes qui tente de séparer les point positifs des point négatives dans l’ensemble des exemples. SVM linéaire cherche alors l’hyperplan qui sépare les deux classes des points. La distance entre le plus proche des positifs et des négatives soit toujours maximale. Hyperplan X2 = +1 = -1 Donnée: <𝑥!,𝑦!>, i=1,2,3,4….,+∞ 𝑥! ∈ 𝑅" 𝑦! ∈ {−1 , +1} SVM (Support Vector Machine) 29
  • 30. SVM (Support Vector Machine) Tous les hyperplans de 𝑅! sont paramètres par un vecteur (w) et une constant b. w*x+b=0 Le but est de trouver un tel hyperplan f(x)=signe(w*x+b), qui classifie correctement ces points. SVM (Support Vector Machine) F(x) X2 = +1 = -1 Donnée: <𝑥!,𝑦!>, i=1,2,3,4….,+∞ 𝑥! ∈ 𝑅" 𝑦! ∈ {−1 , +1} 30
  • 31. Avantages de SVM • Les SVM fournissent généralement des prévisions précises. • Les SVM déterminant l’hyperplan optimal par les points les plus proches uniquement et non par des points distants. • Les points supports donne une bonne indication de la complexité du problème traité SVM (Support Vector Machine) 31
  • 32. Inconvénients de SVM • Difficulté a identifier les bonnes valeurs des paramètres. • Problème lorsque les classes sont bruitée (multiplication des ponts supports). • Difficulté d’interprétations (ex pertinence des variables). • Le traitement des problèmes multi-classes reste un question ouverte. SVM (Support Vector Machine) 32
  • 33. Arbre de décision C4.5 Les arbres de décision sont des schémas représentant les résultats possibles d’une série de choix interconnectes. Ils sont des classifier(non des classeurs) qui opérant sur des instances représentées par des formalismes attribut/valeur. Les nœuds testent les attributs. Il y a une branche pour chaque valeur testé. Les feuilles servent a spécifier les catégories (deux ou plus). Arbre de decision C4.5 Un arbre de décision est un arbre ou : Nœud : test sur un attribut une branche d’un nœud : un test sur un attribut Feuilles : classe donnée Problème : choix de l’attribut 33
  • 34. Arbre de décision C4.5 L’objectifs de C4.5 est de construire un arbre de décision avec un attribut a chaque nœud. Cet algorithme a quelques cas de base: • L’arbre est construit en commençant a la racine de l’arbre • Trouver l’attribut avec un gain maximale d’information a la base de la fonction entropie • Placez un nœud enfant pour chaque valeur de cette attribut • Ajoutez tous les informations de l’ensemble d’apprentissage au nœud enfant correspondant • Si tous les informations d’un nœud enfant appartiennent a la même classe, mettez la classe en-bas et remonter dans l’arbre • Sinon, continuez avec l'étape 2 pendant que les attributs sont affectées • Quand plus d’abréviations sont affectées, mettez la classification de la majorité des informations a ce nœud. Arbre de decision C4.5 34
  • 35. Avantages de C4.5 • Ils sont faciles a comprendre • Multi-classe par nature • De nouvelles options peuvent être ajoutées aux arbres existants. • Ils permettant de sélectionner l’option la plus appropriée parmi plusieurs. • Il est facile de les associer a d’autres outils de prise de décision Arbre de decision C4.5 35
  • 36. Inconvénients de C4.5 • Ils sont instables, c,a,d un petit changement dans les données peut entrainer une modification importante de la structure de l’arbre de décision optimal. • Les calcules peuvent devenir très complexes. • Ne gère pas les données en streaming • Evolutivité dans le temps: si les données évoluent dans le temps, il est nécessaire de relancé la phase d'apprentissage Arbre de decision C4.5 36
  • 37. k-NN: la méthode des k plus proches voisins • Le k-NN est un algorithme qui peut server pour la classification supervise. • Le principe de ce modèle consiste en effet a choisir les k instances les plus proches du point étudié selon un distance a définir afin den prédire sa classe. Le k-NN nécessite seulement: Un entier k Une base d’apprentissage Une métrique pour la proximité (la distance euclidienne) la méthode des k plus proches voisins 37
  • 38. k-NN: la méthode des k plus proches voisins Exemple Le but est de trouver la valeur de la classe de l’inconnu x On prend la distance euclidienne et k=5 voisins. Des 5 plus proches voisins (5-NN), 4 appartiennent a la clase w1 et 1 appartient a la classe w3. Donc x est affecté a w1 classe majoritaire la méthode des k plus proches voisins 38
  • 39. Résumé de l’algorithme k-NN Etape 1: • Définissez la distance ou mesure de similarité de deux échantillons(instances) Etape 2: • Déterminer k (généralement impaire pour faciliter le vote) Etape 3: • Calculer les distances entre la nouvelle entrée et toutes les données de la base de l’apprentissage Etape 4: • Triez la distance et déterminez les k plus proches voisins sur la base de la distance minimale Etape 5: • Rassemblez les étiquettes de classe de ces voisins Etape 6: • Déterminer l’étiquette de prédiction en fonction de votre classe majoritaire la méthode des k plus proches voisins 39
  • 40. Avantages de k-NN • Apprentissage rapide • Méthode facile a comprendre • Adapte aux domaines ou chaque classe est représenté par plusieurs prototypes la méthode des k plus proches voisins 40
  • 41. Inconvénients de k-NN • Prédiction lente car il faut revoir tous les exemples a chaque fois • Méthode gourmande en place mémoire • Vulnérable aux données de grande dimension la méthode des k plus proches voisins 41
  • 42. Naïve Bayes La classification Naïve Bayésienne est un type de classification probabiliste simple basée sur le théorème de bayes avec une forte indépendance (naïve). Le problème de classification peut être formulé: P(C|X)= probabilité que le tuple X= <X1,……Xk> est dans la classe C But: affecter a une instance X la classe C telle que P(C|X) est maximale Naïve Bayes 42
  • 43. Les techniques du Data Mining Clustering • Identifier les données qui se ressemblent. Ce processus aide a comprendre les differences et les similitudes entre les données. c'est similaire a la classification, sauf que les groupes no sont pas prédéfinies. • L'objectif est de décomposer ou de segmenter un ensemble de données ou individus en groupes qui peuvent être disjoints ou non. • Les groupes se forment a base de la similarité des données o des individus en certaines variables • Comme groupes suggères (imposes) par les données, l'expert doit donner une interprétation des groupes qui se forment. Méthodes : • K-means • Classification hiérarchique (groupes disjoints) • Classification pyramidale (groupes non disjoints) 43
  • 44. Qualité d'un clustering Une bonne méthode de clustering produira des clusters d'excellente qualité avec : -Similarité importante intra-classe -Similarité faible inter-classe La qualité d'un clustering dépend de : -La mesure de similarité utilisée -L'implémentation de la mesure de similarité La qualité d'une méthode de clustering est évaluée par son habilité a découvrir certains ou tous les "patterns" cachés. Les algorithmes basiques du Data Mining 44
  • 45. Objectifs du clustering Les algorithmes basiques du Data Mining 45
  • 46. Workflow de Classification supervise Classification supervisé Feature Extraction/Selection Feature Extraction/Selection Classifier Class 1 Class 2 Class n Training Algorithm Test Data Training data model … 46
  • 47. Important ! • Pas de garantie que l’algorithme trouve la solution optimale • Une mauvaise sélection initiale des centres peut conduire à un groupement pauvre • Recommandation: Exécuter l’algorithme plusieurs fois avec des points différents. • K-means, comme n’importe quel algorithme qui se calcule à base des distances, peut être affecté par les unités de mesure des variables • Les variables mesurées en grandes unités dominent la construction des clusters • Recommandation: Standardiser les variables avant de commencer la recherche des clusters. Les algorithmes basiques du Data Mining 47
  • 48. Avantages de K-Means • Rapidité, peut être appliqué à des bases données relativement grandes. • Economique de point de vue stockage de données (stoker les K centres) K-means 48
  • 49. Inconvénients de K-Means • Suppose la connaissance de K (en réalité jamais connu) • Sensible à la présence des observations extrêmes Clustering 49
  • 50. Les techniques du Data Mining Régression • L'analyse de régression est la méthode d'exploration de données permettant d'identifier et d'analyser la relation entre les variables. Il est utilisé pour identifier la probabilité d'une variable spécifique, étant donné la présence d'autres variables. • Prédire les valeurs absentes d'une variable en se basant sur sa relation avec les autres variables de l'ensemble de données. • linéaire; • non linéaire; • logistique; • logarithmique; • univariee; • multivariee; • .... 50
  • 51. Les techniques du Data Mining Règles d'association • Cette technique d'exploration de données permet de trouver l'association entre deux ou plusieurs éléments. Il découvre un motif caché dans le jeu de données. • Analyse d'anuité : connue comme (Link Analysis) se réfère a découvrir les relations non évidentes entre les données. Méthodes : Règles d'associations (association rules) Analyse de corrélation 51
  • 52. Les techniques du Data Mining Prédiction • Prédiction a utilisé une combinaison des autres techniques d'exploration de données telles que les tendances, les modelés séquentiels, les regroupements, la classification, etc. • Elle analyse les évènements ou instances passées dans le bon ordre pour prédire un évènement futur. 52
  • 53. Avantages du Data Mining Avantages du Data Mining • La technique du Data Mining aide les entreprises a obtenir des informations basees sur les connaissances. • L'exploration de donnees aide les organisations a effectuer les ajustements rentables en termes d'exploitation et de production. • L'exploration de donnees est une solution rentable et efficace par rapport a d'autres applications de donnees statistiques. • L'exploration de donnees facilite le processus de prise de decision. • Facilite la prediction automatisee des tendances et des comportements, ainsi que la decouverte automatisee des modeles caches. • Il peut ^etre implemente dans de nouveaux systemes ainsi que sur des plates-formes existantes. • C'est le processus rapide qui permet aux utilisateurs d'analyser une quantite enorme de donnees en moins de temps. 53
  • 54. Inconvénients du Data Mining Inconvénients du Data Mining • Il y a des chances que les entreprises vendent des informations utiles de leurs clients a d'autres entreprises pour de l'argent. • Par exemple: American Express a vendu les achats effectués par carte de crédit de ses clients a d'autres sociétés. • De nombreux logiciels d'analyse de Data Mining sont difficiles a utiliser et nécessitent une formation avancée. • Différents outils d'exploration de données fonctionnent de différentes manières en raison des différents algorithmes utilisés dans leur conception. Par conséquent, la sélection d'un outil d'exploration de données correct est une tache très difficile. 54
  • 55. Conclusion Résumé • Le Data Mining consiste a expliquer le passé et a prédire l'avenir pour analyse. • Le Data Mining permet d'extraire des informations a partir d'énormes ensembles de données. C'est la procédure d'extraction de connaissances a partir de données. • Le processus du Data Mining comprend la compréhension des activités, la compréhension des données, la préparation des données, la modélisation, l'évolution, le déploiement. • Les techniques du Data Mining importantes sont la classification, la mise en cluster, la régression, les règles d'association, la détection externe, les modelés séquentiels et la prédiction. 55
  • 56. Conclusion Résumé • Le langage R et Oracle Data Mining sont des outils du Data Mining de premier plan. • La technique du Data Mining aide les entreprises a obtenir des informations basées sur les connaissances. • Le principal inconvénient du Data Mining est que de nombreux logiciels d'analyse sont difficiles a utiliser et nécessitent une formation avancée. • Le Data Mining est utilisé dans divers secteurs tels que les communications, les assurances, l'éducation, la fabrication, la banque, la vente au détails, les prestataires de services, le commerce électronique, la bio-informatique des supermarchés. 56