Data Mining (Partie 1).pdf

Data Mining
(Partie 1)
Master Big Data & Cloud Computing
2021/2022
Département Informatique

Plan de cours
Partie 1
Partie 2
Data Mining : Techniques & Concepts
Exploration et visualisation des données en R
Partie 3
Manipulation des données en R
Partie 4
Etude de cas (Prédire les proliférations d'algues)
2

Introduction
Extraction d'informations intéressantes a partir de grandes bases de données
C'est analyser les données pour trouver des patrons (patterns) caches en utilisant
des moyens automatiques.
C'est un processus non élémentaire de recherche de relations, corrélations,
dépendances, associations, modèles, structures, tendances, classes (clusters),
segments, lesquelles sont obtenues de grande quantité de données
L'objectif principale de Data Mining c'est de créer un processus automatique qui a
comme point de départ les données y comme finalité l'aide a la prise des décisions.
Qu'est-ce que le Data Mining ?
3

Communications
Pour prédire le comportement des clients afin de proposer des campagnes très
ciblées et pertinentes.
Où le Data Mining est-il utilisé?
4

Assurance
Data Mining aide les compagnies d'assurance a rentabiliser leurs produits et a
promouvoir de nouvelles offres auprès de leurs clients existants ou nouveaux.
5

Education
Data Mining permet aux enseignants d'accéder aux données des élevés, de prévoir
leurs niveaux de performance et de trouver des élevés ou des groupes d'élevés qui
nécessitent une attention particulière.
Exemple
les étudiants qui sont faibles en matière de mathématiques.
6

Fabrication
Avec l'aide de Data Mining, les fabricants peuvent prévoir l'usure des actifs de
production. Ils peuvent anticiper la maintenance, ce qui les aide a les réduire et a
minimiser les temps d'arret.
7

Bancaire
Data Mining aide le secteur banquier a se faire une idée des risques du marché et a
gérer la conformité règlementaire. Il aide les banques a identifier les défaillants
probables afin de décider d'émettre des cartes de crédit, des prêts, etc.
8

Vente en details
Les techniques de Data Mining aident les centres commerciaux et les épiceries a
identifier et organiser les articles les plus vendables dans les positions les plus
attentives.
Il aide les propriétaires de magasins a proposer une offre qui encourage les clients a
augmenter leurs dépenses.
9

Service providers
Les fournisseurs de services comme les industries de la téléphonie mobile et des
services publics utilisent Data Mining pour prédire les raisons lorsqu'un client quitte
son entreprise.
Ils analysent les détails de la facturation, les interactions du service client, les plaintes
adressées a l'entreprise pour attribuer a chaque client un score de probabilité et des
incitations.
10

E-Commerce
Les sites Web de commerce électronique utilisent Data Mining pour proposer des
ventes croisées et des ventes supplémentaires via leurs sites Web. L'un des noms les
plus célèbres est Amazon, qui utilise des techniques d'exploration de données pour
attirer davantage de clients dans sa boutique en ligne.
11

Enquête criminelle
Data Mining aide les agences d'enquêtes criminelles a déployer des forces de police
(ou un crime est-il le plus susceptible de se produire et quand?).
12

Bio-informatique
Data Mining permet d'exploiter des données biologiques a partir d'énormes jeux de
données rassembles en biologie et en médecine.
13

Types de données
Sur quels types de données s'applique le Data Mining?
Fichiers plats
BD's relationnelles
Data warehouses
BD's transactionnelles
BD's avancées
• BD's objet et objet-relationnelles
• BD's spatiales
• Séries temporelles
• BD's Textes et multimédia
• BD's Hétérogènes
• WWW (web mining)
• Capteurs → variables quantitatives,
qualitatives, ordinales
• Texte → Chaîne de caractères
• Parole → Séries temporelles
• Images → données 2D
• Videos → données 2D + temps
• Réseaux → Graphes
• Flux → Logs, coupons. . .
• Etiquettes → information d’évaluation
14

Data Mining vs KDD
KDD (Knowledge Discovery in Databses) : C'est le processus de trouver information et/ou
partons utiles a partir de données.
Data Mining : C'est l'utilisation des algorithmes pour extraire information et/ou partons
comme partie du processus KDD.
15

Data Mining vs KDD
Processuc
KDD
Data Mining: C'est une partie du
processus KDD
Data Mining: Le cœur du processus
d'extraction de connaissances.
16

Data Mining
• Des millions d'individus
• Des centaines de variables
• Données recueillies sans étude
préalable
• Nécessite de calculs rapide
• Corpus d'apprentissage
Statistiques
• Quelques centaines d'individus
• Quelques variables
• Fortes hypothèses sur les lois
statistiques
• Importance accordée au calcul
• Echantillon aléatoire
VS
Data Mining vs Statistiques
17

Data Mining vs
machine Learning
Machine Learning: C'est un sujet de l'intelligence artificielle (IA) qui s'occupe de la façon
d'écrire des programmes qui peuvent apprendre. Dans le Data Mining, Machine Learning est
habituellement utilises pour la prédiction et classification.
18

Data Mining vs
machine Learning
• La différence distinct entre l'apprentissage supervisé et l'apprentissage non- supervisé est le fait
que l'apprentissage non-supervisé cherche a trouver des partitions de modelés par lui-même,
• l'extraction des données est donc descriptive.
• L'apprentissage supervisé est utilisé quand l'utilisateur sait labelliser les informations.
• l'extraction des données est donc prédictive.
Machine Learning
Apprentissage
supervisé
Classification
Apprentissage non
supervisé
Clustering
19

Applications par
domaine
Application du Data Mining
20

Les étapes du
Data Mining
1. Nettoyage des données (erreurs, données manquantes);
2. Transformation éventuelle des données (normalisation, linéarisation...);
3. Explicitation de l'objectif de l'analyse en terme statistique (régression, classification,
clustering...);
4. Choix de la méthode a utiliser;
5. Mise en œuvre informatique
6. Test (validation de la qualité des résultats);
7. Exploitation
21

Les étapes du
Data Mining
1. Nettoyage des données (erreurs, données manquantes);
2. Transformation éventuelle des données (normalisation, linéarisation...);
3. Explicitation de l'objectif de l'analyse en terme statistique (régression, classification,
clustering...);
4. Choix de la méthode a utiliser;
5. Mise en œuvre informatique
6. Test (validation de la qualité des résultats);
7. Exploitation
22

Cycle de vie d'un
projet de Data Mining
1. Apprentissage du domaine d'application :
• Connaissances nécessaires et buts de l'application
2. Création du jeu de données cible :
• sélection des données
3. Nettoyage et prétraitement des données (jusqu'a 60% du travail !)
4. Réduction et transformation des données:
• Trouver les caractéristiques utiles, dimensionnalité/réduction des variables
5. Choix des fonctionnalités Data Mining synthèse, classification régression, association, clustering;
6. Choix des algorithmes;
7. Data Mining : recherche de motifs (patterns) intéressants
8. Evaluation des motifs et représentation des connaissances: visualisation, transformation, élimination des motifs
redondants, etc.
9. Utilisation des connaissances découvertes.
23

Les techniques du Data Mining
LES TECHNIQUES DU Data Mining
Classification Clustering Regréssion
Détection
extérieure
Patterns
séquentiels
Prédiction
Règles
d'association
24

Taches en Data Mining
Data Mining
Predictive
Regression
Classification
Prediction
Analyse des
series
temporelles
Descriptive
Clustering
Régles
d’association
Découvrir
sequences
Analyse
sommaire
Descriptives
consiste à trouver les caractéristiques
générales relatives aux données
fouillées (résumé/synthèse,
Clustering, Règles d’association)
Prédictives
Consiste à utiliser certaines variables
pour prédire les valeurs futures
inconnues de la même variable ou
d’autres variables (Séries temporelles,
Régression, Classification).
25

Les algorithmes
basiques
Les algorithmes basiques du Data Mining
Classication Clustering Régression
Règles
d'association
Decision tree (C4.5)
K-means
CART (Classification
And Regression Tree)
Apriori
Algorithms
SVM (Support Vector
Machine)
K-NN (k-Nearest
Neighbor) EM (Expectation
Maximation)
Naive Bayes
26

Classification
• Cette analyse est utilisée pour extraire des informations importantes et
pertinentes sur les données et les métadonnées. Cette méthode
d'exploration de données permet de classer les données dans différentes
classes.
• Associer des données a des groupes prédéfinis (apprentissage supervisé).
• Trouver des modelés (fonctions) qui décrivent et distinguent des concepts
pour de futures prédictions
Methodes
Arbres de decision;
Regles de classification;
Reseaux neuronaux. tures predictions
27

SVM (Support Vector
Machine )
• La machine a vecteurs de support SVM appelés aussi séparateurs a vaste marge est une technique
d’apprentissage supervise destinée a résoudre des problèmes de classification.
• SVM est une méthode de classification a deux classes qui tente de séparer parfaitement les deux
ensembles d’exemples.
• La méthode cherche alors l’hyperplan qui sépare les ensembles de données, en garantissant que la
marge entre le plus proche de ces données soit maximale.
SVM (Support Vector Machine)
28

SVM (Support Vector
Machine )
L'objectif est de faire une classification a deux classes qui tente de séparer les point positifs des point
négatives dans l’ensemble des exemples.
SVM linéaire cherche alors l’hyperplan qui sépare les deux classes des points. La distance entre le plus
proche des positifs et des négatives soit toujours maximale.
Hyperplan
X2
= +1
= -1
Donnée:
<𝑥!,𝑦!>, i=1,2,3,4….,+∞
𝑥! ∈ 𝑅"
𝑦! ∈ {−1 , +1}
29

SVM (Support Vector
Machine)
Tous les hyperplans de 𝑅!
sont paramètres par un vecteur (w) et une constant b.
w*x+b=0
Le but est de trouver un tel hyperplan f(x)=signe(w*x+b), qui classifie correctement ces points.
F(x)
X2
= +1
= -1
Donnée:
<𝑥!,𝑦!>, i=1,2,3,4….,+∞
𝑥! ∈ 𝑅"
𝑦! ∈ {−1 , +1}
30

Avantages de
SVM
• Les SVM fournissent généralement des prévisions précises.
• Les SVM déterminant l’hyperplan optimal par les points les plus proches uniquement et non par des
points distants.
• Les points supports donne une bonne indication de la complexité du problème traité
31

Inconvénients de
SVM
• Difficulté a identifier les bonnes valeurs des paramètres.
• Problème lorsque les classes sont bruitée (multiplication des ponts supports).
• Difficulté d’interprétations (ex pertinence des variables).
• Le traitement des problèmes multi-classes reste un question ouverte.
32

Arbre de décision
C4.5
Les arbres de décision sont des schémas représentant les résultats possibles d’une série de choix
interconnectes. Ils sont des classifier(non des classeurs) qui opérant sur des instances représentées par
des formalismes attribut/valeur.
Les nœuds testent les attributs. Il y a une branche pour chaque valeur testé. Les feuilles servent a
spécifier les catégories (deux ou plus).
Arbre de decision C4.5
Un arbre de décision est
un arbre ou :
Nœud : test sur un attribut
une branche d’un nœud : un test sur un attribut
Feuilles : classe donnée
Problème : choix de l’attribut
33

Arbre de décision
C4.5
L’objectifs de C4.5 est de construire un arbre de décision avec un attribut a chaque nœud. Cet
algorithme a quelques cas de base:
• L’arbre est construit en commençant a la racine de l’arbre
• Trouver l’attribut avec un gain maximale d’information a la base de la fonction entropie
• Placez un nœud enfant pour chaque valeur de cette attribut
• Ajoutez tous les informations de l’ensemble d’apprentissage au nœud enfant correspondant
• Si tous les informations d’un nœud enfant appartiennent a la même classe, mettez la classe en-bas et
remonter dans l’arbre
• Sinon, continuez avec l'étape 2 pendant que les attributs sont affectées
• Quand plus d’abréviations sont affectées, mettez la classification de la majorité des informations a ce nœud.
34

Avantages de
C4.5
• Ils sont faciles a comprendre
• Multi-classe par nature
• De nouvelles options peuvent être ajoutées aux arbres existants.
• Ils permettant de sélectionner l’option la plus appropriée parmi plusieurs.
• Il est facile de les associer a d’autres outils de prise de décision
35

Inconvénients de
C4.5
• Ils sont instables, c,a,d un petit changement dans les données peut entrainer une modification
importante de la structure de l’arbre de décision optimal.
• Les calcules peuvent devenir très complexes.
• Ne gère pas les données en streaming
• Evolutivité dans le temps: si les données évoluent dans le temps, il est nécessaire de relancé la phase
d'apprentissage
36

k-NN: la méthode des
k plus proches voisins
• Le k-NN est un algorithme qui peut server pour la classification supervise.
• Le principe de ce modèle consiste en effet a choisir les k instances les plus proches du point étudié
selon un distance a définir afin den prédire sa classe.
Le k-NN nécessite seulement:
Un entier k
Une base d’apprentissage
Une métrique pour la proximité (la distance euclidienne)
la méthode des k plus proches voisins
37

k-NN: la méthode des
k plus proches voisins
Exemple
Le but est de trouver la valeur de la classe de l’inconnu x
On prend la distance euclidienne et k=5 voisins.
Des 5 plus proches voisins (5-NN), 4 appartiennent a la clase w1 et 1
appartient a la classe w3.
Donc x est affecté a w1 classe majoritaire
38

Résumé de
l’algorithme k-NN
Etape 1:
• Définissez la distance ou mesure de similarité de deux échantillons(instances)
Etape 2:
• Déterminer k (généralement impaire pour faciliter le vote)
Etape 3:
• Calculer les distances entre la nouvelle entrée et toutes les données de la base de l’apprentissage
Etape 4:
• Triez la distance et déterminez les k plus proches voisins sur la base de la distance minimale
Etape 5:
• Rassemblez les étiquettes de classe de ces voisins
Etape 6:
• Déterminer l’étiquette de prédiction en fonction de votre classe majoritaire
39

Avantages de
k-NN
• Apprentissage rapide
• Méthode facile a comprendre
• Adapte aux domaines ou chaque classe est représenté par plusieurs prototypes
40

Inconvénients de
k-NN
• Prédiction lente car il faut revoir tous les exemples a chaque fois
• Méthode gourmande en place mémoire
• Vulnérable aux données de grande dimension
41

Naïve Bayes
La classification Naïve Bayésienne est un type de classification probabiliste simple basée sur le
théorème de bayes avec une forte indépendance (naïve).
Le problème de classification peut être formulé:
P(C|X)= probabilité que le tuple X= <X1,……Xk> est dans la classe C
But: affecter a une instance X la classe C telle que P(C|X) est maximale
Naïve Bayes
42

Clustering
• Identifier les données qui se ressemblent. Ce processus aide a comprendre les differences et les
similitudes entre les données. c'est similaire a la classification, sauf que les groupes no sont pas
prédéfinies.
• L'objectif est de décomposer ou de segmenter un ensemble de données ou individus en groupes qui
peuvent être disjoints ou non.
• Les groupes se forment a base de la similarité des données o des individus en certaines variables
• Comme groupes suggères (imposes) par les données, l'expert doit donner une interprétation des
groupes qui se forment.
Méthodes :
• K-means
• Classification hiérarchique (groupes disjoints)
• Classification pyramidale (groupes non disjoints) 43

Qualité d'un
clustering
Une bonne méthode de clustering produira des clusters d'excellente qualité avec :
-Similarité importante intra-classe
-Similarité faible inter-classe
La qualité d'un clustering dépend de :
-La mesure de similarité utilisée
-L'implémentation de la mesure de similarité
La qualité d'une méthode de clustering est évaluée par son habilité a découvrir certains ou tous les
"patterns" cachés.
44

Objectifs du
clustering
45

Workflow de
Classification supervise
Classification supervisé
Feature
Extraction/Selection
Feature
Extraction/Selection
Classifier
Class 1 Class 2 Class n
Training
Algorithm
Test Data Training data
model
…
46

Important !
• Pas de garantie que l’algorithme trouve la solution optimale
• Une mauvaise sélection initiale des centres peut conduire à un groupement pauvre
• Recommandation: Exécuter l’algorithme plusieurs fois avec des points différents.
• K-means, comme n’importe quel algorithme qui se calcule à base des distances, peut être affecté par
les unités de mesure des variables
• Les variables mesurées en grandes unités dominent la construction des clusters
• Recommandation: Standardiser les variables avant de commencer la recherche des clusters.
47

Avantages de
K-Means
• Rapidité, peut être appliqué à des bases données relativement grandes.
• Economique de point de vue stockage de données (stoker les K centres)
K-means
48

Inconvénients de
K-Means
• Suppose la connaissance de K (en réalité jamais connu)
• Sensible à la présence des observations extrêmes
Clustering
49

Régression
• L'analyse de régression est la méthode d'exploration de données permettant d'identifier et d'analyser
la relation entre les variables. Il est utilisé pour identifier la probabilité d'une variable spécifique, étant
donné la présence d'autres variables.
• Prédire les valeurs absentes d'une variable en se basant sur sa relation avec les autres variables de
l'ensemble de données.
• linéaire;
• non linéaire;
• logistique;
• logarithmique;
• univariee;
• multivariee;
• ....
50

Règles d'association
• Cette technique d'exploration de données permet de trouver l'association entre deux ou plusieurs
éléments. Il découvre un motif caché dans le jeu de données.
• Analyse d'anuité : connue comme (Link Analysis) se réfère a découvrir les relations non évidentes
entre les données.
Méthodes :
Règles d'associations (association rules)
Analyse de corrélation
51

Prédiction
• Prédiction a utilisé une combinaison des autres techniques d'exploration de données telles que les
tendances, les modelés séquentiels, les regroupements, la classification, etc.
• Elle analyse les évènements ou instances passées dans le bon ordre pour prédire un évènement futur.
52

Avantages du Data Mining
Avantages du Data Mining
• La technique du Data Mining aide les entreprises a obtenir des informations basees sur les
connaissances.
• L'exploration de donnees aide les organisations a effectuer les ajustements rentables en termes
d'exploitation et de production.
• L'exploration de donnees est une solution rentable et efficace par rapport a d'autres applications de
donnees statistiques.
• L'exploration de donnees facilite le processus de prise de decision.
• Facilite la prediction automatisee des tendances et des comportements, ainsi que la decouverte
automatisee des modeles caches.
• Il peut ^etre implemente dans de nouveaux systemes ainsi que sur des plates-formes existantes.
• C'est le processus rapide qui permet aux utilisateurs d'analyser une quantite enorme de donnees en
moins de temps. 53

Inconvénients du Data Mining
Inconvénients du Data Mining
• Il y a des chances que les entreprises vendent des informations utiles de leurs clients a d'autres
entreprises pour de l'argent.
• Par exemple: American Express a vendu les achats effectués par carte de crédit de ses clients a
d'autres sociétés.
• De nombreux logiciels d'analyse de Data Mining sont difficiles a utiliser et nécessitent une formation
avancée.
• Différents outils d'exploration de données fonctionnent de différentes manières en raison des
différents algorithmes utilisés dans leur conception. Par conséquent, la sélection d'un outil
d'exploration de données correct est une tache très difficile.
54

Conclusion
Résumé
• Le Data Mining consiste a expliquer le passé et a prédire l'avenir pour analyse.
• Le Data Mining permet d'extraire des informations a partir d'énormes ensembles de données. C'est la
procédure d'extraction de connaissances a partir de données.
• Le processus du Data Mining comprend la compréhension des activités, la compréhension des
données, la préparation des données, la modélisation, l'évolution, le déploiement.
• Les techniques du Data Mining importantes sont la classification, la mise en cluster, la régression, les
règles d'association, la détection externe, les modelés séquentiels et la prédiction.
55

Conclusion
Résumé
• Le langage R et Oracle Data Mining sont des outils du Data Mining de premier plan.
• La technique du Data Mining aide les entreprises a obtenir des informations basées sur les
connaissances.
• Le principal inconvénient du Data Mining est que de nombreux logiciels d'analyse sont difficiles a
utiliser et nécessitent une formation avancée.
• Le Data Mining est utilisé dans divers secteurs tels que les communications, les assurances,
l'éducation, la fabrication, la banque, la vente au détails, les prestataires de services, le commerce
électronique, la bio-informatique des supermarchés.
56

Data Mining (Partie 1).pdf

Contenu connexe

Tendances

Similaire à Data Mining (Partie 1).pdf

Plus de OuailChoukhairi

Data Mining (Partie 1).pdf