Cours datamining

Plan du cours
1. Introduction au Data Mining
 processus d'extraction de connaissance: conception d'un processus de DM
2. Compréhension et préparation des données
 caractéristiques des différents types de la donnée
 exploration statistique des données
 qualité des données
 preprocessing: sélection et création des attributs
 mesures de similarité entre les données
3. les techniques du Data Mining
 classification
techniques de base: les arbres de décision
techniques de base: ensemble des règles et techniques instances based
les classificateurs bayesiens
 règles associatives ou d'association
 clustering
 détection des anomalies (Outlier)
4. TP sur WIKA
16/05/2017 2

Informatique décisionnelle
• L’informatique décisionnelle (en anglais :DSS pour Decision Support System), s’insère dans
l’architecture plus large d’un système d'information.
• L’informatique décisionnelle représente un ensemble de moyens, d’outils et de méthodes
permettant de collecter, consolider, modéliser et de restituer les données de l’entreprise dans le but
d’apporter une aide à la prise de décision.
• Un autre atout de l’informatique décisionnelle est de permettre aux responsables de la stratégie
d’une entreprise d’avoir une vue d’ensemble de l’activité traitée.
Rappel
16/05/2017 3

• Tous les systèmes d’information décisionnelles ,tels que les datawerhouses mettent en œuvre cinq
fonctions fondamentales:
la collecte
l’intégrité
la diffusion
la présentation
l’administration des données
Rappel
16/05/2017 4

La collecte:
La collecte des données brutes dans leurs environnements d’origine, ce qui implique des activités plus ou
moins élaborées de détection et de filtrage, car un excédent de données, un défaut de fiabilité ou un trop
mauvais rapport signal/bruit sont pires que l’absence de données.
L’intégrité:
L’intégration des donnes ,c’est-à-dire leur regroupement en un ensemble technique, logique et sémantique
homogène approprié aux besoins de l’organisation.
La diffusion:
Diffusion, ou la distribution d’informations élaborées à partir des données dans des contextes appropriés au
besoin des individus ou des groupes de travail utilisateurs.
Rappel
16/05/2017 5

la présentation :
La présentation, c’est-à-dire les conditions de mise à disposition de l’information (contrôle d’accès,
personnalisation ..).
l’administration des données:
L’administration qui gère l’ensemble de données de bout en bout ,car le système d’information doit être
contrôlé par un système de pilotage.
 Remarque: en pratique, les fonctions de collecte et d’intégration sont étroitement liées entre elles et
généralement associées au datawerhouse.
Rappel
16/05/2017 6

Datawerhouse
• datawarehouse (ou entrepôt de données) est un serveur informatique dans lequel est centralisé un
volume important de données consolidées à partir des différentes sources de renseignements d'une
entreprise (notamment les bases de données internes).
• L'organisation des données est conçue pour que les personnes intéressées aient accès rapidement et
sous forme synthétique à l'information stratégique dont elles ont besoin pour la prise de décision.
Rappel
16/05/2017 7

Datawerhouse
Ensemble de techniques d'exploration de données afin d'en tirer des
connaissances (la signification profonde) sous forme de modèles
présentés à l’utilisateur averti pour examen c’est le Datamining
Le passage du datawerhouse vers le datamining
Fig1.du datawerhouse vers le datamining
16/05/2017 8

Processus de découverte d’information
Fig2.decouverte de l’information
16/05/2017 9

Etape du processus
1. Compréhension du domaine d’application
2. Création du fichier cible (target data set)
3. Traitement des données brutes (data cleaning and preprocessing)
4. Réduction des données (data réduction and projection)
5. Définition des tâches de fouille de données
6. Choix des algorithmes appropriés de fouille de données
7. Fouille de données (data mining)
8. Interprétation des formes extraites (mined patterns)
9. Validation des connaissances extraites
16/05/2017 10

Datamining
• Qu’est-ce que le datamining
• Pourquoi la naissance du datamining?
• Intérêt du data mining
• Méthodes et technique du datamining
• Grands domaine d’Application du datamining
• Le processus standard d’une étude de datamining
• Les logiciels de datamining
16/05/2017 11

Qu’est-ce que le Datamining
• Le data mining est un procédé d’exploration et d’analyse de grands volumes de données en vue
d’une part de les rendre plus compréhensibles et d’autre part de découvrir des corrélations
significatives, c’est-à-dire des règles de classement et de prédiction dont la finalité ultime la plus
courante est l’aide à la décision.
• Le data mining est un procédé de production de connaissance.
• En termes de logique philosophique traditionnelle, le data mining consiste à produire des
jugements c’est l’étape de description et de compréhension des données) et des règles de
raisonnements (si toutes les personnes sont « a » alors elles seront « b » : c’est l’étape
modélisation qui permet la prédiction).
Datamining
16/05/2017 12

Pourquoi la naissance du datamining ?
Augmentation des capacités de stockage des données (disques durs de giga octets).
Augmentation des capacités de traitement des données (facilité d’accès aux données : il n’y a plus
de bandes magnétiques ; accélération des traitements).
Maturation des principes des bases de données (maturation des bases de données relationnelles).
Croissance exponentielle de la collecte des données (scanners de supermarché, internet, etc.)
Croissance exponentielle des bases de données : capacités atteignant le terabits (1012 bits) et
émergence des entrepôts de données : data warehouse, rendant impossible l’exploitation manuelle
des données.
Plus grande disponibilité des données grâce aux réseaux (intranet et internet).
Développement de logiciels de data mining.
Datamining
16/05/2017 13

Intérêt du datamining
Le datamining permet d’exploiter ces données pour améliorer la rentabilité d’une activité.
Le datamining permet d’augmenter le retour sur investissement des systèmes d’information.
Le datamining est un outil qui permet de produire de la connaissance :
 dans le but de comprendre les phénomènes dans un premier temps : SAVOIR
 dans le but de prendre des décisions dans un second temps : PREVOIR pour DECIDER.
Datamining
16/05/2017 14

Méthodes du data mining
• Du bon sens: Il s’agit d’abord d’analyser les données avec du bon sens et un peu d’outillages
mathématiques et statistiques élémentaires.
• Des algorithmes de calculs statistiques: Il s’agit ensuite d’appliquer des algorithmes de calculs à
des données. Ces algorithmes sont plus ou moins complexes à mettre en œuvre. Ils permettent de
classer les données et de prédire des valeurs inconnues.
Datamining
16/05/2017 15

Les techniques du datamining
La production de règles de raisonnement se fait à partir de plusieurs techniques plus ou
moins spécifiques au data mining à savoir:
Classification
les arbres de décision
ensemble des règles et techniques instances based
les classificateurs bayesians
Règles associatives ou d'association
Clustering
Ces techniques mixent à la fois des statistiques et de l’algorithmique. Globalement, on peut
dire que certaines techniques visent à classer, d’autres visent à prédire. La présentation de ces
techniques formera une grosse partie de ce cours.
Datamining
16/05/2017 16

Applications du datamining
• Publics:
Le scientifique : pour comprendre certains phénomènes.
L’analyste : pour produire des rapports pour les décideurs.
Le décideur (au sens large) : pour l’aide à la décision.
• Principaux secteurs utilisant le data mining:
Les banques Les télécommunications Le e-commerce
La détection des fraudes Les études scientifiques
Le marketing direct Les assurances La distribution
La biologie L’industrie pharmaceutique
Datamining
16/05/2017 17

Gestion de la relation client
Customer Relationship Management (CRM)
• Principe : amélioration de la rentabilité par l’amélioration de la connaissance du client.
• Matière première : les données sur le client.
• Le CRM se divise en deux parties :
• CRM analytique : collecte et analyse des données.
• CRM opérationnel : choix des campagnes marketing (stratégie) et gestion des canaux de
communication (forces commerciales, centres d’appel téléphoniques, internet, télévision, etc.)
• Difficulté : tirer partie de la masse de données. Ne pas se noyer dedans.
Datamining
16/05/2017 18

• Objectif : on ne veut plus seulement savoir : « combien de clients ont acheté tel
produit pendant telle période ?», mais on veut savoir « quel est leur profil ? », « quels
autres produits les intéresseront ? », « quand seront-ils de nouveau intéressés ? ».
• Avec le datamining, on va s’intéresser à l’historique des données, autrement dit à un
film du comportement de la variable étudiée (par exemple, le client) et pas seulement
à une photographie.
• Le développement des systèmes d’informations avec des bases de données favorise
la collecte de l’historique des données et les études de data mining. Et inversement :
c’est parce qu’on pourra tirer quelque chose de ces historiques qu’on aura intérêt à
les conserver.
• Les systèmes d’information permettent de connaître le comportement singulier de
chaque client.
• Le datamining permet de découvrir des corrélations statistiques grâce à l’étude des
comportements de tous les clients, et ainsi de catégoriser le client et de pouvoir
établir un marketing individualisé (one-to-one) et proactif (proposer ce qui est
intéressant au moment où ça intéresse).
Datamining
16/05/2017 19

Autres grands domaines d’application
Secteur bancaire : le scoring, pour mieux cibler les propositions de prêts et
éviter les surendettements (et donc les mauvais payeurs).
Secteur de la téléphonie : prédiction de l’attrition (usure, churn en anglais),
c’est-à-dire le changement d’opérateur.
Grande distribution : analyse du panier de la ménagère pour déterminer les
produits achetés simultanément.
Web mining et e-commerce : 50% des clients d’un constructeur de machine
achètent ses machines à travers le web. Mais seulement 0,5% des visiteurs
du site deviennent clients. L’idée est de stocker les séquences de click des
visiteurs et d’analyser les caractéristiques des acheteurs pour adapter le
contenu du site.
Text mining pour analyser les lettres de réclamation.
Scientifique : identification et classification d'objets célestes.
Médical : analyse de résultat d’une expérimentation
Sécurité informatique : recherche de transactions frauduleuses par la police
suivi des opérations des traders.
Datamining
16/05/2017 20

Une discipline et pas un produit
• À l’origine, le datamining était vue comme un procédé automatique o semi
automatique.
• Aujourd’hui, on est revenu de cette illusion. Le datamining n’est pas un
produit qui peut être acheté, mais bien une discipline qui doit être maîtrisée.
• Avant d’appliquer automatiquement des algorithmes de calculs sur les
données, il faut passer par une phase d’exploration et d’analyse qui ne
saurait être automatisée : elle fait intervenir le bon sens et la connaissance du
contexte (culture générale).
• Quand on veut produire de la connaissance, le problème ne se limite pas à
répondre à des questions. Il faut d’abord poser les questions. C’est cette
première étape qui, pour l’essentiel, fait que le datamining est une discipline
et pas un simple produit.
Le processus standard d’une étude de data mining: Le besoin d’un contrôle humain dans le data mining
16/05/2017 21

Comment faire du mauvais datamining ?
En travaillant sans méthode
En ne préparant pas correctement ses données.
En appliquant des boîtes noires de calculs sans les comprendre.
Un mauvais datamining peut amener à des conclusions erronées et donc à des conséquences très
coûteuses.
16/05/2017 22

Comment faire du bon datamining ?
En suivant une méthode
En préparant les données correctement
En comprenant le principe des modes opératoires (des algorithmes de calculs). En étant capable de
savoir pourquoi on en choisit un plutôt qu’un autre. Une compréhension des modèles statistiques
appliqués par le logiciel est donc nécessaire.
16/05/2017 23

• Le datamining est un processus méthodique : une suite ordonnée
d'opérations aboutissant à un résultat.
• Le CRISP-DM (Cross Industry Standard Process for Data Mining) décrit le
datamining processus itératif complet constitué de 4 étapes divisées en tout
en 6 phases.
Le processus standard d’une étude de data mining: Présentation du CRISP-DM
tableau1.processus du datamining
16/05/2017 24

1 : Compréhension du métier
Cette phase consiste à :
 Énoncer clairement les objectifs globaux du projet et les contraintes de
l’entreprise.
 Traduire ces objectifs et ces contraintes en un problème du datamining.
 Préparer une stratégie initiale pour atteindre ces objectifs.
2 : Compréhension des données
 Recueillir les données.
 Utiliser l’analyse exploratoire pour se familiariser avec les données,
commencer à les comprendre et imaginer ce qu’on pourrait en tirer comme
connaissance.
 Évaluer la qualité des données.
 Éventuellement, sélectionner des sous-ensembles intéressants.
16/05/2017 25

3 : Préparation des données
 Préparer, à partir des données brutes, l’ensemble final des données qui va être utilisé
pour toutes les phases suivantes.
 Sélectionner les cas et les variables à analyser.
 Réaliser si nécessaire les transformations de certaines données.
 Réaliser si nécessaire la suppression de certaines données.
Cette phase fait suite à la compréhension des données. Celle-ci a mis au jour les corrélations,
les valeurs aberrantes, les valeurs manquantes : on peut donc faire la préparation.
4 : Modélisation
 Sélectionner les techniques de modélisation appropriées (souvent plusieurs techniques
peuvent être utilisées pour le même problème).
 Calibrer les paramètres des techniques de modélisation choisies pour optimiser les
résultats.
 Éventuellement revoir la préparation des données pour l’adapter aux techniques
utilisées.
16/05/2017 26

5 : Evaluation de la modélisation
Cette phase consiste à produire le rapport final :
 Pour chaque technique de modélisation utilisée, évaluer la qualité (la
pertinence, la signification) des résultats obtenus.
 Déterminer si les résultats obtenus atteignent les objectifs globaux identifiés
pendant la phase de compréhension du métier.
 Décider si on passe à la phase suivante (le déploiement) ou si on souhaite
reprendre l’étude en complétant le jeu de données.
6 : Déploiement des résultats obtenus
Cette phase est externe à l’analyse du data mining. Elle concerne le maître
d’ouvrage.
 Prendre les décisions en conséquences des résultats de l’étude de data mining
 Préparer la collecte des informations futures pour permettre de vérifier la
pertinence des décisions effectivement mis en oeuvre.
16/05/2017 27

Les logiciels de data mining
Il existe de nombreux logiciels de statistiques et de data mining sur
PC. Certains sont gratuits, d’autres sont payants. Certains sont mono-
utilisateur. D’autres fonctionnent en architecture clients-serveur.
• Parmi les gros logiciels, on peut citer :
• Clementine de SPSS. Clementine est la solution de data mining la plus vendue
dans le monde.
• Entreprise Miner de SAS.
• Statistica Data Miner de StatSoft
• XL Miner (data mining sous excel)
• ORACLE, comme d’autres SGBD, fournit des outils de data mining
• Parmi les logiciels gratuits, on peut citer :
• TANAGRA, logiciel de data mining gratuit pour l'enseignement et la recherche.
• ORANGE, logiciel libre d’apprentissage et de data mining.
• WEKA, logiciel libre d’apprentissage et de data mining.
Datamining
16/05/2017 28

WEKA
• Weka 3: Data Software Mining en Java
• Weka est une collection d'algorithmes d'apprentissage machine pour les tâches d'exploration de
données. Les algorithmes peuvent être soit appliquées directement à un ensemble de données ou
appelés à partir de votre propre code Java.
• Weka contient des outils pour les données de pré-traitement, la classification, la régression, le
regroupement, les règles d'association, et la visualisation.
• Il est également bien adapté pour le développement de nouveaux programmes d'apprentissage
machine.
• Site web: http://www.cs.waikato.ac.nz/ml/weka/
Datamining
16/05/2017 29

Environnement de travail
• Se familiariser avec :
• weka
• Les dataset
• Eclipce
16/05/2017 30

Références
• Laurent Candillier. Classification non supervisée contextualisée, 2003.
• Ultra Fluide. Tour d’horizon sur le datamining, 2003. url : http://www.ultra-
fluide.com/agence-web/datamining.htm.
• Giorgio Ingargiola. Building Classification Models : ID3 and C4.5, 1997. url :
http://www.cis. temple.edu/˜ingargio/cis587/readings/id3-c45.html.
• Mathieu Beal Paul Balez. Algorithmes de datamining. 2002.
• J örg Sander Martin Ester Hans-Peter Kriegel Xiaowei Xu. Density-Based
Clustering in Spatial Databases : The Algorithm GDBSCAN and its Applications.
• Martin Ester Hans-Peter Kriegel J örg Sander Xiaowei Xu. ADensity-Based
Algorithm for Discovering Cluster in Large Spatial Databases with Noise, 1996.
• Xiaowey XU. A Fast Parallel Clustering Algorithm for Large Spatial Databases,
1999.
16/05/2017 31

Plan
• Classification supervisée
• Les arbres de décision
• Définition
• Vocabulaire des arbres
• Exemple d’arbre de décision
• Algorithme CART
• Algorithme ID3
• Algorithme C4.5
• TP Arbre de décisions

Apprentissage supervisé
En sciences cognitives, l’apprentissage supervisé est une technique
d’apprentissage automatique plus connu sous le terme anglais de machine-
learning qui permet à une machine d’apprendre à réaliser des tâches à
partir d’une base d’apprentissage contenant des exemples déjà traités.
Chaque élément (item) de l’ensemble d’apprentissage (training set)
étant un couple entrée-sortie.
De part sa nature, l’apprentissage supervisé concerne essentiellement
les méthodes de classification de données (on connaît l’entrée et l’on veut
déterminer la sortie) et de régression (on connaît la sortie et l’on veut
retrouver l’entrée).

Arbres de décision
L’arbre de décision est un outil de classification et prédiction, sa
popularité repose en grande partie sur sa simplicité. Un arbre de décision est
composé d’un nœud racine par lequel entrent les données, de nœuds feuilles
qui correspondent à un classement de questions et de réponses qui
conditionnent la question suivante.
C’est un processus interactif d’induction de règles qui permet
d’aboutir à une affectation bien justifiée. Le branchement des nœuds passe
par le calcul de différents critères selon l’algorithme choisi. Il existe
différents algorithmes pour la construction des arbres de décision tels qu’ID3,
C4.5, CHAID et CART et bien d’autres que nous allons voir en détails dans
la partie concernant la présentation des algorithmes.

Un arbre est constitué de noeuds connectés entre eux par des branches.
Un arbre de décision est constitué de noeuds de décision.
Une branche entre deux noeuds est orientée : l’un des noeuds de la connexion est dit « noeud
parent », et l’autre « noeud enfant ».
Chaque noeud est connecté à un et un seul noeud parent, sauf le noeud racine qui n’a pas de
parent.
Vocabulaire des arbres
Arbre, noeud, racine, feuille

Chaque noeud peut être connecté à 0 ou n noeuds enfants.
Les deux caractéristiques précédentes font qu’un arbre n’est pas un réseau (ou graphe).
Un noeud qui n’a pas de parents est appelé « noeud racine » ou « racine ».
Un noeud qui n’a pas de noeuds enfants est appelé « noeud feuille » ou « feuille ».
Arbre, noeud, racine, feuille

Exemple d’arbre binaire orienté

Variable cible et variables prédictives
• Comme toutes les méthodes supervisées, un arbre de décision travaille sur une variable cible avec
plusieurs variables prédictives.
• Chaque noeud non-feuille correspond à une variable prédictive.
• Chaque noeud feuille correspond à la variable cible.
• Chaque branche correspond à une valeur pour la variable prédictive du noeud parent (ou un
ensemble de valeurs).

Chemin, prédiction
• Un chemin est un parcours du noeud racine jusqu’à un noeud feuille.
• Chaque branche précise la valeur que prend la variable prédictive du noeud à l’origine de la
branche.
• Un chemin se termine par un noeud feuille qui précise la ou les valeurs prévues pour les
enregistrements de la variable cible pour ce chemin particulier.
• L’objectif est d’arriver autant que possible à des feuilles pures.

Feuille pure
• Un noeud feuille est pur si les valeurs de la variable cible sont les mêmes pour tous les
enregistrements de ce noeud, autrement dit si le chemin (donc le n-uplet de valeurs pour le nuplet
de prédicteurs) détermine la valeur de la variable cible.

Arbre systématique et group by SQL
• Fabriquer un arbre de décision systématique consiste à peu près à effectuer la commande SQL
suivante :
Select variables prédictives, variable cible, count(*)
From table
Group by variables prédictives, variable cible
• Il y a toutefois une nuance à souligner : sur le chemin, on peut retrouver plusieurs fois la même
variable.

Présentation des données
Soit le dictionnaire des variables suivant concernant un fichier de clients d’une
banque :
Parmi ces 4 attributs, on définit trois variables prédictives : économie, capital
et revenu ; et une variable cible : risque.
Exemple

Représentation SQL de l’arbre de décision systématique
• L’arbre de décision systématique correspond à la commande SQL suivante :
Arbre =Select Eco, Cap, Rev, Ris, count(*)
From Clients
Group by Eco, Cap, Rev, Ris
Exemple

• Le résultat de cette commande est le suivant :
• Les effectifs donnés par le count(*) correspondent au nombre de clients qui ont les caractéristiques
de la ligne.
Exemple

Analyse de la pureté des feuilles
• Pour savoir avoir une feuille pure, il faut que le triplet (Eco, Cap, Rev) soit unique.
• C’est le cas dans le tableau précédent.
Exemple

Représentation graphique de l’arbre de décision systématique
• On représente maintenant la situation sous la forme d’un arbre systématique :
Exemple

Extraction des règles de décision
• On peut constater que :
Règle 1 : (Eco +, Cap +) => Ris ++ quel que soit Rev
Règle 2 : (Eco +, Cap --) => Ris -- quel que soit Rev
Règle 3 : (Eco -, Rev +) => Ris ++ quel que soit Cap
Règle 4 : (Eco -, Rev --) => Ris -- quel que soit Cap
Exemple

• On peut donc remplacer l’arbre précédent par un arbre avec moins de branches et des branches plus
courtes :
Exemple

Algorithmes de fabrication des arbres de décision
Il existe plusieurs algorithmes pour fabriquer des arbres de décision.
• Citons particulièrement :
Le CART : méthode des arbres de segmentation et de régression (1984). Le CART fabrique
des arbres binaires (toujours deux branches par noeuds non-feuilles). C’est un des algorithmes
les plus performants et les plus répandus.
ID3(1986): il a pour but de construire un arbre de décision de façon récursive en choisissant
l’attribut qui maxime le gain d’information
L’algorithme C4.5 (1993). Le C4.5 fabrique des arbres qui ne sont pas nécessairement binaires
(0 à n branches par noeud).
L’algorithme C5.0 (1998) est un perfectionnement du C4.5.
Algorithmes

Principe
• CART (Classification And Regression Tree) construit un arbre de décision strictement binaire avec
exactement deux branches pour chaque nœud de décision.
• L’algorithme partitionne l’ensemble d’entraînement de façon récursive selon la méthode diviser
pour mieux régner
• Pour chaque nœud de décision, CART fait une recherche exhaustive sur tous les attributs et valeurs
de séparation disponibles et sélectionne la séparation s qui maximise le critère suivant au nœud t
Algorithme CART

Technique
• Mesure de la qualité d’une scission
Avec:
· j(st) : mesure de la qualité d’une scission au noeud t
La meilleure scission parmi toutes les scissions possibles au noeud t est celle qui a la
plus grande valeur pour j(st) .
· PG : (nb enregistrements à tG) / nbTotal
· PD : (nb enregistrements à tD) / nbTotal
tG : noeud enfant gauche du noeud t
tD : noeud enfant droit du noeud t
nbTotal : nombre d’enregistrements dans tout l’ensemble d’apprentissage
· nbClasses : nombre de catégories de la variable cible
· P(itG) : (nb enregistrements pour la classe i à tG) / (nb enregistrements à t)
· P(itD): (nb enregistrements pour la classe i à tD) / (nb enregistrements à t)
Le nombre d’enregistrement sur un noeud correspond au nombre d’enregistrements
restants après les décisions déjà prises.
Algorithme CART

Algorithme
Début
L’algorithme part de la racine de l’arbre.
Boucle de parcours de l’arbre
À chaque noeud de décision, l’algorithme fait une recherche exhaustive
sur toutes les catégories de toutes les variables et mesure à chaque fois la valeur de la scission
obtenu.
L’algorithme choisit la scission optimale.
Il n’y a qu’une scission par noeud puisque l’arbre est binaire.
Fin de boucle
Fin
Algorithme CART

l’arrêt d’algorithme
• L’algorithme s’arrête lorsque l’un des cas d’arrêt suivant est rencontré :
le nœud est pur, ie. tous les éléments du nœud appartiennent à la même classe ;
tous les attributs ont été utilisés précédemment ;
la profondeur de l’arbre à atteint la valeur maximale définie par l’utilisateur ;
la taille du nœud est inférieure à la taille minimale définie par l’utilisateur ;
la taille d’un des fils qui résulterait de la séparation optimale est inférieure à la taille minimale
définie par l’utilisateur.
Algorithme CART

Principe
• ID3 construit un arbre de décision de façon récursive en choisissant l’attribut qui maxime le gain
d’information selon l’entropie de Shannon. Cet algorithme fonctionne exclusivement avec des
attributs catégoriques et un nœud est créé pour chaque valeur des attributs sélectionnés.
• ID3 est un algorithme basique facile à implémenter dont la première fonction est de remplacer les
experts dans la construction d’un arbre de décision.
• Cependant, les arbres de décisions ne sont ni robustes, ni compacts ce qui les rends inadaptés aux
grosses bases de données.
Algorithme ID3

Condition d’arrêt de construction de l’arbre:
basée sur un test de khi-deux pour un risque bien défini.
• paramètres:
Confidence level : Risque du test d'indépendance du KHI-2 sur
un nœud à segmenter. Une p-value du test plus grande que
ce niveau constitue une règle d'arrêt de l'expansion de l'arbre.
Algorithme ID3

Principe
• C4.5 est une amélioration d’ID3 qui permet de travailler à la fois avec des données
discrètes et des données continues. Il permet également de travailler avec des valeurs
d’attribut absentes.
• Enfin, C4.5 élague l’arbre construit afin de supprimer les règles inutiles et de rendre
l’arbre plus compact.
• L’algorithme C5, qui est une solution commerciale, est une amélioration supplémentaire
de C4.5.
Algorithme C4.5

Technique
• La construction de l’arbre se base sur un nouveau critère qui est le
ratio de gain:
avec
• le ratio de gain exprime la proportion
d’information générée par le partitionnement
selon l’attribut X, qui est utilisable pour le
classement.
Algorithme C4.5

Références
• Bardos M, Analyse Discrimininante : Application au risque et scoring financier, Dunod, 2001.
• Bouroche J., Tenenhaus M., Quelques méthodes de segmentation, RAIRO, 42, 29-42, 1970.
• Breiman L, Friedman J., Olshen R., Stone C., Classification and Regression Tree, California: Wadsworth International, 1984.
• Breiman L., Bagging Predictors, Machine Learning, 24, 123-140, 1996.
• Breslow L., Aha D., Simplifying Decision Trees: A survey, The Knowledge Engineering Review, 12, 1, 1-40, 1997.
• Brodley C., Utgoff P., Mutlivariate Decision Trees, Machine Learning, 19, 1, 45-77, 1995.
• Buntine W., About the IND tree package, Technical Report, NASA Ames Research Center, Moffet Field, California, September 1991.
• Buntine W., Niblett T., A further comparison of splitting rules for decision tree induction,Machine Learning, 8, 75-85, 1992.
• Cantu-Paz E., Kamath C., Inducing Oblique Decision Trees with Evolutionary Algrothms, IEEE Transactions on Evolutionary
Computation, 7, 1, 54-69, 2003.
• Catlett J., Megainduction : machine learning on very large databases, PhD Thesis, University of Sidney, 1991.
• Celeux G., Lechevallier Y., Méthodes de segmentation, in Analyse Discriminante sur Variables Continues, Celeux G. éditeur, INRIA,
7, 127-147, 1990.
• Chavent M., Guinot C., Lechevallier Y., Tenenhaus M., Méthodes divisives de classification et segmentation non supervisée :
recherche d'une typologie de la peau humaine saine, Revue de Statistiques Appliquées, XLVII (4), 87—99, 1999.

Plan
Classification Non supervisé
Les systèmes de clustering
Les clusterings
Propriété
Etape de clustering
Méthode de clustering
Clustering Hiérarchique
 Principe
 Algorithme
Clustering basé sur la répartition
 K-means
 K-médoide
Clustering basé sur la densité
 Principe
 Dbscan
16/05/2017 63

la classification
• Classer est une action élémentaire permettant d’apprendre le monde et construire son langage en
regroupant ces caractéristiques sur la présence d’un critère partagé .
• En informatique, une classification est un concept initiale qui a l’objectif de classer un ensemble
d’objets ou individus afin de résoudre de nombreux problèmes tels que la sécurité des systèmes, la
segmentation des images, la gestion de classement des documents…etc.
• On distingue deux catégories majeures de la classification:
• La classification non-supervisée
• La classification supervisée
16/05/2017 64

Classification non supervisée
La classification non supervisé est la recherche d’une segmentation,
c’est-à-dire d’une partition, ou répartition des individus en classes, ou
catégories; Ceci est fait en optimisant un critère visant à regrouper les
individus dans des classes, chacune le plus homogène possible et, entre elles,
les plus distinctes possible c’est le principe de clustering
6516/05/2017

Les Clusters
• A la base, un cluster est un ensemble d’éléments. Cet ensemble est différent des autres.
• Les méthodes d’analyse de clusters sont des algorithmes non-supervisés, ils permettent de générer
et de trouver des classes naturelles.
• Le prototype d’un cluster est son centre, aussi appelé centroid.
Les systèmes de clustering
16/05/2017 66

Propriétés d’un cluster
Les deux propriétés importantes définissant un cluster pertinent sont :
sa cohésion interne (que les objets appartenant à ce cluster soient les plus similaires
possibles)
son isolation externe (que les objets appartenant aux autres clusters soient les plus
éloignés possible).
16/05/2017 67

• Pour observer cela, plusieurs mesures sont associées a un cluster :
– sa densité (la masse d’objets par unité volumique)
– sa variance (le degré de dispersion des objets dans l’espace
depuis le centre du cluster)
– sa dimension (typiquement son radius ou son diamètre)
– sa forme (hyper sphérique/allongée/concave/convexe,...)
– sa séparation (par rapport aux autres clusters).
16/05/2017 68

Etapes d’un système de clustering
Les différentes étapes d’une tâche de clustering sont les suivantes :
1. Représentation des données :La représentation des données se réfère à la spécification du nombre
de classes disponibles pour l’algorithme de clustering par:
L’extraction des attributs correspond à l’utilisation d’une ou plusieurs transformations des
attributs fournis en entrée pour produire de nouveaux attributs pertinents.
La sélection des attributs est le processus permettant d’identifier le sous-ensemble des
attributs le plus efficace à utiliser pour le clustering.
16/05/2017 69

2. définition d’une mesure de proximité appropriée au domaine des
données: La proximité entre données est typiquement mesurée par une
fonction de distance définie entre paires de données.
3. regroupement (clustering): Les clusterings résultant peuvent être une
partition des données en groupes distincts.
4. abstraction des données (si nécessaire): L’abstraction des données est le
processus d’extraction d’une représentation simple et compacte de l’ensemble
des données (typiquement, la description de chaque cluster).
5. évaluation de la sortie (si nécessaire):L’´évaluation de la partition peut se
faire de trois manières :
évaluation externe : comparer la structure à une structure à priori
évaluation interne : déterminer si la structure est intrinsèquement
appropriée aux données
évaluation relative : comparer différentes structures possibles
16/05/2017 70

Les méthodes de clustering
• On distingue trois grandes familles de clustering :
Clustering Hiérarchique
Clustering basé sur la répartition
16/05/2017 71

Principe
Clustering Hiérarchique a pour but de former une hiérarchie de clusters, telle que plus on
descend dans la hiérarchie, plus les clusters sont spécifiques à un certain nombre d’objets considérés
comme similaires.
Clustering hiérarchique
16/05/2017 72

Exemple d’arbre de clusters
16/05/2017 73

Dendrogramme
C’est un graphe hiérarchique qui peut être coupé à un niveau de dissimilarité pour former une
partition.
La hiérarchie de clusters est représentée comme un arbre de clusters, appelé dendrogramme
Les feuilles de l’arbre représentent les objets
Les nœuds intermédiaires de l’arbre représentent les clusters
16/05/2017 74

Avantages :
Conceptuellement simple
Propriétés théoriques sont bien connues
Quand les clusters sont groupés, la décision est définitive => le
nombre d’alternatives différentes à examiner est réduit
Inconvénients :
Groupement de clusters est définitif => décisions erronées sont
impossibles à modifier ultérieurement
Méthodes non extensibles pour des ensembles de données de
grandes tailles
16/05/2017 75

le clustering par partition
le clustering par partition, dont le but est de former une partition de l’espace des objets,
selon une certaine fonction critère, chaque partition représentant alors un cluster dans cette famille,
plusieurs méthodes se distinguent fortement :
 K-means
 K-médoide
16/05/2017 76

Principe
L’algorithme de classification K-means consiste à classer les objets optimisés en k classes
(clusters), ces classes sont présentées par les moyennes pondérées des objets inclus dans les
classes, ces moyennes sont appelées ¨centroides¨.
K-means
16/05/2017 77

Algorithme
L’état stable est l’état dont lorsque l’algorithme trouve après une telle classification les
mêmes résultats que celle-ci du l’étape précédente
K-means
16/05/2017 78

Déroulement du l’algorithme
Cet algorithme se déroule d’une façon itérative dans une suite
d’étapes qu’on va les citer:
1. Le choix un nombre k qui va présenter le nombre des classes (dans notre
cas le K égale à 2).
2. Choix de k objets et mettre chacun dans une classe différente.
3. Calculer les centroides des classes.
4. Calculer les distances entre les objets et les centroides et affecter chaque
objet à la classe qui convient en basant sur le principe de la distance
minimale.
5. Recalculer les centroides.
6. Répéter les étapes 4 et 5 jusqu’à ce qu’on trouve l’état stable.
K-means
16/05/2017 79

Inconvénients de k-means
N’est pas applicable en présence d’attributs où la moyenne n’est pas définie
On doit spécifier k (nombre de clusters)
Incapable de traiter des données bruitées
Les clusters sont construits par rapports à des objets inexistants (les milieux)
Ne peut pas découvrir les groupes non-convexes
Les outliers sont mal gérés.
K-means
16/05/2017 80

« K-medoid » PAM « K-representants »
• un médoïde est le représentant le plus central d'une classe.
• L'algorithme des k-medoids (k-médoïdes) est un algorithme de partitionnement plus robuste vis-à-
vis les données aberrantes (outliers) que celui des k-means (k-moyennes).
• Comme les k-moyennes, l'algorithme des k-médoïdes minimise l'erreur quadratique moyenne qui
est la distance entre les points de la classe et le point central (ou médoïde).
K-medoid
16/05/2017 81

• Pour trouver k classes, l’approche PAM (partition around medoids) consiste à considérer un
représentant pour chaque classe. Ce représentant est censé être le point le plus central de la classe
• Au lieu de prendre la valeur moyenne des objets dans un cluster en tant que point de référence,
nous pouvons ramasser des objets réels pour représenter les classes en utilisant un objet
représentant par cluster.
• Chaque objet resté est regroupé avec l'objet représentant à laquelle il est le plus similaire. Le
procédé de séparation est alors effectuée en se basant sur le principe de minimisation de la somme
des différences entre chaque objet et son point de référence correspondant.
K-medoid
16/05/2017 82

Algorithme
Algorithme des k-Medoides
Choisir arbitrairement k medoides
Répéter
affecter chaque objet restant au medoide le plus proche
Choisir aléatoirement un non-medoide Or
Pour chaque medoide Oj
Calculer le coût TC du remplacement de Oj par Or
Si TC < 0 alors
Remplacer Oj par Or
Calculer les nouveaux clusters
Finsi
FinPour
Jusqu’à ce ce qu’il n’y ait plus de changement
K-medoid
16/05/2017 83

le clustering basé sur la densité, dont le but est d’identifier, dans l’espace, les zones de forte
densité entourées par des zones de faible densité, qui formeront les clusters
L’algorithme de densité le plus reconnu est le DBSCAN
16/05/2017 84

Eps-Voisinage d’un point
On définit l’ensemble des voisins d’un point p se trouvant dans un rayon Eps par :
• Eps : Le rayon du voisinage
• Dist( ) est une fonction de distance qui peut dépendre de la nature des données à classer.
• D: Ensemble des données.
Dbscan
16/05/2017 85

Point noyau
Un point p est dit point noyau si le nombre de points dans son voisinage de rayon Eps est supérieur
ou égale à MinPts.
|N(p)| ≥ MinPts
• MinPts: Paramètre de densité : nombre minimal de voisins se trouvant dans un rayon Eps
Dbscan
16/05/2017 86

Algorithme
1. Sélectionner arbitrairement un point p
2. Former tous les points densité joignable à partir de p via Eps et MinPts
3. Si p est un point noyau, un cluster est formé
4. Si p est un point frontière, aucun point n’est joignable par densité à partir de p et DBSCAN visite
le prochain point de la base de données
5. Continuer le processus jusqu’à ce que tous les points soient visités.
Dbscan
16/05/2017 87

• DBSCAN requiert deux paramètres Eps et MinPts, et l’expérience montre que les résultats obtenus
sont très sensibles aux choix de ces paramètres. En plus il n’est pas bien adapté dans le cas où les
clusters se présentent sur différentes densités. Eu égard à sa complexité quadratique il n’est pas
adapté aux larges bases de données.
Dbscan
16/05/2017 88

Conclusion
• Les méthodes de clustering peuvent être classées en :
• Méthodes de partitionnement,
• Méthodes hiérarchiques,
• Méthodes à densité de voisinage
• Plusieurs travaux de recherche sur le clustering en cours...
• Plusieurs applications en perspective : Génomique, Environnement, ...
16/05/2017 89

Références
• A. S. Sodiya. Multi-Level and Secured Agent-based Intrusion Detection System. JournalOf Computing and
InformationTechnology,14(3):217–223, 2006.
• M.-L. Shyu and V. Sainani. A Multiagent-based Intrusion Detection System with the Support of Multi-Class Supervised
Classiﬁcation, chapter 8, pages 127–142. SpringerVerlagUS, Data Miningand Multi-agent Integrationedition, 2009.
• Imen Brahmi1, Sadok Ben Yahia1, and Pascal Poncelet2 MAD-IDS: Novel Intrusion Detection System using Mobile Agents and
Data Mining Approaches 1 Faculty of Sciences of Tunis, Tunisia.
• Intrusion detection using autonomous agents. Eugene H. Spafford and Diego Zamboni Computer Networks, 34(4):547-570, October
2000.
• A New Mobile Agent-Based Intrusion Detection System Using Distributed Sensors MohamadEid American University of Beirut,
Department of Electrical and Computer Engineering, P.O.Box 11-0236 Beirut 1107 2020 Lebanon.
• An Intelligent Immunity-based Model for Distributed Intrusion Detection ZhihaoPENG,Guanyu LI, Faculty of Information Science
and Technology, Dalian Maritime University, Dalian 116024, China , Department of Computer Science, Dalian NeusoftInstitute of
Information, Dalian 116626, China
• détection d’intrusion Odile PAPINI ESIL Université de la méditerranée
Odile.Papini@esil.univmrs.frhttp://odile.papini.perso.esil.univmed.fr/sources/SSI.html
• Guillaume CALAS Spécialisation Sciences Cognitives et InformatiqueAvancée 14-16 rueVoltaire,94270 Le Kremlin-Bicêtre,France
16/05/2017 90

Cours datamining

Recommandé

Recommandé

Contenu connexe

Tendances

Tendances (20)

Similaire à Cours datamining

Similaire à Cours datamining (20)

Dernier

Dernier (16)

Cours datamining