SlideShare une entreprise Scribd logo
1  sur  90
Télécharger pour lire hors ligne
Plan du cours
1. Introduction au Data Mining
 processus d'extraction de connaissance: conception d'un processus de DM
2. Compréhension et préparation des données
 caractéristiques des différents types de la donnée
 exploration statistique des données
 qualité des données
 preprocessing: sélection et création des attributs
 mesures de similarité entre les données
3. les techniques du Data Mining
 classification
techniques de base: les arbres de décision
techniques de base: ensemble des règles et techniques instances based
les classificateurs bayesiens
 règles associatives ou d'association
 clustering
 détection des anomalies (Outlier)
4. TP sur WIKA
16/05/2017 2
Informatique décisionnelle
• L’informatique décisionnelle (en anglais :DSS pour Decision Support System), s’insère dans
l’architecture plus large d’un système d'information.
• L’informatique décisionnelle représente un ensemble de moyens, d’outils et de méthodes
permettant de collecter, consolider, modéliser et de restituer les données de l’entreprise dans le but
d’apporter une aide à la prise de décision.
• Un autre atout de l’informatique décisionnelle est de permettre aux responsables de la stratégie
d’une entreprise d’avoir une vue d’ensemble de l’activité traitée.
Rappel
16/05/2017 3
• Tous les systèmes d’information décisionnelles ,tels que les datawerhouses mettent en œuvre cinq
fonctions fondamentales:
la collecte
l’intégrité
la diffusion
la présentation
l’administration des données
Rappel
Informatique décisionnelle
16/05/2017 4
Informatique décisionnelle
La collecte:
La collecte des données brutes dans leurs environnements d’origine, ce qui implique des activités plus ou
moins élaborées de détection et de filtrage, car un excédent de données, un défaut de fiabilité ou un trop
mauvais rapport signal/bruit sont pires que l’absence de données.
L’intégrité:
L’intégration des donnes ,c’est-à-dire leur regroupement en un ensemble technique, logique et sémantique
homogène approprié aux besoins de l’organisation.
La diffusion:
Diffusion, ou la distribution d’informations élaborées à partir des données dans des contextes appropriés au
besoin des individus ou des groupes de travail utilisateurs.
Rappel
16/05/2017 5
Informatique décisionnelle
la présentation :
La présentation, c’est-à-dire les conditions de mise à disposition de l’information (contrôle d’accès,
personnalisation ..).
l’administration des données:
L’administration qui gère l’ensemble de données de bout en bout ,car le système d’information doit être
contrôlé par un système de pilotage.
 Remarque: en pratique, les fonctions de collecte et d’intégration sont étroitement liées entre elles et
généralement associées au datawerhouse.
Rappel
16/05/2017 6
Datawerhouse
• datawarehouse (ou entrepôt de données) est un serveur informatique dans lequel est centralisé un
volume important de données consolidées à partir des différentes sources de renseignements d'une
entreprise (notamment les bases de données internes).
• L'organisation des données est conçue pour que les personnes intéressées aient accès rapidement et
sous forme synthétique à l'information stratégique dont elles ont besoin pour la prise de décision.
Rappel
16/05/2017 7
Datawerhouse
Ensemble de techniques d'exploration de données afin d'en tirer des
connaissances (la signification profonde) sous forme de modèles
présentés à l’utilisateur averti pour examen c’est le Datamining
Le passage du datawerhouse vers le datamining
Fig1.du datawerhouse vers le datamining
16/05/2017 8
Processus de découverte d’information
Le passage du datawerhouse vers le datamining
Fig2.decouverte de l’information
16/05/2017 9
Etape du processus
1. Compréhension du domaine d’application
2. Création du fichier cible (target data set)
3. Traitement des données brutes (data cleaning and preprocessing)
4. Réduction des données (data réduction and projection)
5. Définition des tâches de fouille de données
6. Choix des algorithmes appropriés de fouille de données
7. Fouille de données (data mining)
8. Interprétation des formes extraites (mined patterns)
9. Validation des connaissances extraites
Le passage du datawerhouse vers le datamining
16/05/2017 10
Datamining
• Qu’est-ce que le datamining
• Pourquoi la naissance du datamining?
• Intérêt du data mining
• Méthodes et technique du datamining
• Grands domaine d’Application du datamining
• Le processus standard d’une étude de datamining
• Les logiciels de datamining
16/05/2017 11
Qu’est-ce que le Datamining
• Le data mining est un procédé d’exploration et d’analyse de grands volumes de données en vue
d’une part de les rendre plus compréhensibles et d’autre part de découvrir des corrélations
significatives, c’est-à-dire des règles de classement et de prédiction dont la finalité ultime la plus
courante est l’aide à la décision.
• Le data mining est un procédé de production de connaissance.
• En termes de logique philosophique traditionnelle, le data mining consiste à produire des
jugements c’est l’étape de description et de compréhension des données) et des règles de
raisonnements (si toutes les personnes sont « a » alors elles seront « b » : c’est l’étape
modélisation qui permet la prédiction).
Datamining
16/05/2017 12
Pourquoi la naissance du datamining ?
Augmentation des capacités de stockage des données (disques durs de giga octets).
Augmentation des capacités de traitement des données (facilité d’accès aux données : il n’y a plus
de bandes magnétiques ; accélération des traitements).
Maturation des principes des bases de données (maturation des bases de données relationnelles).
Croissance exponentielle de la collecte des données (scanners de supermarché, internet, etc.)
Croissance exponentielle des bases de données : capacités atteignant le terabits (1012 bits) et
émergence des entrepôts de données : data warehouse, rendant impossible l’exploitation manuelle
des données.
Plus grande disponibilité des données grâce aux réseaux (intranet et internet).
Développement de logiciels de data mining.
Datamining
16/05/2017 13
Intérêt du datamining
Le datamining permet d’exploiter ces données pour améliorer la rentabilité d’une activité.
Le datamining permet d’augmenter le retour sur investissement des systèmes d’information.
Le datamining est un outil qui permet de produire de la connaissance :
 dans le but de comprendre les phénomènes dans un premier temps : SAVOIR
 dans le but de prendre des décisions dans un second temps : PREVOIR pour DECIDER.
Datamining
16/05/2017 14
Méthodes du data mining
• Du bon sens: Il s’agit d’abord d’analyser les données avec du bon sens et un peu d’outillages
mathématiques et statistiques élémentaires.
• Des algorithmes de calculs statistiques: Il s’agit ensuite d’appliquer des algorithmes de calculs à
des données. Ces algorithmes sont plus ou moins complexes à mettre en œuvre. Ils permettent de
classer les données et de prédire des valeurs inconnues.
Datamining
16/05/2017 15
Les techniques du datamining
La production de règles de raisonnement se fait à partir de plusieurs techniques plus ou
moins spécifiques au data mining à savoir:
Classification
les arbres de décision
ensemble des règles et techniques instances based
les classificateurs bayesians
Règles associatives ou d'association
Clustering
Ces techniques mixent à la fois des statistiques et de l’algorithmique. Globalement, on peut
dire que certaines techniques visent à classer, d’autres visent à prédire. La présentation de ces
techniques formera une grosse partie de ce cours.
Datamining
16/05/2017 16
Applications du datamining
• Publics:
Le scientifique : pour comprendre certains phénomènes.
L’analyste : pour produire des rapports pour les décideurs.
Le décideur (au sens large) : pour l’aide à la décision.
• Principaux secteurs utilisant le data mining:
Les banques Les télécommunications Le e-commerce
La détection des fraudes Les études scientifiques
Le marketing direct Les assurances La distribution
La biologie L’industrie pharmaceutique
Datamining
16/05/2017 17
Gestion de la relation client
Customer Relationship Management (CRM)
• Principe : amélioration de la rentabilité par l’amélioration de la connaissance du client.
• Matière première : les données sur le client.
• Le CRM se divise en deux parties :
• CRM analytique : collecte et analyse des données.
• CRM opérationnel : choix des campagnes marketing (stratégie) et gestion des canaux de
communication (forces commerciales, centres d’appel téléphoniques, internet, télévision, etc.)
• Difficulté : tirer partie de la masse de données. Ne pas se noyer dedans.
Datamining
16/05/2017 18
• Objectif : on ne veut plus seulement savoir : « combien de clients ont acheté tel
produit pendant telle période ?», mais on veut savoir « quel est leur profil ? », « quels
autres produits les intéresseront ? », « quand seront-ils de nouveau intéressés ? ».
• Avec le datamining, on va s’intéresser à l’historique des données, autrement dit à un
film du comportement de la variable étudiée (par exemple, le client) et pas seulement
à une photographie.
• Le développement des systèmes d’informations avec des bases de données favorise
la collecte de l’historique des données et les études de data mining. Et inversement :
c’est parce qu’on pourra tirer quelque chose de ces historiques qu’on aura intérêt à
les conserver.
• Les systèmes d’information permettent de connaître le comportement singulier de
chaque client.
• Le datamining permet de découvrir des corrélations statistiques grâce à l’étude des
comportements de tous les clients, et ainsi de catégoriser le client et de pouvoir
établir un marketing individualisé (one-to-one) et proactif (proposer ce qui est
intéressant au moment où ça intéresse).
Datamining
16/05/2017 19
Autres grands domaines d’application
Secteur bancaire : le scoring, pour mieux cibler les propositions de prêts et
éviter les surendettements (et donc les mauvais payeurs).
Secteur de la téléphonie : prédiction de l’attrition (usure, churn en anglais),
c’est-à-dire le changement d’opérateur.
Grande distribution : analyse du panier de la ménagère pour déterminer les
produits achetés simultanément.
Web mining et e-commerce : 50% des clients d’un constructeur de machine
achètent ses machines à travers le web. Mais seulement 0,5% des visiteurs
du site deviennent clients. L’idée est de stocker les séquences de click des
visiteurs et d’analyser les caractéristiques des acheteurs pour adapter le
contenu du site.
Text mining pour analyser les lettres de réclamation.
Scientifique : identification et classification d'objets célestes.
Médical : analyse de résultat d’une expérimentation
Sécurité informatique : recherche de transactions frauduleuses par la police
suivi des opérations des traders.
Datamining
16/05/2017 20
Une discipline et pas un produit
• À l’origine, le datamining était vue comme un procédé automatique o semi
automatique.
• Aujourd’hui, on est revenu de cette illusion. Le datamining n’est pas un
produit qui peut être acheté, mais bien une discipline qui doit être maîtrisée.
• Avant d’appliquer automatiquement des algorithmes de calculs sur les
données, il faut passer par une phase d’exploration et d’analyse qui ne
saurait être automatisée : elle fait intervenir le bon sens et la connaissance du
contexte (culture générale).
• Quand on veut produire de la connaissance, le problème ne se limite pas à
répondre à des questions. Il faut d’abord poser les questions. C’est cette
première étape qui, pour l’essentiel, fait que le datamining est une discipline
et pas un simple produit.
Le processus standard d’une étude de data mining: Le besoin d’un contrôle humain dans le data mining
16/05/2017 21
Comment faire du mauvais datamining ?
En travaillant sans méthode
En ne préparant pas correctement ses données.
En appliquant des boîtes noires de calculs sans les comprendre.
Un mauvais datamining peut amener à des conclusions erronées et donc à des conséquences très
coûteuses.
Le processus standard d’une étude de data mining: Le besoin d’un contrôle humain dans le data mining
16/05/2017 22
Comment faire du bon datamining ?
En suivant une méthode
En préparant les données correctement
En comprenant le principe des modes opératoires (des algorithmes de calculs). En étant capable de
savoir pourquoi on en choisit un plutôt qu’un autre. Une compréhension des modèles statistiques
appliqués par le logiciel est donc nécessaire.
Le processus standard d’une étude de data mining: Le besoin d’un contrôle humain dans le data mining
16/05/2017 23
• Le datamining est un processus méthodique : une suite ordonnée
d'opérations aboutissant à un résultat.
• Le CRISP-DM (Cross Industry Standard Process for Data Mining) décrit le
datamining processus itératif complet constitué de 4 étapes divisées en tout
en 6 phases.
Le processus standard d’une étude de data mining: Présentation du CRISP-DM
tableau1.processus du datamining
16/05/2017 24
1 : Compréhension du métier
Cette phase consiste à :
 Énoncer clairement les objectifs globaux du projet et les contraintes de
l’entreprise.
 Traduire ces objectifs et ces contraintes en un problème du datamining.
 Préparer une stratégie initiale pour atteindre ces objectifs.
2 : Compréhension des données
Cette phase consiste à :
 Recueillir les données.
 Utiliser l’analyse exploratoire pour se familiariser avec les données,
commencer à les comprendre et imaginer ce qu’on pourrait en tirer comme
connaissance.
 Évaluer la qualité des données.
 Éventuellement, sélectionner des sous-ensembles intéressants.
Le processus standard d’une étude de data mining: Présentation du CRISP-DM
16/05/2017 25
3 : Préparation des données
Cette phase consiste à :
 Préparer, à partir des données brutes, l’ensemble final des données qui va être utilisé
pour toutes les phases suivantes.
 Sélectionner les cas et les variables à analyser.
 Réaliser si nécessaire les transformations de certaines données.
 Réaliser si nécessaire la suppression de certaines données.
Cette phase fait suite à la compréhension des données. Celle-ci a mis au jour les corrélations,
les valeurs aberrantes, les valeurs manquantes : on peut donc faire la préparation.
4 : Modélisation
Cette phase consiste à :
 Sélectionner les techniques de modélisation appropriées (souvent plusieurs techniques
peuvent être utilisées pour le même problème).
 Calibrer les paramètres des techniques de modélisation choisies pour optimiser les
résultats.
 Éventuellement revoir la préparation des données pour l’adapter aux techniques
utilisées.
Le processus standard d’une étude de data mining: Présentation du CRISP-DM
16/05/2017 26
5 : Evaluation de la modélisation
Cette phase consiste à produire le rapport final :
 Pour chaque technique de modélisation utilisée, évaluer la qualité (la
pertinence, la signification) des résultats obtenus.
 Déterminer si les résultats obtenus atteignent les objectifs globaux identifiés
pendant la phase de compréhension du métier.
 Décider si on passe à la phase suivante (le déploiement) ou si on souhaite
reprendre l’étude en complétant le jeu de données.
6 : Déploiement des résultats obtenus
Cette phase est externe à l’analyse du data mining. Elle concerne le maître
d’ouvrage.
Cette phase consiste à :
 Prendre les décisions en conséquences des résultats de l’étude de data mining
 Préparer la collecte des informations futures pour permettre de vérifier la
pertinence des décisions effectivement mis en oeuvre.
Le processus standard d’une étude de data mining: Présentation du CRISP-DM
16/05/2017 27
Les logiciels de data mining
Il existe de nombreux logiciels de statistiques et de data mining sur
PC. Certains sont gratuits, d’autres sont payants. Certains sont mono-
utilisateur. D’autres fonctionnent en architecture clients-serveur.
• Parmi les gros logiciels, on peut citer :
• Clementine de SPSS. Clementine est la solution de data mining la plus vendue
dans le monde.
• Entreprise Miner de SAS.
• Statistica Data Miner de StatSoft
• XL Miner (data mining sous excel)
• ORACLE, comme d’autres SGBD, fournit des outils de data mining
• Parmi les logiciels gratuits, on peut citer :
• TANAGRA, logiciel de data mining gratuit pour l'enseignement et la recherche.
• ORANGE, logiciel libre d’apprentissage et de data mining.
• WEKA, logiciel libre d’apprentissage et de data mining.
Datamining
16/05/2017 28
WEKA
• Weka 3: Data Software Mining en Java
• Weka est une collection d'algorithmes d'apprentissage machine pour les tâches d'exploration de
données. Les algorithmes peuvent être soit appliquées directement à un ensemble de données ou
appelés à partir de votre propre code Java.
• Weka contient des outils pour les données de pré-traitement, la classification, la régression, le
regroupement, les règles d'association, et la visualisation.
• Il est également bien adapté pour le développement de nouveaux programmes d'apprentissage
machine.
• Site web: http://www.cs.waikato.ac.nz/ml/weka/
Datamining
16/05/2017 29
Environnement de travail
• Se familiariser avec :
• weka
• Les dataset
• Eclipce
16/05/2017 30
Références
• Laurent Candillier. Classification non supervis´ee contextualis´ee, 2003.
• Ultra Fluide. Tour d’horizon sur le datamining, 2003. url : http://www.ultra-
fluide.com/agence-web/datamining.htm.
• Giorgio Ingargiola. Building Classification Models : ID3 and C4.5, 1997. url :
http://www.cis. temple.edu/˜ingargio/cis587/readings/id3-c45.html.
• Mathieu Beal Paul Balez. Algorithmes de datamining. 2002.
• J ¨org Sander Martin Ester Hans-Peter Kriegel Xiaowei Xu. Density-Based
Clustering in Spatial Databases : The Algorithm GDBSCAN and its Applications.
• Martin Ester Hans-Peter Kriegel J ¨org Sander Xiaowei Xu. ADensity-Based
Algorithm for Discovering Cluster in Large Spatial Databases with Noise, 1996.
• Xiaowey XU. A Fast Parallel Clustering Algorithm for Large Spatial Databases,
1999.
16/05/2017 31
Plan
• Classification supervisée
• Les arbres de décision
• Définition
• Vocabulaire des arbres
• Exemple d’arbre de décision
• Algorithme CART
• Algorithme ID3
• Algorithme C4.5
• TP Arbre de décisions
Apprentissage supervisé
En sciences cognitives, l’apprentissage supervisé est une technique
d’apprentissage automatique plus connu sous le terme anglais de machine-
learning qui permet à une machine d’apprendre à réaliser des tâches à
partir d’une base d’apprentissage contenant des exemples déjà traités.
Chaque élément (item) de l’ensemble d’apprentissage (training set)
étant un couple entrée-sortie.
De part sa nature, l’apprentissage supervisé concerne essentiellement
les méthodes de classification de données (on connaît l’entrée et l’on veut
déterminer la sortie) et de régression (on connaît la sortie et l’on veut
retrouver l’entrée).
Arbres de décision
L’arbre de décision est un outil de classification et prédiction, sa
popularité repose en grande partie sur sa simplicité. Un arbre de décision est
composé d’un nœud racine par lequel entrent les données, de nœuds feuilles
qui correspondent à un classement de questions et de réponses qui
conditionnent la question suivante.
C’est un processus interactif d’induction de règles qui permet
d’aboutir à une affectation bien justifiée. Le branchement des nœuds passe
par le calcul de différents critères selon l’algorithme choisi. Il existe
différents algorithmes pour la construction des arbres de décision tels qu’ID3,
C4.5, CHAID et CART et bien d’autres que nous allons voir en détails dans
la partie concernant la présentation des algorithmes.
Un arbre est constitué de noeuds connectés entre eux par des branches.
Un arbre de décision est constitué de noeuds de décision.
Une branche entre deux noeuds est orientée : l’un des noeuds de la connexion est dit « noeud
parent », et l’autre « noeud enfant ».
Chaque noeud est connecté à un et un seul noeud parent, sauf le noeud racine qui n’a pas de
parent.
Vocabulaire des arbres
Arbre, noeud, racine, feuille
Chaque noeud peut être connecté à 0 ou n noeuds enfants.
Les deux caractéristiques précédentes font qu’un arbre n’est pas un réseau (ou graphe).
Un noeud qui n’a pas de parents est appelé « noeud racine » ou « racine ».
Un noeud qui n’a pas de noeuds enfants est appelé « noeud feuille » ou « feuille ».
Vocabulaire des arbres
Arbre, noeud, racine, feuille
Exemple d’arbre binaire orienté
Vocabulaire des arbres
Variable cible et variables prédictives
• Comme toutes les méthodes supervisées, un arbre de décision travaille sur une variable cible avec
plusieurs variables prédictives.
• Chaque noeud non-feuille correspond à une variable prédictive.
• Chaque noeud feuille correspond à la variable cible.
• Chaque branche correspond à une valeur pour la variable prédictive du noeud parent (ou un
ensemble de valeurs).
Vocabulaire des arbres
Chemin, prédiction
• Un chemin est un parcours du noeud racine jusqu’à un noeud feuille.
• Chaque branche précise la valeur que prend la variable prédictive du noeud à l’origine de la
branche.
• Un chemin se termine par un noeud feuille qui précise la ou les valeurs prévues pour les
enregistrements de la variable cible pour ce chemin particulier.
• L’objectif est d’arriver autant que possible à des feuilles pures.
Vocabulaire des arbres
Feuille pure
• Un noeud feuille est pur si les valeurs de la variable cible sont les mêmes pour tous les
enregistrements de ce noeud, autrement dit si le chemin (donc le n-uplet de valeurs pour le nuplet
de prédicteurs) détermine la valeur de la variable cible.
Vocabulaire des arbres
Arbre systématique et group by SQL
• Fabriquer un arbre de décision systématique consiste à peu près à effectuer la commande SQL
suivante :
Select variables prédictives, variable cible, count(*)
From table
Group by variables prédictives, variable cible
• Il y a toutefois une nuance à souligner : sur le chemin, on peut retrouver plusieurs fois la même
variable.
Vocabulaire des arbres
Présentation des données
Soit le dictionnaire des variables suivant concernant un fichier de clients d’une
banque :
Parmi ces 4 attributs, on définit trois variables prédictives : économie, capital
et revenu ; et une variable cible : risque.
Exemple
Représentation SQL de l’arbre de décision systématique
• L’arbre de décision systématique correspond à la commande SQL suivante :
Arbre =Select Eco, Cap, Rev, Ris, count(*)
From Clients
Group by Eco, Cap, Rev, Ris
Exemple
• Le résultat de cette commande est le suivant :
• Les effectifs donnés par le count(*) correspondent au nombre de clients qui ont les caractéristiques
de la ligne.
Exemple
Analyse de la pureté des feuilles
• Pour savoir avoir une feuille pure, il faut que le triplet (Eco, Cap, Rev) soit unique.
• C’est le cas dans le tableau précédent.
Exemple
Représentation graphique de l’arbre de décision systématique
• On représente maintenant la situation sous la forme d’un arbre systématique :
Exemple
Extraction des règles de décision
• On peut constater que :
Règle 1 : (Eco +, Cap +) => Ris ++ quel que soit Rev
Règle 2 : (Eco +, Cap --) => Ris -- quel que soit Rev
Règle 3 : (Eco -, Rev +) => Ris ++ quel que soit Cap
Règle 4 : (Eco -, Rev --) => Ris -- quel que soit Cap
Exemple
• On peut donc remplacer l’arbre précédent par un arbre avec moins de branches et des branches plus
courtes :
Exemple
Algorithmes de fabrication des arbres de décision
Il existe plusieurs algorithmes pour fabriquer des arbres de décision.
• Citons particulièrement :
Le CART : méthode des arbres de segmentation et de régression (1984). Le CART fabrique
des arbres binaires (toujours deux branches par noeuds non-feuilles). C’est un des algorithmes
les plus performants et les plus répandus.
ID3(1986): il a pour but de construire un arbre de décision de façon récursive en choisissant
l’attribut qui maxime le gain d’information
L’algorithme C4.5 (1993). Le C4.5 fabrique des arbres qui ne sont pas nécessairement binaires
(0 à n branches par noeud).
L’algorithme C5.0 (1998) est un perfectionnement du C4.5.
Algorithmes
Principe
• CART (Classification And Regression Tree) construit un arbre de décision strictement binaire avec
exactement deux branches pour chaque nœud de décision.
• L’algorithme partitionne l’ensemble d’entraînement de façon récursive selon la méthode diviser
pour mieux régner
• Pour chaque nœud de décision, CART fait une recherche exhaustive sur tous les attributs et valeurs
de séparation disponibles et sélectionne la séparation s qui maximise le critère suivant au nœud t
Algorithme CART
Technique
• Mesure de la qualité d’une scission
Avec:
· j(st) : mesure de la qualité d’une scission au noeud t
La meilleure scission parmi toutes les scissions possibles au noeud t est celle qui a la
plus grande valeur pour j(st) .
· PG : (nb enregistrements à tG) / nbTotal
· PD : (nb enregistrements à tD) / nbTotal
tG : noeud enfant gauche du noeud t
tD : noeud enfant droit du noeud t
nbTotal : nombre d’enregistrements dans tout l’ensemble d’apprentissage
· nbClasses : nombre de catégories de la variable cible
· P(itG) : (nb enregistrements pour la classe i à tG) / (nb enregistrements à t)
· P(itD): (nb enregistrements pour la classe i à tD) / (nb enregistrements à t)
Le nombre d’enregistrement sur un noeud correspond au nombre d’enregistrements
restants après les décisions déjà prises.
Algorithme CART
Algorithme
Début
L’algorithme part de la racine de l’arbre.
Boucle de parcours de l’arbre
À chaque noeud de décision, l’algorithme fait une recherche exhaustive
sur toutes les catégories de toutes les variables et mesure à chaque fois la valeur de la scission
obtenu.
L’algorithme choisit la scission optimale.
Il n’y a qu’une scission par noeud puisque l’arbre est binaire.
Fin de boucle
Fin
Algorithme CART
l’arrêt d’algorithme
• L’algorithme s’arrête lorsque l’un des cas d’arrêt suivant est rencontré :
le nœud est pur, ie. tous les éléments du nœud appartiennent à la même classe ;
tous les attributs ont été utilisés précédemment ;
la profondeur de l’arbre à atteint la valeur maximale définie par l’utilisateur ;
la taille du nœud est inférieure à la taille minimale définie par l’utilisateur ;
la taille d’un des fils qui résulterait de la séparation optimale est inférieure à la taille minimale
définie par l’utilisateur.
Algorithme CART
Principe
• ID3 construit un arbre de décision de façon récursive en choisissant l’attribut qui maxime le gain
d’information selon l’entropie de Shannon. Cet algorithme fonctionne exclusivement avec des
attributs catégoriques et un nœud est créé pour chaque valeur des attributs sélectionnés.
• ID3 est un algorithme basique facile à implémenter dont la première fonction est de remplacer les
experts dans la construction d’un arbre de décision.
• Cependant, les arbres de décisions ne sont ni robustes, ni compacts ce qui les rends inadaptés aux
grosses bases de données.
Algorithme ID3
Condition d’arrêt de construction de l’arbre:
basée sur un test de khi-deux pour un risque bien défini.
• paramètres:
Confidence level : Risque du test d'indépendance du KHI-2 sur
un nœud à segmenter. Une p-value du test plus grande que
ce niveau constitue une règle d'arrêt de l'expansion de l'arbre.
Algorithme ID3
Algorithme
Algorithme ID3
Principe
• C4.5 est une amélioration d’ID3 qui permet de travailler à la fois avec des données
discrètes et des données continues. Il permet également de travailler avec des valeurs
d’attribut absentes.
• Enfin, C4.5 élague l’arbre construit afin de supprimer les règles inutiles et de rendre
l’arbre plus compact.
• L’algorithme C5, qui est une solution commerciale, est une amélioration supplémentaire
de C4.5.
Algorithme C4.5
Technique
• La construction de l’arbre se base sur un nouveau critère qui est le
ratio de gain:
avec
• le ratio de gain exprime la proportion
d’information générée par le partitionnement
selon l’attribut X, qui est utilisable pour le
classement.
Algorithme C4.5
TP Arbre de décisions
Références
• Bardos M, Analyse Discrimininante : Application au risque et scoring financier, Dunod, 2001.
• Bouroche J., Tenenhaus M., Quelques méthodes de segmentation, RAIRO, 42, 29-42, 1970.
• Breiman L, Friedman J., Olshen R., Stone C., Classification and Regression Tree, California: Wadsworth International, 1984.
• Breiman L., Bagging Predictors, Machine Learning, 24, 123-140, 1996.
• Breslow L., Aha D., Simplifying Decision Trees: A survey, The Knowledge Engineering Review, 12, 1, 1-40, 1997.
• Brodley C., Utgoff P., Mutlivariate Decision Trees, Machine Learning, 19, 1, 45-77, 1995.
• Buntine W., About the IND tree package, Technical Report, NASA Ames Research Center, Moffet Field, California, September 1991.
• Buntine W., Niblett T., A further comparison of splitting rules for decision tree induction,Machine Learning, 8, 75-85, 1992.
• Cantu-Paz E., Kamath C., Inducing Oblique Decision Trees with Evolutionary Algrothms, IEEE Transactions on Evolutionary
Computation, 7, 1, 54-69, 2003.
• Catlett J., Megainduction : machine learning on very large databases, PhD Thesis, University of Sidney, 1991.
• Celeux G., Lechevallier Y., Méthodes de segmentation, in Analyse Discriminante sur Variables Continues, Celeux G. éditeur, INRIA,
7, 127-147, 1990.
• Chavent M., Guinot C., Lechevallier Y., Tenenhaus M., Méthodes divisives de classification et segmentation non supervisée :
recherche d'une typologie de la peau humaine saine, Revue de Statistiques Appliquées, XLVII (4), 87—99, 1999.
16/05/2017 62
Plan
Classification Non supervisé
Les systèmes de clustering
Les clusterings
Propriété
Etape de clustering
Méthode de clustering
Clustering Hiérarchique
 Principe
 Algorithme
Clustering basé sur la répartition
 K-means
 K-médoide
Clustering basé sur la densité
 Principe
 Dbscan
16/05/2017 63
la classification
• Classer est une action élémentaire permettant d’apprendre le monde et construire son langage en
regroupant ces caractéristiques sur la présence d’un critère partagé .
• En informatique, une classification est un concept initiale qui a l’objectif de classer un ensemble
d’objets ou individus afin de résoudre de nombreux problèmes tels que la sécurité des systèmes, la
segmentation des images, la gestion de classement des documents…etc.
• On distingue deux catégories majeures de la classification:
• La classification non-supervisée
• La classification supervisée
16/05/2017 64
Classification non supervisée
La classification non supervisé est la recherche d’une segmentation,
c’est-à-dire d’une partition, ou répartition des individus en classes, ou
catégories; Ceci est fait en optimisant un critère visant à regrouper les
individus dans des classes, chacune le plus homogène possible et, entre elles,
les plus distinctes possible c’est le principe de clustering
6516/05/2017
Les Clusters
• A la base, un cluster est un ensemble d’éléments. Cet ensemble est différent des autres.
• Les méthodes d’analyse de clusters sont des algorithmes non-supervisés, ils permettent de générer
et de trouver des classes naturelles.
• Le prototype d’un cluster est son centre, aussi appelé centroid.
Les systèmes de clustering
16/05/2017 66
Propriétés d’un cluster
Les deux propriétés importantes définissant un cluster pertinent sont :
sa cohésion interne (que les objets appartenant à ce cluster soient les plus similaires
possibles)
son isolation externe (que les objets appartenant aux autres clusters soient les plus
éloignés possible).
Les systèmes de clustering
16/05/2017 67
• Pour observer cela, plusieurs mesures sont associées a un cluster :
– sa densité (la masse d’objets par unité volumique)
– sa variance (le degré de dispersion des objets dans l’espace
depuis le centre du cluster)
– sa dimension (typiquement son radius ou son diamètre)
– sa forme (hyper sphérique/allongée/concave/convexe,...)
– sa séparation (par rapport aux autres clusters).
Les systèmes de clustering
16/05/2017 68
Etapes d’un système de clustering
Les différentes étapes d’une tâche de clustering sont les suivantes :
1. Représentation des données :La représentation des données se réfère à la spécification du nombre
de classes disponibles pour l’algorithme de clustering par:
L’extraction des attributs correspond à l’utilisation d’une ou plusieurs transformations des
attributs fournis en entrée pour produire de nouveaux attributs pertinents.
La sélection des attributs est le processus permettant d’identifier le sous-ensemble des
attributs le plus efficace à utiliser pour le clustering.
Les systèmes de clustering
16/05/2017 69
2. définition d’une mesure de proximité appropriée au domaine des
données: La proximité entre données est typiquement mesurée par une
fonction de distance définie entre paires de données.
3. regroupement (clustering): Les clusterings résultant peuvent être une
partition des données en groupes distincts.
4. abstraction des données (si nécessaire): L’abstraction des données est le
processus d’extraction d’une représentation simple et compacte de l’ensemble
des données (typiquement, la description de chaque cluster).
5. évaluation de la sortie (si nécessaire):L’´évaluation de la partition peut se
faire de trois manières :
évaluation externe : comparer la structure à une structure à priori
évaluation interne : déterminer si la structure est intrinsèquement
appropriée aux données
évaluation relative : comparer différentes structures possibles
Les systèmes de clustering
16/05/2017 70
Les méthodes de clustering
• On distingue trois grandes familles de clustering :
Clustering Hiérarchique
Clustering basé sur la répartition
Clustering basé sur la densité
16/05/2017 71
Principe
Clustering Hiérarchique a pour but de former une hiérarchie de clusters, telle que plus on
descend dans la hiérarchie, plus les clusters sont spécifiques à un certain nombre d’objets considérés
comme similaires.
Clustering hiérarchique
16/05/2017 72
Exemple d’arbre de clusters
Clustering hiérarchique
16/05/2017 73
Dendrogramme
C’est un graphe hiérarchique qui peut être coupé à un niveau de dissimilarité pour former une
partition.
La hiérarchie de clusters est représentée comme un arbre de clusters, appelé dendrogramme
Les feuilles de l’arbre représentent les objets
Les nœuds intermédiaires de l’arbre représentent les clusters
Clustering hiérarchique
16/05/2017 74
Avantages :
Conceptuellement simple
Propriétés théoriques sont bien connues
Quand les clusters sont groupés, la décision est définitive => le
nombre d’alternatives différentes à examiner est réduit
Inconvénients :
Groupement de clusters est définitif => décisions erronées sont
impossibles à modifier ultérieurement
Méthodes non extensibles pour des ensembles de données de
grandes tailles
Clustering hiérarchique
16/05/2017 75
le clustering par partition
le clustering par partition, dont le but est de former une partition de l’espace des objets,
selon une certaine fonction critère, chaque partition représentant alors un cluster dans cette famille,
plusieurs méthodes se distinguent fortement :
 K-means
 K-médoide
16/05/2017 76
Principe
L’algorithme de classification K-means consiste à classer les objets optimisés en k classes
(clusters), ces classes sont présentées par les moyennes pondérées des objets inclus dans les
classes, ces moyennes sont appelées ¨centroides¨.
K-means
16/05/2017 77
Algorithme
L’état stable est l’état dont lorsque l’algorithme trouve après une telle classification les
mêmes résultats que celle-ci du l’étape précédente
K-means
16/05/2017 78
Déroulement du l’algorithme
Cet algorithme se déroule d’une façon itérative dans une suite
d’étapes qu’on va les citer:
1. Le choix un nombre k qui va présenter le nombre des classes (dans notre
cas le K égale à 2).
2. Choix de k objets et mettre chacun dans une classe différente.
3. Calculer les centroides des classes.
4. Calculer les distances entre les objets et les centroides et affecter chaque
objet à la classe qui convient en basant sur le principe de la distance
minimale.
5. Recalculer les centroides.
6. Répéter les étapes 4 et 5 jusqu’à ce qu’on trouve l’état stable.
K-means
16/05/2017 79
Inconvénients de k-means
N’est pas applicable en présence d’attributs où la moyenne n’est pas définie
On doit spécifier k (nombre de clusters)
Incapable de traiter des données bruitées
Les clusters sont construits par rapports à des objets inexistants (les milieux)
Ne peut pas découvrir les groupes non-convexes
Les outliers sont mal gérés.
K-means
16/05/2017 80
« K-medoid » PAM « K-representants »
• un médoïde est le représentant le plus central d'une classe.
• L'algorithme des k-medoids (k-médoïdes) est un algorithme de partitionnement plus robuste vis-à-
vis les données aberrantes (outliers) que celui des k-means (k-moyennes).
• Comme les k-moyennes, l'algorithme des k-médoïdes minimise l'erreur quadratique moyenne qui
est la distance entre les points de la classe et le point central (ou médoïde).
K-medoid
16/05/2017 81
• Pour trouver k classes, l’approche PAM (partition around medoids) consiste à considérer un
représentant pour chaque classe. Ce représentant est censé être le point le plus central de la classe
• Au lieu de prendre la valeur moyenne des objets dans un cluster en tant que point de référence,
nous pouvons ramasser des objets réels pour représenter les classes en utilisant un objet
représentant par cluster.
• Chaque objet resté est regroupé avec l'objet représentant à laquelle il est le plus similaire. Le
procédé de séparation est alors effectuée en se basant sur ​​le principe de minimisation de la somme
des différences entre chaque objet et son point de référence correspondant.
K-medoid
16/05/2017 82
Algorithme
Algorithme des k-Medoides
Choisir arbitrairement k medoides
Répéter
affecter chaque objet restant au medoide le plus proche
Choisir aléatoirement un non-medoide Or
Pour chaque medoide Oj
Calculer le coût TC du remplacement de Oj par Or
Si TC < 0 alors
Remplacer Oj par Or
Calculer les nouveaux clusters
Finsi
FinPour
Jusqu’à ce ce qu’il n’y ait plus de changement
K-medoid
16/05/2017 83
Clustering basé sur la densité
le clustering basé sur la densité, dont le but est d’identifier, dans l’espace, les zones de forte
densité entourées par des zones de faible densité, qui formeront les clusters
L’algorithme de densité le plus reconnu est le DBSCAN
16/05/2017 84
Eps-Voisinage d’un point
On définit l’ensemble des voisins d’un point p se trouvant dans un rayon Eps par :
• Eps : Le rayon du voisinage
• Dist( ) est une fonction de distance qui peut dépendre de la nature des données à classer.
• D: Ensemble des données.
Dbscan
16/05/2017 85
Point noyau
Un point p est dit point noyau si le nombre de points dans son voisinage de rayon Eps est supérieur
ou égale à MinPts.
|N(p)| ≥ MinPts
• MinPts: Paramètre de densité : nombre minimal de voisins se trouvant dans un rayon Eps
Dbscan
16/05/2017 86
Algorithme
1. Sélectionner arbitrairement un point p
2. Former tous les points densité joignable à partir de p via Eps et MinPts
3. Si p est un point noyau, un cluster est formé
4. Si p est un point frontière, aucun point n’est joignable par densité à partir de p et DBSCAN visite
le prochain point de la base de données
5. Continuer le processus jusqu’à ce que tous les points soient visités.
Dbscan
16/05/2017 87
• DBSCAN requiert deux paramètres Eps et MinPts, et l’expérience montre que les résultats obtenus
sont très sensibles aux choix de ces paramètres. En plus il n’est pas bien adapté dans le cas où les
clusters se présentent sur différentes densités. Eu égard à sa complexité quadratique il n’est pas
adapté aux larges bases de données.
Dbscan
16/05/2017 88
Conclusion
• Les méthodes de clustering peuvent être classées en :
• Méthodes de partitionnement,
• Méthodes hiérarchiques,
• Méthodes à densité de voisinage
• Plusieurs travaux de recherche sur le clustering en cours...
• Plusieurs applications en perspective : Génomique, Environnement, ...
16/05/2017 89
Références
• A. S. Sodiya. Multi-Level and Secured Agent-based Intrusion Detection System. JournalOf Computing and
InformationTechnology,14(3):217–223, 2006.
• M.-L. Shyu and V. Sainani. A Multiagent-based Intrusion Detection System with the Support of Multi-Class Supervised
Classification, chapter 8, pages 127–142. SpringerVerlagUS, Data Miningand Multi-agent Integrationedition, 2009.
• Imen Brahmi1, Sadok Ben Yahia1, and Pascal Poncelet2 MAD-IDS: Novel Intrusion Detection System using Mobile Agents and
Data Mining Approaches 1 Faculty of Sciences of Tunis, Tunisia.
• Intrusion detection using autonomous agents. Eugene H. Spafford and Diego Zamboni Computer Networks, 34(4):547-570, October
2000.
• A New Mobile Agent-Based Intrusion Detection System Using Distributed Sensors MohamadEid American University of Beirut,
Department of Electrical and Computer Engineering, P.O.Box 11-0236 Beirut 1107 2020 Lebanon.
• An Intelligent Immunity-based Model for Distributed Intrusion Detection ZhihaoPENG,Guanyu LI, Faculty of Information Science
and Technology, Dalian Maritime University, Dalian 116024, China , Department of Computer Science, Dalian NeusoftInstitute of
Information, Dalian 116626, China
• détection d’intrusion Odile PAPINI ESIL Université de la méditerranée
Odile.Papini@esil.univmrs.frhttp://odile.papini.perso.esil.univmed.fr/sources/SSI.html
• Guillaume CALAS Spécialisation Sciences Cognitives et InformatiqueAvancée 14-16 rueVoltaire,94270 Le Kremlin-Bicêtre,France
16/05/2017 90

Contenu connexe

Tendances

Tendances (20)

Data mining - Segmentation(k-means, cah)
Data mining - Segmentation(k-means, cah)Data mining - Segmentation(k-means, cah)
Data mining - Segmentation(k-means, cah)
 
Intégration des données avec Talend ETL
Intégration des données avec Talend ETLIntégration des données avec Talend ETL
Intégration des données avec Talend ETL
 
Partie1BI-DW2019
Partie1BI-DW2019Partie1BI-DW2019
Partie1BI-DW2019
 
Introduction à la big data V2
Introduction à la big data V2Introduction à la big data V2
Introduction à la big data V2
 
Cours Big Data Chap1
Cours Big Data Chap1Cours Big Data Chap1
Cours Big Data Chap1
 
Partie2BI-DW2019
Partie2BI-DW2019Partie2BI-DW2019
Partie2BI-DW2019
 
Le processus ETL (Extraction, Transformation, Chargement)
Le processus ETL (Extraction, Transformation, Chargement)Le processus ETL (Extraction, Transformation, Chargement)
Le processus ETL (Extraction, Transformation, Chargement)
 
BigData_Chp1: Introduction à la Big Data
BigData_Chp1: Introduction à la Big DataBigData_Chp1: Introduction à la Big Data
BigData_Chp1: Introduction à la Big Data
 
Introduction au datamining, concepts et techniques
Introduction au datamining, concepts et techniquesIntroduction au datamining, concepts et techniques
Introduction au datamining, concepts et techniques
 
Cours Big Data Chap3
Cours Big Data Chap3Cours Big Data Chap3
Cours Big Data Chap3
 
Bi
BiBi
Bi
 
AI Apprentissage Automatique, Machine Learnig
AI Apprentissage Automatique, Machine LearnigAI Apprentissage Automatique, Machine Learnig
AI Apprentissage Automatique, Machine Learnig
 
Technologies pour le Big Data
Technologies pour le Big DataTechnologies pour le Big Data
Technologies pour le Big Data
 
Chapitre 1 les entrepôts de données
Chapitre 1 les entrepôts de donnéesChapitre 1 les entrepôts de données
Chapitre 1 les entrepôts de données
 
Chp3 - Modélisation Multidimensionnelle
Chp3 - Modélisation MultidimensionnelleChp3 - Modélisation Multidimensionnelle
Chp3 - Modélisation Multidimensionnelle
 
Introduction to Machine learning
Introduction to Machine learningIntroduction to Machine learning
Introduction to Machine learning
 
Introduction à la big data v3
Introduction à la big data v3 Introduction à la big data v3
Introduction à la big data v3
 
BigData_Chp5: Putting it all together
BigData_Chp5: Putting it all togetherBigData_Chp5: Putting it all together
BigData_Chp5: Putting it all together
 
Big Data, Hadoop & Spark
Big Data, Hadoop & SparkBig Data, Hadoop & Spark
Big Data, Hadoop & Spark
 
Data Mining Spatial
Data Mining Spatial Data Mining Spatial
Data Mining Spatial
 

Similaire à Cours datamining

Outils décisionnels : Data-Mining and Data-warehouse
Outils décisionnels : Data-Mining and Data-warehouseOutils décisionnels : Data-Mining and Data-warehouse
Outils décisionnels : Data-Mining and Data-warehouse
BEL MRHAR Mohamed Amine
 
Comparing technologies
Comparing technologiesComparing technologies
Comparing technologies
Friaa Marwa
 
Gouvernance des données - Pourquoi démarrer une gouvernance des données agile ?
Gouvernance des données - Pourquoi démarrer une gouvernance des données agile ?Gouvernance des données - Pourquoi démarrer une gouvernance des données agile ?
Gouvernance des données - Pourquoi démarrer une gouvernance des données agile ?
Zeenea
 

Similaire à Cours datamining (20)

Introduction au datamining partiel 1.pdf
Introduction au datamining partiel 1.pdfIntroduction au datamining partiel 1.pdf
Introduction au datamining partiel 1.pdf
 
Introduction au Big data
Introduction au Big data Introduction au Big data
Introduction au Big data
 
Outils décisionnels : Data-Mining and Data-warehouse
Outils décisionnels : Data-Mining and Data-warehouseOutils décisionnels : Data-Mining and Data-warehouse
Outils décisionnels : Data-Mining and Data-warehouse
 
Comparing technologies
Comparing technologiesComparing technologies
Comparing technologies
 
Final
FinalFinal
Final
 
Final
FinalFinal
Final
 
Ecosystème Big Data
Ecosystème Big DataEcosystème Big Data
Ecosystème Big Data
 
7 points clés à retenir pour aborder le data management de données clients...
7 points clés à retenir pour aborder le data management de données clients...7 points clés à retenir pour aborder le data management de données clients...
7 points clés à retenir pour aborder le data management de données clients...
 
BD_Decisionnel_fin-2020tjtgenieindustriel.ppt
BD_Decisionnel_fin-2020tjtgenieindustriel.pptBD_Decisionnel_fin-2020tjtgenieindustriel.ppt
BD_Decisionnel_fin-2020tjtgenieindustriel.ppt
 
Arrow Group: Techday Big Data - Etat et Enjeu pour l'Assurance
Arrow Group: Techday Big Data - Etat et Enjeu pour l'AssuranceArrow Group: Techday Big Data - Etat et Enjeu pour l'Assurance
Arrow Group: Techday Big Data - Etat et Enjeu pour l'Assurance
 
Management Information System
Management Information SystemManagement Information System
Management Information System
 
La protection de la vie privée à l'heure du BIG DATA
La protection de la vie privée à l'heure du BIG DATALa protection de la vie privée à l'heure du BIG DATA
La protection de la vie privée à l'heure du BIG DATA
 
Gouvernance des données - Pourquoi démarrer une gouvernance des données agile ?
Gouvernance des données - Pourquoi démarrer une gouvernance des données agile ?Gouvernance des données - Pourquoi démarrer une gouvernance des données agile ?
Gouvernance des données - Pourquoi démarrer une gouvernance des données agile ?
 
Introduction au Machine Learning
Introduction au Machine Learning Introduction au Machine Learning
Introduction au Machine Learning
 
projet BI licnence.pdf
projet BI licnence.pdfprojet BI licnence.pdf
projet BI licnence.pdf
 
Chap1et2-IntroED (2 aaaaaaaaaaaaaaaa).pdf
Chap1et2-IntroED (2 aaaaaaaaaaaaaaaa).pdfChap1et2-IntroED (2 aaaaaaaaaaaaaaaa).pdf
Chap1et2-IntroED (2 aaaaaaaaaaaaaaaa).pdf
 
Rapport final-2
Rapport final-2Rapport final-2
Rapport final-2
 
SI_MCC_2020_21.pptx
SI_MCC_2020_21.pptxSI_MCC_2020_21.pptx
SI_MCC_2020_21.pptx
 
Big data
Big dataBig data
Big data
 
Doxa inter2019-la datascience au service de la décision stratégique
Doxa inter2019-la datascience au service de la décision stratégiqueDoxa inter2019-la datascience au service de la décision stratégique
Doxa inter2019-la datascience au service de la décision stratégique
 

Dernier

Copie de Engineering Software Marketing Plan by Slidesgo.pptx.pptx
Copie de Engineering Software Marketing Plan by Slidesgo.pptx.pptxCopie de Engineering Software Marketing Plan by Slidesgo.pptx.pptx
Copie de Engineering Software Marketing Plan by Slidesgo.pptx.pptx
ikospam0
 
Bilan énergétique des chambres froides.pdf
Bilan énergétique des chambres froides.pdfBilan énergétique des chambres froides.pdf
Bilan énergétique des chambres froides.pdf
AmgdoulHatim
 

Dernier (16)

Formation échiquéenne jwhyCHESS, parallèle avec la planification de projet
Formation échiquéenne jwhyCHESS, parallèle avec la planification de projetFormation échiquéenne jwhyCHESS, parallèle avec la planification de projet
Formation échiquéenne jwhyCHESS, parallèle avec la planification de projet
 
Neuvaine de la Pentecôte avec des textes de saint Jean Eudes
Neuvaine de la Pentecôte avec des textes de saint Jean EudesNeuvaine de la Pentecôte avec des textes de saint Jean Eudes
Neuvaine de la Pentecôte avec des textes de saint Jean Eudes
 
Intégration des TICE dans l'enseignement de la Physique-Chimie.pptx
Intégration des TICE dans l'enseignement de la Physique-Chimie.pptxIntégration des TICE dans l'enseignement de la Physique-Chimie.pptx
Intégration des TICE dans l'enseignement de la Physique-Chimie.pptx
 
GIÁO ÁN DẠY THÊM (KẾ HOẠCH BÀI DẠY BUỔI 2) - TIẾNG ANH 6, 7 GLOBAL SUCCESS (2...
GIÁO ÁN DẠY THÊM (KẾ HOẠCH BÀI DẠY BUỔI 2) - TIẾNG ANH 6, 7 GLOBAL SUCCESS (2...GIÁO ÁN DẠY THÊM (KẾ HOẠCH BÀI DẠY BUỔI 2) - TIẾNG ANH 6, 7 GLOBAL SUCCESS (2...
GIÁO ÁN DẠY THÊM (KẾ HOẠCH BÀI DẠY BUỔI 2) - TIẾNG ANH 6, 7 GLOBAL SUCCESS (2...
 
Copie de Engineering Software Marketing Plan by Slidesgo.pptx.pptx
Copie de Engineering Software Marketing Plan by Slidesgo.pptx.pptxCopie de Engineering Software Marketing Plan by Slidesgo.pptx.pptx
Copie de Engineering Software Marketing Plan by Slidesgo.pptx.pptx
 
Cours Généralités sur les systèmes informatiques
Cours Généralités sur les systèmes informatiquesCours Généralités sur les systèmes informatiques
Cours Généralités sur les systèmes informatiques
 
Apolonia, Apolonia.pptx Film documentaire
Apolonia, Apolonia.pptx         Film documentaireApolonia, Apolonia.pptx         Film documentaire
Apolonia, Apolonia.pptx Film documentaire
 
les_infections_a_streptocoques.pptkioljhk
les_infections_a_streptocoques.pptkioljhkles_infections_a_streptocoques.pptkioljhk
les_infections_a_streptocoques.pptkioljhk
 
python-Cours Officiel POO Python-m103.pdf
python-Cours Officiel POO Python-m103.pdfpython-Cours Officiel POO Python-m103.pdf
python-Cours Officiel POO Python-m103.pdf
 
L application de la physique classique dans le golf.pptx
L application de la physique classique dans le golf.pptxL application de la physique classique dans le golf.pptx
L application de la physique classique dans le golf.pptx
 
Bilan énergétique des chambres froides.pdf
Bilan énergétique des chambres froides.pdfBilan énergétique des chambres froides.pdf
Bilan énergétique des chambres froides.pdf
 
Echos libraries Burkina Faso newsletter 2024
Echos libraries Burkina Faso newsletter 2024Echos libraries Burkina Faso newsletter 2024
Echos libraries Burkina Faso newsletter 2024
 
L'expression du but : fiche et exercices niveau C1 FLE
L'expression du but : fiche et exercices  niveau C1 FLEL'expression du but : fiche et exercices  niveau C1 FLE
L'expression du but : fiche et exercices niveau C1 FLE
 
Télécommunication et transport .pdfcours
Télécommunication et transport .pdfcoursTélécommunication et transport .pdfcours
Télécommunication et transport .pdfcours
 
RAPPORT DE STAGE D'INTERIM DE ATTIJARIWAFA BANK
RAPPORT DE STAGE D'INTERIM DE ATTIJARIWAFA BANKRAPPORT DE STAGE D'INTERIM DE ATTIJARIWAFA BANK
RAPPORT DE STAGE D'INTERIM DE ATTIJARIWAFA BANK
 
CompLit - Journal of European Literature, Arts and Society - n. 7 - Table of ...
CompLit - Journal of European Literature, Arts and Society - n. 7 - Table of ...CompLit - Journal of European Literature, Arts and Society - n. 7 - Table of ...
CompLit - Journal of European Literature, Arts and Society - n. 7 - Table of ...
 

Cours datamining

  • 1.
  • 2. Plan du cours 1. Introduction au Data Mining  processus d'extraction de connaissance: conception d'un processus de DM 2. Compréhension et préparation des données  caractéristiques des différents types de la donnée  exploration statistique des données  qualité des données  preprocessing: sélection et création des attributs  mesures de similarité entre les données 3. les techniques du Data Mining  classification techniques de base: les arbres de décision techniques de base: ensemble des règles et techniques instances based les classificateurs bayesiens  règles associatives ou d'association  clustering  détection des anomalies (Outlier) 4. TP sur WIKA 16/05/2017 2
  • 3. Informatique décisionnelle • L’informatique décisionnelle (en anglais :DSS pour Decision Support System), s’insère dans l’architecture plus large d’un système d'information. • L’informatique décisionnelle représente un ensemble de moyens, d’outils et de méthodes permettant de collecter, consolider, modéliser et de restituer les données de l’entreprise dans le but d’apporter une aide à la prise de décision. • Un autre atout de l’informatique décisionnelle est de permettre aux responsables de la stratégie d’une entreprise d’avoir une vue d’ensemble de l’activité traitée. Rappel 16/05/2017 3
  • 4. • Tous les systèmes d’information décisionnelles ,tels que les datawerhouses mettent en œuvre cinq fonctions fondamentales: la collecte l’intégrité la diffusion la présentation l’administration des données Rappel Informatique décisionnelle 16/05/2017 4
  • 5. Informatique décisionnelle La collecte: La collecte des données brutes dans leurs environnements d’origine, ce qui implique des activités plus ou moins élaborées de détection et de filtrage, car un excédent de données, un défaut de fiabilité ou un trop mauvais rapport signal/bruit sont pires que l’absence de données. L’intégrité: L’intégration des donnes ,c’est-à-dire leur regroupement en un ensemble technique, logique et sémantique homogène approprié aux besoins de l’organisation. La diffusion: Diffusion, ou la distribution d’informations élaborées à partir des données dans des contextes appropriés au besoin des individus ou des groupes de travail utilisateurs. Rappel 16/05/2017 5
  • 6. Informatique décisionnelle la présentation : La présentation, c’est-à-dire les conditions de mise à disposition de l’information (contrôle d’accès, personnalisation ..). l’administration des données: L’administration qui gère l’ensemble de données de bout en bout ,car le système d’information doit être contrôlé par un système de pilotage.  Remarque: en pratique, les fonctions de collecte et d’intégration sont étroitement liées entre elles et généralement associées au datawerhouse. Rappel 16/05/2017 6
  • 7. Datawerhouse • datawarehouse (ou entrepôt de données) est un serveur informatique dans lequel est centralisé un volume important de données consolidées à partir des différentes sources de renseignements d'une entreprise (notamment les bases de données internes). • L'organisation des données est conçue pour que les personnes intéressées aient accès rapidement et sous forme synthétique à l'information stratégique dont elles ont besoin pour la prise de décision. Rappel 16/05/2017 7
  • 8. Datawerhouse Ensemble de techniques d'exploration de données afin d'en tirer des connaissances (la signification profonde) sous forme de modèles présentés à l’utilisateur averti pour examen c’est le Datamining Le passage du datawerhouse vers le datamining Fig1.du datawerhouse vers le datamining 16/05/2017 8
  • 9. Processus de découverte d’information Le passage du datawerhouse vers le datamining Fig2.decouverte de l’information 16/05/2017 9
  • 10. Etape du processus 1. Compréhension du domaine d’application 2. Création du fichier cible (target data set) 3. Traitement des données brutes (data cleaning and preprocessing) 4. Réduction des données (data réduction and projection) 5. Définition des tâches de fouille de données 6. Choix des algorithmes appropriés de fouille de données 7. Fouille de données (data mining) 8. Interprétation des formes extraites (mined patterns) 9. Validation des connaissances extraites Le passage du datawerhouse vers le datamining 16/05/2017 10
  • 11. Datamining • Qu’est-ce que le datamining • Pourquoi la naissance du datamining? • Intérêt du data mining • Méthodes et technique du datamining • Grands domaine d’Application du datamining • Le processus standard d’une étude de datamining • Les logiciels de datamining 16/05/2017 11
  • 12. Qu’est-ce que le Datamining • Le data mining est un procédé d’exploration et d’analyse de grands volumes de données en vue d’une part de les rendre plus compréhensibles et d’autre part de découvrir des corrélations significatives, c’est-à-dire des règles de classement et de prédiction dont la finalité ultime la plus courante est l’aide à la décision. • Le data mining est un procédé de production de connaissance. • En termes de logique philosophique traditionnelle, le data mining consiste à produire des jugements c’est l’étape de description et de compréhension des données) et des règles de raisonnements (si toutes les personnes sont « a » alors elles seront « b » : c’est l’étape modélisation qui permet la prédiction). Datamining 16/05/2017 12
  • 13. Pourquoi la naissance du datamining ? Augmentation des capacités de stockage des données (disques durs de giga octets). Augmentation des capacités de traitement des données (facilité d’accès aux données : il n’y a plus de bandes magnétiques ; accélération des traitements). Maturation des principes des bases de données (maturation des bases de données relationnelles). Croissance exponentielle de la collecte des données (scanners de supermarché, internet, etc.) Croissance exponentielle des bases de données : capacités atteignant le terabits (1012 bits) et émergence des entrepôts de données : data warehouse, rendant impossible l’exploitation manuelle des données. Plus grande disponibilité des données grâce aux réseaux (intranet et internet). Développement de logiciels de data mining. Datamining 16/05/2017 13
  • 14. Intérêt du datamining Le datamining permet d’exploiter ces données pour améliorer la rentabilité d’une activité. Le datamining permet d’augmenter le retour sur investissement des systèmes d’information. Le datamining est un outil qui permet de produire de la connaissance :  dans le but de comprendre les phénomènes dans un premier temps : SAVOIR  dans le but de prendre des décisions dans un second temps : PREVOIR pour DECIDER. Datamining 16/05/2017 14
  • 15. Méthodes du data mining • Du bon sens: Il s’agit d’abord d’analyser les données avec du bon sens et un peu d’outillages mathématiques et statistiques élémentaires. • Des algorithmes de calculs statistiques: Il s’agit ensuite d’appliquer des algorithmes de calculs à des données. Ces algorithmes sont plus ou moins complexes à mettre en œuvre. Ils permettent de classer les données et de prédire des valeurs inconnues. Datamining 16/05/2017 15
  • 16. Les techniques du datamining La production de règles de raisonnement se fait à partir de plusieurs techniques plus ou moins spécifiques au data mining à savoir: Classification les arbres de décision ensemble des règles et techniques instances based les classificateurs bayesians Règles associatives ou d'association Clustering Ces techniques mixent à la fois des statistiques et de l’algorithmique. Globalement, on peut dire que certaines techniques visent à classer, d’autres visent à prédire. La présentation de ces techniques formera une grosse partie de ce cours. Datamining 16/05/2017 16
  • 17. Applications du datamining • Publics: Le scientifique : pour comprendre certains phénomènes. L’analyste : pour produire des rapports pour les décideurs. Le décideur (au sens large) : pour l’aide à la décision. • Principaux secteurs utilisant le data mining: Les banques Les télécommunications Le e-commerce La détection des fraudes Les études scientifiques Le marketing direct Les assurances La distribution La biologie L’industrie pharmaceutique Datamining 16/05/2017 17
  • 18. Gestion de la relation client Customer Relationship Management (CRM) • Principe : amélioration de la rentabilité par l’amélioration de la connaissance du client. • Matière première : les données sur le client. • Le CRM se divise en deux parties : • CRM analytique : collecte et analyse des données. • CRM opérationnel : choix des campagnes marketing (stratégie) et gestion des canaux de communication (forces commerciales, centres d’appel téléphoniques, internet, télévision, etc.) • Difficulté : tirer partie de la masse de données. Ne pas se noyer dedans. Datamining 16/05/2017 18
  • 19. • Objectif : on ne veut plus seulement savoir : « combien de clients ont acheté tel produit pendant telle période ?», mais on veut savoir « quel est leur profil ? », « quels autres produits les intéresseront ? », « quand seront-ils de nouveau intéressés ? ». • Avec le datamining, on va s’intéresser à l’historique des données, autrement dit à un film du comportement de la variable étudiée (par exemple, le client) et pas seulement à une photographie. • Le développement des systèmes d’informations avec des bases de données favorise la collecte de l’historique des données et les études de data mining. Et inversement : c’est parce qu’on pourra tirer quelque chose de ces historiques qu’on aura intérêt à les conserver. • Les systèmes d’information permettent de connaître le comportement singulier de chaque client. • Le datamining permet de découvrir des corrélations statistiques grâce à l’étude des comportements de tous les clients, et ainsi de catégoriser le client et de pouvoir établir un marketing individualisé (one-to-one) et proactif (proposer ce qui est intéressant au moment où ça intéresse). Datamining 16/05/2017 19
  • 20. Autres grands domaines d’application Secteur bancaire : le scoring, pour mieux cibler les propositions de prêts et éviter les surendettements (et donc les mauvais payeurs). Secteur de la téléphonie : prédiction de l’attrition (usure, churn en anglais), c’est-à-dire le changement d’opérateur. Grande distribution : analyse du panier de la ménagère pour déterminer les produits achetés simultanément. Web mining et e-commerce : 50% des clients d’un constructeur de machine achètent ses machines à travers le web. Mais seulement 0,5% des visiteurs du site deviennent clients. L’idée est de stocker les séquences de click des visiteurs et d’analyser les caractéristiques des acheteurs pour adapter le contenu du site. Text mining pour analyser les lettres de réclamation. Scientifique : identification et classification d'objets célestes. Médical : analyse de résultat d’une expérimentation Sécurité informatique : recherche de transactions frauduleuses par la police suivi des opérations des traders. Datamining 16/05/2017 20
  • 21. Une discipline et pas un produit • À l’origine, le datamining était vue comme un procédé automatique o semi automatique. • Aujourd’hui, on est revenu de cette illusion. Le datamining n’est pas un produit qui peut être acheté, mais bien une discipline qui doit être maîtrisée. • Avant d’appliquer automatiquement des algorithmes de calculs sur les données, il faut passer par une phase d’exploration et d’analyse qui ne saurait être automatisée : elle fait intervenir le bon sens et la connaissance du contexte (culture générale). • Quand on veut produire de la connaissance, le problème ne se limite pas à répondre à des questions. Il faut d’abord poser les questions. C’est cette première étape qui, pour l’essentiel, fait que le datamining est une discipline et pas un simple produit. Le processus standard d’une étude de data mining: Le besoin d’un contrôle humain dans le data mining 16/05/2017 21
  • 22. Comment faire du mauvais datamining ? En travaillant sans méthode En ne préparant pas correctement ses données. En appliquant des boîtes noires de calculs sans les comprendre. Un mauvais datamining peut amener à des conclusions erronées et donc à des conséquences très coûteuses. Le processus standard d’une étude de data mining: Le besoin d’un contrôle humain dans le data mining 16/05/2017 22
  • 23. Comment faire du bon datamining ? En suivant une méthode En préparant les données correctement En comprenant le principe des modes opératoires (des algorithmes de calculs). En étant capable de savoir pourquoi on en choisit un plutôt qu’un autre. Une compréhension des modèles statistiques appliqués par le logiciel est donc nécessaire. Le processus standard d’une étude de data mining: Le besoin d’un contrôle humain dans le data mining 16/05/2017 23
  • 24. • Le datamining est un processus méthodique : une suite ordonnée d'opérations aboutissant à un résultat. • Le CRISP-DM (Cross Industry Standard Process for Data Mining) décrit le datamining processus itératif complet constitué de 4 étapes divisées en tout en 6 phases. Le processus standard d’une étude de data mining: Présentation du CRISP-DM tableau1.processus du datamining 16/05/2017 24
  • 25. 1 : Compréhension du métier Cette phase consiste à :  Énoncer clairement les objectifs globaux du projet et les contraintes de l’entreprise.  Traduire ces objectifs et ces contraintes en un problème du datamining.  Préparer une stratégie initiale pour atteindre ces objectifs. 2 : Compréhension des données Cette phase consiste à :  Recueillir les données.  Utiliser l’analyse exploratoire pour se familiariser avec les données, commencer à les comprendre et imaginer ce qu’on pourrait en tirer comme connaissance.  Évaluer la qualité des données.  Éventuellement, sélectionner des sous-ensembles intéressants. Le processus standard d’une étude de data mining: Présentation du CRISP-DM 16/05/2017 25
  • 26. 3 : Préparation des données Cette phase consiste à :  Préparer, à partir des données brutes, l’ensemble final des données qui va être utilisé pour toutes les phases suivantes.  Sélectionner les cas et les variables à analyser.  Réaliser si nécessaire les transformations de certaines données.  Réaliser si nécessaire la suppression de certaines données. Cette phase fait suite à la compréhension des données. Celle-ci a mis au jour les corrélations, les valeurs aberrantes, les valeurs manquantes : on peut donc faire la préparation. 4 : Modélisation Cette phase consiste à :  Sélectionner les techniques de modélisation appropriées (souvent plusieurs techniques peuvent être utilisées pour le même problème).  Calibrer les paramètres des techniques de modélisation choisies pour optimiser les résultats.  Éventuellement revoir la préparation des données pour l’adapter aux techniques utilisées. Le processus standard d’une étude de data mining: Présentation du CRISP-DM 16/05/2017 26
  • 27. 5 : Evaluation de la modélisation Cette phase consiste à produire le rapport final :  Pour chaque technique de modélisation utilisée, évaluer la qualité (la pertinence, la signification) des résultats obtenus.  Déterminer si les résultats obtenus atteignent les objectifs globaux identifiés pendant la phase de compréhension du métier.  Décider si on passe à la phase suivante (le déploiement) ou si on souhaite reprendre l’étude en complétant le jeu de données. 6 : Déploiement des résultats obtenus Cette phase est externe à l’analyse du data mining. Elle concerne le maître d’ouvrage. Cette phase consiste à :  Prendre les décisions en conséquences des résultats de l’étude de data mining  Préparer la collecte des informations futures pour permettre de vérifier la pertinence des décisions effectivement mis en oeuvre. Le processus standard d’une étude de data mining: Présentation du CRISP-DM 16/05/2017 27
  • 28. Les logiciels de data mining Il existe de nombreux logiciels de statistiques et de data mining sur PC. Certains sont gratuits, d’autres sont payants. Certains sont mono- utilisateur. D’autres fonctionnent en architecture clients-serveur. • Parmi les gros logiciels, on peut citer : • Clementine de SPSS. Clementine est la solution de data mining la plus vendue dans le monde. • Entreprise Miner de SAS. • Statistica Data Miner de StatSoft • XL Miner (data mining sous excel) • ORACLE, comme d’autres SGBD, fournit des outils de data mining • Parmi les logiciels gratuits, on peut citer : • TANAGRA, logiciel de data mining gratuit pour l'enseignement et la recherche. • ORANGE, logiciel libre d’apprentissage et de data mining. • WEKA, logiciel libre d’apprentissage et de data mining. Datamining 16/05/2017 28
  • 29. WEKA • Weka 3: Data Software Mining en Java • Weka est une collection d'algorithmes d'apprentissage machine pour les tâches d'exploration de données. Les algorithmes peuvent être soit appliquées directement à un ensemble de données ou appelés à partir de votre propre code Java. • Weka contient des outils pour les données de pré-traitement, la classification, la régression, le regroupement, les règles d'association, et la visualisation. • Il est également bien adapté pour le développement de nouveaux programmes d'apprentissage machine. • Site web: http://www.cs.waikato.ac.nz/ml/weka/ Datamining 16/05/2017 29
  • 30. Environnement de travail • Se familiariser avec : • weka • Les dataset • Eclipce 16/05/2017 30
  • 31. Références • Laurent Candillier. Classification non supervis´ee contextualis´ee, 2003. • Ultra Fluide. Tour d’horizon sur le datamining, 2003. url : http://www.ultra- fluide.com/agence-web/datamining.htm. • Giorgio Ingargiola. Building Classification Models : ID3 and C4.5, 1997. url : http://www.cis. temple.edu/˜ingargio/cis587/readings/id3-c45.html. • Mathieu Beal Paul Balez. Algorithmes de datamining. 2002. • J ¨org Sander Martin Ester Hans-Peter Kriegel Xiaowei Xu. Density-Based Clustering in Spatial Databases : The Algorithm GDBSCAN and its Applications. • Martin Ester Hans-Peter Kriegel J ¨org Sander Xiaowei Xu. ADensity-Based Algorithm for Discovering Cluster in Large Spatial Databases with Noise, 1996. • Xiaowey XU. A Fast Parallel Clustering Algorithm for Large Spatial Databases, 1999. 16/05/2017 31
  • 32.
  • 33. Plan • Classification supervisée • Les arbres de décision • Définition • Vocabulaire des arbres • Exemple d’arbre de décision • Algorithme CART • Algorithme ID3 • Algorithme C4.5 • TP Arbre de décisions
  • 34. Apprentissage supervisé En sciences cognitives, l’apprentissage supervisé est une technique d’apprentissage automatique plus connu sous le terme anglais de machine- learning qui permet à une machine d’apprendre à réaliser des tâches à partir d’une base d’apprentissage contenant des exemples déjà traités. Chaque élément (item) de l’ensemble d’apprentissage (training set) étant un couple entrée-sortie. De part sa nature, l’apprentissage supervisé concerne essentiellement les méthodes de classification de données (on connaît l’entrée et l’on veut déterminer la sortie) et de régression (on connaît la sortie et l’on veut retrouver l’entrée).
  • 35. Arbres de décision L’arbre de décision est un outil de classification et prédiction, sa popularité repose en grande partie sur sa simplicité. Un arbre de décision est composé d’un nœud racine par lequel entrent les données, de nœuds feuilles qui correspondent à un classement de questions et de réponses qui conditionnent la question suivante. C’est un processus interactif d’induction de règles qui permet d’aboutir à une affectation bien justifiée. Le branchement des nœuds passe par le calcul de différents critères selon l’algorithme choisi. Il existe différents algorithmes pour la construction des arbres de décision tels qu’ID3, C4.5, CHAID et CART et bien d’autres que nous allons voir en détails dans la partie concernant la présentation des algorithmes.
  • 36. Un arbre est constitué de noeuds connectés entre eux par des branches. Un arbre de décision est constitué de noeuds de décision. Une branche entre deux noeuds est orientée : l’un des noeuds de la connexion est dit « noeud parent », et l’autre « noeud enfant ». Chaque noeud est connecté à un et un seul noeud parent, sauf le noeud racine qui n’a pas de parent. Vocabulaire des arbres Arbre, noeud, racine, feuille
  • 37. Chaque noeud peut être connecté à 0 ou n noeuds enfants. Les deux caractéristiques précédentes font qu’un arbre n’est pas un réseau (ou graphe). Un noeud qui n’a pas de parents est appelé « noeud racine » ou « racine ». Un noeud qui n’a pas de noeuds enfants est appelé « noeud feuille » ou « feuille ». Vocabulaire des arbres Arbre, noeud, racine, feuille
  • 38. Exemple d’arbre binaire orienté Vocabulaire des arbres
  • 39. Variable cible et variables prédictives • Comme toutes les méthodes supervisées, un arbre de décision travaille sur une variable cible avec plusieurs variables prédictives. • Chaque noeud non-feuille correspond à une variable prédictive. • Chaque noeud feuille correspond à la variable cible. • Chaque branche correspond à une valeur pour la variable prédictive du noeud parent (ou un ensemble de valeurs). Vocabulaire des arbres
  • 40. Chemin, prédiction • Un chemin est un parcours du noeud racine jusqu’à un noeud feuille. • Chaque branche précise la valeur que prend la variable prédictive du noeud à l’origine de la branche. • Un chemin se termine par un noeud feuille qui précise la ou les valeurs prévues pour les enregistrements de la variable cible pour ce chemin particulier. • L’objectif est d’arriver autant que possible à des feuilles pures. Vocabulaire des arbres
  • 41. Feuille pure • Un noeud feuille est pur si les valeurs de la variable cible sont les mêmes pour tous les enregistrements de ce noeud, autrement dit si le chemin (donc le n-uplet de valeurs pour le nuplet de prédicteurs) détermine la valeur de la variable cible. Vocabulaire des arbres
  • 42. Arbre systématique et group by SQL • Fabriquer un arbre de décision systématique consiste à peu près à effectuer la commande SQL suivante : Select variables prédictives, variable cible, count(*) From table Group by variables prédictives, variable cible • Il y a toutefois une nuance à souligner : sur le chemin, on peut retrouver plusieurs fois la même variable. Vocabulaire des arbres
  • 43. Présentation des données Soit le dictionnaire des variables suivant concernant un fichier de clients d’une banque : Parmi ces 4 attributs, on définit trois variables prédictives : économie, capital et revenu ; et une variable cible : risque. Exemple
  • 44. Représentation SQL de l’arbre de décision systématique • L’arbre de décision systématique correspond à la commande SQL suivante : Arbre =Select Eco, Cap, Rev, Ris, count(*) From Clients Group by Eco, Cap, Rev, Ris Exemple
  • 45. • Le résultat de cette commande est le suivant : • Les effectifs donnés par le count(*) correspondent au nombre de clients qui ont les caractéristiques de la ligne. Exemple
  • 46. Analyse de la pureté des feuilles • Pour savoir avoir une feuille pure, il faut que le triplet (Eco, Cap, Rev) soit unique. • C’est le cas dans le tableau précédent. Exemple
  • 47. Représentation graphique de l’arbre de décision systématique • On représente maintenant la situation sous la forme d’un arbre systématique : Exemple
  • 48. Extraction des règles de décision • On peut constater que : Règle 1 : (Eco +, Cap +) => Ris ++ quel que soit Rev Règle 2 : (Eco +, Cap --) => Ris -- quel que soit Rev Règle 3 : (Eco -, Rev +) => Ris ++ quel que soit Cap Règle 4 : (Eco -, Rev --) => Ris -- quel que soit Cap Exemple
  • 49. • On peut donc remplacer l’arbre précédent par un arbre avec moins de branches et des branches plus courtes : Exemple
  • 50. Algorithmes de fabrication des arbres de décision Il existe plusieurs algorithmes pour fabriquer des arbres de décision. • Citons particulièrement : Le CART : méthode des arbres de segmentation et de régression (1984). Le CART fabrique des arbres binaires (toujours deux branches par noeuds non-feuilles). C’est un des algorithmes les plus performants et les plus répandus. ID3(1986): il a pour but de construire un arbre de décision de façon récursive en choisissant l’attribut qui maxime le gain d’information L’algorithme C4.5 (1993). Le C4.5 fabrique des arbres qui ne sont pas nécessairement binaires (0 à n branches par noeud). L’algorithme C5.0 (1998) est un perfectionnement du C4.5. Algorithmes
  • 51. Principe • CART (Classification And Regression Tree) construit un arbre de décision strictement binaire avec exactement deux branches pour chaque nœud de décision. • L’algorithme partitionne l’ensemble d’entraînement de façon récursive selon la méthode diviser pour mieux régner • Pour chaque nœud de décision, CART fait une recherche exhaustive sur tous les attributs et valeurs de séparation disponibles et sélectionne la séparation s qui maximise le critère suivant au nœud t Algorithme CART
  • 52. Technique • Mesure de la qualité d’une scission Avec: · j(st) : mesure de la qualité d’une scission au noeud t La meilleure scission parmi toutes les scissions possibles au noeud t est celle qui a la plus grande valeur pour j(st) . · PG : (nb enregistrements à tG) / nbTotal · PD : (nb enregistrements à tD) / nbTotal tG : noeud enfant gauche du noeud t tD : noeud enfant droit du noeud t nbTotal : nombre d’enregistrements dans tout l’ensemble d’apprentissage · nbClasses : nombre de catégories de la variable cible · P(itG) : (nb enregistrements pour la classe i à tG) / (nb enregistrements à t) · P(itD): (nb enregistrements pour la classe i à tD) / (nb enregistrements à t) Le nombre d’enregistrement sur un noeud correspond au nombre d’enregistrements restants après les décisions déjà prises. Algorithme CART
  • 53. Algorithme Début L’algorithme part de la racine de l’arbre. Boucle de parcours de l’arbre À chaque noeud de décision, l’algorithme fait une recherche exhaustive sur toutes les catégories de toutes les variables et mesure à chaque fois la valeur de la scission obtenu. L’algorithme choisit la scission optimale. Il n’y a qu’une scission par noeud puisque l’arbre est binaire. Fin de boucle Fin Algorithme CART
  • 54. l’arrêt d’algorithme • L’algorithme s’arrête lorsque l’un des cas d’arrêt suivant est rencontré : le nœud est pur, ie. tous les éléments du nœud appartiennent à la même classe ; tous les attributs ont été utilisés précédemment ; la profondeur de l’arbre à atteint la valeur maximale définie par l’utilisateur ; la taille du nœud est inférieure à la taille minimale définie par l’utilisateur ; la taille d’un des fils qui résulterait de la séparation optimale est inférieure à la taille minimale définie par l’utilisateur. Algorithme CART
  • 55. Principe • ID3 construit un arbre de décision de façon récursive en choisissant l’attribut qui maxime le gain d’information selon l’entropie de Shannon. Cet algorithme fonctionne exclusivement avec des attributs catégoriques et un nœud est créé pour chaque valeur des attributs sélectionnés. • ID3 est un algorithme basique facile à implémenter dont la première fonction est de remplacer les experts dans la construction d’un arbre de décision. • Cependant, les arbres de décisions ne sont ni robustes, ni compacts ce qui les rends inadaptés aux grosses bases de données. Algorithme ID3
  • 56. Condition d’arrêt de construction de l’arbre: basée sur un test de khi-deux pour un risque bien défini. • paramètres: Confidence level : Risque du test d'indépendance du KHI-2 sur un nœud à segmenter. Une p-value du test plus grande que ce niveau constitue une règle d'arrêt de l'expansion de l'arbre. Algorithme ID3
  • 58. Principe • C4.5 est une amélioration d’ID3 qui permet de travailler à la fois avec des données discrètes et des données continues. Il permet également de travailler avec des valeurs d’attribut absentes. • Enfin, C4.5 élague l’arbre construit afin de supprimer les règles inutiles et de rendre l’arbre plus compact. • L’algorithme C5, qui est une solution commerciale, est une amélioration supplémentaire de C4.5. Algorithme C4.5
  • 59. Technique • La construction de l’arbre se base sur un nouveau critère qui est le ratio de gain: avec • le ratio de gain exprime la proportion d’information générée par le partitionnement selon l’attribut X, qui est utilisable pour le classement. Algorithme C4.5
  • 60. TP Arbre de décisions
  • 61. Références • Bardos M, Analyse Discrimininante : Application au risque et scoring financier, Dunod, 2001. • Bouroche J., Tenenhaus M., Quelques méthodes de segmentation, RAIRO, 42, 29-42, 1970. • Breiman L, Friedman J., Olshen R., Stone C., Classification and Regression Tree, California: Wadsworth International, 1984. • Breiman L., Bagging Predictors, Machine Learning, 24, 123-140, 1996. • Breslow L., Aha D., Simplifying Decision Trees: A survey, The Knowledge Engineering Review, 12, 1, 1-40, 1997. • Brodley C., Utgoff P., Mutlivariate Decision Trees, Machine Learning, 19, 1, 45-77, 1995. • Buntine W., About the IND tree package, Technical Report, NASA Ames Research Center, Moffet Field, California, September 1991. • Buntine W., Niblett T., A further comparison of splitting rules for decision tree induction,Machine Learning, 8, 75-85, 1992. • Cantu-Paz E., Kamath C., Inducing Oblique Decision Trees with Evolutionary Algrothms, IEEE Transactions on Evolutionary Computation, 7, 1, 54-69, 2003. • Catlett J., Megainduction : machine learning on very large databases, PhD Thesis, University of Sidney, 1991. • Celeux G., Lechevallier Y., Méthodes de segmentation, in Analyse Discriminante sur Variables Continues, Celeux G. éditeur, INRIA, 7, 127-147, 1990. • Chavent M., Guinot C., Lechevallier Y., Tenenhaus M., Méthodes divisives de classification et segmentation non supervisée : recherche d'une typologie de la peau humaine saine, Revue de Statistiques Appliquées, XLVII (4), 87—99, 1999.
  • 63. Plan Classification Non supervisé Les systèmes de clustering Les clusterings Propriété Etape de clustering Méthode de clustering Clustering Hiérarchique  Principe  Algorithme Clustering basé sur la répartition  K-means  K-médoide Clustering basé sur la densité  Principe  Dbscan 16/05/2017 63
  • 64. la classification • Classer est une action élémentaire permettant d’apprendre le monde et construire son langage en regroupant ces caractéristiques sur la présence d’un critère partagé . • En informatique, une classification est un concept initiale qui a l’objectif de classer un ensemble d’objets ou individus afin de résoudre de nombreux problèmes tels que la sécurité des systèmes, la segmentation des images, la gestion de classement des documents…etc. • On distingue deux catégories majeures de la classification: • La classification non-supervisée • La classification supervisée 16/05/2017 64
  • 65. Classification non supervisée La classification non supervisé est la recherche d’une segmentation, c’est-à-dire d’une partition, ou répartition des individus en classes, ou catégories; Ceci est fait en optimisant un critère visant à regrouper les individus dans des classes, chacune le plus homogène possible et, entre elles, les plus distinctes possible c’est le principe de clustering 6516/05/2017
  • 66. Les Clusters • A la base, un cluster est un ensemble d’éléments. Cet ensemble est différent des autres. • Les méthodes d’analyse de clusters sont des algorithmes non-supervisés, ils permettent de générer et de trouver des classes naturelles. • Le prototype d’un cluster est son centre, aussi appelé centroid. Les systèmes de clustering 16/05/2017 66
  • 67. Propriétés d’un cluster Les deux propriétés importantes définissant un cluster pertinent sont : sa cohésion interne (que les objets appartenant à ce cluster soient les plus similaires possibles) son isolation externe (que les objets appartenant aux autres clusters soient les plus éloignés possible). Les systèmes de clustering 16/05/2017 67
  • 68. • Pour observer cela, plusieurs mesures sont associées a un cluster : – sa densité (la masse d’objets par unité volumique) – sa variance (le degré de dispersion des objets dans l’espace depuis le centre du cluster) – sa dimension (typiquement son radius ou son diamètre) – sa forme (hyper sphérique/allongée/concave/convexe,...) – sa séparation (par rapport aux autres clusters). Les systèmes de clustering 16/05/2017 68
  • 69. Etapes d’un système de clustering Les différentes étapes d’une tâche de clustering sont les suivantes : 1. Représentation des données :La représentation des données se réfère à la spécification du nombre de classes disponibles pour l’algorithme de clustering par: L’extraction des attributs correspond à l’utilisation d’une ou plusieurs transformations des attributs fournis en entrée pour produire de nouveaux attributs pertinents. La sélection des attributs est le processus permettant d’identifier le sous-ensemble des attributs le plus efficace à utiliser pour le clustering. Les systèmes de clustering 16/05/2017 69
  • 70. 2. définition d’une mesure de proximité appropriée au domaine des données: La proximité entre données est typiquement mesurée par une fonction de distance définie entre paires de données. 3. regroupement (clustering): Les clusterings résultant peuvent être une partition des données en groupes distincts. 4. abstraction des données (si nécessaire): L’abstraction des données est le processus d’extraction d’une représentation simple et compacte de l’ensemble des données (typiquement, la description de chaque cluster). 5. évaluation de la sortie (si nécessaire):L’´évaluation de la partition peut se faire de trois manières : évaluation externe : comparer la structure à une structure à priori évaluation interne : déterminer si la structure est intrinsèquement appropriée aux données évaluation relative : comparer différentes structures possibles Les systèmes de clustering 16/05/2017 70
  • 71. Les méthodes de clustering • On distingue trois grandes familles de clustering : Clustering Hiérarchique Clustering basé sur la répartition Clustering basé sur la densité 16/05/2017 71
  • 72. Principe Clustering Hiérarchique a pour but de former une hiérarchie de clusters, telle que plus on descend dans la hiérarchie, plus les clusters sont spécifiques à un certain nombre d’objets considérés comme similaires. Clustering hiérarchique 16/05/2017 72
  • 73. Exemple d’arbre de clusters Clustering hiérarchique 16/05/2017 73
  • 74. Dendrogramme C’est un graphe hiérarchique qui peut être coupé à un niveau de dissimilarité pour former une partition. La hiérarchie de clusters est représentée comme un arbre de clusters, appelé dendrogramme Les feuilles de l’arbre représentent les objets Les nœuds intermédiaires de l’arbre représentent les clusters Clustering hiérarchique 16/05/2017 74
  • 75. Avantages : Conceptuellement simple Propriétés théoriques sont bien connues Quand les clusters sont groupés, la décision est définitive => le nombre d’alternatives différentes à examiner est réduit Inconvénients : Groupement de clusters est définitif => décisions erronées sont impossibles à modifier ultérieurement Méthodes non extensibles pour des ensembles de données de grandes tailles Clustering hiérarchique 16/05/2017 75
  • 76. le clustering par partition le clustering par partition, dont le but est de former une partition de l’espace des objets, selon une certaine fonction critère, chaque partition représentant alors un cluster dans cette famille, plusieurs méthodes se distinguent fortement :  K-means  K-médoide 16/05/2017 76
  • 77. Principe L’algorithme de classification K-means consiste à classer les objets optimisés en k classes (clusters), ces classes sont présentées par les moyennes pondérées des objets inclus dans les classes, ces moyennes sont appelées ¨centroides¨. K-means 16/05/2017 77
  • 78. Algorithme L’état stable est l’état dont lorsque l’algorithme trouve après une telle classification les mêmes résultats que celle-ci du l’étape précédente K-means 16/05/2017 78
  • 79. Déroulement du l’algorithme Cet algorithme se déroule d’une façon itérative dans une suite d’étapes qu’on va les citer: 1. Le choix un nombre k qui va présenter le nombre des classes (dans notre cas le K égale à 2). 2. Choix de k objets et mettre chacun dans une classe différente. 3. Calculer les centroides des classes. 4. Calculer les distances entre les objets et les centroides et affecter chaque objet à la classe qui convient en basant sur le principe de la distance minimale. 5. Recalculer les centroides. 6. Répéter les étapes 4 et 5 jusqu’à ce qu’on trouve l’état stable. K-means 16/05/2017 79
  • 80. Inconvénients de k-means N’est pas applicable en présence d’attributs où la moyenne n’est pas définie On doit spécifier k (nombre de clusters) Incapable de traiter des données bruitées Les clusters sont construits par rapports à des objets inexistants (les milieux) Ne peut pas découvrir les groupes non-convexes Les outliers sont mal gérés. K-means 16/05/2017 80
  • 81. « K-medoid » PAM « K-representants » • un médoïde est le représentant le plus central d'une classe. • L'algorithme des k-medoids (k-médoïdes) est un algorithme de partitionnement plus robuste vis-à- vis les données aberrantes (outliers) que celui des k-means (k-moyennes). • Comme les k-moyennes, l'algorithme des k-médoïdes minimise l'erreur quadratique moyenne qui est la distance entre les points de la classe et le point central (ou médoïde). K-medoid 16/05/2017 81
  • 82. • Pour trouver k classes, l’approche PAM (partition around medoids) consiste à considérer un représentant pour chaque classe. Ce représentant est censé être le point le plus central de la classe • Au lieu de prendre la valeur moyenne des objets dans un cluster en tant que point de référence, nous pouvons ramasser des objets réels pour représenter les classes en utilisant un objet représentant par cluster. • Chaque objet resté est regroupé avec l'objet représentant à laquelle il est le plus similaire. Le procédé de séparation est alors effectuée en se basant sur ​​le principe de minimisation de la somme des différences entre chaque objet et son point de référence correspondant. K-medoid 16/05/2017 82
  • 83. Algorithme Algorithme des k-Medoides Choisir arbitrairement k medoides Répéter affecter chaque objet restant au medoide le plus proche Choisir aléatoirement un non-medoide Or Pour chaque medoide Oj Calculer le coût TC du remplacement de Oj par Or Si TC < 0 alors Remplacer Oj par Or Calculer les nouveaux clusters Finsi FinPour Jusqu’à ce ce qu’il n’y ait plus de changement K-medoid 16/05/2017 83
  • 84. Clustering basé sur la densité le clustering basé sur la densité, dont le but est d’identifier, dans l’espace, les zones de forte densité entourées par des zones de faible densité, qui formeront les clusters L’algorithme de densité le plus reconnu est le DBSCAN 16/05/2017 84
  • 85. Eps-Voisinage d’un point On définit l’ensemble des voisins d’un point p se trouvant dans un rayon Eps par : • Eps : Le rayon du voisinage • Dist( ) est une fonction de distance qui peut dépendre de la nature des données à classer. • D: Ensemble des données. Dbscan 16/05/2017 85
  • 86. Point noyau Un point p est dit point noyau si le nombre de points dans son voisinage de rayon Eps est supérieur ou égale à MinPts. |N(p)| ≥ MinPts • MinPts: Paramètre de densité : nombre minimal de voisins se trouvant dans un rayon Eps Dbscan 16/05/2017 86
  • 87. Algorithme 1. Sélectionner arbitrairement un point p 2. Former tous les points densité joignable à partir de p via Eps et MinPts 3. Si p est un point noyau, un cluster est formé 4. Si p est un point frontière, aucun point n’est joignable par densité à partir de p et DBSCAN visite le prochain point de la base de données 5. Continuer le processus jusqu’à ce que tous les points soient visités. Dbscan 16/05/2017 87
  • 88. • DBSCAN requiert deux paramètres Eps et MinPts, et l’expérience montre que les résultats obtenus sont très sensibles aux choix de ces paramètres. En plus il n’est pas bien adapté dans le cas où les clusters se présentent sur différentes densités. Eu égard à sa complexité quadratique il n’est pas adapté aux larges bases de données. Dbscan 16/05/2017 88
  • 89. Conclusion • Les méthodes de clustering peuvent être classées en : • Méthodes de partitionnement, • Méthodes hiérarchiques, • Méthodes à densité de voisinage • Plusieurs travaux de recherche sur le clustering en cours... • Plusieurs applications en perspective : Génomique, Environnement, ... 16/05/2017 89
  • 90. Références • A. S. Sodiya. Multi-Level and Secured Agent-based Intrusion Detection System. JournalOf Computing and InformationTechnology,14(3):217–223, 2006. • M.-L. Shyu and V. Sainani. A Multiagent-based Intrusion Detection System with the Support of Multi-Class Supervised Classification, chapter 8, pages 127–142. SpringerVerlagUS, Data Miningand Multi-agent Integrationedition, 2009. • Imen Brahmi1, Sadok Ben Yahia1, and Pascal Poncelet2 MAD-IDS: Novel Intrusion Detection System using Mobile Agents and Data Mining Approaches 1 Faculty of Sciences of Tunis, Tunisia. • Intrusion detection using autonomous agents. Eugene H. Spafford and Diego Zamboni Computer Networks, 34(4):547-570, October 2000. • A New Mobile Agent-Based Intrusion Detection System Using Distributed Sensors MohamadEid American University of Beirut, Department of Electrical and Computer Engineering, P.O.Box 11-0236 Beirut 1107 2020 Lebanon. • An Intelligent Immunity-based Model for Distributed Intrusion Detection ZhihaoPENG,Guanyu LI, Faculty of Information Science and Technology, Dalian Maritime University, Dalian 116024, China , Department of Computer Science, Dalian NeusoftInstitute of Information, Dalian 116626, China • détection d’intrusion Odile PAPINI ESIL Université de la méditerranée Odile.Papini@esil.univmrs.frhttp://odile.papini.perso.esil.univmed.fr/sources/SSI.html • Guillaume CALAS Spécialisation Sciences Cognitives et InformatiqueAvancée 14-16 rueVoltaire,94270 Le Kremlin-Bicêtre,France 16/05/2017 90