Présentation memo

787 vues

Publié le

Publié dans : Business
0 commentaire
0 j’aime
Statistiques
Remarques
  • Soyez le premier à commenter

  • Soyez le premier à aimer ceci

Aucun téléchargement
Vues
Nombre de vues
787
Sur SlideShare
0
Issues des intégrations
0
Intégrations
5
Actions
Partages
0
Téléchargements
25
Commentaires
0
J’aime
0
Intégrations 0
Aucune incorporation

Aucune remarque pour cette diapositive

Présentation memo

  1. 1. République du Sénégal Un Peuple – Un But – Une Foi UNIVERSITE CHEIKH ANTA DIOP DE DAKAR FACULTE DES SCIENCES ET TECHNIQUES DEPARTEMENT MATHS /INFO SECTION INFORMATIQUE OPTION : S.I.R MEMOIRE DE MASTER II INFORMATIQUE OUTIL DE DATA MINING : Les Arbres de décision et l’Analyse des Correspondances sur une plateforme web applicable a un entrepôt de données.Présenté et soutenu par: Encadreur:Cheikh Tidiane THIANDOUM M. Alphonse Diombo THIAKANE Consultant en systèmes d’information [Année académique 2009-2010] Expert en Business Intelligence 1
  2. 2. PLAN 2 • INTRODUCTIONPRESENTATION DU SUJET • PRESENTATION ET PROBLEMATIQUE DU SUJETPREMIERE • ETAT DE L’ART DU DATA MINING PARTIE • LES ARBRES DE DECISIONDEUXIEME PARTIE • L’ANALYSE DES CORRESPONDANCES • CONCEPTION ET MISE EN ŒUVRE DE L’OUTILTROISIEME PARTIE • CONCLUSION
  3. 3. INTRODUCTION 3 Production des entreprises en un temps record d’une masse importante de données. Nécessité de développer de nouveaux outils•Le DM comme discipline salvatrice desentreprises: techniques dérivées de différentsdomaines. Objet de ce mémoire: les arbres de décision et l’analyse des correspondances (simples).
  4. 4. PRESENTATION ETPROBLEMATIQUE DU SUJET 4 T R A V A I L A F A I R E P L A T E F O R M E W E B  ARBRES DE DÉCISION A N A L Y S E D E S C O R R E S P O N D A N C E S
  5. 5. 5 ETAT DE L’ART DU DATA MININGG E N È S E E TD É F I N I T I O N D U Facteurs:DM  La croissance exponentielle de la collecte des données,A P P L I C A T I O N SMETIERS DU  Augmentation des capacités de stockage des donnéesDM (disques durs de giga octets);P R O C E S S U S  Prolifération en parallèle des capacités de traitementsSTANDARD des données;D’UNE ETUDEDE DM  L’émergence des entrepôts de données;L E D M D A N S  La disponibilité des données grâce aux réseauxLE PROCESSUS (intranet et internet);KDD TECHNIQUES Définition:ET LOGICIELS  Le Data mining comme domaine pluridisciplinaireDU DM  Deux types de DM: supervisé et non supervisé.
  6. 6. 6 ETAT DE L’ART DU DATA MININGG E N È S E E TD É F I N I T I O N D U  Marketing/stratégie: prévisions de ventes, ciblage de clientèle, des besoins, des relations entres les différents produitsDMA P P L I C A T I O N S  Secteur bancaire : scoring; cibler lesMETIERS DU propositions de prêts et éviter les surendettementsDM  Relations clientes: évaluer les risques, anticiper lesP R O C E S S U S attentes futuresSTANDARDD’UNE ETUDE Secteur de la téléphonie : prédiction de l’attritionDE DM  Grande distribution: analyse du panier de laL E D M D A N S ménagèreLE PROCESSUSKDD  Scientifique : identification et classification dobjets célestes. TECHNIQUESET LOGICIELS  Médical: analyse de résultat d’une expérimentationDU DM  Sécurité informatique: recherche de transactions frauduleuses par la police
  7. 7. 7 ETAT DE L’ART DU DATA MININGG E N È S E E TDÉFINITION DU PRESENTATION DU CRISP-DMDM PROCESSUS du DATA MININGA P P L I C A T I O N SMETIERS DU Acteurs Étapes PhasesDM Objectifs 1 : Compréhension du métierP R O C E S S U S MaîtreSTANDARDD’UNE ETUDE d’œuvre 2 : Compréhension des donnéesDE DM DonnéesL E D M D A N S 3 : Préparation des donnéesLE PROCESSUSKDD 4 : Modélisation TECHNIQUES TraitementsET LOGICIELS 5 : Évaluation de la modélisationDU DM Maître d’ouvrage Déploiement 6 : Déploiement des résultats de l’étude
  8. 8. 8 ETAT DE L’ART DU DATA MININGG E N È S E E TDÉFINITION DUDMA P P L I C A T I O N SMETIERS DUDMP R O C E S S U SSTANDARDD’UNE ETUDEDE DML E D M D A N SLE PROCESSUSKDD TECHNIQUES Préparation des données (Collecte, Sélection, NettoyageET LOGICIELS ,codage)DU DM Consultation des données Application des techniques DM
  9. 9. 9 ETAT DE L’ART DU DATA MININGG E N È S E E TD É F I N I T I O N D U Puissance DomaineDM StatistiqueA P P L I C A T I O N S IA Réseaux de neurone Limite IA/STATMETIERS DUDM Algo génétiqueP R O C E S S U SSTANDARD Réseau BayésienD’UNE ETUDEDE DM Score,Regression,clustersL E D M D A N SLE PROCESSUS Arbre de decisionKDD Association TECHNIQUESET LOGICIELS Raisonnement à base de casDU DM Lisibilité Fig : Rapport entre le pouvoir de prédiction et la lisibilité
  10. 10. 10 ETAT DE L’ART DU DATA MININGG E N È S E E TD É F I N I T I O N D U techniques:DM  StatistiquesA P P L I C A T I O N SMETIERS DU  Réseaux de neurone,DM  APM,P R O C E S S U SSTANDARD  Arbres de décisionD’UNE ETUDEDE DM  Réseaux bayésiens;L E D M D A N S  Raisonnement à base de casLE PROCESSUSKDD logiciels: TECHNIQUES  Clémentine de SPSS, Entreprise Miner de SAS,ET LOGICIELS ORACLE , XL Miner , Statistica Data Miner deDU DM StatSoft .  TANAGRA, ORANGE, WEKA.
  11. 11. 11 LES ARBRES DE DECISIONHISTORIQUE  Paternité à Morgan et Sonquist (1963) DEFINITION avec les arbres de régression dans unHYPOTHESES processus de prédiction et d’explicationET OBJECTIFS AIDMETHODOLOGIE DES ARBRES  Apogée avec la méthode CART deDE DECISION Breiman et alTABLEAUCOMPARATIVEDES  la méthode ID3 de Quinlan 1979ALGORITHMESL’ALGORITHMEID3;AVANTAGES ET  C4.5 dans les années 90INCONVENIENTS
  12. 12. 12 LES ARBRES DE DECISIONHISTORIQUE  famille d’algorithmes d’apprentissage DEFINITION non paramétriques structurés avecHYPOTHESES des arbresET OBJECTIFS  Chacun des nœuds de l’arbre est soitMETHODOLOGI une branche spécifiant un test sur uneE DES ARBRES valeur d’un attribut ou une feuilleDE DECISION dénotant une décision.TABLEAU LogementCOMPARATIVE  Exemple:DESALGORITHMES Locataire Propriétaire FamilleL’ALGORITHME Salaire Salaire co empID3; OUIAVANTAGES ET Faible ElevéINCONVENIENTS Moyen Elevé NON OUI NON OUI
  13. 13. 13 LES ARBRES DE DECISIONHISTORIQUE Hypothèses DEFINITION  DONNEESHYPOTHESES ET • N individus • P variables décrivant ces individusOBJECTIFS  VARIABLE CIBLE (ou à prédire)METHODOLOGIE Variable classe/groupe (Qualitative)DES ARBRES DEDECISION  VARIABLES EXPLICATIVESTABLEAU Autres variables (Qualitatives et Quantitatives):COMPARATIVEDES Objectifs:ALGORITHMES  Obtenir un critère de séparationL’ALGORITHME  Prendre une décision sur un nouvelID3; exempleAVANTAGES ET  Produire des groupes d’individus lesINCONVENIENTS plus homogènes possibles du point de vue de la variable à prédire.
  14. 14. 14 LES ARBRES DE DECISIONHISTORIQUE  Choisir la variable de segmentation DEFINITION sur un sommet.HYPOTHESES ETOBJECTIFSMETHODOLOGIE  Le traitement des variables continuesDES ARBRES DEDECISION  Taille de l’arbreTABLEAUCOMPARATIVEDES  surajustement du modèleALGORITHMESL’ALGORITHMEID3;  Pré-élagageAVANTAGES ETINCONVENIENTS  Post-élagage.
  15. 15. 15 LES ARBRES DE DECISIONHISTORIQUE Algorith Surajuste Critère de Type Type de me ment segmentation d’arbre variables DEFINITION généréHYPOTHESES ET CART Post- Indice de GINI arbres continues etOBJECTIFS élagage binaires nominativesMETHODOLOGIEDES ARBRES DE ID3 Pré-élagage Entropie de Arbre n- nominativesDECISION Shannon aireTABLEAU C4.5 Post- Entropie de Arbre n- continues etCOMPARATIVE élagage Shannon et aire nominativesDES gain ratioALGORITHMES C5 Post- Entropie de Arbre n- continues et élagage Shannon aire nominativesL’ALGORITHMEID3; CHAID Pré-élagage Test du chi-2 Arbre n- continues et aire nominativesAVANTAGES ETINCONVENIENTS SLIQ Post- indice de Gini Arbre n- continues et élagage aire nominatives
  16. 16. 16 LES ARBRES DE DECISIONHISTORIQUE fonction ID3(exemples, attributCible, attributsNonCibles) DEFINITION si exemples est vide alors /* Nœud terminal */ retourner un nœud ErreurHYPOTHESES ET sinon si attributsNonCibles est vide alors /* Nœud terminal */ retourner un nœud ayant la valeur la plus représentée pourOBJECTIFS attributCible sinon si tous les exemples ont la même valeur pour attributCibleMETHODOLOGIE alors /* Nœud terminal */DES ARBRES DE retourner un nœud ayant cette valeurDECISION sinon /* Nœud intermédiaire */ attributSélectionné = attribut maximisant le gainTABLEAU dinformation parmi attributsNonCibles attributsNonCiblesRestants = suppressionListeCOMPARATIVE (attributsNonCibles, attributSélectionné)DES nouveauNœud = nœud étiqueté avec attributSélectionnéALGORITHMES pour chaque valeur de attributSélectionné faireL’ALGORITHME exemplesFiltrés =filtreExemplesAyantValeurPourAttributID3; (exemples, attributSélectionné, valeur) nouveauNœud->fils (valeur) = ID3 (exemplesFiltrés,AVANTAGES ET attributCible, attributsNonCiblesRestants) finpourINCONVENIENTS retourner nouveauNœud
  17. 17. 17 LES ARBRES DE DECISIONHISTORIQUE • Notion d’entropie (Shannon): permet de DEFINITION mesurer le degré de mélange des exemples entre les différentes classes ;HYPOTHESES ETOBJECTIFS  Soit un ensemble X dexemples/p+ estMETHODOLOGIE positifs et p- est négatifs/(p+)+(p- )= 1.DES ARBRES DEDECISION  H(X) = -(p+) log2 (p+)Ŕ(p-) log2 (p-)TABLEAU H(X) = -∑k={1..c} P(k/X) × log(P(k/X))COMPARATIVEDES 10ALGORITHMES 9 Entropie 8 7L’ALGORITHME 6ID3; 5 4 3 P=p/(p+n)=n/(n+p)=0.5AVANTAGES ET 2 équiprobableINCONVENIENTS 1 0 0 1 2 3 4 5 6 7 8 9 10
  18. 18. 18 LES ARBRES DE DECISIONHISTORIQUE DEFINITION  Gain dinformation :HYPOTHESES ETOBJECTIFS  une population dexemples X. LeMETHODOLOGIEDES ARBRES DE gain dinformation de X par rapport àDECISION un attribut aj donné est la réductionTABLEAU dentropie causée par la partition de XCOMPARATIVE selon aj :DESALGORITHMESL’ALGORITHME |Xaj=v|ID3; Gain(X,aj)=H(X)- ∑ --------H(Xaj=v) (v€Valeur(aj) ) |X|AVANTAGES ETINCONVENIENTS
  19. 19. 19 LES ARBRES DE DECISIONHISTORIQUE  Avantages DEFINITION  lisibilité.HYPOTHESES ETOBJECTIFS  capacité à sélectionner automatiquement les variables.METHODOLOGIEDES ARBRES DE Robuste au bruit et aux valeursDECISION manquantesTABLEAU Classification rapide(parcours d’un cheminCOMPARATIVE dans un arbre)DESALGORITHMES  InconvénientsL’ALGORITHME  Evolutivité dans le temps: dans le temps, il est nécessaire de relance la phase d’apprentissage si les données évoluentID3; Sensibles au nombre de classes:AVANTAGES ET performances se dégradentINCONVENIENTS Nécessité d’un grand nombre d’individus
  20. 20. 20 L’ANALYSE DES CORRESPONDANCESHISTORIQUEET  développée par le franco-libanaisGENERALITES Benzecri à la fin des années 60 pourSUR LA des applications linguistiquesMETHODE  décrire de manière synthétique un tableau de contingenceHYPOTHESES 1  Y j  pET OBJECTIFS 1  k11 k1j  k1p X i ki1  kij  kip ki.   n kn1 knj knp k.j kMETHODOLOGIE  Profil-ligne i : fJi = {kij/ki.} Profil-colonne j : fIj = {kij/k.j}
  21. 21. 21 L’ANALYSE DES CORRESPONDANCESHISTORIQUE HypothésesET  Tableau de contingence d’abordGENERALITESSUR LA  Pas de cases videsMETHODE  Que des valeurs positives Objectifs:HYPOTHESES  Déterminer et à hiérarchiser lesET OBJECTIFS dépendances entre lignes et entre colonnes;  révélerles interrelations entre caractèresMETHODOLOGIE  Mettre en évidence "ressemblances" / "dissemblances"
  22. 22. 22 L’ANALYSE DES CORRESPONDANCESHISTORIQUEET le test du khi-deuxGENERALITES  lhypothèse H0 => indépendanceSUR LA H1 => dépendanceMETHODE  Calcul du khi-2 k i . k. j avec E ij HYPOTHESES Khi-2 théorique kET OBJECTIFS ddl= (Nb lignes -1) x (Nb colonnes -1). ddl/alpha 1% 2% 5% 10% 1 6,6350 5,4120 3,8410 2,7060 2 9,2100 7 ,8240 5,9910 4,6050METHODOLOGIE 3 11,3450 9,8370 7,8150 6,2510 4 13 ,2770 11,6680 9,4880 7,7090 5 15,0860 13,3880 11,0700 9,2360 . . . . . . . . . . . . . . . n
  23. 23. 23 L’ANALYSE DES CORRESPONDANCESHISTORIQUE LAnalyse Factorielle des CorrespondancesETGENERALITES  LAFC du tableau de contingence: K, estSUR LA lACP du tableau: X, des profils en ligneMETHODE p dis tan ce(i, i )   ( xij  xi j ) 2 / k ( j ) j 1HYPOTHESES Règles d’interprétation des profils :ET OBJECTIFS profils proches => deux modalités de X ayant des distributions (répartitions) suivant les modalités de Y assezMETHODOLOGIEsemblables.  profils éloignés => deux modalités de X dont les distributions suivant les modalités de Y sont très différentes
  24. 24. 24CONCEPTION ET • PRESENTATION DE UMLMISE EN ŒUVREDE L’OUTIL • MODELE DE LA BASE DE CONCEPTION DONNEES OUTILS DEDEVELOPPEMENT • DIAGRAMMES DE CAS PRESENTATIONDE L’OUTIL D’UTILISATION • DIAGRAMME DE SEQUENCES
  25. 25. MODELE DE LA BASE DE DONNEES 25 Utilisateurs + id_user : int + login : String + pass : String + nom : String + prenom : String + privilége : String Methode_score + code_MS : String + nom : String + table : String + TypeMS : String 0..* + Residu : String Distance 0..1 + Dist_valeur : float 0..* 0..* 0..* 0..* MS_dimension MS_fait 0..1 0..1+ MS_X : float + coefficient : double+ MS_Y : float + MS_X : float modalite + MS_Y : float + code_mod : String + libelle_mode : String + MS_X : float + MS_Y : float 0..* 0..* 0..* variablemere + codeVMere : String + libelle : String + sommeil : int 1..1 + ordre : int + typev ar : String
  26. 26. DIAGRAMME DES CAS D’UTILISATION 26 Supprimer utilisateur <<extend>> Créer utilisateur <<extend>> <<include>> Gestion des utilisateur Connexion <<include>>Administrateur <<include>> Analyse avec les arbres de decision <<extend>> Faire un apprentissage <<extend>> <<extend>> Analyse des correspondances <<extend>> Faire une simulation Utilisateur
  27. 27. DIAGRAMME DE SEQUENCES SIMULATION ARBRE DE DECISION 27 outil Administrateur/Utilisateur Demande de simulation interface de selection de cible selection dimensions et faits selection cible envoi cible si cible qualitative selection faits compatibles interface de selection fait associé a la cible selection fait envoi fait associé à la cible Fin Si interface de selection des variables explicatives selection axes danalyses compatibles selection et rensegnement variables explicatives envoi de la cible vérification apprentissage si apprentissage proposition de création de lapprentissage avec les variable de la simulation existe pas si cible numérique création des intervalles de la cible fin si interface des variables de lapprentissagesi exite variables explicatives numériques création des intervalles des variables explicatives validation fin si fin si création apprentissage selection résultats Renvoie des résultats simulation
  28. 28. DIAGRAMME DE SEQUENCES ANALYSE DES CORRESPONDANCES 28 outilAdministrateur / Utilisateur Demande danalyse Selection dimensions resultat selection selection des deux variables à analyser Selection faits en rapport avec ces deux variables resultat selection selection du fait pour lanalyse selection données puis application de la methode si possible Resultat analyse
  29. 29. 29 AUTRES OUTILSCONCEPTION ETMISE EN ŒUVREDE L’OUTIL WAMP SERVER  PHP CONCEPTION  HTMLOUTILS DEDEVELOPPEMENT  JAVASCRIPT PRESENTATION  CSSDE L’OUTIL  NOTEPAD++
  30. 30. 30 CONCEPTION ET MISE EN ŒUVRE DE L’OUTIL CONCEPTION DEMONSTRATIONOUTILS DEDEVELOPPEMENT PARTIELLE DE L’OUTIL PRESENTATIONDE L’OUTIL
  31. 31. CONCLUSION 31 CE QUE NOUS AVONS RÉUSSIT:ANALYSER DES DONNÉES D’UN ENTREPÔT AVEC LATECHNIQUE DES ARBRES DE DÉCISION(APPRENTISSAGE ET SIMULATION)ANALYSER DES DONNÉES D’UN ENTREPÔT AVEC LATECHNIQUE DE L’ANALYSE DESCORRESPONDANCES DE DEUX VARIABLESGESTION DES UTILISATEURSP E R S P E C T I V E S : fichiers, visualiser l’arbre , ACM, visualiser les profils
  32. 32. MERCI DE VOTRE ATTENTION 32

×