SlideShare une entreprise Scribd logo
République du Sénégal
                                  Un Peuple – Un But – Une Foi
                           UNIVERSITE CHEIKH ANTA DIOP DE DAKAR




                           FACULTE DES SCIENCES ET TECHNIQUES
                               DEPARTEMENT MATHS /INFO
                                 SECTION INFORMATIQUE
                                       OPTION : S.I.R
                           MEMOIRE DE MASTER II INFORMATIQUE




            OUTIL DE DATA MINING :
          Les Arbres de décision et l’Analyse des
          Correspondances sur une plateforme web
          applicable a un entrepôt de données.
Présenté et soutenu par:                                        Encadreur:
Cheikh Tidiane THIANDOUM                                        M. Alphonse Diombo THIAKANE
                                                                Consultant en systèmes d’information
                                 [Année académique 2009-2010]   Expert en Business Intelligence

                                                1
PLAN
                                   2

               • INTRODUCTION
PRESENTATION
  DU SUJET     • PRESENTATION ET PROBLEMATIQUE DU SUJET


PREMIERE
               • ETAT DE L’ART DU DATA MINING
 PARTIE




               • LES ARBRES DE DECISION
DEUXIEME
 PARTIE
               • L’ANALYSE DES CORRESPONDANCES



               • CONCEPTION ET MISE EN ŒUVRE DE L’OUTIL
TROISIEME
  PARTIE
               • CONCLUSION
INTRODUCTION
                         3

 Production des entreprises en un temps
 record d’une masse importante de données.

 Nécessité de développer de nouveaux outils


•Le DM comme discipline salvatrice des
entreprises: techniques dérivées de différents
domaines.
 Objet de ce mémoire: les arbres de décision
 et l’analyse des correspondances (simples).
PRESENTATION ET
PROBLEMATIQUE DU SUJET
                       4


 T R A V A I L A F A I R E


 P L A T E F O R M E W E B


  ARBRES DE DÉCISION


 A N A L Y S E D E S C O R R E S P O N D A N C E S
5
                        ETAT DE L’ART DU DATA MINING
G E N È S E E T
D É F I N I T I O N D U Facteurs:
DM                          La croissance exponentielle de la collecte des données,
A P P L I C A T I O N S
METIERS DU                  Augmentation des capacités de stockage des données
DM                           (disques durs de giga octets);

P R O C E S S U S          Prolifération en parallèle des capacités de traitements
STANDARD                     des données;
D’UNE ETUDE
DE DM                       L’émergence des entrepôts de données;

L E D M D A N S            La disponibilité des données grâce aux réseaux
LE PROCESSUS                 (intranet et internet);
KDD
 TECHNIQUES
                           Définition:
ET LOGICIELS
                            Le Data mining comme domaine pluridisciplinaire
DU DM

                            Deux types de DM: supervisé et non supervisé.
6
                              ETAT DE L’ART DU DATA MINING
G E N È S E E T
D É F I N I T I O N D U  Marketing/stratégie: prévisions de ventes, ciblage de
                            clientèle, des besoins, des relations entres les différents produits
DM
A P P L I C A T I O N S  Secteur bancaire : scoring; cibler les
METIERS DU                  propositions de prêts et éviter les surendettements
DM
                          Relations clientes: évaluer les risques, anticiper les
P R O C E S S U S       attentes futures
STANDARD
D’UNE ETUDE              Secteur de la téléphonie : prédiction de l’attrition
DE DM
                          Grande distribution: analyse du panier de la
L E D M D A N S            ménagère
LE PROCESSUS
KDD                       Scientifique : identification et classification
                              d'objets célestes.
 TECHNIQUES
ET LOGICIELS                   Médical: analyse de résultat d’une expérimentation
DU DM
                               Sécurité informatique: recherche de
                                 transactions frauduleuses par la police
7
                           ETAT DE L’ART DU DATA MINING
G E N È S E E T
DÉFINITION DU                   PRESENTATION DU CRISP-DM
DM                                            PROCESSUS du DATA MINING
A P P L I C A T I O N S
METIERS DU                         Acteurs         Étapes                     Phases
DM
                                                  Objectifs    1 : Compréhension du métier
P R O C E S S U S
                                   Maître
STANDARD
D’UNE ETUDE                       d’œuvre                      2 : Compréhension des données
DE DM
                                                  Données
L E D M D A N S                                               3 : Préparation des données
LE PROCESSUS
KDD
                                                               4 : Modélisation
 TECHNIQUES                                     Traitements
ET LOGICIELS                                                   5 : Évaluation de la modélisation
DU DM
                           Maître d’ouvrage      Déploiement 6 : Déploiement des résultats de
                                                             l’étude
8
                           ETAT DE L’ART DU DATA MINING
G E N È S E E T
DÉFINITION DU
DM
A P P L I C A T I O N S
METIERS DU
DM
P R O C E S S U S
STANDARD
D’UNE ETUDE
DE DM
L E D M D A N S
LE PROCESSUS
KDD
 TECHNIQUES               Préparation des données (Collecte, Sélection, Nettoyage
ET LOGICIELS               ,codage)
DU DM
                           Consultation des données

                           Application des techniques DM
9
                           ETAT DE L’ART DU DATA MINING
G E N È S E E T
D É F I N I T I O N D U Puissance                                   Domaine
DM                                                                 Statistique
A P P L I C A T I O N S
                                                                        IA
                                       Réseaux de neurone        Limite IA/STAT
METIERS DU
DM                                            Algo génétique
P R O C E S S U S
STANDARD                                             Réseau Bayésien
D’UNE ETUDE
DE DM                                                  Score,Regression,clusters

L E D M D A N S
LE PROCESSUS                                                   Arbre de decision
KDD
                                                                   Association
 TECHNIQUES
ET LOGICIELS                    Raisonnement à base de cas
DU DM
                                                                        Lisibilité
                           Fig : Rapport entre le pouvoir de prédiction et la
                           lisibilité
10
                         ETAT DE L’ART DU DATA MINING
G E N È S E E T
D É F I N I T I O N D U techniques:
DM                       Statistiques
A P P L I C A T I O N S
METIERS DU                  Réseaux de neurone,
DM
                            APM,
P R O C E S S U S
STANDARD                    Arbres de décision
D’UNE ETUDE
DE DM                       Réseaux bayésiens;
L E D M D A N S
              Raisonnement à base de cas
LE PROCESSUS
KDD          logiciels:
 TECHNIQUES   Clémentine de SPSS, Entreprise Miner de SAS,
ET LOGICIELS    ORACLE , XL Miner , Statistica Data Miner de
DU DM           StatSoft .

                            TANAGRA, ORANGE, WEKA.
11
                     LES ARBRES DE DECISION
HISTORIQUE
                 Paternité à Morgan et Sonquist (1963)
 DEFINITION
                 avec les arbres de régression dans un
HYPOTHESES      processus de prédiction et d’explication
ET OBJECTIFS     AID
METHODOLOGI
E DES ARBRES     Apogée avec la méthode CART de
DE DECISION
                 Breiman et al
TABLEAU
COMPARATIVE
DES              la méthode ID3 de Quinlan 1979
ALGORITHMES
L’ALGORITHME
ID3;
AVANTAGES ET    C4.5 dans les années 90
INCONVENIENTS
12
                        LES ARBRES DE DECISION
HISTORIQUE
                 famille d’algorithmes d’apprentissage
 DEFINITION
                 non paramétriques structurés avec
HYPOTHESES      des arbres
ET OBJECTIFS
                 Chacun des nœuds de l’arbre est soit
METHODOLOGI    une branche spécifiant un test sur une
E DES ARBRES    valeur d’un attribut ou une feuille
DE DECISION     dénotant une décision.
TABLEAU
                                        Logement
COMPARATIVE      Exemple:
DES
ALGORITHMES                Locataire    Propriétaire    Famille
L’ALGORITHME         Salaire                                Salaire co emp
ID3;                                    OUI

AVANTAGES ET                                            Faible    Elevé
INCONVENIENTS     Moyen         Elevé

                NON               OUI                  NON           OUI
13
                       LES ARBRES DE DECISION
HISTORIQUE
                  Hypothèses
 DEFINITION
                  DONNEES
HYPOTHESES ET            • N individus
                          • P variables décrivant ces individus
OBJECTIFS
                  VARIABLE CIBLE (ou à prédire)
METHODOLOGIE
                 Variable classe/groupe (Qualitative)
DES ARBRES DE
DECISION          VARIABLES EXPLICATIVES
TABLEAU         Autres variables (Qualitatives et Quantitatives):
COMPARATIVE
DES
                 Objectifs:
ALGORITHMES       Obtenir un critère de séparation
L’ALGORITHME     Prendre une décision sur un nouvel
ID3;
                   exemple
AVANTAGES ET     Produire des groupes d’individus les
INCONVENIENTS
                   plus homogènes possibles du point
                   de vue de la variable à prédire.
14
                      LES ARBRES DE DECISION
HISTORIQUE
                  Choisir la variable de segmentation
 DEFINITION
                  sur un sommet.
HYPOTHESES ET
OBJECTIFS
METHODOLOGIE
                  Le traitement des variables continues
DES ARBRES DE
DECISION
                  Taille de l’arbre
TABLEAU
COMPARATIVE
DES               surajustement du modèle
ALGORITHMES
L’ALGORITHME
ID3;              Pré-élagage

AVANTAGES ET
INCONVENIENTS
                  Post-élagage.
15
                         LES ARBRES DE DECISION
HISTORIQUE      Algorith Surajuste Critère de   Type            Type de
                 me       ment      segmentation d’arbre         variables
 DEFINITION
                                                 généré
HYPOTHESES ET   CART    Post-       Indice de GINI arbres       continues et
OBJECTIFS                élagage                    binaires     nominatives
METHODOLOGIE
DES ARBRES DE    ID3     Pré-élagage Entropie de      Arbre n-   nominatives
DECISION                             Shannon          aire

TABLEAU         C4.5    Post-       Entropie de      Arbre n-   continues et
COMPARATIVE              élagage     Shannon et       aire       nominatives
DES                                  gain ratio
ALGORITHMES      C5      Post-       Entropie de      Arbre n-   continues et
                         élagage     Shannon          aire       nominatives
L’ALGORITHME
ID3;             CHAID   Pré-élagage Test du chi-2    Arbre n-   continues et
                                                      aire       nominatives
AVANTAGES ET
INCONVENIENTS    SLIQ    Post-       indice de Gini   Arbre n-   continues et
                         élagage                      aire       nominatives
16
                          LES ARBRES DE DECISION
HISTORIQUE
                 fonction ID3(exemples, attributCible, attributsNonCibles)
 DEFINITION       si exemples est vide alors /* Nœud terminal */
                      retourner un nœud Erreur
HYPOTHESES ET     sinon si attributsNonCibles est vide alors /* Nœud terminal */
                      retourner un nœud ayant la valeur la plus représentée pour
OBJECTIFS        attributCible
                   sinon si tous les exemples ont la même valeur pour attributCible
METHODOLOGIE    alors /* Nœud terminal */
DES ARBRES DE         retourner un nœud ayant cette valeur
DECISION           sinon /* Nœud intermédiaire */
                      attributSélectionné = attribut maximisant le gain
TABLEAU         d'information parmi attributsNonCibles
                      attributsNonCiblesRestants = suppressionListe
COMPARATIVE      (attributsNonCibles, attributSélectionné)
DES                   nouveauNœud = nœud étiqueté avec attributSélectionné
ALGORITHMES
                     pour chaque valeur de attributSélectionné faire
L’ALGORITHME          exemplesFiltrés =filtreExemplesAyantValeurPourAttribut
ID3;             (exemples, attributSélectionné, valeur)
                       nouveauNœud->fils (valeur) = ID3 (exemplesFiltrés,
AVANTAGES ET    attributCible, attributsNonCiblesRestants)
                     finpour
INCONVENIENTS
                    retourner nouveauNœud
17
                         LES ARBRES DE DECISION
HISTORIQUE      • Notion d’entropie (Shannon): permet         de
 DEFINITION
                   mesurer le degré de mélange des
                   exemples entre les différentes classes ;
HYPOTHESES ET
OBJECTIFS
                  Soit un ensemble X d'exemples/p+ est
METHODOLOGIE    positifs et p- est négatifs/(p+)+(p- )= 1.
DES ARBRES DE
DECISION          H(X) = -(p+) log2 (p+)Ŕ(p-) log2 (p-)
TABLEAU         H(X) = -∑k={1..c} P(k/X) × log(P(k/X))
COMPARATIVE
DES               10
ALGORITHMES       9                   Entropie
                  8
                  7
L’ALGORITHME     6
ID3;              5
                  4
                  3                              P=p/(p+n)=n/(n+p)=0.5
AVANTAGES ET     2                              équiprobable
INCONVENIENTS     1
                  0
                       0 1 2 3 4 5 6 7 8 9 10
18
                      LES ARBRES DE DECISION
HISTORIQUE

 DEFINITION      Gain d'information :

HYPOTHESES ET
OBJECTIFS
                  une population d'exemples X. Le
METHODOLOGIE
DES ARBRES DE
                 gain d'information de X par rapport à
DECISION         un attribut aj donné est la réduction
TABLEAU
                 d'entropie causée par la partition de X
COMPARATIVE      selon aj :
DES
ALGORITHMES
L’ALGORITHME                             |Xaj=v|
ID3;             Gain(X,aj)=H(X)-     ∑    --------H(Xaj=v)
                               (v€Valeur(aj) ) |X|
AVANTAGES ET
INCONVENIENTS
19
                               LES ARBRES DE DECISION
HISTORIQUE
                  Avantages
 DEFINITION
                  lisibilité.
HYPOTHESES ET
OBJECTIFS         capacité à sélectionner
                  automatiquement les variables.
METHODOLOGIE
DES ARBRES DE    Robuste au bruit et aux valeurs
DECISION         manquantes
TABLEAU          Classification rapide(parcours d’un chemin
COMPARATIVE       dans un arbre)
DES
ALGORITHMES       Inconvénients

L’ALGORITHME
                   Evolutivité dans le temps:
                  dans le temps, il est nécessaire de relance la phase d’apprentissage
                                                                                         si les données évoluent


ID3;
                  Sensibles au nombre de classes:
AVANTAGES ET     performances se dégradent
INCONVENIENTS
                  Nécessité d’un grand nombre d’individus
20
                L’ANALYSE DES CORRESPONDANCES
HISTORIQUE
ET              développée par le franco-libanais
GENERALITES         Benzecri à la fin des années 60 pour
SUR LA              des applications linguistiques
METHODE
                décrire de manière synthétique un
                    tableau de contingence
HYPOTHESES                1    
                                      Y
                                       j              p

ET OBJECTIFS          1
                      
                          k11         k1j
                                       
                                                      k1p

                X     i   ki1        kij            kip   ki.
                                      
                      n   kn1         knj             knp
                                      k.j                   k

METHODOLOGIE
                 Profil-ligne i : fJi = {kij/ki.}

                Profil-colonne j : fIj = {kij/k.j}
21
                L’ANALYSE DES CORRESPONDANCES
HISTORIQUE
                Hypothéses
ET
                Tableau de contingence d’abord
GENERALITES
SUR LA          Pas de cases vides
METHODE         Que des valeurs positives
               Objectifs:
HYPOTHESES     Déterminer et à hiérarchiser les
ET OBJECTIFS   dépendances entre lignes et entre
               colonnes;
                 révélerles interrelations entre
                caractères
METHODOLOGIE

                 Mettre en évidence "ressemblances"
                / "dissemblances"
22
                L’ANALYSE DES CORRESPONDANCES
HISTORIQUE
ET             le test du khi-deux
GENERALITES     l'hypothèse H0 => indépendance
SUR LA                                    H1 => dépendance
METHODE
                Calcul du khi-2
                                                  k i . k. j
                  avec                   E ij 
HYPOTHESES     Khi-2 théorique
                                k

ET OBJECTIFS        ddl= (Nb lignes -1) x (Nb colonnes -1).

                     ddl/alpha     1%               2%          5%         10%
                         1         6,6350           5,4120      3,8410     2,7060
                         2         9,2100           7 ,8240     5,9910     4,6050
METHODOLOGIE            3         11,3450          9,8370      7,8150     6,2510
                         4         13 ,2770         11,6680     9,4880     7,7090
                         5         15,0860          13,3880     11,0700    9,2360
                         .                 .                .          .         .
                         .                 .                .          .         .
                         .             .                .           .         .
                n
23
                  L’ANALYSE DES CORRESPONDANCES
HISTORIQUE
                 L'Analyse Factorielle des Correspondances
ET
GENERALITES
                  L'AFC du tableau de contingence: K, est
SUR LA             l'ACP du tableau: X, des profils en ligne
METHODE                                  p
                 dis tan ce(i, i ' )   ( xij  xi ' j ) 2 / k ( j )
                                        j 1
HYPOTHESES
                 Règles d’interprétation des profils :
ET OBJECTIFS
             profils proches => deux modalités de
             X ayant des distributions (répartitions)
             suivant les modalités de Y assez
METHODOLOGIEsemblables.
              profils éloignés => deux modalités de
             X dont les distributions suivant les
             modalités de Y sont très différentes
24



CONCEPTION ET    •   PRESENTATION DE UML
MISE EN ŒUVRE
DE L’OUTIL
                 •   MODELE DE LA BASE DE
 CONCEPTION     DONNEES
 OUTILS DE
DEVELOPPEMENT
                 • DIAGRAMMES DE CAS
 PRESENTATION
DE L’OUTIL           D’UTILISATION


                 • DIAGRAMME DE SEQUENCES
MODELE DE LA BASE DE DONNEES
                                                                25
                                                                                Utilisateurs
                                                                         +    id_user     :   int
                                                                         +    login       :   String
                                                                         +    pass        :   String
                                                                         +    nom         :   String
                                                                         +    prenom      :   String
                                                                         +    privilége   :   String
                           Methode_score
                      +   code_MS       :   String
                      +   nom           :   String
                      +   table         :   String
                      +   TypeMS        :   String
                                                                                      0..*
                      +   Residu        :   String                                                             Distance
                                                         0..1                                      +   Dist_valeur        : float


                                 0..*            0..*
                                                                                                                     0..*
                                                                                                        0..*



    MS_dimension                                                     MS_fait                           0..1                         0..1
+    MS_X   : float                                       +     coefficient   : double
+    MS_Y   : float                                       +     MS_X          : float                              modalite
                                                          +     MS_Y          : float
                                                                                                        +     code_mod          :   String
                                                                                                        +     libelle_mode      :   String
                                                                                                        +     MS_X              :   float
                                                                                                        +     MS_Y              :   float

                          0..*      0..*
                                                                                                        0..*
                             variablemere
                      +   codeVMere         :   String
                      +   libelle           :   String
                      +   sommeil           :   int       1..1
                      +   ordre             :   int
                      +   typev  ar         :   String
DIAGRAMME DES CAS D’UTILISATION
                                              26


                                            Supprimer utilisateur


                                <<extend>>
                                                                Créer utilisateur

                                             <<extend>>
                                                                            <<include>>
                  Gestion des utilisateur                                                        Connexion


                                                                            <<include>>

Administrateur                                                                 <<include>>

                 Analyse avec les arbres de decision
                                                             <<extend>>                Faire un apprentissage

                                                       <<extend>>


                                                          <<extend>>
                 Analyse des correspondances
                                                           <<extend>>
                                                                                      Faire une simulation

  Utilisateur
DIAGRAMME DE SEQUENCES
              SIMULATION ARBRE DE DECISION
                                                                                    27
                                                                                                                         outil


                         Administrateur/Utilisateur                    Demande de simulation



                                                                   interface de selection de cible                   selection dimensions et faits


                                           selection cible                    envoi cible

            si cible qualitative
                                                                                                                          selection faits compatibles
                                                            interface de selection fait associé a la cible


                                           selection fait
                                                                    envoi fait associé à la cible
                Fin Si
                                                       interface de selection des variables explicatives                    selection axes d'analyses compatibles

                              selection et rensegnement variables explicatives
                                                                            envoi de la cible
                                                                                                                                    vérification apprentissage
           si apprentissage              proposition de création de l'apprentissage avec les variable de la simulation
               existe pas
              si cible numérique         création des intervalles de la cible
               fin si

                                                             interface des variables de l'apprentissage
si exite variables explicatives
          numériques
                                   création des intervalles des variables explicatives
                                                                           validation
               fin si
               fin si                                                                                                     création apprentissage


                                                                                                                                 selection résultats
                                                                  Renvoie des résultats simulation
DIAGRAMME DE SEQUENCES ANALYSE
         DES CORRESPONDANCES
                                                                      28

                                                                                  outil


Administrateur / Utilisateur

                                         Demande d'analyse




                                                                                            Selection dimensions


                                          resultat selection

                               selection des deux variables à analyser

                                                                               Selection faits en rapport avec ces deux variables
                                          resultat selection

                                   selection du fait pour l'analyse

                                                                           selection données puis application de la methode si possible

                                           Resultat analyse
29

                   AUTRES OUTILS
CONCEPTION ET
MISE EN ŒUVRE
DE L’OUTIL       WAMP SERVER
                  PHP
 CONCEPTION
                  HTML
OUTILS DE
DEVELOPPEMENT     JAVASCRIPT
 PRESENTATION    CSS
DE L’OUTIL
                  NOTEPAD++
30

 CONCEPTION
 ET MISE EN
 ŒUVRE DE
 L’OUTIL


 CONCEPTION
                   DEMONSTRATION
OUTILS DE
DEVELOPPEMENT    PARTIELLE DE L’OUTIL
 PRESENTATION
DE L’OUTIL
CONCLUSION
                                        31
 CE QUE NOUS AVONS RÉUSSIT:
ANALYSER DES DONNÉES D’UN ENTREPÔT AVEC LA
TECHNIQUE DES ARBRES DE DÉCISION
(APPRENTISSAGE ET SIMULATION)
ANALYSER DES DONNÉES D’UN ENTREPÔT AVEC LA
TECHNIQUE DE L’ANALYSE DES
CORRESPONDANCES DE DEUX VARIABLES
GESTION DES UTILISATEURS

P E R S P E C T I V E S : fichiers, visualiser l’arbre , ACM, visualiser les profils
MERCI DE VOTRE ATTENTION




          32

Contenu connexe

En vedette

Format factory
Format factoryFormat factory
Format factory
Diegomez92
 
Catálogo editorial universo
Catálogo editorial universoCatálogo editorial universo
Catálogo editorial universo
Maria Navarro
 
Across Health SGSMad
Across Health SGSMadAcross Health SGSMad
Across Health SGSMad
Salud y Comunicación
 
Glosario de ntics
Glosario de ntics Glosario de ntics
Glosario de ntics
311012
 
Aguas oceanicas y continentales
Aguas oceanicas y continentalesAguas oceanicas y continentales
Aguas oceanicas y continentales
Jose Perez
 
Assurance & voix du client : audit des impacts stratégiques !
Assurance & voix du client : audit des impacts stratégiques !Assurance & voix du client : audit des impacts stratégiques !
Assurance & voix du client : audit des impacts stratégiques !
L'Assurance en mouvement
 
Assurance & identité numérique coaching me on the web
Assurance & identité numérique   coaching  me on the webAssurance & identité numérique   coaching  me on the web
Assurance & identité numérique coaching me on the web
L'Assurance en mouvement
 
Cuadros
CuadrosCuadros
Sitios de interés del quindío
Sitios de interés del quindíoSitios de interés del quindío
Sitios de interés del quindío
Jairo Andrade Vega
 
Matematicas 1
Matematicas 1Matematicas 1
Matematicas 1
Laura Garcia
 
Catálogo Yves Rocher Campaña 17 2014
Catálogo Yves Rocher Campaña 17 2014Catálogo Yves Rocher Campaña 17 2014
Catálogo Yves Rocher Campaña 17 2014
Luis Barrera
 
Medios de transmisión herramientas telematicas
Medios de transmisión herramientas telematicasMedios de transmisión herramientas telematicas
Medios de transmisión herramientas telematicas
Milena Guzman
 
T 1 balance hidrico del agua
T 1 balance hidrico del aguaT 1 balance hidrico del agua
T 1 balance hidrico del agua
Nallely Peralta Trujillo
 
N6simceciencias8vo 131015094139-phpapp01
N6simceciencias8vo 131015094139-phpapp01N6simceciencias8vo 131015094139-phpapp01
N6simceciencias8vo 131015094139-phpapp01
javieranorambuena13
 
Aujourd hui en hollandie
Aujourd hui en hollandieAujourd hui en hollandie
Aujourd hui en hollandie
Julien Amador
 
Trabajo de grado
Trabajo de gradoTrabajo de grado
Trabajo de grado
mharkoxzsfernandez
 
trabajo angie carolina
trabajo angie carolinatrabajo angie carolina
trabajo angie carolina
12345angie
 
Avant-projet de loi sur le bail commercial au Luxembourg
Avant-projet de loi sur le bail commercial au LuxembourgAvant-projet de loi sur le bail commercial au Luxembourg
Avant-projet de loi sur le bail commercial au Luxembourg
Luxemburger Wort FR
 
20141113 devoxx2014 jochim van dorpe testing in agile
20141113 devoxx2014 jochim van dorpe testing in agile20141113 devoxx2014 jochim van dorpe testing in agile
20141113 devoxx2014 jochim van dorpe testing in agile
Smals
 

En vedette (19)

Format factory
Format factoryFormat factory
Format factory
 
Catálogo editorial universo
Catálogo editorial universoCatálogo editorial universo
Catálogo editorial universo
 
Across Health SGSMad
Across Health SGSMadAcross Health SGSMad
Across Health SGSMad
 
Glosario de ntics
Glosario de ntics Glosario de ntics
Glosario de ntics
 
Aguas oceanicas y continentales
Aguas oceanicas y continentalesAguas oceanicas y continentales
Aguas oceanicas y continentales
 
Assurance & voix du client : audit des impacts stratégiques !
Assurance & voix du client : audit des impacts stratégiques !Assurance & voix du client : audit des impacts stratégiques !
Assurance & voix du client : audit des impacts stratégiques !
 
Assurance & identité numérique coaching me on the web
Assurance & identité numérique   coaching  me on the webAssurance & identité numérique   coaching  me on the web
Assurance & identité numérique coaching me on the web
 
Cuadros
CuadrosCuadros
Cuadros
 
Sitios de interés del quindío
Sitios de interés del quindíoSitios de interés del quindío
Sitios de interés del quindío
 
Matematicas 1
Matematicas 1Matematicas 1
Matematicas 1
 
Catálogo Yves Rocher Campaña 17 2014
Catálogo Yves Rocher Campaña 17 2014Catálogo Yves Rocher Campaña 17 2014
Catálogo Yves Rocher Campaña 17 2014
 
Medios de transmisión herramientas telematicas
Medios de transmisión herramientas telematicasMedios de transmisión herramientas telematicas
Medios de transmisión herramientas telematicas
 
T 1 balance hidrico del agua
T 1 balance hidrico del aguaT 1 balance hidrico del agua
T 1 balance hidrico del agua
 
N6simceciencias8vo 131015094139-phpapp01
N6simceciencias8vo 131015094139-phpapp01N6simceciencias8vo 131015094139-phpapp01
N6simceciencias8vo 131015094139-phpapp01
 
Aujourd hui en hollandie
Aujourd hui en hollandieAujourd hui en hollandie
Aujourd hui en hollandie
 
Trabajo de grado
Trabajo de gradoTrabajo de grado
Trabajo de grado
 
trabajo angie carolina
trabajo angie carolinatrabajo angie carolina
trabajo angie carolina
 
Avant-projet de loi sur le bail commercial au Luxembourg
Avant-projet de loi sur le bail commercial au LuxembourgAvant-projet de loi sur le bail commercial au Luxembourg
Avant-projet de loi sur le bail commercial au Luxembourg
 
20141113 devoxx2014 jochim van dorpe testing in agile
20141113 devoxx2014 jochim van dorpe testing in agile20141113 devoxx2014 jochim van dorpe testing in agile
20141113 devoxx2014 jochim van dorpe testing in agile
 

Similaire à Présentation memo

Datamining appliqué au churn client dans les télécommunications
Datamining appliqué au churn client dans les télécommunicationsDatamining appliqué au churn client dans les télécommunications
Datamining appliqué au churn client dans les télécommunications
abdelmoumène taleb
 
Séminaire BIG DATA, SYNTHÈSE - ORSYS Formation
Séminaire BIG DATA, SYNTHÈSE - ORSYS FormationSéminaire BIG DATA, SYNTHÈSE - ORSYS Formation
Séminaire BIG DATA, SYNTHÈSE - ORSYS Formation
ORSYS
 
Big Analytics : les usages avant tout
Big Analytics : les usages avant toutBig Analytics : les usages avant tout
Big Analytics : les usages avant tout
SAS FRANCE
 
Datajournalism café datas #2
Datajournalism café datas #2Datajournalism café datas #2
Datajournalism café datas #2
ActuVisu
 
Keynote 5th Swiss Data Protection day, 2012
Keynote 5th Swiss Data Protection day, 2012Keynote 5th Swiss Data Protection day, 2012
Keynote 5th Swiss Data Protection day, 2012
University of Geneva
 
Introduction au datamining partiel 1.pdf
Introduction au datamining partiel 1.pdfIntroduction au datamining partiel 1.pdf
Introduction au datamining partiel 1.pdf
amarasidibeavm
 
Comment devenir Data Scientist ?
Comment devenir Data Scientist ?Comment devenir Data Scientist ?
Comment devenir Data Scientist ?
Jedha Bootcamp
 
Vers une meilleure connaissance client grâce au big data
Vers une meilleure connaissance client grâce au big dataVers une meilleure connaissance client grâce au big data
Vers une meilleure connaissance client grâce au big data
Data2B
 
Présentation Dataveyes journalisme de donnees
Présentation Dataveyes  journalisme de donneesPrésentation Dataveyes  journalisme de donnees
Présentation Dataveyes journalisme de donnees
liberTIC
 
Vision et poc EDFsur les enjeux big data
Vision et poc EDFsur les enjeux big dataVision et poc EDFsur les enjeux big data
Vision et poc EDFsur les enjeux big data
Bruno Patin
 
Petit-déjeuner OCTO Technology : Calculez vos indicateurs en temps réel ave...
Petit-déjeuner OCTO Technology :  Calculez vos indicateurs en temps réel ave...Petit-déjeuner OCTO Technology :  Calculez vos indicateurs en temps réel ave...
Petit-déjeuner OCTO Technology : Calculez vos indicateurs en temps réel ave...
OCTO Technology
 
Quels sont les facteurs-clés de succès pour appliquer au mieux le RGPD à votr...
Quels sont les facteurs-clés de succès pour appliquer au mieux le RGPD à votr...Quels sont les facteurs-clés de succès pour appliquer au mieux le RGPD à votr...
Quels sont les facteurs-clés de succès pour appliquer au mieux le RGPD à votr...
Denodo
 
Cours datamining
Cours dataminingCours datamining
Cours datamining
sarah Benmerzouk
 
Data Mining (Partie 1).pdf
Data Mining (Partie 1).pdfData Mining (Partie 1).pdf
Data Mining (Partie 1).pdf
OuailChoukhairi
 
Final
FinalFinal
Final
FinalFinal
Programme 2009 Opération Datacenters
Programme 2009 Opération DatacentersProgramme 2009 Opération Datacenters
Programme 2009 Opération Datacenters
regionalpartner56
 
Datasio - Big Data Congress Paris 2012
Datasio - Big Data Congress Paris 2012Datasio - Big Data Congress Paris 2012
Datasio - Big Data Congress Paris 2012
datasio
 
Quel est l'avenir des stratégies de données?
Quel est l'avenir des stratégies de données?Quel est l'avenir des stratégies de données?
Quel est l'avenir des stratégies de données?
Denodo
 

Similaire à Présentation memo (20)

Datamining appliqué au churn client dans les télécommunications
Datamining appliqué au churn client dans les télécommunicationsDatamining appliqué au churn client dans les télécommunications
Datamining appliqué au churn client dans les télécommunications
 
Séminaire BIG DATA, SYNTHÈSE - ORSYS Formation
Séminaire BIG DATA, SYNTHÈSE - ORSYS FormationSéminaire BIG DATA, SYNTHÈSE - ORSYS Formation
Séminaire BIG DATA, SYNTHÈSE - ORSYS Formation
 
Big Analytics : les usages avant tout
Big Analytics : les usages avant toutBig Analytics : les usages avant tout
Big Analytics : les usages avant tout
 
Datajournalism café datas #2
Datajournalism café datas #2Datajournalism café datas #2
Datajournalism café datas #2
 
Keynote 5th Swiss Data Protection day, 2012
Keynote 5th Swiss Data Protection day, 2012Keynote 5th Swiss Data Protection day, 2012
Keynote 5th Swiss Data Protection day, 2012
 
Introduction au datamining partiel 1.pdf
Introduction au datamining partiel 1.pdfIntroduction au datamining partiel 1.pdf
Introduction au datamining partiel 1.pdf
 
Comment devenir Data Scientist ?
Comment devenir Data Scientist ?Comment devenir Data Scientist ?
Comment devenir Data Scientist ?
 
Vers une meilleure connaissance client grâce au big data
Vers une meilleure connaissance client grâce au big dataVers une meilleure connaissance client grâce au big data
Vers une meilleure connaissance client grâce au big data
 
Présentation Dataveyes journalisme de donnees
Présentation Dataveyes  journalisme de donneesPrésentation Dataveyes  journalisme de donnees
Présentation Dataveyes journalisme de donnees
 
Vision et poc EDFsur les enjeux big data
Vision et poc EDFsur les enjeux big dataVision et poc EDFsur les enjeux big data
Vision et poc EDFsur les enjeux big data
 
Petit-déjeuner OCTO Technology : Calculez vos indicateurs en temps réel ave...
Petit-déjeuner OCTO Technology :  Calculez vos indicateurs en temps réel ave...Petit-déjeuner OCTO Technology :  Calculez vos indicateurs en temps réel ave...
Petit-déjeuner OCTO Technology : Calculez vos indicateurs en temps réel ave...
 
Quels sont les facteurs-clés de succès pour appliquer au mieux le RGPD à votr...
Quels sont les facteurs-clés de succès pour appliquer au mieux le RGPD à votr...Quels sont les facteurs-clés de succès pour appliquer au mieux le RGPD à votr...
Quels sont les facteurs-clés de succès pour appliquer au mieux le RGPD à votr...
 
Cours datamining
Cours dataminingCours datamining
Cours datamining
 
Data Mining (Partie 1).pdf
Data Mining (Partie 1).pdfData Mining (Partie 1).pdf
Data Mining (Partie 1).pdf
 
Final
FinalFinal
Final
 
Final
FinalFinal
Final
 
Programme 2009 Opération Datacenters
Programme 2009 Opération DatacentersProgramme 2009 Opération Datacenters
Programme 2009 Opération Datacenters
 
Datasio - Big Data Congress Paris 2012
Datasio - Big Data Congress Paris 2012Datasio - Big Data Congress Paris 2012
Datasio - Big Data Congress Paris 2012
 
Groupe de travail DIOGEN
Groupe de travail DIOGENGroupe de travail DIOGEN
Groupe de travail DIOGEN
 
Quel est l'avenir des stratégies de données?
Quel est l'avenir des stratégies de données?Quel est l'avenir des stratégies de données?
Quel est l'avenir des stratégies de données?
 

Présentation memo

  • 1. République du Sénégal Un Peuple – Un But – Une Foi UNIVERSITE CHEIKH ANTA DIOP DE DAKAR FACULTE DES SCIENCES ET TECHNIQUES DEPARTEMENT MATHS /INFO SECTION INFORMATIQUE OPTION : S.I.R MEMOIRE DE MASTER II INFORMATIQUE OUTIL DE DATA MINING : Les Arbres de décision et l’Analyse des Correspondances sur une plateforme web applicable a un entrepôt de données. Présenté et soutenu par: Encadreur: Cheikh Tidiane THIANDOUM M. Alphonse Diombo THIAKANE Consultant en systèmes d’information [Année académique 2009-2010] Expert en Business Intelligence 1
  • 2. PLAN 2 • INTRODUCTION PRESENTATION DU SUJET • PRESENTATION ET PROBLEMATIQUE DU SUJET PREMIERE • ETAT DE L’ART DU DATA MINING PARTIE • LES ARBRES DE DECISION DEUXIEME PARTIE • L’ANALYSE DES CORRESPONDANCES • CONCEPTION ET MISE EN ŒUVRE DE L’OUTIL TROISIEME PARTIE • CONCLUSION
  • 3. INTRODUCTION 3  Production des entreprises en un temps record d’une masse importante de données.  Nécessité de développer de nouveaux outils •Le DM comme discipline salvatrice des entreprises: techniques dérivées de différents domaines.  Objet de ce mémoire: les arbres de décision et l’analyse des correspondances (simples).
  • 4. PRESENTATION ET PROBLEMATIQUE DU SUJET 4 T R A V A I L A F A I R E P L A T E F O R M E W E B  ARBRES DE DÉCISION A N A L Y S E D E S C O R R E S P O N D A N C E S
  • 5. 5 ETAT DE L’ART DU DATA MINING G E N È S E E T D É F I N I T I O N D U Facteurs: DM  La croissance exponentielle de la collecte des données, A P P L I C A T I O N S METIERS DU  Augmentation des capacités de stockage des données DM (disques durs de giga octets); P R O C E S S U S  Prolifération en parallèle des capacités de traitements STANDARD des données; D’UNE ETUDE DE DM  L’émergence des entrepôts de données; L E D M D A N S  La disponibilité des données grâce aux réseaux LE PROCESSUS (intranet et internet); KDD  TECHNIQUES Définition: ET LOGICIELS  Le Data mining comme domaine pluridisciplinaire DU DM  Deux types de DM: supervisé et non supervisé.
  • 6. 6 ETAT DE L’ART DU DATA MINING G E N È S E E T D É F I N I T I O N D U  Marketing/stratégie: prévisions de ventes, ciblage de clientèle, des besoins, des relations entres les différents produits DM A P P L I C A T I O N S  Secteur bancaire : scoring; cibler les METIERS DU propositions de prêts et éviter les surendettements DM  Relations clientes: évaluer les risques, anticiper les P R O C E S S U S attentes futures STANDARD D’UNE ETUDE Secteur de la téléphonie : prédiction de l’attrition DE DM  Grande distribution: analyse du panier de la L E D M D A N S ménagère LE PROCESSUS KDD  Scientifique : identification et classification d'objets célestes.  TECHNIQUES ET LOGICIELS  Médical: analyse de résultat d’une expérimentation DU DM  Sécurité informatique: recherche de transactions frauduleuses par la police
  • 7. 7 ETAT DE L’ART DU DATA MINING G E N È S E E T DÉFINITION DU PRESENTATION DU CRISP-DM DM PROCESSUS du DATA MINING A P P L I C A T I O N S METIERS DU Acteurs Étapes Phases DM Objectifs 1 : Compréhension du métier P R O C E S S U S Maître STANDARD D’UNE ETUDE d’œuvre 2 : Compréhension des données DE DM Données L E D M D A N S 3 : Préparation des données LE PROCESSUS KDD 4 : Modélisation  TECHNIQUES Traitements ET LOGICIELS 5 : Évaluation de la modélisation DU DM Maître d’ouvrage Déploiement 6 : Déploiement des résultats de l’étude
  • 8. 8 ETAT DE L’ART DU DATA MINING G E N È S E E T DÉFINITION DU DM A P P L I C A T I O N S METIERS DU DM P R O C E S S U S STANDARD D’UNE ETUDE DE DM L E D M D A N S LE PROCESSUS KDD  TECHNIQUES Préparation des données (Collecte, Sélection, Nettoyage ET LOGICIELS ,codage) DU DM Consultation des données Application des techniques DM
  • 9. 9 ETAT DE L’ART DU DATA MINING G E N È S E E T D É F I N I T I O N D U Puissance Domaine DM Statistique A P P L I C A T I O N S IA Réseaux de neurone Limite IA/STAT METIERS DU DM Algo génétique P R O C E S S U S STANDARD Réseau Bayésien D’UNE ETUDE DE DM Score,Regression,clusters L E D M D A N S LE PROCESSUS Arbre de decision KDD Association  TECHNIQUES ET LOGICIELS Raisonnement à base de cas DU DM Lisibilité Fig : Rapport entre le pouvoir de prédiction et la lisibilité
  • 10. 10 ETAT DE L’ART DU DATA MINING G E N È S E E T D É F I N I T I O N D U techniques: DM  Statistiques A P P L I C A T I O N S METIERS DU  Réseaux de neurone, DM  APM, P R O C E S S U S STANDARD  Arbres de décision D’UNE ETUDE DE DM  Réseaux bayésiens; L E D M D A N S  Raisonnement à base de cas LE PROCESSUS KDD logiciels:  TECHNIQUES  Clémentine de SPSS, Entreprise Miner de SAS, ET LOGICIELS ORACLE , XL Miner , Statistica Data Miner de DU DM StatSoft .  TANAGRA, ORANGE, WEKA.
  • 11. 11 LES ARBRES DE DECISION HISTORIQUE  Paternité à Morgan et Sonquist (1963)  DEFINITION avec les arbres de régression dans un HYPOTHESES processus de prédiction et d’explication ET OBJECTIFS AID METHODOLOGI E DES ARBRES  Apogée avec la méthode CART de DE DECISION Breiman et al TABLEAU COMPARATIVE DES  la méthode ID3 de Quinlan 1979 ALGORITHMES L’ALGORITHME ID3; AVANTAGES ET  C4.5 dans les années 90 INCONVENIENTS
  • 12. 12 LES ARBRES DE DECISION HISTORIQUE  famille d’algorithmes d’apprentissage  DEFINITION non paramétriques structurés avec HYPOTHESES des arbres ET OBJECTIFS  Chacun des nœuds de l’arbre est soit METHODOLOGI une branche spécifiant un test sur une E DES ARBRES valeur d’un attribut ou une feuille DE DECISION dénotant une décision. TABLEAU Logement COMPARATIVE  Exemple: DES ALGORITHMES Locataire Propriétaire Famille L’ALGORITHME Salaire Salaire co emp ID3; OUI AVANTAGES ET Faible Elevé INCONVENIENTS Moyen Elevé NON OUI NON OUI
  • 13. 13 LES ARBRES DE DECISION HISTORIQUE Hypothèses  DEFINITION  DONNEES HYPOTHESES ET • N individus • P variables décrivant ces individus OBJECTIFS  VARIABLE CIBLE (ou à prédire) METHODOLOGIE Variable classe/groupe (Qualitative) DES ARBRES DE DECISION  VARIABLES EXPLICATIVES TABLEAU Autres variables (Qualitatives et Quantitatives): COMPARATIVE DES Objectifs: ALGORITHMES  Obtenir un critère de séparation L’ALGORITHME  Prendre une décision sur un nouvel ID3; exemple AVANTAGES ET  Produire des groupes d’individus les INCONVENIENTS plus homogènes possibles du point de vue de la variable à prédire.
  • 14. 14 LES ARBRES DE DECISION HISTORIQUE  Choisir la variable de segmentation  DEFINITION sur un sommet. HYPOTHESES ET OBJECTIFS METHODOLOGIE  Le traitement des variables continues DES ARBRES DE DECISION  Taille de l’arbre TABLEAU COMPARATIVE DES  surajustement du modèle ALGORITHMES L’ALGORITHME ID3;  Pré-élagage AVANTAGES ET INCONVENIENTS  Post-élagage.
  • 15. 15 LES ARBRES DE DECISION HISTORIQUE Algorith Surajuste Critère de Type Type de me ment segmentation d’arbre variables  DEFINITION généré HYPOTHESES ET CART Post- Indice de GINI arbres continues et OBJECTIFS élagage binaires nominatives METHODOLOGIE DES ARBRES DE ID3 Pré-élagage Entropie de Arbre n- nominatives DECISION Shannon aire TABLEAU C4.5 Post- Entropie de Arbre n- continues et COMPARATIVE élagage Shannon et aire nominatives DES gain ratio ALGORITHMES C5 Post- Entropie de Arbre n- continues et élagage Shannon aire nominatives L’ALGORITHME ID3; CHAID Pré-élagage Test du chi-2 Arbre n- continues et aire nominatives AVANTAGES ET INCONVENIENTS SLIQ Post- indice de Gini Arbre n- continues et élagage aire nominatives
  • 16. 16 LES ARBRES DE DECISION HISTORIQUE fonction ID3(exemples, attributCible, attributsNonCibles)  DEFINITION si exemples est vide alors /* Nœud terminal */ retourner un nœud Erreur HYPOTHESES ET sinon si attributsNonCibles est vide alors /* Nœud terminal */ retourner un nœud ayant la valeur la plus représentée pour OBJECTIFS attributCible sinon si tous les exemples ont la même valeur pour attributCible METHODOLOGIE alors /* Nœud terminal */ DES ARBRES DE retourner un nœud ayant cette valeur DECISION sinon /* Nœud intermédiaire */ attributSélectionné = attribut maximisant le gain TABLEAU d'information parmi attributsNonCibles attributsNonCiblesRestants = suppressionListe COMPARATIVE (attributsNonCibles, attributSélectionné) DES nouveauNœud = nœud étiqueté avec attributSélectionné ALGORITHMES pour chaque valeur de attributSélectionné faire L’ALGORITHME exemplesFiltrés =filtreExemplesAyantValeurPourAttribut ID3; (exemples, attributSélectionné, valeur) nouveauNœud->fils (valeur) = ID3 (exemplesFiltrés, AVANTAGES ET attributCible, attributsNonCiblesRestants) finpour INCONVENIENTS retourner nouveauNœud
  • 17. 17 LES ARBRES DE DECISION HISTORIQUE • Notion d’entropie (Shannon): permet de  DEFINITION mesurer le degré de mélange des exemples entre les différentes classes ; HYPOTHESES ET OBJECTIFS  Soit un ensemble X d'exemples/p+ est METHODOLOGIE positifs et p- est négatifs/(p+)+(p- )= 1. DES ARBRES DE DECISION  H(X) = -(p+) log2 (p+)Ŕ(p-) log2 (p-) TABLEAU H(X) = -∑k={1..c} P(k/X) × log(P(k/X)) COMPARATIVE DES 10 ALGORITHMES 9 Entropie 8 7 L’ALGORITHME 6 ID3; 5 4 3 P=p/(p+n)=n/(n+p)=0.5 AVANTAGES ET 2 équiprobable INCONVENIENTS 1 0 0 1 2 3 4 5 6 7 8 9 10
  • 18. 18 LES ARBRES DE DECISION HISTORIQUE  DEFINITION  Gain d'information : HYPOTHESES ET OBJECTIFS  une population d'exemples X. Le METHODOLOGIE DES ARBRES DE gain d'information de X par rapport à DECISION un attribut aj donné est la réduction TABLEAU d'entropie causée par la partition de X COMPARATIVE selon aj : DES ALGORITHMES L’ALGORITHME |Xaj=v| ID3; Gain(X,aj)=H(X)- ∑ --------H(Xaj=v) (v€Valeur(aj) ) |X| AVANTAGES ET INCONVENIENTS
  • 19. 19 LES ARBRES DE DECISION HISTORIQUE  Avantages  DEFINITION  lisibilité. HYPOTHESES ET OBJECTIFS  capacité à sélectionner automatiquement les variables. METHODOLOGIE DES ARBRES DE Robuste au bruit et aux valeurs DECISION manquantes TABLEAU Classification rapide(parcours d’un chemin COMPARATIVE dans un arbre) DES ALGORITHMES  Inconvénients L’ALGORITHME  Evolutivité dans le temps: dans le temps, il est nécessaire de relance la phase d’apprentissage si les données évoluent ID3; Sensibles au nombre de classes: AVANTAGES ET performances se dégradent INCONVENIENTS Nécessité d’un grand nombre d’individus
  • 20. 20 L’ANALYSE DES CORRESPONDANCES HISTORIQUE ET  développée par le franco-libanais GENERALITES Benzecri à la fin des années 60 pour SUR LA des applications linguistiques METHODE  décrire de manière synthétique un tableau de contingence HYPOTHESES 1  Y j  p ET OBJECTIFS 1  k11 k1j  k1p X i ki1  kij  kip ki.   n kn1 knj knp k.j k METHODOLOGIE  Profil-ligne i : fJi = {kij/ki.} Profil-colonne j : fIj = {kij/k.j}
  • 21. 21 L’ANALYSE DES CORRESPONDANCES HISTORIQUE Hypothéses ET  Tableau de contingence d’abord GENERALITES SUR LA  Pas de cases vides METHODE  Que des valeurs positives Objectifs: HYPOTHESES  Déterminer et à hiérarchiser les ET OBJECTIFS dépendances entre lignes et entre colonnes;  révélerles interrelations entre caractères METHODOLOGIE  Mettre en évidence "ressemblances" / "dissemblances"
  • 22. 22 L’ANALYSE DES CORRESPONDANCES HISTORIQUE ET le test du khi-deux GENERALITES  l'hypothèse H0 => indépendance SUR LA H1 => dépendance METHODE  Calcul du khi-2 k i . k. j avec E ij  HYPOTHESES Khi-2 théorique k ET OBJECTIFS ddl= (Nb lignes -1) x (Nb colonnes -1). ddl/alpha 1% 2% 5% 10% 1 6,6350 5,4120 3,8410 2,7060 2 9,2100 7 ,8240 5,9910 4,6050 METHODOLOGIE 3 11,3450 9,8370 7,8150 6,2510 4 13 ,2770 11,6680 9,4880 7,7090 5 15,0860 13,3880 11,0700 9,2360 . . . . . . . . . . . . . . . n
  • 23. 23 L’ANALYSE DES CORRESPONDANCES HISTORIQUE L'Analyse Factorielle des Correspondances ET GENERALITES  L'AFC du tableau de contingence: K, est SUR LA l'ACP du tableau: X, des profils en ligne METHODE p dis tan ce(i, i ' )   ( xij  xi ' j ) 2 / k ( j ) j 1 HYPOTHESES Règles d’interprétation des profils : ET OBJECTIFS profils proches => deux modalités de X ayant des distributions (répartitions) suivant les modalités de Y assez METHODOLOGIEsemblables.  profils éloignés => deux modalités de X dont les distributions suivant les modalités de Y sont très différentes
  • 24. 24 CONCEPTION ET • PRESENTATION DE UML MISE EN ŒUVRE DE L’OUTIL • MODELE DE LA BASE DE  CONCEPTION DONNEES  OUTILS DE DEVELOPPEMENT • DIAGRAMMES DE CAS  PRESENTATION DE L’OUTIL D’UTILISATION • DIAGRAMME DE SEQUENCES
  • 25. MODELE DE LA BASE DE DONNEES 25 Utilisateurs + id_user : int + login : String + pass : String + nom : String + prenom : String + privilége : String Methode_score + code_MS : String + nom : String + table : String + TypeMS : String 0..* + Residu : String Distance 0..1 + Dist_valeur : float 0..* 0..* 0..* 0..* MS_dimension MS_fait 0..1 0..1 + MS_X : float + coefficient : double + MS_Y : float + MS_X : float modalite + MS_Y : float + code_mod : String + libelle_mode : String + MS_X : float + MS_Y : float 0..* 0..* 0..* variablemere + codeVMere : String + libelle : String + sommeil : int 1..1 + ordre : int + typev ar : String
  • 26. DIAGRAMME DES CAS D’UTILISATION 26 Supprimer utilisateur <<extend>> Créer utilisateur <<extend>> <<include>> Gestion des utilisateur Connexion <<include>> Administrateur <<include>> Analyse avec les arbres de decision <<extend>> Faire un apprentissage <<extend>> <<extend>> Analyse des correspondances <<extend>> Faire une simulation Utilisateur
  • 27. DIAGRAMME DE SEQUENCES SIMULATION ARBRE DE DECISION 27 outil Administrateur/Utilisateur Demande de simulation interface de selection de cible selection dimensions et faits selection cible envoi cible si cible qualitative selection faits compatibles interface de selection fait associé a la cible selection fait envoi fait associé à la cible Fin Si interface de selection des variables explicatives selection axes d'analyses compatibles selection et rensegnement variables explicatives envoi de la cible vérification apprentissage si apprentissage proposition de création de l'apprentissage avec les variable de la simulation existe pas si cible numérique création des intervalles de la cible fin si interface des variables de l'apprentissage si exite variables explicatives numériques création des intervalles des variables explicatives validation fin si fin si création apprentissage selection résultats Renvoie des résultats simulation
  • 28. DIAGRAMME DE SEQUENCES ANALYSE DES CORRESPONDANCES 28 outil Administrateur / Utilisateur Demande d'analyse Selection dimensions resultat selection selection des deux variables à analyser Selection faits en rapport avec ces deux variables resultat selection selection du fait pour l'analyse selection données puis application de la methode si possible Resultat analyse
  • 29. 29 AUTRES OUTILS CONCEPTION ET MISE EN ŒUVRE DE L’OUTIL WAMP SERVER  PHP  CONCEPTION  HTML OUTILS DE DEVELOPPEMENT  JAVASCRIPT  PRESENTATION  CSS DE L’OUTIL  NOTEPAD++
  • 30. 30 CONCEPTION ET MISE EN ŒUVRE DE L’OUTIL  CONCEPTION DEMONSTRATION OUTILS DE DEVELOPPEMENT PARTIELLE DE L’OUTIL  PRESENTATION DE L’OUTIL
  • 31. CONCLUSION 31 CE QUE NOUS AVONS RÉUSSIT: ANALYSER DES DONNÉES D’UN ENTREPÔT AVEC LA TECHNIQUE DES ARBRES DE DÉCISION (APPRENTISSAGE ET SIMULATION) ANALYSER DES DONNÉES D’UN ENTREPÔT AVEC LA TECHNIQUE DE L’ANALYSE DES CORRESPONDANCES DE DEUX VARIABLES GESTION DES UTILISATEURS P E R S P E C T I V E S : fichiers, visualiser l’arbre , ACM, visualiser les profils
  • 32. MERCI DE VOTRE ATTENTION 32