SlideShare une entreprise Scribd logo
1  sur  44
Télécharger pour lire hors ligne
Titova Ksenia
  Belkoura Meriam




               DATAMINING
       Etude et analyse de données cardiologiques




                         Master 2 ID




                                        Promotion 2008

Enseignant : Monsieur Edwin Diday
1    INTRODUCTION .......................................................................................................................................... 3
2    LE DATA MINING MIS EN œuvre SOUS SODAS ..................................................................................... 4
  2.1        Objectifs généraux du DATAMINING................................................................................................ 4
  2.2        Présentation du logiciel SODAS (Symbolic Official Data Analysis System) ...................................... 5
     2.2.1      Schéma illustrant les étapes de mise en œuvre du logiciel SODAS ................................................ 7
     2.2.2      Description sommaire du mode opératoire ...................................................................................... 8
        2.2.2.1 Présentation de la page d’accueil................................................................................................ 8
        2.2.2.2 Généralités sur la méthode d’utilisation du logiciel ................................................................... 8
        2.2.2.3 Sélection d’une base d’étude ...................................................................................................... 8
        2.2.2.4 Choix des méthodes à appliquer ................................................................................................. 9
3    ANALYSE ET ETUDE STATISTIQE AVEC SODAS .............................................................................. 11
  3.1        Présentation de l’étude ....................................................................................................................... 11
        3.1.1.1 Contexte de l’étude et présentation des données ...................................................................... 11
     3.1.2      Les objectifs de l’étude ................................................................................................................. 11
  3.2        Explication, analyse et mise en œuvre des méthodes de SODAS ...................................................... 13
     3.2.1      DB2SO : extraction de données symboliques de la base de données relationnelle ....................... 13
        3.2.1.1 Présentations du module ........................................................................................................... 13
        3.2.1.2 Mise en œuvre de DB2SO ........................................................................................................ 14
     3.2.2      VIEW (Symbolic Objects Viewer)................................................................................................ 19
        3.2.2.1 Présentation de la méthode ....................................................................................................... 19
        3.2.2.2 Mise en œuvre de la méthode ................................................................................................... 20
     3.2.3      STAT ............................................................................................................................................. 23
        3.2.3.1 Présentation de la méthode ....................................................................................................... 23
        3.2.3.2 Mise en œuvre de la méthode ................................................................................................... 24
     3.2.4      DIV (Divisive Clustering on Symbolic Objects)........................................................................... 27
        3.2.4.1 Présentations de la méthode ..................................................................................................... 27
        3.2.4.2 Mise en œuvre de la méthode ................................................................................................... 27
     3.2.5      TREE (Descision Tree) ................................................................................................................. 29
        3.2.5.1 Présentation de la méthode ....................................................................................................... 29
        3.2.5.2 Mise en œuvre de la méthode ................................................................................................... 29
     3.2.6      PCM (Principal Component Analysis) .......................................................................................... 32
        3.2.6.1 Présentation de la méthode ....................................................................................................... 32
        3.2.6.2 Mise en œuvre de la méthode ................................................................................................... 32
     3.2.7      SCLUST (Symbolic Dynamic Clustering) .................................................................................... 33
        3.2.7.1 Présentations de la méthode ..................................................................................................... 33
        3.2.7.2 Mise en œuvre de la méthode ................................................................................................... 33
     3.2.8      SYKSOM (Kohonen Self-Organizing Map for Symbolic Data) ................................................... 35
        3.2.8.1 Présentations de la méthode ..................................................................................................... 35
        3.2.8.2 Mise en œuvre de la méthode ................................................................................................... 35
     3.2.9      DISS (Descriptive Measures) ....................................................................................................... 37
        3.2.9.1 Présentation de la méthode ....................................................................................................... 37
        3.2.9.2 Mise en œuvre de la méthode ................................................................................................... 38
     3.2.10     HIPYR (Hierarchical and Pyramidal Clustering ) ......................................................................... 40
        3.2.10.1 Présentation de la méthode ...................................................................................................... 40
        3.2.10.2    Mise en œuvre de la méthode ................................................................................................. 40
     3.2.11     DCLUST (Clustering Algorithm based on Distance Tables) ........................................................ 41
        3.2.11.1 Présentation de la méthode ...................................................................................................... 41
        3.2.11.2 Mise en œuvre de la méthode .................................................................................................. 41
4    CONCLUSION ............................................................................................................................................. 44




Meriam BELKOURA                                                                                                                                   Master 2 ID
Ksenia TITOVA                                                                  2 / 44                                                             2007/2008
1   INTRODUCTION

               Le datamining est un processus qui permet de découvrir, dans de grosses bases
      de données consolidées, des informations jusque là inconnues.
               L’exploitation de ces nouvelles informations peut présenter un intérêt pour
      analyser et interpréter les comportements d’individus par exemple. Les résultats
      obtenus s’insérant dans un dispositif d’analyse globale permettent alors de dresser
      dans des plans stratégiques ou politiques les axes d’effort à respecter.
               Les techniques statistiques du datamining sont bien connues. Il s’agit
      notamment de la régression linéaire et logistique, de l’analyse multi variée, de
      l’analyse des composantes principales, des arbres décisionnels et des réseaux de
      neurones. Cependant, les approches traditionnelles de l’inférence statistique échouent
      avec les grosses bases de données, car en présence de milliers ou de million de cas et
      de centaines ou de milliers de variables, on trouvera forcément un niveau élevé de
      redondance parmi les variables, certaines relations seront fausses, et même les
      relations les plus faibles paraîtront statistiquement importantes dans tout test
      statistique. L’objectif est de construire un modèle dont le pouvoir de prédiction est
      satisfaisant.
               L’analyse de données symboliques prend actuellement de plus en plus
      d’importance, en témoigne le développement du logiciel spécifique SODAS. C’est ce
      logiciel (version 2.50) qui va être utilisé dans le cadre de ce projet afin d’extraire les
      données concentrées dans une base de donnée relationnelle de type ACCESS et d’y
      appliquer les méthodes d’analyse contenues dans SODAS. Notre base d’étude du
      projet concerne les individus susceptibles d’avoir la maladie cardio-vasculaire.
               Le présent rapport est constitué de deux parties principales.
               La première est une présentation générale du datamining et du logiciel
      SODAS.
               La deuxième partie décrit plus précisément le contexte de l’étude, et détaille en
      particulier les modalités d’extraction des variables analysées et la mise en œuvre des
      diverses méthodes d’analyse associées.




Meriam BELKOURA                                                                     Master 2 ID
Ksenia TITOVA                                3 / 44                                 2007/2008
2   LE DATA MINING MIS EN ŒUVRE SOUS SODAS

2.1 OBJECTIFS GENERAUX DU DATAMINING
       Les progrès de la technologie informatique dans le recueil et le transport de données
font que dans tous les grands domaines de l’activité humaine, des données de toutes sortes
(numériques, textuelles, graphiques…) peuvent maintenant être réunies et en quantité souvent
très importante.
       Les systèmes d’interrogation des données, qui n’étaient autrefois réalisables que via
des langages informatiques nécessitant l’intervention d’ingénieurs informaticiens de haut
niveau, deviennent de plus en plus simples d’accès et d’utilisation.
        Résumer ces données à l’aide de concepts sous-jacents (une ville, un type de chômeur,
un produit industriel, une catégorie de panne …), afin de mieux les appréhender et d’en
extraire de nouvelles connaissances constitue une question cruciale. Ces concepts sont décrits
par des données plus complexes que celles habituellement rencontrées en statistique. Ces
données sont dites « symboliques », car elles expriment la variation interne inéluctable des
concepts et sont structurées.
       Dans ce contexte, l’extension des méthodes de l’Analyse des Données Exploratoires et
plus généralement, de la statistique multidimensionnelle à de telles données, pour en extraire
des connaissances d’interprétation aisée, devient d’une importance grandissante.
       L’analyse porte sur des « atomes », ou « unités » de connaissances (les individus ou
concepts munis de leur description) considérés au départ comme des entités séparées les unes
des autres et qu’il s’agit d’analyser et d’organiser de façon automatique.
       Par rapport aux approches classiques, l’analyse des données symboliques présente les
caractéristiques et ouvertures suivantes :
        Elle s’applique à des données plus complexes. En entrée elle part de données
symboliques (variables à valeurs multiples, intervalle, histogramme, distribution de
probabilité, de possibilité, capacité …) munies de règles et de taxonomies et peut fournir en
sortie des connaissances nouvelles sous forme d’objets symboliques présentant les avantages
qui sont développés supra :
       -         Elle utilise des outils adaptés à la manipulation d’objets symboliques de
                 généralisation et de spécialisation, d’ordre et de treillis, de calcul
                 d’extension, d’intention et de mesures de ressemblances ou d’adéquation
                 tenant compte des connaissances sous-jacentes basées sur les règles de
                 taxonomies ;
       -         Elle fournit des représentations graphiques exprimant, entre autres, la
                 variation interne des descriptions symboliques. Par exemple, en analyse
                 factorielle, un objet symbolique sera représenté par une zone (elle-même
                 exprimable sous forme d’objet symbolique) et pas seulement par un point ;
       Les principaux avantages des objets symboliques peuvent se résumer comme suit :
       -         Ils fournissent un résumé de la base, plus riche que les données agrégées
                 habituelles car ils tiennent compte de la variation interne et des règles sous-


Meriam BELKOURA                                                                     Master 2 ID
Ksenia TITOVA                                4 / 44                                 2007/2008
jacentes aux classes décrites, mais aussi des taxonomies fournies. Nous
                 sommes donc loin des simples centres de gravité ;
       -         Ils sont explicatifs, puisqu’ils s’expriment sous forme de propriétés des
                 variables initiales ou de variables significatives obtenues (axes factoriels),
                 donc en termes proches de l’utilisation ;
       -         En utilisant leur partie descriptive, ils permettent de construire un nouveau
                 tableau de données de plus haut niveau sur lequel une analyse de données
                 symboliques de second niveau peut s’appliquer ;
       -         Afin de modéliser des concepts, ils peuvent aisément exprimer des
                 propriétés joignant des variables provenant de plusieurs tableaux associés à
                 différentes populations. Par exemple, pour construire un objet symbolique
                 associé à une ville, on peut utiliser des propriétés issues d’une relation
                 décrivant les habitants de chaque ville et une autre relation décrivant les
                 foyers de chaque ville.
       -         Plutôt que de fusionner plusieurs bases pour étudier ensuite la base
                 synthétique obtenue, il peut être plus avantageux d’extraire d’abord des
                 objets symboliques de chaque base puis d’étudier l’ensemble des objets
                 symboliques ainsi obtenus ;
       -         Ils peuvent facilement être transformés sous forme de requête sur une Base
                 de Données.
                 Ceci a au moins les deux conséquences suivantes :
                 Ils peuvent donc propager les concepts qu’ils représentent d’une base à une
                 autre (par exemple, d’un pays à l’autre de la communauté européenne,
                 EUROSTAT ayant fait un grand effort de normalisation des différents types
                 d’enquête sociodémographiques).
                 Alors qu’habituellement on pose des questions sous forme de requête à la
                 base de données pour fournir des informations intéressant l’utilisateur, les
                 objets symboliques formés à partir de la base par les outils de l’analyse des
                 données symboliques permettent à l’inverse de définir des requêtes et donc
                 de fournir des questions qui peuvent être pertinentes à l’utilisateurs.

2.2 PRESENTATION DU LOGICIEL SODAS (SYMBOLIC OFFICIAL DATA ANALYSIS
    SYSTEM)
       Il s’agit d’un logiciel prototype public apte à analyser des données symboliques.
        Le logiciel SODAS est issu d’un projet de EUROSTAT portant le même nom. Ce
logiciel a pour vocation de fournir un cadre aux différentes avancées récentes et futures dans
le domaine de l’analyse des données symboliques.
        L’idée générale de ce projet est de construire, à partir d’une base de données
relationnelle, un tableau de données symboliques muni éventuellement de règles de
taxonomies. Le but étant de décrire des concepts résumant un vaste ensemble de données et
d’analyser ensuite ce tableau pour en extraire des connaissances par des méthodes d’analyse
de données symboliques.
       Une analyse des données dans SODAS suit les étapes suivantes :
       Partir d’une base de données relationnelle (ORACLE, ACCESS…) ;

Meriam BELKOURA                                                                    Master 2 ID
Ksenia TITOVA                                5 / 44                                2007/2008
Définir ensuite un contexte par :
       -         Des unités statistiques de premier niveau (habitants, familles, entreprises,
                 accidents...) ;
       -         Les variables qui les décrivent ;
       -         Des concepts (tranche d’âge, villes, groupes socio-économiques…).
      Chaque unité statistique de premier niveau est associée à un concept (par exemple,
chaque habitant est associé à sa ville). Ce contexte est défini par une requête sur la base de
données relationnelle.
       Le tableau de données symboliques peut être construit, les nouvelles unités statistiques
sont les concepts décrits par généralisation des propriétés des unités statistiques de premier
niveau qui leur sont associées.
       Ainsi, chaque concept est décrit par des variables dont les valeurs peuvent être des
histogrammes, des intervalles, des valeurs uniques (éventuellement munies de règles et de
taxonomies) selon le type de variables et le choix de l’utilisateur.
        Il est alors possible de créer un fichier d’objets symboliques sur lequel une douzaine
de méthodes d’analyse de données symboliques peut déjà s’appliquer (histogrammes des
variables symboliques, classification automatique, analyse factorielle, analyse discriminante,
visualisations graphiques…).
       Nota : le logiciel SODAS est téléchargeable                   à    l’adresse     suivante
http:/www.ceremade.dauphine.fr/~touati/sodas-pagegarde.htm




Meriam BELKOURA                                                                       Master 2 ID
Ksenia TITOVA                                6 / 44                                   2007/2008
2.2.1 Schéma illustrant les étapes de mise en œuvre du logiciel SODAS




Meriam BELKOURA                                                          Master 2 ID
Ksenia TITOVA                             7 / 44                         2007/2008
2.2.2 Description sommaire du mode opératoire

2.2.2.1    Présentation de la page d’accueil
          La fenêtre principale de SODAS se compose de 3 éléments principaux :

                                                                  1

            3                                                                     2




          1 – La barre d’outils qui comporte 5 menus.
          2 – La fenêtre Methods de la fenêtre principale propose, par groupe, les différentes
          méthodes disponibles.
          3 – La fenêtre Chaining de la fenêtre principale gère l’enchaînement des méthodes
          appliquées à la base choisie.


2.2.2.2    Généralités sur la méthode d’utilisation du logiciel
                 Il est tout d’abord important de définir ce qu’est une filière dans le logiciel
          SODAS. Il s’agit d’une représentation graphique des calculs à effectuer qu’il est
          possible de visionner dans la fenêtre Chaining.
                  En tête d’une filière, figure l’icône BASE représentant le fichier SODAS (.sds)
          sur lequel les calculs vont être effectués (la création du fichier .sds on verra par la suite
          dans l’exemple concret de notre étude). A la suite de cette icône BASE, viendront se
          placer les icônes des méthodes représentant les calculs souhaités.
                  Après le paramétrage des méthodes et l’enregistrement de la filière, les
          résultats figureront sous forme d’icônes, à droite de chacune des méthodes.


2.2.2.3    Sélection d’une base d’étude
                  Pour sélectionner la « base » support de l’analyse, il ne reste plus qu’à
              satisfaire les étapes suivantes :




Meriam BELKOURA                                                                            Master 2 ID
Ksenia TITOVA                                     8 / 44                                   2007/2008
- Double-cliquer sur l’icône BASE ;
                                                         - Parcourir les dossiers et sélectionner le fichier
                                                         .sds qui nous intéresse ;
                                                                         - Cliquer sur OK




                                                         - La filière a été modifiée, et maintenant il est
                                                         possible de lire le nom de la base associée à la
                                                         filière ainsi que son chemin d’accès sur le
                                                         disque dur.




  .


2.2.2.4    Choix des méthodes à appliquer
                Il faut maintenant enrichir la filière définie précédemment grâce à des
          méthodes (Methods) afin d’analyser les données de la base.
                  Pour cela il est possible d’utiliser des filières prédéfinies (Model/Predefined
          chaining) ou bien composer soi-même une filière en enchaînant des méthodes issues
          de la fenêtre Methods.
                  Pour insérer de nouvelles méthodes, il suffit de choisir le menu Method et de
          cliquer sur Insert Method. Un carré vide apparaît alors sous l’icône BASE ; il faut
          alors sélectionner la méthode à appliquer, dans la fenêtre Methods et la faire glisser
          jusqu’à l’emplacement vide.
                  Les méthodes constituant maintenant la filière sont affichées à la suite de
          l’icône BASE, selon l’ordre défini par l’utilisateur, dans lequel elles vont s’enchaîner.
          Chaque méthode est représentée par une icône à gauche de laquelle se trouve son nom
          ainsi qu’une description sommaire.
                 La couleur de l’icône de la méthode renseigne sur son état :
                         Gris : la méthode n’est pas encore paramétrée ;
                         Rouge : la méthode est paramétrée.
                 Par défaut, les méthodes qui viennent d’être insérées sont grisées.
                  Chaque méthode est numérotée dans la filière : ce numéro apparaît dans une
          petite boîte située à gauche de la méthode.



Meriam BELKOURA                                                                            Master 2 ID
Ksenia TITOVA                                   9 / 44                                     2007/2008
La couleur de cette boîte indique le statut de la méthode :
                     Gris : la méthode ne peut être exécutées car elle n’est pas paramétrée
                     Vert : la méthode est exécutable car elle est paramétrée
                     Rouge : la méthode est désactivée. Elle est exécutable mais l’utilisateur
                     en interdit l’exécution (menu Methods puis Desactive method).
             Ensuite, il faut paramétrer la méthode. Il suffit de double-cliquer sur l’icône de
      la méthode. Alors, une fenêtre structurée en fiches à onglets s’ouvre, elle regroupe
      l’ensemble des différents paramètres de la méthode.
             Après le paramétrage des diverses méthodes, l’affichage de la filière a changé.
      Toutes les méthodes sont maintenant exécutables, car paramétrées (les icônes sont
      rouges).
             Le paramétrage des toutes les méthodes de la filière étant terminé, il est
      possible de l’exécuter.
             Par contre, toute exécution d’une filière doit être obligatoirement précédée de
      sa sauvegarde (menu Chaining puis Save chaining as et saisie d’un nom dont
      l’extension est .fil).
            Une fois cette opération effectuée, la filière est exécutée en cliquant sur le
      sous-menu Run chaining du menu Chaining.


Filière avant exécution des méthodes            Filière après exécution des méthodes




Meriam BELKOURA                                                                    Master 2 ID
Ksenia TITOVA                               10 / 44                                 2007/2008
3     ANALYSE ET ETUDE STATISTIQE AVEC SODAS

3.1       PRESENTATION DE L’ETUDE

3.1.1.1     Contexte de l’étude et présentation des données
        La base de données relationnelle sur laquelle nous avons décidé de travailler à été
prise d’un forum de discussion :
        http://www.developpez.net/forums/showthread.php?t=483011
qui propose des jeux de données datamining.

Notre but était de choisir des données intéressantes et faciles à interpréter.

        La base regroupe des données sur 270 individus ayant ou susceptible d’avoir des
problèmes cardiaques. Cette étude cardiologique se base sue les paramètres suivant :
L’âge, le sexe, l’intensité de la douleur cardiaque, la pression artérielle, la mesure du
cholestérol dans le sang, l’intensité du sucre dans le sang, l’électrocardiogramme, la détection
de l’angine de poitrine, la mesure de la dépression nerveuse, le nombre de pics anormaux
dans l’électrocardiogramme et l’état vaisseaux cardiaques.

Nous avons donc les indicateurs suivants.




                                        La base access initiale.


3.1.2 Les objectifs de l’étude
       Le but de notre étude est d’analyser les facteurs de santé responsables de causer des
problèmes cardiaques aux individus concernés.

        Nos individus, c’est-à-dire nos unités statistiques de premier niveau, sont donc
constitués par les numéros identificateurs et ils sont décrits par leur ‘age’, ‘sexe’,



Meriam BELKOURA                                                                      Master 2 ID
Ksenia TITOVA                                     11 / 44                             2007/2008
‘type_douleur’, ‘pression’,‘cholester’,‘sucre’,‘electro’,‘angine’,’depression’,’pic’ et
‘vaisseau’. Ces variables de description ont étés expliqués au dessus.
        Nos concepts apparaissent de façon presque naturelle car le risque de présenter des
problèmes cardiaques et des problèmes de santé favorisant cela dépend de l’âge des personnes
d’où nos concepts sont des tranches d’âges. Il s’agit donc de regrouper les individus dont
l’âge est inclus dans la tranche d’âge.

       Nous avons réalisé la requête suivante sur notre base access initiale afin de créer notre
concept d’étude et nous avons créé une table qui nous sert à définir les tranches d’âges et les
bornes inférieure et supérieures de chaque tranche d’âge.




                                         La table Tranche_age.

        La requête « Req_concept » permettant de créer notre contexte d’étude à partir de
notre table « Donnees » initiale est :

      SELECT Donnees.ID, Tranche_age.Tranche, Donnees.age, Donnees.sexe,
Donnees.type_douleur, Donnees.pression, Donnees.cholester, Donnees.sucre,
Donnees.electro, Donnees.angine, Donnees.depression, Donnees.pic, Donnees.vaisseau
      FROM Donnees, Tranche_age
      WHERE (((Donnees.age) <= [tranche_age].[age_max] And
(Donnees.age)>=[tranche_age].[age_min]));

        Cette requête renvoie les individus du premier ordre et leur description. Elle permet
ainsi de ressortir de la base les individus, les concepts puis les caractéristiques des individus
sous la forme suivante :




Meriam BELKOURA                                                                         Master 2 ID
Ksenia TITOVA                                  12 / 44                                   2007/2008
Au travers de DB2SO, on va pouvoir transformer les tuples ainsi généré par la requête
en tableau symbolique. On passe ainsi au niveau du dessus en matière d’information puisque
SODAS présente une description des concepts en agrégeant les caractéristiques des individus
(ordinal, nominal) en champ symboliques (intervalles, probabiliste...)

       Pour la méthode TREE, nous avons besoin d’une variable nominale par concept. Nous
créons donc cette variable de manière artificielle, nommée « MesurePic » dans la table
‘AddVar, la nomination ‘MesurePic’= normal est attribué au groupe d’individus d’une
tranche d’âge donc la moyenne des pics est inférieure ou égale à 1.5 et anormal sinon. C’est la
requête Req_singleOK qui nous permet de calculer la moyenne de pics par tranche d’age.

       La requête qui nous permet de connaitre la moyenne des pics par tranche d’âge est la
suivante :

     SELECT Req_concept.Tranche, ROUND (Avg(Req_concept.Pic),2) AS
MoyenneDePic
     FROM Req_concept
     GROUP BY Req_concept.Tranche;




                            la variable nominale ‘MesurePic’ par concept


3.2   EXPLICATION, ANALYSE ET MISE EN ŒUVRE DES METHODES DE SODAS

3.2.1 DB2SO : extraction de données symboliques de la base de données relationnelle

3.2.1.1 Présentations du module
               DB2SO est le module du logiciel SODAS qui permet à l’utilisateur de créer un
ensemble de concepts à partir de données stockées dans une base de données relationnelles.
On présuppose bien évidemment qu’une série d’individus est stockée dans la base de données
et que ces individus sont répartis entre plusieurs groupes d’où la nécessité de la requête
« Req_concept » qui répartit les individus entre plusieurs groupe selon leur âge. Ainsi,
DB2SO va pouvoir construire un concept pour chaque groupe d’individus. Dans ce processus,
les variables mères / filles ainsi, les taxonomies et l’ajout de variables supplémentaires
pourront être associées avec les concepts créés.



Meriam BELKOURA                                                                     Master 2 ID
Ksenia TITOVA                                13 / 44                                 2007/2008
3.2.1.2   Mise en œuvre de DB2SO

Connexion à la base de données acces

Le système de liaisons ODBC de SODAS lui permet d’accéder directement aux bases de
données et en particulier aux bases Microsoft Access. Pour importer notre base, il faut
sélectionner la commande Importation(DB2SO) dans le sous menu Import du menu SODAS
file.




Un premier écran d’importation apparaît alors dans lequel il faut sélectionner le menu File
puis New.




L’écran suivant nous invite à sélectionner une source de données machine. Dans notre cas, il
s’agit d’une base Microsoft Access.
Notre projet a pour objet l’étude d’une base de données Microsoft Access. Ce SGBD inclut le
driver ODBC permettant l’accès de DB2SO à la base de données relationnelle.




Meriam BELKOURA                                                                    Master 2 ID
Ksenia TITOVA                                14 / 44                                2007/2008
Voici l’invite qui va nous permettre de sélectionner notre base de données access.




Une fois, le bon driver choisi, il faut indiquer le fichier .mdb. Pour ce faire, nous cliquons sur
OK. On rechercher la base de travail et on la sélectionner.




       Lorsque ces étapes ont étés exécutés, nous allons procéder à l’extraction des individus.
Pour cela, il faut sélectionner la requête SQL préalablement stockée dans la base
« BD_heart1.mdb » dans l’écran qui se présente alors à nous. Il s’agit, en effet de la requête
« Req_concept » présentée précédemment.

       Nous avons vu que le résultat de cette requête nous envoie une table sous la forme
suivante :
Individus|concepts|description des individus.

Plus précisément :

1ère colonne = individus
2ème colonne = concepts
3ème colonne et suivante = description des individus

Meriam BELKOURA                                                                        Master 2 ID
Ksenia TITOVA                                  15 / 44                                  2007/2008
Donc « Req_concept » retourne une ligne pour chaque individu : chaque ligne ayant la
structure au dessus : identifiant de l’individu, groupe auquel appartient l’individu et ensuite
les différents attributs.




        Après avoir cliqué sur OK, la requête est envoyée à la base de données, les individus
sont alors extraits de la base de données, ils sont stockés en mémoire et un tableau des
concepts est généré.




       Nous avons donc 6 variables qualitatives et 5 variables quantitatives et nos 269
individus ont étés répartis suivants 10 groupes = concepts différents.



       Le menu Modify permet à l’utilisateur de modifier les concepts. Nous avons, pour le
besoin de certaines méthodes, comme la méthode TREE d’ajouter une variable singled-valued
aux concepts.


Meriam BELKOURA                                                                     Master 2 ID
Ksenia TITOVA                                16 / 44                                 2007/2008
Dans le cadre de ce travail, nous n’avons pas eu besoin d’ajouter des taxonomies, c'est-à-dire
des variables mère/filles en indiquant des règles tel que par exemple, une variable n’ai de sens
que si une autre variable a une certaine valeur.




Après avoir sélectionné « Add single-valued variable », une fenêtre nous invite de
sélectionner la requête sql préalablement définie qui associe à chaque concept une variable
nominale. Il s’agit de la requête « AddVar » qui retourne en première colonne les concepts et
en deuxième colonne la variable « MesurePic » dont l’espace des valeur est {normal,
anormal}.




Après avoir clique sur OK, nous avons ajouté une unique variable : MesurePic.




A ce stade, nous pouvons sauvegarder notre travail en choisissant File/Save as : le fichier sera
alors enregistré avec l’extension .gaj. Ainsi l’utilisateur pourra retrouver son travail plus tard
en cliquant sur File/Open puis en sélectionnant le fichier voulu.

Meriam BELKOURA                                                                        Master 2 ID
Ksenia TITOVA                                  17 / 44                                  2007/2008
Les fichiers SODAS utilisés en entrée des méthodes de SODAS sont des fichiers avec
l’extension .SDS. Pour créer de tels fichiers. Il faut utiliser le menu File/Export.




Meriam BELKOURA                                                                  Master 2 ID
Ksenia TITOVA                               18 / 44                               2007/2008
Après avoir cliqué sur « select », nous choisissons ou sauvegardons notre fichier .sds et nom
donné apparait dans Title.




       Bien que nous n’ayons pas ajouté de taxonomie, ni de variables multimodales que
nous n’en avions pas besoin, nous avons compris le fonctionnement du module DB2SO, sa
grande utilité dans la création des objets symboliques et toutes les possibilités de
manipulation possibles grâce à cette mise en œuvre.




3.2.2 VIEW (Symbolic Objects Viewer)


3.2.2.1   Présentation de la méthode

       Cette méthode fait partie de la statistique descriptive, les techniques qui visent à mettre
en évidence des informations présentes mais cachées par le volume des données

       La méthode View utilise l’éditeur d’objet symbolique VSTAR permettant visualiser,
dans un tableau au premier temps, tous les objets du fichier base .sds ou juste une partie
d’eux. Et par la suite de présenter ses données sous la forme d’étoile en 2 ou 3 dimensions (en
cliquant sur les boutons correspondants de la barre d’outils). Le bouton SOL renvoie la
description des objets symboliques sélectionnés dans le tableau.




Meriam BELKOURA                                                                       Master 2 ID
Ksenia TITOVA                                  19 / 44                                 2007/2008
3.2.2.2   Mise en œuvre de la méthode

       Nous avons choisi de faire l’analyse sur plusieurs concepts, donc sur les différentes
tranches d’âge afin de voir l’évolution des caractéristiques déterminant le risque d’une
maladie cardiovasculaire.
       Présentons dans l’exemple le premier concept comme la partie la plus jeune de notre
population (30-34 ans) et le deuxième en choisissant la population âgée de 10 ans de plus
(40-44 ans).
       Tout d’abord les résultats sont présentés sous la forme d’une étoile en 2 dimensions.
       Les variables qualitatives sont représentées par des points de taille proportionnelle au
nombre d’occurrences rencontrées dans l’étude pour une valeur donnée.
Le graphique relie entre eux les points de plus grosses tailles (présentant donc le plus grand
nombre d’occurrences).




Meriam BELKOURA                                                                      Master 2 ID
Ksenia TITOVA                                 20 / 44                                 2007/2008
Après avoir étudié le graphique précédant, on remarque que la population concernée
est en bonne santé. C'est-à-dire que les valeurs des variables importantes sont bonnes : le taux
de cholestérol, qui est compris entre 182.0 et 210.0, la pression qui est stable à 118.0. La
dépression est notée sur une échelle minimale de 0.0 à 0.7. On remarque aussi que le pic de la
tension artériel n’est pas observé. En ce qui concerne le type de douleur, cette variable est
partagé entre A et B.

       Regardons maintenant le changement des valeurs des ces variables chez la population
âgée de 10 ans de plus.




       Pour la population de 40-45 ans, on remarque que la situation est changée. Le taux de
cholestérol est monté de 210 à 341.0, la pression est aussi en augmentation, le pic de la
tension artériel surcroît jusqu’à 3.0. En ce qui concerne le type de douleur les valeurs
changent aussi. Dans l’histogramme suivant on peut voir la répartition de la population
concernée dans chaque type de douleur :




       Pour voir l’évolution des paramètres en fonction de l’âge nous pouvons superposer les
deux graphiques précédents.




Meriam BELKOURA                                                                     Master 2 ID
Ksenia TITOVA                                 21 / 44                                2007/2008
Zoom Star Superposition :




      Les informations précédentes on peut compléter par l’affichage de ses données en 3
dimensions :




Meriam BELKOURA                                                                 Master 2 ID
Ksenia TITOVA                              22 / 44                               2007/2008
3.2.3   STAT

3.2.3.1 Présentation de la méthode
       La méthode stat permet de représenter graphiquement l’ensemble des valeurs que
prend une variable donnée pour l’ensemble des concepts et d’en visualiser la répartition.

        STAT permet d’appliquer des méthodes, habituellement utilisées pour des données
conventionnelles, à des objets symboliques représentés par leur description.
Ces méthodes dépendent du type des variables présentes dans la base SODAS avec laquelle
nous travaillons : les fréquences relatives pour les variables multi nominales, les fréquences
relatives pour les variables intervalles, les capacités et min/max/mean pour les variables multi
nominales probabilistes et biplot pour les variables intervalles.

       Le format de sortie des données sera, suivant le choix de l’utilisateur, un listing ou
bien un graphique.

     Les graphiques peuvent être modifiés et personnalisés (figures, formes, couleurs, texte,
commentaires ...) par l’utilisateur et ils peuvent également être copiés et sauvegardés.

Les fréquences relatives pour les variables multi-nominales :

        Dans cette méthode, nous étudions la fréquence relative des différentes modalités de la
variable multi nominale en prenant en compte les éventuelles règles relatives à la base sur
laquelle nous travaillons.
Le graphique associé à la distribution de la variable pourra, suivant le choix de l’utilisateur,
être soit un diagramme bâton, soit un diagramme en camembert.

Les fréquences relatives pour les variables intervalles :

Meriam BELKOURA                                                                       Master 2 ID
Ksenia TITOVA                                 23 / 44                                  2007/2008
Cette méthode a besoin, en entrée, de 2 paramètres :
- une variable intervalle I
- un nombre de classes k
Nous pouvons construire un histogramme pour la variable I sur un intervalle [a,b] découpé en
k classes et où a représente la borne inférieure de I et b sa borne supérieure. La méthode va
permettre le calcul de la fréquence relative associée à la classe Ck tout en tenant compte du
recouvrement de cette classe Ck par les valeurs intervalles de I et ceci pour tous les objets
symboliques.

Les capacités et min/max/mean pour les variables multi nominales probabilistes :

        La méthode permet de construire un histogramme des capacités des différentes
modalités de la variable considérée. Dans l’histogramme capacité, la capacité d’une modalité
est représentée par l’union des différentes capacités. En ce qui concerne le graphique
min/max/mean, il associe un diagramme représentant l’étendue et la moyenne de la
probabilité de chaque modalité.



Biplot pour les variables intervalles :

        Ce graphique représente un objet symbolique par un rectangle dans le plan de 2
variables sélectionnées par l’utilisateur. La dimension de chaque côté du rectangle correspond
à l’étendue de la variation de l’objet symbolique relativement à la variable de l’axe considéré.


3.2.3.2   Mise en œuvre de la méthode

Les fréquences relatives pour les variables intervalles

       Nous étudions la variable dépression et nous découpons notre intervalle en 10 classes
et nous constatons qu’ils y’a moins d’individus qui ont une dépression supérieure à 3.




Meriam BELKOURA                                                                      Master 2 ID
Ksenia TITOVA                                 24 / 44                                 2007/2008
A partir de l’histogramme suivant, on pourrait deviner qu’un cholestérol supérieur à 300 est
plutôt mauvais et pourrait causer quelques problèmes cardiaques.




Les capacités et min/max/mean pour les variables multi nominales probabilistes




       On remarque que plus l’intensité de la douleur est élevée, plus la moyenne de la
probabilité est faible sans qu’il y’ ai une très grande différence entre les 4 types de douleur.




Meriam BELKOURA                                                                        Master 2 ID
Ksenia TITOVA                                  25 / 44                                  2007/2008
On remarque que la plus part des individus ont des vaisseaux sanguins dans un bon
état, c'est-à-dire A.

       Biplot pour les variables intervalles

        Etant donné que nous étudions 10 tranches d’âges et que les résultats de l’application
de cette méthode se superposent, nous allons faire une étude de la pression en fonction du
cholestérol sur les tranches d’âge supérieur à 60 ans.




Meriam BELKOURA                                                                     Master 2 ID
Ksenia TITOVA                                 26 / 44                                2007/2008
Parmi les individus entre 65 et 69 ans, il y a beaucoup de disparités et leurs
caractéristiques englobent toutes les autres tranches d’âges. Comme résultat inattendu, nous
remarquons que les personnes entre 75-79 ans ont un cholestérol faible et une pression
moyenne et se retrouvent inclus dans les 70-74 ans. Nous verrons plus tard avec la méthode
SYKSOM que bien que les 75-79 ans et les 70-74 ans soient proches dans l’âge, ils ne sont
pas voisins et ne sont pas regroupés dans la même classe. Même la méthode DIV le montre
car les deux tranches d’âges ne se retrouvent pas dans la même classe.

3.2.4 DIV (Divisive Clustering on Symbolic Objects)

3.2.4.1 Présentations de la méthode
        DIV est une méthode de classification hiérarchique qui part de tous les objets
symboliques réunis dans une seule classe et procède ensuite par division successive de chaque
classe selon un critère d’inertie qui perme d’effectuer le découpage en classes.
        A chaque étape, une classe est divisée en deux classes suivant une question binaire ;
ceci permet d’obtenir le meilleur partitionnement en deux classes, conformément à
l’extension du critère d’inertie. L’algorithme s’arrête après avoir effectuer k-1 division ; k
étant le nombre de classes donné, en entrée, à la méthode par l’utilisateur.
        Les paramètres importants à saisir sont : les variables qui seront utilisées pour calculer
la matrice de dissimilarité et l’extension du critère d’inertie pour définir l’ensemble des
questions binaires utiles pour effectuer le découpage.


3.2.4.2 Mise en œuvre de la méthode
Au moment de choisir nos variables, il faut être attentif à deux choses principales :

- le domaine de définition des variables doit être ordonné car dans le cas contraire, les
résultats obtenus seront totalement faux
- il n’est pas possible de mélanger des variables dont le domaine de définition est continu avec
des variables dont le domaine de définition est discret.
Dans la fenêtre de définition des paramètres de la méthode DIV du logiciel SODAS,
l’utilisateur doit choisir entre des variables qualitatives et des variables continues.




Trois paramètres doivent également être définis :

- la dissimilarité entre 2 objets peut être normalisée ou non. Elle peut être normalisée en
choisissant l’inverse de la dispersion ou bien l’inverse du maximum de la déviation. La
dispersion des variables est, ici, une extension aux objets symboliques de la notion de
variance
- le nombre k de classes de la dernière partition. La division s’arrêtera après k-1 itérations et
la méthode DIV aura calculé des partitions de la classe 2 à la classe k
- la méthode DIV offre également la possibilité de créer un fichier partition ; il s’agit d’un
fichier texte contenant une matrice (aij) dans laquelle, chaque ligne i∈[1,n] correspond à un
objet et chaque rangée j∈[2,k-1] correspond à une partition en j classes. Ainsi, (aij) signifie
que l’objet j appartient à la classe k, dans la partition en j classes.



Meriam BELKOURA                                                                         Master 2 ID
Ksenia TITOVA                                  27 / 44                                   2007/2008
Une fois ces différents paramètres définis, nous pouvons exécuter la méthode DIV. Nous
Obtenons, en sortie, un listing contenant les informations suivantes :

- pour chaque partition de 2 à k classes, une liste des objets contenus dans chaque classe ainsi
que l’inertie expliquée relative à la partition
- l’arbre de classification.


Nous avons décidé d’effectuer une partition en 5 classes.

Nous exécutons DIV sur l’ensemble des variables nominales(variables qualitatives)
suivantes :

Type_douleur
Sucre
Electro
Vaisseau

Les classes obtenues :

PARTITION IN 5 CLUSTERS :
-------------------------:


Cluster 1 (n=1) :
75-79 ans

Cluster 2 (n=4) :
70-74 ans 65-69 ans 55-59 ans 45-49 ans

Cluster 3 (n=1) :
30-34 ans

Cluster 4 (n=3) :
50-54 ans 40-44 ans 35-39 ans

Cluster 5 (n=1) :
60-64 ans

Explicated inertia : 83.757166

Le pourcentage de l’inertie est élevé.
Les individus entre 75 et 79 ans, 30 et 34 ans et 60 et 64 ans se distinguent des autres classes
et sont tous seul dans leur classe. Par contre les autres montrent un groupement de certaines
tranches d’âges sur les critères choisis. Plus particulièrement les 70-74 ans 65-69 ans 55-59
ans 45-49 ans qui se retrouvent dans la même classe et les 50-54 ans 40-44 ans 35-39 ans se
retrouvent ensemble.




Meriam BELKOURA                                                                       Master 2 ID
Ksenia TITOVA                                 28 / 44                                  2007/2008
L’arbre obtenu en résultat :

- the number noted at each node indicates
     the order of the division
   - Ng <-> yes and Nd <-> no


      +---- Classe 1 (Ng=1)
      !
 !----1- [vaisseau = 0001]
      !
      !              +---- Classe 2 (Ng=4)
      !              !
      !         !---4- [vaisseau = 0010]
      !         !    !


          !         !    +---- Classe 5 (Nd=1)
          !         !
          !    !----3- [electro = 001]
          !    !    !
          !    !    +---- Classe 4 (Nd=3)
          !    !
          !----2- [type_douleur = 0010]
               !
               +---- Classe 3 (Nd=1)




On remarque que ce qui permet de distinguer la classe 3 et les classe 4, 5, 2 c’est le type de la
douleur, entre la classe 4 et les classes 5 et 2 c’est l’électrocardiogramme, entre la classe 5 et
2 se sont les vaisseaux, et entre la classe 1 et toutes les autres c’est encore une fois l’état des
vaisseaux.

3.2.5 TREE (Descision Tree)

3.2.5.1 Présentation de la méthode

       La méthode Tree nous propose un algorithme par agrandissement d’arbres, appliqué à
des données imprécises décrites par des concepts probabilistes. Dans ce contexte, la
procédure de partage récursif peut être vue comme une recherche itérative d’un ensemble de
concepts qui correspond le mieux aux données initiales. A chaque étape, le découpage
optimal est obtenu en utilisant une mesure générale, donnée en paramètre. En sortie, nous
obtenons une nouvelle liste d’objets symboliques qui permet éventuellement d’assigner de
nouveaux objets à une classe.


3.2.5.2    Mise en œuvre de la méthode

La méthode TREE va nous permettre de définir un ensemble organisé des concepts grâce à
une procédure récursive de partitionnement.




Meriam BELKOURA                                                                         Master 2 ID
Ksenia TITOVA                                  29 / 44                                   2007/2008
Attention :

Les variables de partitionnement doivent avoir été crée gâche à Add-signe- valued variable
dans le module DB2SO.
Les variables explicatives ne peuvent être mixtes qualitatives et quantitatives à la fois. Il faut
faire un choix entre les deux types de variables.

Nous choisissons comme variable de partitionnement : MesurePic.

TREE avec des variables explicatives de type quantitatives

Les variables explicatives choisies sont :
- Pression
- Cholester
- depression
- Pic

Le nombre de nœuds choisi : 5




L’arbre de décision obtenu se lit de la manière suivante :




Paramètres de départ :

Learning Set        :     10
 Number of variables :       4
 Max. number of nodes:       9
 Soft Assign          : ( 1 ) FUZZY
 Criterion coding     : ( 3 ) LOG-LIKELIHOOD
 Min. number of object by node      :        5
 Min. size of no-majority classes :          2
 Min. size of descendant nodes      :        1
 Frequency of test set              :    0.00

L’arbre obtenu :




Meriam BELKOURA                                                                         Master 2 ID
Ksenia TITOVA                                  30 / 44                                   2007/2008
Interprétation de l’arbre :

On relève que ce qui peut distinguer entre une mesure de pic normal et une mesure de pic
anormale est la dépression.
Supposons qu’on veuille classer un nouvel individu dans la classe normal ou anormal des
« MesurePic » juste en regardant sa pression, son cholesterol, sa dépression et son pic.
Dans un premier temps, l’arbre nous dit que pour trancher, nous n’avons besoin que de la
dépression. Si cette dernière est supérieure à 1.10 alors l’individu est dans la classe normale,
sinon il est dans la classe anormale.


TREE avec des variables explicatives de type qualitatives

Variables explicatives :
                 Sexe
                 Type_douleur
                 Sucre
                 Electro
                 Angine
                 Vaisseau


L’arbre obtenu avec des variables explicatives de type qualitatives.




Interprétation de l’arbre:

Si pour un individu donné l’état des vaisseaux est différent de 1100… alors l’individu est mis
dans la catégorie anormal (=la classe) en ce qui concerne la mesure de son pic, sinon on
regarde le type de la douleur de ce individu, s’il est différent de 1100 alors l’individu est
placé dans la classe normal, sinon nous regardons l’électrocardiogramme de cet individu,
s’il est différent de 010 alors l’individu et placé dans la classe normal, sinon il sera classé
dans la classe anormal.




Meriam BELKOURA                                                                      Master 2 ID
Ksenia TITOVA                                 31 / 44                                 2007/2008
3.2.6 PCM (Principal Component Analysis)

3.2.6.1 Présentation de la méthode
        La méthode PCM correspond à l’analyse en composante principale classique.
Mais au lieu d’obtenir une représentation par points sur un plan factoriel, PCM propose une
visualisation de chaque concept par des rectangles. L’objectif est d’étudier l’intensité des
liaisons entre les variables et de repérer les concepts présentant des caractéristiques voisines.

        La PCM est donc une méthode factorielle de réduction du nombre de caractères
permettant des représentations géométriques des individus et des variables. La réduction se
fait par la construction de nouveaux caractères synthétiques obtenus en combinant les
variables initiales au moyen des « facteurs ». Les éléments de la matrice de données sont des
intervalles et chacun décrit la variation de la variable observée (minimum et maximum). La
méthode n’accepte que les variables continues.

L’exécution de la méthode nous donne deux résultats :

1 - Le listing qui contient :

- La description de la matrice de données par une table : chaque ligne correspond à une classe.
- Les valeurs propres, le pourcentage d’inertie et les premières composantes principales.
Chaque classe est caractérisée d’abord par deux composantes principales et visualisée dans un
plan factoriel par un rectangle.
- Les corrélations entre chaque variable descriptive et les composantes principales.

2 - Une représentation graphique des objets symbolique difficile à interpréter où chaque objet
est représenté par un rectangle.

3.2.6.2 Mise en œuvre de la méthode
La méthode accepte seulement les variables continues, en entrée.
Nous avons choisi d’analyser chaque tranche d’âge suivant les variables continues suivantes:

pression
cholester
depression
pic

Les intervalles des variables descriptives sont les suivants :

- 94 à 200 pour la pression
- 126 à 14 564 pour le cholester
- 0 à 6.2 pour la depression
- 1 à 3 pour le pic

Nous obtenons alors la matrice de données ci-dessous représentant l’ensemble des intervalles
des variables pour chacun des concepts ainsi que la matrice de corrélations entre nos 4
variables.

pression        cholester       depression         pic



Meriam BELKOURA                                                                        Master 2 ID
Ksenia TITOVA                                  32 / 44                                  2007/2008
"70-74   ans"   [110.00 , 160.00] [149.00 , 322.00] [0.00 , 2.90] [1.00 , 3.00]
"65-69   ans"   [100.00 , 180.00] [177.00 , 564.00] [0.00 , 2.80] [1.00 , 3.00]
"55-59   ans"   [100.00 , 200.00] [126.00 , 409.00] [0.00 , 5.60] [1.00 , 3.00]
"60-64   ans"   [102.00 , 180.00] [164.00 , 407.00] [0.00 , 6.20] [1.00 , 3.00]
"50-54   ans"   [94.00 , 192.00] [175.00 , 325.00] [0.00 , 4.20] [1.00 , 3.00]
"40-44   ans"   [102.00 , 152.00] [141.00 , 341.00] [0.00 , 3.00] [1.00 , 3.00]
"45-49   ans"   [101.00 , 150.00] [149.00 , 311.00] [0.00 , 3.60] [1.00 , 3.00]
"35-39   ans"   [94.00 , 140.00] [183.00 , 321.00] [0.00 , 3.80] [1.00 , 3.00]
"75-79   ans"   [125.00 , 140.00] [197.00 , 304.00] [0.00 , 1.10] [1.00 , 2.00]
"30-34   ans"   [118.00 , 118.00] [182.00 , 210.00] [0.00 , 0.70] [1.00 , 1.00]

Correlations Matrix :


 pression      1.0000         0.0619         0.0708         0.0462
 cholester       0.0619         1.0000         0.0469         0.0600
 depression       0.0708         0.0469         1.0000         0.0970
 pic      0.0462         0.0600         0.0970         1.0000

       Les corrélations entre nos 4 variables sont plutôt faibles.
Si nous regardons la plus grande corrélation, nous soupçonnions une forte liaison entre le
nombre de pic et la dépression, ce résultat nous allons le retrouver dans la méthode TREE.

3.2.7    SCLUST (Symbolic Dynamic Clustering)

3.2.7.1 Présentations de la méthode
         La méthode SCLUST peut être utilisée pour partitionner un ensemble de n éléments
symboliques en nombre m de classes homogènes. Ce nombre de classes peut être fixé par
l’utilisateur.
En entrée de cette méthode c’est à l’utilisateur de choisir les paramètres qui selon lui seront
les plus parlant pour regrouper les données en classes.
Cette méthode construit les partitions de l’ensemble des données symboliques selon la
combinaison des mesures approximatives et des prototypes. SCLUST permet de choisir les
différents types de dissimilarité et de prototypes.

       Si les variables choisies ont des types différents il existe la possibilité de normaliser la
distance entre l’objet et le prototype.



3.2.7.2 Mise en œuvre de la méthode

       On applique cette méthode sur notre base de données symboliques, en choisissant les 5
variables telle que age, type de douleur, pression, cholestérol, dépression.




Meriam BELKOURA                                                                         Master 2 ID
Ksenia TITOVA                                  33 / 44                                   2007/2008
Les données suivantes donnent les information sur les classes crées par cette méthodes :

 Learning Set         :         10
 Number of variables :           5
 Number of iterations :         20
 Number of classes    :          3
 Initialisation       :          0    random prototypes
 Number of runs       :         10
 Quantitative distance:          0    Hausdorff Distance
 Boolean distance     :          0    De Carvalho Distance
 Modal distance       :          0    De Carvalho Distance
 Normalize            :          0    Yes
 NBCLUST procedure    :          0    Yes
 STABCLUST procedure :           0    Yes


 Initial Criterion : 976.288774

 GROUP OF SELECTED VARIABLES :
 =============================

 ( Pos )       Tj        Tj           Weight      Name                     Type
             initial    used

 (   1   )   12.91     20.00        0.079365      age                     INTERVAL
 (   3   )    0.14     20.00        7.200591      type_douleur            MODAL   4 Modalities
 (   4   )   21.71     20.00        0.047170      pression                INTERVAL
 (   5   )   63.92     20.00        0.016026      cholester               INTERVAL
 (   9   )    1.32     20.00        0.775194      depression              INTERVAL


 LIST OF SYMBOLIC OBJECTS IN THE SET :
 =====================================

 30-34 ans      35-39 ans           40-44 ans       45-49 ans          50-54 ans     55-59 ans
 60-64 ans      65-69 ans           70-74 ans       75-79 ans

EDITION OPTIMAL PARTITION
  =========================


 Classe :   1 Cardinal :       1
 ===============================

 (   0) 30-34 ans      [-1.$]

 Classe :   2 Cardinal :       6
 ===============================

 ( 1) 35-39 ans    [1.1] ( 2) 40-44 ans    [0.3] ( 3) 45-49 ans    [0.3]                     (
4) 50-54 ans   [1.1] ( 8) 70-74 ans    [1.0] ( 9) 75-79 ans    [2.2]


 Classe :   3 Cardinal :       3
 ===============================

 (   5) 55-59 ans      [0.7]    (    6) 60-64 ans         [0.3]   (   7) 65-69 ans   [2.0]




Meriam BELKOURA                                                                         Master 2 ID
Ksenia TITOVA                                   34 / 44                                  2007/2008
L’image suivante nous présente les classes créées selon les axes age et cholestérol :




3.2.8   SYKSOM (Kohonen Self-Organizing Map for Symbolic Data)

3.2.8.1 Présentations de la méthode

        Cette méthode permet d’appliquer des cartes de Kohonen à des ensembles de données
quantitatives classiques et symboliques de type intervalle dans le but de répartir ces données
dans des partitions homogènes. Le but est de représenter des centres de classes dans une grille
de tél manière que deux classes qui se ressemblent aient leurs centres proches dans la grille.

        Voici le principe de construction de la grille :

        K centres sont positionnés au hasard sur la grille lorsqu’il s’agit de définir k classes.
Les k points sont ensuite positionnés dans l’espace des données ce qui donnera des centres
positionnés n’importe où dans l’espace.
Ensuite, on affecte chaque individu à l’un des centres avec lequel il est le plus proche (on
obtient ainsi des classes Ci), puis on modifie la position des k centres initiaux (précédents) de
façon à les placer le plus proche du centre de leurs classes puis on rapproche les autres
centres de ce centre d’autant plus qu’ils sont proches de lui dans la grille initiale.


3.2.8.2 Mise en œuvre de la méthode

Les paramètres d’entrée

        Voici les paramètres d’entrée qui nous ont parus être les plus importants.
La méthode de partitionnement choisie est : stochastic approximation
number of lines : nombre les lignes horizontaux dans la grille
precision threshold : seuil de précision avec laquelle les données d’intervalle (individus) sont
placés dans les partitions.
Eps : après avoir assigné une donnée d’intervalle dans une partition, le centre de cette
partition est remis à jour ainsi que les centres des partitions voisines dans la grille. Ainsi si
eps=1, cela signifie que seuls les voisins directs seront remis à jour.

Meriam BELKOURA                                                                         Master 2 ID
Ksenia TITOVA                                   35 / 44                                  2007/2008
Kernel : permet de choisir avec quelle distance « le seuil de précision » est calculé.
Learning factor : facteur d’apprentissage.




Interprétation de la carte de Kohonen

Dans le fichier résultat :

METHOD=SYKSOM Version 12/20/03      Aachen 2003
 BASE = C:Documents and
SettingsAdministrateurBureauprojet_dataheart21.sds
 Number of columns a           = 5
 Number of rows b              = 5
 Number of Symbolic Objects    = 10
 Number of variables           = 5
 Number of clusters (neurons) = 25
 Dimension of vectors          = 5
 Exponential kernel
 Distance : Vertex-type distance

Voici la liste des clusters qui contiennent des objets symboliques, c’est à dire les clusters qui
ne sont pas vides.

Cluster 2 ( 1x2)       Size 1
List of objects:
( 10) 30-34 ans

Cluster 6 ( 2x1)       Size 1
List of objects:
( 9) 75-79 ans

Cluster 10 ( 2x5)       Size 1
List of objects:
( 4) 60-64 ans

Cluster 14 ( 3x4)       Size 1
List of objects:
( 3) 55-59 ans

Cluster 15 ( 3x5)       Size 1
List of objects:
( 2) 65-69 ans

Cluster 17 ( 4x2)       Size 3
List of objects:
( 6) 40-44 ans
( 7) 45-49 ans
( 8) 35-39 ans

Cluster 22 ( 5x2)       Size 1
List of objects:
( 1) 70-74 ans

Cluster 23 ( 5x3)       Size 1
List of objects:
( 5) 50-54 ans

        Nous avons 10 objets symboliques qui seront placé dans 25 cellules (neurones ou
partitions), car nous avons une gille de taille 5*5.

Meriam BELKOURA                                                                        Master 2 ID
Ksenia TITOVA                                  36 / 44                                  2007/2008
Les cercles représentent le nombre d’individus dans la classe (la partition)
Les rectangles représentent le volume, l’étendue de la partition.




        Nous remarquons dans la cartes que les cellules 5*2, 5+3 et 4*2 sont voisines et elles
contiennent respectivement, les individus dont l’âge est entre 70-74 ans pour la cellule 5*2,
50-54 ans pour la cellule 5*3 et 40-44 ans, 45-49 ans, 35-39 ans pour la cellule 4*2 ce qui
montrent que ces trois tranches d’âge qui sont dans la même cellule représentent beaucoup de
similitudes. Les concepts présents dans les cellules voisines cités présentent des points
communs suivants quelques variables.

Lorsqu’on clique droit sur une cellule, par exemple 4*2 qui contient 3 concepts et qu’on
sélectionne « paralléle », ce graphe difficile à interpréter apparait.




3.2.9 DISS (Descriptive Measures)

3.2.9.1 Présentation de la méthode



Meriam BELKOURA                                                                    Master 2 ID
Ksenia TITOVA                                 37 / 44                               2007/2008
La méthode DISS permet de comparer dans l’ordre les objets symboliques en
quantifiant les corrélations existantes, en les mettant dans les classes ou en les discriminant.
Les résultats obtenus par cette méthode permettent de comprendre, mesurer et identifier les
groupes des objets symboliques et peuvent être appliqués dans les autres méthodes
statistiques ou dans les certaines tâches de Data Mining.
En particularité la méthodes DISS permet de comparer dans l’ordre les objets symboliques
afin d’évaluer leur dissimilarité et de visualiser les résultats graphiquement dans l’éditeur
VDISS.

        En entrée de cette méthode on peut choisir soit un ensemble complet des variables
symboliques soit juste une partie de l’ensemble. Ces variables peuvent être de type suivant :
intervalle, quantitatif, modale, multi value.



3.2.9.2   Mise en œuvre de la méthode

       En appliquant cette méthode sur notre ensemble des objets symboliques en choisissant
plusieurs variables (pression, cholestérol et dépression) nous obtiendrons la matrice de
dissimilarité suivante :




Meriam BELKOURA                                                                        Master 2 ID
Ksenia TITOVA                                  38 / 44                                  2007/2008
Ces résultats on peut présenter sous la forme d’un graphique :




       Après avoir analysé les résultats précédents, on peut remarquer qu’il y a un grand saut,
une évolution rapide des valeurs en passant de la tranche d’âge 30-34 à 35-39. La tranche
d’âge 30-34 a aussi une grande dissimilarité avec les autres, ce que peut signifier que c’est
après 35 ans que la santé se dégrade.




Meriam BELKOURA                                                                     Master 2 ID
Ksenia TITOVA                                39 / 44                                 2007/2008
3.2.10 HIPYR (Hierarchical and Pyramidal Clustering )

3.2.10.1 Présentation de la méthode
       La méthode HIPYR est utilisée pour une classification pyramidale ou hiérarchique
d’un ensemble de données symboliques.
       VPYR est un éditeur graphique automatiquement lié à HIPYR.
         En entrée de cette méthode, l’utilisateur doit choisir les variables qui seront utilisées
pour construire la pyramide (hiérarchie). Ces variables peuvent être quantitatives, des
intervalles de valeurs réelles, nominales, multinominales et/ou modales. L’utilisateur est
invité à choisir entre des variables qualitatives et continues mais il lui est également possible
de les mélanger.
          La pyramide constitue un modèle intermédiaire entre les arbres et les structures en
treillis. Cette méthode permet de classer des données plus complexes que ce qu’autorisait le
modèle tabulaire et ceci en considérant la variation des valeurs prises par les variables. La
pyramide est construite par un algorithme d’agglomération opérant du bas (les objets
symboliques) vers le haut (à chaque niveau, des classes sont agglomérées).
       Dans une classification pyramidale, chaque classe formée est définie non seulement
par une extension (l’ensemble de ses éléments) mais aussi par un objet symbolique qui décrit
ses propriétés (l’intention de la classe). L’intention est héritée d’un prédécesseur vers son
successeur et nous obtenons ainsi une structure d’héritage.
      La structure d’ordre permet l’identification de concepts intermédiaires ; c'est-à-dire de
concepts qui comblent un vide entre des classes bien identifiées.

3.2.10.2 Mise en œuvre de la méthode
       Dans notre exemple d’étude on applique cette méthode sur plusieurs concepts (une
population de 30 à 69 ans) et sur les variables suivantes : type de douleur, sucre, cholestérol.

       On obtient la pyramide suivante :




        Dans le graphique précédent on observe les 7 classes crées. On remarque, ce qui est
assez naturel, que les concepts successifs sont réunis en une classe. Les valeurs des variables
qui les constituent sont voisines. Le graphique suivant nous montre les valeurs des hauteurs
de chaque classe.


Meriam BELKOURA                                                                         Master 2 ID
Ksenia TITOVA                                  40 / 44                                   2007/2008
3.2.11 DCLUST (Clustering Algorithm based on Distance Tables)

3.2.11.1 Présentation de la méthode
       Le but de cette méthode est de regrouper un grand ensemble d’objets symboliques en
des classes homogènes.
       Le critère de classification est basé sur la somme de dissimilarités entre des individus
appartenant à la même classe et d’essayer de minimiser le critère de classification par le choix
convenable de la classe. Ces fonctions (de similarité et de dissimilarité) peuvent prendre en
considération les dépendances (hiérarchique ou logique) entre les variables.
       La table de dissimilarité peut être crée de la façon suivante :
       -           grâce au logiciel SODAS ou ASSO en utilisant la méthodes DISS ou
                  MATCH.
       -          ou directement par la fonction de proximité qui peut prendre en
                  considération les dépendances entre les variables.
En entrée de cette méthode on passe le ASSO file qui contient la table de dissimilarité. Et le
nombre de classes peut être fixé par l’utilisateur.



3.2.11.2 Mise en œuvre de la méthode

    Pour pouvoir utiliser cette méthode on utilise le fichier de la méthode DISS crée
précédemment, afin d’avoir la table de dissimilarité en entrée.

    On obtient plusieurs fichiers résultant.




Meriam BELKOURA                                                                      Master 2 ID
Ksenia TITOVA                                  41 / 44                                2007/2008
1 fichier présentant les données suivantes :

    Number of SO              :         10
    Learning Set              :         10
    Number of variables       :         11
    Number of iterations      :         20
    Number of classes         :          4
    Initialisation            :          1     random partition
    Number of runs            :         10


    Initial Criterion : 2.150399

    LIST OF SYMBOLIC OBJECTS IN THE SET :
    =====================================

 30-34 ans        35-39 ans         40-44 ans        45-49 ans    50-54 ans   55-59 ans
60-64 ans
 65-69 ans        70-74 ans         75-79 ans

Les classes créées :
EDITION PARTITION SELECTED
  ==========================

    Classe : 1    Size : 1        Weight : 1.00       Criterion : 0.000000 (0.00%)

(      1) 30-34 ans [1.0]

    Classe : 2    Size : 5        Weight : 5.00       Criterion : 0.693404 (71.74%)

(      2) 35-39 ans [1.0]           (     3) 40-44 ans [0.6]       (   4) 45-49 ans [0.0]
(      9) 70-74 ans [0.9]           (    10) 75-79 ans [2.5]

    Classe : 3    Size : 1        Weight : 1.00       Criterion : 0.000000 (0.00%)

(      8) 65-69 ans [1.0]

    Classe : 4    Size : 3        Weight : 3.00       Criterion : 0.273120 (28.26%)

(      5) 50-54 ans [2.0]           (        6) 55-59 ans [1.0]    (   7) 60-64 ans [0.0]



    PARTITION DESCRIPTION
    =====================

    INITIAL CRITERION : 2.150399
    FINAL CRITERION   : 0.966525
    Percentage of the explained criterion : 55.05




Meriam BELKOURA                                                                      Master 2 ID
Ksenia TITOVA                                       42 / 44                           2007/2008
Le 2ème fichier permet de présenter les classes formées à l’aide de graphe que l’on peut
présenter sous différents axes :




Et le 3ème fichier, l’éditeur VSTAR, permettant de présenter le tableau des valeurs des classes
engendrées :




Meriam BELKOURA                                                                     Master 2 ID
Ksenia TITOVA                                43 / 44                                 2007/2008
4   CONCLUSION

La réalisation de ce projet a été pour nous l’occasion de découvrir un logiciel puissant
d’analyse de données symboliques : le logiciel SODAS. Cet outil nous a permis d’extraire des
connaissances d’une importante base de données relationnelles et d’appliquer des méthodes
de statistique descriptive, de dissimilarité, de clustering et de discrimination.

La grande flexibilité de ce logiciel associée à la puissance de ses diverses représentations
graphiques a mis en évidence des résultats pertinents et facilement interprétables et de révéler
des faits que nous ne soupçonnions pas comme le fait qu’il y ai un lien entre la dépression et
la présence d’un nombre de pics anormaux dans l’électrocardiogramme. A partir des
déductions faites sur cette étude, nous avons pu élargir le problème à d’autres champs,
d’autres questions auxquels il serait intéressant de trouver des réponses comme : y’a-t-il un
lien entre certains paramètres cardiaques et un risque de décès. Répondre à cette question
pourrait aider certains médecins à anticiper sur certains traitements.

Cette étude peut aussi être affinée en rajoutant d’autres variables comme la consommation de
nicotine, le poids, le périmètre abdominal, la profession et l’origine ethnique.




Meriam BELKOURA                                                                      Master 2 ID
Ksenia TITOVA                                 44 / 44                                 2007/2008

Contenu connexe

Tendances (6)

Mémoire cnam sur la veille
Mémoire cnam sur la veilleMémoire cnam sur la veille
Mémoire cnam sur la veille
 
Le Référentiel Nouvelles Plateformes Technologiques
Le Référentiel Nouvelles Plateformes TechnologiquesLe Référentiel Nouvelles Plateformes Technologiques
Le Référentiel Nouvelles Plateformes Technologiques
 
Conception Base de Données
Conception Base de DonnéesConception Base de Données
Conception Base de Données
 
Rapport détaillé de l’étude QEB (274 pages)
Rapport détaillé de l’étude QEB (274 pages)Rapport détaillé de l’étude QEB (274 pages)
Rapport détaillé de l’étude QEB (274 pages)
 
Implémentation et mise en place d’un système décisionnel pour la solution Meg...
Implémentation et mise en place d’un système décisionnel pour la solution Meg...Implémentation et mise en place d’un système décisionnel pour la solution Meg...
Implémentation et mise en place d’un système décisionnel pour la solution Meg...
 
Ideas 09 22_2018
Ideas 09 22_2018Ideas 09 22_2018
Ideas 09 22_2018
 

Similaire à Rapport cardiologie 2

Cours gratuit.com--id-2614
Cours gratuit.com--id-2614Cours gratuit.com--id-2614
Cours gratuit.com--id-2614
SergeCowouvi1
 

Similaire à Rapport cardiologie 2 (20)

Cours gratuit.com--id-2614
Cours gratuit.com--id-2614Cours gratuit.com--id-2614
Cours gratuit.com--id-2614
 
These
TheseThese
These
 
Mahdi smida Rapport master2 Big data et fouille de données
Mahdi smida Rapport master2 Big data et fouille de donnéesMahdi smida Rapport master2 Big data et fouille de données
Mahdi smida Rapport master2 Big data et fouille de données
 
Analyse de données sous SPSS 17_ACP, multivarie.pdf
Analyse de données sous SPSS 17_ACP, multivarie.pdfAnalyse de données sous SPSS 17_ACP, multivarie.pdf
Analyse de données sous SPSS 17_ACP, multivarie.pdf
 
Thèse shellcode polymorphiques
Thèse shellcode polymorphiquesThèse shellcode polymorphiques
Thèse shellcode polymorphiques
 
siem.pdf
siem.pdfsiem.pdf
siem.pdf
 
Conception et développement d'une application de gestion de production et de ...
Conception et développement d'une application de gestion de production et de ...Conception et développement d'une application de gestion de production et de ...
Conception et développement d'une application de gestion de production et de ...
 
Rapport DESS Pousga Martin KIENDREBEOGO
Rapport DESS Pousga Martin KIENDREBEOGORapport DESS Pousga Martin KIENDREBEOGO
Rapport DESS Pousga Martin KIENDREBEOGO
 
Support de cours
Support de coursSupport de cours
Support de cours
 
Support ssm vsm_vers_finale
Support ssm vsm_vers_finaleSupport ssm vsm_vers_finale
Support ssm vsm_vers_finale
 
Les enjeux du Big Data pour l'Entreprise - These professionnelle -Touria Engo...
Les enjeux du Big Data pour l'Entreprise - These professionnelle -Touria Engo...Les enjeux du Big Data pour l'Entreprise - These professionnelle -Touria Engo...
Les enjeux du Big Data pour l'Entreprise - These professionnelle -Touria Engo...
 
Mon Projet Fin d'étude: Conception et développement d'une application de géol...
Mon Projet Fin d'étude: Conception et développement d'une application de géol...Mon Projet Fin d'étude: Conception et développement d'une application de géol...
Mon Projet Fin d'étude: Conception et développement d'une application de géol...
 
Mise en place d'une Plateforme de Supervision et de Détection d'Intrusion Sys...
Mise en place d'une Plateforme de Supervision et de Détection d'Intrusion Sys...Mise en place d'une Plateforme de Supervision et de Détection d'Intrusion Sys...
Mise en place d'une Plateforme de Supervision et de Détection d'Intrusion Sys...
 
Cours access 2007 semestre_1
Cours access 2007 semestre_1Cours access 2007 semestre_1
Cours access 2007 semestre_1
 
Cours bd
Cours bdCours bd
Cours bd
 
TD1.pdf
TD1.pdfTD1.pdf
TD1.pdf
 
rapport_stage_TBLB.pdf
rapport_stage_TBLB.pdfrapport_stage_TBLB.pdf
rapport_stage_TBLB.pdf
 
Mémoire fin d'étude gestion des interventions
Mémoire fin d'étude gestion des interventionsMémoire fin d'étude gestion des interventions
Mémoire fin d'étude gestion des interventions
 
Rapport pfe isi_Big data Analytique
Rapport pfe isi_Big data AnalytiqueRapport pfe isi_Big data Analytique
Rapport pfe isi_Big data Analytique
 
Conception et développement d'une marketplace basée sur l'architecture micros...
Conception et développement d'une marketplace basée sur l'architecture micros...Conception et développement d'une marketplace basée sur l'architecture micros...
Conception et développement d'une marketplace basée sur l'architecture micros...
 

Rapport cardiologie 2

  • 1. Titova Ksenia Belkoura Meriam DATAMINING Etude et analyse de données cardiologiques Master 2 ID Promotion 2008 Enseignant : Monsieur Edwin Diday
  • 2. 1 INTRODUCTION .......................................................................................................................................... 3 2 LE DATA MINING MIS EN œuvre SOUS SODAS ..................................................................................... 4 2.1 Objectifs généraux du DATAMINING................................................................................................ 4 2.2 Présentation du logiciel SODAS (Symbolic Official Data Analysis System) ...................................... 5 2.2.1 Schéma illustrant les étapes de mise en œuvre du logiciel SODAS ................................................ 7 2.2.2 Description sommaire du mode opératoire ...................................................................................... 8 2.2.2.1 Présentation de la page d’accueil................................................................................................ 8 2.2.2.2 Généralités sur la méthode d’utilisation du logiciel ................................................................... 8 2.2.2.3 Sélection d’une base d’étude ...................................................................................................... 8 2.2.2.4 Choix des méthodes à appliquer ................................................................................................. 9 3 ANALYSE ET ETUDE STATISTIQE AVEC SODAS .............................................................................. 11 3.1 Présentation de l’étude ....................................................................................................................... 11 3.1.1.1 Contexte de l’étude et présentation des données ...................................................................... 11 3.1.2 Les objectifs de l’étude ................................................................................................................. 11 3.2 Explication, analyse et mise en œuvre des méthodes de SODAS ...................................................... 13 3.2.1 DB2SO : extraction de données symboliques de la base de données relationnelle ....................... 13 3.2.1.1 Présentations du module ........................................................................................................... 13 3.2.1.2 Mise en œuvre de DB2SO ........................................................................................................ 14 3.2.2 VIEW (Symbolic Objects Viewer)................................................................................................ 19 3.2.2.1 Présentation de la méthode ....................................................................................................... 19 3.2.2.2 Mise en œuvre de la méthode ................................................................................................... 20 3.2.3 STAT ............................................................................................................................................. 23 3.2.3.1 Présentation de la méthode ....................................................................................................... 23 3.2.3.2 Mise en œuvre de la méthode ................................................................................................... 24 3.2.4 DIV (Divisive Clustering on Symbolic Objects)........................................................................... 27 3.2.4.1 Présentations de la méthode ..................................................................................................... 27 3.2.4.2 Mise en œuvre de la méthode ................................................................................................... 27 3.2.5 TREE (Descision Tree) ................................................................................................................. 29 3.2.5.1 Présentation de la méthode ....................................................................................................... 29 3.2.5.2 Mise en œuvre de la méthode ................................................................................................... 29 3.2.6 PCM (Principal Component Analysis) .......................................................................................... 32 3.2.6.1 Présentation de la méthode ....................................................................................................... 32 3.2.6.2 Mise en œuvre de la méthode ................................................................................................... 32 3.2.7 SCLUST (Symbolic Dynamic Clustering) .................................................................................... 33 3.2.7.1 Présentations de la méthode ..................................................................................................... 33 3.2.7.2 Mise en œuvre de la méthode ................................................................................................... 33 3.2.8 SYKSOM (Kohonen Self-Organizing Map for Symbolic Data) ................................................... 35 3.2.8.1 Présentations de la méthode ..................................................................................................... 35 3.2.8.2 Mise en œuvre de la méthode ................................................................................................... 35 3.2.9 DISS (Descriptive Measures) ....................................................................................................... 37 3.2.9.1 Présentation de la méthode ....................................................................................................... 37 3.2.9.2 Mise en œuvre de la méthode ................................................................................................... 38 3.2.10 HIPYR (Hierarchical and Pyramidal Clustering ) ......................................................................... 40 3.2.10.1 Présentation de la méthode ...................................................................................................... 40 3.2.10.2 Mise en œuvre de la méthode ................................................................................................. 40 3.2.11 DCLUST (Clustering Algorithm based on Distance Tables) ........................................................ 41 3.2.11.1 Présentation de la méthode ...................................................................................................... 41 3.2.11.2 Mise en œuvre de la méthode .................................................................................................. 41 4 CONCLUSION ............................................................................................................................................. 44 Meriam BELKOURA Master 2 ID Ksenia TITOVA 2 / 44 2007/2008
  • 3. 1 INTRODUCTION Le datamining est un processus qui permet de découvrir, dans de grosses bases de données consolidées, des informations jusque là inconnues. L’exploitation de ces nouvelles informations peut présenter un intérêt pour analyser et interpréter les comportements d’individus par exemple. Les résultats obtenus s’insérant dans un dispositif d’analyse globale permettent alors de dresser dans des plans stratégiques ou politiques les axes d’effort à respecter. Les techniques statistiques du datamining sont bien connues. Il s’agit notamment de la régression linéaire et logistique, de l’analyse multi variée, de l’analyse des composantes principales, des arbres décisionnels et des réseaux de neurones. Cependant, les approches traditionnelles de l’inférence statistique échouent avec les grosses bases de données, car en présence de milliers ou de million de cas et de centaines ou de milliers de variables, on trouvera forcément un niveau élevé de redondance parmi les variables, certaines relations seront fausses, et même les relations les plus faibles paraîtront statistiquement importantes dans tout test statistique. L’objectif est de construire un modèle dont le pouvoir de prédiction est satisfaisant. L’analyse de données symboliques prend actuellement de plus en plus d’importance, en témoigne le développement du logiciel spécifique SODAS. C’est ce logiciel (version 2.50) qui va être utilisé dans le cadre de ce projet afin d’extraire les données concentrées dans une base de donnée relationnelle de type ACCESS et d’y appliquer les méthodes d’analyse contenues dans SODAS. Notre base d’étude du projet concerne les individus susceptibles d’avoir la maladie cardio-vasculaire. Le présent rapport est constitué de deux parties principales. La première est une présentation générale du datamining et du logiciel SODAS. La deuxième partie décrit plus précisément le contexte de l’étude, et détaille en particulier les modalités d’extraction des variables analysées et la mise en œuvre des diverses méthodes d’analyse associées. Meriam BELKOURA Master 2 ID Ksenia TITOVA 3 / 44 2007/2008
  • 4. 2 LE DATA MINING MIS EN ŒUVRE SOUS SODAS 2.1 OBJECTIFS GENERAUX DU DATAMINING Les progrès de la technologie informatique dans le recueil et le transport de données font que dans tous les grands domaines de l’activité humaine, des données de toutes sortes (numériques, textuelles, graphiques…) peuvent maintenant être réunies et en quantité souvent très importante. Les systèmes d’interrogation des données, qui n’étaient autrefois réalisables que via des langages informatiques nécessitant l’intervention d’ingénieurs informaticiens de haut niveau, deviennent de plus en plus simples d’accès et d’utilisation. Résumer ces données à l’aide de concepts sous-jacents (une ville, un type de chômeur, un produit industriel, une catégorie de panne …), afin de mieux les appréhender et d’en extraire de nouvelles connaissances constitue une question cruciale. Ces concepts sont décrits par des données plus complexes que celles habituellement rencontrées en statistique. Ces données sont dites « symboliques », car elles expriment la variation interne inéluctable des concepts et sont structurées. Dans ce contexte, l’extension des méthodes de l’Analyse des Données Exploratoires et plus généralement, de la statistique multidimensionnelle à de telles données, pour en extraire des connaissances d’interprétation aisée, devient d’une importance grandissante. L’analyse porte sur des « atomes », ou « unités » de connaissances (les individus ou concepts munis de leur description) considérés au départ comme des entités séparées les unes des autres et qu’il s’agit d’analyser et d’organiser de façon automatique. Par rapport aux approches classiques, l’analyse des données symboliques présente les caractéristiques et ouvertures suivantes : Elle s’applique à des données plus complexes. En entrée elle part de données symboliques (variables à valeurs multiples, intervalle, histogramme, distribution de probabilité, de possibilité, capacité …) munies de règles et de taxonomies et peut fournir en sortie des connaissances nouvelles sous forme d’objets symboliques présentant les avantages qui sont développés supra : - Elle utilise des outils adaptés à la manipulation d’objets symboliques de généralisation et de spécialisation, d’ordre et de treillis, de calcul d’extension, d’intention et de mesures de ressemblances ou d’adéquation tenant compte des connaissances sous-jacentes basées sur les règles de taxonomies ; - Elle fournit des représentations graphiques exprimant, entre autres, la variation interne des descriptions symboliques. Par exemple, en analyse factorielle, un objet symbolique sera représenté par une zone (elle-même exprimable sous forme d’objet symbolique) et pas seulement par un point ; Les principaux avantages des objets symboliques peuvent se résumer comme suit : - Ils fournissent un résumé de la base, plus riche que les données agrégées habituelles car ils tiennent compte de la variation interne et des règles sous- Meriam BELKOURA Master 2 ID Ksenia TITOVA 4 / 44 2007/2008
  • 5. jacentes aux classes décrites, mais aussi des taxonomies fournies. Nous sommes donc loin des simples centres de gravité ; - Ils sont explicatifs, puisqu’ils s’expriment sous forme de propriétés des variables initiales ou de variables significatives obtenues (axes factoriels), donc en termes proches de l’utilisation ; - En utilisant leur partie descriptive, ils permettent de construire un nouveau tableau de données de plus haut niveau sur lequel une analyse de données symboliques de second niveau peut s’appliquer ; - Afin de modéliser des concepts, ils peuvent aisément exprimer des propriétés joignant des variables provenant de plusieurs tableaux associés à différentes populations. Par exemple, pour construire un objet symbolique associé à une ville, on peut utiliser des propriétés issues d’une relation décrivant les habitants de chaque ville et une autre relation décrivant les foyers de chaque ville. - Plutôt que de fusionner plusieurs bases pour étudier ensuite la base synthétique obtenue, il peut être plus avantageux d’extraire d’abord des objets symboliques de chaque base puis d’étudier l’ensemble des objets symboliques ainsi obtenus ; - Ils peuvent facilement être transformés sous forme de requête sur une Base de Données. Ceci a au moins les deux conséquences suivantes : Ils peuvent donc propager les concepts qu’ils représentent d’une base à une autre (par exemple, d’un pays à l’autre de la communauté européenne, EUROSTAT ayant fait un grand effort de normalisation des différents types d’enquête sociodémographiques). Alors qu’habituellement on pose des questions sous forme de requête à la base de données pour fournir des informations intéressant l’utilisateur, les objets symboliques formés à partir de la base par les outils de l’analyse des données symboliques permettent à l’inverse de définir des requêtes et donc de fournir des questions qui peuvent être pertinentes à l’utilisateurs. 2.2 PRESENTATION DU LOGICIEL SODAS (SYMBOLIC OFFICIAL DATA ANALYSIS SYSTEM) Il s’agit d’un logiciel prototype public apte à analyser des données symboliques. Le logiciel SODAS est issu d’un projet de EUROSTAT portant le même nom. Ce logiciel a pour vocation de fournir un cadre aux différentes avancées récentes et futures dans le domaine de l’analyse des données symboliques. L’idée générale de ce projet est de construire, à partir d’une base de données relationnelle, un tableau de données symboliques muni éventuellement de règles de taxonomies. Le but étant de décrire des concepts résumant un vaste ensemble de données et d’analyser ensuite ce tableau pour en extraire des connaissances par des méthodes d’analyse de données symboliques. Une analyse des données dans SODAS suit les étapes suivantes : Partir d’une base de données relationnelle (ORACLE, ACCESS…) ; Meriam BELKOURA Master 2 ID Ksenia TITOVA 5 / 44 2007/2008
  • 6. Définir ensuite un contexte par : - Des unités statistiques de premier niveau (habitants, familles, entreprises, accidents...) ; - Les variables qui les décrivent ; - Des concepts (tranche d’âge, villes, groupes socio-économiques…). Chaque unité statistique de premier niveau est associée à un concept (par exemple, chaque habitant est associé à sa ville). Ce contexte est défini par une requête sur la base de données relationnelle. Le tableau de données symboliques peut être construit, les nouvelles unités statistiques sont les concepts décrits par généralisation des propriétés des unités statistiques de premier niveau qui leur sont associées. Ainsi, chaque concept est décrit par des variables dont les valeurs peuvent être des histogrammes, des intervalles, des valeurs uniques (éventuellement munies de règles et de taxonomies) selon le type de variables et le choix de l’utilisateur. Il est alors possible de créer un fichier d’objets symboliques sur lequel une douzaine de méthodes d’analyse de données symboliques peut déjà s’appliquer (histogrammes des variables symboliques, classification automatique, analyse factorielle, analyse discriminante, visualisations graphiques…). Nota : le logiciel SODAS est téléchargeable à l’adresse suivante http:/www.ceremade.dauphine.fr/~touati/sodas-pagegarde.htm Meriam BELKOURA Master 2 ID Ksenia TITOVA 6 / 44 2007/2008
  • 7. 2.2.1 Schéma illustrant les étapes de mise en œuvre du logiciel SODAS Meriam BELKOURA Master 2 ID Ksenia TITOVA 7 / 44 2007/2008
  • 8. 2.2.2 Description sommaire du mode opératoire 2.2.2.1 Présentation de la page d’accueil La fenêtre principale de SODAS se compose de 3 éléments principaux : 1 3 2 1 – La barre d’outils qui comporte 5 menus. 2 – La fenêtre Methods de la fenêtre principale propose, par groupe, les différentes méthodes disponibles. 3 – La fenêtre Chaining de la fenêtre principale gère l’enchaînement des méthodes appliquées à la base choisie. 2.2.2.2 Généralités sur la méthode d’utilisation du logiciel Il est tout d’abord important de définir ce qu’est une filière dans le logiciel SODAS. Il s’agit d’une représentation graphique des calculs à effectuer qu’il est possible de visionner dans la fenêtre Chaining. En tête d’une filière, figure l’icône BASE représentant le fichier SODAS (.sds) sur lequel les calculs vont être effectués (la création du fichier .sds on verra par la suite dans l’exemple concret de notre étude). A la suite de cette icône BASE, viendront se placer les icônes des méthodes représentant les calculs souhaités. Après le paramétrage des méthodes et l’enregistrement de la filière, les résultats figureront sous forme d’icônes, à droite de chacune des méthodes. 2.2.2.3 Sélection d’une base d’étude Pour sélectionner la « base » support de l’analyse, il ne reste plus qu’à satisfaire les étapes suivantes : Meriam BELKOURA Master 2 ID Ksenia TITOVA 8 / 44 2007/2008
  • 9. - Double-cliquer sur l’icône BASE ; - Parcourir les dossiers et sélectionner le fichier .sds qui nous intéresse ; - Cliquer sur OK - La filière a été modifiée, et maintenant il est possible de lire le nom de la base associée à la filière ainsi que son chemin d’accès sur le disque dur. . 2.2.2.4 Choix des méthodes à appliquer Il faut maintenant enrichir la filière définie précédemment grâce à des méthodes (Methods) afin d’analyser les données de la base. Pour cela il est possible d’utiliser des filières prédéfinies (Model/Predefined chaining) ou bien composer soi-même une filière en enchaînant des méthodes issues de la fenêtre Methods. Pour insérer de nouvelles méthodes, il suffit de choisir le menu Method et de cliquer sur Insert Method. Un carré vide apparaît alors sous l’icône BASE ; il faut alors sélectionner la méthode à appliquer, dans la fenêtre Methods et la faire glisser jusqu’à l’emplacement vide. Les méthodes constituant maintenant la filière sont affichées à la suite de l’icône BASE, selon l’ordre défini par l’utilisateur, dans lequel elles vont s’enchaîner. Chaque méthode est représentée par une icône à gauche de laquelle se trouve son nom ainsi qu’une description sommaire. La couleur de l’icône de la méthode renseigne sur son état : Gris : la méthode n’est pas encore paramétrée ; Rouge : la méthode est paramétrée. Par défaut, les méthodes qui viennent d’être insérées sont grisées. Chaque méthode est numérotée dans la filière : ce numéro apparaît dans une petite boîte située à gauche de la méthode. Meriam BELKOURA Master 2 ID Ksenia TITOVA 9 / 44 2007/2008
  • 10. La couleur de cette boîte indique le statut de la méthode : Gris : la méthode ne peut être exécutées car elle n’est pas paramétrée Vert : la méthode est exécutable car elle est paramétrée Rouge : la méthode est désactivée. Elle est exécutable mais l’utilisateur en interdit l’exécution (menu Methods puis Desactive method). Ensuite, il faut paramétrer la méthode. Il suffit de double-cliquer sur l’icône de la méthode. Alors, une fenêtre structurée en fiches à onglets s’ouvre, elle regroupe l’ensemble des différents paramètres de la méthode. Après le paramétrage des diverses méthodes, l’affichage de la filière a changé. Toutes les méthodes sont maintenant exécutables, car paramétrées (les icônes sont rouges). Le paramétrage des toutes les méthodes de la filière étant terminé, il est possible de l’exécuter. Par contre, toute exécution d’une filière doit être obligatoirement précédée de sa sauvegarde (menu Chaining puis Save chaining as et saisie d’un nom dont l’extension est .fil). Une fois cette opération effectuée, la filière est exécutée en cliquant sur le sous-menu Run chaining du menu Chaining. Filière avant exécution des méthodes Filière après exécution des méthodes Meriam BELKOURA Master 2 ID Ksenia TITOVA 10 / 44 2007/2008
  • 11. 3 ANALYSE ET ETUDE STATISTIQE AVEC SODAS 3.1 PRESENTATION DE L’ETUDE 3.1.1.1 Contexte de l’étude et présentation des données La base de données relationnelle sur laquelle nous avons décidé de travailler à été prise d’un forum de discussion : http://www.developpez.net/forums/showthread.php?t=483011 qui propose des jeux de données datamining. Notre but était de choisir des données intéressantes et faciles à interpréter. La base regroupe des données sur 270 individus ayant ou susceptible d’avoir des problèmes cardiaques. Cette étude cardiologique se base sue les paramètres suivant : L’âge, le sexe, l’intensité de la douleur cardiaque, la pression artérielle, la mesure du cholestérol dans le sang, l’intensité du sucre dans le sang, l’électrocardiogramme, la détection de l’angine de poitrine, la mesure de la dépression nerveuse, le nombre de pics anormaux dans l’électrocardiogramme et l’état vaisseaux cardiaques. Nous avons donc les indicateurs suivants. La base access initiale. 3.1.2 Les objectifs de l’étude Le but de notre étude est d’analyser les facteurs de santé responsables de causer des problèmes cardiaques aux individus concernés. Nos individus, c’est-à-dire nos unités statistiques de premier niveau, sont donc constitués par les numéros identificateurs et ils sont décrits par leur ‘age’, ‘sexe’, Meriam BELKOURA Master 2 ID Ksenia TITOVA 11 / 44 2007/2008
  • 12. ‘type_douleur’, ‘pression’,‘cholester’,‘sucre’,‘electro’,‘angine’,’depression’,’pic’ et ‘vaisseau’. Ces variables de description ont étés expliqués au dessus. Nos concepts apparaissent de façon presque naturelle car le risque de présenter des problèmes cardiaques et des problèmes de santé favorisant cela dépend de l’âge des personnes d’où nos concepts sont des tranches d’âges. Il s’agit donc de regrouper les individus dont l’âge est inclus dans la tranche d’âge. Nous avons réalisé la requête suivante sur notre base access initiale afin de créer notre concept d’étude et nous avons créé une table qui nous sert à définir les tranches d’âges et les bornes inférieure et supérieures de chaque tranche d’âge. La table Tranche_age. La requête « Req_concept » permettant de créer notre contexte d’étude à partir de notre table « Donnees » initiale est : SELECT Donnees.ID, Tranche_age.Tranche, Donnees.age, Donnees.sexe, Donnees.type_douleur, Donnees.pression, Donnees.cholester, Donnees.sucre, Donnees.electro, Donnees.angine, Donnees.depression, Donnees.pic, Donnees.vaisseau FROM Donnees, Tranche_age WHERE (((Donnees.age) <= [tranche_age].[age_max] And (Donnees.age)>=[tranche_age].[age_min])); Cette requête renvoie les individus du premier ordre et leur description. Elle permet ainsi de ressortir de la base les individus, les concepts puis les caractéristiques des individus sous la forme suivante : Meriam BELKOURA Master 2 ID Ksenia TITOVA 12 / 44 2007/2008
  • 13. Au travers de DB2SO, on va pouvoir transformer les tuples ainsi généré par la requête en tableau symbolique. On passe ainsi au niveau du dessus en matière d’information puisque SODAS présente une description des concepts en agrégeant les caractéristiques des individus (ordinal, nominal) en champ symboliques (intervalles, probabiliste...) Pour la méthode TREE, nous avons besoin d’une variable nominale par concept. Nous créons donc cette variable de manière artificielle, nommée « MesurePic » dans la table ‘AddVar, la nomination ‘MesurePic’= normal est attribué au groupe d’individus d’une tranche d’âge donc la moyenne des pics est inférieure ou égale à 1.5 et anormal sinon. C’est la requête Req_singleOK qui nous permet de calculer la moyenne de pics par tranche d’age. La requête qui nous permet de connaitre la moyenne des pics par tranche d’âge est la suivante : SELECT Req_concept.Tranche, ROUND (Avg(Req_concept.Pic),2) AS MoyenneDePic FROM Req_concept GROUP BY Req_concept.Tranche; la variable nominale ‘MesurePic’ par concept 3.2 EXPLICATION, ANALYSE ET MISE EN ŒUVRE DES METHODES DE SODAS 3.2.1 DB2SO : extraction de données symboliques de la base de données relationnelle 3.2.1.1 Présentations du module DB2SO est le module du logiciel SODAS qui permet à l’utilisateur de créer un ensemble de concepts à partir de données stockées dans une base de données relationnelles. On présuppose bien évidemment qu’une série d’individus est stockée dans la base de données et que ces individus sont répartis entre plusieurs groupes d’où la nécessité de la requête « Req_concept » qui répartit les individus entre plusieurs groupe selon leur âge. Ainsi, DB2SO va pouvoir construire un concept pour chaque groupe d’individus. Dans ce processus, les variables mères / filles ainsi, les taxonomies et l’ajout de variables supplémentaires pourront être associées avec les concepts créés. Meriam BELKOURA Master 2 ID Ksenia TITOVA 13 / 44 2007/2008
  • 14. 3.2.1.2 Mise en œuvre de DB2SO Connexion à la base de données acces Le système de liaisons ODBC de SODAS lui permet d’accéder directement aux bases de données et en particulier aux bases Microsoft Access. Pour importer notre base, il faut sélectionner la commande Importation(DB2SO) dans le sous menu Import du menu SODAS file. Un premier écran d’importation apparaît alors dans lequel il faut sélectionner le menu File puis New. L’écran suivant nous invite à sélectionner une source de données machine. Dans notre cas, il s’agit d’une base Microsoft Access. Notre projet a pour objet l’étude d’une base de données Microsoft Access. Ce SGBD inclut le driver ODBC permettant l’accès de DB2SO à la base de données relationnelle. Meriam BELKOURA Master 2 ID Ksenia TITOVA 14 / 44 2007/2008
  • 15. Voici l’invite qui va nous permettre de sélectionner notre base de données access. Une fois, le bon driver choisi, il faut indiquer le fichier .mdb. Pour ce faire, nous cliquons sur OK. On rechercher la base de travail et on la sélectionner. Lorsque ces étapes ont étés exécutés, nous allons procéder à l’extraction des individus. Pour cela, il faut sélectionner la requête SQL préalablement stockée dans la base « BD_heart1.mdb » dans l’écran qui se présente alors à nous. Il s’agit, en effet de la requête « Req_concept » présentée précédemment. Nous avons vu que le résultat de cette requête nous envoie une table sous la forme suivante : Individus|concepts|description des individus. Plus précisément : 1ère colonne = individus 2ème colonne = concepts 3ème colonne et suivante = description des individus Meriam BELKOURA Master 2 ID Ksenia TITOVA 15 / 44 2007/2008
  • 16. Donc « Req_concept » retourne une ligne pour chaque individu : chaque ligne ayant la structure au dessus : identifiant de l’individu, groupe auquel appartient l’individu et ensuite les différents attributs. Après avoir cliqué sur OK, la requête est envoyée à la base de données, les individus sont alors extraits de la base de données, ils sont stockés en mémoire et un tableau des concepts est généré. Nous avons donc 6 variables qualitatives et 5 variables quantitatives et nos 269 individus ont étés répartis suivants 10 groupes = concepts différents. Le menu Modify permet à l’utilisateur de modifier les concepts. Nous avons, pour le besoin de certaines méthodes, comme la méthode TREE d’ajouter une variable singled-valued aux concepts. Meriam BELKOURA Master 2 ID Ksenia TITOVA 16 / 44 2007/2008
  • 17. Dans le cadre de ce travail, nous n’avons pas eu besoin d’ajouter des taxonomies, c'est-à-dire des variables mère/filles en indiquant des règles tel que par exemple, une variable n’ai de sens que si une autre variable a une certaine valeur. Après avoir sélectionné « Add single-valued variable », une fenêtre nous invite de sélectionner la requête sql préalablement définie qui associe à chaque concept une variable nominale. Il s’agit de la requête « AddVar » qui retourne en première colonne les concepts et en deuxième colonne la variable « MesurePic » dont l’espace des valeur est {normal, anormal}. Après avoir clique sur OK, nous avons ajouté une unique variable : MesurePic. A ce stade, nous pouvons sauvegarder notre travail en choisissant File/Save as : le fichier sera alors enregistré avec l’extension .gaj. Ainsi l’utilisateur pourra retrouver son travail plus tard en cliquant sur File/Open puis en sélectionnant le fichier voulu. Meriam BELKOURA Master 2 ID Ksenia TITOVA 17 / 44 2007/2008
  • 18. Les fichiers SODAS utilisés en entrée des méthodes de SODAS sont des fichiers avec l’extension .SDS. Pour créer de tels fichiers. Il faut utiliser le menu File/Export. Meriam BELKOURA Master 2 ID Ksenia TITOVA 18 / 44 2007/2008
  • 19. Après avoir cliqué sur « select », nous choisissons ou sauvegardons notre fichier .sds et nom donné apparait dans Title. Bien que nous n’ayons pas ajouté de taxonomie, ni de variables multimodales que nous n’en avions pas besoin, nous avons compris le fonctionnement du module DB2SO, sa grande utilité dans la création des objets symboliques et toutes les possibilités de manipulation possibles grâce à cette mise en œuvre. 3.2.2 VIEW (Symbolic Objects Viewer) 3.2.2.1 Présentation de la méthode Cette méthode fait partie de la statistique descriptive, les techniques qui visent à mettre en évidence des informations présentes mais cachées par le volume des données La méthode View utilise l’éditeur d’objet symbolique VSTAR permettant visualiser, dans un tableau au premier temps, tous les objets du fichier base .sds ou juste une partie d’eux. Et par la suite de présenter ses données sous la forme d’étoile en 2 ou 3 dimensions (en cliquant sur les boutons correspondants de la barre d’outils). Le bouton SOL renvoie la description des objets symboliques sélectionnés dans le tableau. Meriam BELKOURA Master 2 ID Ksenia TITOVA 19 / 44 2007/2008
  • 20. 3.2.2.2 Mise en œuvre de la méthode Nous avons choisi de faire l’analyse sur plusieurs concepts, donc sur les différentes tranches d’âge afin de voir l’évolution des caractéristiques déterminant le risque d’une maladie cardiovasculaire. Présentons dans l’exemple le premier concept comme la partie la plus jeune de notre population (30-34 ans) et le deuxième en choisissant la population âgée de 10 ans de plus (40-44 ans). Tout d’abord les résultats sont présentés sous la forme d’une étoile en 2 dimensions. Les variables qualitatives sont représentées par des points de taille proportionnelle au nombre d’occurrences rencontrées dans l’étude pour une valeur donnée. Le graphique relie entre eux les points de plus grosses tailles (présentant donc le plus grand nombre d’occurrences). Meriam BELKOURA Master 2 ID Ksenia TITOVA 20 / 44 2007/2008
  • 21. Après avoir étudié le graphique précédant, on remarque que la population concernée est en bonne santé. C'est-à-dire que les valeurs des variables importantes sont bonnes : le taux de cholestérol, qui est compris entre 182.0 et 210.0, la pression qui est stable à 118.0. La dépression est notée sur une échelle minimale de 0.0 à 0.7. On remarque aussi que le pic de la tension artériel n’est pas observé. En ce qui concerne le type de douleur, cette variable est partagé entre A et B. Regardons maintenant le changement des valeurs des ces variables chez la population âgée de 10 ans de plus. Pour la population de 40-45 ans, on remarque que la situation est changée. Le taux de cholestérol est monté de 210 à 341.0, la pression est aussi en augmentation, le pic de la tension artériel surcroît jusqu’à 3.0. En ce qui concerne le type de douleur les valeurs changent aussi. Dans l’histogramme suivant on peut voir la répartition de la population concernée dans chaque type de douleur : Pour voir l’évolution des paramètres en fonction de l’âge nous pouvons superposer les deux graphiques précédents. Meriam BELKOURA Master 2 ID Ksenia TITOVA 21 / 44 2007/2008
  • 22. Zoom Star Superposition : Les informations précédentes on peut compléter par l’affichage de ses données en 3 dimensions : Meriam BELKOURA Master 2 ID Ksenia TITOVA 22 / 44 2007/2008
  • 23. 3.2.3 STAT 3.2.3.1 Présentation de la méthode La méthode stat permet de représenter graphiquement l’ensemble des valeurs que prend une variable donnée pour l’ensemble des concepts et d’en visualiser la répartition. STAT permet d’appliquer des méthodes, habituellement utilisées pour des données conventionnelles, à des objets symboliques représentés par leur description. Ces méthodes dépendent du type des variables présentes dans la base SODAS avec laquelle nous travaillons : les fréquences relatives pour les variables multi nominales, les fréquences relatives pour les variables intervalles, les capacités et min/max/mean pour les variables multi nominales probabilistes et biplot pour les variables intervalles. Le format de sortie des données sera, suivant le choix de l’utilisateur, un listing ou bien un graphique. Les graphiques peuvent être modifiés et personnalisés (figures, formes, couleurs, texte, commentaires ...) par l’utilisateur et ils peuvent également être copiés et sauvegardés. Les fréquences relatives pour les variables multi-nominales : Dans cette méthode, nous étudions la fréquence relative des différentes modalités de la variable multi nominale en prenant en compte les éventuelles règles relatives à la base sur laquelle nous travaillons. Le graphique associé à la distribution de la variable pourra, suivant le choix de l’utilisateur, être soit un diagramme bâton, soit un diagramme en camembert. Les fréquences relatives pour les variables intervalles : Meriam BELKOURA Master 2 ID Ksenia TITOVA 23 / 44 2007/2008
  • 24. Cette méthode a besoin, en entrée, de 2 paramètres : - une variable intervalle I - un nombre de classes k Nous pouvons construire un histogramme pour la variable I sur un intervalle [a,b] découpé en k classes et où a représente la borne inférieure de I et b sa borne supérieure. La méthode va permettre le calcul de la fréquence relative associée à la classe Ck tout en tenant compte du recouvrement de cette classe Ck par les valeurs intervalles de I et ceci pour tous les objets symboliques. Les capacités et min/max/mean pour les variables multi nominales probabilistes : La méthode permet de construire un histogramme des capacités des différentes modalités de la variable considérée. Dans l’histogramme capacité, la capacité d’une modalité est représentée par l’union des différentes capacités. En ce qui concerne le graphique min/max/mean, il associe un diagramme représentant l’étendue et la moyenne de la probabilité de chaque modalité. Biplot pour les variables intervalles : Ce graphique représente un objet symbolique par un rectangle dans le plan de 2 variables sélectionnées par l’utilisateur. La dimension de chaque côté du rectangle correspond à l’étendue de la variation de l’objet symbolique relativement à la variable de l’axe considéré. 3.2.3.2 Mise en œuvre de la méthode Les fréquences relatives pour les variables intervalles Nous étudions la variable dépression et nous découpons notre intervalle en 10 classes et nous constatons qu’ils y’a moins d’individus qui ont une dépression supérieure à 3. Meriam BELKOURA Master 2 ID Ksenia TITOVA 24 / 44 2007/2008
  • 25. A partir de l’histogramme suivant, on pourrait deviner qu’un cholestérol supérieur à 300 est plutôt mauvais et pourrait causer quelques problèmes cardiaques. Les capacités et min/max/mean pour les variables multi nominales probabilistes On remarque que plus l’intensité de la douleur est élevée, plus la moyenne de la probabilité est faible sans qu’il y’ ai une très grande différence entre les 4 types de douleur. Meriam BELKOURA Master 2 ID Ksenia TITOVA 25 / 44 2007/2008
  • 26. On remarque que la plus part des individus ont des vaisseaux sanguins dans un bon état, c'est-à-dire A. Biplot pour les variables intervalles Etant donné que nous étudions 10 tranches d’âges et que les résultats de l’application de cette méthode se superposent, nous allons faire une étude de la pression en fonction du cholestérol sur les tranches d’âge supérieur à 60 ans. Meriam BELKOURA Master 2 ID Ksenia TITOVA 26 / 44 2007/2008
  • 27. Parmi les individus entre 65 et 69 ans, il y a beaucoup de disparités et leurs caractéristiques englobent toutes les autres tranches d’âges. Comme résultat inattendu, nous remarquons que les personnes entre 75-79 ans ont un cholestérol faible et une pression moyenne et se retrouvent inclus dans les 70-74 ans. Nous verrons plus tard avec la méthode SYKSOM que bien que les 75-79 ans et les 70-74 ans soient proches dans l’âge, ils ne sont pas voisins et ne sont pas regroupés dans la même classe. Même la méthode DIV le montre car les deux tranches d’âges ne se retrouvent pas dans la même classe. 3.2.4 DIV (Divisive Clustering on Symbolic Objects) 3.2.4.1 Présentations de la méthode DIV est une méthode de classification hiérarchique qui part de tous les objets symboliques réunis dans une seule classe et procède ensuite par division successive de chaque classe selon un critère d’inertie qui perme d’effectuer le découpage en classes. A chaque étape, une classe est divisée en deux classes suivant une question binaire ; ceci permet d’obtenir le meilleur partitionnement en deux classes, conformément à l’extension du critère d’inertie. L’algorithme s’arrête après avoir effectuer k-1 division ; k étant le nombre de classes donné, en entrée, à la méthode par l’utilisateur. Les paramètres importants à saisir sont : les variables qui seront utilisées pour calculer la matrice de dissimilarité et l’extension du critère d’inertie pour définir l’ensemble des questions binaires utiles pour effectuer le découpage. 3.2.4.2 Mise en œuvre de la méthode Au moment de choisir nos variables, il faut être attentif à deux choses principales : - le domaine de définition des variables doit être ordonné car dans le cas contraire, les résultats obtenus seront totalement faux - il n’est pas possible de mélanger des variables dont le domaine de définition est continu avec des variables dont le domaine de définition est discret. Dans la fenêtre de définition des paramètres de la méthode DIV du logiciel SODAS, l’utilisateur doit choisir entre des variables qualitatives et des variables continues. Trois paramètres doivent également être définis : - la dissimilarité entre 2 objets peut être normalisée ou non. Elle peut être normalisée en choisissant l’inverse de la dispersion ou bien l’inverse du maximum de la déviation. La dispersion des variables est, ici, une extension aux objets symboliques de la notion de variance - le nombre k de classes de la dernière partition. La division s’arrêtera après k-1 itérations et la méthode DIV aura calculé des partitions de la classe 2 à la classe k - la méthode DIV offre également la possibilité de créer un fichier partition ; il s’agit d’un fichier texte contenant une matrice (aij) dans laquelle, chaque ligne i∈[1,n] correspond à un objet et chaque rangée j∈[2,k-1] correspond à une partition en j classes. Ainsi, (aij) signifie que l’objet j appartient à la classe k, dans la partition en j classes. Meriam BELKOURA Master 2 ID Ksenia TITOVA 27 / 44 2007/2008
  • 28. Une fois ces différents paramètres définis, nous pouvons exécuter la méthode DIV. Nous Obtenons, en sortie, un listing contenant les informations suivantes : - pour chaque partition de 2 à k classes, une liste des objets contenus dans chaque classe ainsi que l’inertie expliquée relative à la partition - l’arbre de classification. Nous avons décidé d’effectuer une partition en 5 classes. Nous exécutons DIV sur l’ensemble des variables nominales(variables qualitatives) suivantes : Type_douleur Sucre Electro Vaisseau Les classes obtenues : PARTITION IN 5 CLUSTERS : -------------------------: Cluster 1 (n=1) : 75-79 ans Cluster 2 (n=4) : 70-74 ans 65-69 ans 55-59 ans 45-49 ans Cluster 3 (n=1) : 30-34 ans Cluster 4 (n=3) : 50-54 ans 40-44 ans 35-39 ans Cluster 5 (n=1) : 60-64 ans Explicated inertia : 83.757166 Le pourcentage de l’inertie est élevé. Les individus entre 75 et 79 ans, 30 et 34 ans et 60 et 64 ans se distinguent des autres classes et sont tous seul dans leur classe. Par contre les autres montrent un groupement de certaines tranches d’âges sur les critères choisis. Plus particulièrement les 70-74 ans 65-69 ans 55-59 ans 45-49 ans qui se retrouvent dans la même classe et les 50-54 ans 40-44 ans 35-39 ans se retrouvent ensemble. Meriam BELKOURA Master 2 ID Ksenia TITOVA 28 / 44 2007/2008
  • 29. L’arbre obtenu en résultat : - the number noted at each node indicates the order of the division - Ng <-> yes and Nd <-> no +---- Classe 1 (Ng=1) ! !----1- [vaisseau = 0001] ! ! +---- Classe 2 (Ng=4) ! ! ! !---4- [vaisseau = 0010] ! ! ! ! ! +---- Classe 5 (Nd=1) ! ! ! !----3- [electro = 001] ! ! ! ! ! +---- Classe 4 (Nd=3) ! ! !----2- [type_douleur = 0010] ! +---- Classe 3 (Nd=1) On remarque que ce qui permet de distinguer la classe 3 et les classe 4, 5, 2 c’est le type de la douleur, entre la classe 4 et les classes 5 et 2 c’est l’électrocardiogramme, entre la classe 5 et 2 se sont les vaisseaux, et entre la classe 1 et toutes les autres c’est encore une fois l’état des vaisseaux. 3.2.5 TREE (Descision Tree) 3.2.5.1 Présentation de la méthode La méthode Tree nous propose un algorithme par agrandissement d’arbres, appliqué à des données imprécises décrites par des concepts probabilistes. Dans ce contexte, la procédure de partage récursif peut être vue comme une recherche itérative d’un ensemble de concepts qui correspond le mieux aux données initiales. A chaque étape, le découpage optimal est obtenu en utilisant une mesure générale, donnée en paramètre. En sortie, nous obtenons une nouvelle liste d’objets symboliques qui permet éventuellement d’assigner de nouveaux objets à une classe. 3.2.5.2 Mise en œuvre de la méthode La méthode TREE va nous permettre de définir un ensemble organisé des concepts grâce à une procédure récursive de partitionnement. Meriam BELKOURA Master 2 ID Ksenia TITOVA 29 / 44 2007/2008
  • 30. Attention : Les variables de partitionnement doivent avoir été crée gâche à Add-signe- valued variable dans le module DB2SO. Les variables explicatives ne peuvent être mixtes qualitatives et quantitatives à la fois. Il faut faire un choix entre les deux types de variables. Nous choisissons comme variable de partitionnement : MesurePic. TREE avec des variables explicatives de type quantitatives Les variables explicatives choisies sont : - Pression - Cholester - depression - Pic Le nombre de nœuds choisi : 5 L’arbre de décision obtenu se lit de la manière suivante : Paramètres de départ : Learning Set : 10 Number of variables : 4 Max. number of nodes: 9 Soft Assign : ( 1 ) FUZZY Criterion coding : ( 3 ) LOG-LIKELIHOOD Min. number of object by node : 5 Min. size of no-majority classes : 2 Min. size of descendant nodes : 1 Frequency of test set : 0.00 L’arbre obtenu : Meriam BELKOURA Master 2 ID Ksenia TITOVA 30 / 44 2007/2008
  • 31. Interprétation de l’arbre : On relève que ce qui peut distinguer entre une mesure de pic normal et une mesure de pic anormale est la dépression. Supposons qu’on veuille classer un nouvel individu dans la classe normal ou anormal des « MesurePic » juste en regardant sa pression, son cholesterol, sa dépression et son pic. Dans un premier temps, l’arbre nous dit que pour trancher, nous n’avons besoin que de la dépression. Si cette dernière est supérieure à 1.10 alors l’individu est dans la classe normale, sinon il est dans la classe anormale. TREE avec des variables explicatives de type qualitatives Variables explicatives : Sexe Type_douleur Sucre Electro Angine Vaisseau L’arbre obtenu avec des variables explicatives de type qualitatives. Interprétation de l’arbre: Si pour un individu donné l’état des vaisseaux est différent de 1100… alors l’individu est mis dans la catégorie anormal (=la classe) en ce qui concerne la mesure de son pic, sinon on regarde le type de la douleur de ce individu, s’il est différent de 1100 alors l’individu est placé dans la classe normal, sinon nous regardons l’électrocardiogramme de cet individu, s’il est différent de 010 alors l’individu et placé dans la classe normal, sinon il sera classé dans la classe anormal. Meriam BELKOURA Master 2 ID Ksenia TITOVA 31 / 44 2007/2008
  • 32. 3.2.6 PCM (Principal Component Analysis) 3.2.6.1 Présentation de la méthode La méthode PCM correspond à l’analyse en composante principale classique. Mais au lieu d’obtenir une représentation par points sur un plan factoriel, PCM propose une visualisation de chaque concept par des rectangles. L’objectif est d’étudier l’intensité des liaisons entre les variables et de repérer les concepts présentant des caractéristiques voisines. La PCM est donc une méthode factorielle de réduction du nombre de caractères permettant des représentations géométriques des individus et des variables. La réduction se fait par la construction de nouveaux caractères synthétiques obtenus en combinant les variables initiales au moyen des « facteurs ». Les éléments de la matrice de données sont des intervalles et chacun décrit la variation de la variable observée (minimum et maximum). La méthode n’accepte que les variables continues. L’exécution de la méthode nous donne deux résultats : 1 - Le listing qui contient : - La description de la matrice de données par une table : chaque ligne correspond à une classe. - Les valeurs propres, le pourcentage d’inertie et les premières composantes principales. Chaque classe est caractérisée d’abord par deux composantes principales et visualisée dans un plan factoriel par un rectangle. - Les corrélations entre chaque variable descriptive et les composantes principales. 2 - Une représentation graphique des objets symbolique difficile à interpréter où chaque objet est représenté par un rectangle. 3.2.6.2 Mise en œuvre de la méthode La méthode accepte seulement les variables continues, en entrée. Nous avons choisi d’analyser chaque tranche d’âge suivant les variables continues suivantes: pression cholester depression pic Les intervalles des variables descriptives sont les suivants : - 94 à 200 pour la pression - 126 à 14 564 pour le cholester - 0 à 6.2 pour la depression - 1 à 3 pour le pic Nous obtenons alors la matrice de données ci-dessous représentant l’ensemble des intervalles des variables pour chacun des concepts ainsi que la matrice de corrélations entre nos 4 variables. pression cholester depression pic Meriam BELKOURA Master 2 ID Ksenia TITOVA 32 / 44 2007/2008
  • 33. "70-74 ans" [110.00 , 160.00] [149.00 , 322.00] [0.00 , 2.90] [1.00 , 3.00] "65-69 ans" [100.00 , 180.00] [177.00 , 564.00] [0.00 , 2.80] [1.00 , 3.00] "55-59 ans" [100.00 , 200.00] [126.00 , 409.00] [0.00 , 5.60] [1.00 , 3.00] "60-64 ans" [102.00 , 180.00] [164.00 , 407.00] [0.00 , 6.20] [1.00 , 3.00] "50-54 ans" [94.00 , 192.00] [175.00 , 325.00] [0.00 , 4.20] [1.00 , 3.00] "40-44 ans" [102.00 , 152.00] [141.00 , 341.00] [0.00 , 3.00] [1.00 , 3.00] "45-49 ans" [101.00 , 150.00] [149.00 , 311.00] [0.00 , 3.60] [1.00 , 3.00] "35-39 ans" [94.00 , 140.00] [183.00 , 321.00] [0.00 , 3.80] [1.00 , 3.00] "75-79 ans" [125.00 , 140.00] [197.00 , 304.00] [0.00 , 1.10] [1.00 , 2.00] "30-34 ans" [118.00 , 118.00] [182.00 , 210.00] [0.00 , 0.70] [1.00 , 1.00] Correlations Matrix : pression 1.0000 0.0619 0.0708 0.0462 cholester 0.0619 1.0000 0.0469 0.0600 depression 0.0708 0.0469 1.0000 0.0970 pic 0.0462 0.0600 0.0970 1.0000 Les corrélations entre nos 4 variables sont plutôt faibles. Si nous regardons la plus grande corrélation, nous soupçonnions une forte liaison entre le nombre de pic et la dépression, ce résultat nous allons le retrouver dans la méthode TREE. 3.2.7 SCLUST (Symbolic Dynamic Clustering) 3.2.7.1 Présentations de la méthode La méthode SCLUST peut être utilisée pour partitionner un ensemble de n éléments symboliques en nombre m de classes homogènes. Ce nombre de classes peut être fixé par l’utilisateur. En entrée de cette méthode c’est à l’utilisateur de choisir les paramètres qui selon lui seront les plus parlant pour regrouper les données en classes. Cette méthode construit les partitions de l’ensemble des données symboliques selon la combinaison des mesures approximatives et des prototypes. SCLUST permet de choisir les différents types de dissimilarité et de prototypes. Si les variables choisies ont des types différents il existe la possibilité de normaliser la distance entre l’objet et le prototype. 3.2.7.2 Mise en œuvre de la méthode On applique cette méthode sur notre base de données symboliques, en choisissant les 5 variables telle que age, type de douleur, pression, cholestérol, dépression. Meriam BELKOURA Master 2 ID Ksenia TITOVA 33 / 44 2007/2008
  • 34. Les données suivantes donnent les information sur les classes crées par cette méthodes : Learning Set : 10 Number of variables : 5 Number of iterations : 20 Number of classes : 3 Initialisation : 0 random prototypes Number of runs : 10 Quantitative distance: 0 Hausdorff Distance Boolean distance : 0 De Carvalho Distance Modal distance : 0 De Carvalho Distance Normalize : 0 Yes NBCLUST procedure : 0 Yes STABCLUST procedure : 0 Yes Initial Criterion : 976.288774 GROUP OF SELECTED VARIABLES : ============================= ( Pos ) Tj Tj Weight Name Type initial used ( 1 ) 12.91 20.00 0.079365 age INTERVAL ( 3 ) 0.14 20.00 7.200591 type_douleur MODAL 4 Modalities ( 4 ) 21.71 20.00 0.047170 pression INTERVAL ( 5 ) 63.92 20.00 0.016026 cholester INTERVAL ( 9 ) 1.32 20.00 0.775194 depression INTERVAL LIST OF SYMBOLIC OBJECTS IN THE SET : ===================================== 30-34 ans 35-39 ans 40-44 ans 45-49 ans 50-54 ans 55-59 ans 60-64 ans 65-69 ans 70-74 ans 75-79 ans EDITION OPTIMAL PARTITION ========================= Classe : 1 Cardinal : 1 =============================== ( 0) 30-34 ans [-1.$] Classe : 2 Cardinal : 6 =============================== ( 1) 35-39 ans [1.1] ( 2) 40-44 ans [0.3] ( 3) 45-49 ans [0.3] ( 4) 50-54 ans [1.1] ( 8) 70-74 ans [1.0] ( 9) 75-79 ans [2.2] Classe : 3 Cardinal : 3 =============================== ( 5) 55-59 ans [0.7] ( 6) 60-64 ans [0.3] ( 7) 65-69 ans [2.0] Meriam BELKOURA Master 2 ID Ksenia TITOVA 34 / 44 2007/2008
  • 35. L’image suivante nous présente les classes créées selon les axes age et cholestérol : 3.2.8 SYKSOM (Kohonen Self-Organizing Map for Symbolic Data) 3.2.8.1 Présentations de la méthode Cette méthode permet d’appliquer des cartes de Kohonen à des ensembles de données quantitatives classiques et symboliques de type intervalle dans le but de répartir ces données dans des partitions homogènes. Le but est de représenter des centres de classes dans une grille de tél manière que deux classes qui se ressemblent aient leurs centres proches dans la grille. Voici le principe de construction de la grille : K centres sont positionnés au hasard sur la grille lorsqu’il s’agit de définir k classes. Les k points sont ensuite positionnés dans l’espace des données ce qui donnera des centres positionnés n’importe où dans l’espace. Ensuite, on affecte chaque individu à l’un des centres avec lequel il est le plus proche (on obtient ainsi des classes Ci), puis on modifie la position des k centres initiaux (précédents) de façon à les placer le plus proche du centre de leurs classes puis on rapproche les autres centres de ce centre d’autant plus qu’ils sont proches de lui dans la grille initiale. 3.2.8.2 Mise en œuvre de la méthode Les paramètres d’entrée Voici les paramètres d’entrée qui nous ont parus être les plus importants. La méthode de partitionnement choisie est : stochastic approximation number of lines : nombre les lignes horizontaux dans la grille precision threshold : seuil de précision avec laquelle les données d’intervalle (individus) sont placés dans les partitions. Eps : après avoir assigné une donnée d’intervalle dans une partition, le centre de cette partition est remis à jour ainsi que les centres des partitions voisines dans la grille. Ainsi si eps=1, cela signifie que seuls les voisins directs seront remis à jour. Meriam BELKOURA Master 2 ID Ksenia TITOVA 35 / 44 2007/2008
  • 36. Kernel : permet de choisir avec quelle distance « le seuil de précision » est calculé. Learning factor : facteur d’apprentissage. Interprétation de la carte de Kohonen Dans le fichier résultat : METHOD=SYKSOM Version 12/20/03 Aachen 2003 BASE = C:Documents and SettingsAdministrateurBureauprojet_dataheart21.sds Number of columns a = 5 Number of rows b = 5 Number of Symbolic Objects = 10 Number of variables = 5 Number of clusters (neurons) = 25 Dimension of vectors = 5 Exponential kernel Distance : Vertex-type distance Voici la liste des clusters qui contiennent des objets symboliques, c’est à dire les clusters qui ne sont pas vides. Cluster 2 ( 1x2) Size 1 List of objects: ( 10) 30-34 ans Cluster 6 ( 2x1) Size 1 List of objects: ( 9) 75-79 ans Cluster 10 ( 2x5) Size 1 List of objects: ( 4) 60-64 ans Cluster 14 ( 3x4) Size 1 List of objects: ( 3) 55-59 ans Cluster 15 ( 3x5) Size 1 List of objects: ( 2) 65-69 ans Cluster 17 ( 4x2) Size 3 List of objects: ( 6) 40-44 ans ( 7) 45-49 ans ( 8) 35-39 ans Cluster 22 ( 5x2) Size 1 List of objects: ( 1) 70-74 ans Cluster 23 ( 5x3) Size 1 List of objects: ( 5) 50-54 ans Nous avons 10 objets symboliques qui seront placé dans 25 cellules (neurones ou partitions), car nous avons une gille de taille 5*5. Meriam BELKOURA Master 2 ID Ksenia TITOVA 36 / 44 2007/2008
  • 37. Les cercles représentent le nombre d’individus dans la classe (la partition) Les rectangles représentent le volume, l’étendue de la partition. Nous remarquons dans la cartes que les cellules 5*2, 5+3 et 4*2 sont voisines et elles contiennent respectivement, les individus dont l’âge est entre 70-74 ans pour la cellule 5*2, 50-54 ans pour la cellule 5*3 et 40-44 ans, 45-49 ans, 35-39 ans pour la cellule 4*2 ce qui montrent que ces trois tranches d’âge qui sont dans la même cellule représentent beaucoup de similitudes. Les concepts présents dans les cellules voisines cités présentent des points communs suivants quelques variables. Lorsqu’on clique droit sur une cellule, par exemple 4*2 qui contient 3 concepts et qu’on sélectionne « paralléle », ce graphe difficile à interpréter apparait. 3.2.9 DISS (Descriptive Measures) 3.2.9.1 Présentation de la méthode Meriam BELKOURA Master 2 ID Ksenia TITOVA 37 / 44 2007/2008
  • 38. La méthode DISS permet de comparer dans l’ordre les objets symboliques en quantifiant les corrélations existantes, en les mettant dans les classes ou en les discriminant. Les résultats obtenus par cette méthode permettent de comprendre, mesurer et identifier les groupes des objets symboliques et peuvent être appliqués dans les autres méthodes statistiques ou dans les certaines tâches de Data Mining. En particularité la méthodes DISS permet de comparer dans l’ordre les objets symboliques afin d’évaluer leur dissimilarité et de visualiser les résultats graphiquement dans l’éditeur VDISS. En entrée de cette méthode on peut choisir soit un ensemble complet des variables symboliques soit juste une partie de l’ensemble. Ces variables peuvent être de type suivant : intervalle, quantitatif, modale, multi value. 3.2.9.2 Mise en œuvre de la méthode En appliquant cette méthode sur notre ensemble des objets symboliques en choisissant plusieurs variables (pression, cholestérol et dépression) nous obtiendrons la matrice de dissimilarité suivante : Meriam BELKOURA Master 2 ID Ksenia TITOVA 38 / 44 2007/2008
  • 39. Ces résultats on peut présenter sous la forme d’un graphique : Après avoir analysé les résultats précédents, on peut remarquer qu’il y a un grand saut, une évolution rapide des valeurs en passant de la tranche d’âge 30-34 à 35-39. La tranche d’âge 30-34 a aussi une grande dissimilarité avec les autres, ce que peut signifier que c’est après 35 ans que la santé se dégrade. Meriam BELKOURA Master 2 ID Ksenia TITOVA 39 / 44 2007/2008
  • 40. 3.2.10 HIPYR (Hierarchical and Pyramidal Clustering ) 3.2.10.1 Présentation de la méthode La méthode HIPYR est utilisée pour une classification pyramidale ou hiérarchique d’un ensemble de données symboliques. VPYR est un éditeur graphique automatiquement lié à HIPYR. En entrée de cette méthode, l’utilisateur doit choisir les variables qui seront utilisées pour construire la pyramide (hiérarchie). Ces variables peuvent être quantitatives, des intervalles de valeurs réelles, nominales, multinominales et/ou modales. L’utilisateur est invité à choisir entre des variables qualitatives et continues mais il lui est également possible de les mélanger. La pyramide constitue un modèle intermédiaire entre les arbres et les structures en treillis. Cette méthode permet de classer des données plus complexes que ce qu’autorisait le modèle tabulaire et ceci en considérant la variation des valeurs prises par les variables. La pyramide est construite par un algorithme d’agglomération opérant du bas (les objets symboliques) vers le haut (à chaque niveau, des classes sont agglomérées). Dans une classification pyramidale, chaque classe formée est définie non seulement par une extension (l’ensemble de ses éléments) mais aussi par un objet symbolique qui décrit ses propriétés (l’intention de la classe). L’intention est héritée d’un prédécesseur vers son successeur et nous obtenons ainsi une structure d’héritage. La structure d’ordre permet l’identification de concepts intermédiaires ; c'est-à-dire de concepts qui comblent un vide entre des classes bien identifiées. 3.2.10.2 Mise en œuvre de la méthode Dans notre exemple d’étude on applique cette méthode sur plusieurs concepts (une population de 30 à 69 ans) et sur les variables suivantes : type de douleur, sucre, cholestérol. On obtient la pyramide suivante : Dans le graphique précédent on observe les 7 classes crées. On remarque, ce qui est assez naturel, que les concepts successifs sont réunis en une classe. Les valeurs des variables qui les constituent sont voisines. Le graphique suivant nous montre les valeurs des hauteurs de chaque classe. Meriam BELKOURA Master 2 ID Ksenia TITOVA 40 / 44 2007/2008
  • 41. 3.2.11 DCLUST (Clustering Algorithm based on Distance Tables) 3.2.11.1 Présentation de la méthode Le but de cette méthode est de regrouper un grand ensemble d’objets symboliques en des classes homogènes. Le critère de classification est basé sur la somme de dissimilarités entre des individus appartenant à la même classe et d’essayer de minimiser le critère de classification par le choix convenable de la classe. Ces fonctions (de similarité et de dissimilarité) peuvent prendre en considération les dépendances (hiérarchique ou logique) entre les variables. La table de dissimilarité peut être crée de la façon suivante : - grâce au logiciel SODAS ou ASSO en utilisant la méthodes DISS ou MATCH. - ou directement par la fonction de proximité qui peut prendre en considération les dépendances entre les variables. En entrée de cette méthode on passe le ASSO file qui contient la table de dissimilarité. Et le nombre de classes peut être fixé par l’utilisateur. 3.2.11.2 Mise en œuvre de la méthode Pour pouvoir utiliser cette méthode on utilise le fichier de la méthode DISS crée précédemment, afin d’avoir la table de dissimilarité en entrée. On obtient plusieurs fichiers résultant. Meriam BELKOURA Master 2 ID Ksenia TITOVA 41 / 44 2007/2008
  • 42. 1 fichier présentant les données suivantes : Number of SO : 10 Learning Set : 10 Number of variables : 11 Number of iterations : 20 Number of classes : 4 Initialisation : 1 random partition Number of runs : 10 Initial Criterion : 2.150399 LIST OF SYMBOLIC OBJECTS IN THE SET : ===================================== 30-34 ans 35-39 ans 40-44 ans 45-49 ans 50-54 ans 55-59 ans 60-64 ans 65-69 ans 70-74 ans 75-79 ans Les classes créées : EDITION PARTITION SELECTED ========================== Classe : 1 Size : 1 Weight : 1.00 Criterion : 0.000000 (0.00%) ( 1) 30-34 ans [1.0] Classe : 2 Size : 5 Weight : 5.00 Criterion : 0.693404 (71.74%) ( 2) 35-39 ans [1.0] ( 3) 40-44 ans [0.6] ( 4) 45-49 ans [0.0] ( 9) 70-74 ans [0.9] ( 10) 75-79 ans [2.5] Classe : 3 Size : 1 Weight : 1.00 Criterion : 0.000000 (0.00%) ( 8) 65-69 ans [1.0] Classe : 4 Size : 3 Weight : 3.00 Criterion : 0.273120 (28.26%) ( 5) 50-54 ans [2.0] ( 6) 55-59 ans [1.0] ( 7) 60-64 ans [0.0] PARTITION DESCRIPTION ===================== INITIAL CRITERION : 2.150399 FINAL CRITERION : 0.966525 Percentage of the explained criterion : 55.05 Meriam BELKOURA Master 2 ID Ksenia TITOVA 42 / 44 2007/2008
  • 43. Le 2ème fichier permet de présenter les classes formées à l’aide de graphe que l’on peut présenter sous différents axes : Et le 3ème fichier, l’éditeur VSTAR, permettant de présenter le tableau des valeurs des classes engendrées : Meriam BELKOURA Master 2 ID Ksenia TITOVA 43 / 44 2007/2008
  • 44. 4 CONCLUSION La réalisation de ce projet a été pour nous l’occasion de découvrir un logiciel puissant d’analyse de données symboliques : le logiciel SODAS. Cet outil nous a permis d’extraire des connaissances d’une importante base de données relationnelles et d’appliquer des méthodes de statistique descriptive, de dissimilarité, de clustering et de discrimination. La grande flexibilité de ce logiciel associée à la puissance de ses diverses représentations graphiques a mis en évidence des résultats pertinents et facilement interprétables et de révéler des faits que nous ne soupçonnions pas comme le fait qu’il y ai un lien entre la dépression et la présence d’un nombre de pics anormaux dans l’électrocardiogramme. A partir des déductions faites sur cette étude, nous avons pu élargir le problème à d’autres champs, d’autres questions auxquels il serait intéressant de trouver des réponses comme : y’a-t-il un lien entre certains paramètres cardiaques et un risque de décès. Répondre à cette question pourrait aider certains médecins à anticiper sur certains traitements. Cette étude peut aussi être affinée en rajoutant d’autres variables comme la consommation de nicotine, le poids, le périmètre abdominal, la profession et l’origine ethnique. Meriam BELKOURA Master 2 ID Ksenia TITOVA 44 / 44 2007/2008