Rapport cardiologie 2

Titova Ksenia
Belkoura Meriam

DATAMINING
Etude et analyse de données cardiologiques

Master 2 ID

Promotion 2008

Enseignant : Monsieur Edwin Diday

1 INTRODUCTION .......................................................................................................................................... 3
2 LE DATA MINING MIS EN œuvre SOUS SODAS ..................................................................................... 4
2.1 Objectifs généraux du DATAMINING................................................................................................ 4
2.2 Présentation du logiciel SODAS (Symbolic Official Data Analysis System) ...................................... 5
2.2.1 Schéma illustrant les étapes de mise en œuvre du logiciel SODAS ................................................ 7
2.2.2 Description sommaire du mode opératoire ...................................................................................... 8
2.2.2.1 Présentation de la page d’accueil................................................................................................ 8
2.2.2.2 Généralités sur la méthode d’utilisation du logiciel ................................................................... 8
2.2.2.3 Sélection d’une base d’étude ...................................................................................................... 8
2.2.2.4 Choix des méthodes à appliquer ................................................................................................. 9
3 ANALYSE ET ETUDE STATISTIQE AVEC SODAS .............................................................................. 11
3.1 Présentation de l’étude ....................................................................................................................... 11
3.1.1.1 Contexte de l’étude et présentation des données ...................................................................... 11
3.1.2 Les objectifs de l’étude ................................................................................................................. 11
3.2 Explication, analyse et mise en œuvre des méthodes de SODAS ...................................................... 13
3.2.1 DB2SO : extraction de données symboliques de la base de données relationnelle ....................... 13
3.2.1.1 Présentations du module ........................................................................................................... 13
3.2.1.2 Mise en œuvre de DB2SO ........................................................................................................ 14
3.2.2 VIEW (Symbolic Objects Viewer)................................................................................................ 19
3.2.2.1 Présentation de la méthode ....................................................................................................... 19
3.2.2.2 Mise en œuvre de la méthode ................................................................................................... 20
3.2.3 STAT ............................................................................................................................................. 23
3.2.4 DIV (Divisive Clustering on Symbolic Objects)........................................................................... 27
3.2.4.1 Présentations de la méthode ..................................................................................................... 27
3.2.5 TREE (Descision Tree) ................................................................................................................. 29
3.2.6 PCM (Principal Component Analysis) .......................................................................................... 32
3.2.7 SCLUST (Symbolic Dynamic Clustering) .................................................................................... 33
3.2.8 SYKSOM (Kohonen Self-Organizing Map for Symbolic Data) ................................................... 35
3.2.9 DISS (Descriptive Measures) ....................................................................................................... 37
3.2.10 HIPYR (Hierarchical and Pyramidal Clustering ) ......................................................................... 40
3.2.10.1 Présentation de la méthode ...................................................................................................... 40
3.2.10.2 Mise en œuvre de la méthode ................................................................................................. 40
3.2.11 DCLUST (Clustering Algorithm based on Distance Tables) ........................................................ 41
3.2.11.1 Présentation de la méthode ...................................................................................................... 41
3.2.11.2 Mise en œuvre de la méthode .................................................................................................. 41
4 CONCLUSION ............................................................................................................................................. 44

Meriam BELKOURA Master 2 ID
Ksenia TITOVA 2 / 44 2007/2008

1 INTRODUCTION

Le datamining est un processus qui permet de découvrir, dans de grosses bases
de données consolidées, des informations jusque là inconnues.
L’exploitation de ces nouvelles informations peut présenter un intérêt pour
analyser et interpréter les comportements d’individus par exemple. Les résultats
obtenus s’insérant dans un dispositif d’analyse globale permettent alors de dresser
dans des plans stratégiques ou politiques les axes d’effort à respecter.
Les techniques statistiques du datamining sont bien connues. Il s’agit
notamment de la régression linéaire et logistique, de l’analyse multi variée, de
l’analyse des composantes principales, des arbres décisionnels et des réseaux de
neurones. Cependant, les approches traditionnelles de l’inférence statistique échouent
avec les grosses bases de données, car en présence de milliers ou de million de cas et
de centaines ou de milliers de variables, on trouvera forcément un niveau élevé de
redondance parmi les variables, certaines relations seront fausses, et même les
relations les plus faibles paraîtront statistiquement importantes dans tout test
statistique. L’objectif est de construire un modèle dont le pouvoir de prédiction est
satisfaisant.
L’analyse de données symboliques prend actuellement de plus en plus
d’importance, en témoigne le développement du logiciel spécifique SODAS. C’est ce
logiciel (version 2.50) qui va être utilisé dans le cadre de ce projet afin d’extraire les
données concentrées dans une base de donnée relationnelle de type ACCESS et d’y
appliquer les méthodes d’analyse contenues dans SODAS. Notre base d’étude du
projet concerne les individus susceptibles d’avoir la maladie cardio-vasculaire.
Le présent rapport est constitué de deux parties principales.
La première est une présentation générale du datamining et du logiciel
SODAS.
La deuxième partie décrit plus précisément le contexte de l’étude, et détaille en
particulier les modalités d’extraction des variables analysées et la mise en œuvre des
diverses méthodes d’analyse associées.


2 LE DATA MINING MIS EN ŒUVRE SOUS SODAS

2.1 OBJECTIFS GENERAUX DU DATAMINING
Les progrès de la technologie informatique dans le recueil et le transport de données
font que dans tous les grands domaines de l’activité humaine, des données de toutes sortes
(numériques, textuelles, graphiques…) peuvent maintenant être réunies et en quantité souvent
très importante.
Les systèmes d’interrogation des données, qui n’étaient autrefois réalisables que via
des langages informatiques nécessitant l’intervention d’ingénieurs informaticiens de haut
niveau, deviennent de plus en plus simples d’accès et d’utilisation.
Résumer ces données à l’aide de concepts sous-jacents (une ville, un type de chômeur,
un produit industriel, une catégorie de panne …), afin de mieux les appréhender et d’en
extraire de nouvelles connaissances constitue une question cruciale. Ces concepts sont décrits
par des données plus complexes que celles habituellement rencontrées en statistique. Ces
données sont dites « symboliques », car elles expriment la variation interne inéluctable des
concepts et sont structurées.
Dans ce contexte, l’extension des méthodes de l’Analyse des Données Exploratoires et
plus généralement, de la statistique multidimensionnelle à de telles données, pour en extraire
des connaissances d’interprétation aisée, devient d’une importance grandissante.
L’analyse porte sur des « atomes », ou « unités » de connaissances (les individus ou
concepts munis de leur description) considérés au départ comme des entités séparées les unes
des autres et qu’il s’agit d’analyser et d’organiser de façon automatique.
Par rapport aux approches classiques, l’analyse des données symboliques présente les
caractéristiques et ouvertures suivantes :
Elle s’applique à des données plus complexes. En entrée elle part de données
symboliques (variables à valeurs multiples, intervalle, histogramme, distribution de
probabilité, de possibilité, capacité …) munies de règles et de taxonomies et peut fournir en
sortie des connaissances nouvelles sous forme d’objets symboliques présentant les avantages
qui sont développés supra :
- Elle utilise des outils adaptés à la manipulation d’objets symboliques de
généralisation et de spécialisation, d’ordre et de treillis, de calcul
d’extension, d’intention et de mesures de ressemblances ou d’adéquation
tenant compte des connaissances sous-jacentes basées sur les règles de
taxonomies ;
- Elle fournit des représentations graphiques exprimant, entre autres, la
variation interne des descriptions symboliques. Par exemple, en analyse
factorielle, un objet symbolique sera représenté par une zone (elle-même
exprimable sous forme d’objet symbolique) et pas seulement par un point ;
Les principaux avantages des objets symboliques peuvent se résumer comme suit :
- Ils fournissent un résumé de la base, plus riche que les données agrégées
habituelles car ils tiennent compte de la variation interne et des règles sous-


jacentes aux classes décrites, mais aussi des taxonomies fournies. Nous
sommes donc loin des simples centres de gravité ;
- Ils sont explicatifs, puisqu’ils s’expriment sous forme de propriétés des
variables initiales ou de variables significatives obtenues (axes factoriels),
donc en termes proches de l’utilisation ;
- En utilisant leur partie descriptive, ils permettent de construire un nouveau
tableau de données de plus haut niveau sur lequel une analyse de données
symboliques de second niveau peut s’appliquer ;
- Afin de modéliser des concepts, ils peuvent aisément exprimer des
propriétés joignant des variables provenant de plusieurs tableaux associés à
différentes populations. Par exemple, pour construire un objet symbolique
associé à une ville, on peut utiliser des propriétés issues d’une relation
décrivant les habitants de chaque ville et une autre relation décrivant les
foyers de chaque ville.
- Plutôt que de fusionner plusieurs bases pour étudier ensuite la base
synthétique obtenue, il peut être plus avantageux d’extraire d’abord des
objets symboliques de chaque base puis d’étudier l’ensemble des objets
symboliques ainsi obtenus ;
- Ils peuvent facilement être transformés sous forme de requête sur une Base
de Données.
Ceci a au moins les deux conséquences suivantes :
Ils peuvent donc propager les concepts qu’ils représentent d’une base à une
autre (par exemple, d’un pays à l’autre de la communauté européenne,
EUROSTAT ayant fait un grand effort de normalisation des différents types
d’enquête sociodémographiques).
Alors qu’habituellement on pose des questions sous forme de requête à la
base de données pour fournir des informations intéressant l’utilisateur, les
objets symboliques formés à partir de la base par les outils de l’analyse des
données symboliques permettent à l’inverse de définir des requêtes et donc
de fournir des questions qui peuvent être pertinentes à l’utilisateurs.

2.2 PRESENTATION DU LOGICIEL SODAS (SYMBOLIC OFFICIAL DATA ANALYSIS
SYSTEM)
Il s’agit d’un logiciel prototype public apte à analyser des données symboliques.
Le logiciel SODAS est issu d’un projet de EUROSTAT portant le même nom. Ce
logiciel a pour vocation de fournir un cadre aux différentes avancées récentes et futures dans
le domaine de l’analyse des données symboliques.
L’idée générale de ce projet est de construire, à partir d’une base de données
relationnelle, un tableau de données symboliques muni éventuellement de règles de
taxonomies. Le but étant de décrire des concepts résumant un vaste ensemble de données et
d’analyser ensuite ce tableau pour en extraire des connaissances par des méthodes d’analyse
de données symboliques.
Une analyse des données dans SODAS suit les étapes suivantes :
Partir d’une base de données relationnelle (ORACLE, ACCESS…) ;


Définir ensuite un contexte par :
- Des unités statistiques de premier niveau (habitants, familles, entreprises,
accidents...) ;
- Les variables qui les décrivent ;
- Des concepts (tranche d’âge, villes, groupes socio-économiques…).
Chaque unité statistique de premier niveau est associée à un concept (par exemple,
chaque habitant est associé à sa ville). Ce contexte est défini par une requête sur la base de
données relationnelle.
Le tableau de données symboliques peut être construit, les nouvelles unités statistiques
sont les concepts décrits par généralisation des propriétés des unités statistiques de premier
niveau qui leur sont associées.
Ainsi, chaque concept est décrit par des variables dont les valeurs peuvent être des
histogrammes, des intervalles, des valeurs uniques (éventuellement munies de règles et de
taxonomies) selon le type de variables et le choix de l’utilisateur.
Il est alors possible de créer un fichier d’objets symboliques sur lequel une douzaine
de méthodes d’analyse de données symboliques peut déjà s’appliquer (histogrammes des
variables symboliques, classification automatique, analyse factorielle, analyse discriminante,
visualisations graphiques…).
Nota : le logiciel SODAS est téléchargeable à l’adresse suivante
http:/www.ceremade.dauphine.fr/~touati/sodas-pagegarde.htm


2.2.1 Schéma illustrant les étapes de mise en œuvre du logiciel SODAS


2.2.2 Description sommaire du mode opératoire

2.2.2.1 Présentation de la page d’accueil
La fenêtre principale de SODAS se compose de 3 éléments principaux :

1

3 2

1 – La barre d’outils qui comporte 5 menus.
2 – La fenêtre Methods de la fenêtre principale propose, par groupe, les différentes
méthodes disponibles.
3 – La fenêtre Chaining de la fenêtre principale gère l’enchaînement des méthodes
appliquées à la base choisie.

2.2.2.2 Généralités sur la méthode d’utilisation du logiciel
Il est tout d’abord important de définir ce qu’est une filière dans le logiciel
SODAS. Il s’agit d’une représentation graphique des calculs à effectuer qu’il est
possible de visionner dans la fenêtre Chaining.
En tête d’une filière, figure l’icône BASE représentant le fichier SODAS (.sds)
sur lequel les calculs vont être effectués (la création du fichier .sds on verra par la suite
dans l’exemple concret de notre étude). A la suite de cette icône BASE, viendront se
placer les icônes des méthodes représentant les calculs souhaités.
Après le paramétrage des méthodes et l’enregistrement de la filière, les
résultats figureront sous forme d’icônes, à droite de chacune des méthodes.

2.2.2.3 Sélection d’une base d’étude
Pour sélectionner la « base » support de l’analyse, il ne reste plus qu’à
satisfaire les étapes suivantes :


- Double-cliquer sur l’icône BASE ;
- Parcourir les dossiers et sélectionner le fichier
.sds qui nous intéresse ;
- Cliquer sur OK

- La filière a été modifiée, et maintenant il est
possible de lire le nom de la base associée à la
filière ainsi que son chemin d’accès sur le
disque dur.

.

2.2.2.4 Choix des méthodes à appliquer
Il faut maintenant enrichir la filière définie précédemment grâce à des
méthodes (Methods) afin d’analyser les données de la base.
Pour cela il est possible d’utiliser des filières prédéfinies (Model/Predefined
chaining) ou bien composer soi-même une filière en enchaînant des méthodes issues
de la fenêtre Methods.
Pour insérer de nouvelles méthodes, il suffit de choisir le menu Method et de
cliquer sur Insert Method. Un carré vide apparaît alors sous l’icône BASE ; il faut
alors sélectionner la méthode à appliquer, dans la fenêtre Methods et la faire glisser
jusqu’à l’emplacement vide.
Les méthodes constituant maintenant la filière sont affichées à la suite de
l’icône BASE, selon l’ordre défini par l’utilisateur, dans lequel elles vont s’enchaîner.
Chaque méthode est représentée par une icône à gauche de laquelle se trouve son nom
ainsi qu’une description sommaire.
La couleur de l’icône de la méthode renseigne sur son état :
Gris : la méthode n’est pas encore paramétrée ;
Rouge : la méthode est paramétrée.
Par défaut, les méthodes qui viennent d’être insérées sont grisées.
Chaque méthode est numérotée dans la filière : ce numéro apparaît dans une
petite boîte située à gauche de la méthode.


La couleur de cette boîte indique le statut de la méthode :
Gris : la méthode ne peut être exécutées car elle n’est pas paramétrée
Vert : la méthode est exécutable car elle est paramétrée
Rouge : la méthode est désactivée. Elle est exécutable mais l’utilisateur
en interdit l’exécution (menu Methods puis Desactive method).
Ensuite, il faut paramétrer la méthode. Il suffit de double-cliquer sur l’icône de
la méthode. Alors, une fenêtre structurée en fiches à onglets s’ouvre, elle regroupe
l’ensemble des différents paramètres de la méthode.
Après le paramétrage des diverses méthodes, l’affichage de la filière a changé.
Toutes les méthodes sont maintenant exécutables, car paramétrées (les icônes sont
rouges).
Le paramétrage des toutes les méthodes de la filière étant terminé, il est
possible de l’exécuter.
Par contre, toute exécution d’une filière doit être obligatoirement précédée de
sa sauvegarde (menu Chaining puis Save chaining as et saisie d’un nom dont
l’extension est .fil).
Une fois cette opération effectuée, la filière est exécutée en cliquant sur le
sous-menu Run chaining du menu Chaining.

Filière avant exécution des méthodes Filière après exécution des méthodes

Ksenia TITOVA 10 / 44 2007/2008

3 ANALYSE ET ETUDE STATISTIQE AVEC SODAS

3.1 PRESENTATION DE L’ETUDE

3.1.1.1 Contexte de l’étude et présentation des données
La base de données relationnelle sur laquelle nous avons décidé de travailler à été
prise d’un forum de discussion :
http://www.developpez.net/forums/showthread.php?t=483011
qui propose des jeux de données datamining.

Notre but était de choisir des données intéressantes et faciles à interpréter.

La base regroupe des données sur 270 individus ayant ou susceptible d’avoir des
problèmes cardiaques. Cette étude cardiologique se base sue les paramètres suivant :
L’âge, le sexe, l’intensité de la douleur cardiaque, la pression artérielle, la mesure du
cholestérol dans le sang, l’intensité du sucre dans le sang, l’électrocardiogramme, la détection
de l’angine de poitrine, la mesure de la dépression nerveuse, le nombre de pics anormaux
dans l’électrocardiogramme et l’état vaisseaux cardiaques.

Nous avons donc les indicateurs suivants.

La base access initiale.

3.1.2 Les objectifs de l’étude
Le but de notre étude est d’analyser les facteurs de santé responsables de causer des
problèmes cardiaques aux individus concernés.

Nos individus, c’est-à-dire nos unités statistiques de premier niveau, sont donc
constitués par les numéros identificateurs et ils sont décrits par leur ‘age’, ‘sexe’,

Ksenia TITOVA 11 / 44 2007/2008

‘type_douleur’, ‘pression’,‘cholester’,‘sucre’,‘electro’,‘angine’,’depression’,’pic’ et
‘vaisseau’. Ces variables de description ont étés expliqués au dessus.
Nos concepts apparaissent de façon presque naturelle car le risque de présenter des
problèmes cardiaques et des problèmes de santé favorisant cela dépend de l’âge des personnes
d’où nos concepts sont des tranches d’âges. Il s’agit donc de regrouper les individus dont
l’âge est inclus dans la tranche d’âge.

Nous avons réalisé la requête suivante sur notre base access initiale afin de créer notre
concept d’étude et nous avons créé une table qui nous sert à définir les tranches d’âges et les
bornes inférieure et supérieures de chaque tranche d’âge.

La table Tranche_age.

La requête « Req_concept » permettant de créer notre contexte d’étude à partir de
notre table « Donnees » initiale est :

SELECT Donnees.ID, Tranche_age.Tranche, Donnees.age, Donnees.sexe,
Donnees.type_douleur, Donnees.pression, Donnees.cholester, Donnees.sucre,
Donnees.electro, Donnees.angine, Donnees.depression, Donnees.pic, Donnees.vaisseau
FROM Donnees, Tranche_age
WHERE (((Donnees.age) <= [tranche_age].[age_max] And
(Donnees.age)>=[tranche_age].[age_min]));

Cette requête renvoie les individus du premier ordre et leur description. Elle permet
ainsi de ressortir de la base les individus, les concepts puis les caractéristiques des individus
sous la forme suivante :

Ksenia TITOVA 12 / 44 2007/2008

Au travers de DB2SO, on va pouvoir transformer les tuples ainsi généré par la requête
en tableau symbolique. On passe ainsi au niveau du dessus en matière d’information puisque
SODAS présente une description des concepts en agrégeant les caractéristiques des individus
(ordinal, nominal) en champ symboliques (intervalles, probabiliste...)

Pour la méthode TREE, nous avons besoin d’une variable nominale par concept. Nous
créons donc cette variable de manière artificielle, nommée « MesurePic » dans la table
‘AddVar, la nomination ‘MesurePic’= normal est attribué au groupe d’individus d’une
tranche d’âge donc la moyenne des pics est inférieure ou égale à 1.5 et anormal sinon. C’est la
requête Req_singleOK qui nous permet de calculer la moyenne de pics par tranche d’age.

La requête qui nous permet de connaitre la moyenne des pics par tranche d’âge est la
suivante :

SELECT Req_concept.Tranche, ROUND (Avg(Req_concept.Pic),2) AS
MoyenneDePic
FROM Req_concept
GROUP BY Req_concept.Tranche;

la variable nominale ‘MesurePic’ par concept

3.2 EXPLICATION, ANALYSE ET MISE EN ŒUVRE DES METHODES DE SODAS

3.2.1 DB2SO : extraction de données symboliques de la base de données relationnelle

3.2.1.1 Présentations du module
DB2SO est le module du logiciel SODAS qui permet à l’utilisateur de créer un
ensemble de concepts à partir de données stockées dans une base de données relationnelles.
On présuppose bien évidemment qu’une série d’individus est stockée dans la base de données
et que ces individus sont répartis entre plusieurs groupes d’où la nécessité de la requête
« Req_concept » qui répartit les individus entre plusieurs groupe selon leur âge. Ainsi,
DB2SO va pouvoir construire un concept pour chaque groupe d’individus. Dans ce processus,
les variables mères / filles ainsi, les taxonomies et l’ajout de variables supplémentaires
pourront être associées avec les concepts créés.

Ksenia TITOVA 13 / 44 2007/2008

3.2.1.2 Mise en œuvre de DB2SO

Connexion à la base de données acces

Le système de liaisons ODBC de SODAS lui permet d’accéder directement aux bases de
données et en particulier aux bases Microsoft Access. Pour importer notre base, il faut
sélectionner la commande Importation(DB2SO) dans le sous menu Import du menu SODAS
file.

Un premier écran d’importation apparaît alors dans lequel il faut sélectionner le menu File
puis New.

L’écran suivant nous invite à sélectionner une source de données machine. Dans notre cas, il
s’agit d’une base Microsoft Access.
Notre projet a pour objet l’étude d’une base de données Microsoft Access. Ce SGBD inclut le
driver ODBC permettant l’accès de DB2SO à la base de données relationnelle.

Ksenia TITOVA 14 / 44 2007/2008

Voici l’invite qui va nous permettre de sélectionner notre base de données access.

Une fois, le bon driver choisi, il faut indiquer le fichier .mdb. Pour ce faire, nous cliquons sur
OK. On rechercher la base de travail et on la sélectionner.

Lorsque ces étapes ont étés exécutés, nous allons procéder à l’extraction des individus.
Pour cela, il faut sélectionner la requête SQL préalablement stockée dans la base
« BD_heart1.mdb » dans l’écran qui se présente alors à nous. Il s’agit, en effet de la requête
« Req_concept » présentée précédemment.

Nous avons vu que le résultat de cette requête nous envoie une table sous la forme
suivante :
Individus|concepts|description des individus.

Plus précisément :

1ère colonne = individus
2ème colonne = concepts
3ème colonne et suivante = description des individus

Ksenia TITOVA 15 / 44 2007/2008

Donc « Req_concept » retourne une ligne pour chaque individu : chaque ligne ayant la
structure au dessus : identifiant de l’individu, groupe auquel appartient l’individu et ensuite
les différents attributs.

Après avoir cliqué sur OK, la requête est envoyée à la base de données, les individus
sont alors extraits de la base de données, ils sont stockés en mémoire et un tableau des
concepts est généré.

Nous avons donc 6 variables qualitatives et 5 variables quantitatives et nos 269
individus ont étés répartis suivants 10 groupes = concepts différents.

Le menu Modify permet à l’utilisateur de modifier les concepts. Nous avons, pour le
besoin de certaines méthodes, comme la méthode TREE d’ajouter une variable singled-valued
aux concepts.

Ksenia TITOVA 16 / 44 2007/2008

Dans le cadre de ce travail, nous n’avons pas eu besoin d’ajouter des taxonomies, c'est-à-dire
des variables mère/filles en indiquant des règles tel que par exemple, une variable n’ai de sens
que si une autre variable a une certaine valeur.

Après avoir sélectionné « Add single-valued variable », une fenêtre nous invite de
sélectionner la requête sql préalablement définie qui associe à chaque concept une variable
nominale. Il s’agit de la requête « AddVar » qui retourne en première colonne les concepts et
en deuxième colonne la variable « MesurePic » dont l’espace des valeur est {normal,
anormal}.

Après avoir clique sur OK, nous avons ajouté une unique variable : MesurePic.

A ce stade, nous pouvons sauvegarder notre travail en choisissant File/Save as : le fichier sera
alors enregistré avec l’extension .gaj. Ainsi l’utilisateur pourra retrouver son travail plus tard
en cliquant sur File/Open puis en sélectionnant le fichier voulu.

Ksenia TITOVA 17 / 44 2007/2008

Les fichiers SODAS utilisés en entrée des méthodes de SODAS sont des fichiers avec
l’extension .SDS. Pour créer de tels fichiers. Il faut utiliser le menu File/Export.

Ksenia TITOVA 18 / 44 2007/2008

Après avoir cliqué sur « select », nous choisissons ou sauvegardons notre fichier .sds et nom
donné apparait dans Title.

Bien que nous n’ayons pas ajouté de taxonomie, ni de variables multimodales que
nous n’en avions pas besoin, nous avons compris le fonctionnement du module DB2SO, sa
grande utilité dans la création des objets symboliques et toutes les possibilités de
manipulation possibles grâce à cette mise en œuvre.

3.2.2 VIEW (Symbolic Objects Viewer)

3.2.2.1 Présentation de la méthode

Cette méthode fait partie de la statistique descriptive, les techniques qui visent à mettre
en évidence des informations présentes mais cachées par le volume des données

La méthode View utilise l’éditeur d’objet symbolique VSTAR permettant visualiser,
dans un tableau au premier temps, tous les objets du fichier base .sds ou juste une partie
d’eux. Et par la suite de présenter ses données sous la forme d’étoile en 2 ou 3 dimensions (en
cliquant sur les boutons correspondants de la barre d’outils). Le bouton SOL renvoie la
description des objets symboliques sélectionnés dans le tableau.

Ksenia TITOVA 19 / 44 2007/2008

3.2.2.2 Mise en œuvre de la méthode

Nous avons choisi de faire l’analyse sur plusieurs concepts, donc sur les différentes
tranches d’âge afin de voir l’évolution des caractéristiques déterminant le risque d’une
maladie cardiovasculaire.
Présentons dans l’exemple le premier concept comme la partie la plus jeune de notre
population (30-34 ans) et le deuxième en choisissant la population âgée de 10 ans de plus
(40-44 ans).
Tout d’abord les résultats sont présentés sous la forme d’une étoile en 2 dimensions.
Les variables qualitatives sont représentées par des points de taille proportionnelle au
nombre d’occurrences rencontrées dans l’étude pour une valeur donnée.
Le graphique relie entre eux les points de plus grosses tailles (présentant donc le plus grand
nombre d’occurrences).

Ksenia TITOVA 20 / 44 2007/2008

Après avoir étudié le graphique précédant, on remarque que la population concernée
est en bonne santé. C'est-à-dire que les valeurs des variables importantes sont bonnes : le taux
de cholestérol, qui est compris entre 182.0 et 210.0, la pression qui est stable à 118.0. La
dépression est notée sur une échelle minimale de 0.0 à 0.7. On remarque aussi que le pic de la
tension artériel n’est pas observé. En ce qui concerne le type de douleur, cette variable est
partagé entre A et B.

Regardons maintenant le changement des valeurs des ces variables chez la population
âgée de 10 ans de plus.

Pour la population de 40-45 ans, on remarque que la situation est changée. Le taux de
cholestérol est monté de 210 à 341.0, la pression est aussi en augmentation, le pic de la
tension artériel surcroît jusqu’à 3.0. En ce qui concerne le type de douleur les valeurs
changent aussi. Dans l’histogramme suivant on peut voir la répartition de la population
concernée dans chaque type de douleur :

Pour voir l’évolution des paramètres en fonction de l’âge nous pouvons superposer les
deux graphiques précédents.

Ksenia TITOVA 21 / 44 2007/2008

Zoom Star Superposition :

Les informations précédentes on peut compléter par l’affichage de ses données en 3
dimensions :

Ksenia TITOVA 22 / 44 2007/2008

3.2.3 STAT

La méthode stat permet de représenter graphiquement l’ensemble des valeurs que
prend une variable donnée pour l’ensemble des concepts et d’en visualiser la répartition.

STAT permet d’appliquer des méthodes, habituellement utilisées pour des données
conventionnelles, à des objets symboliques représentés par leur description.
Ces méthodes dépendent du type des variables présentes dans la base SODAS avec laquelle
nous travaillons : les fréquences relatives pour les variables multi nominales, les fréquences
relatives pour les variables intervalles, les capacités et min/max/mean pour les variables multi
nominales probabilistes et biplot pour les variables intervalles.

Le format de sortie des données sera, suivant le choix de l’utilisateur, un listing ou
bien un graphique.

Les graphiques peuvent être modifiés et personnalisés (figures, formes, couleurs, texte,
commentaires ...) par l’utilisateur et ils peuvent également être copiés et sauvegardés.

Les fréquences relatives pour les variables multi-nominales :

Dans cette méthode, nous étudions la fréquence relative des différentes modalités de la
variable multi nominale en prenant en compte les éventuelles règles relatives à la base sur
laquelle nous travaillons.
Le graphique associé à la distribution de la variable pourra, suivant le choix de l’utilisateur,
être soit un diagramme bâton, soit un diagramme en camembert.

Les fréquences relatives pour les variables intervalles :

Ksenia TITOVA 23 / 44 2007/2008

Cette méthode a besoin, en entrée, de 2 paramètres :
- une variable intervalle I
- un nombre de classes k
Nous pouvons construire un histogramme pour la variable I sur un intervalle [a,b] découpé en
k classes et où a représente la borne inférieure de I et b sa borne supérieure. La méthode va
permettre le calcul de la fréquence relative associée à la classe Ck tout en tenant compte du
recouvrement de cette classe Ck par les valeurs intervalles de I et ceci pour tous les objets
symboliques.

Les capacités et min/max/mean pour les variables multi nominales probabilistes :

La méthode permet de construire un histogramme des capacités des différentes
modalités de la variable considérée. Dans l’histogramme capacité, la capacité d’une modalité
est représentée par l’union des différentes capacités. En ce qui concerne le graphique
min/max/mean, il associe un diagramme représentant l’étendue et la moyenne de la
probabilité de chaque modalité.

Biplot pour les variables intervalles :

Ce graphique représente un objet symbolique par un rectangle dans le plan de 2
variables sélectionnées par l’utilisateur. La dimension de chaque côté du rectangle correspond
à l’étendue de la variation de l’objet symbolique relativement à la variable de l’axe considéré.


Les fréquences relatives pour les variables intervalles

Nous étudions la variable dépression et nous découpons notre intervalle en 10 classes
et nous constatons qu’ils y’a moins d’individus qui ont une dépression supérieure à 3.

Ksenia TITOVA 24 / 44 2007/2008

A partir de l’histogramme suivant, on pourrait deviner qu’un cholestérol supérieur à 300 est
plutôt mauvais et pourrait causer quelques problèmes cardiaques.

Les capacités et min/max/mean pour les variables multi nominales probabilistes

On remarque que plus l’intensité de la douleur est élevée, plus la moyenne de la
probabilité est faible sans qu’il y’ ai une très grande différence entre les 4 types de douleur.

Ksenia TITOVA 25 / 44 2007/2008

On remarque que la plus part des individus ont des vaisseaux sanguins dans un bon
état, c'est-à-dire A.

Biplot pour les variables intervalles

Etant donné que nous étudions 10 tranches d’âges et que les résultats de l’application
de cette méthode se superposent, nous allons faire une étude de la pression en fonction du
cholestérol sur les tranches d’âge supérieur à 60 ans.

Ksenia TITOVA 26 / 44 2007/2008

Parmi les individus entre 65 et 69 ans, il y a beaucoup de disparités et leurs
caractéristiques englobent toutes les autres tranches d’âges. Comme résultat inattendu, nous
remarquons que les personnes entre 75-79 ans ont un cholestérol faible et une pression
moyenne et se retrouvent inclus dans les 70-74 ans. Nous verrons plus tard avec la méthode
SYKSOM que bien que les 75-79 ans et les 70-74 ans soient proches dans l’âge, ils ne sont
pas voisins et ne sont pas regroupés dans la même classe. Même la méthode DIV le montre
car les deux tranches d’âges ne se retrouvent pas dans la même classe.

3.2.4 DIV (Divisive Clustering on Symbolic Objects)

3.2.4.1 Présentations de la méthode
DIV est une méthode de classification hiérarchique qui part de tous les objets
symboliques réunis dans une seule classe et procède ensuite par division successive de chaque
classe selon un critère d’inertie qui perme d’effectuer le découpage en classes.
A chaque étape, une classe est divisée en deux classes suivant une question binaire ;
ceci permet d’obtenir le meilleur partitionnement en deux classes, conformément à
l’extension du critère d’inertie. L’algorithme s’arrête après avoir effectuer k-1 division ; k
étant le nombre de classes donné, en entrée, à la méthode par l’utilisateur.
Les paramètres importants à saisir sont : les variables qui seront utilisées pour calculer
la matrice de dissimilarité et l’extension du critère d’inertie pour définir l’ensemble des
questions binaires utiles pour effectuer le découpage.

Au moment de choisir nos variables, il faut être attentif à deux choses principales :

- le domaine de définition des variables doit être ordonné car dans le cas contraire, les
résultats obtenus seront totalement faux
- il n’est pas possible de mélanger des variables dont le domaine de définition est continu avec
des variables dont le domaine de définition est discret.
Dans la fenêtre de définition des paramètres de la méthode DIV du logiciel SODAS,
l’utilisateur doit choisir entre des variables qualitatives et des variables continues.

Trois paramètres doivent également être définis :

- la dissimilarité entre 2 objets peut être normalisée ou non. Elle peut être normalisée en
choisissant l’inverse de la dispersion ou bien l’inverse du maximum de la déviation. La
dispersion des variables est, ici, une extension aux objets symboliques de la notion de
variance
- le nombre k de classes de la dernière partition. La division s’arrêtera après k-1 itérations et
la méthode DIV aura calculé des partitions de la classe 2 à la classe k
- la méthode DIV offre également la possibilité de créer un fichier partition ; il s’agit d’un
fichier texte contenant une matrice (aij) dans laquelle, chaque ligne i∈[1,n] correspond à un
objet et chaque rangée j∈[2,k-1] correspond à une partition en j classes. Ainsi, (aij) signifie
que l’objet j appartient à la classe k, dans la partition en j classes.

Ksenia TITOVA 27 / 44 2007/2008

Une fois ces différents paramètres définis, nous pouvons exécuter la méthode DIV. Nous
Obtenons, en sortie, un listing contenant les informations suivantes :

- pour chaque partition de 2 à k classes, une liste des objets contenus dans chaque classe ainsi
que l’inertie expliquée relative à la partition
- l’arbre de classification.

Nous avons décidé d’effectuer une partition en 5 classes.

Nous exécutons DIV sur l’ensemble des variables nominales(variables qualitatives)
suivantes :

Type_douleur
Sucre
Electro
Vaisseau

Les classes obtenues :

PARTITION IN 5 CLUSTERS :
-------------------------:

Cluster 1 (n=1) :
75-79 ans

Cluster 2 (n=4) :
70-74 ans 65-69 ans 55-59 ans 45-49 ans

Cluster 3 (n=1) :
30-34 ans

Cluster 4 (n=3) :
50-54 ans 40-44 ans 35-39 ans

Cluster 5 (n=1) :
60-64 ans

Explicated inertia : 83.757166

Le pourcentage de l’inertie est élevé.
Les individus entre 75 et 79 ans, 30 et 34 ans et 60 et 64 ans se distinguent des autres classes
et sont tous seul dans leur classe. Par contre les autres montrent un groupement de certaines
tranches d’âges sur les critères choisis. Plus particulièrement les 70-74 ans 65-69 ans 55-59
ans 45-49 ans qui se retrouvent dans la même classe et les 50-54 ans 40-44 ans 35-39 ans se
retrouvent ensemble.

Ksenia TITOVA 28 / 44 2007/2008

L’arbre obtenu en résultat :

- the number noted at each node indicates
the order of the division
- Ng <-> yes and Nd <-> no

+---- Classe 1 (Ng=1)
!
!----1- [vaisseau = 0001]
!
! +---- Classe 2 (Ng=4)
! !
! !---4- [vaisseau = 0010]
! ! !

! ! +---- Classe 5 (Nd=1)
! !
! !----3- [electro = 001]
! ! !
! ! +---- Classe 4 (Nd=3)
! !
!----2- [type_douleur = 0010]
!
+---- Classe 3 (Nd=1)

On remarque que ce qui permet de distinguer la classe 3 et les classe 4, 5, 2 c’est le type de la
douleur, entre la classe 4 et les classes 5 et 2 c’est l’électrocardiogramme, entre la classe 5 et
2 se sont les vaisseaux, et entre la classe 1 et toutes les autres c’est encore une fois l’état des
vaisseaux.

3.2.5 TREE (Descision Tree)


La méthode Tree nous propose un algorithme par agrandissement d’arbres, appliqué à
des données imprécises décrites par des concepts probabilistes. Dans ce contexte, la
procédure de partage récursif peut être vue comme une recherche itérative d’un ensemble de
concepts qui correspond le mieux aux données initiales. A chaque étape, le découpage
optimal est obtenu en utilisant une mesure générale, donnée en paramètre. En sortie, nous
obtenons une nouvelle liste d’objets symboliques qui permet éventuellement d’assigner de
nouveaux objets à une classe.


La méthode TREE va nous permettre de définir un ensemble organisé des concepts grâce à
une procédure récursive de partitionnement.

Ksenia TITOVA 29 / 44 2007/2008

Attention :

Les variables de partitionnement doivent avoir été crée gâche à Add-signe- valued variable
dans le module DB2SO.
Les variables explicatives ne peuvent être mixtes qualitatives et quantitatives à la fois. Il faut
faire un choix entre les deux types de variables.

Nous choisissons comme variable de partitionnement : MesurePic.

TREE avec des variables explicatives de type quantitatives

Les variables explicatives choisies sont :
- Pression
- Cholester
- depression
- Pic

Le nombre de nœuds choisi : 5

L’arbre de décision obtenu se lit de la manière suivante :

Paramètres de départ :

Learning Set : 10
Number of variables : 4
Max. number of nodes: 9
Soft Assign : ( 1 ) FUZZY
Criterion coding : ( 3 ) LOG-LIKELIHOOD
Min. number of object by node : 5
Min. size of no-majority classes : 2
Min. size of descendant nodes : 1
Frequency of test set : 0.00

L’arbre obtenu :

Ksenia TITOVA 30 / 44 2007/2008

Interprétation de l’arbre :

On relève que ce qui peut distinguer entre une mesure de pic normal et une mesure de pic
anormale est la dépression.
Supposons qu’on veuille classer un nouvel individu dans la classe normal ou anormal des
« MesurePic » juste en regardant sa pression, son cholesterol, sa dépression et son pic.
Dans un premier temps, l’arbre nous dit que pour trancher, nous n’avons besoin que de la
dépression. Si cette dernière est supérieure à 1.10 alors l’individu est dans la classe normale,
sinon il est dans la classe anormale.

TREE avec des variables explicatives de type qualitatives

Variables explicatives :
Sexe
Type_douleur
Sucre
Electro
Angine
Vaisseau

L’arbre obtenu avec des variables explicatives de type qualitatives.

Interprétation de l’arbre:

Si pour un individu donné l’état des vaisseaux est différent de 1100… alors l’individu est mis
dans la catégorie anormal (=la classe) en ce qui concerne la mesure de son pic, sinon on
regarde le type de la douleur de ce individu, s’il est différent de 1100 alors l’individu est
placé dans la classe normal, sinon nous regardons l’électrocardiogramme de cet individu,
s’il est différent de 010 alors l’individu et placé dans la classe normal, sinon il sera classé
dans la classe anormal.

Ksenia TITOVA 31 / 44 2007/2008

3.2.6 PCM (Principal Component Analysis)

La méthode PCM correspond à l’analyse en composante principale classique.
Mais au lieu d’obtenir une représentation par points sur un plan factoriel, PCM propose une
visualisation de chaque concept par des rectangles. L’objectif est d’étudier l’intensité des
liaisons entre les variables et de repérer les concepts présentant des caractéristiques voisines.

La PCM est donc une méthode factorielle de réduction du nombre de caractères
permettant des représentations géométriques des individus et des variables. La réduction se
fait par la construction de nouveaux caractères synthétiques obtenus en combinant les
variables initiales au moyen des « facteurs ». Les éléments de la matrice de données sont des
intervalles et chacun décrit la variation de la variable observée (minimum et maximum). La
méthode n’accepte que les variables continues.

L’exécution de la méthode nous donne deux résultats :

1 - Le listing qui contient :

- La description de la matrice de données par une table : chaque ligne correspond à une classe.
- Les valeurs propres, le pourcentage d’inertie et les premières composantes principales.
Chaque classe est caractérisée d’abord par deux composantes principales et visualisée dans un
plan factoriel par un rectangle.
- Les corrélations entre chaque variable descriptive et les composantes principales.

2 - Une représentation graphique des objets symbolique difficile à interpréter où chaque objet
est représenté par un rectangle.

La méthode accepte seulement les variables continues, en entrée.
Nous avons choisi d’analyser chaque tranche d’âge suivant les variables continues suivantes:

pression
cholester
depression
pic

Les intervalles des variables descriptives sont les suivants :

- 94 à 200 pour la pression
- 126 à 14 564 pour le cholester
- 0 à 6.2 pour la depression
- 1 à 3 pour le pic

Nous obtenons alors la matrice de données ci-dessous représentant l’ensemble des intervalles
des variables pour chacun des concepts ainsi que la matrice de corrélations entre nos 4
variables.

pression cholester depression pic

Ksenia TITOVA 32 / 44 2007/2008

"70-74 ans" [110.00 , 160.00] [149.00 , 322.00] [0.00 , 2.90] [1.00 , 3.00]
"65-69 ans" [100.00 , 180.00] [177.00 , 564.00] [0.00 , 2.80] [1.00 , 3.00]
"55-59 ans" [100.00 , 200.00] [126.00 , 409.00] [0.00 , 5.60] [1.00 , 3.00]
"60-64 ans" [102.00 , 180.00] [164.00 , 407.00] [0.00 , 6.20] [1.00 , 3.00]
"50-54 ans" [94.00 , 192.00] [175.00 , 325.00] [0.00 , 4.20] [1.00 , 3.00]
"40-44 ans" [102.00 , 152.00] [141.00 , 341.00] [0.00 , 3.00] [1.00 , 3.00]
"45-49 ans" [101.00 , 150.00] [149.00 , 311.00] [0.00 , 3.60] [1.00 , 3.00]
"35-39 ans" [94.00 , 140.00] [183.00 , 321.00] [0.00 , 3.80] [1.00 , 3.00]
"75-79 ans" [125.00 , 140.00] [197.00 , 304.00] [0.00 , 1.10] [1.00 , 2.00]
"30-34 ans" [118.00 , 118.00] [182.00 , 210.00] [0.00 , 0.70] [1.00 , 1.00]

Correlations Matrix :

pression 1.0000 0.0619 0.0708 0.0462
cholester 0.0619 1.0000 0.0469 0.0600
depression 0.0708 0.0469 1.0000 0.0970
pic 0.0462 0.0600 0.0970 1.0000

Les corrélations entre nos 4 variables sont plutôt faibles.
Si nous regardons la plus grande corrélation, nous soupçonnions une forte liaison entre le
nombre de pic et la dépression, ce résultat nous allons le retrouver dans la méthode TREE.

3.2.7 SCLUST (Symbolic Dynamic Clustering)

La méthode SCLUST peut être utilisée pour partitionner un ensemble de n éléments
symboliques en nombre m de classes homogènes. Ce nombre de classes peut être fixé par
l’utilisateur.
En entrée de cette méthode c’est à l’utilisateur de choisir les paramètres qui selon lui seront
les plus parlant pour regrouper les données en classes.
Cette méthode construit les partitions de l’ensemble des données symboliques selon la
combinaison des mesures approximatives et des prototypes. SCLUST permet de choisir les
différents types de dissimilarité et de prototypes.

Si les variables choisies ont des types différents il existe la possibilité de normaliser la
distance entre l’objet et le prototype.


On applique cette méthode sur notre base de données symboliques, en choisissant les 5
variables telle que age, type de douleur, pression, cholestérol, dépression.

Ksenia TITOVA 33 / 44 2007/2008

Les données suivantes donnent les information sur les classes crées par cette méthodes :

Learning Set : 10
Number of iterations : 20
Number of classes : 3
Initialisation : 0 random prototypes
Number of runs : 10
Quantitative distance: 0 Hausdorff Distance
Boolean distance : 0 De Carvalho Distance
Modal distance : 0 De Carvalho Distance
Normalize : 0 Yes
NBCLUST procedure : 0 Yes
STABCLUST procedure : 0 Yes

Initial Criterion : 976.288774

GROUP OF SELECTED VARIABLES :
=============================

( Pos ) Tj Tj Weight Name Type
initial used

( 1 ) 12.91 20.00 0.079365 age INTERVAL
( 3 ) 0.14 20.00 7.200591 type_douleur MODAL 4 Modalities
( 4 ) 21.71 20.00 0.047170 pression INTERVAL
( 5 ) 63.92 20.00 0.016026 cholester INTERVAL
( 9 ) 1.32 20.00 0.775194 depression INTERVAL

LIST OF SYMBOLIC OBJECTS IN THE SET :
=====================================

30-34 ans 35-39 ans 40-44 ans 45-49 ans 50-54 ans 55-59 ans
60-64 ans 65-69 ans 70-74 ans 75-79 ans

EDITION OPTIMAL PARTITION
=========================

Classe : 1 Cardinal : 1
===============================

( 0) 30-34 ans [-1.$]

===============================

( 1) 35-39 ans [1.1] ( 2) 40-44 ans [0.3] ( 3) 45-49 ans [0.3] (
4) 50-54 ans [1.1] ( 8) 70-74 ans [1.0] ( 9) 75-79 ans [2.2]

===============================

( 5) 55-59 ans [0.7] ( 6) 60-64 ans [0.3] ( 7) 65-69 ans [2.0]

Ksenia TITOVA 34 / 44 2007/2008

L’image suivante nous présente les classes créées selon les axes age et cholestérol :

3.2.8 SYKSOM (Kohonen Self-Organizing Map for Symbolic Data)


Cette méthode permet d’appliquer des cartes de Kohonen à des ensembles de données
quantitatives classiques et symboliques de type intervalle dans le but de répartir ces données
dans des partitions homogènes. Le but est de représenter des centres de classes dans une grille
de tél manière que deux classes qui se ressemblent aient leurs centres proches dans la grille.

Voici le principe de construction de la grille :

K centres sont positionnés au hasard sur la grille lorsqu’il s’agit de définir k classes.
Les k points sont ensuite positionnés dans l’espace des données ce qui donnera des centres
positionnés n’importe où dans l’espace.
Ensuite, on affecte chaque individu à l’un des centres avec lequel il est le plus proche (on
obtient ainsi des classes Ci), puis on modifie la position des k centres initiaux (précédents) de
façon à les placer le plus proche du centre de leurs classes puis on rapproche les autres
centres de ce centre d’autant plus qu’ils sont proches de lui dans la grille initiale.


Les paramètres d’entrée

Voici les paramètres d’entrée qui nous ont parus être les plus importants.
La méthode de partitionnement choisie est : stochastic approximation
number of lines : nombre les lignes horizontaux dans la grille
precision threshold : seuil de précision avec laquelle les données d’intervalle (individus) sont
placés dans les partitions.
Eps : après avoir assigné une donnée d’intervalle dans une partition, le centre de cette
partition est remis à jour ainsi que les centres des partitions voisines dans la grille. Ainsi si
eps=1, cela signifie que seuls les voisins directs seront remis à jour.

Ksenia TITOVA 35 / 44 2007/2008

Kernel : permet de choisir avec quelle distance « le seuil de précision » est calculé.
Learning factor : facteur d’apprentissage.

Interprétation de la carte de Kohonen

Dans le fichier résultat :

METHOD=SYKSOM Version 12/20/03 Aachen 2003
BASE = C:Documents and
SettingsAdministrateurBureauprojet_dataheart21.sds
Number of columns a = 5
Number of rows b = 5
Number of Symbolic Objects = 10
Number of variables = 5
Number of clusters (neurons) = 25
Dimension of vectors = 5
Exponential kernel
Distance : Vertex-type distance

Voici la liste des clusters qui contiennent des objets symboliques, c’est à dire les clusters qui
ne sont pas vides.

Cluster 2 ( 1x2) Size 1
List of objects:
( 10) 30-34 ans

List of objects:
( 9) 75-79 ans

List of objects:
( 4) 60-64 ans

List of objects:
( 3) 55-59 ans

List of objects:
( 2) 65-69 ans

List of objects:
( 6) 40-44 ans
( 7) 45-49 ans
( 8) 35-39 ans

List of objects:
( 1) 70-74 ans

List of objects:
( 5) 50-54 ans

Nous avons 10 objets symboliques qui seront placé dans 25 cellules (neurones ou
partitions), car nous avons une gille de taille 5*5.

Ksenia TITOVA 36 / 44 2007/2008

Les cercles représentent le nombre d’individus dans la classe (la partition)
Les rectangles représentent le volume, l’étendue de la partition.

Nous remarquons dans la cartes que les cellules 5*2, 5+3 et 4*2 sont voisines et elles
contiennent respectivement, les individus dont l’âge est entre 70-74 ans pour la cellule 5*2,
50-54 ans pour la cellule 5*3 et 40-44 ans, 45-49 ans, 35-39 ans pour la cellule 4*2 ce qui
montrent que ces trois tranches d’âge qui sont dans la même cellule représentent beaucoup de
similitudes. Les concepts présents dans les cellules voisines cités présentent des points
communs suivants quelques variables.

Lorsqu’on clique droit sur une cellule, par exemple 4*2 qui contient 3 concepts et qu’on
sélectionne « paralléle », ce graphe difficile à interpréter apparait.

3.2.9 DISS (Descriptive Measures)


Ksenia TITOVA 37 / 44 2007/2008

La méthode DISS permet de comparer dans l’ordre les objets symboliques en
quantifiant les corrélations existantes, en les mettant dans les classes ou en les discriminant.
Les résultats obtenus par cette méthode permettent de comprendre, mesurer et identifier les
groupes des objets symboliques et peuvent être appliqués dans les autres méthodes
statistiques ou dans les certaines tâches de Data Mining.
En particularité la méthodes DISS permet de comparer dans l’ordre les objets symboliques
afin d’évaluer leur dissimilarité et de visualiser les résultats graphiquement dans l’éditeur
VDISS.

En entrée de cette méthode on peut choisir soit un ensemble complet des variables
symboliques soit juste une partie de l’ensemble. Ces variables peuvent être de type suivant :
intervalle, quantitatif, modale, multi value.


En appliquant cette méthode sur notre ensemble des objets symboliques en choisissant
plusieurs variables (pression, cholestérol et dépression) nous obtiendrons la matrice de
dissimilarité suivante :

Ksenia TITOVA 38 / 44 2007/2008

Ces résultats on peut présenter sous la forme d’un graphique :

Après avoir analysé les résultats précédents, on peut remarquer qu’il y a un grand saut,
une évolution rapide des valeurs en passant de la tranche d’âge 30-34 à 35-39. La tranche
d’âge 30-34 a aussi une grande dissimilarité avec les autres, ce que peut signifier que c’est
après 35 ans que la santé se dégrade.

Ksenia TITOVA 39 / 44 2007/2008

3.2.10 HIPYR (Hierarchical and Pyramidal Clustering )

La méthode HIPYR est utilisée pour une classification pyramidale ou hiérarchique
d’un ensemble de données symboliques.
VPYR est un éditeur graphique automatiquement lié à HIPYR.
En entrée de cette méthode, l’utilisateur doit choisir les variables qui seront utilisées
pour construire la pyramide (hiérarchie). Ces variables peuvent être quantitatives, des
intervalles de valeurs réelles, nominales, multinominales et/ou modales. L’utilisateur est
invité à choisir entre des variables qualitatives et continues mais il lui est également possible
de les mélanger.
La pyramide constitue un modèle intermédiaire entre les arbres et les structures en
treillis. Cette méthode permet de classer des données plus complexes que ce qu’autorisait le
modèle tabulaire et ceci en considérant la variation des valeurs prises par les variables. La
pyramide est construite par un algorithme d’agglomération opérant du bas (les objets
symboliques) vers le haut (à chaque niveau, des classes sont agglomérées).
Dans une classification pyramidale, chaque classe formée est définie non seulement
par une extension (l’ensemble de ses éléments) mais aussi par un objet symbolique qui décrit
ses propriétés (l’intention de la classe). L’intention est héritée d’un prédécesseur vers son
successeur et nous obtenons ainsi une structure d’héritage.
La structure d’ordre permet l’identification de concepts intermédiaires ; c'est-à-dire de
concepts qui comblent un vide entre des classes bien identifiées.

Dans notre exemple d’étude on applique cette méthode sur plusieurs concepts (une
population de 30 à 69 ans) et sur les variables suivantes : type de douleur, sucre, cholestérol.

On obtient la pyramide suivante :

Dans le graphique précédent on observe les 7 classes crées. On remarque, ce qui est
assez naturel, que les concepts successifs sont réunis en une classe. Les valeurs des variables
qui les constituent sont voisines. Le graphique suivant nous montre les valeurs des hauteurs
de chaque classe.

Ksenia TITOVA 40 / 44 2007/2008

3.2.11 DCLUST (Clustering Algorithm based on Distance Tables)

Le but de cette méthode est de regrouper un grand ensemble d’objets symboliques en
des classes homogènes.
Le critère de classification est basé sur la somme de dissimilarités entre des individus
appartenant à la même classe et d’essayer de minimiser le critère de classification par le choix
convenable de la classe. Ces fonctions (de similarité et de dissimilarité) peuvent prendre en
considération les dépendances (hiérarchique ou logique) entre les variables.
La table de dissimilarité peut être crée de la façon suivante :
- grâce au logiciel SODAS ou ASSO en utilisant la méthodes DISS ou
MATCH.
- ou directement par la fonction de proximité qui peut prendre en
considération les dépendances entre les variables.
En entrée de cette méthode on passe le ASSO file qui contient la table de dissimilarité. Et le
nombre de classes peut être fixé par l’utilisateur.


Pour pouvoir utiliser cette méthode on utilise le fichier de la méthode DISS crée
précédemment, afin d’avoir la table de dissimilarité en entrée.

On obtient plusieurs fichiers résultant.

Ksenia TITOVA 41 / 44 2007/2008

1 fichier présentant les données suivantes :

Number of SO : 10
Learning Set : 10
Number of iterations : 20
Number of classes : 4
Initialisation : 1 random partition
Number of runs : 10

Initial Criterion : 2.150399

LIST OF SYMBOLIC OBJECTS IN THE SET :
=====================================

30-34 ans 35-39 ans 40-44 ans 45-49 ans 50-54 ans 55-59 ans
60-64 ans
65-69 ans 70-74 ans 75-79 ans

Les classes créées :
EDITION PARTITION SELECTED
==========================

Classe : 1 Size : 1 Weight : 1.00 Criterion : 0.000000 (0.00%)

( 1) 30-34 ans [1.0]


( 2) 35-39 ans [1.0] ( 3) 40-44 ans [0.6] ( 4) 45-49 ans [0.0]
( 9) 70-74 ans [0.9] ( 10) 75-79 ans [2.5]


( 8) 65-69 ans [1.0]


( 5) 50-54 ans [2.0] ( 6) 55-59 ans [1.0] ( 7) 60-64 ans [0.0]

PARTITION DESCRIPTION
=====================

INITIAL CRITERION : 2.150399
FINAL CRITERION : 0.966525
Percentage of the explained criterion : 55.05

Ksenia TITOVA 42 / 44 2007/2008

Le 2ème fichier permet de présenter les classes formées à l’aide de graphe que l’on peut
présenter sous différents axes :

Et le 3ème fichier, l’éditeur VSTAR, permettant de présenter le tableau des valeurs des classes
engendrées :

Ksenia TITOVA 43 / 44 2007/2008

4 CONCLUSION

La réalisation de ce projet a été pour nous l’occasion de découvrir un logiciel puissant
d’analyse de données symboliques : le logiciel SODAS. Cet outil nous a permis d’extraire des
connaissances d’une importante base de données relationnelles et d’appliquer des méthodes
de statistique descriptive, de dissimilarité, de clustering et de discrimination.

La grande flexibilité de ce logiciel associée à la puissance de ses diverses représentations
graphiques a mis en évidence des résultats pertinents et facilement interprétables et de révéler
des faits que nous ne soupçonnions pas comme le fait qu’il y ai un lien entre la dépression et
la présence d’un nombre de pics anormaux dans l’électrocardiogramme. A partir des
déductions faites sur cette étude, nous avons pu élargir le problème à d’autres champs,
d’autres questions auxquels il serait intéressant de trouver des réponses comme : y’a-t-il un
lien entre certains paramètres cardiaques et un risque de décès. Répondre à cette question
pourrait aider certains médecins à anticiper sur certains traitements.

Cette étude peut aussi être affinée en rajoutant d’autres variables comme la consommation de
nicotine, le poids, le périmètre abdominal, la profession et l’origine ethnique.

Ksenia TITOVA 44 / 44 2007/2008

Rapport cardiologie 2

Recommandé

Recommandé

Contenu connexe

Tendances

Tendances (6)

Similaire à Rapport cardiologie 2

Similaire à Rapport cardiologie 2 (20)

Rapport cardiologie 2