SlideShare une entreprise Scribd logo
Data Mining
Data-mining@esprit.tn ESPRIT©2013-2014
TP n°2 : Méthodes de classification
Ben harrath arij 4infini
Note
Ce TP est à rendre en fin de séance.
NB : N’oublier pas de mentionner vos interprétations et constatations après chaque résultat
Objectifs généraux
Dans ce TP, nous allons appliquer les méthodes de
classification sur des échantillons de données.
Objectifs spécifiques
 Importer les données
 Réaliser quelques statistiques descriptives sur les variables actives ;
 Centrer et réduire les variables
 Réaliser la classification automatique via les K-Means sur les variables transformées, en fixant le nombre de classes
et via la classification ascendante hiérarchique
 Visualiser les données avec la nouvelle colonne représentant la classe d’appartenance des individus
 Illustrer les classes à l’aide des variables actives, via des statistiques descriptives comparatives et des graphiques
judicieusement choisis
 Croiser la partition obtenue avec une variable catégorielle illustrative
Segmentation et Classification d’un ensemble
de véhicules
On utilise le fichier « cars_dataset.txt », un fichier
texte avec séparateur tabulation. Il décrit les
caractéristiques de 392 véhicules.
Les variables actives qui participeront au calcul sont
:
 la consommation (MPG, miles per galon, plus le
chiffre est élevé, moins la voiture consomme)
 la taille du moteur (DISPLACEMENT)
 la puissance (HORSEPOWER)
 le poids (WEIGHT)
 l’accélération (ACCELERATION, le temps mis
pour atteindre une certaine vitesse, plus le
chiffre est faible plus la voiture est
performante).
La variable illustrative « origine des véhicules »
(ORIGIN : Japon, Europe, Etats Unis) servira à
renforcer l’interprétation des groupes.
Sources :
http://eric.univ-lyon2.fr/~ricco/tanagra/fichiers/cars_dataset.zip
http://lib.stat.cmu.edu/datasets/cars.desc
Data Mining
Data-mining@esprit.tn ESPRIT©2013-2014
I.Classification avec R
A. K-Means (Méthodes des Centres Mobiles)
1. Importation des données et statistiques descriptives : (sans package additionnel spécifique)
Donner les statistiques descriptives :
2. Centrage et réduction :
Pour centrer et réduire les données, on doit commencer tout d’abord par la construction d’une fonction«
centrage_reduction » qui centre et réduit une colonne, qu’on applique à l’ensemble desvariables actives
avec apply(……..)
Pour ce faire, on propose d’exécuter la fonction de standardisation de colonne suivante :
# Exécuter la fonction de standardisation d'une colonne
centrage_reduction<- function(x)
{
return((x-mean(x))/sqrt(var(x)))
}
Obtention du tableau des données centrées et réduites
# Appliquer pour produire le tableau des données centrées et réduites
voitures.cr <- apply(voitures[,1:5],2,centrage_reduction)
# Vérification des moyennes
apply(voitures.cr,2,mean)
# Vérification de la variance
apply(voitures.cr,2,var)
# Importation des données
setwd("")
voitures <- read.table(file=file.choose(),header=T,row.names=1 )
# Description et statistiques descriptives
summary(voitures)
Interprétation de la moyenne et de la variance des colonnes :
Ses colonnes sont de moyenne nulle et de variance unitaire
Data Mining
Data-mining@esprit.tn ESPRIT©2013-2014
3. Application de la méthode des Centres Mobiles (K-Means)
Maintenant, on lance l’algorithme K-Means sur les variables centrées et réduites.
On propose de concevoir une partition de deux groupes (deux clusters), en se limitant à 40 itérations.
i. Expliquer les paramètres basiques de la fonction R kmeans()
ii. En déduire le code suivant :
iii. Expliquer le résultat obtenu : (K-means clustering, cluster means, clustering vector)
4. Interprétation des groupes d’appartenance :
est une méthode de quantification vectorielle, originaire de traitement du signal, qui est populaire pour l'analyse de
cluster dans l'extraction de données. k-means vise à diviser n observations en k grappes dans lequel chaque
observation appartient à la grappe avec la moyenne la plus proche, servant de prototype de la grappe.
x : Matrice de données. Centers : Le nombre de clusters.
Iter.max : Le nombre maximum des itérations permises.
# K-means en deux groupes
nb.classes <-2
voitures.kmeans <- kmeans(voitures.cr,centers=nb.classes,iter.max=40)
print()
Data Mining
Data-mining@esprit.tn ESPRIT©2013-2014
 Pour l’interprétation des groupes, on calcule les moyennes conditionnelles des variables actives
originelles. On les collecte dans une seule matrice à l’aide des commandes suivantes :
#récupération des groupes d'appartenance
groupe <- as.factor(voitures.kmeans$cluster)
#calculer les barycentres des classes
#dans l'espace des variables actives initiales (numéro 1 à 5)
centres<- NULL
for (k in 1:nb.classes){
ligne <- colMeans(voitures[groupe==k,1:5,drop=FALSE])
centres<- rbind(centres,ligne)
}
numero<- seq(from=1,to=nb.classes)
rownames(centres) <- paste("clus_",numero,sep="")
print(centres)
 interprétations :
 Pour croiser les clusters avec la variable catégorielle illustrative ORIGIN, on introduit la commande
« table » :
 Compléter le tableau de contingence suivant :
1 2
Americain 100 145
European 0 68
Japanese 0 79
Le Deuxième groupe contient des voitures américaine, européenne et japonaise (Profil euro-japonais).
Le Premier groupe est de 100% américain (Profil américain).
Un tableau de contingence est une méthode de représentation de données découlant d’un comptage. Les
données sont rassemblées dans un tableau avec le caractère auquel elles sont reliées.
On pratique des études sur plusieurs caractères, en essayant alors de déterminer s'il existe une quelconque
liaison entre eux. Pour cela on étudie les individus recensant plusieurs caractères à la fois.
Pour projeter les points, illustrés selon leur groupe d’appartenance, dans les plans formés par les couples de
variables, R démontre toute sa puissance. La commande utilisée est « pairs » le résultat est riche
d’enseignements : les variables sont pour la plupart fortement corrélées, presque tous les couples de
variables permettent de distinguer les groupes :
#croisement des clusters avec la variable illustrative catégorielle
print(table(voitures$origin,groupe))
Data Mining
Data-mining@esprit.tn ESPRIT©2013-2014
#graphique des variables 2 à 2 avec groupe d'appaternance
>pairs(voitures[,1:5],pch=21,bg=c("red","blue")[groupe])
La projection de point, selon leur groupe d’appartenance, dans les plans formés par les couples de
variable,
les variables sont pour la plupart fortement corrélées, presque tous les couples de variables
permettent de distinguer les groupes
5. Combinaison ACP / K-Means :
Dans le but de trouver un outil permettant de bien situer les groupes, on propose de projeter les points
dans le premier plan factoriel de l’Analyse en Composantes Principales.
Data Mining
Data-mining@esprit.tn ESPRIT©2013-2014
Pour ce faire, appliquer les lignes de commandes suivantes :
#ACP sur les données centrées réduites
acp<- princomp(voitures.cr,cor=T,scores=T)
print(acp)
#pour obtenir les valeurs propres
print(acp$sdev^2)
#pour obtenir les corrélations sur le premier axe
print(acp$loadings[,1]*acp$sdev[1])
#graphique dans le premier plan factoriel, avec mise en évidence des groupes
plot(acp$scores[,1],acp$scores[,2],type="p",pch=21,col=c("red","blue")[groupe])
Remarque : vous pouvez utiliser la fonction prédéfinie PCA de FactoMineR
 Montrer les projections sur les plans factorielles, et en déduire vos conclusions
6. Exportation des données :
Durant cette dernière étape du processus K-means, on exporte l’ensemble des données dans un seul
fichier en fusionnant la base initiale avec lacolonne additionnelle produite par la typologie.
#exportation des données avec le cluster d'appartenance
voitures.export<- cbind(voitures,groupe)
write.table(voitures.export,file="export_r.txt",sep="t",dec=".",row.names=F)
 Vérifier la création du nouveau fichier « export_r.txt » sur votre répertoire courant, et faire le joindre avec
votre compte-rendu.
pca=PCA(voitures[,1:5], quali.sup=5);
L’axe horizontal pour la dimension contient 88.91% de l’information.
- Les variables (horspower, display, weight) sont corrolées avec le premier axe positivement
- mpg est corrollé négativement.
Data Mining
Data-mining@esprit.tn ESPRIT©2013-2014
En déduire vos interprétations finales sous forme de
rapport final (la partie la plus importante dans tous les
TP Data Mining)
 On constate avec la méthode kmeans que la classification de notre entrepôt de donnée est divisé en 2
groupes.
 La méthode K-Means est une technique de classification automatique qui vise à produire des
regroupements de manière à ce que les individus du même groupe soient semblables.
 Le lancement de l’algorithme k-means sur les variables centrées réduites nous a permet de concevoir la
Répartition de deux groupes (deux clusters) donc à diviser les données en cas groupes (classes) pour minimiser
les distances entre les points et les centres des classes.
Data Mining
Data-mining@esprit.tn ESPRIT©2013-2014
B. Classification Ascendante Hiérarchique
On désire refaire la classification sur les modèles de voitures avec la Classification Ascendante Hiérarchique sur la On
a plusieurs choix pour l’option : distance, selon la fonction dist().
 Expliquer l’utilité de cette fonction grâce à la commande « ? dist() »
Appliquer cette fonction sur l’entrepôt des voitures donnés
 Ecrire la ligne de commande utilisée :
 Décrire le principe d’utilisation de la fonction « hclust »
 En déduire le dendrogramme associé :
Cette fonction calcule et renvoie la matrice de distance calculée à l'aide de la mesure de distance spécifiée pour
calculer les distances entre les lignes d'une matrice de données.
> d<-dist(voitures.cr ,method="euclidean")
HC<-hclust(d,method="average")
plot(HC)
Data Mining
Data-mining@esprit.tn ESPRIT©2013-2014
 On va utiliser la fonction cutree pour couper le dendrogramme afin d’avoir 2 classes.
> classe<-cutree(HC,2)
 Croiser les clusters avec la variable catégorielle illustrative ORIGIN
 Compléter le tableau de contingence suivant :
1 2
Americain 148 97
European 68 0
Japanese 79 0
On Constate que le Premier groupe se forme de 3 type de voiture c’est hétérogène
Le deuxième groupe est homogène il s’agit de 100% (97 voiture américaine )
> table(voitures$origin,classe)
Data Mining
Data-mining@esprit.tn ESPRIT©2013-2014
II. Classification avec SAS
A. K-Means (Méthodes des Centres Mobiles)
1. Importation des données
2. Normalisation des données (centrage et réduction)
3. Application de la méthode des K-moyennes
PROC FASTCLUS DATA= A OUT= BOUTSTAT= CMEAN=D MAXITER=CONVERGENCE= DELETE= CLUSTER= DRIFT
MAXC= /RADIUS=
VAR liste des variables quantitatives étudiées ;
ID nom de la variable comportant le nom des individus ;
WEIGH Tvariable ;
RUN ;
N.B. souligné = facultatif
On doit spécifier soit l’option
MAXC= ou RADIUS= option ou les deux.
FASTCLUS signifie FAST CLUSTERING (= classification rapide)
A = Nom donné à la table SAS contenant les données
B = Nom de la table SAS, créée automatiquement par SAS contenant, entre autre, la variable CLUSTER(les
assignements de classes) et la variable DISTANCE (distance séparant l’individu du centre de la classe)
C =Nom de la table contenant un résumé de l’analyse (classes,...).
D= Nom de la table contenant les moyennes dans les classes et d’autres statistiques pour chaque classe : FREQ_:
effectif de la classe ; _RMSSTD_ : inertie intra-classe ; _NEAR_ :no de la classe la + proche ; _GAP_ : distance entre
le centre et l’autre centre le + proche ; _RADIUS_ : distance max entre 1 individu et son centre ; X, Y : coordonnées
du centre de la classe
DELETE=n supprime les centres avec ≤ n individus rattachés (pour éviter d’avoir pour centre un « outlier »)
MAXC=n spécifie le nombre maximum de classes toléré, égal à 100 par défaut.
MAXITER=n spécifie le nombre maximum d’itérations toléré pour recalculer les centres.
converge=0.02 : les itérations s’arrêtent quand plus aucun centre ne se déplace d’une distance > 0.02
Data cars;
infile'C:SAScars_dataset.txt' 'expandtabs
firstobs=2; *La première ligne contient les noms des variables*
input mpg displacement horsepower weight acceleration
origin$;
run;
Proc standard mean=0 std=1 data=cars out=cars_std;
Var mpg displacement horsepower weight acceleration;
run;
Data Mining
Data-mining@esprit.tn ESPRIT©2013-2014
DRIFT : pour remplacer la méthode des centres mobiles par celle des k-means (convergence plus rapide)
RADIUS=d : spécifie la distance minimale entre 2 centres initiaux (= 0 par défaut)
REPLACE=none : accélère la phase de sélection des centres initiaux en empêchant les substitutions des centres les
plus proches (choisir alors « radius » assez grand) –mieux vaut laisser l’option par défaut « replace=full »
4. Table de contingence
5. Application d’une analyse en composantes principales avec K-means
PROC FASTCLUS
DATA = cars
MAXCLUSTERS=2 OUT=Fastclus1;
VAR mpg displacement horsepower weight acceleration;
ID origin;
RUN;
Proc freq data=Fastclus1;
Tables origin * cluster;
run;
%macro acp(table,vars,ids);
Proc princomp data=&table out=acp vardef=wgt;
ods output Eigenvalues=eigenvalues Eigenvectors=eigenvectors;
var &vars;
run;
proc transpose data=eigenvalues out=teigenvalues(drop=_name_) prefix=lambda;
var eigenvalue;
run;
Proc sql;
select count(*) into :avars from eigenvalues;
quit;
data eigenvectors;
if _n_ = 1 then set teigenvalues;
set eigenvectors;
array c{*} prin1-prin%trim(&avars);
array l{*} lambda1-lambda%trim(&avars);
do i=1 to &avars;
c(i)=c(i)*sqrt(l(i));
end;
keep variable prin1-prin%trim(&avars);
run;
proc gplot data=eigenvalues;
symbol i=join v=dot pointlabel=none;
plot (eigenvalue difference)*Number / overlay legend;
plot2 (proportion cumulative)*Number / overlay legend;
run;
quit;
%mend;
%acp(carsFile,mpg displacement horsepower weight acceleration,ACP);
%macro acp_plot(axe1,axe2,id);
PROC GPLOT DATA=ACP;
PLOT prin&axe2*prin&axe1 = &id;
run;
%mend;
%acp_plot(1,2,cluster);
Data Mining
Data-mining@esprit.tn ESPRIT©2013-2014
B. Classification Ascendante Hiérarchique
PROC CLUSTER DATA=A METHOD=methodeutiliséeOUTTREE=D SIMPLESTDRSQCCCPSEUDO;
VAR liste des variables quantitatives étudiées ;
ID nomid;
WEIGHT variable ;
PROC TREE DATA= D NCL=nombre de classes voulues OUT=C(rename=(_NAME_=nomid) RUN;
nomid=nom de la variable comportant le nom des individus
A= table de données
D=table stockant les informations nécessaires pour réaliser le dendrogramme
C=table de stockage des numéros de classes
STD : Standardisation des variables
SIMPLE : statistiques simples sur les données
RSQ : édition du R-squared et semi-partial R-squared
CCC : édition du CCC
PSEUDO : édition du pseudo-F
METHOD= méthode d’agrégation utilisée. Il y a 11 méthodes, dont :
 AVERAGE, average linkage
 CENTROID : méthode des centroïdes
 COMPLETE : complete linkage
 SINGLE : single linkage
 WARD : méthode de ward
 Appliquer la classification ascendante hiérarchique pour avoir 2 classes
PROC CLUSTER
DATA=cars_std
METHOD=AVERAGE
OUTTREE=ProjClusterAverage;
VAR mpg displacement horsepower weight acceleration;
ID Numero;
RUN ;
PROC TREE
DATA=ProjClusterAverage
OUT=ProjTreeAverage
NCL=2;
ID numero;
RUN ;
proc sort data=ProjTreeAverage;
by numero;
run;
DATA MeansClusterAverage ;
merge cars ProjTreeAverage; ;
RUN;
Proc sort DATA=MeansClusterAverage ;
BY numero;
run ;
Proc freq data=MeansClusterAverage;
Tables cluster * origin;
run;

Contenu connexe

Tendances

Analyse factorielle des_correspondances-afc
Analyse factorielle des_correspondances-afcAnalyse factorielle des_correspondances-afc
Analyse factorielle des_correspondances-afcRémi Bachelet
 
theories des jeux.pptx
theories des jeux.pptxtheories des jeux.pptx
theories des jeux.pptx
ABDERRAHMANALAADSSI
 
les arbres de décision ou de régression
les arbres de décision ou de régression les arbres de décision ou de régression
les arbres de décision ou de régression
Mariem Chaaben
 
Apprentissage supervisé.pdf
Apprentissage supervisé.pdfApprentissage supervisé.pdf
Apprentissage supervisé.pdf
hanamettali
 
Analyse de régression linéaire
Analyse de régression linéaire Analyse de régression linéaire
Analyse de régression linéaire
Adad Med Chérif
 
5.2 Régression linéaire
5.2 Régression linéaire5.2 Régression linéaire
5.2 Régression linéaire
Boris Guarisma
 
Exposé segmentation
Exposé segmentationExposé segmentation
Exposé segmentation
Donia Hammami
 
Seminaire datamining Ecole de Statistique et d'Economie Appliquée
Seminaire datamining Ecole de Statistique et d'Economie AppliquéeSeminaire datamining Ecole de Statistique et d'Economie Appliquée
Seminaire datamining Ecole de Statistique et d'Economie Appliquée
Jean Roger Mably
 
Cryptologie
Cryptologie Cryptologie
Cryptologie
YAZIDI Imran
 
Cours acp mehdi_aman
Cours acp mehdi_amanCours acp mehdi_aman
Cours acp mehdi_aman
Mehdi Aman
 
Techniques du data mining
Techniques du data miningTechniques du data mining
Techniques du data mining
Donia Hammami
 
Introduction au Data Mining et Méthodes Statistiques
Introduction au Data Mining et Méthodes StatistiquesIntroduction au Data Mining et Méthodes Statistiques
Introduction au Data Mining et Méthodes StatistiquesGiorgio Pauletto
 
Cours fouille de donn+®es part1
Cours fouille de donn+®es part1Cours fouille de donn+®es part1
Cours fouille de donn+®es part1Amani Baklouti
 
arbres de decision.ppt
arbres de decision.pptarbres de decision.ppt
arbres de decision.ppt
Jihane Elârrouchi
 
Data mining - ACP Analyse en Composantes Principales
Data mining - ACP Analyse en Composantes PrincipalesData mining - ACP Analyse en Composantes Principales
Data mining - ACP Analyse en Composantes Principales
Mohamed Heny SELMI
 
Cours datamining
Cours dataminingCours datamining
Cours datamining
sarah Benmerzouk
 
Knn
KnnKnn
Arbre de décision
Arbre de décisionArbre de décision
Arbre de décision
Yassine Badri
 
Ben harrath arijtp3 les règles d'association
Ben harrath arijtp3 les règles d'association Ben harrath arijtp3 les règles d'association
Ben harrath arijtp3 les règles d'association
ARIJ BenHarrath
 

Tendances (20)

Analyse factorielle des_correspondances-afc
Analyse factorielle des_correspondances-afcAnalyse factorielle des_correspondances-afc
Analyse factorielle des_correspondances-afc
 
theories des jeux.pptx
theories des jeux.pptxtheories des jeux.pptx
theories des jeux.pptx
 
les arbres de décision ou de régression
les arbres de décision ou de régression les arbres de décision ou de régression
les arbres de décision ou de régression
 
Apprentissage supervisé.pdf
Apprentissage supervisé.pdfApprentissage supervisé.pdf
Apprentissage supervisé.pdf
 
Analyse de régression linéaire
Analyse de régression linéaire Analyse de régression linéaire
Analyse de régression linéaire
 
5.2 Régression linéaire
5.2 Régression linéaire5.2 Régression linéaire
5.2 Régression linéaire
 
Exposé segmentation
Exposé segmentationExposé segmentation
Exposé segmentation
 
Seminaire datamining Ecole de Statistique et d'Economie Appliquée
Seminaire datamining Ecole de Statistique et d'Economie AppliquéeSeminaire datamining Ecole de Statistique et d'Economie Appliquée
Seminaire datamining Ecole de Statistique et d'Economie Appliquée
 
Cryptologie
Cryptologie Cryptologie
Cryptologie
 
Cours acp mehdi_aman
Cours acp mehdi_amanCours acp mehdi_aman
Cours acp mehdi_aman
 
Techniques du data mining
Techniques du data miningTechniques du data mining
Techniques du data mining
 
Introduction au Data Mining et Méthodes Statistiques
Introduction au Data Mining et Méthodes StatistiquesIntroduction au Data Mining et Méthodes Statistiques
Introduction au Data Mining et Méthodes Statistiques
 
Cours fouille de donn+®es part1
Cours fouille de donn+®es part1Cours fouille de donn+®es part1
Cours fouille de donn+®es part1
 
arbres de decision.ppt
arbres de decision.pptarbres de decision.ppt
arbres de decision.ppt
 
Data mining - ACP Analyse en Composantes Principales
Data mining - ACP Analyse en Composantes PrincipalesData mining - ACP Analyse en Composantes Principales
Data mining - ACP Analyse en Composantes Principales
 
(Cours régression)
(Cours régression)(Cours régression)
(Cours régression)
 
Cours datamining
Cours dataminingCours datamining
Cours datamining
 
Knn
KnnKnn
Knn
 
Arbre de décision
Arbre de décisionArbre de décision
Arbre de décision
 
Ben harrath arijtp3 les règles d'association
Ben harrath arijtp3 les règles d'association Ben harrath arijtp3 les règles d'association
Ben harrath arijtp3 les règles d'association
 

En vedette

An Empirical Comparison of Fast and Efficient Tools for Mining Textual Data
An Empirical Comparison of Fast and Efficient Tools for Mining Textual DataAn Empirical Comparison of Fast and Efficient Tools for Mining Textual Data
An Empirical Comparison of Fast and Efficient Tools for Mining Textual Data
vtunali
 
Clustering
ClusteringClustering
Clustering
Jagdeep Singh
 
Analyse de données avec R : Une petite introduction
Analyse de données avec R : Une petite introductionAnalyse de données avec R : Une petite introduction
Analyse de données avec R : Une petite introduction
Ahmadou DICKO
 
Chap8 basic cluster_analysis
Chap8 basic cluster_analysisChap8 basic cluster_analysis
Chap8 basic cluster_analysis
guru_prasadg
 
K means Clustering Algorithm
K means Clustering AlgorithmK means Clustering Algorithm
K means Clustering Algorithm
Kasun Ranga Wijeweera
 
Cluster analysis
Cluster analysisCluster analysis
Cluster analysis
Jewel Refran
 
Itzayana
ItzayanaItzayana
Itzayana
itzayanavaldez
 
PIC Torres Ferrel, Jorge Anderson
PIC  Torres Ferrel, Jorge AndersonPIC  Torres Ferrel, Jorge Anderson
PIC Torres Ferrel, Jorge Anderson
AndersonTF1995
 
Weiterbildung 2.0: Erfahrungen mit der MFG-Akademie-Lernplattform
Weiterbildung 2.0: Erfahrungen mit der MFG-Akademie-Lernplattform		 Weiterbildung 2.0: Erfahrungen mit der MFG-Akademie-Lernplattform
Weiterbildung 2.0: Erfahrungen mit der MFG-Akademie-Lernplattform Ulrich Winchenbach
 
Compréhension orga tôlerie
Compréhension orga tôlerieCompréhension orga tôlerie
Compréhension orga tôlerieLefab
 
Operación de-fraccionarios
Operación de-fraccionariosOperación de-fraccionarios
Operación de-fraccionarios
mafecarmon21
 
Der mobile Konsument
Der mobile KonsumentDer mobile Konsument
Der mobile Konsument
Connected-Blog
 
A la découverte des spécialités de l'Anjou
A la découverte des spécialités de l'Anjou A la découverte des spécialités de l'Anjou
A la découverte des spécialités de l'Anjou
mpaquic
 
SharePoint en action 2013 - IT-06 - Sauvegarde et recouvrement - Gaelle Tando...
SharePoint en action 2013 - IT-06 - Sauvegarde et recouvrement - Gaelle Tando...SharePoint en action 2013 - IT-06 - Sauvegarde et recouvrement - Gaelle Tando...
SharePoint en action 2013 - IT-06 - Sauvegarde et recouvrement - Gaelle Tando...
Marc Gagnon
 
Recursos web
Recursos webRecursos web
HADWARE Y SOFTWARE
HADWARE Y SOFTWAREHADWARE Y SOFTWARE
HADWARE Y SOFTWARE
melanyfarnes
 
System Center 2012, la machinerie de l'ITIL
System Center 2012, la machinerie de l'ITILSystem Center 2012, la machinerie de l'ITIL
System Center 2012, la machinerie de l'ITILMicrosoft Décideurs IT
 
Preguntas para responder (recuperado)
Preguntas para responder (recuperado)Preguntas para responder (recuperado)
Preguntas para responder (recuperado)
susatecn
 
Los vertebrados (frances) con musica
Los vertebrados (frances) con musicaLos vertebrados (frances) con musica
Los vertebrados (frances) con musica
mmecamp7
 

En vedette (20)

An Empirical Comparison of Fast and Efficient Tools for Mining Textual Data
An Empirical Comparison of Fast and Efficient Tools for Mining Textual DataAn Empirical Comparison of Fast and Efficient Tools for Mining Textual Data
An Empirical Comparison of Fast and Efficient Tools for Mining Textual Data
 
Clustering
ClusteringClustering
Clustering
 
Analyse de données avec R : Une petite introduction
Analyse de données avec R : Une petite introductionAnalyse de données avec R : Une petite introduction
Analyse de données avec R : Une petite introduction
 
Chap8 basic cluster_analysis
Chap8 basic cluster_analysisChap8 basic cluster_analysis
Chap8 basic cluster_analysis
 
K means Clustering Algorithm
K means Clustering AlgorithmK means Clustering Algorithm
K means Clustering Algorithm
 
Cluster analysis
Cluster analysisCluster analysis
Cluster analysis
 
Itzayana
ItzayanaItzayana
Itzayana
 
PIC Torres Ferrel, Jorge Anderson
PIC  Torres Ferrel, Jorge AndersonPIC  Torres Ferrel, Jorge Anderson
PIC Torres Ferrel, Jorge Anderson
 
Weiterbildung 2.0: Erfahrungen mit der MFG-Akademie-Lernplattform
Weiterbildung 2.0: Erfahrungen mit der MFG-Akademie-Lernplattform		 Weiterbildung 2.0: Erfahrungen mit der MFG-Akademie-Lernplattform
Weiterbildung 2.0: Erfahrungen mit der MFG-Akademie-Lernplattform
 
Compréhension orga tôlerie
Compréhension orga tôlerieCompréhension orga tôlerie
Compréhension orga tôlerie
 
Operación de-fraccionarios
Operación de-fraccionariosOperación de-fraccionarios
Operación de-fraccionarios
 
Der mobile Konsument
Der mobile KonsumentDer mobile Konsument
Der mobile Konsument
 
Histoires religieuses
Histoires religieusesHistoires religieuses
Histoires religieuses
 
A la découverte des spécialités de l'Anjou
A la découverte des spécialités de l'Anjou A la découverte des spécialités de l'Anjou
A la découverte des spécialités de l'Anjou
 
SharePoint en action 2013 - IT-06 - Sauvegarde et recouvrement - Gaelle Tando...
SharePoint en action 2013 - IT-06 - Sauvegarde et recouvrement - Gaelle Tando...SharePoint en action 2013 - IT-06 - Sauvegarde et recouvrement - Gaelle Tando...
SharePoint en action 2013 - IT-06 - Sauvegarde et recouvrement - Gaelle Tando...
 
Recursos web
Recursos webRecursos web
Recursos web
 
HADWARE Y SOFTWARE
HADWARE Y SOFTWAREHADWARE Y SOFTWARE
HADWARE Y SOFTWARE
 
System Center 2012, la machinerie de l'ITIL
System Center 2012, la machinerie de l'ITILSystem Center 2012, la machinerie de l'ITIL
System Center 2012, la machinerie de l'ITIL
 
Preguntas para responder (recuperado)
Preguntas para responder (recuperado)Preguntas para responder (recuperado)
Preguntas para responder (recuperado)
 
Los vertebrados (frances) con musica
Los vertebrados (frances) con musicaLos vertebrados (frances) con musica
Los vertebrados (frances) con musica
 

Similaire à Benharratharijtp2 classification

Analyse et optimisation des performances du moteur SQL Serveur
Analyse et optimisation des performances du moteur SQL ServeurAnalyse et optimisation des performances du moteur SQL Serveur
Analyse et optimisation des performances du moteur SQL Serveur
Microsoft Technet France
 
TP Fouille de données (Data Mining) et Apprentissage Machine
TP Fouille de données (Data Mining) et Apprentissage MachineTP Fouille de données (Data Mining) et Apprentissage Machine
TP Fouille de données (Data Mining) et Apprentissage Machine
Boubaker KHMILI
 
Examen de passage TDI - Synthèse V1 - 2015
Examen de passage TDI - Synthèse V1 - 2015Examen de passage TDI - Synthèse V1 - 2015
Examen de passage TDI - Synthèse V1 - 2015
exelibnet
 
Introduction_R.pdf
Introduction_R.pdfIntroduction_R.pdf
Introduction_R.pdf
JeanPhilippeTurcotte5
 
Cours de Matlab
Cours de MatlabCours de Matlab
Mat lab1
Mat lab1Mat lab1
Mat lab1fouadDD
 
Outilsdanalysefonctionnellesadt 160919140831
Outilsdanalysefonctionnellesadt 160919140831Outilsdanalysefonctionnellesadt 160919140831
Outilsdanalysefonctionnellesadt 160919140831
Lénaïc CAPELLE
 
La parallélisation au service de l'optimisation
La parallélisation au service de l'optimisationLa parallélisation au service de l'optimisation
La parallélisation au service de l'optimisation
ATOL Conseils et Développements
 
Ebook matlab
Ebook matlabEbook matlab
Ebook matlabN NASRI
 
Cours 01.pptx
Cours 01.pptxCours 01.pptx
Cours 01.pptx
azzazrachid1
 
Initiation r
Initiation rInitiation r
Machine Leargning_supérvisé.pptx
Machine Leargning_supérvisé.pptxMachine Leargning_supérvisé.pptx
Machine Leargning_supérvisé.pptx
bely26
 
1 tdi synthese_principale_v2_2015.docx
1 tdi synthese_principale_v2_2015.docx1 tdi synthese_principale_v2_2015.docx
1 tdi synthese_principale_v2_2015.docx
khawla sdid
 
Data Mining (Partie 2).pdf
Data Mining (Partie 2).pdfData Mining (Partie 2).pdf
Data Mining (Partie 2).pdf
OuailChoukhairi
 
myXtraction, une solution innovante
myXtraction, une solution innovantemyXtraction, une solution innovante
myXtraction, une solution innovanteLASSA Rafik
 
Fork / Join, Parallel Arrays, Lambdas : la programmation parallèle (trop ?) f...
Fork / Join, Parallel Arrays, Lambdas : la programmation parallèle (trop ?) f...Fork / Join, Parallel Arrays, Lambdas : la programmation parallèle (trop ?) f...
Fork / Join, Parallel Arrays, Lambdas : la programmation parallèle (trop ?) f...
Normandy JUG
 
ALT.NET Modéliser Parallèle avec C# 4.0
ALT.NET Modéliser Parallèle avec C# 4.0ALT.NET Modéliser Parallèle avec C# 4.0
ALT.NET Modéliser Parallèle avec C# 4.0
Bruno Boucard
 
Tp2 matlab
Tp2 matlab Tp2 matlab
Tp2 matlab
Wajdi Ben Helal
 
57277345 cours-matlab
57277345 cours-matlab57277345 cours-matlab
57277345 cours-matlabgeniem1
 

Similaire à Benharratharijtp2 classification (20)

Analyse et optimisation des performances du moteur SQL Serveur
Analyse et optimisation des performances du moteur SQL ServeurAnalyse et optimisation des performances du moteur SQL Serveur
Analyse et optimisation des performances du moteur SQL Serveur
 
TP Fouille de données (Data Mining) et Apprentissage Machine
TP Fouille de données (Data Mining) et Apprentissage MachineTP Fouille de données (Data Mining) et Apprentissage Machine
TP Fouille de données (Data Mining) et Apprentissage Machine
 
Examen de passage TDI - Synthèse V1 - 2015
Examen de passage TDI - Synthèse V1 - 2015Examen de passage TDI - Synthèse V1 - 2015
Examen de passage TDI - Synthèse V1 - 2015
 
Introduction_R.pdf
Introduction_R.pdfIntroduction_R.pdf
Introduction_R.pdf
 
Cours de Matlab
Cours de MatlabCours de Matlab
Cours de Matlab
 
Mat lab1
Mat lab1Mat lab1
Mat lab1
 
Outilsdanalysefonctionnellesadt 160919140831
Outilsdanalysefonctionnellesadt 160919140831Outilsdanalysefonctionnellesadt 160919140831
Outilsdanalysefonctionnellesadt 160919140831
 
La parallélisation au service de l'optimisation
La parallélisation au service de l'optimisationLa parallélisation au service de l'optimisation
La parallélisation au service de l'optimisation
 
Ebook matlab
Ebook matlabEbook matlab
Ebook matlab
 
Cours 01.pptx
Cours 01.pptxCours 01.pptx
Cours 01.pptx
 
Initiation r
Initiation rInitiation r
Initiation r
 
Machine Leargning_supérvisé.pptx
Machine Leargning_supérvisé.pptxMachine Leargning_supérvisé.pptx
Machine Leargning_supérvisé.pptx
 
1 tdi synthese_principale_v2_2015.docx
1 tdi synthese_principale_v2_2015.docx1 tdi synthese_principale_v2_2015.docx
1 tdi synthese_principale_v2_2015.docx
 
Data Mining (Partie 2).pdf
Data Mining (Partie 2).pdfData Mining (Partie 2).pdf
Data Mining (Partie 2).pdf
 
myXtraction, une solution innovante
myXtraction, une solution innovantemyXtraction, une solution innovante
myXtraction, une solution innovante
 
Dijkstra kshortest
Dijkstra kshortestDijkstra kshortest
Dijkstra kshortest
 
Fork / Join, Parallel Arrays, Lambdas : la programmation parallèle (trop ?) f...
Fork / Join, Parallel Arrays, Lambdas : la programmation parallèle (trop ?) f...Fork / Join, Parallel Arrays, Lambdas : la programmation parallèle (trop ?) f...
Fork / Join, Parallel Arrays, Lambdas : la programmation parallèle (trop ?) f...
 
ALT.NET Modéliser Parallèle avec C# 4.0
ALT.NET Modéliser Parallèle avec C# 4.0ALT.NET Modéliser Parallèle avec C# 4.0
ALT.NET Modéliser Parallèle avec C# 4.0
 
Tp2 matlab
Tp2 matlab Tp2 matlab
Tp2 matlab
 
57277345 cours-matlab
57277345 cours-matlab57277345 cours-matlab
57277345 cours-matlab
 

Dernier

Webinaire_les aides aux investissements.pptx
Webinaire_les aides aux investissements.pptxWebinaire_les aides aux investissements.pptx
Webinaire_les aides aux investissements.pptx
Institut de l'Elevage - Idele
 
Les Français et les élections législatives
Les Français et les élections législativesLes Français et les élections législatives
Les Français et les élections législatives
contact Elabe
 
Etat de l’opinion - Journée CCR CAT « Protégeons l’assurabilité »
Etat de l’opinion - Journée CCR CAT « Protégeons l’assurabilité »Etat de l’opinion - Journée CCR CAT « Protégeons l’assurabilité »
Etat de l’opinion - Journée CCR CAT « Protégeons l’assurabilité »
contact Elabe
 
L'Observatoire politique ELABE pour Les Echos - Juin 2024
L'Observatoire politique ELABE pour Les Echos - Juin 2024L'Observatoire politique ELABE pour Les Echos - Juin 2024
L'Observatoire politique ELABE pour Les Echos - Juin 2024
contact Elabe
 
Rapport annuel de Max Havelaar France 2023
Rapport annuel de Max Havelaar France 2023Rapport annuel de Max Havelaar France 2023
Rapport annuel de Max Havelaar France 2023
bonanniromane89
 
Productivité et politique industrielles: deux défis à relever conjointement
Productivité et politique industrielles: deux défis à relever conjointementProductivité et politique industrielles: deux défis à relever conjointement
Productivité et politique industrielles: deux défis à relever conjointement
La Fabrique de l'industrie
 
Sondage ELABE pour Les Echos et l'Institut Montaigne -Les Français et la guer...
Sondage ELABE pour Les Echos et l'Institut Montaigne -Les Français et la guer...Sondage ELABE pour Les Echos et l'Institut Montaigne -Les Français et la guer...
Sondage ELABE pour Les Echos et l'Institut Montaigne -Les Français et la guer...
contact Elabe
 

Dernier (7)

Webinaire_les aides aux investissements.pptx
Webinaire_les aides aux investissements.pptxWebinaire_les aides aux investissements.pptx
Webinaire_les aides aux investissements.pptx
 
Les Français et les élections législatives
Les Français et les élections législativesLes Français et les élections législatives
Les Français et les élections législatives
 
Etat de l’opinion - Journée CCR CAT « Protégeons l’assurabilité »
Etat de l’opinion - Journée CCR CAT « Protégeons l’assurabilité »Etat de l’opinion - Journée CCR CAT « Protégeons l’assurabilité »
Etat de l’opinion - Journée CCR CAT « Protégeons l’assurabilité »
 
L'Observatoire politique ELABE pour Les Echos - Juin 2024
L'Observatoire politique ELABE pour Les Echos - Juin 2024L'Observatoire politique ELABE pour Les Echos - Juin 2024
L'Observatoire politique ELABE pour Les Echos - Juin 2024
 
Rapport annuel de Max Havelaar France 2023
Rapport annuel de Max Havelaar France 2023Rapport annuel de Max Havelaar France 2023
Rapport annuel de Max Havelaar France 2023
 
Productivité et politique industrielles: deux défis à relever conjointement
Productivité et politique industrielles: deux défis à relever conjointementProductivité et politique industrielles: deux défis à relever conjointement
Productivité et politique industrielles: deux défis à relever conjointement
 
Sondage ELABE pour Les Echos et l'Institut Montaigne -Les Français et la guer...
Sondage ELABE pour Les Echos et l'Institut Montaigne -Les Français et la guer...Sondage ELABE pour Les Echos et l'Institut Montaigne -Les Français et la guer...
Sondage ELABE pour Les Echos et l'Institut Montaigne -Les Français et la guer...
 

Benharratharijtp2 classification

  • 1. Data Mining Data-mining@esprit.tn ESPRIT©2013-2014 TP n°2 : Méthodes de classification Ben harrath arij 4infini Note Ce TP est à rendre en fin de séance. NB : N’oublier pas de mentionner vos interprétations et constatations après chaque résultat Objectifs généraux Dans ce TP, nous allons appliquer les méthodes de classification sur des échantillons de données. Objectifs spécifiques  Importer les données  Réaliser quelques statistiques descriptives sur les variables actives ;  Centrer et réduire les variables  Réaliser la classification automatique via les K-Means sur les variables transformées, en fixant le nombre de classes et via la classification ascendante hiérarchique  Visualiser les données avec la nouvelle colonne représentant la classe d’appartenance des individus  Illustrer les classes à l’aide des variables actives, via des statistiques descriptives comparatives et des graphiques judicieusement choisis  Croiser la partition obtenue avec une variable catégorielle illustrative Segmentation et Classification d’un ensemble de véhicules On utilise le fichier « cars_dataset.txt », un fichier texte avec séparateur tabulation. Il décrit les caractéristiques de 392 véhicules. Les variables actives qui participeront au calcul sont :  la consommation (MPG, miles per galon, plus le chiffre est élevé, moins la voiture consomme)  la taille du moteur (DISPLACEMENT)  la puissance (HORSEPOWER)  le poids (WEIGHT)  l’accélération (ACCELERATION, le temps mis pour atteindre une certaine vitesse, plus le chiffre est faible plus la voiture est performante). La variable illustrative « origine des véhicules » (ORIGIN : Japon, Europe, Etats Unis) servira à renforcer l’interprétation des groupes. Sources : http://eric.univ-lyon2.fr/~ricco/tanagra/fichiers/cars_dataset.zip http://lib.stat.cmu.edu/datasets/cars.desc
  • 2. Data Mining Data-mining@esprit.tn ESPRIT©2013-2014 I.Classification avec R A. K-Means (Méthodes des Centres Mobiles) 1. Importation des données et statistiques descriptives : (sans package additionnel spécifique) Donner les statistiques descriptives : 2. Centrage et réduction : Pour centrer et réduire les données, on doit commencer tout d’abord par la construction d’une fonction« centrage_reduction » qui centre et réduit une colonne, qu’on applique à l’ensemble desvariables actives avec apply(……..) Pour ce faire, on propose d’exécuter la fonction de standardisation de colonne suivante : # Exécuter la fonction de standardisation d'une colonne centrage_reduction<- function(x) { return((x-mean(x))/sqrt(var(x))) } Obtention du tableau des données centrées et réduites # Appliquer pour produire le tableau des données centrées et réduites voitures.cr <- apply(voitures[,1:5],2,centrage_reduction) # Vérification des moyennes apply(voitures.cr,2,mean) # Vérification de la variance apply(voitures.cr,2,var) # Importation des données setwd("") voitures <- read.table(file=file.choose(),header=T,row.names=1 ) # Description et statistiques descriptives summary(voitures) Interprétation de la moyenne et de la variance des colonnes : Ses colonnes sont de moyenne nulle et de variance unitaire
  • 3. Data Mining Data-mining@esprit.tn ESPRIT©2013-2014 3. Application de la méthode des Centres Mobiles (K-Means) Maintenant, on lance l’algorithme K-Means sur les variables centrées et réduites. On propose de concevoir une partition de deux groupes (deux clusters), en se limitant à 40 itérations. i. Expliquer les paramètres basiques de la fonction R kmeans() ii. En déduire le code suivant : iii. Expliquer le résultat obtenu : (K-means clustering, cluster means, clustering vector) 4. Interprétation des groupes d’appartenance : est une méthode de quantification vectorielle, originaire de traitement du signal, qui est populaire pour l'analyse de cluster dans l'extraction de données. k-means vise à diviser n observations en k grappes dans lequel chaque observation appartient à la grappe avec la moyenne la plus proche, servant de prototype de la grappe. x : Matrice de données. Centers : Le nombre de clusters. Iter.max : Le nombre maximum des itérations permises. # K-means en deux groupes nb.classes <-2 voitures.kmeans <- kmeans(voitures.cr,centers=nb.classes,iter.max=40) print()
  • 4. Data Mining Data-mining@esprit.tn ESPRIT©2013-2014  Pour l’interprétation des groupes, on calcule les moyennes conditionnelles des variables actives originelles. On les collecte dans une seule matrice à l’aide des commandes suivantes : #récupération des groupes d'appartenance groupe <- as.factor(voitures.kmeans$cluster) #calculer les barycentres des classes #dans l'espace des variables actives initiales (numéro 1 à 5) centres<- NULL for (k in 1:nb.classes){ ligne <- colMeans(voitures[groupe==k,1:5,drop=FALSE]) centres<- rbind(centres,ligne) } numero<- seq(from=1,to=nb.classes) rownames(centres) <- paste("clus_",numero,sep="") print(centres)  interprétations :  Pour croiser les clusters avec la variable catégorielle illustrative ORIGIN, on introduit la commande « table » :  Compléter le tableau de contingence suivant : 1 2 Americain 100 145 European 0 68 Japanese 0 79 Le Deuxième groupe contient des voitures américaine, européenne et japonaise (Profil euro-japonais). Le Premier groupe est de 100% américain (Profil américain). Un tableau de contingence est une méthode de représentation de données découlant d’un comptage. Les données sont rassemblées dans un tableau avec le caractère auquel elles sont reliées. On pratique des études sur plusieurs caractères, en essayant alors de déterminer s'il existe une quelconque liaison entre eux. Pour cela on étudie les individus recensant plusieurs caractères à la fois. Pour projeter les points, illustrés selon leur groupe d’appartenance, dans les plans formés par les couples de variables, R démontre toute sa puissance. La commande utilisée est « pairs » le résultat est riche d’enseignements : les variables sont pour la plupart fortement corrélées, presque tous les couples de variables permettent de distinguer les groupes : #croisement des clusters avec la variable illustrative catégorielle print(table(voitures$origin,groupe))
  • 5. Data Mining Data-mining@esprit.tn ESPRIT©2013-2014 #graphique des variables 2 à 2 avec groupe d'appaternance >pairs(voitures[,1:5],pch=21,bg=c("red","blue")[groupe]) La projection de point, selon leur groupe d’appartenance, dans les plans formés par les couples de variable, les variables sont pour la plupart fortement corrélées, presque tous les couples de variables permettent de distinguer les groupes 5. Combinaison ACP / K-Means : Dans le but de trouver un outil permettant de bien situer les groupes, on propose de projeter les points dans le premier plan factoriel de l’Analyse en Composantes Principales.
  • 6. Data Mining Data-mining@esprit.tn ESPRIT©2013-2014 Pour ce faire, appliquer les lignes de commandes suivantes : #ACP sur les données centrées réduites acp<- princomp(voitures.cr,cor=T,scores=T) print(acp) #pour obtenir les valeurs propres print(acp$sdev^2) #pour obtenir les corrélations sur le premier axe print(acp$loadings[,1]*acp$sdev[1]) #graphique dans le premier plan factoriel, avec mise en évidence des groupes plot(acp$scores[,1],acp$scores[,2],type="p",pch=21,col=c("red","blue")[groupe]) Remarque : vous pouvez utiliser la fonction prédéfinie PCA de FactoMineR  Montrer les projections sur les plans factorielles, et en déduire vos conclusions 6. Exportation des données : Durant cette dernière étape du processus K-means, on exporte l’ensemble des données dans un seul fichier en fusionnant la base initiale avec lacolonne additionnelle produite par la typologie. #exportation des données avec le cluster d'appartenance voitures.export<- cbind(voitures,groupe) write.table(voitures.export,file="export_r.txt",sep="t",dec=".",row.names=F)  Vérifier la création du nouveau fichier « export_r.txt » sur votre répertoire courant, et faire le joindre avec votre compte-rendu. pca=PCA(voitures[,1:5], quali.sup=5); L’axe horizontal pour la dimension contient 88.91% de l’information. - Les variables (horspower, display, weight) sont corrolées avec le premier axe positivement - mpg est corrollé négativement.
  • 7. Data Mining Data-mining@esprit.tn ESPRIT©2013-2014 En déduire vos interprétations finales sous forme de rapport final (la partie la plus importante dans tous les TP Data Mining)  On constate avec la méthode kmeans que la classification de notre entrepôt de donnée est divisé en 2 groupes.  La méthode K-Means est une technique de classification automatique qui vise à produire des regroupements de manière à ce que les individus du même groupe soient semblables.  Le lancement de l’algorithme k-means sur les variables centrées réduites nous a permet de concevoir la Répartition de deux groupes (deux clusters) donc à diviser les données en cas groupes (classes) pour minimiser les distances entre les points et les centres des classes.
  • 8. Data Mining Data-mining@esprit.tn ESPRIT©2013-2014 B. Classification Ascendante Hiérarchique On désire refaire la classification sur les modèles de voitures avec la Classification Ascendante Hiérarchique sur la On a plusieurs choix pour l’option : distance, selon la fonction dist().  Expliquer l’utilité de cette fonction grâce à la commande « ? dist() » Appliquer cette fonction sur l’entrepôt des voitures donnés  Ecrire la ligne de commande utilisée :  Décrire le principe d’utilisation de la fonction « hclust »  En déduire le dendrogramme associé : Cette fonction calcule et renvoie la matrice de distance calculée à l'aide de la mesure de distance spécifiée pour calculer les distances entre les lignes d'une matrice de données. > d<-dist(voitures.cr ,method="euclidean") HC<-hclust(d,method="average") plot(HC)
  • 9. Data Mining Data-mining@esprit.tn ESPRIT©2013-2014  On va utiliser la fonction cutree pour couper le dendrogramme afin d’avoir 2 classes. > classe<-cutree(HC,2)  Croiser les clusters avec la variable catégorielle illustrative ORIGIN  Compléter le tableau de contingence suivant : 1 2 Americain 148 97 European 68 0 Japanese 79 0 On Constate que le Premier groupe se forme de 3 type de voiture c’est hétérogène Le deuxième groupe est homogène il s’agit de 100% (97 voiture américaine ) > table(voitures$origin,classe)
  • 10. Data Mining Data-mining@esprit.tn ESPRIT©2013-2014 II. Classification avec SAS A. K-Means (Méthodes des Centres Mobiles) 1. Importation des données 2. Normalisation des données (centrage et réduction) 3. Application de la méthode des K-moyennes PROC FASTCLUS DATA= A OUT= BOUTSTAT= CMEAN=D MAXITER=CONVERGENCE= DELETE= CLUSTER= DRIFT MAXC= /RADIUS= VAR liste des variables quantitatives étudiées ; ID nom de la variable comportant le nom des individus ; WEIGH Tvariable ; RUN ; N.B. souligné = facultatif On doit spécifier soit l’option MAXC= ou RADIUS= option ou les deux. FASTCLUS signifie FAST CLUSTERING (= classification rapide) A = Nom donné à la table SAS contenant les données B = Nom de la table SAS, créée automatiquement par SAS contenant, entre autre, la variable CLUSTER(les assignements de classes) et la variable DISTANCE (distance séparant l’individu du centre de la classe) C =Nom de la table contenant un résumé de l’analyse (classes,...). D= Nom de la table contenant les moyennes dans les classes et d’autres statistiques pour chaque classe : FREQ_: effectif de la classe ; _RMSSTD_ : inertie intra-classe ; _NEAR_ :no de la classe la + proche ; _GAP_ : distance entre le centre et l’autre centre le + proche ; _RADIUS_ : distance max entre 1 individu et son centre ; X, Y : coordonnées du centre de la classe DELETE=n supprime les centres avec ≤ n individus rattachés (pour éviter d’avoir pour centre un « outlier ») MAXC=n spécifie le nombre maximum de classes toléré, égal à 100 par défaut. MAXITER=n spécifie le nombre maximum d’itérations toléré pour recalculer les centres. converge=0.02 : les itérations s’arrêtent quand plus aucun centre ne se déplace d’une distance > 0.02 Data cars; infile'C:SAScars_dataset.txt' 'expandtabs firstobs=2; *La première ligne contient les noms des variables* input mpg displacement horsepower weight acceleration origin$; run; Proc standard mean=0 std=1 data=cars out=cars_std; Var mpg displacement horsepower weight acceleration; run;
  • 11. Data Mining Data-mining@esprit.tn ESPRIT©2013-2014 DRIFT : pour remplacer la méthode des centres mobiles par celle des k-means (convergence plus rapide) RADIUS=d : spécifie la distance minimale entre 2 centres initiaux (= 0 par défaut) REPLACE=none : accélère la phase de sélection des centres initiaux en empêchant les substitutions des centres les plus proches (choisir alors « radius » assez grand) –mieux vaut laisser l’option par défaut « replace=full » 4. Table de contingence 5. Application d’une analyse en composantes principales avec K-means PROC FASTCLUS DATA = cars MAXCLUSTERS=2 OUT=Fastclus1; VAR mpg displacement horsepower weight acceleration; ID origin; RUN; Proc freq data=Fastclus1; Tables origin * cluster; run; %macro acp(table,vars,ids); Proc princomp data=&table out=acp vardef=wgt; ods output Eigenvalues=eigenvalues Eigenvectors=eigenvectors; var &vars; run; proc transpose data=eigenvalues out=teigenvalues(drop=_name_) prefix=lambda; var eigenvalue; run; Proc sql; select count(*) into :avars from eigenvalues; quit; data eigenvectors; if _n_ = 1 then set teigenvalues; set eigenvectors; array c{*} prin1-prin%trim(&avars); array l{*} lambda1-lambda%trim(&avars); do i=1 to &avars; c(i)=c(i)*sqrt(l(i)); end; keep variable prin1-prin%trim(&avars); run; proc gplot data=eigenvalues; symbol i=join v=dot pointlabel=none; plot (eigenvalue difference)*Number / overlay legend; plot2 (proportion cumulative)*Number / overlay legend; run; quit; %mend; %acp(carsFile,mpg displacement horsepower weight acceleration,ACP); %macro acp_plot(axe1,axe2,id); PROC GPLOT DATA=ACP; PLOT prin&axe2*prin&axe1 = &id; run; %mend; %acp_plot(1,2,cluster);
  • 12. Data Mining Data-mining@esprit.tn ESPRIT©2013-2014 B. Classification Ascendante Hiérarchique PROC CLUSTER DATA=A METHOD=methodeutiliséeOUTTREE=D SIMPLESTDRSQCCCPSEUDO; VAR liste des variables quantitatives étudiées ; ID nomid; WEIGHT variable ; PROC TREE DATA= D NCL=nombre de classes voulues OUT=C(rename=(_NAME_=nomid) RUN; nomid=nom de la variable comportant le nom des individus A= table de données D=table stockant les informations nécessaires pour réaliser le dendrogramme C=table de stockage des numéros de classes STD : Standardisation des variables SIMPLE : statistiques simples sur les données RSQ : édition du R-squared et semi-partial R-squared CCC : édition du CCC PSEUDO : édition du pseudo-F METHOD= méthode d’agrégation utilisée. Il y a 11 méthodes, dont :  AVERAGE, average linkage  CENTROID : méthode des centroïdes  COMPLETE : complete linkage  SINGLE : single linkage  WARD : méthode de ward  Appliquer la classification ascendante hiérarchique pour avoir 2 classes PROC CLUSTER DATA=cars_std METHOD=AVERAGE OUTTREE=ProjClusterAverage; VAR mpg displacement horsepower weight acceleration; ID Numero; RUN ; PROC TREE DATA=ProjClusterAverage OUT=ProjTreeAverage NCL=2; ID numero; RUN ; proc sort data=ProjTreeAverage; by numero; run; DATA MeansClusterAverage ; merge cars ProjTreeAverage; ; RUN; Proc sort DATA=MeansClusterAverage ; BY numero; run ; Proc freq data=MeansClusterAverage; Tables cluster * origin; run;