SlideShare une entreprise Scribd logo
1  sur  60
Télécharger pour lire hors ligne
Arthur CHARPENTIER - Analyse des donn´ees
Analyse des donn´ees (4)
La Classification (Ascendante) Hi´eracrchique
Arthur Charpentier
http ://perso.univ-rennes1.fr/arthur.charpentier/
blog.univ-rennes1.fr/arthur.charpentier/
Master 2, Universit´e Rennes 1
1
Arthur CHARPENTIER - Analyse des donn´ees
La classification, une introduction
Ici on cherche `a regrouper des objects pr´esentant des similitudes. De mani`ere
intuitive, on voit que le choix de la distance ne sera pas neutre.
L’id´ee est de constituer des groupes homog`enes. Il existe des m´ethodes
• non hi´erarchique ou dites de partitionnement
• hi´erarchique o`u on cherche `a construire des suites de partitions emboˆıt´ees,
contenant n, puis n − 1, puis n − 2, · · · classes, en regroupant `a chaque ´etape
deux parties.
Remarque rappelons que le nombre de partitions en k classes de n ´el´ements est
de l’ordre de kn
/k! et donc le nombre total de partitions d’un ensemble de n
´el´ement vaut
1
e
k≥1
kn
k!
. Aussi, avec n = 10 individus, il y a un peu plus de
100, 000 partitions possible, et pour n = 15, plus de 1.3 milliards.
=⇒ pour plus de 10 individus, il est impossible de comparer toutes les partitions
possibles.
Pour des variables continues, on utilise une distance euclidienne pour mesurer la
2
Arthur CHARPENTIER - Analyse des donn´ees
distance entre deux individus,
d2
(i1, i2) =
j
(Yi1,j − Yi2,j)
2
.
Pour des variables qualitatives, on utilise une distance du chi-deux pour mesurer
la distance entre deux individus, i.e. entre deux profils lignes
d2
(i1, i2) =
j
ni1,j
ni1,·
−
ni1,j
ni2,·
2
.
3
Arthur CHARPENTIER - Analyse des donn´ees
Exemple introductif, sur donn´ees continues
Consid´erons l’exmple au d´ecathlon, en athl´etisme
> library(ade4)
> data(olympic)
> head(olympic$tab)
100 long poid haut 400 110 disq perc jave 1500
1 11.25 7.43 15.48 2.27 48.90 15.13 49.28 4.7 61.32 268.95
2 10.87 7.45 14.97 1.97 47.71 14.46 44.36 5.1 61.76 273.02
3 11.18 7.44 14.20 1.97 48.29 14.81 43.66 5.2 64.16 263.20
4 10.62 7.38 15.02 2.03 49.06 14.72 44.80 4.9 64.04 285.11
5 11.02 7.43 12.92 1.97 47.44 14.40 41.20 5.2 57.46 256.64
6 10.83 7.72 13.58 2.12 48.34 14.18 43.06 4.9 52.18 274.07
Afin de comparer “proprement” les variables, on commence
• par centrer et r´eduire (afin de rendre comparable)
• par transformer certaines variables car elles ne s’interpr`ete pas de la mˆeme
mani`er : un score ´elev´e en haut signifie que la personne a saut´e haut en saut en
hauteur (ce qui est bon), mais un score ´elev´e en 100 signifie que la personne a
mis un temps long pour courrir le 100 m`etre (ce qui est mauvais)
4
Arthur CHARPENTIER - Analyse des donn´ees
On pose alors Yi,j = ±
Xi,j − Xj
sj
, avec un signe − pour les sports de course.
> Y=scale(olympic$tab, center=TRUE,scale=TRUE)
> Y[,c(1,5,6,10)]= -Y[,c(1,5,6,10)]
> distY=dist(Y, center=TRUE,scale=TRUE)
> distY
1 2 3 4 5 6
2 4.363550
3 4.108952 1.887325
4 4.183513 2.168189 3.185110
5 5.193806 2.385945 2.190279 3.979429
6 4.280036 2.937114 3.666441 3.346085 2.968765
7 5.074714 3.539372 3.339522 3.787598 4.012323 4.347930
5
Arthur CHARPENTIER - Analyse des donn´ees
Fig. 1 – Constitution de classes : regrouper des individus (et des classes).
6
Arthur CHARPENTIER - Analyse des donn´ees
Fig. 2 – Constitution de classes : regrouper des individus (et des classes).
7
Arthur CHARPENTIER - Analyse des donn´ees
Fig. 3 – Constitution de classes : regrouper des individus (et des classes).
8
Arthur CHARPENTIER - Analyse des donn´ees
Fig. 4 – Constitution de classes : regrouper des individus (et des classes).
9
Arthur CHARPENTIER - Analyse des donn´ees
Retour sur le d´ecathlon
20
10
18
7
4
11
6
5
13
1
14
12
15
8
9
2
3
17
28
30
31
32
26
24
25
21
22
16
23
33
29
19
27
05101520
Cluster Dendrogram
hclust (*, "ward")
Fig. 5 – Constitution de classes sur les sportifs du d´ecathlon.
10
Arthur CHARPENTIER - Analyse des donn´ees
Retour sur le d´ecathlon
−0.2 0.0 0.2 0.4
−0.20.00.20.4
Comp.1
Comp.2
1
1 1
2
1
1
2
1
1
2
2
1
1
1
1
3
4
2
3
2
3
3
3
3
3
3
3
4
3
4
4
4
3
−4 −2 0 2 4 6 8
−4−202468
100long
poid
haut
400
110
disq
perc
jave
1500
Fig. 6 – ACP avec les classes des sportifs du d´ecathlon.
11
Arthur CHARPENTIER - Analyse des donn´ees
Retour sur le d´ecathlon
−3 −2 −1 0 1 2 3 4
−2024
Component 1
Component2
These two components explain 57.84 % of the point variability.
q
q
q
q
q
q
q
q
q
q
q
1
2
3
4
Fig. 7 – ACP avec les classes des sportifs du d´ecathlon.
12
Arthur CHARPENTIER - Analyse des donn´ees
Notons qu’au lieu de regrouper les sportifs, on pourrait aussi regrouper les
variables.
> distY=dist(t(Y))
> distY
100 long poid haut 400 110 disq perc jave
long 5.428413
poid 7.119673 7.410709
haut 7.393370 6.820509 7.495809
400 5.022220 5.569466 8.369785 7.641971
110 4.810911 5.779988 6.713726 6.661003 5.390198
disq 7.808819 7.830512 3.520434 7.386813 8.549857 7.545075
perc 6.252612 6.450176 5.769002 7.096024 6.603470 5.533615 6.479676
jave 7.736813 7.236939 5.074343 7.521977 8.467736 7.744637 5.971090 6.815316
1500 6.877050 6.219523 9.011386 7.529835 5.139452 7.404658 9.473567 7.873012 8.376637
> hc <- hclust(distY, "ave")
> plot(hc)
> plot(hc, hang = -1)
13
Arthur CHARPENTIER - Analyse des donn´ees
jave
poid
disq
haut
400
1500
perc
long
100
110
34567
Cluster Dendrogram
hclust (*, "average")
distY
Height
jave
poid
disq
haut
400
1500
perc
long
100
110
345678
Cluster Dendrogram
hclust (*, "average")
distYHeight
Fig. 8 – Regroupement des sports du d´ecathlon
14
Arthur CHARPENTIER - Analyse des donn´ees
Notons que l’on peut aussi changer de distance, ou la m´ethode de regroupement,
par exemple,
> distY=dist(t(Y),method = "euclidean")
> hc <- hclust(distY, "average")
> plot(hc)
> distY=dist(t(Y),method = "canberra")
> hc <- hclust(distY, "single")
> plot(hc)
15
Arthur CHARPENTIER - Analyse des donn´ees
jave
poid
disq
haut
400
1500
perc
long
100
110
34567
Cluster Dendrogram
hclust (*, "average")
distY
Height
haut
jave
poid
disq
perc
long
1500
400
100
110
3.54.04.55.05.56.06.5
Cluster Dendrogram
hclust (*, "single")
distY
Height
jave
poid
disq
400
1500
haut
perc
long
100
110
2468101214
Cluster Dendrogram
hclust (*, "ward")
distY
Height
400
1500
jave
poid
disq
haut
perc
long
100
110
3456789
Cluster Dendrogram
hclust (*, "complete")
distY
Height
jave
poid
disq
haut
400
1500
perc
long
100
110
34567
Cluster Dendrogram
hclust (*, "average")
distY
Height
1500
400
long
disq
jave
poid
haut
100
110
perc
2530354045505560
Cluster Dendrogram
hclust (*, "single")
distY
Height
Fig. 9 – Regroupement(s) des sports du d´ecathlon 16
Arthur CHARPENTIER - Analyse des donn´ees
Exemple introductif, sur donn´ees qualitatives
On peut utiliser cette m´ethode pour ´etudier des regroupements de modalit´es, voir
quelles modalit´ees sont proches : classification sur un tableau de contingence.
Pour cela, on utilise une distance du chi-deux pour mesurer la proximit´e entre
des modalit´es. Par exemple sur le liens entre la CSP et la nationalit´e, on peut
´etudier des regroupements de lignes (i.e. de CSP),
> CSPnat=read.table("D:CSP-nat.txt",head=TRUE)
> mymat=CSPnat[,2:ncol(CSPnat)]
> mydf <- as.data.frame(mymat)
> mydf.coa <- dudi.coa(mydf, scannf = FALSE, nf = 2)
> distY=dist.dudi(mydf.coa, amongrow = TRUE)
> hc <- hclust(distY, "ward")
> hc$labels=as.character(CSPnat$CS)
> plot(hc)
ou de colonnes
> CSPnat=read.table("D:CSP-nat.txt",head=TRUE)
> mymat=CSPnat[,2:ncol(CSPnat)]
17
Arthur CHARPENTIER - Analyse des donn´ees
> mydf <- as.data.frame(mymat)
> mydf.coa <- dudi.coa(mydf, scannf = FALSE, nf = 2)
> distY=dist.dudi(mydf.coa, amongrow = TRUE)
> hc <- hclust(distY, "ward")
> hc$labels=as.character(CSPnat$CS)
> plot(hc)
18
Arthur CHARPENTIER - Analyse des donn´ees
Commercants
EmployesCommerc
InactDiv
AncEmployeOuvr
Artisans
Contremaitres
Agriculteurs
AncAgriculteurs
ChefsEntreprise
ProfLibérales
CadresPublic
CadresEntrepr
EmployesPublic
Techniciens
EmployesEntrepr
AncArtisans
ProfIntPublic
ProfIntEntrepr
AncCadreProfInt
ChomeursJamTrav
OuvriersAgricol
PersonnelsServ
OuvriersQualif
OuvriersNonQual
0.00.51.01.52.0
Cluster Dendrogram
hclust (*, "ward")
distY
Height
Portugais
Autres
Algerien
Tunisien
Marocain
Turc
Espagnol
Italien
AutresUE
FrancaisNaissance
Francaisacquis
0.00.51.01.52.0
Cluster Dendrogram
hclust (*, "ward")
distYHeight
Fig. 10 – Regroupement(s) des sports du d´ecathlon
19
Arthur CHARPENTIER - Analyse des donn´ees
Une autre piste, pour classer des individus, est d’utiliser des m´ethodes de
classification sur l’AFC ou l’ACM d’un tableau de variables qualitatives, et de
consid´erer les coordonn´ees des individus sur les axes factoriels comme de
nouvelles variables.
> library(FactoMineR)
> afc=CA(mymat, ncp = 5)
> base=CA(mymat, ncp = 5)$row$coord
> hc <- hclust(dist(base), "ave")
> hc$labels=as.character(CSPnat$CS)
> plot(hc)
Ici on utilise une distance euclidienne (classique) sur les projections sur les axes
principaux. Notons qu’on retient ici uniquement les 5 premiers axes. Le graphique
ci-dessous montrer la classifation obtenue sur 2 et sur 5 axes, puis 2, 4, 6 et 10.
20
Arthur CHARPENTIER - Analyse des donn´ees
Agriculteurs
AncAgriculteurs
ProfIntPublic
CadresPublic
CadresEntrepr
EmployesPublic
ChefsEntreprise
ProfLibérales
ProfIntEntrepr
Techniciens
EmployesEntrepr
AncArtisans
AncCadreProfInt
InactDiv
Commercants
EmployesCommerc
Artisans
Contremaitres
AncEmployeOuvr
OuvriersAgricol
ChomeursJamTrav
PersonnelsServ
OuvriersQualif
OuvriersNonQual
0.00.10.20.30.40.5
Cluster Dendrogram
hclust (*, "average")
dist(base)
Height
ChomeursJamTrav
OuvriersAgricol
AncEmployeOuvr
Artisans
Contremaitres
Agriculteurs
AncAgriculteurs
ChefsEntreprise
CadresEntrepr
ProfLibérales
CadresPublic
EmployesPublic
ProfIntPublic
ProfIntEntrepr
Techniciens
EmployesEntrepr
AncArtisans
AncCadreProfInt
Commercants
EmployesCommerc
InactDiv
PersonnelsServ
OuvriersQualif
OuvriersNonQual
0.00.20.40.6
Cluster Dendrogram
hclust (*, "average")
dist(base)
Height
21
Arthur CHARPENTIER - Analyse des donn´ees
Agriculteurs
AncAgriculteurs
ProfIntPublic
CadresPublic
CadresEntrepr
EmployesPublic
ChefsEntreprise
ProfLibérales
ProfIntEntrepr
Techniciens
EmployesEntrepr
AncArtisans
AncCadreProfInt
InactDiv
Commercants
EmployesCommerc
Artisans
Contremaitres
AncEmployeOuvr
OuvriersAgricol
ChomeursJamTrav
PersonnelsServ
OuvriersQualif
OuvriersNonQual
0.00.10.20.30.40.5
Cluster Dendrogram
hclust (*, "average")
dist(base)
Height
ChomeursJamTrav
OuvriersAgricol
AncEmployeOuvr
Artisans
Contremaitres
Agriculteurs
AncAgriculteurs
AncArtisans
CadresEntrepr
ProfLibérales
CadresPublic
EmployesPublic
Techniciens
EmployesEntrepr
ChefsEntreprise
ProfIntEntrepr
ProfIntPublic
AncCadreProfInt
InactDiv
Commercants
EmployesCommerc
PersonnelsServ
OuvriersQualif
OuvriersNonQual
0.00.20.40.6
Cluster Dendrogram
hclust (*, "average")
dist(base)
Height
ChomeursJamTrav
OuvriersAgricol
AncEmployeOuvr
Artisans
Contremaitres
Agriculteurs
AncAgriculteurs
ChefsEntreprise
CadresEntrepr
ProfLibérales
CadresPublic
EmployesPublic
ProfIntPublic
ProfIntEntrepr
Techniciens
EmployesEntrepr
AncArtisans
AncCadreProfInt
Commercants
EmployesCommerc
InactDiv
PersonnelsServ
OuvriersQualif
OuvriersNonQual
0.00.20.40.6
Cluster Dendrogram
hclust (*, "average")
dist(base)
Height
ChomeursJamTrav
OuvriersAgricol
Agriculteurs
AncAgriculteurs
ChefsEntreprise
ProfLibérales
CadresPublic
CadresEntrepr
AncArtisans
EmployesPublic
Techniciens
EmployesEntrepr
ProfIntPublic
ProfIntEntrepr
AncCadreProfInt
Commercants
EmployesCommerc
InactDiv
AncEmployeOuvr
Artisans
Contremaitres
PersonnelsServ
OuvriersQualif
OuvriersNonQual
0.00.20.40.6
Cluster Dendrogram
hclust (*, "average")
dist(base)
Height
22
Arthur CHARPENTIER - Analyse des donn´ees
De l’importance du choix de la distance, dans R2
Distance euclidienne, d(a, b) = (a1 − b1)2 + (a2 − b2)2.
q
q
q
q
q
q
q
−2 −1 0 1 2
−2−1012
Distance euclidienne
q
q
12
++ 12
== 2
1
1
q
q
q
q
q
q
q
−2 −1 0 1 2
−2−1012
Distance euclidienne
barycentre
q
q
plus proches
voisins
q
q
plus lointains
voisins
23
Arthur CHARPENTIER - Analyse des donn´ees
De l’importance du choix de la distance, dans R2
Distance maximale, d(a, b) = max{|a1 − b1|, |a2 − b2|}.
q
q
q
q
q
q
q
−2 −1 0 1 2
−2−1012
Distance maximale
q
q
max{|1−0|,|1−0|}=1
1
1
q
q
q
q
q
q
q
−2 −1 0 1 2
−2−1012
Distance maximale
q
q
plus proches
voisins
q
q
plus lointains
voisins
24
Arthur CHARPENTIER - Analyse des donn´ees
De l’importance du choix de la distance, dans R2
Distance de Manhantan, d(a, b) = |a1 − b1| + |a2 − b2|.
q
q
q
q
q
q
q
−2 −1 0 1 2
−2−1012
Distance de Manhattan
q
q
|1−0|+|1−0|=2
1
1
q
q
q
q
q
q
q
−2 −1 0 1 2
−2−1012
Distance de Manhattan
q
q
plus proches
voisins
q
q
plus lointains
voisins
25
Arthur CHARPENTIER - Analyse des donn´ees
De l’importance du choix de la distance, dans R2
Distance de Camberra, d(a, b) = ((a1 − b1)p
+ (a2 − b2)p
)
1
p
.
q
q
q
q
q
q
q
−2 −1 0 1 2
−2−1012
Distance de Canberra
q
q
1 −− 0
1 ++ 0
++
1 −− 0
1 ++ 0
== 1
1
1
q
q
q
q
q
q
q
−2 −1 0 1 2
−2−1012
Distance de Canberra
q
q
plus proches
voisinsq
q
plus lointains
voisins
26
Arthur CHARPENTIER - Analyse des donn´ees
De l’importance du choix de la distance, dans R2
Distance de Minkowski, d’ordre p, d(a, b) = ((a1 − b1)p
+ (a2 − b2)p
)
1
p
.
q
q
q
q
q
q
q
−2 −1 0 1 2
−2−1012
Distance de Minkowski, d'ordre 3
q
q
((13
++ 13
))
1
3 == 2
1
3
1
1
q
q
q
q
q
q
q
−2 −1 0 1 2
−2−1012
Distance de Minkowski, d'ordre 3
q
q
plus proches
voisins
q
q
plus lointains
voisins
27
Arthur CHARPENTIER - Analyse des donn´ees
De l’importance du choix de la distance, dans R2
Distance de Minkowski, d’ordre p, d(a, b) = ((a1 − b1)p
+ (a2 − b2)p
)
1
p
.
q
q
q
q
q
q
q
−2 −1 0 1 2
−2−1012
Distance de Minkowski, d'ordre 1/2
q
q
((1
1
2 ++ 1
1
2))2
== 4
1
1
q
q
q
q
q
q
q
−2 −1 0 1 2
−2−1012
Distance de Minkowski, d'ordre 1/2
q
q
plus proches
voisins
q
q
plus lointains
voisins
28
Arthur CHARPENTIER - Analyse des donn´ees
Distance entre points, distance entre groupes
Strat´egie barycentrique, d(A, B) est la distance entre les barycentre des deux
groupes. On peut aussi pond´erer la distance par les effectifs,
d(A, B) =
ωAωB
ωA + ωB
d(xA, xB),
on parle alors de distance de Ward.
29
Arthur CHARPENTIER - Analyse des donn´ees
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q q
q
q
q
q
q q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
−2 −1 0 1 2
−2−1012
30
Arthur CHARPENTIER - Analyse des donn´ees
Distance entre points, distance entre groupes
La distance entre deux groupes A et B est le maximum des distances entre un
´el´ement de A et un ´el´ement de B,
d(A, B) = max
i∈A,j∈B
{δ(i, j)},
on parle alors de complete linkage.
31
Arthur CHARPENTIER - Analyse des donn´ees
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q q
q
q
q
q
q q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
−2 −1 0 1 2
−2−1012
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q q
q
q
q
q
q q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
−2 −1 0 1 2
−2−1012
q
q
32
Arthur CHARPENTIER - Analyse des donn´ees
Distance entre points, distance entre groupes
La distance entre deux groupes A et B est le minimum des distances entre un
´el´ement de A et un ´el´ement de B,
d(A, B) = min
i∈A,j∈B
{δ(i, j)},
on parle alors de single linkage.
33
Arthur CHARPENTIER - Analyse des donn´ees
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q q
q
q
q
q
q q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
−2 −1 0 1 2
−2−1012
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q q
q
q
q
q
q q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
−2 −1 0 1 2
−2−1012
q
q
34
Arthur CHARPENTIER - Analyse des donn´ees
La distance entre deux groupes A et B est la moyenne des distances entre un
´el´ement de A et un ´el´ement de B,
d(A, B) = i ∈ A, j ∈ Bωi,j{δ(i, j)},
on parle alors de group average linkage.
35
Arthur CHARPENTIER - Analyse des donn´ees
Visualisation graphique
Le dendrogramme est un arbre binaire pr´esentant les agr´egrations successives,
jusqu’`a r´eunion en une classe unique. La hauteur d’une branche est
proportionnelle `a la distance entre les objects regroup´es. Pour la distance de
Ward, la distance est simplement la perte de variance inter-classes.
36
Arthur CHARPENTIER - Analyse des donn´ees
D´ecomposition de l’inertie
37
Arthur CHARPENTIER - Analyse des donn´ees
Arbre de classification
Deux familles de classification (ou segmentation) entre variables qualitatives
existent
• les m´ethodes hi´erarchiques ou agglom´eratives
• les m´ethodes convergentes
La m´ethodologie de la classification ascendante hi´erarchique est simple
1. on commence par un r´epartition en n classes, la plus fine qui soit, puis on
aggr`ege it´erativement : `a chaque ´etape, les objets les plus ressemblants (au
vue de la mesure de dssimilarit´e) sont rassembl´ees, jusqu`a obtenir une unique
classe. On parle parfois d’algorithme de Lance & Williams,
2. on coupe dans l’arbre de classification (on parle aussi parfois de
dendrogramme.
Malheureusement, le crit`ere d’aggr´gation peut beaucoup influencer la
classification. Et il n’existe pas de m´ethode permettant de connaˆıtre la meilleur
m´ethode d’agr´egation. Parmi les m´ethodes de liaisons les plus classiques,
rappelons
38
Arthur CHARPENTIER - Analyse des donn´ees
• la liaison simple : pour chaque couple de groupes, on calcule la distance entre
les individus les plus proches, et on fusionne alors les groupes les plus proches.
Cette m´ethode cr´ee souvent des gros groupes h´et´erog`enes,
• la liaison compl`ete : pour chaque couple de groupes, on calcule la distance
entre les individus les plus ´eloign´es,
• la liaison moyenne : pour chaque couple de groupes, on calcule la distance
moyenne entre les individus,
• la liaison centr´ee : pour chaque couple de groupes, on calcule la distance entre
les moyenne des groupes,
• la liaison de Ward : on clacule la variance de chaque groupe, puis celle de
chaque groupe si on les fusionnait. On fusionne les groupes pour lesquels la
distance entre la variance du couple et la somme des variance est la plus petite.
Par exemple, sur la base des athl`etes du Decathlon, en utilisant 5 distances, et 4
crit`eres de regroupes, on obtient les classes suivantes
39
Arthur CHARPENTIER - Analyse des donn´ees
33
1
29
19
27
26
24
25
21
22
30
23
28
7
20
10
18
6
4
11
5
13
14
12
15
2
3
16
8
9
17
31
32
123456 Cluster Dendrogram
hclust (*, "average")
dist(Y, method = "euclidean")
Height
20
10
18
7
4
11
6
5
13
1
14
12
15
8
9
2
3
17
28
30
31
32
26
24
25
21
22
16
23
33
29
19
27
05101520
Cluster Dendrogram
hclust (*, "ward")
dist(Y, method = "euclidean")
Height
17
33
1
32
20
31
6
7
28
30
14
11
23
5
13
4
12
15
16
8
9
2
3
21
22
26
29
19
27
24
25
10
18
1.01.52.02.53.03.54.0
Cluster Dendrogram
hclust (*, "single")
dist(Y, method = "euclidean")
Height
17
20
10
18
4
11
14
12
15
8
9
2
3
1
7
6
5
13
33
28
30
31
32
29
19
27
26
24
25
21
22
16
23
12345678
Cluster Dendrogram
hclust (*, "complete")
dist(Y, method = "euclidean")
Height
40
Arthur CHARPENTIER - Analyse des donn´ees
17
33
19
27
26
29
21
22
23
24
25
32
30
28
31
18
20
1
6
7
10
5
13
4
11
8
9
16
12
15
14
2
3
246810121416 Cluster Dendrogram
hclust (*, "average")
dist(Y, method = "manhattan")
Height
6
5
13
7
10
8
9
16
4
11
1
12
15
14
2
3
19
27
26
29
33
21
22
23
24
25
28
31
30
32
17
18
20
0102030405060
Cluster Dendrogram
hclust (*, "ward")
dist(Y, method = "manhattan")
Height
33
17
32
1
6
20
30
18
7
11
10
25
24
19
27
26
29
21
22
4
14
5
13
23
8
2
3
9
16
12
15
28
31
345678910
Cluster Dendrogram
hclust (*, "single")
dist(Y, method = "manhattan")
Height
17
1
18
20
4
11
14
2
3
12
15
8
9
16
7
10
6
5
13
32
28
31
33
19
27
26
29
21
22
30
23
24
25
05101520
Cluster Dendrogram
hclust (*, "complete")
dist(Y, method = "manhattan")
Height
41
Arthur CHARPENTIER - Analyse des donn´ees
20
7
11
14
16
8
9
17
18
23
28
31
4
10
2
3
15
1
12
22
24
21
32
33
19
6
5
13
25
27
26
29
30
0102030405060 Cluster Dendrogram
hclust (*, "average")
dist(Y, method = "canberra")
Height
4
10
2
3
15
1
12
14
8
9
20
7
11
28
31
17
18
16
23
19
6
5
13
21
32
33
27
26
29
30
25
22
24
0100200300400
Cluster Dendrogram
hclust (*, "ward")
dist(Y, method = "canberra")
Height
25
26
14
20
27
21
7
6
5
13
11
16
8
9
15
1
4
10
12
2
3
17
18
23
19
33
32
29
30
28
31
22
24
246810
Cluster Dendrogram
hclust (*, "single")
dist(Y, method = "canberra")
Height
8
9
20
7
11
16
23
14
19
28
31
17
18
2
3
15
1
12
25
4
10
22
24
21
32
33
6
5
13
27
26
29
30
02004006008001000
Cluster Dendrogram
hclust (*, "complete")
dist(Y, method = "canberra")
Height
42
Arthur CHARPENTIER - Analyse des donn´ees
33
1
29
19
27
26
24
25
21
22
30
23
28
7
20
10
18
6
4
11
5
13
14
12
15
2
3
16
8
9
17
31
32
123456 Cluster Dendrogram
hclust (*, "average")
dist(Y, method = "minkowski")
Height
20
10
18
7
4
11
6
5
13
1
14
12
15
8
9
2
3
17
28
30
31
32
26
24
25
21
22
16
23
33
29
19
27
05101520
Cluster Dendrogram
hclust (*, "ward")
dist(Y, method = "minkowski")
Height
17
33
1
32
20
31
6
7
28
30
14
11
23
5
13
4
12
15
16
8
9
2
3
21
22
26
29
19
27
24
25
10
18
1.01.52.02.53.03.54.0
Cluster Dendrogram
hclust (*, "single")
dist(Y, method = "minkowski")
Height
17
20
10
18
4
11
14
12
15
8
9
2
3
1
7
6
5
13
33
28
30
31
32
29
19
27
26
24
25
21
22
16
23
12345678
Cluster Dendrogram
hclust (*, "complete")
dist(Y, method = "minkowski")
Height
43
Arthur CHARPENTIER - Analyse des donn´ees
7
10
18
21
22
23
8
9
14
12
15
26
25
16
24
6
3
5
13
20
11
2
4
33
19
27
29
28
30
31
32
1
17
0.51.01.52.02.53.0 Cluster Dendrogram
hclust (*, "average")
dist(Y, method = "maximum")
Height
21
22
25
16
24
33
27
29
19
26
31
32
23
28
30
20
14
12
15
11
2
4
8
9
3
5
13
1
6
17
7
10
18
0246810
Cluster Dendrogram
hclust (*, "ward")
dist(Y, method = "maximum")
Height
17
33
31
1
32
28
7
20
30
6
23
11
5
13
14
3
12
15
8
9
2
4
25
21
22
16
24
26
19
27
29
10
18
0.51.01.52.0
Cluster Dendrogram
hclust (*, "single")
dist(Y, method = "maximum")
Height
1
6
17
7
10
18
31
32
33
19
27
29
20
14
12
15
2
4
8
9
3
5
13
28
30
11
23
21
22
16
24
25
26
012345
Cluster Dendrogram
hclust (*, "complete")
dist(Y, method = "maximum")
Height
44
Arthur CHARPENTIER - Analyse des donn´ees
−1.0 −0.5 0.0 0.5 1.0
−1.0−0.50.00.51.0
q
q
q
q
q
q
q
q
−1.0 −0.5 0.0 0.5 1.0
−1.0−0.50.00.51.0
q
q
q
q
q
q
q
q
−1.0 −0.5 0.0 0.5 1.0
−1.0−0.50.00.51.0
q
q
q
q
q
q
q
q
−1.0 −0.5 0.0 0.5 1.0
−1.0−0.50.00.51.0
q
q
q
q
q
q
q
q
45
Arthur CHARPENTIER - Analyse des donn´ees
−1.0 −0.5 0.0 0.5 1.0
−1.0−0.50.00.51.0
q
q
q
q
q
q
q
q
−1.0 −0.5 0.0 0.5 1.0
−1.0−0.50.00.51.0
q
q
q
q
q
q
q
q
−1.0 −0.5 0.0 0.5 1.0
−1.0−0.50.00.51.0
q
q
q
q
q
q
q
q
−1.0 −0.5 0.0 0.5 1.0
−1.0−0.50.00.51.0
q
q
q
q
q
q
q
q
46
Arthur CHARPENTIER - Analyse des donn´ees
M´ethodes de partitionnement
Parmi les m´ethodes de partitionnement, on retiendra la m´ethode dite des
k-means, des centres mobiles ou encore des nu´ees dynamiques.
1. on choisit (au hasard, ´eventuellement) k individus de r´ef´erence, appel´es
noyaux,
2. on rattache tous individus au noyau dont ils sont les plus proches,
3. on calcule les centres des classes (barycentres), qui deviendront les nouveaux
noyaux,
4. on rep`ete jusqu’`a convergence (qui arrive souvent assez vite)
47
Arthur CHARPENTIER - Analyse des donn´ees
q
q
q
q
q
q
q
q
q
q
q
q
q q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
−0.5 0.0 0.5 1.0 1.5
−0.50.00.51.01.5
q
q
48
Arthur CHARPENTIER - Analyse des donn´ees
q
q
q
q
q
q
q
q
q
q
q
q
q q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
−0.5 0.0 0.5 1.0 1.5
−0.50.00.51.01.5
q
q
q
q
q
q
q q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
qq q
q
q
q
q
q
q
q
q
qq
qq
q q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q q
q
q q
q
49
Arthur CHARPENTIER - Analyse des donn´ees
q
q
q
q
q
q
q
q
q
q
q
q
q q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
−0.5 0.0 0.5 1.0 1.5
−0.50.00.51.01.5
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
qq
qq
q q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
50
Arthur CHARPENTIER - Analyse des donn´ees
q
q
q
q
q
q
q
q
q
q
q
q
q q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
−0.5 0.0 0.5 1.0 1.5
−0.50.00.51.01.5
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
qq
qq
q q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
51
Arthur CHARPENTIER - Analyse des donn´ees
q
q
q
q
q
q
q
q
q
q
q
q
q q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
−0.5 0.0 0.5 1.0 1.5
−0.50.00.51.01.5
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
qq
qq
q q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
52
Arthur CHARPENTIER - Analyse des donn´ees
q
q
q
q
q
q
q
q
q
q
q
q
q q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
−0.5 0.0 0.5 1.0 1.5
−0.50.00.51.01.5
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
qq
qq
q q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
53
Arthur CHARPENTIER - Analyse des donn´ees
Exemple pratique, d´epartements et votes
Reprenons la base ´etudi´ees lors de l’analyse en composantes principales, donnant
les pourcentages des diff´erents candidats `a l’´election pr´esidentielle, et essayons de
regrouper les r´egions proches.
CORREZE
VENDEE
ALPES−MARITIMES
VAR
MOSELLE
BAS−RHIN
HAUT−RHIN
HAUTE−SAVOIE
MAINE−ET−LOIRE
LOZERE
MANCHE
MAYENNE
ARIEGE
AUDE
NIEVRE
HAUTE−GARONNE
GIRONDE
TARN
COTES−D−ARMOR
HAUTES−PYRENEES
LANDES
CHARENTE
GERS
PAS−DE−CALAIS
ALPES−DE−HAUTE−PROVENCE
SOMME
NORD
SEINE−MARITIME
TERRITOIRE−DE−BELFORT
PYRENEES−ORIENTALES
AISNE
HERAULT
ISERE
DROME
ARDENNES
MEURTHE−ET−MOSELLE
LOIRE
VAUCLUSE
BOUCHES−DU−RHONE
GARD
OISE
SEINE−ET−MARNE
EURE
AUBE
MARNE
YONNE
LOIRET
SAVOIE
HAUTE−MARNE
VOSGES
EURE−ET−LOIR
AIN
MEUSE
RHONE
HAUTE−LOIRE
ORNE
YVELINES
HAUTS−DE−SEINE
AVEYRON
ILLE−ET−VILAINE
FINISTERE
PYRENEES−ATLANTIQUES
DEUX−SEVRES
LOIRE−ATLANTIQUE
CHARENTE−MARITIME
VIENNE
JURA
ARDECHE
LOIR−ET−CHER
MORBIHAN
HAUTES−ALPES
CALVADOS
INDRE−ET−LOIRE
SARTHE
TARN−ET−GARONNE
HAUTE−SAONE
COTE−D−OR
DOUBS
SAONE−ET−LOIRE
INDRE
LOT−ET−GARONNE
PUY−DE−DOME
ESSONNE
SEINE−SAINT−DENIS
ALLIER
CHER
CANTAL
CREUSE
HAUTE−VIENNE
DORDOGNE
LOT
PARIS
CORSE−DU−SUD
HAUTE−CORSE
05102030
Cluster Dendrogram
hclust (*, "average")
dist(base)
Height
54
Arthur CHARPENTIER - Analyse des donn´ees
CORREZE
VENDEE
ALPES−MARITIMES
VAR
MOSELLE
BAS−RHIN
HAUT−RHIN
HAUTE−SAVOIE
MAINE−ET−LOIRE
LOZERE
MANCHE
MAYENNE
ARIEGE
AUDE
NIEVRE
HAUTE−GARONNE
GIRONDE
TARN
COTES−D−ARMOR
HAUTES−PYRENEES
LANDES
CHARENTE
GERS
PAS−DE−CALAIS
ALPES−DE−HAUTE−PROVENCE
SOMME
NORD
SEINE−MARITIME
TERRITOIRE−DE−BELFORT
PYRENEES−ORIENTALES
AISNE
HERAULT
ISERE
DROME
ARDENNES
MEURTHE−ET−MOSELLE
LOIRE
VAUCLUSE
BOUCHES−DU−RHONE
GARD
OISE
SEINE−ET−MARNE
EURE
AUBE
MARNE
YONNE
LOIRET
SAVOIE
HAUTE−MARNE
VOSGES
EURE−ET−LOIR
AIN
MEUSE
RHONE
HAUTE−LOIRE
ORNE
YVELINES
HAUTS−DE−SEINE
AVEYRON
ILLE−ET−VILAINE
FINISTERE
PYRENEES−ATLANTIQUES
DEUX−SEVRES
LOIRE−ATLANTIQUE
CHARENTE−MARITIME
VIENNE
JURA
ARDECHE
LOIR−ET−CHER
MORBIHAN
HAUTES−ALPES
CALVADOS
INDRE−ET−LOIRE
SARTHE
TARN−ET−GARONNE
HAUTE−SAONE
COTE−D−OR
DOUBS
SAONE−ET−LOIRE
INDRE
LOT−ET−GARONNE
PUY−DE−DOME
ESSONNE
SEINE−SAINT−DENIS
ALLIER
CHER
CANTAL
CREUSE
HAUTE−VIENNE
DORDOGNE
LOT
PARIS
CORSE−DU−SUD
HAUTE−CORSE
05102030
Cluster Dendrogram
hclust (*, "average")
dist(base)
Height
BOUCHES−DU−RHONE
GARD
SEINE−SAINT−DENIS
OISE
SEINE−ET−MARNE
PAS−DE−CALAIS
ALPES−DE−HAUTE−PROVENCE
SOMME
NORD
SEINE−MARITIME
PYRENEES−ORIENTALES
AISNE
HERAULT
ARDENNES
MEURTHE−ET−MOSELLE
DROME
ISERE
HAUTE−SAVOIE
HAUTE−LOIRE
ORNE
EURE
AUBE
MARNE
YONNE
LOIRET
SAVOIE
HAUTE−MARNE
VOSGES
MEUSE
RHONE
AIN
EURE−ET−LOIR
BAS−RHIN
HAUT−RHIN
ALPES−MARITIMES
VAR
MOSELLE
LOIRE
VAUCLUSE
CORREZE
CANTAL
CREUSE
HAUTE−VIENNE
DORDOGNE
LOT
AVEYRON
YVELINES
HAUTS−DE−SEINE
PARIS
CORSE−DU−SUD
HAUTE−CORSE
ARIEGE
AUDE
NIEVRE
HAUTE−GARONNE
GIRONDE
TARN
COTES−D−ARMOR
HAUTES−PYRENEES
LANDES
CHARENTE
GERS
ALLIER
CHER
SAONE−ET−LOIRE
CHARENTE−MARITIME
VIENNE
INDRE
LOT−ET−GARONNE
PUY−DE−DOME
ESSONNE
HAUTE−SAONE
COTE−D−OR
DOUBS
TARN−ET−GARONNE
TERRITOIRE−DE−BELFORT
JURA
ARDECHE
LOIR−ET−CHER
MORBIHAN
HAUTES−ALPES
CALVADOS
INDRE−ET−LOIRE
SARTHE
VENDEE
MAINE−ET−LOIRE
LOZERE
MANCHE
MAYENNE
ILLE−ET−VILAINE
FINISTERE
PYRENEES−ATLANTIQUES
LOIRE−ATLANTIQUE
DEUX−SEVRES
050100150
Cluster Dendrogram
hclust (*, "ward")
dist(base)
Height
55
Arthur CHARPENTIER - Analyse des donn´ees
CORREZE
VENDEE
CANTAL
PARIS
CREUSE
HAUTE−CORSE
HAUTE−VIENNE
DORDOGNE
LOT
CORSE−DU−SUD
SEINE−SAINT−DENIS
BAS−RHIN
HAUT−RHIN
HAUTE−SAVOIE
MAINE−ET−LOIRE
DEUX−SEVRES
MOSELLE
LOZERE
MANCHE
MAYENNE
HAUTE−GARONNE
ARIEGE
ALPES−MARITIMES
VAR
AUDE
NIEVRE
COTES−D−ARMOR
HAUTES−PYRENEES
AVEYRON
ILLE−ET−VILAINE
FINISTERE
PYRENEES−ATLANTIQUES
YVELINES
HAUTS−DE−SEINE
SEINE−ET−MARNE
ALLIER
LOIRE−ATLANTIQUE
ESSONNE
TERRITOIRE−DE−BELFORT
TARN−ET−GARONNE
HAUTE−SAONE
COTE−D−OR
DOUBS
PAS−DE−CALAIS
LANDES
CHARENTE
GERS
GIRONDE
TARN
MORBIHAN
CHER
HAUTES−ALPES
CALVADOS
INDRE−ET−LOIRE
SARTHE
PUY−DE−DOME
CHARENTE−MARITIME
VIENNE
BOUCHES−DU−RHONE
GARD
ISERE
DROME
MEURTHE−ET−MOSELLE
ARDENNES
PYRENEES−ORIENTALES
AISNE
HERAULT
NORD
SEINE−MARITIME
SAONE−ET−LOIRE
INDRE
LOT−ET−GARONNE
ALPES−DE−HAUTE−PROVENCE
SOMME
OISE
HAUTE−LOIRE
ORNE
JURA
EURE−ET−LOIR
HAUTE−MARNE
VOSGES
AIN
MEUSE
RHONE
SAVOIE
EURE
AUBE
LOIRET
MARNE
YONNE
LOIRE
VAUCLUSE
ARDECHE
LOIR−ET−CHER
024681014
Cluster Dendrogram
hclust (*, "single")
dist(base)
Height
CORREZE
PARIS
CANTAL
CREUSE
YVELINES
HAUTS−DE−SEINE
CORSE−DU−SUD
HAUTE−CORSE
LOZERE
MANCHE
MAYENNE
AVEYRON
ILLE−ET−VILAINE
FINISTERE
PYRENEES−ATLANTIQUES
MAINE−ET−LOIRE
LOIRE−ATLANTIQUE
DEUX−SEVRES
PAS−DE−CALAIS
ALPES−DE−HAUTE−PROVENCE
SOMME
NORD
SEINE−MARITIME
PYRENEES−ORIENTALES
AISNE
HERAULT
TERRITOIRE−DE−BELFORT
ARDENNES
MEURTHE−ET−MOSELLE
DROME
ISERE
BOUCHES−DU−RHONE
GARD
SEINE−SAINT−DENIS
OISE
SEINE−ET−MARNE
ALLIER
CHER
JURA
ARDECHE
LOIR−ET−CHER
MORBIHAN
HAUTES−ALPES
CALVADOS
INDRE−ET−LOIRE
SARTHE
INDRE
LOT−ET−GARONNE
PUY−DE−DOME
ESSONNE
SAONE−ET−LOIRE
CHARENTE−MARITIME
VIENNE
HAUTE−SAONE
COTE−D−OR
DOUBS
TARN−ET−GARONNE
GIRONDE
TARN
HAUTE−VIENNE
DORDOGNE
LOT
HAUTE−GARONNE
ARIEGE
AUDE
NIEVRE
COTES−D−ARMOR
HAUTES−PYRENEES
LANDES
CHARENTE
GERS
VENDEE
EURE
AUBE
MARNE
YONNE
LOIRET
SAVOIE
HAUTE−MARNE
VOSGES
MEUSE
RHONE
AIN
EURE−ET−LOIR
HAUTE−SAVOIE
HAUTE−LOIRE
ORNE
BAS−RHIN
HAUT−RHIN
ALPES−MARITIMES
VAR
MOSELLE
LOIRE
VAUCLUSE
010203040
Cluster Dendrogram
hclust (*, "complete")
dist(base)
Height
56
Arthur CHARPENTIER - Analyse des donn´ees
CORREZE
VENDEE
CANTAL
CREUSE
PARIS
CORSE−DU−SUD
HAUTE−CORSE
BAS−RHIN
HAUT−RHIN
ALPES−MARITIMES
MOSELLE
VAR
LOZERE
MANCHE
MAYENNE
MAINE−ET−LOIRE
DEUX−SEVRES
AVEYRON
ILLE−ET−VILAINE
FINISTERE
PYRENEES−ATLANTIQUES
MORBIHAN
SAONE−ET−LOIRE
INDRE−ET−LOIRE
HAUTES−ALPES
CALVADOS
SARTHE
LOIR−ET−CHER
ARDECHE
JURA
ESSONNE
INDRE
LOT−ET−GARONNE
CHARENTE−MARITIME
LOIRE−ATLANTIQUE
GIRONDE
TARN
PUY−DE−DOME
VIENNE
HAUTE−SAVOIE
HAUTE−LOIRE
ORNE
YVELINES
HAUTS−DE−SEINE
SEINE−SAINT−DENIS
SEINE−ET−MARNE
TERRITOIRE−DE−BELFORT
TARN−ET−GARONNE
HAUTE−SAONE
COTE−D−OR
DOUBS
AIN
MEUSE
RHONE
LOIRET
EURE
AUBE
MARNE
YONNE
EURE−ET−LOIR
SAVOIE
OISE
HAUTE−MARNE
VOSGES
LOIRE
VAUCLUSE
BOUCHES−DU−RHONE
GARD
PAS−DE−CALAIS
SOMME
ALPES−DE−HAUTE−PROVENCE
SEINE−MARITIME
ISERE
DROME
ARDENNES
MEURTHE−ET−MOSELLE
NORD
PYRENEES−ORIENTALES
AISNE
HERAULT
ARIEGE
AUDE
NIEVRE
HAUTE−GARONNE
COTES−D−ARMOR
HAUTES−PYRENEES
LANDES
CHARENTE
GERS
ALLIER
CHER
LOT
DORDOGNE
HAUTE−VIENNE
051015202530
Cluster Dendrogram
hclust (*, "average")
dist(base, "maximum")
Height
EURE
AUBE
MARNE
YONNE
LOIRET
EURE−ET−LOIR
SAVOIE
HAUTE−SAVOIE
AIN
MEUSE
RHONE
BAS−RHIN
HAUT−RHIN
HAUTE−MARNE
VOSGES
OISE
SEINE−ET−MARNE
ALPES−MARITIMES
LOIRE
VAUCLUSE
MOSELLE
VAR
ESSONNE
INDRE
LOT−ET−GARONNE
PAS−DE−CALAIS
ALPES−DE−HAUTE−PROVENCE
SEINE−MARITIME
ALLIER
CHER
SOMME
SEINE−SAINT−DENIS
BOUCHES−DU−RHONE
GARD
NORD
PYRENEES−ORIENTALES
AISNE
HERAULT
ISERE
DROME
ARDENNES
MEURTHE−ET−MOSELLE
HAUTE−SAONE
COTE−D−OR
DOUBS
TARN−ET−GARONNE
TERRITOIRE−DE−BELFORT
CORREZE
LOT
DORDOGNE
HAUTE−VIENNE
CANTAL
CREUSE
PARIS
CORSE−DU−SUD
HAUTE−CORSE
ARIEGE
AUDE
NIEVRE
COTES−D−ARMOR
HAUTES−PYRENEES
CHARENTE
GERS
HAUTE−GARONNE
LANDES
VENDEE
HAUTE−LOIRE
ORNE
YVELINES
HAUTS−DE−SEINE
MAINE−ET−LOIRE
LOZERE
MANCHE
MAYENNE
ARDECHE
JURA
LOIR−ET−CHER
SAONE−ET−LOIRE
HAUTES−ALPES
CALVADOS
SARTHE
INDRE−ET−LOIRE
MORBIHAN
AVEYRON
ILLE−ET−VILAINE
FINISTERE
PYRENEES−ATLANTIQUES
GIRONDE
TARN
PUY−DE−DOME
VIENNE
DEUX−SEVRES
CHARENTE−MARITIME
LOIRE−ATLANTIQUE
02060100140
Cluster Dendrogram
hclust (*, "ward")
dist(base, "maximum")
Height
57
Arthur CHARPENTIER - Analyse des donn´ees
VENDEE
CORREZE
CANTAL
CREUSE
PARIS
HAUTE−CORSE
SEINE−SAINT−DENIS
BAS−RHIN
HAUT−RHIN
CORSE−DU−SUD
LOZERE
MANCHE
MAYENNE
MAINE−ET−LOIRE
ALPES−MARITIMES
HAUTE−GARONNE
HAUTE−SAVOIE
DEUX−SEVRES
ARIEGE
SEINE−ET−MARNE
AVEYRON
YVELINES
HAUTS−DE−SEINE
MOSELLE
VAR
COTES−D−ARMOR
HAUTES−PYRENEES
AUDE
NIEVRE
ILLE−ET−VILAINE
FINISTERE
PYRENEES−ATLANTIQUES
PAS−DE−CALAIS
GIRONDE
TARN
ALLIER
OISE
MORBIHAN
TERRITOIRE−DE−BELFORT
TARN−ET−GARONNE
BOUCHES−DU−RHONE
GARD
HAUTE−LOIRE
ORNE
VAUCLUSE
VIENNE
CHARENTE−MARITIME
LOIRE−ATLANTIQUE
SAONE−ET−LOIRE
INDRE−ET−LOIRE
HAUTES−ALPES
CALVADOS
SARTHE
PUY−DE−DOME
LOIR−ET−CHER
HAUTE−SAONE
COTE−D−OR
DOUBS
LOIRE
CHER
ESSONNE
INDRE
LOT−ET−GARONNE
SOMME
ARDECHE
ALPES−DE−HAUTE−PROVENCE
SEINE−MARITIME
ISERE
NORD
DROME
ARDENNES
MEURTHE−ET−MOSELLE
PYRENEES−ORIENTALES
AISNE
HERAULT
HAUTE−MARNE
VOSGES
JURA
AIN
MEUSE
RHONE
EURE
LOIRET
AUBE
MARNE
YONNE
EURE−ET−LOIR
SAVOIE
LANDES
CHARENTE
GERS
LOT
DORDOGNE
HAUTE−VIENNE
024681012
Cluster Dendrogram
hclust (*, "single")
dist(base, "maximum")
Height
CORREZE
CANTAL
CREUSE
PARIS
CORSE−DU−SUD
HAUTE−CORSE
VENDEE
BAS−RHIN
HAUT−RHIN
ALPES−MARITIMES
MOSELLE
VAR
OISE
LOIRE
VAUCLUSE
HAUTE−SAVOIE
HAUTES−ALPES
CALVADOS
SARTHE
INDRE−ET−LOIRE
MORBIHAN
ARDECHE
JURA
LOIR−ET−CHER
SAONE−ET−LOIRE
MAINE−ET−LOIRE
DEUX−SEVRES
CHARENTE−MARITIME
LOIRE−ATLANTIQUE
HAUTE−LOIRE
ORNE
YVELINES
HAUTS−DE−SEINE
LOZERE
MANCHE
MAYENNE
AVEYRON
ILLE−ET−VILAINE
FINISTERE
PYRENEES−ATLANTIQUES
TERRITOIRE−DE−BELFORT
ISERE
DROME
ARDENNES
MEURTHE−ET−MOSELLE
BOUCHES−DU−RHONE
GARD
NORD
PYRENEES−ORIENTALES
AISNE
HERAULT
AIN
MEUSE
RHONE
LOIRET
EURE−ET−LOIR
SAVOIE
EURE
AUBE
MARNE
YONNE
TARN−ET−GARONNE
HAUTE−SAONE
COTE−D−OR
DOUBS
SEINE−ET−MARNE
HAUTE−MARNE
VOSGES
ALLIER
CHER
PAS−DE−CALAIS
SOMME
ALPES−DE−HAUTE−PROVENCE
SEINE−MARITIME
SEINE−SAINT−DENIS
ESSONNE
INDRE
LOT−ET−GARONNE
LOT
DORDOGNE
HAUTE−VIENNE
GIRONDE
TARN
PUY−DE−DOME
VIENNE
CHARENTE
GERS
COTES−D−ARMOR
HAUTES−PYRENEES
HAUTE−GARONNE
LANDES
ARIEGE
AUDE
NIEVRE
05102030
Cluster Dendrogram
hclust (*, "complete")
dist(base, "maximum")
Height
58
Arthur CHARPENTIER - Analyse des donn´ees
La classification avec R
R propose un grand nombre d’outils et m´ethodes pour partitionner, en
particulier clara, qui marche tr`es bien sur les tr`es grosses bases de donn´ees, daisy
pour construire des matrices de dissimilarit´e (pour des variables qualitatives ou
quantitatives), dist pour construire des matrices de dissimilarit´e (pour des
variables quantitatives seulement).
59
Arthur CHARPENTIER - Analyse des donn´ees
Travaux dirig´es
Le TD portera sur la base de donn´ees departement.xls (dont une codification est
donn´e dans le fichier code-departement.xls) t´el´echargeables sur ma page internet.
60

Contenu connexe

Tendances (20)

Cours econometrie-uqam-st-3-v4
Cours econometrie-uqam-st-3-v4Cours econometrie-uqam-st-3-v4
Cours econometrie-uqam-st-3-v4
 
Slides 2040-5
Slides 2040-5Slides 2040-5
Slides 2040-5
 
Slides ensae-2016-5
Slides ensae-2016-5Slides ensae-2016-5
Slides ensae-2016-5
 
Slides ensae 7
Slides ensae 7Slides ensae 7
Slides ensae 7
 
Slides 2040-2-0
Slides 2040-2-0Slides 2040-2-0
Slides 2040-2-0
 
Slides ensae - Actuariat Assurance Non-Vie, #1
Slides ensae - Actuariat Assurance Non-Vie, #1Slides ensae - Actuariat Assurance Non-Vie, #1
Slides ensae - Actuariat Assurance Non-Vie, #1
 
Slide 2040-1
Slide 2040-1Slide 2040-1
Slide 2040-1
 
Cours gestion-actifs-r1-part-2b
Cours gestion-actifs-r1-part-2bCours gestion-actifs-r1-part-2b
Cours gestion-actifs-r1-part-2b
 
Slides act2040-a2013-2
Slides act2040-a2013-2Slides act2040-a2013-2
Slides act2040-a2013-2
 
Slides 2040-5
Slides 2040-5Slides 2040-5
Slides 2040-5
 
Slides ensae 6
Slides ensae 6Slides ensae 6
Slides ensae 6
 
Exercices act2121-session8
Exercices act2121-session8Exercices act2121-session8
Exercices act2121-session8
 
Slide 2040-1-a2013
Slide 2040-1-a2013Slide 2040-1-a2013
Slide 2040-1-a2013
 
Slides ensae 4
Slides ensae 4Slides ensae 4
Slides ensae 4
 
Slides 2040-7-a2013
Slides 2040-7-a2013Slides 2040-7-a2013
Slides 2040-7-a2013
 
Cours econometrie-uqam-st-2-v2
Cours econometrie-uqam-st-2-v2Cours econometrie-uqam-st-2-v2
Cours econometrie-uqam-st-2-v2
 
Slides 2040-6
Slides 2040-6Slides 2040-6
Slides 2040-6
 
Slides 2040-4
Slides 2040-4Slides 2040-4
Slides 2040-4
 
Projet Methode numerique_(MENG Try)
Projet Methode numerique_(MENG Try)Projet Methode numerique_(MENG Try)
Projet Methode numerique_(MENG Try)
 
Slides 2040-3
Slides 2040-3Slides 2040-3
Slides 2040-3
 

En vedette

Data mining - ACP Analyse en Composantes Principales
Data mining - ACP Analyse en Composantes PrincipalesData mining - ACP Analyse en Composantes Principales
Data mining - ACP Analyse en Composantes PrincipalesMohamed Heny SELMI
 
Data mining - Segmentation(k-means, cah)
Data mining - Segmentation(k-means, cah)Data mining - Segmentation(k-means, cah)
Data mining - Segmentation(k-means, cah)Mohamed Heny SELMI
 
Exercice arbre de décision
Exercice arbre de décision Exercice arbre de décision
Exercice arbre de décision Yassine Badri
 
Data mining - Classification - arbres de décision
Data mining - Classification - arbres de décisionData mining - Classification - arbres de décision
Data mining - Classification - arbres de décisionMohamed Heny SELMI
 
Slides barcelona Machine Learning
Slides barcelona Machine LearningSlides barcelona Machine Learning
Slides barcelona Machine LearningArthur Charpentier
 
Introduction au datamining, concepts et techniques
Introduction au datamining, concepts et techniquesIntroduction au datamining, concepts et techniques
Introduction au datamining, concepts et techniquesIsmail CHAIB
 
Graduate Econometrics Course, part 4, 2017
Graduate Econometrics Course, part 4, 2017Graduate Econometrics Course, part 4, 2017
Graduate Econometrics Course, part 4, 2017Arthur Charpentier
 
Econometrics, PhD Course, #1 Nonlinearities
Econometrics, PhD Course, #1 NonlinearitiesEconometrics, PhD Course, #1 Nonlinearities
Econometrics, PhD Course, #1 NonlinearitiesArthur Charpentier
 
Slides econometrics-2017-graduate-2
Slides econometrics-2017-graduate-2Slides econometrics-2017-graduate-2
Slides econometrics-2017-graduate-2Arthur Charpentier
 
Neurosciences et spiritualité fr_ Nancy -20131110
Neurosciences et spiritualité fr_ Nancy -20131110Neurosciences et spiritualité fr_ Nancy -20131110
Neurosciences et spiritualité fr_ Nancy -20131110jlroux
 

En vedette (20)

Cours add-r1-part5
Cours add-r1-part5Cours add-r1-part5
Cours add-r1-part5
 
Cours add-r1-part1
Cours add-r1-part1Cours add-r1-part1
Cours add-r1-part1
 
Cours add-r1-part3
Cours add-r1-part3Cours add-r1-part3
Cours add-r1-part3
 
Eco558 1a
Eco558 1aEco558 1a
Eco558 1a
 
Intro vrais loc-print
Intro vrais loc-printIntro vrais loc-print
Intro vrais loc-print
 
Data mining - ACP Analyse en Composantes Principales
Data mining - ACP Analyse en Composantes PrincipalesData mining - ACP Analyse en Composantes Principales
Data mining - ACP Analyse en Composantes Principales
 
Data mining - Segmentation(k-means, cah)
Data mining - Segmentation(k-means, cah)Data mining - Segmentation(k-means, cah)
Data mining - Segmentation(k-means, cah)
 
Slides erm-cea-ia
Slides erm-cea-iaSlides erm-cea-ia
Slides erm-cea-ia
 
Exercice arbre de décision
Exercice arbre de décision Exercice arbre de décision
Exercice arbre de décision
 
Data mining - Classification - arbres de décision
Data mining - Classification - arbres de décisionData mining - Classification - arbres de décision
Data mining - Classification - arbres de décision
 
Classification
ClassificationClassification
Classification
 
Slides lln-risques
Slides lln-risquesSlides lln-risques
Slides lln-risques
 
Slides barcelona Machine Learning
Slides barcelona Machine LearningSlides barcelona Machine Learning
Slides barcelona Machine Learning
 
Data Mining
Data MiningData Mining
Data Mining
 
Introduction au datamining, concepts et techniques
Introduction au datamining, concepts et techniquesIntroduction au datamining, concepts et techniques
Introduction au datamining, concepts et techniques
 
Graduate Econometrics Course, part 4, 2017
Graduate Econometrics Course, part 4, 2017Graduate Econometrics Course, part 4, 2017
Graduate Econometrics Course, part 4, 2017
 
Econometrics, PhD Course, #1 Nonlinearities
Econometrics, PhD Course, #1 NonlinearitiesEconometrics, PhD Course, #1 Nonlinearities
Econometrics, PhD Course, #1 Nonlinearities
 
Slides econometrics-2017-graduate-2
Slides econometrics-2017-graduate-2Slides econometrics-2017-graduate-2
Slides econometrics-2017-graduate-2
 
Econometrics 2017-graduate-3
Econometrics 2017-graduate-3Econometrics 2017-graduate-3
Econometrics 2017-graduate-3
 
Neurosciences et spiritualité fr_ Nancy -20131110
Neurosciences et spiritualité fr_ Nancy -20131110Neurosciences et spiritualité fr_ Nancy -20131110
Neurosciences et spiritualité fr_ Nancy -20131110
 

Similaire à Cours add-r1-part4

Laffly regression multiple
Laffly regression multipleLaffly regression multiple
Laffly regression multipleafryma
 
Laffly regression multiple
Laffly regression multipleLaffly regression multiple
Laffly regression multipleafryma
 
comprehension clustering CHA.pdf
comprehension clustering CHA.pdfcomprehension clustering CHA.pdf
comprehension clustering CHA.pdfMarckKerbergKouassi
 
Sélection de contrôles avec correction
Sélection de contrôles avec correctionSélection de contrôles avec correction
Sélection de contrôles avec correctionJaouad Dabounou
 
FINAL.pptx
FINAL.pptxFINAL.pptx
FINAL.pptxsara6496
 
Chapitre 4-Apprentissage non supervisé (1) (1).pdf
Chapitre 4-Apprentissage non supervisé (1) (1).pdfChapitre 4-Apprentissage non supervisé (1) (1).pdf
Chapitre 4-Apprentissage non supervisé (1) (1).pdfZizoAziz
 
fr_Tanagra_Naive_Bayes_Classifier_Explained.pdf
fr_Tanagra_Naive_Bayes_Classifier_Explained.pdffr_Tanagra_Naive_Bayes_Classifier_Explained.pdf
fr_Tanagra_Naive_Bayes_Classifier_Explained.pdfSidiAbdallah1
 
4- TEST D’AJUSTEMENT D’UNE DISTRIBUTION OBSERVEE A UNE.pptx
4-  TEST D’AJUSTEMENT D’UNE DISTRIBUTION        OBSERVEE A UNE.pptx4-  TEST D’AJUSTEMENT D’UNE DISTRIBUTION        OBSERVEE A UNE.pptx
4- TEST D’AJUSTEMENT D’UNE DISTRIBUTION OBSERVEE A UNE.pptxdribsafia
 
Ex determ
Ex determEx determ
Ex determbades12
 
Cours statistiques
Cours statistiquesCours statistiques
Cours statistiquesvauzelle
 
Laffly regression multiple
Laffly regression multipleLaffly regression multiple
Laffly regression multiplemohamedchaouche
 
Exercices corrigés les matrices- djeddi kamel
Exercices corrigés les matrices- djeddi kamelExercices corrigés les matrices- djeddi kamel
Exercices corrigés les matrices- djeddi kamelKamel Djeddi
 

Similaire à Cours add-r1-part4 (19)

Laffly regression multiple
Laffly regression multipleLaffly regression multiple
Laffly regression multiple
 
Laffly regression multiple
Laffly regression multipleLaffly regression multiple
Laffly regression multiple
 
Note tech 4
Note tech 4Note tech 4
Note tech 4
 
comprehension clustering CHA.pdf
comprehension clustering CHA.pdfcomprehension clustering CHA.pdf
comprehension clustering CHA.pdf
 
Sélection de contrôles avec correction
Sélection de contrôles avec correctionSélection de contrôles avec correction
Sélection de contrôles avec correction
 
FINAL.pptx
FINAL.pptxFINAL.pptx
FINAL.pptx
 
Chapitre 4-Apprentissage non supervisé (1) (1).pdf
Chapitre 4-Apprentissage non supervisé (1) (1).pdfChapitre 4-Apprentissage non supervisé (1) (1).pdf
Chapitre 4-Apprentissage non supervisé (1) (1).pdf
 
fr_Tanagra_Naive_Bayes_Classifier_Explained.pdf
fr_Tanagra_Naive_Bayes_Classifier_Explained.pdffr_Tanagra_Naive_Bayes_Classifier_Explained.pdf
fr_Tanagra_Naive_Bayes_Classifier_Explained.pdf
 
246242769 sequence-1-pdf
246242769 sequence-1-pdf246242769 sequence-1-pdf
246242769 sequence-1-pdf
 
4- TEST D’AJUSTEMENT D’UNE DISTRIBUTION OBSERVEE A UNE.pptx
4-  TEST D’AJUSTEMENT D’UNE DISTRIBUTION        OBSERVEE A UNE.pptx4-  TEST D’AJUSTEMENT D’UNE DISTRIBUTION        OBSERVEE A UNE.pptx
4- TEST D’AJUSTEMENT D’UNE DISTRIBUTION OBSERVEE A UNE.pptx
 
Ex determ
Ex determEx determ
Ex determ
 
Cours statistiques
Cours statistiquesCours statistiques
Cours statistiques
 
Laffly regression multiple
Laffly regression multipleLaffly regression multiple
Laffly regression multiple
 
Stat1
Stat1Stat1
Stat1
 
Exercices corrigés les matrices- djeddi kamel
Exercices corrigés les matrices- djeddi kamelExercices corrigés les matrices- djeddi kamel
Exercices corrigés les matrices- djeddi kamel
 
Alignement
AlignementAlignement
Alignement
 
Stat6 Chideux
Stat6   ChideuxStat6   Chideux
Stat6 Chideux
 
Comparaison
ComparaisonComparaison
Comparaison
 
Tifawt suite exercice-series-numeriques
Tifawt suite exercice-series-numeriquesTifawt suite exercice-series-numeriques
Tifawt suite exercice-series-numeriques
 

Plus de Arthur Charpentier (20)

Family History and Life Insurance
Family History and Life InsuranceFamily History and Life Insurance
Family History and Life Insurance
 
ACT6100 introduction
ACT6100 introductionACT6100 introduction
ACT6100 introduction
 
Family History and Life Insurance (UConn actuarial seminar)
Family History and Life Insurance (UConn actuarial seminar)Family History and Life Insurance (UConn actuarial seminar)
Family History and Life Insurance (UConn actuarial seminar)
 
Control epidemics
Control epidemics Control epidemics
Control epidemics
 
STT5100 Automne 2020, introduction
STT5100 Automne 2020, introductionSTT5100 Automne 2020, introduction
STT5100 Automne 2020, introduction
 
Family History and Life Insurance
Family History and Life InsuranceFamily History and Life Insurance
Family History and Life Insurance
 
Machine Learning in Actuarial Science & Insurance
Machine Learning in Actuarial Science & InsuranceMachine Learning in Actuarial Science & Insurance
Machine Learning in Actuarial Science & Insurance
 
Reinforcement Learning in Economics and Finance
Reinforcement Learning in Economics and FinanceReinforcement Learning in Economics and Finance
Reinforcement Learning in Economics and Finance
 
Optimal Control and COVID-19
Optimal Control and COVID-19Optimal Control and COVID-19
Optimal Control and COVID-19
 
Slides OICA 2020
Slides OICA 2020Slides OICA 2020
Slides OICA 2020
 
Lausanne 2019 #3
Lausanne 2019 #3Lausanne 2019 #3
Lausanne 2019 #3
 
Lausanne 2019 #4
Lausanne 2019 #4Lausanne 2019 #4
Lausanne 2019 #4
 
Lausanne 2019 #2
Lausanne 2019 #2Lausanne 2019 #2
Lausanne 2019 #2
 
Lausanne 2019 #1
Lausanne 2019 #1Lausanne 2019 #1
Lausanne 2019 #1
 
Side 2019 #10
Side 2019 #10Side 2019 #10
Side 2019 #10
 
Side 2019 #11
Side 2019 #11Side 2019 #11
Side 2019 #11
 
Side 2019 #12
Side 2019 #12Side 2019 #12
Side 2019 #12
 
Side 2019 #9
Side 2019 #9Side 2019 #9
Side 2019 #9
 
Side 2019 #8
Side 2019 #8Side 2019 #8
Side 2019 #8
 
Side 2019 #7
Side 2019 #7Side 2019 #7
Side 2019 #7
 

Cours add-r1-part4

  • 1. Arthur CHARPENTIER - Analyse des donn´ees Analyse des donn´ees (4) La Classification (Ascendante) Hi´eracrchique Arthur Charpentier http ://perso.univ-rennes1.fr/arthur.charpentier/ blog.univ-rennes1.fr/arthur.charpentier/ Master 2, Universit´e Rennes 1 1
  • 2. Arthur CHARPENTIER - Analyse des donn´ees La classification, une introduction Ici on cherche `a regrouper des objects pr´esentant des similitudes. De mani`ere intuitive, on voit que le choix de la distance ne sera pas neutre. L’id´ee est de constituer des groupes homog`enes. Il existe des m´ethodes • non hi´erarchique ou dites de partitionnement • hi´erarchique o`u on cherche `a construire des suites de partitions emboˆıt´ees, contenant n, puis n − 1, puis n − 2, · · · classes, en regroupant `a chaque ´etape deux parties. Remarque rappelons que le nombre de partitions en k classes de n ´el´ements est de l’ordre de kn /k! et donc le nombre total de partitions d’un ensemble de n ´el´ement vaut 1 e k≥1 kn k! . Aussi, avec n = 10 individus, il y a un peu plus de 100, 000 partitions possible, et pour n = 15, plus de 1.3 milliards. =⇒ pour plus de 10 individus, il est impossible de comparer toutes les partitions possibles. Pour des variables continues, on utilise une distance euclidienne pour mesurer la 2
  • 3. Arthur CHARPENTIER - Analyse des donn´ees distance entre deux individus, d2 (i1, i2) = j (Yi1,j − Yi2,j) 2 . Pour des variables qualitatives, on utilise une distance du chi-deux pour mesurer la distance entre deux individus, i.e. entre deux profils lignes d2 (i1, i2) = j ni1,j ni1,· − ni1,j ni2,· 2 . 3
  • 4. Arthur CHARPENTIER - Analyse des donn´ees Exemple introductif, sur donn´ees continues Consid´erons l’exmple au d´ecathlon, en athl´etisme > library(ade4) > data(olympic) > head(olympic$tab) 100 long poid haut 400 110 disq perc jave 1500 1 11.25 7.43 15.48 2.27 48.90 15.13 49.28 4.7 61.32 268.95 2 10.87 7.45 14.97 1.97 47.71 14.46 44.36 5.1 61.76 273.02 3 11.18 7.44 14.20 1.97 48.29 14.81 43.66 5.2 64.16 263.20 4 10.62 7.38 15.02 2.03 49.06 14.72 44.80 4.9 64.04 285.11 5 11.02 7.43 12.92 1.97 47.44 14.40 41.20 5.2 57.46 256.64 6 10.83 7.72 13.58 2.12 48.34 14.18 43.06 4.9 52.18 274.07 Afin de comparer “proprement” les variables, on commence • par centrer et r´eduire (afin de rendre comparable) • par transformer certaines variables car elles ne s’interpr`ete pas de la mˆeme mani`er : un score ´elev´e en haut signifie que la personne a saut´e haut en saut en hauteur (ce qui est bon), mais un score ´elev´e en 100 signifie que la personne a mis un temps long pour courrir le 100 m`etre (ce qui est mauvais) 4
  • 5. Arthur CHARPENTIER - Analyse des donn´ees On pose alors Yi,j = ± Xi,j − Xj sj , avec un signe − pour les sports de course. > Y=scale(olympic$tab, center=TRUE,scale=TRUE) > Y[,c(1,5,6,10)]= -Y[,c(1,5,6,10)] > distY=dist(Y, center=TRUE,scale=TRUE) > distY 1 2 3 4 5 6 2 4.363550 3 4.108952 1.887325 4 4.183513 2.168189 3.185110 5 5.193806 2.385945 2.190279 3.979429 6 4.280036 2.937114 3.666441 3.346085 2.968765 7 5.074714 3.539372 3.339522 3.787598 4.012323 4.347930 5
  • 6. Arthur CHARPENTIER - Analyse des donn´ees Fig. 1 – Constitution de classes : regrouper des individus (et des classes). 6
  • 7. Arthur CHARPENTIER - Analyse des donn´ees Fig. 2 – Constitution de classes : regrouper des individus (et des classes). 7
  • 8. Arthur CHARPENTIER - Analyse des donn´ees Fig. 3 – Constitution de classes : regrouper des individus (et des classes). 8
  • 9. Arthur CHARPENTIER - Analyse des donn´ees Fig. 4 – Constitution de classes : regrouper des individus (et des classes). 9
  • 10. Arthur CHARPENTIER - Analyse des donn´ees Retour sur le d´ecathlon 20 10 18 7 4 11 6 5 13 1 14 12 15 8 9 2 3 17 28 30 31 32 26 24 25 21 22 16 23 33 29 19 27 05101520 Cluster Dendrogram hclust (*, "ward") Fig. 5 – Constitution de classes sur les sportifs du d´ecathlon. 10
  • 11. Arthur CHARPENTIER - Analyse des donn´ees Retour sur le d´ecathlon −0.2 0.0 0.2 0.4 −0.20.00.20.4 Comp.1 Comp.2 1 1 1 2 1 1 2 1 1 2 2 1 1 1 1 3 4 2 3 2 3 3 3 3 3 3 3 4 3 4 4 4 3 −4 −2 0 2 4 6 8 −4−202468 100long poid haut 400 110 disq perc jave 1500 Fig. 6 – ACP avec les classes des sportifs du d´ecathlon. 11
  • 12. Arthur CHARPENTIER - Analyse des donn´ees Retour sur le d´ecathlon −3 −2 −1 0 1 2 3 4 −2024 Component 1 Component2 These two components explain 57.84 % of the point variability. q q q q q q q q q q q 1 2 3 4 Fig. 7 – ACP avec les classes des sportifs du d´ecathlon. 12
  • 13. Arthur CHARPENTIER - Analyse des donn´ees Notons qu’au lieu de regrouper les sportifs, on pourrait aussi regrouper les variables. > distY=dist(t(Y)) > distY 100 long poid haut 400 110 disq perc jave long 5.428413 poid 7.119673 7.410709 haut 7.393370 6.820509 7.495809 400 5.022220 5.569466 8.369785 7.641971 110 4.810911 5.779988 6.713726 6.661003 5.390198 disq 7.808819 7.830512 3.520434 7.386813 8.549857 7.545075 perc 6.252612 6.450176 5.769002 7.096024 6.603470 5.533615 6.479676 jave 7.736813 7.236939 5.074343 7.521977 8.467736 7.744637 5.971090 6.815316 1500 6.877050 6.219523 9.011386 7.529835 5.139452 7.404658 9.473567 7.873012 8.376637 > hc <- hclust(distY, "ave") > plot(hc) > plot(hc, hang = -1) 13
  • 14. Arthur CHARPENTIER - Analyse des donn´ees jave poid disq haut 400 1500 perc long 100 110 34567 Cluster Dendrogram hclust (*, "average") distY Height jave poid disq haut 400 1500 perc long 100 110 345678 Cluster Dendrogram hclust (*, "average") distYHeight Fig. 8 – Regroupement des sports du d´ecathlon 14
  • 15. Arthur CHARPENTIER - Analyse des donn´ees Notons que l’on peut aussi changer de distance, ou la m´ethode de regroupement, par exemple, > distY=dist(t(Y),method = "euclidean") > hc <- hclust(distY, "average") > plot(hc) > distY=dist(t(Y),method = "canberra") > hc <- hclust(distY, "single") > plot(hc) 15
  • 16. Arthur CHARPENTIER - Analyse des donn´ees jave poid disq haut 400 1500 perc long 100 110 34567 Cluster Dendrogram hclust (*, "average") distY Height haut jave poid disq perc long 1500 400 100 110 3.54.04.55.05.56.06.5 Cluster Dendrogram hclust (*, "single") distY Height jave poid disq 400 1500 haut perc long 100 110 2468101214 Cluster Dendrogram hclust (*, "ward") distY Height 400 1500 jave poid disq haut perc long 100 110 3456789 Cluster Dendrogram hclust (*, "complete") distY Height jave poid disq haut 400 1500 perc long 100 110 34567 Cluster Dendrogram hclust (*, "average") distY Height 1500 400 long disq jave poid haut 100 110 perc 2530354045505560 Cluster Dendrogram hclust (*, "single") distY Height Fig. 9 – Regroupement(s) des sports du d´ecathlon 16
  • 17. Arthur CHARPENTIER - Analyse des donn´ees Exemple introductif, sur donn´ees qualitatives On peut utiliser cette m´ethode pour ´etudier des regroupements de modalit´es, voir quelles modalit´ees sont proches : classification sur un tableau de contingence. Pour cela, on utilise une distance du chi-deux pour mesurer la proximit´e entre des modalit´es. Par exemple sur le liens entre la CSP et la nationalit´e, on peut ´etudier des regroupements de lignes (i.e. de CSP), > CSPnat=read.table("D:CSP-nat.txt",head=TRUE) > mymat=CSPnat[,2:ncol(CSPnat)] > mydf <- as.data.frame(mymat) > mydf.coa <- dudi.coa(mydf, scannf = FALSE, nf = 2) > distY=dist.dudi(mydf.coa, amongrow = TRUE) > hc <- hclust(distY, "ward") > hc$labels=as.character(CSPnat$CS) > plot(hc) ou de colonnes > CSPnat=read.table("D:CSP-nat.txt",head=TRUE) > mymat=CSPnat[,2:ncol(CSPnat)] 17
  • 18. Arthur CHARPENTIER - Analyse des donn´ees > mydf <- as.data.frame(mymat) > mydf.coa <- dudi.coa(mydf, scannf = FALSE, nf = 2) > distY=dist.dudi(mydf.coa, amongrow = TRUE) > hc <- hclust(distY, "ward") > hc$labels=as.character(CSPnat$CS) > plot(hc) 18
  • 19. Arthur CHARPENTIER - Analyse des donn´ees Commercants EmployesCommerc InactDiv AncEmployeOuvr Artisans Contremaitres Agriculteurs AncAgriculteurs ChefsEntreprise ProfLibérales CadresPublic CadresEntrepr EmployesPublic Techniciens EmployesEntrepr AncArtisans ProfIntPublic ProfIntEntrepr AncCadreProfInt ChomeursJamTrav OuvriersAgricol PersonnelsServ OuvriersQualif OuvriersNonQual 0.00.51.01.52.0 Cluster Dendrogram hclust (*, "ward") distY Height Portugais Autres Algerien Tunisien Marocain Turc Espagnol Italien AutresUE FrancaisNaissance Francaisacquis 0.00.51.01.52.0 Cluster Dendrogram hclust (*, "ward") distYHeight Fig. 10 – Regroupement(s) des sports du d´ecathlon 19
  • 20. Arthur CHARPENTIER - Analyse des donn´ees Une autre piste, pour classer des individus, est d’utiliser des m´ethodes de classification sur l’AFC ou l’ACM d’un tableau de variables qualitatives, et de consid´erer les coordonn´ees des individus sur les axes factoriels comme de nouvelles variables. > library(FactoMineR) > afc=CA(mymat, ncp = 5) > base=CA(mymat, ncp = 5)$row$coord > hc <- hclust(dist(base), "ave") > hc$labels=as.character(CSPnat$CS) > plot(hc) Ici on utilise une distance euclidienne (classique) sur les projections sur les axes principaux. Notons qu’on retient ici uniquement les 5 premiers axes. Le graphique ci-dessous montrer la classifation obtenue sur 2 et sur 5 axes, puis 2, 4, 6 et 10. 20
  • 21. Arthur CHARPENTIER - Analyse des donn´ees Agriculteurs AncAgriculteurs ProfIntPublic CadresPublic CadresEntrepr EmployesPublic ChefsEntreprise ProfLibérales ProfIntEntrepr Techniciens EmployesEntrepr AncArtisans AncCadreProfInt InactDiv Commercants EmployesCommerc Artisans Contremaitres AncEmployeOuvr OuvriersAgricol ChomeursJamTrav PersonnelsServ OuvriersQualif OuvriersNonQual 0.00.10.20.30.40.5 Cluster Dendrogram hclust (*, "average") dist(base) Height ChomeursJamTrav OuvriersAgricol AncEmployeOuvr Artisans Contremaitres Agriculteurs AncAgriculteurs ChefsEntreprise CadresEntrepr ProfLibérales CadresPublic EmployesPublic ProfIntPublic ProfIntEntrepr Techniciens EmployesEntrepr AncArtisans AncCadreProfInt Commercants EmployesCommerc InactDiv PersonnelsServ OuvriersQualif OuvriersNonQual 0.00.20.40.6 Cluster Dendrogram hclust (*, "average") dist(base) Height 21
  • 22. Arthur CHARPENTIER - Analyse des donn´ees Agriculteurs AncAgriculteurs ProfIntPublic CadresPublic CadresEntrepr EmployesPublic ChefsEntreprise ProfLibérales ProfIntEntrepr Techniciens EmployesEntrepr AncArtisans AncCadreProfInt InactDiv Commercants EmployesCommerc Artisans Contremaitres AncEmployeOuvr OuvriersAgricol ChomeursJamTrav PersonnelsServ OuvriersQualif OuvriersNonQual 0.00.10.20.30.40.5 Cluster Dendrogram hclust (*, "average") dist(base) Height ChomeursJamTrav OuvriersAgricol AncEmployeOuvr Artisans Contremaitres Agriculteurs AncAgriculteurs AncArtisans CadresEntrepr ProfLibérales CadresPublic EmployesPublic Techniciens EmployesEntrepr ChefsEntreprise ProfIntEntrepr ProfIntPublic AncCadreProfInt InactDiv Commercants EmployesCommerc PersonnelsServ OuvriersQualif OuvriersNonQual 0.00.20.40.6 Cluster Dendrogram hclust (*, "average") dist(base) Height ChomeursJamTrav OuvriersAgricol AncEmployeOuvr Artisans Contremaitres Agriculteurs AncAgriculteurs ChefsEntreprise CadresEntrepr ProfLibérales CadresPublic EmployesPublic ProfIntPublic ProfIntEntrepr Techniciens EmployesEntrepr AncArtisans AncCadreProfInt Commercants EmployesCommerc InactDiv PersonnelsServ OuvriersQualif OuvriersNonQual 0.00.20.40.6 Cluster Dendrogram hclust (*, "average") dist(base) Height ChomeursJamTrav OuvriersAgricol Agriculteurs AncAgriculteurs ChefsEntreprise ProfLibérales CadresPublic CadresEntrepr AncArtisans EmployesPublic Techniciens EmployesEntrepr ProfIntPublic ProfIntEntrepr AncCadreProfInt Commercants EmployesCommerc InactDiv AncEmployeOuvr Artisans Contremaitres PersonnelsServ OuvriersQualif OuvriersNonQual 0.00.20.40.6 Cluster Dendrogram hclust (*, "average") dist(base) Height 22
  • 23. Arthur CHARPENTIER - Analyse des donn´ees De l’importance du choix de la distance, dans R2 Distance euclidienne, d(a, b) = (a1 − b1)2 + (a2 − b2)2. q q q q q q q −2 −1 0 1 2 −2−1012 Distance euclidienne q q 12 ++ 12 == 2 1 1 q q q q q q q −2 −1 0 1 2 −2−1012 Distance euclidienne barycentre q q plus proches voisins q q plus lointains voisins 23
  • 24. Arthur CHARPENTIER - Analyse des donn´ees De l’importance du choix de la distance, dans R2 Distance maximale, d(a, b) = max{|a1 − b1|, |a2 − b2|}. q q q q q q q −2 −1 0 1 2 −2−1012 Distance maximale q q max{|1−0|,|1−0|}=1 1 1 q q q q q q q −2 −1 0 1 2 −2−1012 Distance maximale q q plus proches voisins q q plus lointains voisins 24
  • 25. Arthur CHARPENTIER - Analyse des donn´ees De l’importance du choix de la distance, dans R2 Distance de Manhantan, d(a, b) = |a1 − b1| + |a2 − b2|. q q q q q q q −2 −1 0 1 2 −2−1012 Distance de Manhattan q q |1−0|+|1−0|=2 1 1 q q q q q q q −2 −1 0 1 2 −2−1012 Distance de Manhattan q q plus proches voisins q q plus lointains voisins 25
  • 26. Arthur CHARPENTIER - Analyse des donn´ees De l’importance du choix de la distance, dans R2 Distance de Camberra, d(a, b) = ((a1 − b1)p + (a2 − b2)p ) 1 p . q q q q q q q −2 −1 0 1 2 −2−1012 Distance de Canberra q q 1 −− 0 1 ++ 0 ++ 1 −− 0 1 ++ 0 == 1 1 1 q q q q q q q −2 −1 0 1 2 −2−1012 Distance de Canberra q q plus proches voisinsq q plus lointains voisins 26
  • 27. Arthur CHARPENTIER - Analyse des donn´ees De l’importance du choix de la distance, dans R2 Distance de Minkowski, d’ordre p, d(a, b) = ((a1 − b1)p + (a2 − b2)p ) 1 p . q q q q q q q −2 −1 0 1 2 −2−1012 Distance de Minkowski, d'ordre 3 q q ((13 ++ 13 )) 1 3 == 2 1 3 1 1 q q q q q q q −2 −1 0 1 2 −2−1012 Distance de Minkowski, d'ordre 3 q q plus proches voisins q q plus lointains voisins 27
  • 28. Arthur CHARPENTIER - Analyse des donn´ees De l’importance du choix de la distance, dans R2 Distance de Minkowski, d’ordre p, d(a, b) = ((a1 − b1)p + (a2 − b2)p ) 1 p . q q q q q q q −2 −1 0 1 2 −2−1012 Distance de Minkowski, d'ordre 1/2 q q ((1 1 2 ++ 1 1 2))2 == 4 1 1 q q q q q q q −2 −1 0 1 2 −2−1012 Distance de Minkowski, d'ordre 1/2 q q plus proches voisins q q plus lointains voisins 28
  • 29. Arthur CHARPENTIER - Analyse des donn´ees Distance entre points, distance entre groupes Strat´egie barycentrique, d(A, B) est la distance entre les barycentre des deux groupes. On peut aussi pond´erer la distance par les effectifs, d(A, B) = ωAωB ωA + ωB d(xA, xB), on parle alors de distance de Ward. 29
  • 30. Arthur CHARPENTIER - Analyse des donn´ees q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q −2 −1 0 1 2 −2−1012 30
  • 31. Arthur CHARPENTIER - Analyse des donn´ees Distance entre points, distance entre groupes La distance entre deux groupes A et B est le maximum des distances entre un ´el´ement de A et un ´el´ement de B, d(A, B) = max i∈A,j∈B {δ(i, j)}, on parle alors de complete linkage. 31
  • 32. Arthur CHARPENTIER - Analyse des donn´ees q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q −2 −1 0 1 2 −2−1012 q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q −2 −1 0 1 2 −2−1012 q q 32
  • 33. Arthur CHARPENTIER - Analyse des donn´ees Distance entre points, distance entre groupes La distance entre deux groupes A et B est le minimum des distances entre un ´el´ement de A et un ´el´ement de B, d(A, B) = min i∈A,j∈B {δ(i, j)}, on parle alors de single linkage. 33
  • 34. Arthur CHARPENTIER - Analyse des donn´ees q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q −2 −1 0 1 2 −2−1012 q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q −2 −1 0 1 2 −2−1012 q q 34
  • 35. Arthur CHARPENTIER - Analyse des donn´ees La distance entre deux groupes A et B est la moyenne des distances entre un ´el´ement de A et un ´el´ement de B, d(A, B) = i ∈ A, j ∈ Bωi,j{δ(i, j)}, on parle alors de group average linkage. 35
  • 36. Arthur CHARPENTIER - Analyse des donn´ees Visualisation graphique Le dendrogramme est un arbre binaire pr´esentant les agr´egrations successives, jusqu’`a r´eunion en une classe unique. La hauteur d’une branche est proportionnelle `a la distance entre les objects regroup´es. Pour la distance de Ward, la distance est simplement la perte de variance inter-classes. 36
  • 37. Arthur CHARPENTIER - Analyse des donn´ees D´ecomposition de l’inertie 37
  • 38. Arthur CHARPENTIER - Analyse des donn´ees Arbre de classification Deux familles de classification (ou segmentation) entre variables qualitatives existent • les m´ethodes hi´erarchiques ou agglom´eratives • les m´ethodes convergentes La m´ethodologie de la classification ascendante hi´erarchique est simple 1. on commence par un r´epartition en n classes, la plus fine qui soit, puis on aggr`ege it´erativement : `a chaque ´etape, les objets les plus ressemblants (au vue de la mesure de dssimilarit´e) sont rassembl´ees, jusqu`a obtenir une unique classe. On parle parfois d’algorithme de Lance & Williams, 2. on coupe dans l’arbre de classification (on parle aussi parfois de dendrogramme. Malheureusement, le crit`ere d’aggr´gation peut beaucoup influencer la classification. Et il n’existe pas de m´ethode permettant de connaˆıtre la meilleur m´ethode d’agr´egation. Parmi les m´ethodes de liaisons les plus classiques, rappelons 38
  • 39. Arthur CHARPENTIER - Analyse des donn´ees • la liaison simple : pour chaque couple de groupes, on calcule la distance entre les individus les plus proches, et on fusionne alors les groupes les plus proches. Cette m´ethode cr´ee souvent des gros groupes h´et´erog`enes, • la liaison compl`ete : pour chaque couple de groupes, on calcule la distance entre les individus les plus ´eloign´es, • la liaison moyenne : pour chaque couple de groupes, on calcule la distance moyenne entre les individus, • la liaison centr´ee : pour chaque couple de groupes, on calcule la distance entre les moyenne des groupes, • la liaison de Ward : on clacule la variance de chaque groupe, puis celle de chaque groupe si on les fusionnait. On fusionne les groupes pour lesquels la distance entre la variance du couple et la somme des variance est la plus petite. Par exemple, sur la base des athl`etes du Decathlon, en utilisant 5 distances, et 4 crit`eres de regroupes, on obtient les classes suivantes 39
  • 40. Arthur CHARPENTIER - Analyse des donn´ees 33 1 29 19 27 26 24 25 21 22 30 23 28 7 20 10 18 6 4 11 5 13 14 12 15 2 3 16 8 9 17 31 32 123456 Cluster Dendrogram hclust (*, "average") dist(Y, method = "euclidean") Height 20 10 18 7 4 11 6 5 13 1 14 12 15 8 9 2 3 17 28 30 31 32 26 24 25 21 22 16 23 33 29 19 27 05101520 Cluster Dendrogram hclust (*, "ward") dist(Y, method = "euclidean") Height 17 33 1 32 20 31 6 7 28 30 14 11 23 5 13 4 12 15 16 8 9 2 3 21 22 26 29 19 27 24 25 10 18 1.01.52.02.53.03.54.0 Cluster Dendrogram hclust (*, "single") dist(Y, method = "euclidean") Height 17 20 10 18 4 11 14 12 15 8 9 2 3 1 7 6 5 13 33 28 30 31 32 29 19 27 26 24 25 21 22 16 23 12345678 Cluster Dendrogram hclust (*, "complete") dist(Y, method = "euclidean") Height 40
  • 41. Arthur CHARPENTIER - Analyse des donn´ees 17 33 19 27 26 29 21 22 23 24 25 32 30 28 31 18 20 1 6 7 10 5 13 4 11 8 9 16 12 15 14 2 3 246810121416 Cluster Dendrogram hclust (*, "average") dist(Y, method = "manhattan") Height 6 5 13 7 10 8 9 16 4 11 1 12 15 14 2 3 19 27 26 29 33 21 22 23 24 25 28 31 30 32 17 18 20 0102030405060 Cluster Dendrogram hclust (*, "ward") dist(Y, method = "manhattan") Height 33 17 32 1 6 20 30 18 7 11 10 25 24 19 27 26 29 21 22 4 14 5 13 23 8 2 3 9 16 12 15 28 31 345678910 Cluster Dendrogram hclust (*, "single") dist(Y, method = "manhattan") Height 17 1 18 20 4 11 14 2 3 12 15 8 9 16 7 10 6 5 13 32 28 31 33 19 27 26 29 21 22 30 23 24 25 05101520 Cluster Dendrogram hclust (*, "complete") dist(Y, method = "manhattan") Height 41
  • 42. Arthur CHARPENTIER - Analyse des donn´ees 20 7 11 14 16 8 9 17 18 23 28 31 4 10 2 3 15 1 12 22 24 21 32 33 19 6 5 13 25 27 26 29 30 0102030405060 Cluster Dendrogram hclust (*, "average") dist(Y, method = "canberra") Height 4 10 2 3 15 1 12 14 8 9 20 7 11 28 31 17 18 16 23 19 6 5 13 21 32 33 27 26 29 30 25 22 24 0100200300400 Cluster Dendrogram hclust (*, "ward") dist(Y, method = "canberra") Height 25 26 14 20 27 21 7 6 5 13 11 16 8 9 15 1 4 10 12 2 3 17 18 23 19 33 32 29 30 28 31 22 24 246810 Cluster Dendrogram hclust (*, "single") dist(Y, method = "canberra") Height 8 9 20 7 11 16 23 14 19 28 31 17 18 2 3 15 1 12 25 4 10 22 24 21 32 33 6 5 13 27 26 29 30 02004006008001000 Cluster Dendrogram hclust (*, "complete") dist(Y, method = "canberra") Height 42
  • 43. Arthur CHARPENTIER - Analyse des donn´ees 33 1 29 19 27 26 24 25 21 22 30 23 28 7 20 10 18 6 4 11 5 13 14 12 15 2 3 16 8 9 17 31 32 123456 Cluster Dendrogram hclust (*, "average") dist(Y, method = "minkowski") Height 20 10 18 7 4 11 6 5 13 1 14 12 15 8 9 2 3 17 28 30 31 32 26 24 25 21 22 16 23 33 29 19 27 05101520 Cluster Dendrogram hclust (*, "ward") dist(Y, method = "minkowski") Height 17 33 1 32 20 31 6 7 28 30 14 11 23 5 13 4 12 15 16 8 9 2 3 21 22 26 29 19 27 24 25 10 18 1.01.52.02.53.03.54.0 Cluster Dendrogram hclust (*, "single") dist(Y, method = "minkowski") Height 17 20 10 18 4 11 14 12 15 8 9 2 3 1 7 6 5 13 33 28 30 31 32 29 19 27 26 24 25 21 22 16 23 12345678 Cluster Dendrogram hclust (*, "complete") dist(Y, method = "minkowski") Height 43
  • 44. Arthur CHARPENTIER - Analyse des donn´ees 7 10 18 21 22 23 8 9 14 12 15 26 25 16 24 6 3 5 13 20 11 2 4 33 19 27 29 28 30 31 32 1 17 0.51.01.52.02.53.0 Cluster Dendrogram hclust (*, "average") dist(Y, method = "maximum") Height 21 22 25 16 24 33 27 29 19 26 31 32 23 28 30 20 14 12 15 11 2 4 8 9 3 5 13 1 6 17 7 10 18 0246810 Cluster Dendrogram hclust (*, "ward") dist(Y, method = "maximum") Height 17 33 31 1 32 28 7 20 30 6 23 11 5 13 14 3 12 15 8 9 2 4 25 21 22 16 24 26 19 27 29 10 18 0.51.01.52.0 Cluster Dendrogram hclust (*, "single") dist(Y, method = "maximum") Height 1 6 17 7 10 18 31 32 33 19 27 29 20 14 12 15 2 4 8 9 3 5 13 28 30 11 23 21 22 16 24 25 26 012345 Cluster Dendrogram hclust (*, "complete") dist(Y, method = "maximum") Height 44
  • 45. Arthur CHARPENTIER - Analyse des donn´ees −1.0 −0.5 0.0 0.5 1.0 −1.0−0.50.00.51.0 q q q q q q q q −1.0 −0.5 0.0 0.5 1.0 −1.0−0.50.00.51.0 q q q q q q q q −1.0 −0.5 0.0 0.5 1.0 −1.0−0.50.00.51.0 q q q q q q q q −1.0 −0.5 0.0 0.5 1.0 −1.0−0.50.00.51.0 q q q q q q q q 45
  • 46. Arthur CHARPENTIER - Analyse des donn´ees −1.0 −0.5 0.0 0.5 1.0 −1.0−0.50.00.51.0 q q q q q q q q −1.0 −0.5 0.0 0.5 1.0 −1.0−0.50.00.51.0 q q q q q q q q −1.0 −0.5 0.0 0.5 1.0 −1.0−0.50.00.51.0 q q q q q q q q −1.0 −0.5 0.0 0.5 1.0 −1.0−0.50.00.51.0 q q q q q q q q 46
  • 47. Arthur CHARPENTIER - Analyse des donn´ees M´ethodes de partitionnement Parmi les m´ethodes de partitionnement, on retiendra la m´ethode dite des k-means, des centres mobiles ou encore des nu´ees dynamiques. 1. on choisit (au hasard, ´eventuellement) k individus de r´ef´erence, appel´es noyaux, 2. on rattache tous individus au noyau dont ils sont les plus proches, 3. on calcule les centres des classes (barycentres), qui deviendront les nouveaux noyaux, 4. on rep`ete jusqu’`a convergence (qui arrive souvent assez vite) 47
  • 48. Arthur CHARPENTIER - Analyse des donn´ees q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q qq q q q q q q q q q q q q q q q q q q −0.5 0.0 0.5 1.0 1.5 −0.50.00.51.01.5 q q 48
  • 49. Arthur CHARPENTIER - Analyse des donn´ees q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q qq q q q q q q q q q q q q q q q q q q −0.5 0.0 0.5 1.0 1.5 −0.50.00.51.01.5 q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q qq q q q q q q q q q q q q qq q q q q q q q q q qq qq q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q 49
  • 50. Arthur CHARPENTIER - Analyse des donn´ees q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q qq q q q q q q q q q q q q q q q q q q −0.5 0.0 0.5 1.0 1.5 −0.50.00.51.01.5 q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q qq q q q q q q q q q q q q qq q q q q q q q q q q q qq qq q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q 50
  • 51. Arthur CHARPENTIER - Analyse des donn´ees q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q qq q q q q q q q q q q q q q q q q q q −0.5 0.0 0.5 1.0 1.5 −0.50.00.51.01.5 q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q qq q q q q q q q q q q q q qq q q q q q q q q q q q qq qq q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q 51
  • 52. Arthur CHARPENTIER - Analyse des donn´ees q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q qq q q q q q q q q q q q q q q q q q q −0.5 0.0 0.5 1.0 1.5 −0.50.00.51.01.5 q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q qq q q q q q q q q q q q q qq q q q q q q q q q q q qq qq q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q 52
  • 53. Arthur CHARPENTIER - Analyse des donn´ees q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q qq q q q q q q q q q q q q q q q q q q −0.5 0.0 0.5 1.0 1.5 −0.50.00.51.01.5 q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q qq q q q q q q q q q q q q qq q q q q q q q q q q q qq qq q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q 53
  • 54. Arthur CHARPENTIER - Analyse des donn´ees Exemple pratique, d´epartements et votes Reprenons la base ´etudi´ees lors de l’analyse en composantes principales, donnant les pourcentages des diff´erents candidats `a l’´election pr´esidentielle, et essayons de regrouper les r´egions proches. CORREZE VENDEE ALPES−MARITIMES VAR MOSELLE BAS−RHIN HAUT−RHIN HAUTE−SAVOIE MAINE−ET−LOIRE LOZERE MANCHE MAYENNE ARIEGE AUDE NIEVRE HAUTE−GARONNE GIRONDE TARN COTES−D−ARMOR HAUTES−PYRENEES LANDES CHARENTE GERS PAS−DE−CALAIS ALPES−DE−HAUTE−PROVENCE SOMME NORD SEINE−MARITIME TERRITOIRE−DE−BELFORT PYRENEES−ORIENTALES AISNE HERAULT ISERE DROME ARDENNES MEURTHE−ET−MOSELLE LOIRE VAUCLUSE BOUCHES−DU−RHONE GARD OISE SEINE−ET−MARNE EURE AUBE MARNE YONNE LOIRET SAVOIE HAUTE−MARNE VOSGES EURE−ET−LOIR AIN MEUSE RHONE HAUTE−LOIRE ORNE YVELINES HAUTS−DE−SEINE AVEYRON ILLE−ET−VILAINE FINISTERE PYRENEES−ATLANTIQUES DEUX−SEVRES LOIRE−ATLANTIQUE CHARENTE−MARITIME VIENNE JURA ARDECHE LOIR−ET−CHER MORBIHAN HAUTES−ALPES CALVADOS INDRE−ET−LOIRE SARTHE TARN−ET−GARONNE HAUTE−SAONE COTE−D−OR DOUBS SAONE−ET−LOIRE INDRE LOT−ET−GARONNE PUY−DE−DOME ESSONNE SEINE−SAINT−DENIS ALLIER CHER CANTAL CREUSE HAUTE−VIENNE DORDOGNE LOT PARIS CORSE−DU−SUD HAUTE−CORSE 05102030 Cluster Dendrogram hclust (*, "average") dist(base) Height 54
  • 55. Arthur CHARPENTIER - Analyse des donn´ees CORREZE VENDEE ALPES−MARITIMES VAR MOSELLE BAS−RHIN HAUT−RHIN HAUTE−SAVOIE MAINE−ET−LOIRE LOZERE MANCHE MAYENNE ARIEGE AUDE NIEVRE HAUTE−GARONNE GIRONDE TARN COTES−D−ARMOR HAUTES−PYRENEES LANDES CHARENTE GERS PAS−DE−CALAIS ALPES−DE−HAUTE−PROVENCE SOMME NORD SEINE−MARITIME TERRITOIRE−DE−BELFORT PYRENEES−ORIENTALES AISNE HERAULT ISERE DROME ARDENNES MEURTHE−ET−MOSELLE LOIRE VAUCLUSE BOUCHES−DU−RHONE GARD OISE SEINE−ET−MARNE EURE AUBE MARNE YONNE LOIRET SAVOIE HAUTE−MARNE VOSGES EURE−ET−LOIR AIN MEUSE RHONE HAUTE−LOIRE ORNE YVELINES HAUTS−DE−SEINE AVEYRON ILLE−ET−VILAINE FINISTERE PYRENEES−ATLANTIQUES DEUX−SEVRES LOIRE−ATLANTIQUE CHARENTE−MARITIME VIENNE JURA ARDECHE LOIR−ET−CHER MORBIHAN HAUTES−ALPES CALVADOS INDRE−ET−LOIRE SARTHE TARN−ET−GARONNE HAUTE−SAONE COTE−D−OR DOUBS SAONE−ET−LOIRE INDRE LOT−ET−GARONNE PUY−DE−DOME ESSONNE SEINE−SAINT−DENIS ALLIER CHER CANTAL CREUSE HAUTE−VIENNE DORDOGNE LOT PARIS CORSE−DU−SUD HAUTE−CORSE 05102030 Cluster Dendrogram hclust (*, "average") dist(base) Height BOUCHES−DU−RHONE GARD SEINE−SAINT−DENIS OISE SEINE−ET−MARNE PAS−DE−CALAIS ALPES−DE−HAUTE−PROVENCE SOMME NORD SEINE−MARITIME PYRENEES−ORIENTALES AISNE HERAULT ARDENNES MEURTHE−ET−MOSELLE DROME ISERE HAUTE−SAVOIE HAUTE−LOIRE ORNE EURE AUBE MARNE YONNE LOIRET SAVOIE HAUTE−MARNE VOSGES MEUSE RHONE AIN EURE−ET−LOIR BAS−RHIN HAUT−RHIN ALPES−MARITIMES VAR MOSELLE LOIRE VAUCLUSE CORREZE CANTAL CREUSE HAUTE−VIENNE DORDOGNE LOT AVEYRON YVELINES HAUTS−DE−SEINE PARIS CORSE−DU−SUD HAUTE−CORSE ARIEGE AUDE NIEVRE HAUTE−GARONNE GIRONDE TARN COTES−D−ARMOR HAUTES−PYRENEES LANDES CHARENTE GERS ALLIER CHER SAONE−ET−LOIRE CHARENTE−MARITIME VIENNE INDRE LOT−ET−GARONNE PUY−DE−DOME ESSONNE HAUTE−SAONE COTE−D−OR DOUBS TARN−ET−GARONNE TERRITOIRE−DE−BELFORT JURA ARDECHE LOIR−ET−CHER MORBIHAN HAUTES−ALPES CALVADOS INDRE−ET−LOIRE SARTHE VENDEE MAINE−ET−LOIRE LOZERE MANCHE MAYENNE ILLE−ET−VILAINE FINISTERE PYRENEES−ATLANTIQUES LOIRE−ATLANTIQUE DEUX−SEVRES 050100150 Cluster Dendrogram hclust (*, "ward") dist(base) Height 55
  • 56. Arthur CHARPENTIER - Analyse des donn´ees CORREZE VENDEE CANTAL PARIS CREUSE HAUTE−CORSE HAUTE−VIENNE DORDOGNE LOT CORSE−DU−SUD SEINE−SAINT−DENIS BAS−RHIN HAUT−RHIN HAUTE−SAVOIE MAINE−ET−LOIRE DEUX−SEVRES MOSELLE LOZERE MANCHE MAYENNE HAUTE−GARONNE ARIEGE ALPES−MARITIMES VAR AUDE NIEVRE COTES−D−ARMOR HAUTES−PYRENEES AVEYRON ILLE−ET−VILAINE FINISTERE PYRENEES−ATLANTIQUES YVELINES HAUTS−DE−SEINE SEINE−ET−MARNE ALLIER LOIRE−ATLANTIQUE ESSONNE TERRITOIRE−DE−BELFORT TARN−ET−GARONNE HAUTE−SAONE COTE−D−OR DOUBS PAS−DE−CALAIS LANDES CHARENTE GERS GIRONDE TARN MORBIHAN CHER HAUTES−ALPES CALVADOS INDRE−ET−LOIRE SARTHE PUY−DE−DOME CHARENTE−MARITIME VIENNE BOUCHES−DU−RHONE GARD ISERE DROME MEURTHE−ET−MOSELLE ARDENNES PYRENEES−ORIENTALES AISNE HERAULT NORD SEINE−MARITIME SAONE−ET−LOIRE INDRE LOT−ET−GARONNE ALPES−DE−HAUTE−PROVENCE SOMME OISE HAUTE−LOIRE ORNE JURA EURE−ET−LOIR HAUTE−MARNE VOSGES AIN MEUSE RHONE SAVOIE EURE AUBE LOIRET MARNE YONNE LOIRE VAUCLUSE ARDECHE LOIR−ET−CHER 024681014 Cluster Dendrogram hclust (*, "single") dist(base) Height CORREZE PARIS CANTAL CREUSE YVELINES HAUTS−DE−SEINE CORSE−DU−SUD HAUTE−CORSE LOZERE MANCHE MAYENNE AVEYRON ILLE−ET−VILAINE FINISTERE PYRENEES−ATLANTIQUES MAINE−ET−LOIRE LOIRE−ATLANTIQUE DEUX−SEVRES PAS−DE−CALAIS ALPES−DE−HAUTE−PROVENCE SOMME NORD SEINE−MARITIME PYRENEES−ORIENTALES AISNE HERAULT TERRITOIRE−DE−BELFORT ARDENNES MEURTHE−ET−MOSELLE DROME ISERE BOUCHES−DU−RHONE GARD SEINE−SAINT−DENIS OISE SEINE−ET−MARNE ALLIER CHER JURA ARDECHE LOIR−ET−CHER MORBIHAN HAUTES−ALPES CALVADOS INDRE−ET−LOIRE SARTHE INDRE LOT−ET−GARONNE PUY−DE−DOME ESSONNE SAONE−ET−LOIRE CHARENTE−MARITIME VIENNE HAUTE−SAONE COTE−D−OR DOUBS TARN−ET−GARONNE GIRONDE TARN HAUTE−VIENNE DORDOGNE LOT HAUTE−GARONNE ARIEGE AUDE NIEVRE COTES−D−ARMOR HAUTES−PYRENEES LANDES CHARENTE GERS VENDEE EURE AUBE MARNE YONNE LOIRET SAVOIE HAUTE−MARNE VOSGES MEUSE RHONE AIN EURE−ET−LOIR HAUTE−SAVOIE HAUTE−LOIRE ORNE BAS−RHIN HAUT−RHIN ALPES−MARITIMES VAR MOSELLE LOIRE VAUCLUSE 010203040 Cluster Dendrogram hclust (*, "complete") dist(base) Height 56
  • 57. Arthur CHARPENTIER - Analyse des donn´ees CORREZE VENDEE CANTAL CREUSE PARIS CORSE−DU−SUD HAUTE−CORSE BAS−RHIN HAUT−RHIN ALPES−MARITIMES MOSELLE VAR LOZERE MANCHE MAYENNE MAINE−ET−LOIRE DEUX−SEVRES AVEYRON ILLE−ET−VILAINE FINISTERE PYRENEES−ATLANTIQUES MORBIHAN SAONE−ET−LOIRE INDRE−ET−LOIRE HAUTES−ALPES CALVADOS SARTHE LOIR−ET−CHER ARDECHE JURA ESSONNE INDRE LOT−ET−GARONNE CHARENTE−MARITIME LOIRE−ATLANTIQUE GIRONDE TARN PUY−DE−DOME VIENNE HAUTE−SAVOIE HAUTE−LOIRE ORNE YVELINES HAUTS−DE−SEINE SEINE−SAINT−DENIS SEINE−ET−MARNE TERRITOIRE−DE−BELFORT TARN−ET−GARONNE HAUTE−SAONE COTE−D−OR DOUBS AIN MEUSE RHONE LOIRET EURE AUBE MARNE YONNE EURE−ET−LOIR SAVOIE OISE HAUTE−MARNE VOSGES LOIRE VAUCLUSE BOUCHES−DU−RHONE GARD PAS−DE−CALAIS SOMME ALPES−DE−HAUTE−PROVENCE SEINE−MARITIME ISERE DROME ARDENNES MEURTHE−ET−MOSELLE NORD PYRENEES−ORIENTALES AISNE HERAULT ARIEGE AUDE NIEVRE HAUTE−GARONNE COTES−D−ARMOR HAUTES−PYRENEES LANDES CHARENTE GERS ALLIER CHER LOT DORDOGNE HAUTE−VIENNE 051015202530 Cluster Dendrogram hclust (*, "average") dist(base, "maximum") Height EURE AUBE MARNE YONNE LOIRET EURE−ET−LOIR SAVOIE HAUTE−SAVOIE AIN MEUSE RHONE BAS−RHIN HAUT−RHIN HAUTE−MARNE VOSGES OISE SEINE−ET−MARNE ALPES−MARITIMES LOIRE VAUCLUSE MOSELLE VAR ESSONNE INDRE LOT−ET−GARONNE PAS−DE−CALAIS ALPES−DE−HAUTE−PROVENCE SEINE−MARITIME ALLIER CHER SOMME SEINE−SAINT−DENIS BOUCHES−DU−RHONE GARD NORD PYRENEES−ORIENTALES AISNE HERAULT ISERE DROME ARDENNES MEURTHE−ET−MOSELLE HAUTE−SAONE COTE−D−OR DOUBS TARN−ET−GARONNE TERRITOIRE−DE−BELFORT CORREZE LOT DORDOGNE HAUTE−VIENNE CANTAL CREUSE PARIS CORSE−DU−SUD HAUTE−CORSE ARIEGE AUDE NIEVRE COTES−D−ARMOR HAUTES−PYRENEES CHARENTE GERS HAUTE−GARONNE LANDES VENDEE HAUTE−LOIRE ORNE YVELINES HAUTS−DE−SEINE MAINE−ET−LOIRE LOZERE MANCHE MAYENNE ARDECHE JURA LOIR−ET−CHER SAONE−ET−LOIRE HAUTES−ALPES CALVADOS SARTHE INDRE−ET−LOIRE MORBIHAN AVEYRON ILLE−ET−VILAINE FINISTERE PYRENEES−ATLANTIQUES GIRONDE TARN PUY−DE−DOME VIENNE DEUX−SEVRES CHARENTE−MARITIME LOIRE−ATLANTIQUE 02060100140 Cluster Dendrogram hclust (*, "ward") dist(base, "maximum") Height 57
  • 58. Arthur CHARPENTIER - Analyse des donn´ees VENDEE CORREZE CANTAL CREUSE PARIS HAUTE−CORSE SEINE−SAINT−DENIS BAS−RHIN HAUT−RHIN CORSE−DU−SUD LOZERE MANCHE MAYENNE MAINE−ET−LOIRE ALPES−MARITIMES HAUTE−GARONNE HAUTE−SAVOIE DEUX−SEVRES ARIEGE SEINE−ET−MARNE AVEYRON YVELINES HAUTS−DE−SEINE MOSELLE VAR COTES−D−ARMOR HAUTES−PYRENEES AUDE NIEVRE ILLE−ET−VILAINE FINISTERE PYRENEES−ATLANTIQUES PAS−DE−CALAIS GIRONDE TARN ALLIER OISE MORBIHAN TERRITOIRE−DE−BELFORT TARN−ET−GARONNE BOUCHES−DU−RHONE GARD HAUTE−LOIRE ORNE VAUCLUSE VIENNE CHARENTE−MARITIME LOIRE−ATLANTIQUE SAONE−ET−LOIRE INDRE−ET−LOIRE HAUTES−ALPES CALVADOS SARTHE PUY−DE−DOME LOIR−ET−CHER HAUTE−SAONE COTE−D−OR DOUBS LOIRE CHER ESSONNE INDRE LOT−ET−GARONNE SOMME ARDECHE ALPES−DE−HAUTE−PROVENCE SEINE−MARITIME ISERE NORD DROME ARDENNES MEURTHE−ET−MOSELLE PYRENEES−ORIENTALES AISNE HERAULT HAUTE−MARNE VOSGES JURA AIN MEUSE RHONE EURE LOIRET AUBE MARNE YONNE EURE−ET−LOIR SAVOIE LANDES CHARENTE GERS LOT DORDOGNE HAUTE−VIENNE 024681012 Cluster Dendrogram hclust (*, "single") dist(base, "maximum") Height CORREZE CANTAL CREUSE PARIS CORSE−DU−SUD HAUTE−CORSE VENDEE BAS−RHIN HAUT−RHIN ALPES−MARITIMES MOSELLE VAR OISE LOIRE VAUCLUSE HAUTE−SAVOIE HAUTES−ALPES CALVADOS SARTHE INDRE−ET−LOIRE MORBIHAN ARDECHE JURA LOIR−ET−CHER SAONE−ET−LOIRE MAINE−ET−LOIRE DEUX−SEVRES CHARENTE−MARITIME LOIRE−ATLANTIQUE HAUTE−LOIRE ORNE YVELINES HAUTS−DE−SEINE LOZERE MANCHE MAYENNE AVEYRON ILLE−ET−VILAINE FINISTERE PYRENEES−ATLANTIQUES TERRITOIRE−DE−BELFORT ISERE DROME ARDENNES MEURTHE−ET−MOSELLE BOUCHES−DU−RHONE GARD NORD PYRENEES−ORIENTALES AISNE HERAULT AIN MEUSE RHONE LOIRET EURE−ET−LOIR SAVOIE EURE AUBE MARNE YONNE TARN−ET−GARONNE HAUTE−SAONE COTE−D−OR DOUBS SEINE−ET−MARNE HAUTE−MARNE VOSGES ALLIER CHER PAS−DE−CALAIS SOMME ALPES−DE−HAUTE−PROVENCE SEINE−MARITIME SEINE−SAINT−DENIS ESSONNE INDRE LOT−ET−GARONNE LOT DORDOGNE HAUTE−VIENNE GIRONDE TARN PUY−DE−DOME VIENNE CHARENTE GERS COTES−D−ARMOR HAUTES−PYRENEES HAUTE−GARONNE LANDES ARIEGE AUDE NIEVRE 05102030 Cluster Dendrogram hclust (*, "complete") dist(base, "maximum") Height 58
  • 59. Arthur CHARPENTIER - Analyse des donn´ees La classification avec R R propose un grand nombre d’outils et m´ethodes pour partitionner, en particulier clara, qui marche tr`es bien sur les tr`es grosses bases de donn´ees, daisy pour construire des matrices de dissimilarit´e (pour des variables qualitatives ou quantitatives), dist pour construire des matrices de dissimilarit´e (pour des variables quantitatives seulement). 59
  • 60. Arthur CHARPENTIER - Analyse des donn´ees Travaux dirig´es Le TD portera sur la base de donn´ees departement.xls (dont une codification est donn´e dans le fichier code-departement.xls) t´el´echargeables sur ma page internet. 60