Arthur CHARPENTIER - Analyse des donn´ees
Analyse des donn´ees (4)
La Classification (Ascendante) Hi´eracrchique
Arthur Cha...
Arthur CHARPENTIER - Analyse des donn´ees
La classification, une introduction
Ici on cherche `a regrouper des objects pr´es...
Arthur CHARPENTIER - Analyse des donn´ees
distance entre deux individus,
d2
(i1, i2) =
j
(Yi1,j − Yi2,j)
2
.
Pour des vari...
Arthur CHARPENTIER - Analyse des donn´ees
Exemple introductif, sur donn´ees continues
Consid´erons l’exmple au d´ecathlon,...
Arthur CHARPENTIER - Analyse des donn´ees
On pose alors Yi,j = ±
Xi,j − Xj
sj
, avec un signe − pour les sports de course....
Arthur CHARPENTIER - Analyse des donn´ees
Fig. 1 – Constitution de classes : regrouper des individus (et des classes).
6
Arthur CHARPENTIER - Analyse des donn´ees
Fig. 2 – Constitution de classes : regrouper des individus (et des classes).
7
Arthur CHARPENTIER - Analyse des donn´ees
Fig. 3 – Constitution de classes : regrouper des individus (et des classes).
8
Arthur CHARPENTIER - Analyse des donn´ees
Fig. 4 – Constitution de classes : regrouper des individus (et des classes).
9
Arthur CHARPENTIER - Analyse des donn´ees
Retour sur le d´ecathlon
20
10
18
7
4
11
6
5
13
1
14
12
15
8
9
2
3
17
28
30
31
3...
Arthur CHARPENTIER - Analyse des donn´ees
Retour sur le d´ecathlon
−0.2 0.0 0.2 0.4
−0.20.00.20.4
Comp.1
Comp.2
1
1 1
2
1
...
Arthur CHARPENTIER - Analyse des donn´ees
Retour sur le d´ecathlon
−3 −2 −1 0 1 2 3 4
−2024
Component 1
Component2
These t...
Arthur CHARPENTIER - Analyse des donn´ees
Notons qu’au lieu de regrouper les sportifs, on pourrait aussi regrouper les
var...
Arthur CHARPENTIER - Analyse des donn´ees
jave
poid
disq
haut
400
1500
perc
long
100
110
34567
Cluster Dendrogram
hclust (...
Arthur CHARPENTIER - Analyse des donn´ees
Notons que l’on peut aussi changer de distance, ou la m´ethode de regroupement,
...
Arthur CHARPENTIER - Analyse des donn´ees
jave
poid
disq
haut
400
1500
perc
long
100
110
34567
Cluster Dendrogram
hclust (...
Arthur CHARPENTIER - Analyse des donn´ees
Exemple introductif, sur donn´ees qualitatives
On peut utiliser cette m´ethode p...
Arthur CHARPENTIER - Analyse des donn´ees
> mydf <- as.data.frame(mymat)
> mydf.coa <- dudi.coa(mydf, scannf = FALSE, nf =...
Arthur CHARPENTIER - Analyse des donn´ees
Commercants
EmployesCommerc
InactDiv
AncEmployeOuvr
Artisans
Contremaitres
Agric...
Arthur CHARPENTIER - Analyse des donn´ees
Une autre piste, pour classer des individus, est d’utiliser des m´ethodes de
cla...
Arthur CHARPENTIER - Analyse des donn´ees
Agriculteurs
AncAgriculteurs
ProfIntPublic
CadresPublic
CadresEntrepr
EmployesPu...
Arthur CHARPENTIER - Analyse des donn´ees
Agriculteurs
AncAgriculteurs
ProfIntPublic
CadresPublic
CadresEntrepr
EmployesPu...
Arthur CHARPENTIER - Analyse des donn´ees
De l’importance du choix de la distance, dans R2
Distance euclidienne, d(a, b) =...
Arthur CHARPENTIER - Analyse des donn´ees
De l’importance du choix de la distance, dans R2
Distance maximale, d(a, b) = ma...
Arthur CHARPENTIER - Analyse des donn´ees
De l’importance du choix de la distance, dans R2
Distance de Manhantan, d(a, b) ...
Arthur CHARPENTIER - Analyse des donn´ees
De l’importance du choix de la distance, dans R2
Distance de Camberra, d(a, b) =...
Arthur CHARPENTIER - Analyse des donn´ees
De l’importance du choix de la distance, dans R2
Distance de Minkowski, d’ordre ...
Arthur CHARPENTIER - Analyse des donn´ees
De l’importance du choix de la distance, dans R2
Distance de Minkowski, d’ordre ...
Arthur CHARPENTIER - Analyse des donn´ees
Distance entre points, distance entre groupes
Strat´egie barycentrique, d(A, B) ...
Arthur CHARPENTIER - Analyse des donn´ees
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q q
q
q
q
q
q q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
...
Arthur CHARPENTIER - Analyse des donn´ees
Distance entre points, distance entre groupes
La distance entre deux groupes A e...
Arthur CHARPENTIER - Analyse des donn´ees
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q q
q
q
q
q
q q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
...
Arthur CHARPENTIER - Analyse des donn´ees
Distance entre points, distance entre groupes
La distance entre deux groupes A e...
Arthur CHARPENTIER - Analyse des donn´ees
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q q
q
q
q
q
q q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
...
Arthur CHARPENTIER - Analyse des donn´ees
La distance entre deux groupes A et B est la moyenne des distances entre un
´el´...
Arthur CHARPENTIER - Analyse des donn´ees
Visualisation graphique
Le dendrogramme est un arbre binaire pr´esentant les agr...
Arthur CHARPENTIER - Analyse des donn´ees
D´ecomposition de l’inertie
37
Arthur CHARPENTIER - Analyse des donn´ees
Arbre de classification
Deux familles de classification (ou segmentation) entre va...
Arthur CHARPENTIER - Analyse des donn´ees
• la liaison simple : pour chaque couple de groupes, on calcule la distance entr...
Arthur CHARPENTIER - Analyse des donn´ees
33
1
29
19
27
26
24
25
21
22
30
23
28
7
20
10
18
6
4
11
5
13
14
12
15
2
3
16
8
9...
Arthur CHARPENTIER - Analyse des donn´ees
17
33
19
27
26
29
21
22
23
24
25
32
30
28
31
18
20
1
6
7
10
5
13
4
11
8
9
16
12
...
Arthur CHARPENTIER - Analyse des donn´ees
20
7
11
14
16
8
9
17
18
23
28
31
4
10
2
3
15
1
12
22
24
21
32
33
19
6
5
13
25
27...
Arthur CHARPENTIER - Analyse des donn´ees
33
1
29
19
27
26
24
25
21
22
30
23
28
7
20
10
18
6
4
11
5
13
14
12
15
2
3
16
8
9...
Arthur CHARPENTIER - Analyse des donn´ees
7
10
18
21
22
23
8
9
14
12
15
26
25
16
24
6
3
5
13
20
11
2
4
33
19
27
29
28
30
3...
Arthur CHARPENTIER - Analyse des donn´ees
−1.0 −0.5 0.0 0.5 1.0
−1.0−0.50.00.51.0
q
q
q
q
q
q
q
q
−1.0 −0.5 0.0 0.5 1.0
−1...
Arthur CHARPENTIER - Analyse des donn´ees
−1.0 −0.5 0.0 0.5 1.0
−1.0−0.50.00.51.0
q
q
q
q
q
q
q
q
−1.0 −0.5 0.0 0.5 1.0
−1...
Arthur CHARPENTIER - Analyse des donn´ees
M´ethodes de partitionnement
Parmi les m´ethodes de partitionnement, on retiendr...
Arthur CHARPENTIER - Analyse des donn´ees
q
q
q
q
q
q
q
q
q
q
q
q
q q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
...
Arthur CHARPENTIER - Analyse des donn´ees
q
q
q
q
q
q
q
q
q
q
q
q
q q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
...
Arthur CHARPENTIER - Analyse des donn´ees
q
q
q
q
q
q
q
q
q
q
q
q
q q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
...
Arthur CHARPENTIER - Analyse des donn´ees
q
q
q
q
q
q
q
q
q
q
q
q
q q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
...
Arthur CHARPENTIER - Analyse des donn´ees
q
q
q
q
q
q
q
q
q
q
q
q
q q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
...
Arthur CHARPENTIER - Analyse des donn´ees
q
q
q
q
q
q
q
q
q
q
q
q
q q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
...
Arthur CHARPENTIER - Analyse des donn´ees
Exemple pratique, d´epartements et votes
Reprenons la base ´etudi´ees lors de l’...
Arthur CHARPENTIER - Analyse des donn´ees
CORREZE
VENDEE
ALPES−MARITIMES
VAR
MOSELLE
BAS−RHIN
HAUT−RHIN
HAUTE−SAVOIE
MAINE...
Arthur CHARPENTIER - Analyse des donn´ees
CORREZE
VENDEE
CANTAL
PARIS
CREUSE
HAUTE−CORSE
HAUTE−VIENNE
DORDOGNE
LOT
CORSE−D...
Arthur CHARPENTIER - Analyse des donn´ees
CORREZE
VENDEE
CANTAL
CREUSE
PARIS
CORSE−DU−SUD
HAUTE−CORSE
BAS−RHIN
HAUT−RHIN
A...
Arthur CHARPENTIER - Analyse des donn´ees
VENDEE
CORREZE
CANTAL
CREUSE
PARIS
HAUTE−CORSE
SEINE−SAINT−DENIS
BAS−RHIN
HAUT−R...
Arthur CHARPENTIER - Analyse des donn´ees
La classification avec R
R propose un grand nombre d’outils et m´ethodes pour par...
Arthur CHARPENTIER - Analyse des donn´ees
Travaux dirig´es
Le TD portera sur la base de donn´ees departement.xls (dont une...
Prochain SlideShare
Chargement dans…5
×

Cours add-r1-part4

831 vues

Publié le

0 commentaire
1 j’aime
Statistiques
Remarques
  • Soyez le premier à commenter

Aucun téléchargement
Vues
Nombre de vues
831
Sur SlideShare
0
Issues des intégrations
0
Intégrations
372
Actions
Partages
0
Téléchargements
16
Commentaires
0
J’aime
1
Intégrations 0
Aucune incorporation

Aucune remarque pour cette diapositive

Cours add-r1-part4

  1. 1. Arthur CHARPENTIER - Analyse des donn´ees Analyse des donn´ees (4) La Classification (Ascendante) Hi´eracrchique Arthur Charpentier http ://perso.univ-rennes1.fr/arthur.charpentier/ blog.univ-rennes1.fr/arthur.charpentier/ Master 2, Universit´e Rennes 1 1
  2. 2. Arthur CHARPENTIER - Analyse des donn´ees La classification, une introduction Ici on cherche `a regrouper des objects pr´esentant des similitudes. De mani`ere intuitive, on voit que le choix de la distance ne sera pas neutre. L’id´ee est de constituer des groupes homog`enes. Il existe des m´ethodes • non hi´erarchique ou dites de partitionnement • hi´erarchique o`u on cherche `a construire des suites de partitions emboˆıt´ees, contenant n, puis n − 1, puis n − 2, · · · classes, en regroupant `a chaque ´etape deux parties. Remarque rappelons que le nombre de partitions en k classes de n ´el´ements est de l’ordre de kn /k! et donc le nombre total de partitions d’un ensemble de n ´el´ement vaut 1 e k≥1 kn k! . Aussi, avec n = 10 individus, il y a un peu plus de 100, 000 partitions possible, et pour n = 15, plus de 1.3 milliards. =⇒ pour plus de 10 individus, il est impossible de comparer toutes les partitions possibles. Pour des variables continues, on utilise une distance euclidienne pour mesurer la 2
  3. 3. Arthur CHARPENTIER - Analyse des donn´ees distance entre deux individus, d2 (i1, i2) = j (Yi1,j − Yi2,j) 2 . Pour des variables qualitatives, on utilise une distance du chi-deux pour mesurer la distance entre deux individus, i.e. entre deux profils lignes d2 (i1, i2) = j ni1,j ni1,· − ni1,j ni2,· 2 . 3
  4. 4. Arthur CHARPENTIER - Analyse des donn´ees Exemple introductif, sur donn´ees continues Consid´erons l’exmple au d´ecathlon, en athl´etisme > library(ade4) > data(olympic) > head(olympic$tab) 100 long poid haut 400 110 disq perc jave 1500 1 11.25 7.43 15.48 2.27 48.90 15.13 49.28 4.7 61.32 268.95 2 10.87 7.45 14.97 1.97 47.71 14.46 44.36 5.1 61.76 273.02 3 11.18 7.44 14.20 1.97 48.29 14.81 43.66 5.2 64.16 263.20 4 10.62 7.38 15.02 2.03 49.06 14.72 44.80 4.9 64.04 285.11 5 11.02 7.43 12.92 1.97 47.44 14.40 41.20 5.2 57.46 256.64 6 10.83 7.72 13.58 2.12 48.34 14.18 43.06 4.9 52.18 274.07 Afin de comparer “proprement” les variables, on commence • par centrer et r´eduire (afin de rendre comparable) • par transformer certaines variables car elles ne s’interpr`ete pas de la mˆeme mani`er : un score ´elev´e en haut signifie que la personne a saut´e haut en saut en hauteur (ce qui est bon), mais un score ´elev´e en 100 signifie que la personne a mis un temps long pour courrir le 100 m`etre (ce qui est mauvais) 4
  5. 5. Arthur CHARPENTIER - Analyse des donn´ees On pose alors Yi,j = ± Xi,j − Xj sj , avec un signe − pour les sports de course. > Y=scale(olympic$tab, center=TRUE,scale=TRUE) > Y[,c(1,5,6,10)]= -Y[,c(1,5,6,10)] > distY=dist(Y, center=TRUE,scale=TRUE) > distY 1 2 3 4 5 6 2 4.363550 3 4.108952 1.887325 4 4.183513 2.168189 3.185110 5 5.193806 2.385945 2.190279 3.979429 6 4.280036 2.937114 3.666441 3.346085 2.968765 7 5.074714 3.539372 3.339522 3.787598 4.012323 4.347930 5
  6. 6. Arthur CHARPENTIER - Analyse des donn´ees Fig. 1 – Constitution de classes : regrouper des individus (et des classes). 6
  7. 7. Arthur CHARPENTIER - Analyse des donn´ees Fig. 2 – Constitution de classes : regrouper des individus (et des classes). 7
  8. 8. Arthur CHARPENTIER - Analyse des donn´ees Fig. 3 – Constitution de classes : regrouper des individus (et des classes). 8
  9. 9. Arthur CHARPENTIER - Analyse des donn´ees Fig. 4 – Constitution de classes : regrouper des individus (et des classes). 9
  10. 10. Arthur CHARPENTIER - Analyse des donn´ees Retour sur le d´ecathlon 20 10 18 7 4 11 6 5 13 1 14 12 15 8 9 2 3 17 28 30 31 32 26 24 25 21 22 16 23 33 29 19 27 05101520 Cluster Dendrogram hclust (*, "ward") Fig. 5 – Constitution de classes sur les sportifs du d´ecathlon. 10
  11. 11. Arthur CHARPENTIER - Analyse des donn´ees Retour sur le d´ecathlon −0.2 0.0 0.2 0.4 −0.20.00.20.4 Comp.1 Comp.2 1 1 1 2 1 1 2 1 1 2 2 1 1 1 1 3 4 2 3 2 3 3 3 3 3 3 3 4 3 4 4 4 3 −4 −2 0 2 4 6 8 −4−202468 100long poid haut 400 110 disq perc jave 1500 Fig. 6 – ACP avec les classes des sportifs du d´ecathlon. 11
  12. 12. Arthur CHARPENTIER - Analyse des donn´ees Retour sur le d´ecathlon −3 −2 −1 0 1 2 3 4 −2024 Component 1 Component2 These two components explain 57.84 % of the point variability. q q q q q q q q q q q 1 2 3 4 Fig. 7 – ACP avec les classes des sportifs du d´ecathlon. 12
  13. 13. Arthur CHARPENTIER - Analyse des donn´ees Notons qu’au lieu de regrouper les sportifs, on pourrait aussi regrouper les variables. > distY=dist(t(Y)) > distY 100 long poid haut 400 110 disq perc jave long 5.428413 poid 7.119673 7.410709 haut 7.393370 6.820509 7.495809 400 5.022220 5.569466 8.369785 7.641971 110 4.810911 5.779988 6.713726 6.661003 5.390198 disq 7.808819 7.830512 3.520434 7.386813 8.549857 7.545075 perc 6.252612 6.450176 5.769002 7.096024 6.603470 5.533615 6.479676 jave 7.736813 7.236939 5.074343 7.521977 8.467736 7.744637 5.971090 6.815316 1500 6.877050 6.219523 9.011386 7.529835 5.139452 7.404658 9.473567 7.873012 8.376637 > hc <- hclust(distY, "ave") > plot(hc) > plot(hc, hang = -1) 13
  14. 14. Arthur CHARPENTIER - Analyse des donn´ees jave poid disq haut 400 1500 perc long 100 110 34567 Cluster Dendrogram hclust (*, "average") distY Height jave poid disq haut 400 1500 perc long 100 110 345678 Cluster Dendrogram hclust (*, "average") distYHeight Fig. 8 – Regroupement des sports du d´ecathlon 14
  15. 15. Arthur CHARPENTIER - Analyse des donn´ees Notons que l’on peut aussi changer de distance, ou la m´ethode de regroupement, par exemple, > distY=dist(t(Y),method = "euclidean") > hc <- hclust(distY, "average") > plot(hc) > distY=dist(t(Y),method = "canberra") > hc <- hclust(distY, "single") > plot(hc) 15
  16. 16. Arthur CHARPENTIER - Analyse des donn´ees jave poid disq haut 400 1500 perc long 100 110 34567 Cluster Dendrogram hclust (*, "average") distY Height haut jave poid disq perc long 1500 400 100 110 3.54.04.55.05.56.06.5 Cluster Dendrogram hclust (*, "single") distY Height jave poid disq 400 1500 haut perc long 100 110 2468101214 Cluster Dendrogram hclust (*, "ward") distY Height 400 1500 jave poid disq haut perc long 100 110 3456789 Cluster Dendrogram hclust (*, "complete") distY Height jave poid disq haut 400 1500 perc long 100 110 34567 Cluster Dendrogram hclust (*, "average") distY Height 1500 400 long disq jave poid haut 100 110 perc 2530354045505560 Cluster Dendrogram hclust (*, "single") distY Height Fig. 9 – Regroupement(s) des sports du d´ecathlon 16
  17. 17. Arthur CHARPENTIER - Analyse des donn´ees Exemple introductif, sur donn´ees qualitatives On peut utiliser cette m´ethode pour ´etudier des regroupements de modalit´es, voir quelles modalit´ees sont proches : classification sur un tableau de contingence. Pour cela, on utilise une distance du chi-deux pour mesurer la proximit´e entre des modalit´es. Par exemple sur le liens entre la CSP et la nationalit´e, on peut ´etudier des regroupements de lignes (i.e. de CSP), > CSPnat=read.table("D:CSP-nat.txt",head=TRUE) > mymat=CSPnat[,2:ncol(CSPnat)] > mydf <- as.data.frame(mymat) > mydf.coa <- dudi.coa(mydf, scannf = FALSE, nf = 2) > distY=dist.dudi(mydf.coa, amongrow = TRUE) > hc <- hclust(distY, "ward") > hc$labels=as.character(CSPnat$CS) > plot(hc) ou de colonnes > CSPnat=read.table("D:CSP-nat.txt",head=TRUE) > mymat=CSPnat[,2:ncol(CSPnat)] 17
  18. 18. Arthur CHARPENTIER - Analyse des donn´ees > mydf <- as.data.frame(mymat) > mydf.coa <- dudi.coa(mydf, scannf = FALSE, nf = 2) > distY=dist.dudi(mydf.coa, amongrow = TRUE) > hc <- hclust(distY, "ward") > hc$labels=as.character(CSPnat$CS) > plot(hc) 18
  19. 19. Arthur CHARPENTIER - Analyse des donn´ees Commercants EmployesCommerc InactDiv AncEmployeOuvr Artisans Contremaitres Agriculteurs AncAgriculteurs ChefsEntreprise ProfLibérales CadresPublic CadresEntrepr EmployesPublic Techniciens EmployesEntrepr AncArtisans ProfIntPublic ProfIntEntrepr AncCadreProfInt ChomeursJamTrav OuvriersAgricol PersonnelsServ OuvriersQualif OuvriersNonQual 0.00.51.01.52.0 Cluster Dendrogram hclust (*, "ward") distY Height Portugais Autres Algerien Tunisien Marocain Turc Espagnol Italien AutresUE FrancaisNaissance Francaisacquis 0.00.51.01.52.0 Cluster Dendrogram hclust (*, "ward") distYHeight Fig. 10 – Regroupement(s) des sports du d´ecathlon 19
  20. 20. Arthur CHARPENTIER - Analyse des donn´ees Une autre piste, pour classer des individus, est d’utiliser des m´ethodes de classification sur l’AFC ou l’ACM d’un tableau de variables qualitatives, et de consid´erer les coordonn´ees des individus sur les axes factoriels comme de nouvelles variables. > library(FactoMineR) > afc=CA(mymat, ncp = 5) > base=CA(mymat, ncp = 5)$row$coord > hc <- hclust(dist(base), "ave") > hc$labels=as.character(CSPnat$CS) > plot(hc) Ici on utilise une distance euclidienne (classique) sur les projections sur les axes principaux. Notons qu’on retient ici uniquement les 5 premiers axes. Le graphique ci-dessous montrer la classifation obtenue sur 2 et sur 5 axes, puis 2, 4, 6 et 10. 20
  21. 21. Arthur CHARPENTIER - Analyse des donn´ees Agriculteurs AncAgriculteurs ProfIntPublic CadresPublic CadresEntrepr EmployesPublic ChefsEntreprise ProfLibérales ProfIntEntrepr Techniciens EmployesEntrepr AncArtisans AncCadreProfInt InactDiv Commercants EmployesCommerc Artisans Contremaitres AncEmployeOuvr OuvriersAgricol ChomeursJamTrav PersonnelsServ OuvriersQualif OuvriersNonQual 0.00.10.20.30.40.5 Cluster Dendrogram hclust (*, "average") dist(base) Height ChomeursJamTrav OuvriersAgricol AncEmployeOuvr Artisans Contremaitres Agriculteurs AncAgriculteurs ChefsEntreprise CadresEntrepr ProfLibérales CadresPublic EmployesPublic ProfIntPublic ProfIntEntrepr Techniciens EmployesEntrepr AncArtisans AncCadreProfInt Commercants EmployesCommerc InactDiv PersonnelsServ OuvriersQualif OuvriersNonQual 0.00.20.40.6 Cluster Dendrogram hclust (*, "average") dist(base) Height 21
  22. 22. Arthur CHARPENTIER - Analyse des donn´ees Agriculteurs AncAgriculteurs ProfIntPublic CadresPublic CadresEntrepr EmployesPublic ChefsEntreprise ProfLibérales ProfIntEntrepr Techniciens EmployesEntrepr AncArtisans AncCadreProfInt InactDiv Commercants EmployesCommerc Artisans Contremaitres AncEmployeOuvr OuvriersAgricol ChomeursJamTrav PersonnelsServ OuvriersQualif OuvriersNonQual 0.00.10.20.30.40.5 Cluster Dendrogram hclust (*, "average") dist(base) Height ChomeursJamTrav OuvriersAgricol AncEmployeOuvr Artisans Contremaitres Agriculteurs AncAgriculteurs AncArtisans CadresEntrepr ProfLibérales CadresPublic EmployesPublic Techniciens EmployesEntrepr ChefsEntreprise ProfIntEntrepr ProfIntPublic AncCadreProfInt InactDiv Commercants EmployesCommerc PersonnelsServ OuvriersQualif OuvriersNonQual 0.00.20.40.6 Cluster Dendrogram hclust (*, "average") dist(base) Height ChomeursJamTrav OuvriersAgricol AncEmployeOuvr Artisans Contremaitres Agriculteurs AncAgriculteurs ChefsEntreprise CadresEntrepr ProfLibérales CadresPublic EmployesPublic ProfIntPublic ProfIntEntrepr Techniciens EmployesEntrepr AncArtisans AncCadreProfInt Commercants EmployesCommerc InactDiv PersonnelsServ OuvriersQualif OuvriersNonQual 0.00.20.40.6 Cluster Dendrogram hclust (*, "average") dist(base) Height ChomeursJamTrav OuvriersAgricol Agriculteurs AncAgriculteurs ChefsEntreprise ProfLibérales CadresPublic CadresEntrepr AncArtisans EmployesPublic Techniciens EmployesEntrepr ProfIntPublic ProfIntEntrepr AncCadreProfInt Commercants EmployesCommerc InactDiv AncEmployeOuvr Artisans Contremaitres PersonnelsServ OuvriersQualif OuvriersNonQual 0.00.20.40.6 Cluster Dendrogram hclust (*, "average") dist(base) Height 22
  23. 23. Arthur CHARPENTIER - Analyse des donn´ees De l’importance du choix de la distance, dans R2 Distance euclidienne, d(a, b) = (a1 − b1)2 + (a2 − b2)2. q q q q q q q −2 −1 0 1 2 −2−1012 Distance euclidienne q q 12 ++ 12 == 2 1 1 q q q q q q q −2 −1 0 1 2 −2−1012 Distance euclidienne barycentre q q plus proches voisins q q plus lointains voisins 23
  24. 24. Arthur CHARPENTIER - Analyse des donn´ees De l’importance du choix de la distance, dans R2 Distance maximale, d(a, b) = max{|a1 − b1|, |a2 − b2|}. q q q q q q q −2 −1 0 1 2 −2−1012 Distance maximale q q max{|1−0|,|1−0|}=1 1 1 q q q q q q q −2 −1 0 1 2 −2−1012 Distance maximale q q plus proches voisins q q plus lointains voisins 24
  25. 25. Arthur CHARPENTIER - Analyse des donn´ees De l’importance du choix de la distance, dans R2 Distance de Manhantan, d(a, b) = |a1 − b1| + |a2 − b2|. q q q q q q q −2 −1 0 1 2 −2−1012 Distance de Manhattan q q |1−0|+|1−0|=2 1 1 q q q q q q q −2 −1 0 1 2 −2−1012 Distance de Manhattan q q plus proches voisins q q plus lointains voisins 25
  26. 26. Arthur CHARPENTIER - Analyse des donn´ees De l’importance du choix de la distance, dans R2 Distance de Camberra, d(a, b) = ((a1 − b1)p + (a2 − b2)p ) 1 p . q q q q q q q −2 −1 0 1 2 −2−1012 Distance de Canberra q q 1 −− 0 1 ++ 0 ++ 1 −− 0 1 ++ 0 == 1 1 1 q q q q q q q −2 −1 0 1 2 −2−1012 Distance de Canberra q q plus proches voisinsq q plus lointains voisins 26
  27. 27. Arthur CHARPENTIER - Analyse des donn´ees De l’importance du choix de la distance, dans R2 Distance de Minkowski, d’ordre p, d(a, b) = ((a1 − b1)p + (a2 − b2)p ) 1 p . q q q q q q q −2 −1 0 1 2 −2−1012 Distance de Minkowski, d'ordre 3 q q ((13 ++ 13 )) 1 3 == 2 1 3 1 1 q q q q q q q −2 −1 0 1 2 −2−1012 Distance de Minkowski, d'ordre 3 q q plus proches voisins q q plus lointains voisins 27
  28. 28. Arthur CHARPENTIER - Analyse des donn´ees De l’importance du choix de la distance, dans R2 Distance de Minkowski, d’ordre p, d(a, b) = ((a1 − b1)p + (a2 − b2)p ) 1 p . q q q q q q q −2 −1 0 1 2 −2−1012 Distance de Minkowski, d'ordre 1/2 q q ((1 1 2 ++ 1 1 2))2 == 4 1 1 q q q q q q q −2 −1 0 1 2 −2−1012 Distance de Minkowski, d'ordre 1/2 q q plus proches voisins q q plus lointains voisins 28
  29. 29. Arthur CHARPENTIER - Analyse des donn´ees Distance entre points, distance entre groupes Strat´egie barycentrique, d(A, B) est la distance entre les barycentre des deux groupes. On peut aussi pond´erer la distance par les effectifs, d(A, B) = ωAωB ωA + ωB d(xA, xB), on parle alors de distance de Ward. 29
  30. 30. Arthur CHARPENTIER - Analyse des donn´ees q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q −2 −1 0 1 2 −2−1012 30
  31. 31. Arthur CHARPENTIER - Analyse des donn´ees Distance entre points, distance entre groupes La distance entre deux groupes A et B est le maximum des distances entre un ´el´ement de A et un ´el´ement de B, d(A, B) = max i∈A,j∈B {δ(i, j)}, on parle alors de complete linkage. 31
  32. 32. Arthur CHARPENTIER - Analyse des donn´ees q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q −2 −1 0 1 2 −2−1012 q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q −2 −1 0 1 2 −2−1012 q q 32
  33. 33. Arthur CHARPENTIER - Analyse des donn´ees Distance entre points, distance entre groupes La distance entre deux groupes A et B est le minimum des distances entre un ´el´ement de A et un ´el´ement de B, d(A, B) = min i∈A,j∈B {δ(i, j)}, on parle alors de single linkage. 33
  34. 34. Arthur CHARPENTIER - Analyse des donn´ees q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q −2 −1 0 1 2 −2−1012 q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q −2 −1 0 1 2 −2−1012 q q 34
  35. 35. Arthur CHARPENTIER - Analyse des donn´ees La distance entre deux groupes A et B est la moyenne des distances entre un ´el´ement de A et un ´el´ement de B, d(A, B) = i ∈ A, j ∈ Bωi,j{δ(i, j)}, on parle alors de group average linkage. 35
  36. 36. Arthur CHARPENTIER - Analyse des donn´ees Visualisation graphique Le dendrogramme est un arbre binaire pr´esentant les agr´egrations successives, jusqu’`a r´eunion en une classe unique. La hauteur d’une branche est proportionnelle `a la distance entre les objects regroup´es. Pour la distance de Ward, la distance est simplement la perte de variance inter-classes. 36
  37. 37. Arthur CHARPENTIER - Analyse des donn´ees D´ecomposition de l’inertie 37
  38. 38. Arthur CHARPENTIER - Analyse des donn´ees Arbre de classification Deux familles de classification (ou segmentation) entre variables qualitatives existent • les m´ethodes hi´erarchiques ou agglom´eratives • les m´ethodes convergentes La m´ethodologie de la classification ascendante hi´erarchique est simple 1. on commence par un r´epartition en n classes, la plus fine qui soit, puis on aggr`ege it´erativement : `a chaque ´etape, les objets les plus ressemblants (au vue de la mesure de dssimilarit´e) sont rassembl´ees, jusqu`a obtenir une unique classe. On parle parfois d’algorithme de Lance & Williams, 2. on coupe dans l’arbre de classification (on parle aussi parfois de dendrogramme. Malheureusement, le crit`ere d’aggr´gation peut beaucoup influencer la classification. Et il n’existe pas de m´ethode permettant de connaˆıtre la meilleur m´ethode d’agr´egation. Parmi les m´ethodes de liaisons les plus classiques, rappelons 38
  39. 39. Arthur CHARPENTIER - Analyse des donn´ees • la liaison simple : pour chaque couple de groupes, on calcule la distance entre les individus les plus proches, et on fusionne alors les groupes les plus proches. Cette m´ethode cr´ee souvent des gros groupes h´et´erog`enes, • la liaison compl`ete : pour chaque couple de groupes, on calcule la distance entre les individus les plus ´eloign´es, • la liaison moyenne : pour chaque couple de groupes, on calcule la distance moyenne entre les individus, • la liaison centr´ee : pour chaque couple de groupes, on calcule la distance entre les moyenne des groupes, • la liaison de Ward : on clacule la variance de chaque groupe, puis celle de chaque groupe si on les fusionnait. On fusionne les groupes pour lesquels la distance entre la variance du couple et la somme des variance est la plus petite. Par exemple, sur la base des athl`etes du Decathlon, en utilisant 5 distances, et 4 crit`eres de regroupes, on obtient les classes suivantes 39
  40. 40. Arthur CHARPENTIER - Analyse des donn´ees 33 1 29 19 27 26 24 25 21 22 30 23 28 7 20 10 18 6 4 11 5 13 14 12 15 2 3 16 8 9 17 31 32 123456 Cluster Dendrogram hclust (*, "average") dist(Y, method = "euclidean") Height 20 10 18 7 4 11 6 5 13 1 14 12 15 8 9 2 3 17 28 30 31 32 26 24 25 21 22 16 23 33 29 19 27 05101520 Cluster Dendrogram hclust (*, "ward") dist(Y, method = "euclidean") Height 17 33 1 32 20 31 6 7 28 30 14 11 23 5 13 4 12 15 16 8 9 2 3 21 22 26 29 19 27 24 25 10 18 1.01.52.02.53.03.54.0 Cluster Dendrogram hclust (*, "single") dist(Y, method = "euclidean") Height 17 20 10 18 4 11 14 12 15 8 9 2 3 1 7 6 5 13 33 28 30 31 32 29 19 27 26 24 25 21 22 16 23 12345678 Cluster Dendrogram hclust (*, "complete") dist(Y, method = "euclidean") Height 40
  41. 41. Arthur CHARPENTIER - Analyse des donn´ees 17 33 19 27 26 29 21 22 23 24 25 32 30 28 31 18 20 1 6 7 10 5 13 4 11 8 9 16 12 15 14 2 3 246810121416 Cluster Dendrogram hclust (*, "average") dist(Y, method = "manhattan") Height 6 5 13 7 10 8 9 16 4 11 1 12 15 14 2 3 19 27 26 29 33 21 22 23 24 25 28 31 30 32 17 18 20 0102030405060 Cluster Dendrogram hclust (*, "ward") dist(Y, method = "manhattan") Height 33 17 32 1 6 20 30 18 7 11 10 25 24 19 27 26 29 21 22 4 14 5 13 23 8 2 3 9 16 12 15 28 31 345678910 Cluster Dendrogram hclust (*, "single") dist(Y, method = "manhattan") Height 17 1 18 20 4 11 14 2 3 12 15 8 9 16 7 10 6 5 13 32 28 31 33 19 27 26 29 21 22 30 23 24 25 05101520 Cluster Dendrogram hclust (*, "complete") dist(Y, method = "manhattan") Height 41
  42. 42. Arthur CHARPENTIER - Analyse des donn´ees 20 7 11 14 16 8 9 17 18 23 28 31 4 10 2 3 15 1 12 22 24 21 32 33 19 6 5 13 25 27 26 29 30 0102030405060 Cluster Dendrogram hclust (*, "average") dist(Y, method = "canberra") Height 4 10 2 3 15 1 12 14 8 9 20 7 11 28 31 17 18 16 23 19 6 5 13 21 32 33 27 26 29 30 25 22 24 0100200300400 Cluster Dendrogram hclust (*, "ward") dist(Y, method = "canberra") Height 25 26 14 20 27 21 7 6 5 13 11 16 8 9 15 1 4 10 12 2 3 17 18 23 19 33 32 29 30 28 31 22 24 246810 Cluster Dendrogram hclust (*, "single") dist(Y, method = "canberra") Height 8 9 20 7 11 16 23 14 19 28 31 17 18 2 3 15 1 12 25 4 10 22 24 21 32 33 6 5 13 27 26 29 30 02004006008001000 Cluster Dendrogram hclust (*, "complete") dist(Y, method = "canberra") Height 42
  43. 43. Arthur CHARPENTIER - Analyse des donn´ees 33 1 29 19 27 26 24 25 21 22 30 23 28 7 20 10 18 6 4 11 5 13 14 12 15 2 3 16 8 9 17 31 32 123456 Cluster Dendrogram hclust (*, "average") dist(Y, method = "minkowski") Height 20 10 18 7 4 11 6 5 13 1 14 12 15 8 9 2 3 17 28 30 31 32 26 24 25 21 22 16 23 33 29 19 27 05101520 Cluster Dendrogram hclust (*, "ward") dist(Y, method = "minkowski") Height 17 33 1 32 20 31 6 7 28 30 14 11 23 5 13 4 12 15 16 8 9 2 3 21 22 26 29 19 27 24 25 10 18 1.01.52.02.53.03.54.0 Cluster Dendrogram hclust (*, "single") dist(Y, method = "minkowski") Height 17 20 10 18 4 11 14 12 15 8 9 2 3 1 7 6 5 13 33 28 30 31 32 29 19 27 26 24 25 21 22 16 23 12345678 Cluster Dendrogram hclust (*, "complete") dist(Y, method = "minkowski") Height 43
  44. 44. Arthur CHARPENTIER - Analyse des donn´ees 7 10 18 21 22 23 8 9 14 12 15 26 25 16 24 6 3 5 13 20 11 2 4 33 19 27 29 28 30 31 32 1 17 0.51.01.52.02.53.0 Cluster Dendrogram hclust (*, "average") dist(Y, method = "maximum") Height 21 22 25 16 24 33 27 29 19 26 31 32 23 28 30 20 14 12 15 11 2 4 8 9 3 5 13 1 6 17 7 10 18 0246810 Cluster Dendrogram hclust (*, "ward") dist(Y, method = "maximum") Height 17 33 31 1 32 28 7 20 30 6 23 11 5 13 14 3 12 15 8 9 2 4 25 21 22 16 24 26 19 27 29 10 18 0.51.01.52.0 Cluster Dendrogram hclust (*, "single") dist(Y, method = "maximum") Height 1 6 17 7 10 18 31 32 33 19 27 29 20 14 12 15 2 4 8 9 3 5 13 28 30 11 23 21 22 16 24 25 26 012345 Cluster Dendrogram hclust (*, "complete") dist(Y, method = "maximum") Height 44
  45. 45. Arthur CHARPENTIER - Analyse des donn´ees −1.0 −0.5 0.0 0.5 1.0 −1.0−0.50.00.51.0 q q q q q q q q −1.0 −0.5 0.0 0.5 1.0 −1.0−0.50.00.51.0 q q q q q q q q −1.0 −0.5 0.0 0.5 1.0 −1.0−0.50.00.51.0 q q q q q q q q −1.0 −0.5 0.0 0.5 1.0 −1.0−0.50.00.51.0 q q q q q q q q 45
  46. 46. Arthur CHARPENTIER - Analyse des donn´ees −1.0 −0.5 0.0 0.5 1.0 −1.0−0.50.00.51.0 q q q q q q q q −1.0 −0.5 0.0 0.5 1.0 −1.0−0.50.00.51.0 q q q q q q q q −1.0 −0.5 0.0 0.5 1.0 −1.0−0.50.00.51.0 q q q q q q q q −1.0 −0.5 0.0 0.5 1.0 −1.0−0.50.00.51.0 q q q q q q q q 46
  47. 47. Arthur CHARPENTIER - Analyse des donn´ees M´ethodes de partitionnement Parmi les m´ethodes de partitionnement, on retiendra la m´ethode dite des k-means, des centres mobiles ou encore des nu´ees dynamiques. 1. on choisit (au hasard, ´eventuellement) k individus de r´ef´erence, appel´es noyaux, 2. on rattache tous individus au noyau dont ils sont les plus proches, 3. on calcule les centres des classes (barycentres), qui deviendront les nouveaux noyaux, 4. on rep`ete jusqu’`a convergence (qui arrive souvent assez vite) 47
  48. 48. Arthur CHARPENTIER - Analyse des donn´ees q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q qq q q q q q q q q q q q q q q q q q q −0.5 0.0 0.5 1.0 1.5 −0.50.00.51.01.5 q q 48
  49. 49. Arthur CHARPENTIER - Analyse des donn´ees q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q qq q q q q q q q q q q q q q q q q q q −0.5 0.0 0.5 1.0 1.5 −0.50.00.51.01.5 q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q qq q q q q q q q q q q q q qq q q q q q q q q q qq qq q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q 49
  50. 50. Arthur CHARPENTIER - Analyse des donn´ees q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q qq q q q q q q q q q q q q q q q q q q −0.5 0.0 0.5 1.0 1.5 −0.50.00.51.01.5 q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q qq q q q q q q q q q q q q qq q q q q q q q q q q q qq qq q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q 50
  51. 51. Arthur CHARPENTIER - Analyse des donn´ees q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q qq q q q q q q q q q q q q q q q q q q −0.5 0.0 0.5 1.0 1.5 −0.50.00.51.01.5 q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q qq q q q q q q q q q q q q qq q q q q q q q q q q q qq qq q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q 51
  52. 52. Arthur CHARPENTIER - Analyse des donn´ees q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q qq q q q q q q q q q q q q q q q q q q −0.5 0.0 0.5 1.0 1.5 −0.50.00.51.01.5 q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q qq q q q q q q q q q q q q qq q q q q q q q q q q q qq qq q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q 52
  53. 53. Arthur CHARPENTIER - Analyse des donn´ees q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q qq q q q q q q q q q q q q q q q q q q −0.5 0.0 0.5 1.0 1.5 −0.50.00.51.01.5 q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q qq q q q q q q q q q q q q qq q q q q q q q q q q q qq qq q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q 53
  54. 54. Arthur CHARPENTIER - Analyse des donn´ees Exemple pratique, d´epartements et votes Reprenons la base ´etudi´ees lors de l’analyse en composantes principales, donnant les pourcentages des diff´erents candidats `a l’´election pr´esidentielle, et essayons de regrouper les r´egions proches. CORREZE VENDEE ALPES−MARITIMES VAR MOSELLE BAS−RHIN HAUT−RHIN HAUTE−SAVOIE MAINE−ET−LOIRE LOZERE MANCHE MAYENNE ARIEGE AUDE NIEVRE HAUTE−GARONNE GIRONDE TARN COTES−D−ARMOR HAUTES−PYRENEES LANDES CHARENTE GERS PAS−DE−CALAIS ALPES−DE−HAUTE−PROVENCE SOMME NORD SEINE−MARITIME TERRITOIRE−DE−BELFORT PYRENEES−ORIENTALES AISNE HERAULT ISERE DROME ARDENNES MEURTHE−ET−MOSELLE LOIRE VAUCLUSE BOUCHES−DU−RHONE GARD OISE SEINE−ET−MARNE EURE AUBE MARNE YONNE LOIRET SAVOIE HAUTE−MARNE VOSGES EURE−ET−LOIR AIN MEUSE RHONE HAUTE−LOIRE ORNE YVELINES HAUTS−DE−SEINE AVEYRON ILLE−ET−VILAINE FINISTERE PYRENEES−ATLANTIQUES DEUX−SEVRES LOIRE−ATLANTIQUE CHARENTE−MARITIME VIENNE JURA ARDECHE LOIR−ET−CHER MORBIHAN HAUTES−ALPES CALVADOS INDRE−ET−LOIRE SARTHE TARN−ET−GARONNE HAUTE−SAONE COTE−D−OR DOUBS SAONE−ET−LOIRE INDRE LOT−ET−GARONNE PUY−DE−DOME ESSONNE SEINE−SAINT−DENIS ALLIER CHER CANTAL CREUSE HAUTE−VIENNE DORDOGNE LOT PARIS CORSE−DU−SUD HAUTE−CORSE 05102030 Cluster Dendrogram hclust (*, "average") dist(base) Height 54
  55. 55. Arthur CHARPENTIER - Analyse des donn´ees CORREZE VENDEE ALPES−MARITIMES VAR MOSELLE BAS−RHIN HAUT−RHIN HAUTE−SAVOIE MAINE−ET−LOIRE LOZERE MANCHE MAYENNE ARIEGE AUDE NIEVRE HAUTE−GARONNE GIRONDE TARN COTES−D−ARMOR HAUTES−PYRENEES LANDES CHARENTE GERS PAS−DE−CALAIS ALPES−DE−HAUTE−PROVENCE SOMME NORD SEINE−MARITIME TERRITOIRE−DE−BELFORT PYRENEES−ORIENTALES AISNE HERAULT ISERE DROME ARDENNES MEURTHE−ET−MOSELLE LOIRE VAUCLUSE BOUCHES−DU−RHONE GARD OISE SEINE−ET−MARNE EURE AUBE MARNE YONNE LOIRET SAVOIE HAUTE−MARNE VOSGES EURE−ET−LOIR AIN MEUSE RHONE HAUTE−LOIRE ORNE YVELINES HAUTS−DE−SEINE AVEYRON ILLE−ET−VILAINE FINISTERE PYRENEES−ATLANTIQUES DEUX−SEVRES LOIRE−ATLANTIQUE CHARENTE−MARITIME VIENNE JURA ARDECHE LOIR−ET−CHER MORBIHAN HAUTES−ALPES CALVADOS INDRE−ET−LOIRE SARTHE TARN−ET−GARONNE HAUTE−SAONE COTE−D−OR DOUBS SAONE−ET−LOIRE INDRE LOT−ET−GARONNE PUY−DE−DOME ESSONNE SEINE−SAINT−DENIS ALLIER CHER CANTAL CREUSE HAUTE−VIENNE DORDOGNE LOT PARIS CORSE−DU−SUD HAUTE−CORSE 05102030 Cluster Dendrogram hclust (*, "average") dist(base) Height BOUCHES−DU−RHONE GARD SEINE−SAINT−DENIS OISE SEINE−ET−MARNE PAS−DE−CALAIS ALPES−DE−HAUTE−PROVENCE SOMME NORD SEINE−MARITIME PYRENEES−ORIENTALES AISNE HERAULT ARDENNES MEURTHE−ET−MOSELLE DROME ISERE HAUTE−SAVOIE HAUTE−LOIRE ORNE EURE AUBE MARNE YONNE LOIRET SAVOIE HAUTE−MARNE VOSGES MEUSE RHONE AIN EURE−ET−LOIR BAS−RHIN HAUT−RHIN ALPES−MARITIMES VAR MOSELLE LOIRE VAUCLUSE CORREZE CANTAL CREUSE HAUTE−VIENNE DORDOGNE LOT AVEYRON YVELINES HAUTS−DE−SEINE PARIS CORSE−DU−SUD HAUTE−CORSE ARIEGE AUDE NIEVRE HAUTE−GARONNE GIRONDE TARN COTES−D−ARMOR HAUTES−PYRENEES LANDES CHARENTE GERS ALLIER CHER SAONE−ET−LOIRE CHARENTE−MARITIME VIENNE INDRE LOT−ET−GARONNE PUY−DE−DOME ESSONNE HAUTE−SAONE COTE−D−OR DOUBS TARN−ET−GARONNE TERRITOIRE−DE−BELFORT JURA ARDECHE LOIR−ET−CHER MORBIHAN HAUTES−ALPES CALVADOS INDRE−ET−LOIRE SARTHE VENDEE MAINE−ET−LOIRE LOZERE MANCHE MAYENNE ILLE−ET−VILAINE FINISTERE PYRENEES−ATLANTIQUES LOIRE−ATLANTIQUE DEUX−SEVRES 050100150 Cluster Dendrogram hclust (*, "ward") dist(base) Height 55
  56. 56. Arthur CHARPENTIER - Analyse des donn´ees CORREZE VENDEE CANTAL PARIS CREUSE HAUTE−CORSE HAUTE−VIENNE DORDOGNE LOT CORSE−DU−SUD SEINE−SAINT−DENIS BAS−RHIN HAUT−RHIN HAUTE−SAVOIE MAINE−ET−LOIRE DEUX−SEVRES MOSELLE LOZERE MANCHE MAYENNE HAUTE−GARONNE ARIEGE ALPES−MARITIMES VAR AUDE NIEVRE COTES−D−ARMOR HAUTES−PYRENEES AVEYRON ILLE−ET−VILAINE FINISTERE PYRENEES−ATLANTIQUES YVELINES HAUTS−DE−SEINE SEINE−ET−MARNE ALLIER LOIRE−ATLANTIQUE ESSONNE TERRITOIRE−DE−BELFORT TARN−ET−GARONNE HAUTE−SAONE COTE−D−OR DOUBS PAS−DE−CALAIS LANDES CHARENTE GERS GIRONDE TARN MORBIHAN CHER HAUTES−ALPES CALVADOS INDRE−ET−LOIRE SARTHE PUY−DE−DOME CHARENTE−MARITIME VIENNE BOUCHES−DU−RHONE GARD ISERE DROME MEURTHE−ET−MOSELLE ARDENNES PYRENEES−ORIENTALES AISNE HERAULT NORD SEINE−MARITIME SAONE−ET−LOIRE INDRE LOT−ET−GARONNE ALPES−DE−HAUTE−PROVENCE SOMME OISE HAUTE−LOIRE ORNE JURA EURE−ET−LOIR HAUTE−MARNE VOSGES AIN MEUSE RHONE SAVOIE EURE AUBE LOIRET MARNE YONNE LOIRE VAUCLUSE ARDECHE LOIR−ET−CHER 024681014 Cluster Dendrogram hclust (*, "single") dist(base) Height CORREZE PARIS CANTAL CREUSE YVELINES HAUTS−DE−SEINE CORSE−DU−SUD HAUTE−CORSE LOZERE MANCHE MAYENNE AVEYRON ILLE−ET−VILAINE FINISTERE PYRENEES−ATLANTIQUES MAINE−ET−LOIRE LOIRE−ATLANTIQUE DEUX−SEVRES PAS−DE−CALAIS ALPES−DE−HAUTE−PROVENCE SOMME NORD SEINE−MARITIME PYRENEES−ORIENTALES AISNE HERAULT TERRITOIRE−DE−BELFORT ARDENNES MEURTHE−ET−MOSELLE DROME ISERE BOUCHES−DU−RHONE GARD SEINE−SAINT−DENIS OISE SEINE−ET−MARNE ALLIER CHER JURA ARDECHE LOIR−ET−CHER MORBIHAN HAUTES−ALPES CALVADOS INDRE−ET−LOIRE SARTHE INDRE LOT−ET−GARONNE PUY−DE−DOME ESSONNE SAONE−ET−LOIRE CHARENTE−MARITIME VIENNE HAUTE−SAONE COTE−D−OR DOUBS TARN−ET−GARONNE GIRONDE TARN HAUTE−VIENNE DORDOGNE LOT HAUTE−GARONNE ARIEGE AUDE NIEVRE COTES−D−ARMOR HAUTES−PYRENEES LANDES CHARENTE GERS VENDEE EURE AUBE MARNE YONNE LOIRET SAVOIE HAUTE−MARNE VOSGES MEUSE RHONE AIN EURE−ET−LOIR HAUTE−SAVOIE HAUTE−LOIRE ORNE BAS−RHIN HAUT−RHIN ALPES−MARITIMES VAR MOSELLE LOIRE VAUCLUSE 010203040 Cluster Dendrogram hclust (*, "complete") dist(base) Height 56
  57. 57. Arthur CHARPENTIER - Analyse des donn´ees CORREZE VENDEE CANTAL CREUSE PARIS CORSE−DU−SUD HAUTE−CORSE BAS−RHIN HAUT−RHIN ALPES−MARITIMES MOSELLE VAR LOZERE MANCHE MAYENNE MAINE−ET−LOIRE DEUX−SEVRES AVEYRON ILLE−ET−VILAINE FINISTERE PYRENEES−ATLANTIQUES MORBIHAN SAONE−ET−LOIRE INDRE−ET−LOIRE HAUTES−ALPES CALVADOS SARTHE LOIR−ET−CHER ARDECHE JURA ESSONNE INDRE LOT−ET−GARONNE CHARENTE−MARITIME LOIRE−ATLANTIQUE GIRONDE TARN PUY−DE−DOME VIENNE HAUTE−SAVOIE HAUTE−LOIRE ORNE YVELINES HAUTS−DE−SEINE SEINE−SAINT−DENIS SEINE−ET−MARNE TERRITOIRE−DE−BELFORT TARN−ET−GARONNE HAUTE−SAONE COTE−D−OR DOUBS AIN MEUSE RHONE LOIRET EURE AUBE MARNE YONNE EURE−ET−LOIR SAVOIE OISE HAUTE−MARNE VOSGES LOIRE VAUCLUSE BOUCHES−DU−RHONE GARD PAS−DE−CALAIS SOMME ALPES−DE−HAUTE−PROVENCE SEINE−MARITIME ISERE DROME ARDENNES MEURTHE−ET−MOSELLE NORD PYRENEES−ORIENTALES AISNE HERAULT ARIEGE AUDE NIEVRE HAUTE−GARONNE COTES−D−ARMOR HAUTES−PYRENEES LANDES CHARENTE GERS ALLIER CHER LOT DORDOGNE HAUTE−VIENNE 051015202530 Cluster Dendrogram hclust (*, "average") dist(base, "maximum") Height EURE AUBE MARNE YONNE LOIRET EURE−ET−LOIR SAVOIE HAUTE−SAVOIE AIN MEUSE RHONE BAS−RHIN HAUT−RHIN HAUTE−MARNE VOSGES OISE SEINE−ET−MARNE ALPES−MARITIMES LOIRE VAUCLUSE MOSELLE VAR ESSONNE INDRE LOT−ET−GARONNE PAS−DE−CALAIS ALPES−DE−HAUTE−PROVENCE SEINE−MARITIME ALLIER CHER SOMME SEINE−SAINT−DENIS BOUCHES−DU−RHONE GARD NORD PYRENEES−ORIENTALES AISNE HERAULT ISERE DROME ARDENNES MEURTHE−ET−MOSELLE HAUTE−SAONE COTE−D−OR DOUBS TARN−ET−GARONNE TERRITOIRE−DE−BELFORT CORREZE LOT DORDOGNE HAUTE−VIENNE CANTAL CREUSE PARIS CORSE−DU−SUD HAUTE−CORSE ARIEGE AUDE NIEVRE COTES−D−ARMOR HAUTES−PYRENEES CHARENTE GERS HAUTE−GARONNE LANDES VENDEE HAUTE−LOIRE ORNE YVELINES HAUTS−DE−SEINE MAINE−ET−LOIRE LOZERE MANCHE MAYENNE ARDECHE JURA LOIR−ET−CHER SAONE−ET−LOIRE HAUTES−ALPES CALVADOS SARTHE INDRE−ET−LOIRE MORBIHAN AVEYRON ILLE−ET−VILAINE FINISTERE PYRENEES−ATLANTIQUES GIRONDE TARN PUY−DE−DOME VIENNE DEUX−SEVRES CHARENTE−MARITIME LOIRE−ATLANTIQUE 02060100140 Cluster Dendrogram hclust (*, "ward") dist(base, "maximum") Height 57
  58. 58. Arthur CHARPENTIER - Analyse des donn´ees VENDEE CORREZE CANTAL CREUSE PARIS HAUTE−CORSE SEINE−SAINT−DENIS BAS−RHIN HAUT−RHIN CORSE−DU−SUD LOZERE MANCHE MAYENNE MAINE−ET−LOIRE ALPES−MARITIMES HAUTE−GARONNE HAUTE−SAVOIE DEUX−SEVRES ARIEGE SEINE−ET−MARNE AVEYRON YVELINES HAUTS−DE−SEINE MOSELLE VAR COTES−D−ARMOR HAUTES−PYRENEES AUDE NIEVRE ILLE−ET−VILAINE FINISTERE PYRENEES−ATLANTIQUES PAS−DE−CALAIS GIRONDE TARN ALLIER OISE MORBIHAN TERRITOIRE−DE−BELFORT TARN−ET−GARONNE BOUCHES−DU−RHONE GARD HAUTE−LOIRE ORNE VAUCLUSE VIENNE CHARENTE−MARITIME LOIRE−ATLANTIQUE SAONE−ET−LOIRE INDRE−ET−LOIRE HAUTES−ALPES CALVADOS SARTHE PUY−DE−DOME LOIR−ET−CHER HAUTE−SAONE COTE−D−OR DOUBS LOIRE CHER ESSONNE INDRE LOT−ET−GARONNE SOMME ARDECHE ALPES−DE−HAUTE−PROVENCE SEINE−MARITIME ISERE NORD DROME ARDENNES MEURTHE−ET−MOSELLE PYRENEES−ORIENTALES AISNE HERAULT HAUTE−MARNE VOSGES JURA AIN MEUSE RHONE EURE LOIRET AUBE MARNE YONNE EURE−ET−LOIR SAVOIE LANDES CHARENTE GERS LOT DORDOGNE HAUTE−VIENNE 024681012 Cluster Dendrogram hclust (*, "single") dist(base, "maximum") Height CORREZE CANTAL CREUSE PARIS CORSE−DU−SUD HAUTE−CORSE VENDEE BAS−RHIN HAUT−RHIN ALPES−MARITIMES MOSELLE VAR OISE LOIRE VAUCLUSE HAUTE−SAVOIE HAUTES−ALPES CALVADOS SARTHE INDRE−ET−LOIRE MORBIHAN ARDECHE JURA LOIR−ET−CHER SAONE−ET−LOIRE MAINE−ET−LOIRE DEUX−SEVRES CHARENTE−MARITIME LOIRE−ATLANTIQUE HAUTE−LOIRE ORNE YVELINES HAUTS−DE−SEINE LOZERE MANCHE MAYENNE AVEYRON ILLE−ET−VILAINE FINISTERE PYRENEES−ATLANTIQUES TERRITOIRE−DE−BELFORT ISERE DROME ARDENNES MEURTHE−ET−MOSELLE BOUCHES−DU−RHONE GARD NORD PYRENEES−ORIENTALES AISNE HERAULT AIN MEUSE RHONE LOIRET EURE−ET−LOIR SAVOIE EURE AUBE MARNE YONNE TARN−ET−GARONNE HAUTE−SAONE COTE−D−OR DOUBS SEINE−ET−MARNE HAUTE−MARNE VOSGES ALLIER CHER PAS−DE−CALAIS SOMME ALPES−DE−HAUTE−PROVENCE SEINE−MARITIME SEINE−SAINT−DENIS ESSONNE INDRE LOT−ET−GARONNE LOT DORDOGNE HAUTE−VIENNE GIRONDE TARN PUY−DE−DOME VIENNE CHARENTE GERS COTES−D−ARMOR HAUTES−PYRENEES HAUTE−GARONNE LANDES ARIEGE AUDE NIEVRE 05102030 Cluster Dendrogram hclust (*, "complete") dist(base, "maximum") Height 58
  59. 59. Arthur CHARPENTIER - Analyse des donn´ees La classification avec R R propose un grand nombre d’outils et m´ethodes pour partitionner, en particulier clara, qui marche tr`es bien sur les tr`es grosses bases de donn´ees, daisy pour construire des matrices de dissimilarit´e (pour des variables qualitatives ou quantitatives), dist pour construire des matrices de dissimilarit´e (pour des variables quantitatives seulement). 59
  60. 60. Arthur CHARPENTIER - Analyse des donn´ees Travaux dirig´es Le TD portera sur la base de donn´ees departement.xls (dont une codification est donn´e dans le fichier code-departement.xls) t´el´echargeables sur ma page internet. 60

×