Traitement des données massives (INF442, A2)

INF442 : Traitement des donn´ees massives
A2 : Le regroupement plat et le regroupement hi´erarchique
Frank Nielsen
X2013
15 avril 2015

Administratif
dernier dépôt des TDs : le dimanche soir à 23h59m59s suivant le
mercredi du TD
élection du délégué de cours : ? ? ?
TD1 : ok, félicitations !
TD2 commence par l’exercice MPI du TD1.
tutorat langage C++ mis en place par la DE.
Deux créneaux : le mardi et le jeudi de 18h à 20h (Ivan Ustinov)
Voir les planches du memento C++ sous moodle
Rassurez-vous, TD 3 (détecteur de pourriels) et TD 4 (chiffrement de
Hill) sont bien moins copieux !

Projet informatique
responsable PIs : Claudia D’Ambrosio
dambrosio@lix.polytechnique.fr
3 choix pour le 20 avril 2015
PI validé le 23 avril 2015
Date de remise sous Moodle : ≤ 22 mai 2015
Soutenance PI : entre le 1er juin et le 12 juin 2015
Sujets/difficultés (* : facile , ** : moyen, *** : difficile) :
442-1 * Lancer de rayon (image de synthèse) S. Redon
442-2 * PageRank (matrices) P.L. Poirion
442-3 ** CASP : Assessment Protein Structure Prediction A. Héliou
& P. Chassignet
442-4 ** Graphes & arbres recouvrants (most vital edge) S. Toubaline
442-5 *** Détecteur de Viola Jones (vision) J.-B. Bordes
442-6 *** Repliement des protéines (biologie) P. Chassignet
442-7 ? Projet au choix, sujet à rédiger et valider ?
442-7 : Projet au choix en C++ (sans MPI) également possible.

HPC : quelques cas pour le Super-Computing (SC)
HPC = on recherche l’ efficacité !
Utiliser des modèles pour de la simulation parce que sinon c’est
trop difficile à construire (souffleries)
trop cher à construire (crash d’avion/voiture)
trop lent à attendre (évolution du climat, galaxies)
trop dangereux (armes, drogues, pollutions, épidémies)
Avoir des résultats rapides voire en ligne
on-line, incremental :
valeur temporelle du résultat (météo)
être le premier à avoir le résultat (bourse, trading HFT)
être le premier à avoir “une analyse” (incluant le coût de dévelopement)
Données massives, le Big Data :
analyse du génome/d’une famille de génomes
recherche d’intelligence extraterrestre (SETI)

Accélération, efficacité et scalabilité
tseq : temps écoulé par le programme séquentiel
tP : ... par programme parallèle sur P proc.
t1 : ... par le programme parallèle exécuté en séquentiel, P = 1
bien sûr, t1 ≥ tseq sinon on aurait un meilleur algo. séquentiel
Accélération : speedup(P) =
tseq
tP
, souvent
tseq
tP
t1
tP
Efficacité : e(P) = speedup(P)
P =
tseq
P×tP
par rapport au speed-up linéaire, e(P) = 1 ⇔ tP =
tseq
P
Speed-up, efficiency

Loi d’Amdahl (1967) : un frein au parallélisme ?
gain de performance idéal :
α = fraction du code parallèlisable
αseq = fraction du code non-parallèlisable
avec αseq + α = 1
speedup(P) =
t1
tn
=
(αseq + α )t1
(αseq +
α
P )t1
=
1
αseq +
α
P
lim
P→∞
speedup(P) =
1
αseq
=
1
1 − α
⇒ accélération bornée par la fraction de code αseq non-parallèlisable (celle
qui est intrinséquement séquentielle)

Loi d’Amdahl : comportement asymptotique
0
2
4
6
8
10
12
14
16
18
20
1 4 16 64 256 1024 4096 16384 65536
speed−up
nombre de processeurs (P)
0.75
0.9
0.95

Loi d’Amdahl : un exemple visuel pour concr´etiser
αseq = 20% et donc α = 80%
Temps
P = 1 P=2 P=4 P=8
S = 1 S = 5
3
S = 2
5
S = 10
3
S = 5
P → ∞
seq
par
...
lim
P→∞
speedup(P) =
1
αseq
=⇒ speedup ≤ ×5
Est-ce alors int´eressant d’avoir des grands clusters de machines ?

Loi de Gustafson : scale speed-up, à la rescousse !
Simulation : taille des mailles d’une grille 2D/3D = fonction de P
Vidéo : SD, HD, 4K, 8K, etc.
Concept = Charge de travail (workload) grandit linéairement avec P
n n’est pas fixé ! (= cas d’Amdahl)
t1(P) = αseqtP + P × (α × tP)
speedupGustafson(P) = αseq + P × (1 − αseq)
Gustafson = parallélisme de données
.

Loi de Gustafson : un exemple visuel
Loi de Gustafson : speedup(P) = αseq + P × α . scale speed-up
P = 1 P = 2 P = 4 P = 8
n 2n 4n 8n
temps
la taille des données n augmente
seq
par
speedup(P) = 0.2 + 0.8 × P
Parfois, en pratique, on obtient un speed-up super-linéaire (hyper-linéaire),
qui s’explique par le cache hiérarchique des données
Pensez au cheminement complexe des données vers le processeur dans le
matériel !

Comparaison des lois d’Amdahl et de Gustafson
Amdahl : tP est une fonction de (t1, α , P)
Gustafson : t1 est une fonction de (tP , α , P)
efficacité(P) =
accélération(P)
P
efficacité asymptotique d’Amdahl : limP→∞ eAmdahl(P) = 0.
Accélération toujours bornée .
efficacité asymptotique de Gustafson : limP→∞ eGustafson(P) = α .
Accélération non-bornée asymptotiquement.
... pas de contradiction car αseq de Gustafson = αseq d’Amdahl.

Loi de Moore (1975)
En fait, une loi empirique , une conjecture... que l’industrie essaye de
satisfaire!
nombre de transistors des processeurs double tous les 18 mois

Cluster de machines : une architecture à mémoire
distribuée
espace mémoire local associé à chaque processeur
processeurs connecté par un réseau d’interconnexion
accès mémoire aux autres processeurs explicite par échanges de
messages sur le réseau
le réseau d’interconnexion détermine la vitesse d’accès aux données
caractéristiques du réseau :
transmission avec modèle de coût α + τ × Longueur(message) :
latence : temps pour initier une communication (α)
bande passante : vitesse de transfert des données (τ)
topologie : architectures physique (matériel) et logique (utilisé par les
algorithmes //)

Processus
Les systèmes d’exploitation modernes sont multi-tâches : plusieurs
applications non-bloquantes peuvent tourner en “même temps” (time-slicing).
un seul processus en cours d’exécution sur le CPU à un instant donné,
un ordonnanceur de tâches qui alloue les processus aux CPUs/cœurs,
état d’un processus : en cours d’exécution, prêt en attente de CPU,
bloqué (suspendu/attente de réveil).
Cadre théorique : un processus tourne sur un processeur (mono-cœur) qui
constitue un nœud du cluster. P/Proc. (= processus, = processeur)

Tâches (jobs) sous UNIX
[france ~]$ sleep 10000 &
[1] 12027
[2] 12065
[france ~]$ jobs
[1]- Running sleep 10000 &
[2]+ Running sleep 15000 &
[france ~]$ kill %1
[1]- Terminated sleep 10000
[france ~]$ fg %2
sleep 15000
On suspend une tâche avec Ctrl-Z , et on la fait passer dans le fond avec bg
% (background)
Une tâche peut lancer plusieurs processus (souvent c’est un seul)

Tˆaches (jobs) sous UNIX : tuer une tˆache
[france ~]$ ps
PID TTY TIME CMD
10241 pts /0 00:00:00 bash
12167 pts /0 00:00:00 ps
[1] 12169
[france ~]$ ps -F
UID PID PPID C SZ RSS PSR STIME TTY TIME CMD
11234 10241 10240 0 1236 1456 6 10:08 pts /0 00:00:00 -bash
11234 12169 10241 0 953 472 1 10:50 pts /0 00:00:00 sleep 10000
11234 12170 10241 0 1132 900 1 10:50 pts /0 00:00:00 ps -F
[france ~]$ kill 12169
[1]+ Terminated sleep 10000

Programmer avec la Message Passing Interface (MPI)
Multiple Program Multiple Data : MPMD
Single Program Multiple Data : SPMD
Taxonomie de Flynn (1972). SPMD (GPU), MPMD (Playstation R 3).

MPI : le standard/la bibliothéque
Outre les calculs locaux sur chaque processus, on a aussi :
des mouvements de données via des envois et réceptions de messages
(broadcast, scatter, gather, all-to-all, etc.),
de la synchronisation (barrière où tous les processus s’attendent avant
de pouvoir continuer),
du calcul global (comme des opérations de sommes cumulées, reduce et
scan ou parallel prefix).

MPI : Les communications collectives usuelles
Concernent tous les processus d’un groupe de communication (souvent
WORLD)
diffusion
broadcast
Mi
M1 M2 M3
M
M M M
M
diffusion
personnalisée
scatter
M1 M2 M3
rassemblement
gather
Mi
M1 M2 M3
2 3 1 réduction
reduce
2 3 1
6
processus appelant
AVANT APRÈS
P0
P1 P2 P3
message
messages personnalisés M1, M2, M3 à envoyer
Mi
messages personnalisés M1, M2, M3 re¸cus

MPI : Les communications collectives
un à tous (one-to-all) :
La diffusion, Broadcast : MPI Bcast, message entier
La difusion personnalisée, Scatter : MPI Scatter, message partitionné en
morceaux
tous à un (all-to-one) :
La réduction, Reduce : MPI Reduce, opération comme MPI SUM, etc.
Le rassemblement, Gather : MPI Gather, assemble le message à partir des
messages par morceaux
tous à tous (all-to-all, total exchange), le commérage : MPI Alltoall

MPI : les deux opérations de base send et receive
Communications bloquantes
send(&data, n, Pdest) :
Envoie n données pointées par &data au processeur Pdest
receive(&data,n, Psrc) :
Re¸coit n données à l’adresse pointée par &data du processeur Psrc
Que se passe t’il dans ce petit exemple ?
P0 P1...
a=442;
send(&a, 1, P1);
a=0;
...
receive(&a, 1, P0);
cout << a << endl;

Communications bloquantes (non-buﬀeris´ees)
⇒ provoque de l’attente (idling)
Envoyeur ou receveur doivent s’attendre mutuellement (hand-shaking).

MPI Init(&argc ,& argv ) ;
MPI Comm size (MPI COMM WORLD,&numprocs ) ;
MPI Comm rank(MPI COMM WORLD,&myid ) ;
tag =442; source =0; d e s t i n a t i o n =1; count =1;
i f ( myid == source ) {
b u f f e r =2015;
MPI Send(& buffer , count , MPI INT , d es t i n a t i on , tag ,
MPI COMM WORLD) ;
p r i n t f ( ”Le p r oces s eu r %d a envoye %dn” , myid ,
b u f f e r ) ;
}
i f ( myid == d e s t i n a t i o n ) {
MPI Recv(& buffer , count , MPI INT , source , tag ,
MPI COMM WORLD,& s t a t u s ) ;
p r i n t f ( ”Le p r oc e s s e u r %d a recu %dn” , myid ,
b u f f e r ) ;
}

. . .
b u f f e r =2015;
MPI Send(& buffer , count , MPI INT , d es t i n a t i on , tag ,
MPI COMM WORLD) ;
b u f f e r ) ;
}
MPI Recv(& buffer , count , MPI INT , source , tag ,
MPI COMM WORLD,& s t a t u s ) ;
p r i n t f ( ”Le p r oc e s s e u r %d a recu %dn” , myid ,
b u f f e r ) ;
}
. . .
Le processeur 0 a envoye 2015
Le processeur 1 a recu 2015

Minimiser les temps d’attente
Pour des communications bloquantes, on cherche donc `a minimiser le temps
d’attente (on verra plus tard l’´equilibrage de charge, le load balancing).

Temps d’attente pour le receveur
Receveur prˆet avant l’envoyeur (communications bloquantes)

MPI : les situations de blocages (deadlocks)
Que se passe t’il dans cet exemple ?
P0 P1
send(&a, 1, P1);
receive(&b, 1, P1);
send(&a, 1, P0);
receive(&b, 1, P0);
Envoyeur P0 attend le “OK pour envoi” de P1
Envoyeur P1 attend le “OK pour envoi” de P0
Ça bloque. On est en situation de deadlock !
(Ctrl-C pour tuer le programme...)
Programmer avec MPI peut-être complexe à déboguer

MPI : les blocages (deadlocks)
Les communications bloquantes sont nécessaires pour assurer la
consistence (sémantique) des programmes mais font apparaˆıtre des
situations indésirables de blocage.
Pour le send, on peut pré-allouer un espace mémoire “buffer données”
(Data buffer, DB) à chaque processus, puis envoyer les données en deux
temps :
Envoi sur le Data Buffer DB,
Sur le processeur receveur, recopie le DB à l’endroit &data,
Implanté soit matériellement soit par un protocole logiciel.
Néanmoins, il subsiste toujours une situation de blocage lorsque le buffer
de données DB devient plein

MPI : les blocages (deadlocks)
Même si on gère bien les appels send, le problème du deadlock subsiste.
Le problème des receive...
P0 P1
receive(&a, 1, P1);
send(&b, 1, P1);
receive(&a, 1, P0);
send(&b, 1, P0);
⇒ blocage

MPI : Send/Receive non-bloquantes et non-bufferisées
Comment envoyer/recevoir des messages avec des communications
non-bloquantes...
L’envoyeur poste un message “Demande d’envoi” (pending message) et
continue l’exécution de son programme,
Le receveur poste un “OK pour envoi”, et le transfert de données
s’effectue,
Quand le transfert de données est fini, un check status indique qu’on
peut toucher aux données sans danger
⇒ communications non-bloquantes

commnonbloq442.cpp
MPI Status s t a t u s ; MPI Request r eq u es t ;
MPI Init(&argc ,& argv ) ;
MPI Comm size (MPI COMM WORLD,&numprocs ) ;
MPI Comm rank(MPI COMM WORLD,&myid ) ;
r e q u e s t=MPI REQUEST NULL ;
b u f f e r =2015;
MPI Isend(& buffer , count , MPI INT , d es t i n a t i on , tag ,
MPI COMM WORLD,& r e q u e s t ) ;
}
MPI Irecv(& buffer , count , MPI INT , source , tag ,
MPI COMM WORLD,& r e q u e s t ) ;
}

MPI Wait(&request ,& s t a t u s ) ;
p r i n t f ( ” [ proc %d ] s t a t u s de MPI WAIT : %dn” , myid ,
s t a t u s ) ;
b u f f e r ) ;
}
p r i n t f ( ”Le p r oc e s s e u r %d a bien recu %dn” , myid
, b u f f e r ) ;
}
attente avec MPI_WAIT ...
attente avec MPI_WAIT ...
[proc 0] status de MPI_WAIT : 0
Le processeur 0 a envoye 2015
[proc 1] status de MPI_WAIT : 0
Le processeur 1 a bien recu 2015

MPI : Les six routines standards sont...
procédures , types de données et constantes sont préfixées par MPI
(fichier mpi.h)
100+ procédures dont les six principales sont :
MPI Init Initialisation de la bibliothèque
MPI Finalize Termine l’utilisation de MPI
MPI Comm size Donne le nombre de processus
MPI Comm rank Étiquette du processus appelant
MPI Send Envoi un message (bloquant)
MPI Recv Re¸coit un message (bloquant)
Ces procédures retournent MPI SUCCESS en cas de succès, sinon un code
d’erreur.

Quelques hypothèses sur la concurrence
le processeur (ou PE) peut effectuer plusieurs “choses” en même temps
Par exemple, on peut supposer
MPI IRecv(), non-bloquant
MPI ISend(), non-bloquant
+ calcul local
il faut donc que ces 3 opérations soient indépendantes !
donc on ne peut pas envoyer le résultat du calcul
on ne peut pas forwarder = envoyer ce que l’on re¸coit
en pseudo-code, on note les activités concurrentes par ||
(une double barre)
Activité1||Activité2||Activité3

MPI : Les types de donn´ees enMPI
Ce qu’on envoie/re¸coˆıt... MPI_Commande(&buffer,count,MPI_INT, ...)
Type MPI Type dans le langage C
MPI CHAR signed char
MPI SHORT signed short int
MPI INT signed int
MPI LONG signed long int
MPI UNSIGNED CHAR unsigned char
MPI UNSIGNED SHORT unsigned short int
MPI UNSIGNED unsigned int
MPI UNSIGNED LONG unsigned long int
MPI FLOAT float
MPI DOUBLE double
MPI LONG DOUBLE long double
MPI BYTE
MPI PACKED

MPI : La primitive send
https://www.open-mpi.org/doc/v1.4/man3/MPI_Send.3.php
Syntaxe en C :
#i n c l u d e <mpi . h>
i n t MPI Send ( void ∗buf , i n t count , MPI Datatype
datatype , i n t dest , i n t tag , MPI Comm comm)
Syntaxe en C++ (plus mis à jour depuis MPI-2) :
void Comm : : Send ( const void ∗ buf , i n t count , const
Datatype& datatype , i n t dest , i n t tag ) const
tag : Message tag (integer), utile pour la filtration et l’appariemment des
opérations send/receive. Par défault, tag=0
On utilise la syntaxe d’appel en C du MPI dans nos programmes C++

MPI : les communications non-bloquantes (C API) “I”
i n t MPI Isend ( void ∗buf , i n t count , MPI Datatype
datatype , i n t dest , i n t tag , MPI Comm comm,
MPI Request ∗ req )
i n t MPI Irecv ( void ∗buf , i n t count , MPI Datatype
datatype , i n t src , i n t tag , MPI Comm comm,
MPI Request ∗ req )
L’objet MPI Request est utilisé dans les routines suivantes :
Retourne *flag=1 si l’opération *req est finie, 0 sinon
i n t MPI Test ( MPI Request ∗req , i n t ∗ flag , MPI Status
∗ s t a t u s )
Attend jusqu’à ce que l’opération associée avec *req soit finie.
i n t MPI Wait ( MPI Request ∗req , MPI Status ∗ s t a t u s )

MPI : les groupes de communication, communicators
Défini le cadre des opérations de communication,
Chaque processus inclus dans un communicator a un rang associé,
Par défaut, MPI COMM WORLD inclut tous les p processus, rang de 0 à
p − 1,
On peut créer des communicators pour des groupes de processus,
int MPI Comm size(MPI Comm comm, int *size) et int
MPI Comm rank(MPI Comm comm, int *size)

Barrière de synchronisation : MPI Barrier
MPI Barrier : Bloque jusqu’à temps que tous les processus arrivent à cette
routine = synchronisation !
Barrière de synchronisation
Barrière de synchronisation

Mesurer le temps sous MPI : MPI Wtime
double start, end;
MPI_Init(&argc, &argv);
MPI_Comm_rank(MPI_COMM_WORLD, &rank);
MPI_Barrier(MPI_COMM_WORLD); /* IMPORTANT */
start = MPI_Wtime();
/* faire le calcul ici */
calculINF442();
MPI_Barrier(MPI_COMM_WORLD); /* IMPORTANT */
end = MPI_Wtime();
MPI_Finalize();
if (rank == 0) {cout<< end-start <<endl;}
Ou alors utiliser MPI Reduce() pour calculer les temps minima/maxima (et
autres statistiques) des processus...

MPI : Calcul globaux Reduce
C :
i n t MPI Reduce ( void ∗ sendbuf , void ∗ recvbuf , i n t count
, MPI Datatype datatype , MPI Op op , i n t root ,
MPI Comm comm)
https://www.open-mpi.org/doc/v1.5/man3/MPI_Reduce.3.php
Arbre de r´eduction (d´epend de la topologie)
(+ 1 2 3 4) (+ (+ 1 2) (+ 3 4))

MPI : Reduce, opérations de calcul prédéfinies
Opérateur binaire associatif et commutatif
Nom Signification
MPI MAX maximum
MPI MIN minimum
MPI SUM sum
MPI PROD product
MPI LAND logical and
MPI BAND bit-wise and
MPI LOR logical or
MPI BOR bit-wise or
MPI LXOR logical xor
MPI BXOR bit-wise xor
MPI MAXLOC max value and location
MPI MINLOC min value and location

Calcul de la factorielle...factoriellempireduce442.cpp
i n t i , moi , nproc s ;
i n t nombre , g l o b a l F a c t =−1, l o c a l F a c t ;
MPI Init (&argc ,& argv ) ;
MPI Comm size (MPI COMM WORLD,& nproc s ) ;
MPI Comm rank (MPI COMM WORLD,&moi ) ;
nombre=moi+1;
// dans l e s arguments , se r a p p e l e r l ’ o r d r e ( source , d e s t i n a t i o n )
MPI Reduce(&nombre ,& globalFac t , 1 , MPI INT ,MPI PROD , 0 ,MPI COMM WORLD) ;
i f ( moi==0)
{ p r i n t f ( ” f a c t o r i e l l e avec re duc e pour %d p r o c e s s u s = %dn” , nprocs , g l o b a l F a c t ) ;}
l o c a l F a c t =1; f o r ( i =0; i<nproc s ; i++) { l o c a l F a c t ∗=( i +1);}
i f ( moi==0)
{ p r i n t f ( ” f a c t o r i e l l e l o c a l e : %dn” , l o c a l F a c t ) ;}
M P I F i n a l i z e () ;

MPI : Les commandes Scan/ Préfixe parallèle
i n t MPI Scan ( void ∗ sendbuf , void ∗ recvbuf , i n t count ,
MPI Datatype datatype , MPI Op op ,MPI Comm comm )
processus P0 P1 P2 P3
entrée (vi ) 1 2 3 4
sortie 1 3 (= 1 + 2) 6 (= 1 + 2 + 3) 10 (= 1 + 2 + 3 + 4)

P0
P1
P2
P3
a
b
c
d
a + b + c + d
b
c
d
reduce
P0
P1
P2
a0
a1
c0b0
b1
c2a2 b2
c1
scan
a0
a0 + a1
a0 + a1 + a2
b0
b0 + b1
b0 + b1 + b2
c0
c0 + c1
c0 + c1 + c2
P0
P1
P2
P3
a
b
c
d
a + b + c + d
Allreduce a + b + c + d
a + b + c + d
a + b + c + d

Algorithme parall`ele pour les
k-moyennes
Parallel k-means
MPI
Frank Nielsen 4.k-moyennes sous MPI A2-47

Parallélisation : propriété de composition du centro¨ıde
Soit X et X deux jeux de données pondérés avec leurs sommes des poids
totaux W et W (X ∩ X = ∅). Alors on a la règle de composition :
¯x(X ∪ X ) =
W
W + W
¯x(X) +
W
W + W
¯x(X )
Très utile pour partager le calcul des données sur plusieurs processeurs...
On fait des paquets X1, ..., Xp équilibrés de taille n
p
Propriété forte de la géométrie Euclidienne (pas vrai en géométrie
hyperbolique)

Règle de composition : preuve élémentaire
Prenons X ∩ X = ∅.
¯x(X ∪ X ) =
W
W + W
¯x(X) +
W
W + W
¯x(X )
¯x(X) =
1
|X|
x∈X
x
¯x(X ∪ X ) =
1
|X| + |X |
x∈X
x +
x ∈X
x
x∈X
x = |X|¯x(X),
x ∈X
x = |X |¯x(X )
W = |X| et W = |X |, idem pour des poids arbitraires W et W .

Parallélisation de l’heuristique de Lloyd
Soit p processeurs P0, ..., Pp−1, tous les processeurs lisent leurs n
p données
(tient dans la mémoire vive, RAM).
Utilisons la propriété de décomposition des centro¨ıdes :
¯x(X) = p−1
i=0
1
p ¯x(Xp).
Un des processeurs, disons P0 s’occupe de l’initialisation des centroides,
puis diffuse (broadcast) cette initialisation à tous les autres processeurs.
En MPI, commande MPI Bcast.
Chaque processeur Pr s’occupe d’ un paquet de n
p données
Xr = {xr n
p
...x(r+1) n
p
−1} en calculant la distance minimale de ses xi aux
centres. On met à jour la fonction de coût et on calcule les centro¨ıdes et
cardinalité indépendamment dans chaque paquet : G1(r), ..., Gk (r) avec
n1(r) = |G1(r)|, ..., nk (r) = |Gk(r)|.
Puis on réduit (opération reduce) tous les cj (r) et nj (r) en faisant la
somme (opération dédiée de MPI) : MPI Allreduce
On répéte jusqu’à convergence (ou lorsque la décroissance de la fonction
de coût passe sous un seuil donné).

Les k-moyennes en MPI : analyse de la complexité
Algorithme séquentiel : O(dnks), s : nombre d’itérations (Lloyd).
Les opérations élémentaires comme Reduce, Bcast, etc. dépendent de la
topologie du réseau d’interconnexion .
Initialisation des centro¨ıdes par le processeur P0 en temps O(dk)
Coût total :
O dk + Bcast(p, dk) + s
dn
p
+ Reduce(p, dk) ∼n>>k,d O
dkns
p
→ Facteur d’accélération (speed-up, rapport du temps séquentiel sur le
temps parallèle) α = O dkns
dkns
p
= O(p).
Philosophie différente de MapReduce (Hadoop) : Autre modèle de calcul
distribué simple.

Les k-moyennes : Un clustering
par partition
= clustering plat
vs
Regroupement hi´erarchique
Frank Nielsen 5.Regroupement A2-53

Trouver des liens de proximit´e entre les donn´ees
mpg cyl disp hp drat wt qsec vs am gear carb
Mazda RX4 21.0 6 160.0 110 3.90 2.620 16.46 0 1 4 4
Mazda RX4 Wag 21.0 6 160.0 110 3.90 2.875 17.02 0 1 4 4
Datsun 710 22.8 4 108.0 93 3.85 2.320 18.61 1 1 4 1
Hornet 4 Drive 21.4 6 258.0 110 3.08 3.215 19.44 1 0 3 1
Hornet Sportabout 18.7 8 360.0 175 3.15 3.440 17.02 0 0 3 2
Valiant 18.1 6 225.0 105 2.76 3.460 20.22 1 0 3 1
Duster 360 14.3 8 360.0 245 3.21 3.570 15.84 0 0 3 4
Merc 240 D 24.4 4 146.7 62 3.69 3.190 20.00 1 0 4 2
Merc 230 22.8 4 140.8 95 3.92 3.150 22.90 1 0 4 2
Merc 280 19.2 6 167.6 123 3.92 3.440 18.30 1 0 4 4
Merc 280 C 17.8 6 167.6 123 3.92 3.440 18.90 1 0 4 4
Merc 450 SE 16.4 8 275.8 180 3.07 4.070 17.40 0 0 3 3
Merc 450 SL 17.3 8 275.8 180 3.07 3.730 17.60 0 0 3 3
Merc 450 SLC 15.2 8 275.8 180 3.07 3.780 18.00 0 0 3 3
Cadillac Fleetwood 10.4 8 472.0 205 2.93 5.250 17.98 0 0 3 4
Lincoln Continental 10.4 8 460.0 215 3.00 5.424 17.82 0 0 3 4
Chrysler Imperial 14.7 8 440.0 230 3.23 5.345 17.42 0 0 3 4
Fiat 128 32.4 4 78.7 66 4.08 2.200 19.47 1 1 4 1
Honda Civic 30.4 4 75.7 52 4.93 1.615 18.52 1 1 4 2
Toyota Corolla 33.9 4 71.1 65 4.22 1.835 19.90 1 1 4 1
Toyota Corona 21.5 4 120.1 97 3.70 2.465 20.01 1 0 3 1
Dodge Challenger 15.5 8 318.0 150 2.76 3.520 16.87 0 0 3 2
AMC Javelin 15.2 8 304.0 150 3.15 3.435 17.30 0 0 3 2
Camaro Z28 13.3 8 350.0 245 3.73 3.840 15.41 0 0 3 4
Pontiac Firebird 19.2 8 400.0 175 3.08 3.845 17.05 0 0 3 2
Fiat X1 -9 27.3 4 79.0 66 4.08 1.935 18.90 1 1 4 1
Porsche 914 -2 26.0 4 120.3 91 4.43 2.140 16.70 0 1 5 2
Lotus Europa 30.4 4 95.1 113 3.77 1.513 16.90 1 1 5 2
Ford Pantera L 15.8 8 351.0 264 4.22 3.170 14.50 0 1 5 4
Ferrari Dino 19.7 6 145.0 175 3.62 2.770 15.50 0 1 5 6
Maserati Bora 15.0 8 301.0 335 3.54 3.570 14.60 0 1 5 8
Volvo 142 E 21.4 4 121.0 109 4.11 2.780 18.60 1 1 4 2

FerrariDino
HondaCivic
ToyotaCorolla
Fiat128
FiatX1−9
MazdaRX4
MazdaRX4Wag
Merc280
Merc280C
Merc240D
LotusEuropa
Merc230
Volvo142E
Datsun710
ToyotaCorona
Porsche914−2
MaseratiBora
Hornet4Drive
Valiant
Merc450SLC
Merc450SE
Merc450SL
DodgeChallenger
AMCJavelin
ChryslerImperial
CadillacFleetwood
LincolnContinental
FordPanteraL
Duster360
CamaroZ28
HornetSportabout
PontiacFirebird
050100150200250
Regroupement hierarchique (distance moyenne)
hauteur

Les sciences du vivant adorent le regroupement
hi´erarchique !
Gene expression patterns of breast carcinomas distinguish tumor subclasses
with clinical implications http://www.pnas.org/content/98/19/10869.figures-only

Le regroupement hi´erarchique : reconnaissance de visages
Hierarchical Clustering With Prototypes via Minimax Linkage, 2011.

Le clustering/regroupement hiérarchique ascendant
On part des données X = {x1, ..., xn} qui sont des feuilles et on fusionne
iérativement au fur et à mesure les sous-arbres jusqu’à ne plus qu’avoir un
seul arbre. Les feuilles initiales forment une forêt d’arbres à une feuille, puis
on fait de la fusion d’arbres...
Plusieurs critères pour la fusion de deux sous-arbres (dont les sous-ensembles
de données Gi et Gj sont stockées dans leurs feuilles). On calcule Δ(Gi , Gj )
la distance entre deux sous-ensembles.
stratégie du saut minimum :ΔSL → Single Linkage (SL)
stratégie du saut maximum (ou diamètre) : ΔCL → Complete Linkage
(CL)
stratégie du saut moyen : ΔGA → Group Average (GA)
⇒ algorithme glouton : Choix itératif de la meilleure paire de groupes (avec
tie-breaking rule)

Pour se fixer une idée : saut moyen, Single Linkage (SL)
Fonction de chaˆınage entre deux groupes
Δ(Gi , Gj ) = min
xi ∈Gi ,xj ∈Gj
D(xi , xj )
où D(x, y) est une distance élémentaire .
⇒ regroupement hiérarchique agglomératif avec un saut minimum
(nearest-neighbor clustering)

Quelle distance élémentaire entre deux données ?
On doit toujours avoir bien entendu Δ({xi }, {xj }) = D(xi , xj ).
Exemples de distances élémentaires :
Distance Euclidienne (L2) : D(p, q) = d
i=1(pi − qi )2
Distance de Manhattan (city block, L1) : D1(p, q) = d
i=1 |pi − qi |
Distance de Minkowski induite par Lp :
Dp(p, q) =
d
i=1
|pi − qi |p
1
p
Distance de Mahalanobis :
DΣ(p, q) = (p − q) Σ−1(p − q) = D(L p, L q),
avec Σ−1 = L L provenant de la factorisation de Cholesky
Métrique, non-métrique, distance & similarité, etc.

Le clustering par agglomération
Hierarchical Cluster Analysis (HCA) : regroupement hiérarchique
Initialiser xi dans un cluster singleton Gi = {xi }
Tant qu’il reste au moins deux clusters :
Choisir Gi et Gj tel que Δ(Gi , Gj ) soit minimal
Fusionner Gi,j = Gi ∪ Gj (ajouter Gi,j et retirer Gi et Gj )
Retourner le dernier nœud comme la racine de l’arbre de fusion
⇒ le résultat d’un regroupement hiérarchique est un arbre binaire appelé
dendrogramme . On fusionne n − 1 fois (les étapes de fusion).
Différent d’un algorithme de partitionnement comme les k-moyennes :
Clustering hiérarchique = not Clustering plat (par partition)
Ici, pas de fonction de coût globale à optimiser mais un algorithme de fusion

Distance de chaˆınage Δ(Gi, Gj)
Single Linkage
saut minimum
Complete Linkage
saut maximum
diam`etre
Group Average
saut moyen
Algorithme glouton :
arg min
i,j=i
Δ(Gi , Gj )
⇒ les groupes Gi et Gj sont voisins r´eciproques !
Gi = PPVG(Gj ) = arg minG∈G Δ(Gj , G).
Gj = PPVG(Gi ) = arg minG∈G Δ(Gi , G).
PPV = Plus Proche Voisin. G : ensemble des groupes.

Dessinons un dendrogramme...
Par exemple, choisissons la hauteur comme le nombre d’ étapes de fusion :
I N F 4 4 2
I, N 4, 4
I, N, F 4, 4, 2
I,N,F,4,4,2
feuilles
nœuds internes
hauteur :
nombre de fusions
0
1
2
3
Dendrogramme = Graphique d’un arbre binaire, enraciné et plongé dans le
plan.

Autre visualisation de la hi´erarchie par inclusion
I N F 4 4 2
I, N 4, 4
I, N, F 4, 4, 2
I,N,F,4,4,2
I
N
F
4
4
2
nested clusters

Le clustering hiérarchique : single linkage (SL)
Δ(Gi , Gj ) = min
xi ∈Gi ,xj ∈Gj
D(xi , xj )
Répeter tant que toutes les données xi ne soient pas contenues dans un seul
cluster, on fusionne les deux groupes les plus proche. À chaque instant tous
les sous-arbres forment une forêt (partitition de X).
Single linkage → nearest-neighbor clustering
S’il existe plus d’une paire de groupes donnant le Δ minimal, on choisit
un ordre (lexicographique). Si on fait une permutation sur les données, on
n’obtiendra pas le même dendrogramme : unicité .
Problème de chaˆınage (artefact) dans le clustering final
Complexité : na¨ıf O(n3), algorithme SLINK en O(n2) (1973), temps
quadratique et espace linéaire en utilisant l’arbre recouvrant de poids
minimal (MST : Minimum Spanning Tree, 1969).

MaseratiBora
FordPanteraL
Duster360
CamaroZ28
ChryslerImperial
CadillacFleetwood
LincolnContinental
HornetSportabout
PontiacFirebird
Merc450SLC
Merc450SE
Merc450SL
DodgeChallenger
AMCJavelin
Hornet4Drive
Valiant
FerrariDino
HondaCivic
ToyotaCorolla
Fiat128
FiatX1−9
Merc240D
MazdaRX4
MazdaRX4Wag
Merc280
Merc280C
LotusEuropa
Merc230
Datsun710
Volvo142E
ToyotaCorona
Porsche914−2
020406080
Regroupement hierarchique (saut minimum)
hauteur

Le clustering hiérarchique : Complete Linkage
Complete linkage (CL) : CLINK in O(n2) (1977)
ΔCL(Gi , Gj ) = max
xi ∈Gi ,xj ∈Gj
D(xi , xj ) ,
appelé aussi diamètre .
Problème du diamètre : si un point artefact (outlier) est très éloigné des
autres, la distance inter-groupe devient grande (et n’est pas significative).
Complete linkage → furthest-neighbor clustering

MaseratiBora
ChryslerImperial
CadillacFleetwood
LincolnContinental
FordPanteraL
Duster360
CamaroZ28
HornetSportabout
PontiacFirebird
Hornet4Drive
Valiant
Merc450SLC
Merc450SE
Merc450SL
DodgeChallenger
AMCJavelin
HondaCivic
ToyotaCorolla
Fiat128
FiatX1−9
FerrariDino
LotusEuropa
Merc230
Volvo142E
Datsun710
ToyotaCorona
Porsche914−2
Merc240D
MazdaRX4
MazdaRX4Wag
Merc280
Merc280C
0100200300400
Regroupement hierarchique (saut maximum)
hauteur

Le clustering hi´erarchique : Average Linkage
Average Linkage (AL) : O(n2) (1984)
ΔAL(Gi , Gj ) =
1
ni nj
xi ∈Gi xj ∈Gj
D(xi , xj )
La moyenne de toutes les paires de distance !

FerrariDino
HondaCivic
ToyotaCorolla
Fiat128
FiatX1−9
MazdaRX4
MazdaRX4Wag
Merc280
Merc280C
Merc240D
LotusEuropa
Merc230
Volvo142E
Datsun710
ToyotaCorona
Porsche914−2
MaseratiBora
Hornet4Drive
Valiant
Merc450SLC
Merc450SE
Merc450SL
DodgeChallenger
AMCJavelin
ChryslerImperial
CadillacFleetwood
LincolnContinental
FordPanteraL
Duster360
CamaroZ28
HornetSportabout
PontiacFirebird
050100150200250
hauteur

Critère de fusion de Ward : la variance
Variance = somme des distances euclidiennes au carré par rapport au
centro¨ıde :
v(X) =
x∈X
x − c(X) 2
, c(X) =
1
|X|
x∈X
x
Distance entre clusters (critère de Ward) pour Gi (ni = |Gi |) et Gj
(nj = |Gj |) :
Δ(Gi , Gj ) = v(Gi ∪ Gj ) − (v(Gi ) + v(Gj ))) =
ni nj
ni + nj
c(Gi ) − c(Gj ) 2
≥ 0
Δ({xi }, {xj }) = D(xi , xj ) = xi − xj
2
Quand on fusionne deux groupes, la variance ne peut pas diminuer !
Quand on rajoute des clusters, la somme pondérée des variances diminue
Δ(Gi , Gj ) = k-moyennes(Gi ∪ Gj) − (k-moyennes(Gi ) + k-moyennes(Gj ))

FerrariDino
HondaCivic
ToyotaCorolla
Fiat128
FiatX1−9
MazdaRX4
MazdaRX4Wag
Merc280
Merc280C
Merc240D
LotusEuropa
Merc230
Volvo142E
Datsun710
ToyotaCorona
Porsche914−2
MaseratiBora
Hornet4Drive
Valiant
Merc450SLC
Merc450SE
Merc450SL
DodgeChallenger
AMCJavelin
ChryslerImperial
CadillacFleetwood
LincolnContinental
FordPanteraL
Duster360
CamaroZ28
HornetSportabout
PontiacFirebird
050100150200250
INF442 (voitures)
x
hauteur
HondaCivic
ToyotaCorolla
Fiat128
FiatX1−9
Merc240D
LotusEuropa
Merc230
Volvo142E
Datsun710
ToyotaCorona
Porsche914−2
FerrariDino
MazdaRX4
MazdaRX4Wag
Merc280
Merc280C
Hornet4Drive
Valiant
Merc450SLC
Merc450SE
Merc450SL
DodgeChallenger
AMCJavelin
MaseratiBora
FordPanteraL
Duster360
CamaroZ28
ChryslerImperial
CadillacFleetwood
LincolnContinental
HornetSportabout
PontiacFirebird
05001000150020002500
Regroupement hierarchique (Ward)
INF442 (voitures)
x
hauteur
Average Group Crit`ere de Ward

Le clustering descendant hiérarchique par division
Version top-down : on part d’un cluster contenant toutes les données X
et on divise récursivement jusqu’à temps qu’on obtienne les n feuilles
qui contiennent les données individuelles.
Pour casser un cluster en deux, on utilise un algorithme de clustering par
partitionnement pour k = 2 (comme celui des k-moyennes par exemple)
En général, plus coûteux qu’un regroupement hiérarchique agglomératif
(bottom-top)

Dendrogramme : obtenir des partitions `a partir du
dendrogramme
Pour k ∈ [n] = {1, ..., n}, on peut extraire des partitions en k-sous-ensembles
de X.
877511973859339482263114311821864425204048399392158353212893053273817622369162764350599690413634496170685655951424672835998474755458365814598465272379110088129697477166607879577710134280266482
0.00.51.01.52.02.5
Regroupement hierarchique
INF442
x
hauteur

Convertir un clustering hiérarchique en une partition
Si on ne choisit pas k mais une valeur de seuillage...
Parcourir récursivement l’arbre et on arrête la récursivité quand
Δ(nœud) = Δ(nœudfils gauche, nœudfils droit) ≤ seuil
saut maximum (CL, diamètre) : les clusters ont un diamètre ≤ seuil
(hauteur constante)
chaˆınage de Ward : les clusters ont une variance ≤ seuil (hauteur pas
constante car inversions)
Δ < Δ∗
Δ < Δ∗

Convertir un clustering hiérarchique en une partition
Si on veut choisir k...
Clustering hiérarchique → Clustering plat (partition)
On choisit une hauteur pour trouver une partition en k clusters
Meilleure hauteur par Programmation Dynamique. Meilleure hauteur pour
T (X) à k sous-ensembles :
Fit(T = (L, R), k) = min
k1,k2 k1+k2=k
Fit(L, k1) + Fit(R, k2)
Pour les k-moyennes (clustering plat, NP-dur en général) on obtient une
k-partition optimale à partir d’un clustering hierarchique (facile à
calculer, SL) sous l’hypothèse de satisfaire un critère de séparabilité.

Distances : métriques et ultra-métriques
Une distance d(·, ·) est :
métrique si elle satisfait les axiomes :
d(x, y) ≥ 0 avec égalité pour x = y seulement
d(x, y) = d(y, x) symétrie
d(x, y) ≤ d(x, z) + d(z, y), inégalité triangulaire
ultra-métrique si elle satisfait les axiomes :
d(x, y) ≥ 0 avec égalité pour x = y seulement
d(x, y) = d(y, x) symétrie
d(x, y) ≤ max(d(x, z), d(z, y))

Distance et évolution (horloge)
Dans les arbres phylogénétiques, la distance entre deux espèces impose des
restrictions sur la fonction distance.
Arbre additif (additive tree) : poids sur chaque arête tel que pour
chaque paire de feuilles, la distance est la somme des distances des arêtes
les reliant.
Arbre ultramétrique : distances entre deux feuilles Gi et Gj et leur
ancêtre commun Gk sont égales : di,k = dj,k.
hk = 1
2di,j (hauteur) correspond au temps écoulé
permet de définir une horloge globale sur l’axe vertical

Dendrogrammes et arbres phylog´en´etiques

Regroupement hiérarchique avec l’algorithme UPGMA
UPGMA : Unweighted Pair Group Method using arithmetic Averages
Clustering hiérarchique avec la distance de chaˆınage Average Linkage
(AL) :
Δ(Gi , Gj ) =
1
ni nj
xi ∈Gi xj ∈Gj
D(xi , xj ) = Δi,j
UPGMA garantie de produire un arbre ultramétrique

Regroupement hiérarchique par UPGMA
Initialise xi a son cluster Ci et positionne ce nœud à hauteur t = 0.
Tant qu’il reste plus de deux clusters :
Trouver les clusters Ci et Cj qui ont la distance Δi,j minimale
Définir un nouveau cluster Ck = Ci ∪ Cj et calculer la distance Δk,l pour
tout l
Ajouter un nœud k avec les fils Ci et Cj et positionner le à hauteur
tk = 1
2 Δi,j
Retirer Ci et Cj de la liste des clusters, et continuer jusqu’à temps d’avoir
deux clusters
Pour les deux derniers clusters Ci , and Cj , placer la racine à hauteur
1
2Δ(Ci , Cj )

Regroupement hiérarchique par UPGMA
Théorème
Si les données sur les distances sont ultramétriques (vérifiable sur la matrice
des distances), alors il existe un unique arbre ultramétrique et l’algorithme
UPGMA le construit.
... malheureusement les données (bruitées) ne sont pas ultramétriques en
général !
Tester si une matrice de distances est ultramétrique : na¨ıvement en O(n3).

Dissimilarité, similarité et inversions
similarité entre deux groupes : S(Xi , Xj ) = −Δ(Xi , Xj ). Ainsi si on a
Δ(Gi , Gk) > Δ(Gi , Gj ) alors on a l’ordre inverse S < S(Gi , Gj )
pour un chemin du dendrogramme d’une feuille à la racine, séquence de
fusion monotone ssi. la similarité décroit quand on se rapproche de la
racine : S1 ≥ S2 ≥ ... ≥ Sracine. Autrement dit, la valeur du critère de
fusion augmente quand on va vers la racine.
non-monotone s’il existe au moins une inversion Si < Si+1 sur un chemin
du dendrogramme. Cela veut dire que deux groupes peuvent être plus
similaire à l’étape i + 1 que les deux groupes fusionnés à l’étape i.
critère de Ward ne garantie pas la monotonie (inversions). Par
contre, Single Linkage, Complete Linkage et Average Linkage garantissent
la monotonie.

Inversion possible pour le crit`ere de Ward
x3x2x1
S({x1, x2}, {x3})
x1
x2
x3
S({x1}, {x2})
Inversion car un nœud parent se trouve “plus bas” que les deux nœuds ﬁls.

C++ : Contenu des méthodes à l’extérieur des classes
#i n c l u d e <iostream >
using namespace std ;
c l a s s CEntier
{
p u b l i c : i n t v a l ;
CEntier ( i n t v ) { t h i s −>v a l=v ;}
void ajoute ( i n t v2 ) ;
};
// Définition à l’extérieur de class
void CEntier : : ajoute ( i n t v2 ) { v a l+=v2 ;}
i n t main ()
{ CEntier ∗e1=new CEntier (5) ; e1−>ajoute (8) ;
cout<<e1−>val <<endl ;
r e t u r n 0;}

Structures de données abstraites
Défini une interface pour accéder aux données.
Peut-être codé du plusieurs manières différentes.
les piles (Last In First Out, LIFO)
les files (First In First Out,FIFO)
les arbres
les graphes
les matrices creuses
etc.
Par exemple, les piles et files peuvent être implanté soit avec des tableaux soit
avec des listes chaˆınées.

c l a s s CNoeud{C++ : // la classe nœud
p u b l i c : CNoeud ∗gauche , ∗ d r o i t ;
i n t v a l ;
p u b l i c :
CNoeud( i n t v ) { t h i s −>v a l=v ; gauche=d r o i t=NULL;}
CNoeud( i n t val , CNoeud∗ Arbre1 , CNoeud∗ Arbre2 )
{ t h i s −>v a l=v a l ; gauche=Arbre1 ; d r o i t=Arbre2 ;}
s t r i n g P r i n t ()
{ char b u f f e r [ 2 0 ] ; s t r i n g s v a l=s t r i n g ( i t o a ( val , buffer
,10) ) ;
s t r i n g sgauche , s d r o i t ;
i f ( gauche==NULL) sgauche=” n i l ” ;
e l s e sgauche=gauche−>P r i n t () ;
i f ( d r o i t==NULL) s d r o i t=” n i l ” ;
e l s e s d r o i t=d r oi t −>P r i n t () ;
r e t u r n ” ( ”+s v a l+” , ”+sgauche+” , ”+s d r o i t+” ) ” ;
}};

. . .
CNoeud ∗ Arbre442=new CNoeud (3 , new CNoeud (2) ,
new CNoeud (1 , new CNoeud (4) ,new CNoeud (5) ) ) ;
cout<<Arbre442−>P r i n t ()<<endl ;
Ex´ecution donne `a la console :
(3,(2,nil,nil),(1,(4,nil,nil),(5,nil,nil)))

C++ : récupération de la mémoire
tilde ∼, un seul destructeur par classe C++
˜CNoeud ()
{
i f ( gauche!=NULL)
d e l e t e gauche ;
i f ( d r o i t !=NULL)
d e l e t e d r o i t ;
cerr <<” d e l e t e ”<<val <<endl ;
}
(3,(2,nil,nil),(1,(4,nil,nil),(5,nil,nil)))
delete 2
delete 4
delete 5
delete 1
delete 3

Différences principales entre C++ et Java
null en Java et NULL en C++
this.variable en Java/C++ (référence) et this->variable en C++
(pointeur)
class INF442{} en Java et class INF442{}; en C++
On peut rajouter le corps des méthodes en C++ après sa déclaration
dans la classe : void CNoeud::Addition(int v)
ajouter un destructeur dans la classe en C++
array.length en Java. On utilise la classe vector de la STL C++ et
.size()
import en Java et include en C++ (STL) etc.
En C++ dans les classes, mettre explicitement public (sinon on est
private par défaut)

Résumé A2
HPC : accélération, loi d’Amdahl et loi de Gustafson
MPI :
les communications bloquantes, les situations de blocage, les
communications non-bloquantes, les barrières de synchronisation
les calculs collaboratifs : réduction (somme, reduce & Allreduce), et les
opérations de préfixe parallèle (scan)
Science des données :
les k-moyennes avec MPI
regroupement hiérarchique vs. regroupement plat.
arbre ultramétrique et chaˆınage par saut moyen (average link).
C++ : les classes objets. Lire le memento C++ sur la page Moodle !
Pour la prochaine fois : lire le chapitre 8 et relire le chapitre 2 du
polycopié

Traitement des données massives (INF442, A2)

Recommandé

Recommandé

Contenu connexe

Tendances

Tendances (9)

En vedette

En vedette (15)

Similaire à Traitement des données massives (INF442, A2)

Similaire à Traitement des données massives (INF442, A2) (20)

Traitement des données massives (INF442, A2)