Traitement des données massives (INF442, A4)

INF442 : Traitement des données massives
A4 : Algèbre linéaire distribuée
Frank Nielsen
X2013
6 mai 2015

Plan
◮ un peu de MPI
◮ produit matriciel sur la topologie du tore
◮ la généricité avec la bibliothèque C++ STL

MPI : pas de mémoire globale !
→ mémoire locale pour chaque processus, échange de messages
Différent d’un fil de calcul (fork) avec mémoire globale partagée
(INF431)
i n t main ( i n t argc , char ∗∗ argv ) {
i n t rang , n , var ;
i n t ∗ ptr=&var ;
MPI Init (&argc , &argv ) ;
MPI Comm size (MPI COMM WORLD, &n ) ;
MPI Comm rank (MPI COMM WORLD, &rang ) ;
∗ ptr=rang ; ( ∗ ptr )++;
p r i n t f ( ”P%d var=%dn” , rang , var ) ;
MPI Finalize () ;}
P0 var =1
P2 var =3
P1 var =2
P3 var =4

#i n c l u d e <s t d i o . h>
#i n c l u d e <mpi . h>
i n t main ( i n t argc , c har∗∗ argv ) {
i n t rang , p , autre , taga =0, tagb =1; double a , b ;
MPI Status s t a t u s ; MPI Request r e q u e s t ;
MPI Init (&argc , &argv ) ; MPI Comm size (MPI COMM WORLD, &p ) ; MPI Comm rank (
MPI COMM WORLD, &rang ) ;
i f (p==2)
{
// Mémoire locale de chaque processus
a u t r e=1−rang ; // l’autre processus
a=0; b=1;
p r i n t f (” Proc . %d a u t r e=%d avant a=%f b=%f n” , rang , autre , a , b ) ;
// double swap en utilisant une opération de communication sans variable locale tmp !
// on utilise en fait le buffer de communication pour tmp
MPI Isend(&a , 1 , MPI DOUBLE, autre , taga , MPI COMM WORLD, &r e q u e s t ) ;
MPI Isend(&b , 1 , MPI DOUBLE, autre , tagb , MPI COMM WORLD, &r e q u e s t ) ;
p r i n t f (” Attendons avec MPI WAIT que l e s messages s o i e n t bie n p a r t i s . . . n” ) ;
MPI Wait(& re que st , &s t a t u s ) ;
// Re¸coit dans a le message avec tagb (donc la valeur de b)
MPI Recv(&a , 1 , MPI DOUBLE, autre , tagb , MPI COMM WORLD, &s t a t u s ) ;
// Re¸coit dans b le message avec taga (donc la valeur de a)
MPI Recv(&b , 1 , MPI DOUBLE, autre , taga , MPI COMM WORLD, &s t a t u s ) ;
p r i n t f (” Proc . %d apre s a=%f b=%f n” , rang , a , b ) ;
} e l s e
i f ( rang==0) p r i n t f (” Executez avec mpirun −np 2 mpiswap442 . exe ” ) ;
M P I F i n a l i z e () ;}

taga=0; tagb=1;
a=0;
b=1;
Isend(a,P1,taga);
Isend(b,P1,tagb);
MPI Wait;
Recv(&a,tagb);
Recv(&b,taga);
P0
taga=0; tagb=1;
a=0;
b=1;
Isend(a,P0,taga);
Isend(b,P0,tagb);
MPI Wait;
Recv(&a,tagb);
Recv(&b,taga);
P1
0, taga
1, tagb1, tagb
0, taga
m´emoire locale P0 m´emoire locale P1
[ france ~]$ mpirun -np 2 mpiswap442 .exe
Proc . 1 autre =0 avant a =0.000000 b =1.000000
Attendons avec MPI_WAIT que les messages soient bien partis ...
Proc . 0 autre =1 avant a =0.000000 b =1.000000
Attendons avec MPI_WAIT que les messages soient bien partis ...
Proc . 1 apres a =1.000000 b =0.000000
Proc . 0 apres a =1.000000 b =0.000000

Algèbre linéaire en parallèle : la régression
Frank Nielsen 1.Les matrices en HPC-1.Régression A6-6

La régression linéaire
◮ on veut prédire ˆy = f (x) avec f (x) = ˆβ0 + d
i=1
ˆβi xi .
◮ les observations (xi , yi ) sont dans Rd × R. Pour des classes
C0 et C1 (valeurs de y), on peut encoder y = 0 ssi. xi ∈ C0 et
y = 1 ssi. xi ∈ C1
◮ on classifie avec la régression en évaluant ˆyi = f (xi ) puis en
seuillant : xi ∈ C0 ssi. ˆyi < 1
2 et xi ∈ C1 ssi. ˆyi ≥ 1
2
◮ on peut augmenter l’espace des données en rajoutant une
coordonnée x0 = 1. Ainsi x ← (x, 1) et
f (x) = d
i=0
ˆβi xi = x⊤
i β (d + 1 paramètres à évaluer)
◮ l’erreur que l’on veut minimiser est les moindres carrés
( Residual Sum of Squares , RSS) :
ˆβ = min
β
n
i=1
(yi − x⊤
i β)2

La régression linéaire et la classification
Frontière de décision = hyperplan (espace affine de dimension
d − 1 dans Rd )

La régression linéaire ordinaire
Soit X la matrice des données de dimension n × (d + 1), y le
vecteur colonne de dimension n et β le vecteur paramètre de
dimension d + 1. On a la somme des différences au carré :
RSS(β) =
n
i=1
(yi − x⊤
i β)2
= (y − Xβ)⊤
(y − Xβ)
En prenant le gradient ∇βRSS(β), on trouve l’équation dite
normale ( normal equation ) :
X⊤
(y − Xβ) = 0
Pour X⊤X non-singulière, on trouve ˆβ minimisant les moindres
carrés par la matrice pseudo-inverse (Penrose-Moore) :
ˆβ = (X⊤
X)−1
X⊤
y = X†
y

La régression linéaire en Scilab
rand(’seed ’,getdate(’s’))
x = -30:30; a=0.8; b=5; y=a
*x+b;
// on perturbe avec un bruit
uniforme
bruit=rand(1,61,’uniform ’)
-0.5;
y = y+10*bruit;
// regression linéaire en scilab
[aa , bb] = reglin(x, y);
plot(x, y,’r+’ );
plot(x, a*x+b,’bo -’)

La r´egression lin´eaire : ordinaire ou totale
x
y
y = a × x
(x1, y1)
(x2, y2)
(x3, y3)
ordinary regression vs. total regression

Comparaison de la classification par régression ou par
k-PPV
Classifieur sur un vecteur aléatoire = variable aléatoire ⇒ variance
et biais

Comparaison de la classification par régression vs. k-PPV
◮ régression = bon pour interpoler et extrapoler mais modèle
rigide avec l’hypothèse globale d’une fonction linéaire f (x)
(faible complexité = d + 1 paramètres).
⇒ grand biais et petite variance
◮ k-PPV : modèle f (x) localement constant, flexible, mais
grande complexité = d × n “paramètres”.
⇒ petit biais mais grande variance

Algèbre linéaire : les briques de base
◮ des vecteurs colonnes :
v =



v1
...
vl



◮ des matrices (square, skinny, ou fat) :
M =



m1,1 ... m1,c
...
...
...
ml,1 ... ml,c



◮ plusieurs types de matrices avec leur stockage mémoire :
matrices denses O(lc), matrices diagonales, matrices
symétriques, matrices triangulaires, matrices creuses O(l + c).
Algèbre multi-linéaire et tenseurs.

Les opérations/primitives en algèbre linéaire
Soit l = c = d les dimensions des matrices et vecteurs.
◮ le produit scalaire v1 · v2 = v⊤
1 × v2 : O(d)
◮ le produit matrice-vecteur M × v : O(d2)
◮ le produit matrice-matrice M1 × M2 : O(d3)
◮ la factorisation (décomposition) LU M = L × U (pour
résoudre les systèmes linéaires), QR, etc.
Toutes ces primitives sont implémentées dans la bibliothèque BLAS,
Basic Linear Algebra Subroutines en plusieurs niveaux
http://www.netlib.org/blas/

La multiplication matricielle : un défi = problème ouvert !
◮ même en séquentiel, on ne connait pas d’algorithme
optimal !
◮ borne inférieure : Ω(d2), nombre d’entrées de la matrice
carrée résultat.
◮ meilleur algorithme connu à ce jour : O(d2.3728639) , analyse
fine de l’algorithme de Coppersmith et Winograd.
Le Gall, Fran¸cois (2014), “Powers of tensors and fast matrix
multiplication,” Proceedings of the 39th International
Symposium on Symbolic and Algebraic Computation (ISSAC
2014), arXiv:1401.7714

Différents motifs pour le parallélisme de données
◮ accès et transmissions des données M et v sur un cluster de
machines : dépend de la topologie du réseau d’interconnexion
◮ dispositions bloc-colonnes et bloc-colonne cycliques
→ largeur b du bloc élémentaire (chaque bloc tient dans la
mémoire locale)
Idem si on prend les lignes (= colonnes de la matrice transposée)

Différents motifs pour le parallélisme des données
Motif 2D bloc ligne-colonne , et 2D bloc ligne-colonne cyclique
Damier, échiquier

Le produit matrice vecteur
sur la topologie de
l’anneau orient´e

Produit matrice-vecteur sur l’anneau : Bloc colonne 1D
En BLAS, une opération de base :
y ← y + Ax
A(i) = Ai× n
p
:(i+1)× n
p
−1,·: sous-matrice bloc ligne de dimension
n × n
p
y(i) ← y(i) + A(i) × x(i) = y(i) +
j
A[i][j] × x[j]
◮ initialement, A(i), x(i) et y(i) sont stockés sur le processus Pi
◮ faire tourner les sous-vecteurs x(i) sur la topologie de
l’anneau orienté

Regardons la situation pour y(1)
X1
X2
X3
X4
X1
X2
X3
X4 Y1 = A1,4 × X4 + A1,1 × X1
Y1 = A1,1 × X1P1
P2
P3
P4 A4,4A4,3
A1,1
A2,2
A3,3
A1,2 A1,3 A1,4
A2,1
A3,1
A4,1 A4,2
A3,2 A3,4
A2,4A2,3
A4,4A4,3
A1,1
A2,2
A3,3
A1,2 A1,3 A1,4
A2,1
A3,1
A4,1 A4,2
A3,2 A3,4
A2,4A2,3
En fond gris, les blocs qui servent aux produits locaux
y(·) ← A(·, ·)x(·) + y(·)

X1
X2
X3
X4
X2
X1
X4
X3
Y1 = A1,3 × X3 + A1,4 × X4 + A1,1 × X1
Y1 = A1,2 × X2 + A1,3 × X3 + A1,4 × X4 + A1,1 × X1
A4,4A4,3
A1,1
A2,2
A3,3
A1,2 A1,3 A1,4
A2,1
A3,1
A4,1 A4,2
A3,2 A3,4
A2,4A2,3
A4,4A4,3
A1,1
A2,2
A3,3
A1,2 A1,3 A1,4
A2,1
A3,1
A4,1 A4,2
A3,2 A3,4
A2,4A2,3

produitMatriceVecteur (A, x , y ) {
q = Comm rank () ; // rang du processus
p = Comm size () ; // nombre de processus
r = n/p ; // taille des blocs
f o r ( step =0; step<p ; step++) {
// on envoie le bloc de x sur le prochain nœud de l’anneau
send ( x , r ) ; // communication non-bloquante
// calcul local : produit matrice-vecteur bloc
f o r ( i =0; i<r ; i++) {
f o r ( j =0; j<r ; j++) {
y [ i ] = y [ i ] + a [ i , (q−step mod p) r + j
] ∗ x [ j ] ;
}
}
// on re¸coit le bloc de x du processus pr´ec´edent de l’anneau
r e c e i v e (temp , r ) ;
x = temp ;}
}

Produit matriciel parallèle
Les algorithmes parallèles vont dépendre :
◮ des motifs des données
◮ de la topologie du réseau d’interconnexion des machines
◮ des types d’opérations de communications utilisés
Coût d’une communication entre deux nœuds voisins :
Temps Message = Latence + #longeur × temps par unité de longeur
Temps Message = α + τl
◮ on mesure α et τ en équivalent FLOPS
◮ efficacité : temps séquentiel/(P × temps parallèle)
◮ speed-up optimal ⇔ efficacité = 1
Frank Nielsen 1.Les matrices en HPC-4.Complexité des communications A6-24

Le produit matriciel sur un cluster de machines
C = A × B
◮ les éléments des matrices n × n sont initialement distribués
sur les P processus P1, ..., PP−1
◮ on échange par messages des matrices blocs (rappel MPI : pas
de mémoire partagée globale)
◮ plusieurs motifs de décompositions :
◮ blocs de lignes
◮ blocs de colonnes
◮ blocs de damiers
◮ les décompositions sont en rapport avec les algorithmes et le
réseau d’interconnexion (graphe complet, anneau, tore)

Le tore 2D
◮ on considére
√
P ∈ N le côté de la grille torique à√
P ×
√
P = P processeurs (NB : anneau = tore 1D)
◮ chaque processeur Pi peut communiquer avec ses 4 voisins :
Nord, Sud, Est, Ouest

Produit matriciel C = A × B sur le tore
◮ initialement, les matrices sont stock´es par bloc avec le motif
de damier (par bloc 2D) sur le tore.
◮ le processus Pi,j pour i, j ∈ {1, ...,
√
P} est responsable du
calcul de
C(i, j) =
√
P
k=1
A(i, k) × B(k, j)
Plusieurs fa¸cons de transmettre les matrices blocs A(·, ·),
B(·, ·) et C(·, ·).
→ nous allons voir trois principaux algorithmes

Produit matriciel :
l’algorithme de Cannon
Frank Nielsen 3.Produit matriciel-1.L’algorithme de Cannon A6-28

Algorithme de Cannon : vue générale
◮ nécessite des opérations de pre-skewing des matrices avant
les calculs locaux et des opérations de post-skewing après ces
calculs locaux
◮ les communications des sous-matrices A et B sont des
rotations horizontales (←) et des rotations verticales (↑).

A0,0
B0,0
A0,0 A0,1 A0,2
A1,2A1,1A1,0
A2,0 A2,1 A2,2
B0,0 B0,1 B0,2
B1,2B1,1B1,0
B2,0 B2,1 B2,2
A0,1
B0,1
A0,2
B0,2
A1,0
B1,0
A2,0
B2,0
A1,1
B1,1
A2,1
B2,1
A2,2
B2,2
A1,2
B1,2
A0,0 A0,1 A0,2
A1,2A1,1 A1,0
A2,0 A2,1A2,2
B0,0
B0,1
B0,2
B1,2
B1,1
B1,0
B2,0
B2,1
B2,2
A0,1
B1,0
A0,0A0,1 A0,2
A1,2 A1,1A1,0
A2,0 A2,1 A2,2 B0,0
B0,1
B0,2
B1,2
B1,1
B1,0
B2,0
B2,1
B2,2
A0,2
B2,1
A0,0
B0,2
A1,2
B2,0
A2,0
B0,0
A1,0
B0,1
A2,1
B1,1
A2,2
B2,2
A1,1
B1,2
Initialisation
Pre-processing :
Preskewing
´etape 1 :
Calculs locaux
Rotations
´etape 2:
Calculs locaux
Rotations
A0,0
B0,0
A0,1
B1,1
A0,2
B2,2
A1,1
B1,0
A2,2
B2,0
A1,2
B2,1
A2,0
B0,1
A2,1
B1,2
A1,0
B0,2

A0,2
B2,0
A0,0 A0,1A0,2
A1,2A1,1A1,0
A2,0A2,1 A2,2
B0,0
B0,1
B0,2
B1,2
B1,1
B1,0
B2,0
B2,1
B2,2
A0,0
B0,1
A0,1
B1,2
A1,0
B0,0
A2,0
B0,0
A1,1
B1,1
A2,1
B1,1
A2,0
B0,2
A1,2
B2,2
´etape 3 :
Calculs locaux
Rotations
A0,0 A0,1 A0,2
A1,2A1,1 A1,0
A2,0 A2,1A2,2
B0,0
B0,1
B0,2
B1,2
B1,1
B1,0
B2,0
B2,1
B2,2
A0,0
B0,0
A0,1
B1,1
A0,2
B2,2
A1,1
B1,0
A2,2
B2,0
A1,2
B2,1
A2,0
B0,1
A2,1
B1,2
A1,0
B0,2
A0,0
B0,0
A0,0 A0,1 A0,2
A1,2A1,1A1,0
A2,0 A2,1 A2,2
B0,0 B0,1 B0,2
B1,2B1,1B1,0
B2,0 B2,1 B2,2
A0,1
B0,1
A0,2
B0,2
A1,0
B1,0
A2,0
B2,0
A1,1
B1,1
A2,1
B2,1
A2,2
B2,2
A1,2
B1,2
Postprocessing:
Post-skewing
Conﬁguration
initiale !

// Pré-traitement des matrices A et B
// Preskew ← : éléments diagonaux de A alignés
verticalement sur la première colonne
PreskewHorizontal(A);
// Preskew ↑ : éléments diagonaux de B alignés
horizontalement sur la première ligne
PreskewVertical(B);
// Initialise les blocs de C à 0
C = 0;
pour k = 1 à
√
P faire
C ← C+ProduitsLocaux(A,B);
// décalage vers la gauche ←
RotationHorizontale(A);
// décalage vers le haut ↑
RotationVerticale(B);
fin
// Post-traitement des matrices A et B : opérations
inverses du pré-traitement
// Preskew →
PostskewHorizontal(A);
// Preskew ↓
PostskewVertical(B);

Produit matriciel :
algorithme de Fox
Frank Nielsen 3.Produit matriciel-2.Algorithme de Fox A6-33

Algorithme de Fox
◮ initialement, les données ne bougent pas (= pas de
pré-traitement)
◮ diffusions horitonzales des diagonales de A (décalées vers la
droite)
◮ rotations verticales de B, de bas en haut
... appelé aussi algorithme broadcast-multiply-roll

A0,0 A0,0 A0,0
A1,1A1,1 A1,1
A2,2 A2,2A2,2
étape 1 :
Diffusion A
(première diagonale)
Calculs locaux
étape 1’:
Rotation verticale
de B
A0,1
B1,0
A0,1 A0,1A0,1
A1,2A1,2A1,2
A2,0A2,0 A2,0
A0,1
B1,1
A0,1
B1,2
A1,2
B2,0
A2,0
B0,0
A1,2
B2,1
A2,0
B0,1
A2,0
B0,2
A1,2
B2,2
étape 2 :
Diffusion A
(deuxième diagonale)
Calcul locaux
A0,0
B0,0
A0,0
B0,1
A0,0
B0,2
A1,1
B1,0
A2,2
B2,0
A1,1
B1,1
A2,2
B2,1
A2,2
B2,2
A1,1
B1,2
B0,0 B0,1 B0,2
B1,2B1,1B1,0
B2,0 B2,1 B2,2
B1,2B1,1B1,0
B2,0 B2,1 B2,2
B0,0 B0,1 B0,2
A0,0 A0,0 A0,0
A1,1A1,1 A1,1
A2,2 A2,2A2,2
B1,2B1,1B1,0
B2,0 B2,1 B2,2
B0,0 B0,1 B0,2

A0,2
B2,0
A0,2 A0,2 A0,2
A1,0A1,0A1,0
A2,1 A2,1 A2,1
A0,2
B2,1
A0,2
B2,2
A1,0
B0,0
A2,1
B1,0
A1,0
B0,1
A2,1
B1,1
A2,1
B1,2
A1,0
B0,2
étape 2’:
Rotation verticale
de B
étape 3:
Diffusion A
(troisième diagonale)
Calculs locaux
A0,1 A0,1A0,1
A1,2A1,2A1,2
A2,0A2,0 A2,0
B2,0 B2,1 B2,2
B0,0 B0,1 B0,2
B1,2B1,1B1,0
B2,0 B2,1 B2,2
B0,0 B0,1 B0,2
B1,2B1,1B1,0
A0,0
B0,0
A0,1
B0,1
A0,2
B0,2
A1,0
B1,0
A2,0
B2,0
A1,1
B1,1
A2,1
B2,1
A2,2
B2,2
A1,2
B1,2
étape 3’:
Rotation verticale
de B
→ état final
B0,0 B0,1 B0,2
B1,2B1,1B1,0
B2,0 B2,1 B2,2

// Initialise les blocs de C à 0
C = 0;
pour i = 1 à
√
P faire
// Broadcast
Diffusion de la i-ième diagonale de A sur les lignes de processus
du tore;
// Multiply
C ← C+ProduitsLocaux(A,B);
// Roll
// Rotation verticale : décalage vers le haut ↑
RotationVerticale(B);
fin

Produit matriciel :
algorithme de Snyder
Frank Nielsen 3.Produit matriciel-3.Algorithme de Snyder A6-38

Produit matriciel : algorithme de Snyder
◮ initialement, on transpose B : B ← B⊤
◮ sommes globales (reduce) sur les lignes de processeurs
◮ accumulation des résultats sur les diagonales principales de
C (décalées à chaque étape vers la droite)
◮ rotations verticales de bas en haut
A0,0 A0,1 A0,2
A1,0 A1,1 A1,2
A2,0 A2,1 A2,2 première diagonale
deuxième diagonale
troisième diagonale

A0,0 A0,1 A0,2
A1,2A1,1A1,0
A2,0 A2,1 A2,2
B0,0 B0,1 B0,2
B1,2B1,1B1,0
B2,0 B2,1 B2,2
Initialisation
Pre-processing :
Transpose B → B⊤
´etape 1:
Calculs locaux et
accumulation sur
la premi`ere diagonale
de C
B0,0
B1,1
B2,2
B1,0 B2,0
B0,2
B0,1 B2,1
B1,2
C0,0
C1,1
C2,2
B⊤
A0,0 A0,1 A0,2
A1,2A1,1 A1,0
A2,0 A2,1A2,2
A0,0 A0,1 A0,2
A1,2A1,1 A1,0
A2,0 A2,1A2,2
B0,0
B1,1
B2,2
B1,0 B2,0
B0,2
B0,1 B2,1
B1,2

étape 1’:
Rotation verticale
de B
A0,0 A0,1 A0,2
A1,2A1,1 A1,0
A2,0 A2,1A2,2 B0,0 B1,0 B2,0
B1,1B0,1 B2,1
B2,2B0,2 B1,2
étape 2:
Calculs locaux et
accumulation sur
la deuxième diagonale
de C
étape 2’:
Rotation verticale de B
A0,0 A0,1 A0,2
A1,2A1,1 A1,0
A2,0 A2,1A2,2 B0,0 B1,0 B2,0
B1,1B0,1 B2,1
B2,2B0,2 B1,2
C0,1
C1,2
C2,0
A0,0 A0,1 A0,2
A1,2A1,1 A1,0
A2,0 A2,1A2,2
B0,0 B1,0 B2,0
B1,1B0,1 B2,1
B2,2B0,2 B1,2 C0,2
C1,0
C2,1
étape 3:
Calculs locaux et
accumulation sur
la troisième diagonale
de C

// Preskewing
Transpose B;
// Phase de calcul
for k = 1 to
√
P do
// Produit scalaire ligne par ligne sur A et B
Calcule localement par bloc : C = A × B;
// On calcule les matrices blocs définitives de C
pour la k-ième diagonale
// Somme globale équivaut au produit scalaire
d’une ligne de A avec une ligne de B
Somme globale de C sur les processeurs lignes pour la
k-ième diagonale de C;
Décalage vertical de B;
end
// On transpose B afin de retrouver la matrice
initiale
Transpose B;

En résumé
Le produit matriciel sur le tore :
◮ algorithme de Cannon (pré-processing)
◮ algorithme de Fox (broadcast-multiply-roll)
◮ algorithme de Snyder (sommes globales)
Comparatif des trois algorithmes :
Algorithme Cannon Fox Snyder
prétraitement preskewing de A et B rien transposition B ← B⊤
produits matriciels en place en place sur les lignes PEs
mouvements A gauche → droite diffusion horizontale rien
mouvements B bas → haut bas → haut bas → haut

La bibliothèque
C++ STL :
généricité

Les classes génériques en C++
But de la généricité = produire du code indépendant des
types (instanciés lors de l’usage):
// returns 0 if equal, 1 if value1 is bigger, -1 otherwise
i n t compare ( const i n t &value1 , const i n t &value2 ) {
i f ( value1 < value2 ) r e t u r n −1;
i f ( value2 < value1 ) r e t u r n 1 ;
r e t u r n 0 ;
}
i n t compare ( const s t r i n g &value1 , const s t r i n g &
value2 ) {
r e t u r n 0;}
⇒ factorisation du code puis à la compilation, code polymorphique
pour les divers types requis : génération des codes spécifiques pour
les types demandés.

#i n c l u d e <iostream >
#i n c l u d e <s t r i n g >
template <c l a s s T>
i n t compare ( const T &value1 , const T &value2 ) {
r e t u r n 0 ;
}
// On est gentil ici pour le compilateur :
// on indique explicitement les types demand´es
std : : s t r i n g h (” h e l l o ” ) , w( ” world ” ) ;
std : : cout << compare<std : : s t r i n g >(h , w) << std : :
endl ;
std : : cout << compare<int >(10 , 20) << std : : endl ;
std : : cout << compare<double >(50.5 , 5 0 .6 ) << std : :
endl ;
r e t u r n 0;}

Inférence des types demandés par le compilateur
#i n c l u d e <s t r i n g >
template <c l a s s T>
i n t compare ( const T &value1 , const T &value2 ) {
r e t u r n 0 ;
}
// Le compilateur doit trouver le type demande ici :
// inférence de types
std : : s t r i n g h (” h e l l o ” ) , w( ” world ” ) ;
std : : cout << compare (h , w) << std : : endl ;
std : : cout << compare (10 , 20) << std : : endl ;
std : : cout << compare (5 0 .5 , 5 0 .6 ) << std : : endl ;
r e t u r n 0;}

Mécanisme de compilation
◮ le compilateur ne génére pas de code directement lorsqu’il
rencontre une classe/fonction template parce qu’il ne connaˆıt
pas encore quelles seront les types demandés.
◮ quand le compilateur rencontre une fonction template
utilisée, il sait quel type est demandé : Il instancie alors le
template et compile le code correspondant
⇒ les classes/fonctions templates doivent donc se trouver dans le
fichier d’en-tête, header .h
Le mécanisme de template ressemble donc a une macro
expansion...

ﬁchier compare.h :
#i f n d e f COMPARE H
#d e f i n e COMPARE H
template <c l a s s T> i n t comp( const T& a , const T& b )
{
i f ( a < b ) r e t u r n −1;
i f (b < a ) r e t u r n 1 ;
r e t u r n 0;}
#e n d i f // COMPARE H
ﬁchier main.cpp :
#i n c l u d e ”compare . h”
using namespace std ;
i n t main ( i n t argc , char ∗∗ argv )
{ cout << comp<int >(10 , 20) ; cout << endl ;
r e t u r n 0 ; }

Lire un fichier dans un vector de la STL
Vous avez déjà utilisé la classe vector de la STL ! (tableaux
dynamiques)
i f s t r e a m f i n ;
f i n . open ( ” f i c h i e r . t x t ” ) ;
vector <s t r i n g > t e x t e ; s t r i n g mote ;
while ( f i n >> mot )
{ t e x t e . push back (mot ) ;}
f i n . c l o s e ( ) ;
◮ La boucle while lit jusqu’à temps de rencontrer EOF (End
Of File)
◮ Les données sont des chaˆınes de caractères séparées par des
délimiteurs (espace, tab, retour à la ligne, point virgule pour
les fichiers CSV, Comma-Separated Values)

STL : une collection de structures de données
Le concept fondamental est le containeur avec son iterator , le
tout en template !
Structure de données nom STL #include
tableau dynamique vector <vector>
liste chaˆınée list <list>
pile stack <stack>
file queue <queue>
arbre binaire set <set>
table de hachage map <set>
tas ordonné file de priorité <queue>
Les #include sont à faire sans le .h

La STL : structures de données génériques
set <s t r i n g > mots ;
l i s t <Eleve> PromoX2013 ;
stack < vector <int > > nombres ;
À chaque container STL, on a un itérateur (iterator) associé de
type container<T>::iterator
set <s t r i n g >:: i t e r a t o r p=mots . f i n d ( ” cours ”) ;
l i s t <Eleve >:: i t e r a t o r premier=PromoX2013 . begin
() ;
stack < vector <int > >:: i t e r a t o r f i n=nombres . end
() ;
On déreférence un itérateur comme pour un pointeur : *it

Les containeurs stockent par valeur, pas par reférence
◮ quand on insére un objet, le containeur va en faire une copie
◮ quand le containeur doit réarranger les objets, il procéde en
faisant des copies de ceux-ci. Par exemple, si on tri, ou si on
insére sur un containeur map, etc.
◮ si on veut éviter cela, il faudra donc faire des containeurs de
pointeurs !
C++11 a le mot clef auto pour inférer directemement les types et
un “foreach” (pour les curieux !) :
f o r ( vector <Printer >:: i t e r a t o r i t = vec . begin () ; i t
< vec . end () ; i t ++) { cout << ∗ i t << endl ; }
f o r ( auto i t = vec . begin () ; i t < vec . end () ; i t ++) {
cout << ∗ i t << endl ; }
std : : s t r i n g s t r ( ” Bonjour INF442” ) ; f o r ( auto c :
s t r ) { std : : cout << c << endl ; }

Fonctions membres communes à la STL
Toutes les classes containeurs ont les fonctions membres :
i n t s i z e ()
i t e r a t o r begin ()
i t e r a t o r end ()
bool empty ()
Pour lister tous les éléments d’un containeur, on fait :
l i s t <s t r i n g >:: i t e r a t o r i t=maListe . begin () ;
while ( i t != maListe . end () )
{ cout << ∗ i t <<endl ; i t e r ++;}
Notons que end() est un élément sentinel . On ne peut pas
déreférencer end().

Différents accès aux éléments d’un containeur
◮ pour vector, on peut accéder aux éléments en utilisant un
index [i] :
vector <int > vec442<double >;
vec442 [0]=280;
... mais les crochets ne peuvent pas être utilisés pour
list<int> par exemple
◮ on peut rajouter un élément à la fin d’une liste ou d’un
vecteur avec push back :
monVecteur . push back (2013) ;
maListe . push back (2013) ;
... mais il n’ y a pas de push_back pour les ensembles (codés
par des arbres binaires) :
set <int > monEnsemble ;
monEnsemble . push back (2013) ; // Erreur !!!

La liste (doublement chaˆınée)
On peut ajouter à la tête ou à la queue d’une liste en temps
constant :
maListe . push back (2013) ;
maListe . p u s h f r on t (2015) ;
On peut insérer ou supprimer un élément avec un itérateur :
l i s t <s t r i n g >:: i t e r a t o r p=maListe . begin () ;
p=maListe . e r a s e ( p ) ;
p=maListe . i n s e r t (p , ”HPC” ) ;
On peut avancer ou reculer dans une liste avec les opérateurs
unaires ++ et -- :
p++; p−−; // faire attention aux débordements possibles
Seul bémol : on ne peut pas directement accéder i-ième élément
(cela demande de parcourir la liste, pas de crochets).

La liste doublement chaˆın´ee en STL
Voir INF311/INF411
NULL
NULL
C++ HPC MPI
list<string>::iterator it=liste.find("HPC")
q=it-- q=it++

Les piles et les files
◮ Piles ( stacks ) et files ( queues ) sont des sous-classes de la
classe deque
◮ Une pile est une liste chaˆınée avec la propriété Dernier Arrivé
Premier Sorti, DAPS (LIFO : Last In First Out).
◮ Une file est une liste chaˆınée avec la propriété Premier Arrivé
Premier Sorti, PAPS (FIFO : First In First Out).
◮ On accéde au dernier élèement au sommet de la pile ou au
premier élément d’une file avec les primitives push et pop
◮ Pour les piles, on a aussi top, et pour les files front et back

Les piles : illustration
stack <s t r i n g > S ;
S . push ( ”A”) ;
S . push ( ”B”) ;
S . push ( ”C”) ;
S . pop () ;
Q. pop () ;
S . push ( ”D”) ;
Q. push ( ”D”) ;
cout << S . top () ;

Les ﬁles : illustration
queue<s t r i n g > Q;
Q. push ( ”A”) ;
Q. push ( ”B”) ;
Q. push ( ”C”) ;
Q. pop () ;
Q. push ( ”D”) ;
cout << Q. f r o n t () << Q. back () ;

Les files de priorité
On doit définir un operator < .
La plus grande valeur est sur le haut (max-heap, top).
p r i o r i t y q u e u e <int > Q;
Q. push (23) ; Q. push (12) ; Q. push (71) ; Q. push (2) ;
cout << Q. top () ;
Q. pop () ;
cout << Q. top () ;
pour la plus petite valeur (min-heap), il faut donc changer le sens
sémantique de l’opérateur < ...
http://en.cppreference.com/w/cpp/language/operator_comparison

On peut trier facilement avec une ﬁle de priorit´e...
#i n c l u d e <queue>
s t r u c t comparator {
bool o perato r () ( i n t i , i n t j ) { r e t u r n i < j ;}
} ;
i n t main ( i n t argc , char const ∗ argv [ ] )
{
p r i o r i t y q u e u e <int , std : : vector <int >,
comparator> minHeap ;
minHeap . push (10) ; minHeap . push (5) ;
while ( ! minHeap . empty () ) {
cout << minHeap . top () << ” ” ;
minHeap . pop () ;
}
r e t u r n 0;} // 12 10 5 4 3 3

Les ensembles : set (arbres binaires équilibrés)
On doit définir operator <. Toutes les valeurs sont uniques
(sinon, utiliser un multiset).
insert(value), erase(value), erase(iterator),
iterator find(value)
set <s t r i n g > s ;
s . i n s e r t ( ” Ecole ” ) ;
s . i n s e r t ( ” Polytechnique ” ) ;
s . e r a s e ( ” Ecole ” ) ;
cout << ∗( s . f i n d ( ” Polytechnique ”) ) ;

Le hachage (map)
◮ Différence entre hachage fermé (tableau) et hachage ouvert
(tableau de pointeurs sur des listes).
◮ Templates pour la clef et le type de données map<K,T>.
◮ On doit définiroperator < pour le type K.
map<int , s t r i n g > monHachage ;
monHachage [23121981] = ” A n n i v e r s a i r e Toto” ;
monHachage [05031953] = ” A n n i v e r s a i r e T i t i ” ;
. . .
map<s t r i n g , int > monHachageRev ;
monHachageRev [ ”Toto” ] = 23121981;
monHachageRev [ ” T i t i ” ] = 05031953;

Le hachage (map)
Les fonctions membres pour la classe STL map :
erase(iterator), erase(K clef), map_name(K key)
map<s t r i n g , int > M;
M[ ”A” ] = 23;
M[ ”B” ] = 12;
M[ ”C” ] = 71;
M[ ”D” ] = 5;
M. e r a s e ( ”D” ) ;
cout << M[ ”B” ] ;

La classe STL paire à la rescousse
map<s t r i n g , int > maMap;
pair <s t r i n g , int > p a i r e ( ”Tutu” , 606) ;
maMap. i n s e r t ( p a i r e ) ;
. . .
// on créé un nouvel enregistrement en faisant aussi :
maMap[ ”Tata” ] = 707;
⇒ opérateur crochet [K]

Les temps d’accés aux structures de données
Pour un containeur à n éléments :
vecteur list set map
Insérer/supprimer O(n) O(1) O(log n) Õ(1)
Rechercher O(n) O(n) O(log n) Õ(1)
Voir INF311/INF411.

Les itérateurs
Chaque containeur est equippé d’un itérateur :
container <T>:: i t e r a t o r i t ;
i t=C. begin () ;
◮ ++ et -- pour avancer ou reculer
◮ * pour déreférencer
◮ == et =! pour les tests de comparaisons
Seulement dans la classe vector, on peut bouger de p éléments
(arithmétique) en faisant
vector <T>:: i t e r a t o r i t ;
i t=i t+p ;
i t=i t −p ;

Les itérateurs : premier et dernier éléments
Le dernier élément est une sentinelle :
cout << ∗( L . begin () ) ; // oui, si pas vide !
cout << ∗( L . end () ) ; // toujours non !
l i s t <s t r i n g >:: i t e r a t o r p = L . end () ;
p−−;
cout << ∗p ; // ok, si pas vide !

La classe STL algorithm
Procédures (pas des méthodes de classe) : find, remove, count,
shuffle, replace, sort, for each, min element,
binary search, transform, copy, swap :
i t e r = f i n d (L . begin () , L . end () , ” Cours INF442”
) ;
i n t x = count (L . begin () , L . end () , ” i n s c r i t en
INF442” ) ;
r e p l a c e (L . begin () , L . end () , ”DEP442” , ”INF442”
) ;
if : prend une fonction booléene utilisateur :
r e p l a c e i f (L . begin , L . end () , appartient442S , ”
Tutorat ”) ;

Boost
◮ un ensemble de bibliothèques qui se comportent bien avec la
STL :
http://www.boost.org/
◮ liste des bibliothèques de Boost :
http://www.boost.org/doc/libs/
Graph BGL generic graph components
MPI MPI interface in Boost style
Rational rational number class
Thread Portable multi-threading
uBlas linear algebra for vector/matrix
Xpressive regular expression
Installé dans le répertoire /usr/local/boost-1.56.0

Boost : la biblioth`eque uBLAS
#i n c l u d e <boost / numeric / ublas / matrix . hpp>
#i n c l u d e <boost / numeric / ublas / i o . hpp>
using namespace boost : : numeric : : ublas ;
i n t main () {
matrix <double> m (3 , 3) ;
f o r ( unsigned i = 0; i < m. s i z e 1 () ; ++ i )
f o r ( unsigned j = 0; j < m. s i z e 2 () ;
++ j )
m ( i , j ) = i + j ∗ j ;
cout << m << endl ;
}

Boost : la biblioth`eque uBLAS
alias mpiboost =’/usr/local/openmpi -1.8.3/ bin
/mpic++ -I/usr/local/boost -1.56.0/ include
/ -L/usr/local/boost -1.56.0/ lib/ -
lboost_mpi -lboost_serialization ’
mpiboost matrice442.cpp -o matrice442.exe
mpirun -np 1 matrice442.exe
[3 ,3]((0 ,1 ,4) ,(1,2,5) ,(2,3,6))
http://www.boost.org/doc/libs/1_58_0/libs/numeric/ublas/doc/

# i n c l u d e <boost / numeric / ublas / matrix . hpp>
# i n c l u d e <boost / numeric / ublas / i o . hpp>
# i n c l u d e <boost / numeric / ublas / matrix . hpp>
using namespace boost : : numeric : : ublas ;
i n t main () {
matrix <double > myMat (3 ,3 , 2 . 5 ) ;
myMat (0 ,0)= myMat (2 ,2) =1.0;
myMat (0 ,2)= −3.6; myMat (2 ,0) =5.9;
cout << ”My Mat : ” << myMat << endl ;
cout << ”Num Rows : ” << myMat . s i z e 1 () << endl ;
cout << ”Num Cols : ” << myMat . s i z e 2 () << endl ;
cout << ”My Mat Transp : ” << t r a n s (myMat) << endl
;
cout << ”My Mat Real Part : ” << r e a l (myMat) <<
endl ;
myMat . r e s i z e (4 ,4) ;
cout << ”My Resized Mat : ” << myMat << endl ;
r e t u r n 0;}

matrix <double > myMat (3 ,3 , 2. 5) ;
myMat (0 ,0)= myMat (2 ,2) =1.0;
myMat (0 ,2)= −3.6; myMat (2 ,0) =5.9;
mpirun -np 1 matricefun442.exe
My Mat :[3 ,3]((1 ,2.5 , -3.6) ,(2.5 ,2.5 ,2.5)
,(5.9 ,2.5 ,1))
Num Rows :3
Num Cols :3
My Mat Transp :[3 ,3]((1,2.5 ,5.9)
,(2.5 ,2.5 ,2.5) ,( -3.6 ,2.5 ,1))
My Mat Real Part :[3 ,3]((1 ,2.5 , -3.6)
,(2.5 ,2.5 ,2.5) ,(5.9 ,2.5 ,1))
My Resized Mat :[4 ,4]((1,2.5 , -3.6 ,3.57355e
-115) ,(2.5,2.5,2.5 ,2.02567e -322)
,(5.9 ,2.5 ,1 ,0) ,(0,0,0,0))

Résumé A4
la classification par régression linéaire (et comparaison avec le
classifieur k-PPV)
le produit matrice-vecteur sur l’anneau orienté
produits matriciels sur le tore : algorithmes de Cannon
(pre-processing), de Fox (broadcast-multiply-roll) et de Snyder
(sommes globales)
la généricité avec la bibliothèque C++ STL
la bibliothèque Boost uBLAS
Pour la prochaine fois : lire le chapitre 5 du polycopié

Traitement des données massives (INF442, A4)

Recommandé

Recommandé

Contenu connexe

Tendances

Tendances (20)

En vedette

En vedette (17)

Similaire à Traitement des données massives (INF442, A4)

Similaire à Traitement des données massives (INF442, A4) (20)

Traitement des données massives (INF442, A4)