Programmation sur GPU avec CUDA

Programmation parallèle sur GPU avec CUDA par Maxime Fromentin Consultant In Fine Consulting le 26/04/2011

SOMMAIRE ,[object Object],[object Object],[object Object]

PARTIE I : Introduction aux GPUS et CUDA

GPU | DÉFINITION Déf: 1) Hardware spécialisé dans le rendu graphique 2) Microprocesseur présent sur les cartes graphiques au sein d’un ordinateur ou d’une console de jeux vidéo ,[object Object],[object Object],[object Object],[object Object],[object Object]

GPU | ÉVOLUTION DES PERFORMANCES ,[object Object],[object Object],[object Object],Floating-Point Operations per Second entre GPU et CPU

GPU | COMPARAISON DES ARCHITECTURES G80 GT200 Fermi Transistors 681 millions 1,4 milliards 3,0 milliards CUDA cores 128 240 512 Double précision (par cycle) - 30 FMA 256 FMA Simple précision (par cycle) 128 MAD 240 MAD 512 FMA Special Function Units (par SM) 2 2 4 Warp scheduler (par SM) 1 1 2 Shared memory (par SM) 16 Ko 16 Ko 48 Ko ou 16 Ko Cache L1 (par SM) - - 48 Ko ou 16 Ko Cache L2 - - 768 Ko Mémoire ECC Non Non Oui Kernels concurrents Non Non jusqu’à 16 Adresses 32 bits 32 bits 64 bits

CUDA | DÉFINITION ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],CUDA Application Source file: C/C++ (.cpp) Source file: CUDA (.cu) Compiling: Visual C++ Compiling: nvcc Linking: Visual C++ Executable

CUDA | DÉFINITION ,[object Object],Des performances entre 5X et 100X supérieures aux CPUs !

CUDA ET FINANCE Plus à voir sur : http://www.nvidia.fr/object/cuda_app_tesla_fr.html ,[object Object],[object Object]

PARTIE II : CUDA more in-depth Exemple

CUDA | ORGANISATION DES THREADS ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

CUDA | ORGANISATION DES THREADS ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

CUDA | EXÉCUTION DES THREADS ,[object Object],[object Object],[object Object],[object Object],[object Object]

CUDA | STRUCTURE D’UN PROGRAMME ,[object Object],[object Object],[object Object],[object Object],[object Object], Limiter les interactions entres CPU et GPU pour augmenter les performances

CUDA | STRUCTURE D’UN PROGRAMME // allocation de la mémoire sur le device cudaMalloc((void**)a_d, size); … // transfert des données du CPU vers le device (GPU) cudaMemcpy(a_d, a, size, cudaMemcpyHostToDevice); … // appel du kernel (programme qui tourne sur le GPU) addVectors<<< xxx, xxx>>>(n, a_d, b_d, c_d); // récupération du résultat cudaMemcpy(c, c_d, size, cudaMemcpyDeviceToHost);

CUDA | EXEMPLE : MULTIPLICATION DE MATRICES ,[object Object],[object Object],Code séquentiel en c++ void matmul(int n, float* a, float*b, float* c) { for (int i=0; i<n, i++) { for (int j=0; j<n; j++) { float s = 0; for (int k=0; k<n; k++) s += a[i*n+k] * b[i*k+j]; c[i*n+j] = s; } } }

CUDA | EXEMPLE : MULTIPLICATION DE MATRICES

CUDA | EXEMPLE : MULTIPLICATION DE MATRICES … cudaMemcpy(xd, x, size, cudaMemcpyHostToDevice); cudaMemcpy(yd, y, size, cudaMemcpyHostToDevice); const int threadsPerBlock = 16; int nblocks = (n + threadsPerBlock - 1) / (threadsPerBlock); dim3 dimGrid(nblocks,nblocks,1); dim3 dimBlock(threadsPerBlock,threadsPerBlock,1); multMatKernel<<<dimGrid, dimBlock>>>(n, xd, yd, zd); cudaMemcpy(z, zd, size, cudaMemcpyDeviceToHost); //std::cout << x[0] << " + " << y[0] << " = " << z[0] << std::endl; cudaFree(xd); cudaFree(yd); cudaFree(zd);

CUDA | EXEMPLE : MULTIPLICATION DE MATRICES __global__ void multMatKernel(int n, float *x, float *y, float *z) { int xx= blockIdx.x * blockDim.x + threadIdx.x; int yy= blockIdx.y * blockDim.y + threadIdx.y; if(xx<n && yy <n) { float res =0.0f; for(int i=0;i<n;i++) res+=x[yy+n*i]*y[xx*n+i]; z[xx*n+yy] =res; } }  Des optimisations encore possibles en utilisant la mémoire locale

CONCLUSION ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

BIBLIOGRAPHIE ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

Programmation sur GPU avec CUDA

Recommandé

Recommandé

Contenu connexe

Tendances

Tendances (20)

En vedette

En vedette (19)

Similaire à Programmation sur GPU avec CUDA

Similaire à Programmation sur GPU avec CUDA (20)

Programmation sur GPU avec CUDA