Otimização de Desempenho em GPGPU e CUDA

Revisõ CUDA
a
Avalia¸õ de Desempenho
ca
Execu¸õ Concorrente Ass´
ca ıncrona
Conclusõ
a
Referˆncias
e

Considera¸oes de Desempenho em CUDA
c˜
(Parte 1/3)

Th´rsis T. P. Souza
a
t.souza@usp.br

Instituto de Matem´tica e Estat´
a ıstica
Universidade de Sõ Paulo
a

29 de abril de 2011

Th´rsis T. P. Souza (USP)
a Considera¸˜es de Desempenho em CUDA
co

Revisõ CUDA
a
ca
ca ıncrona
Conclusõ
a
Referˆncias
e

Configura¸õ de Ambiente
ca

Enquanto nõ for dito o contr´rio ou citada respectiva referˆncia,
a a e
neste trabalho, considera-se a seguinte configura¸õ:
ca
Sistema Operacional Ubuntu Linux 10.04
CUDA Toolkit versõ 3.2
a
Arquitetura NVIDIA Fermi

co

Revisõ CUDA
a
ca
ca ıncrona
Conclusõ
a
Referˆncias
e

Agenda

1 Revisõ CUDA
a
2 Avalia¸õ de Desempenho
ca
M´tricas de Desempenho
e
Tempo em CUDA
Largura de Banda em GPU
3 Execu¸õ Concorrente Ass´
ca ıncrona
Transferˆncia de Dados Host-Device
e
Kernels Paralelos
4 Conclusõ
a
5 Referˆncias
e

a Considera¸oes de Desempenho em CUDA
c˜

Revis˜o CUDA
a
ca
ca ıncrona
Conclus˜o
a
Referˆncias
e

Arquitetura Fermi

co

Revis˜o CUDA
a
ca
ca ıncrona
Conclus˜o
a
Referˆncias
e

Tipos de Mem´ria
o

co

Revis˜o CUDA
a
ca
ca ıncrona
Conclus˜o
a
Referˆncias
e

Hierarquia de Threads

co

Revis˜o CUDA
a
ca
ca ıncrona
Conclus˜o
a
Referˆncias
e

CUDA C

co

Revisõ CUDA
a
ca
ca ıncrona
Conclusõ
a
Referˆncias
e

Modelo Heterogˆneo de Computa¸õ
e ca

Figura: Fluxo de execu¸õ CUDA
ca

co

Revisõ CUDA
a
ca M´tricas de Desempenho
e
ca ıncrona Tempo em CUDA
Conclusõ
a Largura de Banda em GPU
Referˆncias
e

Agenda

1 Revisõ CUDA
a
ca
e
Tempo em CUDA
ca ıncrona
e
Kernels Paralelos
4 Conclusõ
a
5 Referˆncias
e

c˜

Revisõ CUDA
a
e
Conclusõ
Referˆncias
e

Desempenho Sequencial x Paralelo
Tempo de execu¸õ sequencial ´ fun¸õ de
ca e ca

co

Revis˜o CUDA
a
e
Conclus˜o
Referˆncias
e

ca e ca
tamanho da entrada

co

Revis˜o CUDA
a
e
Conclus˜o
Referˆncias
e

ca e ca
tamanho da entrada
espa¸o (mem´ria)
c o

co

Revisõ CUDA
a
e
Conclusõ
Referˆncias
e

ca e ca
tamanho da entrada
espa¸o (mem´ria)
c o
Tempo de execu¸õ paralela ´ fun¸õ de
ca e ca

co

Revis˜o CUDA
a
e
Conclus˜o
Referˆncias
e

ca e ca
tamanho da entrada
espa¸o (mem´ria)
c o
ca e ca
tamanho da entrada
espa¸o (mem´ria)
c o

co

Revis˜o CUDA
a
e
Conclus˜o
Referˆncias
e

ca e ca
tamanho da entrada
espa¸o (mem´ria)
c o
ca e ca
tamanho da entrada
espa¸o (mem´ria)
c o
n´mero de processadores
u

co

Revisõ CUDA
a
e
Conclusõ
Referˆncias
e

ca e ca
tamanho da entrada
espa¸o (mem´ria)
c o
ca e ca
tamanho da entrada
espa¸o (mem´ria)
c o
u
parˆmetros de comunica¸õ da arquitetura alvo
a ca

co

Revis˜o CUDA
a
e
Conclus˜o
Referˆncias
e

ca e ca
tamanho da entrada
espa¸o (mem´ria)
c o
ca e ca
tamanho da entrada
espa¸o (mem´ria)
c o
u
a ca
Implica¸˜es
co

co

Revis˜o CUDA
a
e
Conclus˜o
Referˆncias
e

ca e ca
tamanho da entrada
espa¸o (mem´ria)
c o
ca e ca
tamanho da entrada
espa¸o (mem´ria)
c o
u
a ca
Implica¸˜es
co
necess´rio analisar algoritmos paralelos para uma arquitetura
a
alvo particular

co

Revis˜o CUDA
a
e
Conclus˜o
Referˆncias
e

ca e ca
tamanho da entrada
espa¸o (mem´ria)
c o
ca e ca
tamanho da entrada
espa¸o (mem´ria)
c o
u
a ca
Implica¸˜es
co
necess´rio analisar algoritmos paralelos para uma arquitetura
a
alvo particular
sistema paralelo = algoritmo paralelo + arquitetura
co

Revis˜o CUDA
a
e
Conclus˜o
Referˆncias
e

e

M´tricas de Desempenho mais comuns :
e

co

Revis˜o CUDA
a
e
Conclus˜o
Referˆncias
e

e

e
speedup

co

Revisõ CUDA
a
e
Conclusõ
Referˆncias
e

e

e
speedup
efficiency

co

Revisõ CUDA
a
e
Conclusõ
Referˆncias
e

e

e
speedup
efficiency
scalability

co

Revisõ CUDA
a
e
Conclusõ
Referˆncias
e

e

e
speedup
efficiency
scalability
sustained FLOPS rates

co

Revisõ CUDA
a
e
Conclusõ
Referˆncias
e

Speedup

Razõ entre o tempo da solu¸õ do algoritmo executado em um
a ca
unico processador e o tempo da solu¸õ do mesmo algoritmo em
´ ca
m´ltiplos processadores:
u

co

Revis˜o CUDA
a
e
Conclus˜o
Referˆncias
e

Speedup

a ca
´ ca
u

Sp = T1 /Tp

co

Revis˜o CUDA
a
e
Conclus˜o
Referˆncias
e

Speedup

a ca
´ ca
u

Sp = T1 /Tp

onde,
p corresponde ao n´mero de processadores
u

co

Revisõ CUDA
a
e
Conclusõ
Referˆncias
e

Speedup

a ca
´ ca
u

Sp = T1 /Tp

onde,
u
T1 ´ o tempo de execu¸õ do algoritmo sequencial
e ca

co

Revisõ CUDA
a
e
Conclusõ
Referˆncias
e

Speedup

a ca
´ ca
u

Sp = T1 /Tp

onde,
u
T1 ´ o tempo de execu¸õ do algoritmo sequencial
e ca
Tp ´ o tempo do algoritmo paralelo em p processadores
e

co

Revis˜o CUDA
a
e
Conclus˜o
Referˆncias
e

Speedup

Sp = p, Linear speedup

co

Revis˜o CUDA
a
e
Conclus˜o
Referˆncias
e

Speedup

Sp < p, Sub-linear speedup

co

Revis˜o CUDA
a
e
Conclus˜o
Referˆncias
e

Speedup

Sp < p, Sub-linear speedup
Sp > p, Super-linear speedup

co

Revisõ CUDA
a
e
Conclusõ
Referˆncias
e

Lei de Amdahl

M´ximo speedup (S) esperado ao paralelizar uma certa por¸õ de
a ca
um programa sequencial:

1
S= P
(1 − P) + N

onde, P ´ a fra¸õ do tempo gasto pelo programa serial da parte
e ca
do c´digo que pode ser paralelizado e N ´ o n´mero de
o e u
processadores sobre o qual o c´digo paraleliz´vel roda.
o a

co

Revis˜o CUDA
a
e
Conclus˜o
Referˆncias
e

Lei de Amdahl

co

Revis˜o CUDA
a
e
Conclus˜o
Referˆncias
e

Lei de Amdahl

Boa pr´tica
a
Para maximizar desempenho, antes de mais nada, busque formas
de paralelizar o c´digo sequencial.
o

co

Revisõ CUDA
a
e
Conclusõ
Referˆncias
e

Efficiency

Razõ entre o speedup e o n´mero de processadores:
a u

co

Revisõ CUDA
a
e
Conclusõ
Referˆncias
e

Efficiency

a u

T1
Ep = Sp /p =
pTp

co

Revisõ CUDA
a
e
Conclusõ
Referˆncias
e

Efficiency

a u

T1
Ep = Sp /p =
pTp

Estima quõ bem os processadores estõ sendo utilizados, tendo
a a
em vista o tempo gasto em overhead como: sincroniza¸õ e troca
ca
de mensagens.

co

Revis˜o CUDA
a
e
Conclus˜o
Referˆncias
e

Scalability

Capacidade do algoritmo de resolver um problema n vezes maior
em n vezes mais processadores [Gray, 1992]:

co

Revis˜o CUDA
a
e
Conclus˜o
Referˆncias
e

Scalability

Capacidade do algoritmo de resolver um problema n vezes maior
em n vezes mais processadores [Gray, 1992]:

Tempo para resolver um problema de tamanho m em p processadores
Scaleup(p, n) =
Tempo para resolver um problema de tamanho nm em np processadores

co

Revis˜o CUDA
a
e
Conclus˜o
Referˆncias
e

Sustained FLOPS rates

FLOPS: Floating-point Operations per Second

co

Revisõ CUDA
a
e
Conclusõ
Referˆncias
e

Sustained FLOPS rates

FLOPS: Floating-point Operations per Second
A taxa sustentada de FLOPS mede quõ bem uma
a
implementa¸õ espec´
ca ıfica explora a arquitetura alvo

co

Revisõ CUDA
a
e
Conclusõ
Referˆncias
e

FLOPS

Falćia: FLOPS ´ uma boa m´trica de desempenho
a e e
Essa m´trica nõ indica necessariamente que um algoritmo ´
e a e
eficiente

co

Revisõ CUDA
a
e
Conclusõ
Referˆncias
e

FLOPS

Falćia: FLOPS ´ uma boa m´trica de desempenho
a e e
Essa m´trica nõ indica necessariamente que um algoritmo ´
e a e
eficiente
Um algoritmo alternativo com menor FLOPS pode resolver
um problema mais rapidamente

co

Revisõ CUDA
a
e
Conclusõ
Referˆncias
e

Conclusõ M´tricas de Desempenho
a e

Cuidado ao estender erradamente m´tricas que valem para um
e
contexto espec´
ıficos. Ex.: microbenchmarks, FLOPS de pico

co

Revisõ CUDA
a
e
Conclusõ
Referˆncias
e

a e

e
contexto espec´
Tempo de execu¸õ ´ a unica medida v´lida para desempenho
ca e ´ a
[Hennessy, 2004]

co

Revisõ CUDA
a
e
Conclusõ
Referˆncias
e

a e

e
contexto espec´
ca e ´ a
[Hennessy, 2004]
Qualquer m´trica deve estar vinculada ao tempo de execu¸õ
e ca

co

Revisõ CUDA
a
e
Conclusõ
Referˆncias
e

a e

e
contexto espec´
ca e ´ a
[Hennessy, 2004]
Qualquer m´trica deve estar vinculada ao tempo de execu¸õ
e ca

Boa pr´tica
a
Utilize o tempo de execu¸õ como medida de desempenho.
ca

co

Revisõ CUDA
a
e
Conclusõ
Referˆncias
e

Medindo Tempo

Podemos medir tempos de execu¸õ em CUDA utilizando tanto
ca
m´todos tradicionais de CPU quanto GPU timers. Entretanto, h´
e a
alguns aspectos a serem levados em considera¸õ:
ca

co

Revis˜o CUDA
a
e
Conclus˜o
Referˆncias
e

Medindo Tempo

ca
e a
ca
Chamadas a CUDA API podem ser ass´ ıncronas. Ex.:
lan¸amento de kernels. Neste caso ´ necess´rio garantir a
c e a
sincronia de threads ao utilizar temporizadores em CPU.

co

Revisõ CUDA
a
e
Conclusõ
Referˆncias
e

Medindo Tempo

ca
e a
ca
c e a
Deve-se tomar cuidado ao criar pontos de sincroniza¸õ em
ca
CPU. Isso pode causar stall em GPU.

co

Revisõ CUDA
a
e
Conclusõ
Referˆncias
e

Medindo Tempo

ca
e a
ca
c e a
Deve-se tomar cuidado ao criar pontos de sincroniza¸õ em
ca
CPU. Isso pode causar stall em GPU.
Temporiza¸õ em GPU ´ tipicamente realizada utilizando
ca e
GPU Events.

co

Revis˜o CUDA
a
e
Conclus˜o
Referˆncias
e

CPU Timer
Ao utilizar temporizadores de CPU, para medir corretamente o
tempo transcorrido em uma chamada ou sequˆncia de chamadas
e
em CUDA, ´ necess´rio sincronizar a thread da CPU com a GPU
e a
chamando cudaThreadSynchronize() imediatamente antes e
depois de iniciar o temporizador na CPU.

co

Revis˜o CUDA
a
e
Conclus˜o
Referˆncias
e

CUDA Events
Exemplo utilizando CUDA Events:

co

Revis˜o CUDA
a
e
Conclus˜o
Referˆncias
e

Considera¸oes de Throughput
c˜

Transferˆncia de dados entre host e device ´ custosa.
e e

co

Revisõ CUDA
a
e
Conclusõ
Referˆncias
e

c˜

e e
A complexidade das opera¸˜es deve justificar o custo da
co
transferˆncia via PCIe.
e

co

Revisõ CUDA
a
e
Conclusõ
Referˆncias
e

c˜

e e
A complexidade das opera¸˜es deve justificar o custo da
co
transferˆncia via PCIe.
e
Dados devem ser mantidos em device o m´ximo poss´ para
a ıvel
evitar retransmissõ.
a

co

Revisõ CUDA
a
e
Conclusõ
Referˆncias
e

M´trica de Throughput
e

De modo geral, para aumento de desempenho, deseja-se maximar
a rela¸õ: n´mero de opera¸˜es de ponto flutuante em GPU por
ca u co
elemento de dado transferido via PCIe.

co

Revis˜o CUDA
a
e
Conclus˜o
Referˆncias
e

e

ca u co
Ex.: Para soma de duas matrizes N × N, h´ 3N 2 transferˆncias de
a e
dados e N 2 opera¸˜es.
co

co

Revisõ CUDA
a
e
Conclusõ
Referˆncias
e

e

ca u co
a e
dados e N 2 opera¸˜es. Portanto, a rela¸õ ´ de apenas 1:3 ou
co ca e
O(1).

co

Revisõ CUDA
a
e
Conclusõ
Referˆncias
e

e

ca u co
a e
co ca e
O(1). Para uma multiplica¸õ das mesmas matrizes, ter´
ca ıamos uma
rela¸õ O(N).
ca

co

Revisõ CUDA
a
e
Conclusõ
Referˆncias
e

e

ca u co
a e
co ca e
O(1). Para uma multiplica¸õ das mesmas matrizes, ter´
ca ıamos uma
rela¸õ O(N).
ca
Boa pr´tica
a
Minimizar transferˆncia de dados entre Host e Device.
e

co

Revisõ CUDA
a
ca
e
ca ıncrona
Kernels Paralelos
Conclusõ
a
Referˆncias
e

Agenda

1 Revisõ CUDA
a
ca
e
Tempo em CUDA
ca ıncrona
e
Kernels Paralelos
4 Conclusõ
a
5 Referˆncias
e

c˜

Revisõ CUDA
a
ca
e
ca ıncrona
Kernels Paralelos
Conclusõ
a
Referˆncias
e

Execu¸õ Concorrente Host-Device
ca

Para facilitar execu¸õ concorrente entre host e device, algumas
ca
chamadas de fun¸õ sõ ass´
ca a ıncronas: controle ´ retornado para
e
thread do host antes que o device complete as tarefas requisitadas.

co

Revisõ CUDA
a
ca
e
ca ıncrona
Kernels Paralelos
Conclusõ
a
Referˆncias
e

ca

ca
e
Dois tipos de execu¸õ concorrente sõ particurlamente
ca a
importantes de serem analisadas:

co

Revis˜o CUDA
a
ca
e
ca ıncrona
Kernels Paralelos
Conclus˜o
a
Referˆncias
e

ca

ca
e
ca a
Overlap em transferˆncia de dados
e

co

Revisõ CUDA
a
ca
e
ca ıncrona
Kernels Paralelos
Conclusõ
a
Referˆncias
e

ca

ca
e
ca a
e
Execu¸õ de Kernels paralelos
ca

co

Revisõ CUDA
a
ca
e
ca ıncrona
Kernels Paralelos
Conclusõ
a
Referˆncias
e

ca

ca
e
ca a
e
Execu¸õ de Kernels paralelos
ca
Para verificar se o device permite tais tipos de concorrˆncia,
e
deve-se executar a chamada cudaGetDeviceProperties() e checar
os atributos deviceOverlap e concurrentKernels.

co

Revis˜o CUDA
a
ca
e
ca ıncrona
Kernels Paralelos
Conclus˜o
a
Referˆncias
e

e

O maior gargalo em processamento em GPU ´ a transferˆncia via
e e
PCIe.

co

Revis˜o CUDA
a
ca
e
ca ıncrona
Kernels Paralelos
Conclus˜o
a
Referˆncias
e

e

e e
PCIe.
Ao alocar mem´ria em CPU que vai ser utilizado para transferir
o
dados para GPU, h´ dois tipos de mem´ria poss´
a o ıveis:

co

Revis˜o CUDA
a
ca
e
ca ıncrona
Kernels Paralelos
Conclus˜o
a
Referˆncias
e

e

e e
PCIe.
o
a o ıveis:
pinned memory (page-locked memory )

co

Revis˜o CUDA
a
ca
e
ca ıncrona
Kernels Paralelos
Conclus˜o
a
Referˆncias
e

e

e e
PCIe.
o
a o ıveis:
pinned memory (page-locked memory )
non-pinned memory (pageable memory )

co

Revis˜o CUDA
a
ca
e
ca ıncrona
Kernels Paralelos
Conclus˜o
a
Referˆncias
e

non-Pinned Memory

Figura: C´pia tradicional host-device via PCIe.
o

co

Revisõ CUDA
a
ca
e
ca ıncrona
Kernels Paralelos
Conclusõ
a
Referˆncias
e

non-Pinned Memory

o

malloc / free sõ fun¸˜es que utilizam non-pinned memory
a co

co

Revisõ CUDA
a
ca
e
ca ıncrona
Kernels Paralelos
Conclusõ
a
Referˆncias
e

non-Pinned Memory

o

malloc / free sõ fun¸˜es que utilizam non-pinned memory
a co
transferˆncia host-device ´ relativamente lenta
e e

co

Revisõ CUDA
a
ca
e
ca ıncrona
Kernels Paralelos
Conclusõ
a
Referˆncias
e

Pinned Memory

Figura: C´pia host-device utlizando via PCIe em buffer pinned-memory
o

co

Revis˜o CUDA
a
ca
e
ca ıncrona
Kernels Paralelos
Conclus˜o
a
Referˆncias
e

Pinned Memory

o

Pinned Memory possibilita

co

Revis˜o CUDA
a
ca
e
ca ıncrona
Kernels Paralelos
Conclus˜o
a
Referˆncias
e

Pinned Memory

o

c´pia via PCIe mais r´pidas ( 2x)
o a

co

Revis˜o CUDA
a
ca
e
ca ıncrona
Kernels Paralelos
Conclus˜o
a
Referˆncias
e

Pinned Memory

o

o a
c´pias ass´
o ıncronas de mem´ria
o

co

Revis˜o CUDA
a
ca
e
ca ıncrona
Kernels Paralelos
Conclus˜o
a
Referˆncias
e

Pinned Memory

o

o a
c´pias ass´
o
Uso via RunTime API

co

Revis˜o CUDA
a
ca
e
ca ıncrona
Kernels Paralelos
Conclus˜o
a
Referˆncias
e

Pinned Memory

o

o a
c´pias ass´
o
Uso via RunTime API
cudaHostAlloc (ou cudaMallocHost) / cudaFreeHost

co

Revis˜o CUDA
a
ca
e
ca ıncrona
Kernels Paralelos
Conclus˜o
a
Referˆncias
e

Pinned Memory

o

o a
c´pias ass´
o
Uso via RunTime API
cudaHostAlloc (ou cudaMallocHost) / cudaFreeHost
em vez de malloc / free

co

Revisõ CUDA
a
ca
e
ca ıncrona
Kernels Paralelos
Conclusõ
a
Referˆncias
e

Pinned Memory x Non-Pinned Memory

Figura: Tempo de transferˆncia de mem´ria em fun¸õ de MegaBytes transferidos
e o ca
[2].

co

Revisõ CUDA
a
ca
e
ca ıncrona
Kernels Paralelos
Conclusõ
a
Referˆncias
e


Falćia: Pinned Memory = Maior Desempenho
a
Uso de Pinned Memory acelera c´pia via PCIe, logo sempre devo
o
utilizar esse tipo de mem´ria visando a um aumento de
o
desempenho. Errado!

co

Revisõ CUDA
a
ca
e
ca ıncrona
Kernels Paralelos
Conclusõ
a
Referˆncias
e


Falćia: Pinned Memory = Maior Desempenho
a
Uso de Pinned Memory acelera c´pia via PCIe, logo sempre devo
o
utilizar esse tipo de mem´ria visando a um aumento de
o
desempenho. Errado!

Pinned Memory nõ deve ser super utilizada
a

co

Otimização de Desempenho em GPGPU e CUDA

Otimização de Desempenho em GPGPU e CUDA

Recommandé

Recommandé

Contenu connexe

En vedette

En vedette (20)

Otimização de Desempenho em GPGPU e CUDA