O documento discute o processamento paralelo de grandes quantidades de dados em sistemas de arquivos distribuídos POSIX. Ele apresenta o Beehive File System, que agrega espaço de armazenamento ocioso em estações de trabalho de rede para processamento distribuído de dados. O documento também avalia heurísticas para alocação de arquivos nesse sistema com base em dados históricos de disponibilidade das máquinas.
Processamento Paralelo de Grandes Quantidades de Dados
1. Processamento Paralelo de Grandes
Quantidades de Dados sobre um
Sistema de Arquivos Distribuído
POSIX
Jonhnny Weslley
Orientador: Francisco Brasileiro
Laboratório de Sistemas Distribuídos
Programa de Pós-Graduação em Ciência da Computação
Universidade Federal de Campina Grande
Maio / 2010
2. Agenda
● Introdução
● Estado da Arte
● Beehive File System
● Heurísticas para alocação de arquivos
● Avaliação
● Conclusão
13. Computação na nuvem
● Transferência dos dados
● Confidencialidade e privacidade dos dados
Image by jillclardy on Flickr.com
14. Por que pagar por recursos externos, se
é possível realizar o processamento dos
dados, ou pelo menos parte dele, nas
estações de trabalho da rede local?
15. Beehive File System
● Agrega espaço ocioso nas estações de trabalho de
uma rede local
● Sistema de arquivos distribuído de uso geral
● POSIX compliant
16. Beehive File System
● Agrega espaço ocioso nas estações de trabalho de
uma rede local
● Sistema de arquivos distribuído de uso geral
● POSIX compliant
● Distribuição dos dados
18. Objetivos
● Aplicações de uso intensivo de dados usando
sistema de arquivos distribuído POSIX
● Sistema de arquivos POSIX multi-funcional
● Controlar a intrusividade
Image by denial_land on Flickr.com
19. Status quo
● Sistemas de arquivos em clusters
● Google File System
● Lustre
● Ceph
● Sistemas de arquivos oportunistas
● Freeloader
● BitDew
31. Modelo do sistema
● Sistema de arquivos
● A aplicação e os dados de entrada
● Disponibilidade
● Alocação de arquivos
● Métricas de desempenho
● tempo de execução das aplicações
● quantidade de armazenamento
32. Modelo simulado
● Trace SDSC*
● Estações de trabalho conectadas por uma LAN
● 244 máquinas
● Período de 14 dias
● Imagem do sistema de arquivos
● 1000 arquivos
● Distribuição uniforme entre 500MiB e 2GiB
● Fator de impacto de leituras remotas é 4.87.
*Characterizing and evaluating desktop grids: An empirical study.
33. Modelo simulado
● Workload das aplicações
● 300 aplicações Bag-of-Tasks
● Cada aplicação possui tarefas seguindo uma
distribuição uniforme entre 3 e 10
34. Resultados
Image by kevinzhengli on Flickr.com
36. Resultados
● Tempo de execução das aplicações
● Quantidade de armazenamento
37. Conclusão
● Aplicações de uso intensivo de dados usando
sistema de arquivos distribuído POSIX
● Sistema de arquivos POSIX multi-funcional
● Controle da intrusividade
● Heurísticas para alocação de arquivos