Ce diaporama a bien été signalé.
Nous utilisons votre profil LinkedIn et vos données d’activité pour vous proposer des publicités personnalisées et pertinentes. Vous pouvez changer vos préférences de publicités à tout moment.

João Marcos Araújo do Valle - Big Data

71 vues

Publié le

Ferramenta Open Source para análise e processamento de dados.

Publié dans : Données & analyses
  • Soyez le premier à commenter

  • Soyez le premier à aimer ceci

João Marcos Araújo do Valle - Big Data

  1. 1. Big Data: Ferramentas Open Source para Análise e Processamento de Dados
  2. 2. OLÁ! João Marcos Araújo do Valle Bacharel em Ciências e Tecnologias pela UFRN Graduando em Engenharia da Computação pela UFRN, com ênfase em Engenharia de Dados e Sistemas Distribuídos 2
  3. 3. 1. O que é Big Data? E porque estudar isso? 3
  4. 4. O que é Big Data? › Grandes Conjuntos de Dados › Estruturados ou não estruturados › E porquê estudar Big Data? 4
  5. 5. “Nossa meta é transformar dados em informação, e informação em conhecimento. Carly Fiorina.” 5
  6. 6. Mas nem tudo são flores... Existem problemas ao se analisar dados: › Problemas de Capacidade de Hardware › Problemas de Tempo de Processamento 6
  7. 7. Apache Foundation 7
  8. 8. 193 Projetos A Apache Foundation apresenta mais de 190 projetos de alto nível Apache Foundation Mais de 300... Apresenta mais de 300 projetos e subprojetos de alto e baixo nível, e é uma das maiores fundações de Open Source do mundo 8
  9. 9. Apache Hadoop 9
  10. 10. Mais é melhor Um sistema distribuído junta a capacidade computacional de vários computadores em um só Sistema Distribuído 10
  11. 11. Mas eu não tenho mais de um computador :( Hadoop MapReduce Técnica de Paralelização de Processamento, executada localmente em apenas um computador 11 Eu também não! “Eu sou mais do que uma ferramenta de criação de sistemas distribuídos!” Hadoop, 2005.
  12. 12. 12 MapReduce
  13. 13. MapReduce Funciona com PYTHON!!! 13 E Java, C, C++, Ruby, Perl, Scala… Basicamente, com qualquer linguagem de programação.
  14. 14. E se 5x mais rápido não for o suficiente??? A Apache Foundation nos salva novamente! PROBLEMA!!! 14
  15. 15. Apache Spark 15
  16. 16. Até 100x mais rápido!! Apache Spark é até 100x mais que o MapReduce Muito mais rápido 16
  17. 17. E porque é mais rápido? 17 Direto na RAM O Apache Spark utiliza a memória RAM para o processamento Feito sobre medida Feito especialmente para o processamento de Big Data
  18. 18. Spark Funciona com Python!!! 18 E Java, Scala, R.... e só.
  19. 19. E se eu não quiser uma ferramenta tão completa? 19 Apesar de completa e com várias bibliotecas, o Spark é uma linguagem pesada.
  20. 20. Apache Pig 20
  21. 21. Ferramenta de Scripting 21 Muito rápido Apresenta um conjunto limitado de funções altamente paralelizadas. Possui linguagem própria A linguagem chamada Pig Latin, feita especialmente para processamento paralelo e alto desempenho
  22. 22. Ferramentas de Armazenamento para Big Data 22
  23. 23. MongoDB 23
  24. 24. NoSQL + Sistemas Distribuídos Buscas Rápidas O MongoDB consegue fazer buscas altamente otimizadas, e em um ótimo tempo hábil. 24 Replicação automática O MongoDB apresenta módulos de replicação automática de dados, que garantem permanência dos dados
  25. 25. Nosso processo de Big Data Sistema Distribuído MapReduce Spark Pig MongoDB 25
  26. 26. Links úteis: Hadoop Cloudera: https://www.cloudera.com/downloads/quickstart_vms/5-13.html Introdução ao Apache Spark - DevMedia: https://www.devmedia.com.br/introducao-ao-apache-spark/34178 Introdução ao Apache Hadoop - DevMedia: https://www.devmedia.com.br/hadoop-mapreduce-introducao-a-big-data/30034 DataScienceAcademy - Fundamentos de Big Data (Curso GRATUITO): https://www.datascienceacademy.com.br/course?courseid=big-data-fundamentos 26
  27. 27. MongoUniversity - Cursos de MongoDB (GRATUITOS): https://university.mongodb.com/ Curso de Apache Pig (GRATUITO): https://cognitiveclass.ai/courses/introduction-to-pig/ Links úteis: 27
  28. 28. Obrigado! Perguntas? Contato: GitHub: https://github.com/jm-valle E-mail: jmarcos.araujo96@gmail.com Telegram: @Jomazz 28

×