SlideShare une entreprise Scribd logo
1  sur  48
Télécharger pour lire hors ligne
Intelligence, Discovery, Analytics
e Data Science: Evolução,
Desafios e Oportunidades de
Carreira
Mauricio C. Purificação
Consultor de Business Intelligence (BI), Data Discovery e Business Analytics,
palestrante, instrutor das suítes Pentaho, QlikView e Qlik Sense;
Líder Técnico do Projeto de BI do Hospital Cárdio Pulmonar da Bahia;
Mestrando em Engenharia de Sistemas e Produtos (IFBA);
MBA em Administração/Gestão de Negócios - Universidade Salvador (UNIFACS);
Bacharel em Ciência da Computação - Universidade Federal da Bahia (UFBA);
Pesquisador nas áreas de Business Intelligence, Business Analytics, Big Data,
Mineração de Dados, Inteligência Artificial e Modelos Preditivos.
http://lattes.cnpq.br/3312807554334758
Por Quê Analisar Dados?
"O sucesso das organizações depende das pessoas e da
utilização inteligente da informação disponível"
Peter Drucker
Por Quê Analisar Dados?
A cultura de mensuração, monitoramento e análise de
informações para embasar a tomada de decisões sempre
foi uma das grandes aliadas dos gestores.
Por Quê Analisar Dados?
Por Quê Analisar Dados?
Linha do Tempo
1960 1970 1980 1990 2000
Business Intelligence
“BI é o uso da informação que permite às organizações melhor
decidir, medir, gerir e otimizar o desempenho para ganhar
eficiência e benefício financeiro.”
Instituto Gartner
BI 1.0
BI 2.0
BI 3.0
Uma Nova Realidade
Novos Padrões de Armazenamento de
Dados
2009
Redis Initial Release
2004 2006 2007 2008 2009 2011 2012 2013 2014
2007
MongoDB Started,
Neo4J Initial Release
2004
Google’s Map Reduce
Paper
Published
2012
Google Spanner Paper
Published
1998
1998
NoSQL coined
2006
Hadoop
Started
2008
Apache Hbase,
Apache Cassandra
Big Data
“Big Data é como sexo na adolescência: todo mundo fala, ninguém
realmente sabe como fazer, todo mundo pensa que todo mundo está
fazendo, então todo mundo diz que está fazendo.”
Dan Ariely, Duke University
3 V’s do Big Data
Big Data
“Assim como a filosofia não é sobre palavras, Big Data não é sobre
dados. Big Data é sobre o valor e significado que podem ser extraídos
dos dados.”
Big Data
“Big data é a fronteira da habilidade de uma empresa em armazenar,
processar e acessar todos os dados que ela precisa para operar
efetivamente, tomar decisões, reduzir riscos e atender aos clientes.”
Forrester
Big Data Analytics
Big Data Analytics
“Embora eventos futuros tenham circunstâncias únicas, eles
normalmente seguem padrões familiares que já ocorreram. Os avanços
na computação, armazenamento de dados e algoritmos permitem que
esses padrões possam ser encontrados.
Kira Radinsky - CTO e cofundadora da SalesPredict
Data Science
Data Scientist
Data Scientist
Data Scientist
Data Scientist
Carreiras (Hoje)?
Carreiras (Hoje)?
Carreiras (Hoje)?
Carreiras (Hoje)?
Carreiras (Hoje)?
Ferramentas?
Hadoop Ecosystem
ZooKeeper - ZooKeeper é um serviço de coordenação distribuída para gerenciar
grandes conjuntos de Clusters;
Oozie - Apache Oozie é um sistema de agendamento de WorkFlow, usado para
gerenciar principalmente os Jobs de MapReduce;
Pig - Apache Pig, é uma linguagem de procedimentos de alto nível para consultar
grandes conjuntos de dados semiestruturados usando Hadoop e a Plataforma
MapReduce;
Sqoop - Apache Sqoop, é um projeto do ecossistema Hadoop, cuja
responsabilidade é importar e exportar dados do banco de dados de dados
relacionais;
Spark - Apache Spark, é uma ferramenta Big Data para o processamento de
grandes conjuntos de dados. Foi desenvolvido para substituir o MapReduce, pois
processa 100x mais rápido que o MapReduce;
Hbase - Apache Hbase, é um banco de Dados não relacionais, projetado para
trabalhar com grande conjunto de dados (Big Data). É o banco de dados oficial do
hadoop.
Hadoop Ecosystem
Flume - Apache Flume, é um serviço que permite enviar dados diretamente para o
HDFS. É um serviço que funciona em ambiente distribuído (em cluster) para
coletar, agregar e mover grandes quantidades de dados de forma eficiente;
Mahout - Apache Mahout, é dedicado a Machine Learning – Data Science. Ele
permite a utilização dos principais algoritmos de clustering, testes de regressão e
modelagem estatística;
Kafka - Apache Kafka, é foi desenvolvido pelo Linkedin e liberado como projeto
OpenSource em 2011. O Apache Kafka é um sistema para gerenciamento de fluxo
de dados em tempo real, gerados a partir de websites, aplicações e sensores;
Ambari - Apache Ambari tem como objetivo tornar o gerenciamento do Hadoop
mais simples. O Ambari fornece uma interface de usuário da Web de
gerenciamento do Hadoop intuitiva e fácil de usar.
Ferramentas?
Onde Estudar?
Onde Estudar?
Duvidas?
Contatos
mscesar@gmail.com
http://slideshare.net/mscesar

Contenu connexe

Tendances

Big Data, Analytics, Aplicações, Aspectos Práticos e o Cientista de Dados
Big Data, Analytics, Aplicações, Aspectos Práticos e o Cientista de DadosBig Data, Analytics, Aplicações, Aspectos Práticos e o Cientista de Dados
Big Data, Analytics, Aplicações, Aspectos Práticos e o Cientista de DadosDan S. Reznik, PhD
 
Big Data para Leigos
Big Data para LeigosBig Data para Leigos
Big Data para LeigosPedro Neto
 
Exploracao datawarehouse mineracao_de_dados_ou_olap
Exploracao datawarehouse mineracao_de_dados_ou_olapExploracao datawarehouse mineracao_de_dados_ou_olap
Exploracao datawarehouse mineracao_de_dados_ou_olapKlaytonAlves
 
Big Data e Data Science - Tecnologia e Mercado
Big Data e Data Science - Tecnologia e MercadoBig Data e Data Science - Tecnologia e Mercado
Big Data e Data Science - Tecnologia e MercadoHélio Silva
 
Palestra garimpando com pentaho data mining latinoware
Palestra garimpando com pentaho data mining latinowarePalestra garimpando com pentaho data mining latinoware
Palestra garimpando com pentaho data mining latinowareMarcos Vinicius Fidelis
 
Governança de Dados - Classificação da Informação e Revisão de Permissionamento
Governança de Dados - Classificação da Informação e Revisão de PermissionamentoGovernança de Dados - Classificação da Informação e Revisão de Permissionamento
Governança de Dados - Classificação da Informação e Revisão de PermissionamentoVirtù Tecnológica
 
Governança de Dados e Big Data
Governança de Dados e Big DataGovernança de Dados e Big Data
Governança de Dados e Big DataCarlos Barbieri
 
Palestra: Cientista de Dados – Dominando o Big Data com Software Livre
Palestra: Cientista de Dados – Dominando o Big Data com Software LivrePalestra: Cientista de Dados – Dominando o Big Data com Software Livre
Palestra: Cientista de Dados – Dominando o Big Data com Software LivreAmbiente Livre
 
Pentaho Data Mining - FTSL - Fórum de Tecnologia de Software Livre - Serpro -...
Pentaho Data Mining - FTSL - Fórum de Tecnologia de Software Livre - Serpro -...Pentaho Data Mining - FTSL - Fórum de Tecnologia de Software Livre - Serpro -...
Pentaho Data Mining - FTSL - Fórum de Tecnologia de Software Livre - Serpro -...Marcos Vinicius Fidelis
 
Open Source Data Science - Elaborando uma plataforma de Big Data & Analytics ...
Open Source Data Science - Elaborando uma plataforma de Big Data & Analytics ...Open Source Data Science - Elaborando uma plataforma de Big Data & Analytics ...
Open Source Data Science - Elaborando uma plataforma de Big Data & Analytics ...Ambiente Livre
 
Cientista de Dados – Dominando o Big Data com Software Livre
Cientista de Dados – Dominando o Big Data com Software Livre Cientista de Dados – Dominando o Big Data com Software Livre
Cientista de Dados – Dominando o Big Data com Software Livre Ambiente Livre
 
Pentaho, Hadoop , Big Data e Data Lakes
Pentaho, Hadoop , Big Data e Data LakesPentaho, Hadoop , Big Data e Data Lakes
Pentaho, Hadoop , Big Data e Data LakesAmbiente Livre
 
Ativando Inteligência com Big Data
Ativando Inteligência com Big DataAtivando Inteligência com Big Data
Ativando Inteligência com Big DataHélio Silva
 

Tendances (20)

Big Data, Analytics, Aplicações, Aspectos Práticos e o Cientista de Dados
Big Data, Analytics, Aplicações, Aspectos Práticos e o Cientista de DadosBig Data, Analytics, Aplicações, Aspectos Práticos e o Cientista de Dados
Big Data, Analytics, Aplicações, Aspectos Práticos e o Cientista de Dados
 
Data Lakes com Hadoop e Spark: Agile Analytics na prática
Data Lakes com Hadoop e Spark: Agile Analytics na práticaData Lakes com Hadoop e Spark: Agile Analytics na prática
Data Lakes com Hadoop e Spark: Agile Analytics na prática
 
Big data Workshop
Big data WorkshopBig data Workshop
Big data Workshop
 
Big Data para Leigos
Big Data para LeigosBig Data para Leigos
Big Data para Leigos
 
BigData
BigDataBigData
BigData
 
Treinamento hadoop - dia1
Treinamento hadoop - dia1Treinamento hadoop - dia1
Treinamento hadoop - dia1
 
Exploracao datawarehouse mineracao_de_dados_ou_olap
Exploracao datawarehouse mineracao_de_dados_ou_olapExploracao datawarehouse mineracao_de_dados_ou_olap
Exploracao datawarehouse mineracao_de_dados_ou_olap
 
Big Data e Data Science - Tecnologia e Mercado
Big Data e Data Science - Tecnologia e MercadoBig Data e Data Science - Tecnologia e Mercado
Big Data e Data Science - Tecnologia e Mercado
 
Palestra garimpando com pentaho data mining latinoware
Palestra garimpando com pentaho data mining latinowarePalestra garimpando com pentaho data mining latinoware
Palestra garimpando com pentaho data mining latinoware
 
Governança de Dados - Classificação da Informação e Revisão de Permissionamento
Governança de Dados - Classificação da Informação e Revisão de PermissionamentoGovernança de Dados - Classificação da Informação e Revisão de Permissionamento
Governança de Dados - Classificação da Informação e Revisão de Permissionamento
 
Governança de Dados e Big Data
Governança de Dados e Big DataGovernança de Dados e Big Data
Governança de Dados e Big Data
 
Palestra: Cientista de Dados – Dominando o Big Data com Software Livre
Palestra: Cientista de Dados – Dominando o Big Data com Software LivrePalestra: Cientista de Dados – Dominando o Big Data com Software Livre
Palestra: Cientista de Dados – Dominando o Big Data com Software Livre
 
Jac data management
Jac   data managementJac   data management
Jac data management
 
O que é Data Science?
O que é Data Science?O que é Data Science?
O que é Data Science?
 
Pentaho Data Mining - FTSL - Fórum de Tecnologia de Software Livre - Serpro -...
Pentaho Data Mining - FTSL - Fórum de Tecnologia de Software Livre - Serpro -...Pentaho Data Mining - FTSL - Fórum de Tecnologia de Software Livre - Serpro -...
Pentaho Data Mining - FTSL - Fórum de Tecnologia de Software Livre - Serpro -...
 
Open Source Data Science - Elaborando uma plataforma de Big Data & Analytics ...
Open Source Data Science - Elaborando uma plataforma de Big Data & Analytics ...Open Source Data Science - Elaborando uma plataforma de Big Data & Analytics ...
Open Source Data Science - Elaborando uma plataforma de Big Data & Analytics ...
 
Cientista de Dados – Dominando o Big Data com Software Livre
Cientista de Dados – Dominando o Big Data com Software Livre Cientista de Dados – Dominando o Big Data com Software Livre
Cientista de Dados – Dominando o Big Data com Software Livre
 
Pentaho, Hadoop , Big Data e Data Lakes
Pentaho, Hadoop , Big Data e Data LakesPentaho, Hadoop , Big Data e Data Lakes
Pentaho, Hadoop , Big Data e Data Lakes
 
Ativando Inteligência com Big Data
Ativando Inteligência com Big DataAtivando Inteligência com Big Data
Ativando Inteligência com Big Data
 
Workshop / Meetup: Visão geral sobre Big Data
Workshop / Meetup: Visão geral sobre Big DataWorkshop / Meetup: Visão geral sobre Big Data
Workshop / Meetup: Visão geral sobre Big Data
 

Similaire à Intelligence, Discovery, Analytics e Data Science: Evolução, Desafios e Oportunidades de Carreira

Big Data Analytics - Do MapReduce ao dashboard com Hadoop e Pentaho
Big Data Analytics - Do MapReduce ao dashboard com Hadoop e PentahoBig Data Analytics - Do MapReduce ao dashboard com Hadoop e Pentaho
Big Data Analytics - Do MapReduce ao dashboard com Hadoop e PentahoAmbiente Livre
 
PostgreSQL em projetos de Business Analytics e Big Data Analytics com Pentaho
PostgreSQL em projetos de Business Analytics e Big Data Analytics com PentahoPostgreSQL em projetos de Business Analytics e Big Data Analytics com Pentaho
PostgreSQL em projetos de Business Analytics e Big Data Analytics com PentahoAmbiente Livre
 
Big Data Analytics e Social Mining - Inteligência Em Uma Montanha de Dados?
Big Data Analytics e Social Mining - Inteligência Em Uma Montanha de Dados?Big Data Analytics e Social Mining - Inteligência Em Uma Montanha de Dados?
Big Data Analytics e Social Mining - Inteligência Em Uma Montanha de Dados?Mauricio Cesar Santos da Purificação
 
Pentaho Hadoop Big Data e Data Lakes
Pentaho Hadoop Big Data e Data LakesPentaho Hadoop Big Data e Data Lakes
Pentaho Hadoop Big Data e Data LakesAmbiente Livre
 
Futurecom - Big data
Futurecom - Big dataFuturecom - Big data
Futurecom - Big dataFelipe Ferraz
 
Hackathon Inmetrics e Fiap: Desafios do Big Data
Hackathon Inmetrics e Fiap: Desafios do Big DataHackathon Inmetrics e Fiap: Desafios do Big Data
Hackathon Inmetrics e Fiap: Desafios do Big Datainmetrics
 
Apresentação Seeds to the Cloud - Igor Barreto e Thais Lino, dataRain.pptx
Apresentação Seeds to the Cloud - Igor Barreto e Thais Lino, dataRain.pptxApresentação Seeds to the Cloud - Igor Barreto e Thais Lino, dataRain.pptx
Apresentação Seeds to the Cloud - Igor Barreto e Thais Lino, dataRain.pptxdataRain
 
Aula Magna Sobre BI & BigData na UNIA, Luanda - Angola
Aula Magna Sobre BI & BigData na UNIA, Luanda - AngolaAula Magna Sobre BI & BigData na UNIA, Luanda - Angola
Aula Magna Sobre BI & BigData na UNIA, Luanda - Angolaalexculpado
 
Introdução ao Big Data para Desenvolvedores Python
Introdução ao Big Data para Desenvolvedores PythonIntrodução ao Big Data para Desenvolvedores Python
Introdução ao Big Data para Desenvolvedores PythonLuiz Eduardo Le Masson
 
Bigdata alexandre v2
Bigdata alexandre v2Bigdata alexandre v2
Bigdata alexandre v2alexculpado
 
Big Data: Desafios e Oportunidades
Big Data: Desafios e OportunidadesBig Data: Desafios e Oportunidades
Big Data: Desafios e OportunidadesGabriel Prado
 

Similaire à Intelligence, Discovery, Analytics e Data Science: Evolução, Desafios e Oportunidades de Carreira (20)

Big Data Analytics
Big Data AnalyticsBig Data Analytics
Big Data Analytics
 
Big Data Analytics - Do MapReduce ao dashboard com Hadoop e Pentaho
Big Data Analytics - Do MapReduce ao dashboard com Hadoop e PentahoBig Data Analytics - Do MapReduce ao dashboard com Hadoop e Pentaho
Big Data Analytics - Do MapReduce ao dashboard com Hadoop e Pentaho
 
PostgreSQL em projetos de Business Analytics e Big Data Analytics com Pentaho
PostgreSQL em projetos de Business Analytics e Big Data Analytics com PentahoPostgreSQL em projetos de Business Analytics e Big Data Analytics com Pentaho
PostgreSQL em projetos de Business Analytics e Big Data Analytics com Pentaho
 
Big Data
Big DataBig Data
Big Data
 
Big Data Analytics e Social Mining - Inteligência Em Uma Montanha de Dados?
Big Data Analytics e Social Mining - Inteligência Em Uma Montanha de Dados?Big Data Analytics e Social Mining - Inteligência Em Uma Montanha de Dados?
Big Data Analytics e Social Mining - Inteligência Em Uma Montanha de Dados?
 
Pentaho Hadoop Big Data e Data Lakes
Pentaho Hadoop Big Data e Data LakesPentaho Hadoop Big Data e Data Lakes
Pentaho Hadoop Big Data e Data Lakes
 
Futurecom - Big data
Futurecom - Big dataFuturecom - Big data
Futurecom - Big data
 
Dê Adeus ao BI e Seja Bem Vindo à Era do Analytics...
Dê Adeus ao BI e Seja Bem Vindo à Era do Analytics...Dê Adeus ao BI e Seja Bem Vindo à Era do Analytics...
Dê Adeus ao BI e Seja Bem Vindo à Era do Analytics...
 
Big Data, JVM e Redes Sociais
Big Data, JVM e Redes SociaisBig Data, JVM e Redes Sociais
Big Data, JVM e Redes Sociais
 
Hackathon Inmetrics e Fiap: Desafios do Big Data
Hackathon Inmetrics e Fiap: Desafios do Big DataHackathon Inmetrics e Fiap: Desafios do Big Data
Hackathon Inmetrics e Fiap: Desafios do Big Data
 
Apresentação Seeds to the Cloud - Igor Barreto e Thais Lino, dataRain.pptx
Apresentação Seeds to the Cloud - Igor Barreto e Thais Lino, dataRain.pptxApresentação Seeds to the Cloud - Igor Barreto e Thais Lino, dataRain.pptx
Apresentação Seeds to the Cloud - Igor Barreto e Thais Lino, dataRain.pptx
 
Aula Magna Sobre BI & BigData na UNIA, Luanda - Angola
Aula Magna Sobre BI & BigData na UNIA, Luanda - AngolaAula Magna Sobre BI & BigData na UNIA, Luanda - Angola
Aula Magna Sobre BI & BigData na UNIA, Luanda - Angola
 
Introdução ao Big Data para Desenvolvedores Python
Introdução ao Big Data para Desenvolvedores PythonIntrodução ao Big Data para Desenvolvedores Python
Introdução ao Big Data para Desenvolvedores Python
 
Bigdata alexandre v2
Bigdata alexandre v2Bigdata alexandre v2
Bigdata alexandre v2
 
Ingestão de Dados
Ingestão de DadosIngestão de Dados
Ingestão de Dados
 
Big Data e Hadoop - o poder da informação
Big Data e Hadoop - o poder da informaçãoBig Data e Hadoop - o poder da informação
Big Data e Hadoop - o poder da informação
 
Big Data: Desafios e Oportunidades
Big Data: Desafios e OportunidadesBig Data: Desafios e Oportunidades
Big Data: Desafios e Oportunidades
 
Palestra do BI ao Big Data
Palestra do BI ao Big DataPalestra do BI ao Big Data
Palestra do BI ao Big Data
 
Adeus BI, Seja Bem Vindo a Era do Analytics?
Adeus BI, Seja Bem Vindo a Era do Analytics?Adeus BI, Seja Bem Vindo a Era do Analytics?
Adeus BI, Seja Bem Vindo a Era do Analytics?
 
Bigadata casese opotunidades
Bigadata casese opotunidadesBigadata casese opotunidades
Bigadata casese opotunidades
 

Plus de Mauricio Cesar Santos da Purificação

Plus de Mauricio Cesar Santos da Purificação (20)

R para Iniciantes
R para IniciantesR para Iniciantes
R para Iniciantes
 
Aprendendo R
Aprendendo RAprendendo R
Aprendendo R
 
Pitch AcheSeuEstúdio - Campus Party
Pitch AcheSeuEstúdio - Campus PartyPitch AcheSeuEstúdio - Campus Party
Pitch AcheSeuEstúdio - Campus Party
 
Pitch BestPoint - Campus Party
Pitch BestPoint - Campus PartyPitch BestPoint - Campus Party
Pitch BestPoint - Campus Party
 
Flyer BestPoint
Flyer BestPointFlyer BestPoint
Flyer BestPoint
 
Pitch BestPoint
Pitch BestPointPitch BestPoint
Pitch BestPoint
 
OxenTI - Desenvolvimento de Soluções Inovadoras em TI
OxenTI - Desenvolvimento de Soluções Inovadoras em TIOxenTI - Desenvolvimento de Soluções Inovadoras em TI
OxenTI - Desenvolvimento de Soluções Inovadoras em TI
 
Pitch BestPoint - DemoDay StartupSummer 2015
Pitch BestPoint - DemoDay StartupSummer 2015Pitch BestPoint - DemoDay StartupSummer 2015
Pitch BestPoint - DemoDay StartupSummer 2015
 
BestPoint
BestPointBestPoint
BestPoint
 
Será Mesmo o Cientista de Dados a Profissão do Futuro?
Será Mesmo o Cientista de Dados a Profissão do Futuro?Será Mesmo o Cientista de Dados a Profissão do Futuro?
Será Mesmo o Cientista de Dados a Profissão do Futuro?
 
QlikView In Action - Do BI ao Business Discovery!…
QlikView In Action - Do BI ao Business Discovery!…QlikView In Action - Do BI ao Business Discovery!…
QlikView In Action - Do BI ao Business Discovery!…
 
Derivação de Modelos ER
Derivação de Modelos ERDerivação de Modelos ER
Derivação de Modelos ER
 
Business Intelligence - Prática e Experiências
Business Intelligence - Prática e ExperiênciasBusiness Intelligence - Prática e Experiências
Business Intelligence - Prática e Experiências
 
Inteligência de Negócios e Software Livre
Inteligência de Negócios e Software LivreInteligência de Negócios e Software Livre
Inteligência de Negócios e Software Livre
 
Business Intelligence & Business Analytics
Business Intelligence & Business AnalyticsBusiness Intelligence & Business Analytics
Business Intelligence & Business Analytics
 
Mineração Livre de Dados
Mineração Livre de DadosMineração Livre de Dados
Mineração Livre de Dados
 
Aula - Aspectos Avançados em Modelagem Multidimensional
Aula - Aspectos Avançados em Modelagem MultidimensionalAula - Aspectos Avançados em Modelagem Multidimensional
Aula - Aspectos Avançados em Modelagem Multidimensional
 
Aula - Aplicação de Metodologias/Práticas Ágeis em Projetos de BI
Aula - Aplicação de Metodologias/Práticas Ágeis em Projetos de BIAula - Aplicação de Metodologias/Práticas Ágeis em Projetos de BI
Aula - Aplicação de Metodologias/Práticas Ágeis em Projetos de BI
 
Aula - Metodologias Ágeis
Aula - Metodologias ÁgeisAula - Metodologias Ágeis
Aula - Metodologias Ágeis
 
Aula - Teste de Software
Aula - Teste de SoftwareAula - Teste de Software
Aula - Teste de Software
 

Intelligence, Discovery, Analytics e Data Science: Evolução, Desafios e Oportunidades de Carreira

  • 1. Intelligence, Discovery, Analytics e Data Science: Evolução, Desafios e Oportunidades de Carreira
  • 2. Mauricio C. Purificação Consultor de Business Intelligence (BI), Data Discovery e Business Analytics, palestrante, instrutor das suítes Pentaho, QlikView e Qlik Sense; Líder Técnico do Projeto de BI do Hospital Cárdio Pulmonar da Bahia; Mestrando em Engenharia de Sistemas e Produtos (IFBA); MBA em Administração/Gestão de Negócios - Universidade Salvador (UNIFACS); Bacharel em Ciência da Computação - Universidade Federal da Bahia (UFBA); Pesquisador nas áreas de Business Intelligence, Business Analytics, Big Data, Mineração de Dados, Inteligência Artificial e Modelos Preditivos. http://lattes.cnpq.br/3312807554334758
  • 3. Por Quê Analisar Dados? "O sucesso das organizações depende das pessoas e da utilização inteligente da informação disponível" Peter Drucker
  • 4. Por Quê Analisar Dados? A cultura de mensuração, monitoramento e análise de informações para embasar a tomada de decisões sempre foi uma das grandes aliadas dos gestores.
  • 7. Linha do Tempo 1960 1970 1980 1990 2000
  • 8. Business Intelligence “BI é o uso da informação que permite às organizações melhor decidir, medir, gerir e otimizar o desempenho para ganhar eficiência e benefício financeiro.” Instituto Gartner
  • 13.
  • 14.
  • 15. Novos Padrões de Armazenamento de Dados 2009 Redis Initial Release 2004 2006 2007 2008 2009 2011 2012 2013 2014 2007 MongoDB Started, Neo4J Initial Release 2004 Google’s Map Reduce Paper Published 2012 Google Spanner Paper Published 1998 1998 NoSQL coined 2006 Hadoop Started 2008 Apache Hbase, Apache Cassandra
  • 16.
  • 17.
  • 18.
  • 19. Big Data “Big Data é como sexo na adolescência: todo mundo fala, ninguém realmente sabe como fazer, todo mundo pensa que todo mundo está fazendo, então todo mundo diz que está fazendo.” Dan Ariely, Duke University
  • 20. 3 V’s do Big Data
  • 21.
  • 22.
  • 23.
  • 24. Big Data “Assim como a filosofia não é sobre palavras, Big Data não é sobre dados. Big Data é sobre o valor e significado que podem ser extraídos dos dados.”
  • 25. Big Data “Big data é a fronteira da habilidade de uma empresa em armazenar, processar e acessar todos os dados que ela precisa para operar efetivamente, tomar decisões, reduzir riscos e atender aos clientes.” Forrester
  • 27. Big Data Analytics “Embora eventos futuros tenham circunstâncias únicas, eles normalmente seguem padrões familiares que já ocorreram. Os avanços na computação, armazenamento de dados e algoritmos permitem que esses padrões possam ser encontrados. Kira Radinsky - CTO e cofundadora da SalesPredict
  • 28.
  • 35.
  • 41. Hadoop Ecosystem ZooKeeper - ZooKeeper é um serviço de coordenação distribuída para gerenciar grandes conjuntos de Clusters; Oozie - Apache Oozie é um sistema de agendamento de WorkFlow, usado para gerenciar principalmente os Jobs de MapReduce; Pig - Apache Pig, é uma linguagem de procedimentos de alto nível para consultar grandes conjuntos de dados semiestruturados usando Hadoop e a Plataforma MapReduce; Sqoop - Apache Sqoop, é um projeto do ecossistema Hadoop, cuja responsabilidade é importar e exportar dados do banco de dados de dados relacionais; Spark - Apache Spark, é uma ferramenta Big Data para o processamento de grandes conjuntos de dados. Foi desenvolvido para substituir o MapReduce, pois processa 100x mais rápido que o MapReduce; Hbase - Apache Hbase, é um banco de Dados não relacionais, projetado para trabalhar com grande conjunto de dados (Big Data). É o banco de dados oficial do hadoop.
  • 42. Hadoop Ecosystem Flume - Apache Flume, é um serviço que permite enviar dados diretamente para o HDFS. É um serviço que funciona em ambiente distribuído (em cluster) para coletar, agregar e mover grandes quantidades de dados de forma eficiente; Mahout - Apache Mahout, é dedicado a Machine Learning – Data Science. Ele permite a utilização dos principais algoritmos de clustering, testes de regressão e modelagem estatística; Kafka - Apache Kafka, é foi desenvolvido pelo Linkedin e liberado como projeto OpenSource em 2011. O Apache Kafka é um sistema para gerenciamento de fluxo de dados em tempo real, gerados a partir de websites, aplicações e sensores; Ambari - Apache Ambari tem como objetivo tornar o gerenciamento do Hadoop mais simples. O Ambari fornece uma interface de usuário da Web de gerenciamento do Hadoop intuitiva e fácil de usar.
  • 44.