2. Mauricio C. Purificação
Consultor de Business Intelligence (BI), Data Discovery e Business Analytics,
palestrante, instrutor das suítes Pentaho, QlikView e Qlik Sense;
Líder Técnico do Projeto de BI do Hospital Cárdio Pulmonar da Bahia;
Mestrando em Engenharia de Sistemas e Produtos (IFBA);
MBA em Administração/Gestão de Negócios - Universidade Salvador (UNIFACS);
Bacharel em Ciência da Computação - Universidade Federal da Bahia (UFBA);
Pesquisador nas áreas de Business Intelligence, Business Analytics, Big Data,
Mineração de Dados, Inteligência Artificial e Modelos Preditivos.
http://lattes.cnpq.br/3312807554334758
3. Por Quê Analisar Dados?
"O sucesso das organizações depende das pessoas e da
utilização inteligente da informação disponível"
Peter Drucker
4. Por Quê Analisar Dados?
A cultura de mensuração, monitoramento e análise de
informações para embasar a tomada de decisões sempre
foi uma das grandes aliadas dos gestores.
8. Business Intelligence
“BI é o uso da informação que permite às organizações melhor
decidir, medir, gerir e otimizar o desempenho para ganhar
eficiência e benefício financeiro.”
Instituto Gartner
15. Novos Padrões de Armazenamento de
Dados
2009
Redis Initial Release
2004 2006 2007 2008 2009 2011 2012 2013 2014
2007
MongoDB Started,
Neo4J Initial Release
2004
Google’s Map Reduce
Paper
Published
2012
Google Spanner Paper
Published
1998
1998
NoSQL coined
2006
Hadoop
Started
2008
Apache Hbase,
Apache Cassandra
16.
17.
18.
19. Big Data
“Big Data é como sexo na adolescência: todo mundo fala, ninguém
realmente sabe como fazer, todo mundo pensa que todo mundo está
fazendo, então todo mundo diz que está fazendo.”
Dan Ariely, Duke University
24. Big Data
“Assim como a filosofia não é sobre palavras, Big Data não é sobre
dados. Big Data é sobre o valor e significado que podem ser extraídos
dos dados.”
25. Big Data
“Big data é a fronteira da habilidade de uma empresa em armazenar,
processar e acessar todos os dados que ela precisa para operar
efetivamente, tomar decisões, reduzir riscos e atender aos clientes.”
Forrester
27. Big Data Analytics
“Embora eventos futuros tenham circunstâncias únicas, eles
normalmente seguem padrões familiares que já ocorreram. Os avanços
na computação, armazenamento de dados e algoritmos permitem que
esses padrões possam ser encontrados.
Kira Radinsky - CTO e cofundadora da SalesPredict
41. Hadoop Ecosystem
ZooKeeper - ZooKeeper é um serviço de coordenação distribuída para gerenciar
grandes conjuntos de Clusters;
Oozie - Apache Oozie é um sistema de agendamento de WorkFlow, usado para
gerenciar principalmente os Jobs de MapReduce;
Pig - Apache Pig, é uma linguagem de procedimentos de alto nível para consultar
grandes conjuntos de dados semiestruturados usando Hadoop e a Plataforma
MapReduce;
Sqoop - Apache Sqoop, é um projeto do ecossistema Hadoop, cuja
responsabilidade é importar e exportar dados do banco de dados de dados
relacionais;
Spark - Apache Spark, é uma ferramenta Big Data para o processamento de
grandes conjuntos de dados. Foi desenvolvido para substituir o MapReduce, pois
processa 100x mais rápido que o MapReduce;
Hbase - Apache Hbase, é um banco de Dados não relacionais, projetado para
trabalhar com grande conjunto de dados (Big Data). É o banco de dados oficial do
hadoop.
42. Hadoop Ecosystem
Flume - Apache Flume, é um serviço que permite enviar dados diretamente para o
HDFS. É um serviço que funciona em ambiente distribuído (em cluster) para
coletar, agregar e mover grandes quantidades de dados de forma eficiente;
Mahout - Apache Mahout, é dedicado a Machine Learning – Data Science. Ele
permite a utilização dos principais algoritmos de clustering, testes de regressão e
modelagem estatística;
Kafka - Apache Kafka, é foi desenvolvido pelo Linkedin e liberado como projeto
OpenSource em 2011. O Apache Kafka é um sistema para gerenciamento de fluxo
de dados em tempo real, gerados a partir de websites, aplicações e sensores;
Ambari - Apache Ambari tem como objetivo tornar o gerenciamento do Hadoop
mais simples. O Ambari fornece uma interface de usuário da Web de
gerenciamento do Hadoop intuitiva e fácil de usar.