Marcio Junior Vieira apresenta sobre Big Data e Analytics utilizando ferramentas de código aberto como Hadoop e Pentaho. Ele discute os desafios do Big Data, como começar com o problema e não os dados, e recomenda compartilhar dados para receber dados. Marcio também fala sobre as tendências como cientistas de dados cidadãos e como o Big Data é revolucionário assim como o Linux foi em 1991.
1. Big Data & Analytics - Do MapReduce ao
Dashboard com Hadoop e Pentaho.
Palestrante: Marcio Junior Vieira
marcio@ambientelivre.com.br
2.
Marcio Junior Vieira
● 15 anos de experiência em informática, vivência em desenvolvimento e
análise de sistemas de Gestão empresarial.
●
Trabalhando com Software Livre desde 2000 com serviços de consultoria e
treinamento.
● Graduado em Tecnologia em Informática(2004) e pós-graduado em
Software Livre(2005) ambos pela UFPR.
● Palestrante em diversos Congressos relacionados a Software Livre tais
como: CONISLI, SOLISC, FISL, LATINOWARE, SFD, JDBR, Campus Party,
Pentaho Day.
● Organizador Geral do Pentaho Day 2015 e apoio nas edições 2013 e 2014.
● Fundador da Ambiente Livre Tecnologia.
● Instrutor de Big Data - Hadoop e Pentaho
19.
Hadoop
●
O Apache Hadoop é um projeto de software open-source escrito
em Java. Escalável, confiável e com processamento distribuído.
●
Filesystem Distribuído
● Inspirado Originalmente pelo GFS e MapReduce da Google
( Modelo de programação MapReduce)
●
Utiliza-se de Hardware Comum ( Commodity cluster computing )
● Framework para computação distribuída
●
infraestrutura confiável capaz de lidar com falhas ( hardware,
software, rede )
20.
Distribuições Hadoop
● Open Source
Apache
● Comercial
Open Source
- Cloudera
- HortonWorks
- MapR
- AWS MapReduce
23.
HDFS - Replicação
● Dados de entrada é copiado para HDFS é
dividido em blocos e cada blocos de dados é
replicado para várias máquinas
24.
MapReduce
● É um modelo de programação desenhado
para processar grandes volumes de dados em
paralelo, dividindo o trabalho em um conjunto
de tarefas independentes.
27.
Java MapReduce
● package org.myorg;
● 2.
●
3. import java.io.IOException;
● 4. import java.util.*;
● 5.
● 6. import org.apache.hadoop.fs.Path;
● 7. import org.apache.hadoop.conf.*;
●
8. import org.apache.hadoop.io.*;
● 9. import org.apache.hadoop.mapred.*;
● 10. import org.apache.hadoop.util.*;
●
11.
● 12. public class WordCount {
● 13.
● 14. public static class Map extends MapReduceBase implements Mapper<LongWritable, Text, Text, IntWritable> {
● 15. private final static IntWritable one = new IntWritable(1);
●
16. private Text word = new Text();
● 17.
● 18. public void map(LongWritable key, Text value, OutputCollector<Text, IntWritable> output, Reporter reporter) throws
IOException {
28.
Business Analitycs
● É a prática interativa de exploração, metódica de dados de
uma organização com ênfase na análise estatística
● Obter conhecimento e conduzir o planejamento de negócios
● Em contraste, ao BI centra-se em usar um conjunto
consistente de métricas para ambas medida do
planejamento de desempenho passado.
● Intimamente relacionada com a Ciência da Administração
● Pode ser usado como entrada para as decisões humanas
ou tomar decisões totalmente automatizados
29.
Tomada de Decisão
● 1 em cada 3 gestores tomam decisão com base em
informações que não confiam ou não tem
● 56% sentem sobrecarregados com a quantidade de
dados que gerenciam
● 60% acreditam que precisam melhorar captura e
entender informações rapidamente.
● 83% apontam que BI & analytics fazem parte de
seus planos para aumentar a competitividade
fonte : Survey KPMG.
30.
● Solução de Business Intelligence e Business
Analytics Open Source.
● Community Edition
● Solução completa com ETL, Reporting, Data
Mining, Analise Preditiva, OLAP, Dashbards e
Big Data Analytics.
31.
Pentaho
● É uma plataforma abrangente para integração
de dados e Business Analytics.
33.
Comunidade Brasileira
● Maior comunidade do Mundo!
● Lista de Discussão com + de 1700 membros
● Organiza a 5 anos o Pentaho Day Brasil
● Composta por desenvolvedores, usuários , empresas e
acadêmia.
● Utilizado em mais de 185 países.
● +10.000 Produtos desenvolvidos sobre a plataforma Pentaho.
● + 4 milhões de Downloads
● Em 2015 +- 60.000 downloads dia
53.
Principais desafios
● O Big Data não envolve só mudança de tecnologia, envolve
adaptação de processos e treinamento relacionado à mudança de
gestão e analise de dados ( MERITALK BIG DATA EXCHANGE, 2013)
● A maioria dos lideres não seba lidar com essa grande variedade e
quantidade de informações, e não tem conhecimento dos benefícios
que uma analise bem feita destas dados poderia trazer ao seu
negocio( COMPUTERWORLD, 2012)
● Falta da cultura: a maioria das empresas não fazem um bom trabalho
com as informações que já tem.
● Desafios dos Os 5 V !
● Privacidade, A identidade do usuário, mesmo preservada pode ser
buscada... ( Marco Civil da Internet )
54.
Recomendações
● Comece com o problema , e não com os
dados
● Compartilhe dados para receber dados
● Suporte gerencial e executivo
● Orçamento suficiente
● Melhores parceiros e fornecedores
55.
Big Data
● “Big Data hoje é o que era a
Linux em 1991.
● Sabemos que será algo
revolucionário, mas não
sabemos o quanto...”