SlideShare une entreprise Scribd logo
1  sur  32
O que é Big Data ?
Palestra Apresentada no PythonRio Junho/2016
Palestra Apresentada no PythonRio Junho/2016
O que é Big Data ?
O objetivo desta palestra é apresentar o que é o Big Data, suas principais
características além do perfil do profissional desta área.
Ao longo da apresentação busco mostrar como é possível criar projetos
de grande valor organizacional. Além de
compartilhar um código-fonte de fácil entendimento que ja tornaria possível
gerar ótimos resultados com poucos conhecimentos
Também deixa minha explícita minha convicção que o valor não está no Big Data em si
mas sim na cultura de abordagem sistêmica através de matemática e estatística que
oferece o poder de extração de dados a partir de dados e geração de informação
Hacker & Data Enthusiast
Coursera Beta Tester in Big Data
Data Engineer at Holis/Personare
+20 years in Software Development
BASIC, PASCAL, C, JAVA, PHP, PYTHON, R
Contatos:
https://br.linkedin.com/in/edulemasson
https://github.com/edulemasson/
eduardolemasson@midiahome.com.br
Eduardo Le Masson
É O CAOS
O que é Big Data ?
Fontes de dados de diversas origens, formas, estruturas diferentes
e até mesmo sem nenhuma estrutura definida.
O que é Big Data ?
Mindset : “Work will be always 3% done”
● Tecnologias Mudam a todo instante
● Busca contínua da melhor performance
● Novos Desafios com o aumento dos dados
● Necessidade de ajustar algoritmos
Dirigido à Escalabilidade horizontal
Já não é mais possível elevar o hardware
de uma única máquina para suportar a alta
demanda por desempenho/volume/tráfego
O que é Big Data ?
-Volume
-Velocidade
-Variedade
-Veracidade
-Valor
O que é Big Data ?
Os 5 VÊS do Big Data
-Volume
-Velocidade
-Variedade
-Veracidade
-Valor
O que é Big Data ?
Capacidade de lidar com grande
volume de dados. Tanto em
armazenamento como
processamento além de ser
escalável
Os 5 VÊS do Big Data
-Volume
-Velocidade
-Variedade
-Veracidade
-Valor
O que é Big Data ?
Tempo de Resposta dentro do
necessário de acordo com a
regra de negócio. Suportar alta
demanda.
Os 5 VÊS do Big Data
-Volume
-Velocidade
-Variedade
-Veracidade
-Valor
O que é Big Data ?
Habilidade de se adaptar. Seja em
termos de infraestrutura elástica,
A tipos de dados e sua
multiplicidade de origens.
Diversas formas de Codificação
Os 5 VÊS do Big Data
-Volume
-Velocidade
-Variedade
-Veracidade
-Valor
O que é Big Data ?
Mecanismos de pré-
processamento e padronização.
Utilização de metodologias
científicas e mecanismos de
reprodutibilidade do processo.
Os 5 VÊS do Big Data
-Volume
-Velocidade
-Variedade
-Veracidade
-Valor
O que é Big Data ?
Os 5 VÊS do Big Data
A União de todas estas
características têm foco na
entrega de valor: às organizações,
clientes, sociedade, pesquisas
acadêmicas
O profissional Big Data
O profissional de Big Data pode atuar em diversas área de especialidade, no entanto,
cada vez fala-se que unir uma pessoa com tantas skills é um mito.
Como “big data” têm suas bases em processos científcos temos visto cada vez mais
a aproximação de acadêmicos e as organizações.
Mas é possível criar dentro da empresa
uma cultura de pesquisa e
Desenvolvimento.
Não é preciso ser um cientista ou
contratar uma consultoria para trazer
ótimos resultados com aplicações
que se utilizam do estado da arte.
O termo estado da arte, na ciência,
Trata de metodologias que já estão
consolidadas e amplamente
experimentadas pelo meio
acadêmio/científico.
CONCEITO DE DADOS:
- Um DATA MODEL: Coleção de conceitos descritivos do dado
- Um Schema: É uma descrição de um grupo específico de
dados dado um modelo
ESPECTRO ESTRUTURAL
- Estruturado (shema-first)
- Semi-estruturado (schema-later)
- Não-estruturado (schema-never)
Afinal, o que são dados?
SYSTEM GENERATED DATA (Temporais, Estatísticos)
Cliques
Impressão de Banners
Evento de Pagamento
Avançar, Play, Stop
Requests
Trasações
Mensagens de Rede
Webserver Logs
A origem dos dados
Dados gerados ações e publicações de pessoas:
Facebook,
Instagram,
Twitter,
Youtube,
Linkedin
Pesquisas no Google
A origem dos dados
RESEARCH DATA
Dados de Saúde
Computação Científica
Colisão de Hádrons
Desenvolvimento de Drogas
Estatísticas populacionais
Metereologia
A origem dos dados
GRAPH DATA (Abstracted Data Type)
- Relacionamento de Pessoas, coisas etc
- Redes de Telecomunicação
- Redes de Estradas
- Plataformas de Colaboração
A origem dos dados
INTERNET OF THINGS
- Sensores
- TAGS de Estacionamento/Pedágio
- Estações Metereológicas
- Unidades de Autoatendimento
A origem dos dados
Era da Informação
Era das Features
x
Paradoxo
Era da Informação
Paradoxo
Prefiro chamar de Era da Informatização.
Pensava-se nos dados como informações completas.
Os sistemas basicamente se resumiam ao aspecto CRUD (Ler, Escrever, Editar e Apagar)
O volume de dados era na verdade um problema e uma das complexidades era modelar
a estrutura que esses dados deveriam ter. Pois o estado da arte era o uso de banco de dados
Relacionais.
Quem mais tinha acesso aos dados não era quem deveria analisar os dados e sim a pessoa
Responsável por armazená-los e realizar o tunning do banco, o DBA. Se você fizesse uma query
Pesada demais, ainda tomava uma bronca.
Era das Features
Paradoxo
A verdadeira Era da Informação.
O valor dos dados está associado ao que se extrai desses dados e na habilidade
em transformá-los em informações que ofereçam vantagens estratégicas,
ferramentas inovadoras, compreenção de como se relacionam e comportam
O volume de dados era não é mais o problema.
O barateamento e elasticidadede da infraestrutura tornou possível processá-los de forma nunca
antes vista na história.
O crescimento da indústria OpenSource trouxe liberdade para as organizações e a redução
dos custos.
●Extração de Informação
●Medir Distância/Aproximação de fatos/eventos
●Relacionar uma coisa à outra
●Correlacionar Causalidade
●Inferir
●Estudar comportamentos
O que são Features
As features são as características de um dado, uma coisa, um evento ou pessoa e
Analisar os dados nesta nova dimensão possibilita entre outras coisas:
informação
As Features de um BigMac
Vamos por exemplo observar o que compõe o sanduíche:
Podemos dizer que estes ingredientes são suas features intrínsecas.
Mas será que existem outras features um pouco mais abstratas para esta mesma coisa?
R: Qualidade, Sabor, Saúde, Preço, Unidades vendidas, Unidades Produzidas, Países
Um bom cientista de dados consegue fazer as perguntas certas sendo criativo.
Esta criatividade provém da análise exploratória e seus insights.
O Google Images, indexa as imagens da web através
dos termos mais relevantes de um documento.
A extração de features em texto se utiliza de algoritimos de:
Scrap, Text Mining, Tokenização, TF e TF-IDF
Estudo de Caso
O texto presente em um documento, torna-se os atributos da imagem que está lá.
Porém é necessário saber quais são as palavras ou termos que são mais importantes
e podem diferenciá-la das demais. Isto é, quais são os termos relevantes.
Matriz de Preferências (features) de compras de alguns usuários
Estudo de Caso
Um sistema de recomendação colaborativo funciona descobrindo a similaridade
entre a pessoas a partir da uma amostra de suas preferências.
É possível construir sistemas que recomendem em realTime produtos que
possuem características interessantes à você baseando-se nas pessoas
com gostos similares.
Inferência Estatística
Podemos relacionar um vetor de pessoas e suas features e descobrir
quem possui maior grau de similaridade com determinada pessoa.
Correlação de Pearson:
Distância Euclidiana:
Grau de Similaridade
Carol x Carol -> 1.0
Carol x Rodrigo -> 0.924473451642
Carol x Fernanda -> 0.991240707162
Carol x Pedro -> 0.893405147442
Carol x Bruno -> 0.66284898036
Carol x Eduardo -> 0.381246425832
Carol x Caue -> -1.0
Ranking de Pessoas com Similariade:
(3.34, 'Cebola')
(2.83, 'Beterraba')
(2.53, 'Couve')
Ranking dos Produtos Recomendados:
Estamos Inferindo o quanto a Carol
gostaria dos produtos que ela não consumiu
- Recomendação de produtos em tempo real
- Recomendação de amigos
- E-mail Marketing personalizado um a um
- Conhecer melhor o perfil de cada cliente
- Melhorar o relacionamento com cliente
- Criar promoções específicas para um usuário
- Aumentar tempo médio de permanência no site
Possibilidades
Utilizando os recursos estatísticos apresentados é possível criar:
Mostre-me o Código!
Repositório GIT com código-fonte em Python
Utilizado apenas a biblioteca nativa MATH para permitir
claro entendimento dos algorítimos utilizados.
A sintaxe está bem didática
https://github.com/edulemasson/colaborative_recommender
- Coursera (Maiores Universidades do Mundo)
https://www.coursera.org/browse/data-science
- EDX – Data Science Engineering with Apache SPARK
https://www.edx.org/xseries/data-science-engineering-apache-spark
- Kaagle – Dados, Desafios e Códigos
https://www.kaggle.com/
- Machine Learning IBM NLTK
http://www.ibm.com/developerworks/br/library/os-pythonnltk/
- Udacity Intro (Data Analisys, Science, Statistics, ML)
https://br.udacity.com/course/data-analyst-nanodegree--nd002
Para saber mais
Cursos Gratuitos:
https://br.linkedin.com/in/edulemasson
https://github.com/edulemasson/
eduardolemasson@midiahome.com.br
Obrigado
Contatos:

Contenu connexe

Tendances

Big data: Conceitos e Desafios
Big data: Conceitos e DesafiosBig data: Conceitos e Desafios
Big data: Conceitos e DesafiosFlávio Sousa
 
Palestra big data_e_mineracao_dedados_5agosto13-versaoslideshare
Palestra big data_e_mineracao_dedados_5agosto13-versaoslidesharePalestra big data_e_mineracao_dedados_5agosto13-versaoslideshare
Palestra big data_e_mineracao_dedados_5agosto13-versaoslidesharepccdias
 
Big data Instituto Big Data Brasil Crie
Big data Instituto Big Data Brasil CrieBig data Instituto Big Data Brasil Crie
Big data Instituto Big Data Brasil CrieMarcos CAVALCANTI
 
Governança de Dados e Big Data
Governança de Dados e Big DataGovernança de Dados e Big Data
Governança de Dados e Big DataCarlos Barbieri
 
OS CINCO Vs DO BIG DATA
OS CINCO Vs DO BIG DATAOS CINCO Vs DO BIG DATA
OS CINCO Vs DO BIG DATALeonardo Dias
 
Big Data Analytics e Social Mining - Inteligência Em Uma Montanha de Dados?
Big Data Analytics e Social Mining - Inteligência Em Uma Montanha de Dados?Big Data Analytics e Social Mining - Inteligência Em Uma Montanha de Dados?
Big Data Analytics e Social Mining - Inteligência Em Uma Montanha de Dados?Mauricio Cesar Santos da Purificação
 
Big Data e Governança de Dados, via DMM-Data Management Maturiy Model
Big Data e Governança de Dados, via DMM-Data Management Maturiy ModelBig Data e Governança de Dados, via DMM-Data Management Maturiy Model
Big Data e Governança de Dados, via DMM-Data Management Maturiy ModelCarlos Barbieri
 
Big Data Analytics -- Projetos e Modelo de Maturidade
Big Data Analytics -- Projetos e Modelo de MaturidadeBig Data Analytics -- Projetos e Modelo de Maturidade
Big Data Analytics -- Projetos e Modelo de MaturidadeDan S. Reznik, PhD
 
BIG DATA/ANALYTICS : EDUCATION AND MANAGEMENT OF DATA SCIENTISTS
BIG DATA/ANALYTICS : EDUCATION AND MANAGEMENT OF DATA SCIENTISTSBIG DATA/ANALYTICS : EDUCATION AND MANAGEMENT OF DATA SCIENTISTS
BIG DATA/ANALYTICS : EDUCATION AND MANAGEMENT OF DATA SCIENTISTSVivaldo Jose Breternitz
 
O que é BIG DATA e como pode influenciar nossas vidas
O que é BIG DATA e como pode influenciar nossas vidasO que é BIG DATA e como pode influenciar nossas vidas
O que é BIG DATA e como pode influenciar nossas vidasElaine Naomi
 

Tendances (13)

Big data: Conceitos e Desafios
Big data: Conceitos e DesafiosBig data: Conceitos e Desafios
Big data: Conceitos e Desafios
 
Palestra big data_e_mineracao_dedados_5agosto13-versaoslideshare
Palestra big data_e_mineracao_dedados_5agosto13-versaoslidesharePalestra big data_e_mineracao_dedados_5agosto13-versaoslideshare
Palestra big data_e_mineracao_dedados_5agosto13-versaoslideshare
 
Big data Instituto Big Data Brasil Crie
Big data Instituto Big Data Brasil CrieBig data Instituto Big Data Brasil Crie
Big data Instituto Big Data Brasil Crie
 
Governança de Dados e Big Data
Governança de Dados e Big DataGovernança de Dados e Big Data
Governança de Dados e Big Data
 
OS CINCO Vs DO BIG DATA
OS CINCO Vs DO BIG DATAOS CINCO Vs DO BIG DATA
OS CINCO Vs DO BIG DATA
 
Big Data
Big DataBig Data
Big Data
 
Big Data Analytics e Social Mining - Inteligência Em Uma Montanha de Dados?
Big Data Analytics e Social Mining - Inteligência Em Uma Montanha de Dados?Big Data Analytics e Social Mining - Inteligência Em Uma Montanha de Dados?
Big Data Analytics e Social Mining - Inteligência Em Uma Montanha de Dados?
 
Big Data e Governança de Dados, via DMM-Data Management Maturiy Model
Big Data e Governança de Dados, via DMM-Data Management Maturiy ModelBig Data e Governança de Dados, via DMM-Data Management Maturiy Model
Big Data e Governança de Dados, via DMM-Data Management Maturiy Model
 
Big Data Analytics -- Projetos e Modelo de Maturidade
Big Data Analytics -- Projetos e Modelo de MaturidadeBig Data Analytics -- Projetos e Modelo de Maturidade
Big Data Analytics -- Projetos e Modelo de Maturidade
 
Big Data SENAC
Big Data SENACBig Data SENAC
Big Data SENAC
 
Big Data e Hadoop - o poder da informação
Big Data e Hadoop - o poder da informaçãoBig Data e Hadoop - o poder da informação
Big Data e Hadoop - o poder da informação
 
BIG DATA/ANALYTICS : EDUCATION AND MANAGEMENT OF DATA SCIENTISTS
BIG DATA/ANALYTICS : EDUCATION AND MANAGEMENT OF DATA SCIENTISTSBIG DATA/ANALYTICS : EDUCATION AND MANAGEMENT OF DATA SCIENTISTS
BIG DATA/ANALYTICS : EDUCATION AND MANAGEMENT OF DATA SCIENTISTS
 
O que é BIG DATA e como pode influenciar nossas vidas
O que é BIG DATA e como pode influenciar nossas vidasO que é BIG DATA e como pode influenciar nossas vidas
O que é BIG DATA e como pode influenciar nossas vidas
 

En vedette

Aprender a escuchar a nuestros hijos
Aprender a escuchar a nuestros hijosAprender a escuchar a nuestros hijos
Aprender a escuchar a nuestros hijosnorbilis
 
ICSE 2016 - Overcoming Open Source Project Entry Barriers with a Portal for N...
ICSE 2016 - Overcoming Open Source Project Entry Barriers with a Portal for N...ICSE 2016 - Overcoming Open Source Project Entry Barriers with a Portal for N...
ICSE 2016 - Overcoming Open Source Project Entry Barriers with a Portal for N...Igor Steinmacher
 
Opening session: excerpt of Antonia's presentation
Opening session: excerpt of Antonia's presentationOpening session: excerpt of Antonia's presentation
Opening session: excerpt of Antonia's presentation100005808731739
 
Macro economics #1_gdp_is
Macro economics #1_gdp_isMacro economics #1_gdp_is
Macro economics #1_gdp_isooeyoshinori
 
Motores eléctricos
Motores eléctricosMotores eléctricos
Motores eléctricosDiego López
 
Reading Park by Zehra Kibar
Reading Park by Zehra KibarReading Park by Zehra Kibar
Reading Park by Zehra Kibarzehrakibar
 
Periodontal indices final
Periodontal indices finalPeriodontal indices final
Periodontal indices finalshekhar star
 
Diapositivas tableros elèctricos
Diapositivas tableros elèctricosDiapositivas tableros elèctricos
Diapositivas tableros elèctricoshugo rodriguez
 
Creating an Agile Marketing Framework - Centerline Digital - Version 1 - Marc...
Creating an Agile Marketing Framework - Centerline Digital - Version 1 - Marc...Creating an Agile Marketing Framework - Centerline Digital - Version 1 - Marc...
Creating an Agile Marketing Framework - Centerline Digital - Version 1 - Marc...Centerline Digital
 

En vedette (16)

Economics Tuition
Economics TuitionEconomics Tuition
Economics Tuition
 
семейный бизнес
семейный бизнессемейный бизнес
семейный бизнес
 
Billing for Subscriptions
Billing for SubscriptionsBilling for Subscriptions
Billing for Subscriptions
 
Aprender a escuchar a nuestros hijos
Aprender a escuchar a nuestros hijosAprender a escuchar a nuestros hijos
Aprender a escuchar a nuestros hijos
 
curs
curscurs
curs
 
ICSE 2016 - Overcoming Open Source Project Entry Barriers with a Portal for N...
ICSE 2016 - Overcoming Open Source Project Entry Barriers with a Portal for N...ICSE 2016 - Overcoming Open Source Project Entry Barriers with a Portal for N...
ICSE 2016 - Overcoming Open Source Project Entry Barriers with a Portal for N...
 
Good Impression
Good ImpressionGood Impression
Good Impression
 
Opening session: excerpt of Antonia's presentation
Opening session: excerpt of Antonia's presentationOpening session: excerpt of Antonia's presentation
Opening session: excerpt of Antonia's presentation
 
Macro economics #1_gdp_is
Macro economics #1_gdp_isMacro economics #1_gdp_is
Macro economics #1_gdp_is
 
Motores eléctricos
Motores eléctricosMotores eléctricos
Motores eléctricos
 
Reading Park by Zehra Kibar
Reading Park by Zehra KibarReading Park by Zehra Kibar
Reading Park by Zehra Kibar
 
Dental Caries
Dental CariesDental Caries
Dental Caries
 
Periodontal indices final
Periodontal indices finalPeriodontal indices final
Periodontal indices final
 
Diapositivas tableros elèctricos
Diapositivas tableros elèctricosDiapositivas tableros elèctricos
Diapositivas tableros elèctricos
 
Gift Certificates with Hitachi Solutions Ecommerce
Gift Certificates with Hitachi Solutions EcommerceGift Certificates with Hitachi Solutions Ecommerce
Gift Certificates with Hitachi Solutions Ecommerce
 
Creating an Agile Marketing Framework - Centerline Digital - Version 1 - Marc...
Creating an Agile Marketing Framework - Centerline Digital - Version 1 - Marc...Creating an Agile Marketing Framework - Centerline Digital - Version 1 - Marc...
Creating an Agile Marketing Framework - Centerline Digital - Version 1 - Marc...
 

Similaire à Introdução ao Big Data para Desenvolvedores Python

Big Data: Desafios e Oportunidades
Big Data: Desafios e OportunidadesBig Data: Desafios e Oportunidades
Big Data: Desafios e OportunidadesGabriel Prado
 
Data Science - A arte de estudar e analisar dados
Data Science - A arte de estudar e analisar dadosData Science - A arte de estudar e analisar dados
Data Science - A arte de estudar e analisar dadosDayane Cristine Leite
 
Curso Business Analytics.pdf
Curso Business Analytics.pdfCurso Business Analytics.pdf
Curso Business Analytics.pdfLuiz Alves
 
Intelligence, Discovery, Analytics e Data Science: Evolução, Desafios e Oport...
Intelligence, Discovery, Analytics e Data Science: Evolução, Desafios e Oport...Intelligence, Discovery, Analytics e Data Science: Evolução, Desafios e Oport...
Intelligence, Discovery, Analytics e Data Science: Evolução, Desafios e Oport...Mauricio Cesar Santos da Purificação
 
AI & Big Data - Personalização da Jornada - PicPay - TDC
AI & Big Data - Personalização da Jornada - PicPay - TDCAI & Big Data - Personalização da Jornada - PicPay - TDC
AI & Big Data - Personalização da Jornada - PicPay - TDCRenan Moreira de Oliveira
 
Bsides2018 - Daniel lima - palestra data science
Bsides2018 - Daniel lima - palestra data scienceBsides2018 - Daniel lima - palestra data science
Bsides2018 - Daniel lima - palestra data scienceDaniel Oliveira de Lima
 
Bigdata alexandre v2
Bigdata alexandre v2Bigdata alexandre v2
Bigdata alexandre v2alexculpado
 
Palestra garimpando com pentaho data mining latinoware
Palestra garimpando com pentaho data mining latinowarePalestra garimpando com pentaho data mining latinoware
Palestra garimpando com pentaho data mining latinowareMarcos Vinicius Fidelis
 
Aula Magna Sobre BI & BigData na UNIA, Luanda - Angola
Aula Magna Sobre BI & BigData na UNIA, Luanda - AngolaAula Magna Sobre BI & BigData na UNIA, Luanda - Angola
Aula Magna Sobre BI & BigData na UNIA, Luanda - Angolaalexculpado
 
TDC2017 | São Paulo - Trilha BigData How we figured out we had a SRE team at ...
TDC2017 | São Paulo - Trilha BigData How we figured out we had a SRE team at ...TDC2017 | São Paulo - Trilha BigData How we figured out we had a SRE team at ...
TDC2017 | São Paulo - Trilha BigData How we figured out we had a SRE team at ...tdc-globalcode
 
Big Data e Data Science - Tecnologia e Mercado
Big Data e Data Science - Tecnologia e MercadoBig Data e Data Science - Tecnologia e Mercado
Big Data e Data Science - Tecnologia e MercadoHélio Silva
 
O que é a ciência de dados (data science). Discussão do conceito
O que é a ciência de dados (data science). Discussão do conceitoO que é a ciência de dados (data science). Discussão do conceito
O que é a ciência de dados (data science). Discussão do conceitoLuis Borges Gouveia
 
Ciencia de dados na pratica, com transparencia e produtividade
Ciencia de dados na pratica, com transparencia e produtividadeCiencia de dados na pratica, com transparencia e produtividade
Ciencia de dados na pratica, com transparencia e produtividadeJohn Lemos Forman
 

Similaire à Introdução ao Big Data para Desenvolvedores Python (20)

Big Data Analytics
Big Data AnalyticsBig Data Analytics
Big Data Analytics
 
Big Data: Desafios e Oportunidades
Big Data: Desafios e OportunidadesBig Data: Desafios e Oportunidades
Big Data: Desafios e Oportunidades
 
Data Science - A arte de estudar e analisar dados
Data Science - A arte de estudar e analisar dadosData Science - A arte de estudar e analisar dados
Data Science - A arte de estudar e analisar dados
 
Curso Business Analytics.pdf
Curso Business Analytics.pdfCurso Business Analytics.pdf
Curso Business Analytics.pdf
 
Intelligence, Discovery, Analytics e Data Science: Evolução, Desafios e Oport...
Intelligence, Discovery, Analytics e Data Science: Evolução, Desafios e Oport...Intelligence, Discovery, Analytics e Data Science: Evolução, Desafios e Oport...
Intelligence, Discovery, Analytics e Data Science: Evolução, Desafios e Oport...
 
AI & Big Data - Personalização da Jornada - PicPay - TDC
AI & Big Data - Personalização da Jornada - PicPay - TDCAI & Big Data - Personalização da Jornada - PicPay - TDC
AI & Big Data - Personalização da Jornada - PicPay - TDC
 
Bsides2018 - Daniel lima - palestra data science
Bsides2018 - Daniel lima - palestra data scienceBsides2018 - Daniel lima - palestra data science
Bsides2018 - Daniel lima - palestra data science
 
Será Mesmo o Cientista de Dados a Profissão do Futuro?
Será Mesmo o Cientista de Dados a Profissão do Futuro?Será Mesmo o Cientista de Dados a Profissão do Futuro?
Será Mesmo o Cientista de Dados a Profissão do Futuro?
 
Big data e data science
Big data e data scienceBig data e data science
Big data e data science
 
Bigdata alexandre v2
Bigdata alexandre v2Bigdata alexandre v2
Bigdata alexandre v2
 
Palestra garimpando com pentaho data mining latinoware
Palestra garimpando com pentaho data mining latinowarePalestra garimpando com pentaho data mining latinoware
Palestra garimpando com pentaho data mining latinoware
 
Aula Magna Sobre BI & BigData na UNIA, Luanda - Angola
Aula Magna Sobre BI & BigData na UNIA, Luanda - AngolaAula Magna Sobre BI & BigData na UNIA, Luanda - Angola
Aula Magna Sobre BI & BigData na UNIA, Luanda - Angola
 
TDC2017 | São Paulo - Trilha BigData How we figured out we had a SRE team at ...
TDC2017 | São Paulo - Trilha BigData How we figured out we had a SRE team at ...TDC2017 | São Paulo - Trilha BigData How we figured out we had a SRE team at ...
TDC2017 | São Paulo - Trilha BigData How we figured out we had a SRE team at ...
 
Big Data
Big DataBig Data
Big Data
 
Big Data e Data Science - Tecnologia e Mercado
Big Data e Data Science - Tecnologia e MercadoBig Data e Data Science - Tecnologia e Mercado
Big Data e Data Science - Tecnologia e Mercado
 
Data is the new oil
Data is the new oilData is the new oil
Data is the new oil
 
Mundo big data
Mundo big dataMundo big data
Mundo big data
 
O que é a ciência de dados (data science). Discussão do conceito
O que é a ciência de dados (data science). Discussão do conceitoO que é a ciência de dados (data science). Discussão do conceito
O que é a ciência de dados (data science). Discussão do conceito
 
Big Data Analytics
Big Data AnalyticsBig Data Analytics
Big Data Analytics
 
Ciencia de dados na pratica, com transparencia e produtividade
Ciencia de dados na pratica, com transparencia e produtividadeCiencia de dados na pratica, com transparencia e produtividade
Ciencia de dados na pratica, com transparencia e produtividade
 

Introdução ao Big Data para Desenvolvedores Python

  • 1. O que é Big Data ? Palestra Apresentada no PythonRio Junho/2016
  • 2. Palestra Apresentada no PythonRio Junho/2016 O que é Big Data ? O objetivo desta palestra é apresentar o que é o Big Data, suas principais características além do perfil do profissional desta área. Ao longo da apresentação busco mostrar como é possível criar projetos de grande valor organizacional. Além de compartilhar um código-fonte de fácil entendimento que ja tornaria possível gerar ótimos resultados com poucos conhecimentos Também deixa minha explícita minha convicção que o valor não está no Big Data em si mas sim na cultura de abordagem sistêmica através de matemática e estatística que oferece o poder de extração de dados a partir de dados e geração de informação
  • 3. Hacker & Data Enthusiast Coursera Beta Tester in Big Data Data Engineer at Holis/Personare +20 years in Software Development BASIC, PASCAL, C, JAVA, PHP, PYTHON, R Contatos: https://br.linkedin.com/in/edulemasson https://github.com/edulemasson/ eduardolemasson@midiahome.com.br Eduardo Le Masson
  • 4. É O CAOS O que é Big Data ? Fontes de dados de diversas origens, formas, estruturas diferentes e até mesmo sem nenhuma estrutura definida.
  • 5. O que é Big Data ? Mindset : “Work will be always 3% done” ● Tecnologias Mudam a todo instante ● Busca contínua da melhor performance ● Novos Desafios com o aumento dos dados ● Necessidade de ajustar algoritmos
  • 6. Dirigido à Escalabilidade horizontal Já não é mais possível elevar o hardware de uma única máquina para suportar a alta demanda por desempenho/volume/tráfego O que é Big Data ?
  • 8. -Volume -Velocidade -Variedade -Veracidade -Valor O que é Big Data ? Capacidade de lidar com grande volume de dados. Tanto em armazenamento como processamento além de ser escalável Os 5 VÊS do Big Data
  • 9. -Volume -Velocidade -Variedade -Veracidade -Valor O que é Big Data ? Tempo de Resposta dentro do necessário de acordo com a regra de negócio. Suportar alta demanda. Os 5 VÊS do Big Data
  • 10. -Volume -Velocidade -Variedade -Veracidade -Valor O que é Big Data ? Habilidade de se adaptar. Seja em termos de infraestrutura elástica, A tipos de dados e sua multiplicidade de origens. Diversas formas de Codificação Os 5 VÊS do Big Data
  • 11. -Volume -Velocidade -Variedade -Veracidade -Valor O que é Big Data ? Mecanismos de pré- processamento e padronização. Utilização de metodologias científicas e mecanismos de reprodutibilidade do processo. Os 5 VÊS do Big Data
  • 12. -Volume -Velocidade -Variedade -Veracidade -Valor O que é Big Data ? Os 5 VÊS do Big Data A União de todas estas características têm foco na entrega de valor: às organizações, clientes, sociedade, pesquisas acadêmicas
  • 13. O profissional Big Data O profissional de Big Data pode atuar em diversas área de especialidade, no entanto, cada vez fala-se que unir uma pessoa com tantas skills é um mito. Como “big data” têm suas bases em processos científcos temos visto cada vez mais a aproximação de acadêmicos e as organizações. Mas é possível criar dentro da empresa uma cultura de pesquisa e Desenvolvimento. Não é preciso ser um cientista ou contratar uma consultoria para trazer ótimos resultados com aplicações que se utilizam do estado da arte. O termo estado da arte, na ciência, Trata de metodologias que já estão consolidadas e amplamente experimentadas pelo meio acadêmio/científico.
  • 14. CONCEITO DE DADOS: - Um DATA MODEL: Coleção de conceitos descritivos do dado - Um Schema: É uma descrição de um grupo específico de dados dado um modelo ESPECTRO ESTRUTURAL - Estruturado (shema-first) - Semi-estruturado (schema-later) - Não-estruturado (schema-never) Afinal, o que são dados?
  • 15. SYSTEM GENERATED DATA (Temporais, Estatísticos) Cliques Impressão de Banners Evento de Pagamento Avançar, Play, Stop Requests Trasações Mensagens de Rede Webserver Logs A origem dos dados
  • 16. Dados gerados ações e publicações de pessoas: Facebook, Instagram, Twitter, Youtube, Linkedin Pesquisas no Google A origem dos dados
  • 17. RESEARCH DATA Dados de Saúde Computação Científica Colisão de Hádrons Desenvolvimento de Drogas Estatísticas populacionais Metereologia A origem dos dados
  • 18. GRAPH DATA (Abstracted Data Type) - Relacionamento de Pessoas, coisas etc - Redes de Telecomunicação - Redes de Estradas - Plataformas de Colaboração A origem dos dados
  • 19. INTERNET OF THINGS - Sensores - TAGS de Estacionamento/Pedágio - Estações Metereológicas - Unidades de Autoatendimento A origem dos dados
  • 20. Era da Informação Era das Features x Paradoxo
  • 21. Era da Informação Paradoxo Prefiro chamar de Era da Informatização. Pensava-se nos dados como informações completas. Os sistemas basicamente se resumiam ao aspecto CRUD (Ler, Escrever, Editar e Apagar) O volume de dados era na verdade um problema e uma das complexidades era modelar a estrutura que esses dados deveriam ter. Pois o estado da arte era o uso de banco de dados Relacionais. Quem mais tinha acesso aos dados não era quem deveria analisar os dados e sim a pessoa Responsável por armazená-los e realizar o tunning do banco, o DBA. Se você fizesse uma query Pesada demais, ainda tomava uma bronca.
  • 22. Era das Features Paradoxo A verdadeira Era da Informação. O valor dos dados está associado ao que se extrai desses dados e na habilidade em transformá-los em informações que ofereçam vantagens estratégicas, ferramentas inovadoras, compreenção de como se relacionam e comportam O volume de dados era não é mais o problema. O barateamento e elasticidadede da infraestrutura tornou possível processá-los de forma nunca antes vista na história. O crescimento da indústria OpenSource trouxe liberdade para as organizações e a redução dos custos.
  • 23. ●Extração de Informação ●Medir Distância/Aproximação de fatos/eventos ●Relacionar uma coisa à outra ●Correlacionar Causalidade ●Inferir ●Estudar comportamentos O que são Features As features são as características de um dado, uma coisa, um evento ou pessoa e Analisar os dados nesta nova dimensão possibilita entre outras coisas:
  • 24. informação As Features de um BigMac Vamos por exemplo observar o que compõe o sanduíche: Podemos dizer que estes ingredientes são suas features intrínsecas. Mas será que existem outras features um pouco mais abstratas para esta mesma coisa? R: Qualidade, Sabor, Saúde, Preço, Unidades vendidas, Unidades Produzidas, Países Um bom cientista de dados consegue fazer as perguntas certas sendo criativo. Esta criatividade provém da análise exploratória e seus insights.
  • 25. O Google Images, indexa as imagens da web através dos termos mais relevantes de um documento. A extração de features em texto se utiliza de algoritimos de: Scrap, Text Mining, Tokenização, TF e TF-IDF Estudo de Caso O texto presente em um documento, torna-se os atributos da imagem que está lá. Porém é necessário saber quais são as palavras ou termos que são mais importantes e podem diferenciá-la das demais. Isto é, quais são os termos relevantes.
  • 26. Matriz de Preferências (features) de compras de alguns usuários Estudo de Caso Um sistema de recomendação colaborativo funciona descobrindo a similaridade entre a pessoas a partir da uma amostra de suas preferências. É possível construir sistemas que recomendem em realTime produtos que possuem características interessantes à você baseando-se nas pessoas com gostos similares.
  • 27. Inferência Estatística Podemos relacionar um vetor de pessoas e suas features e descobrir quem possui maior grau de similaridade com determinada pessoa. Correlação de Pearson: Distância Euclidiana:
  • 28. Grau de Similaridade Carol x Carol -> 1.0 Carol x Rodrigo -> 0.924473451642 Carol x Fernanda -> 0.991240707162 Carol x Pedro -> 0.893405147442 Carol x Bruno -> 0.66284898036 Carol x Eduardo -> 0.381246425832 Carol x Caue -> -1.0 Ranking de Pessoas com Similariade: (3.34, 'Cebola') (2.83, 'Beterraba') (2.53, 'Couve') Ranking dos Produtos Recomendados: Estamos Inferindo o quanto a Carol gostaria dos produtos que ela não consumiu
  • 29. - Recomendação de produtos em tempo real - Recomendação de amigos - E-mail Marketing personalizado um a um - Conhecer melhor o perfil de cada cliente - Melhorar o relacionamento com cliente - Criar promoções específicas para um usuário - Aumentar tempo médio de permanência no site Possibilidades Utilizando os recursos estatísticos apresentados é possível criar:
  • 30. Mostre-me o Código! Repositório GIT com código-fonte em Python Utilizado apenas a biblioteca nativa MATH para permitir claro entendimento dos algorítimos utilizados. A sintaxe está bem didática https://github.com/edulemasson/colaborative_recommender
  • 31. - Coursera (Maiores Universidades do Mundo) https://www.coursera.org/browse/data-science - EDX – Data Science Engineering with Apache SPARK https://www.edx.org/xseries/data-science-engineering-apache-spark - Kaagle – Dados, Desafios e Códigos https://www.kaggle.com/ - Machine Learning IBM NLTK http://www.ibm.com/developerworks/br/library/os-pythonnltk/ - Udacity Intro (Data Analisys, Science, Statistics, ML) https://br.udacity.com/course/data-analyst-nanodegree--nd002 Para saber mais Cursos Gratuitos: