O objetivo desta palestra é apresentar o que é o Big Data, suas principais
características além do perfil do profissional desta área.
Ao longo da apresentação busco mostrar como é possível criar projetos
de grande valor organizacional. Além de
compartilhar um código-fonte de fácil entendimento que ja tornaria possível
gerar ótimos resultados com poucos conhecimentos
Também deixa minha explícita minha convicção que o valor não está no Big Data em si
mas sim na cultura de abordagem sistêmica através de matemática e estatística que
oferece o poder de extração de dados a partir de dados e geração de informação
Ciencia de dados na pratica, com transparencia e produtividade
Introdução ao Big Data para Desenvolvedores Python
1. O que é Big Data ?
Palestra Apresentada no PythonRio Junho/2016
2. Palestra Apresentada no PythonRio Junho/2016
O que é Big Data ?
O objetivo desta palestra é apresentar o que é o Big Data, suas principais
características além do perfil do profissional desta área.
Ao longo da apresentação busco mostrar como é possível criar projetos
de grande valor organizacional. Além de
compartilhar um código-fonte de fácil entendimento que ja tornaria possível
gerar ótimos resultados com poucos conhecimentos
Também deixa minha explícita minha convicção que o valor não está no Big Data em si
mas sim na cultura de abordagem sistêmica através de matemática e estatística que
oferece o poder de extração de dados a partir de dados e geração de informação
3. Hacker & Data Enthusiast
Coursera Beta Tester in Big Data
Data Engineer at Holis/Personare
+20 years in Software Development
BASIC, PASCAL, C, JAVA, PHP, PYTHON, R
Contatos:
https://br.linkedin.com/in/edulemasson
https://github.com/edulemasson/
eduardolemasson@midiahome.com.br
Eduardo Le Masson
4. É O CAOS
O que é Big Data ?
Fontes de dados de diversas origens, formas, estruturas diferentes
e até mesmo sem nenhuma estrutura definida.
5. O que é Big Data ?
Mindset : “Work will be always 3% done”
● Tecnologias Mudam a todo instante
● Busca contínua da melhor performance
● Novos Desafios com o aumento dos dados
● Necessidade de ajustar algoritmos
6. Dirigido à Escalabilidade horizontal
Já não é mais possível elevar o hardware
de uma única máquina para suportar a alta
demanda por desempenho/volume/tráfego
O que é Big Data ?
10. -Volume
-Velocidade
-Variedade
-Veracidade
-Valor
O que é Big Data ?
Habilidade de se adaptar. Seja em
termos de infraestrutura elástica,
A tipos de dados e sua
multiplicidade de origens.
Diversas formas de Codificação
Os 5 VÊS do Big Data
13. O profissional Big Data
O profissional de Big Data pode atuar em diversas área de especialidade, no entanto,
cada vez fala-se que unir uma pessoa com tantas skills é um mito.
Como “big data” têm suas bases em processos científcos temos visto cada vez mais
a aproximação de acadêmicos e as organizações.
Mas é possível criar dentro da empresa
uma cultura de pesquisa e
Desenvolvimento.
Não é preciso ser um cientista ou
contratar uma consultoria para trazer
ótimos resultados com aplicações
que se utilizam do estado da arte.
O termo estado da arte, na ciência,
Trata de metodologias que já estão
consolidadas e amplamente
experimentadas pelo meio
acadêmio/científico.
14. CONCEITO DE DADOS:
- Um DATA MODEL: Coleção de conceitos descritivos do dado
- Um Schema: É uma descrição de um grupo específico de
dados dado um modelo
ESPECTRO ESTRUTURAL
- Estruturado (shema-first)
- Semi-estruturado (schema-later)
- Não-estruturado (schema-never)
Afinal, o que são dados?
15. SYSTEM GENERATED DATA (Temporais, Estatísticos)
Cliques
Impressão de Banners
Evento de Pagamento
Avançar, Play, Stop
Requests
Trasações
Mensagens de Rede
Webserver Logs
A origem dos dados
16. Dados gerados ações e publicações de pessoas:
Facebook,
Instagram,
Twitter,
Youtube,
Linkedin
Pesquisas no Google
A origem dos dados
17. RESEARCH DATA
Dados de Saúde
Computação Científica
Colisão de Hádrons
Desenvolvimento de Drogas
Estatísticas populacionais
Metereologia
A origem dos dados
18. GRAPH DATA (Abstracted Data Type)
- Relacionamento de Pessoas, coisas etc
- Redes de Telecomunicação
- Redes de Estradas
- Plataformas de Colaboração
A origem dos dados
19. INTERNET OF THINGS
- Sensores
- TAGS de Estacionamento/Pedágio
- Estações Metereológicas
- Unidades de Autoatendimento
A origem dos dados
21. Era da Informação
Paradoxo
Prefiro chamar de Era da Informatização.
Pensava-se nos dados como informações completas.
Os sistemas basicamente se resumiam ao aspecto CRUD (Ler, Escrever, Editar e Apagar)
O volume de dados era na verdade um problema e uma das complexidades era modelar
a estrutura que esses dados deveriam ter. Pois o estado da arte era o uso de banco de dados
Relacionais.
Quem mais tinha acesso aos dados não era quem deveria analisar os dados e sim a pessoa
Responsável por armazená-los e realizar o tunning do banco, o DBA. Se você fizesse uma query
Pesada demais, ainda tomava uma bronca.
22. Era das Features
Paradoxo
A verdadeira Era da Informação.
O valor dos dados está associado ao que se extrai desses dados e na habilidade
em transformá-los em informações que ofereçam vantagens estratégicas,
ferramentas inovadoras, compreenção de como se relacionam e comportam
O volume de dados era não é mais o problema.
O barateamento e elasticidadede da infraestrutura tornou possível processá-los de forma nunca
antes vista na história.
O crescimento da indústria OpenSource trouxe liberdade para as organizações e a redução
dos custos.
23. ●Extração de Informação
●Medir Distância/Aproximação de fatos/eventos
●Relacionar uma coisa à outra
●Correlacionar Causalidade
●Inferir
●Estudar comportamentos
O que são Features
As features são as características de um dado, uma coisa, um evento ou pessoa e
Analisar os dados nesta nova dimensão possibilita entre outras coisas:
24. informação
As Features de um BigMac
Vamos por exemplo observar o que compõe o sanduíche:
Podemos dizer que estes ingredientes são suas features intrínsecas.
Mas será que existem outras features um pouco mais abstratas para esta mesma coisa?
R: Qualidade, Sabor, Saúde, Preço, Unidades vendidas, Unidades Produzidas, Países
Um bom cientista de dados consegue fazer as perguntas certas sendo criativo.
Esta criatividade provém da análise exploratória e seus insights.
25. O Google Images, indexa as imagens da web através
dos termos mais relevantes de um documento.
A extração de features em texto se utiliza de algoritimos de:
Scrap, Text Mining, Tokenização, TF e TF-IDF
Estudo de Caso
O texto presente em um documento, torna-se os atributos da imagem que está lá.
Porém é necessário saber quais são as palavras ou termos que são mais importantes
e podem diferenciá-la das demais. Isto é, quais são os termos relevantes.
26. Matriz de Preferências (features) de compras de alguns usuários
Estudo de Caso
Um sistema de recomendação colaborativo funciona descobrindo a similaridade
entre a pessoas a partir da uma amostra de suas preferências.
É possível construir sistemas que recomendem em realTime produtos que
possuem características interessantes à você baseando-se nas pessoas
com gostos similares.
27. Inferência Estatística
Podemos relacionar um vetor de pessoas e suas features e descobrir
quem possui maior grau de similaridade com determinada pessoa.
Correlação de Pearson:
Distância Euclidiana:
28. Grau de Similaridade
Carol x Carol -> 1.0
Carol x Rodrigo -> 0.924473451642
Carol x Fernanda -> 0.991240707162
Carol x Pedro -> 0.893405147442
Carol x Bruno -> 0.66284898036
Carol x Eduardo -> 0.381246425832
Carol x Caue -> -1.0
Ranking de Pessoas com Similariade:
(3.34, 'Cebola')
(2.83, 'Beterraba')
(2.53, 'Couve')
Ranking dos Produtos Recomendados:
Estamos Inferindo o quanto a Carol
gostaria dos produtos que ela não consumiu
29. - Recomendação de produtos em tempo real
- Recomendação de amigos
- E-mail Marketing personalizado um a um
- Conhecer melhor o perfil de cada cliente
- Melhorar o relacionamento com cliente
- Criar promoções específicas para um usuário
- Aumentar tempo médio de permanência no site
Possibilidades
Utilizando os recursos estatísticos apresentados é possível criar:
30. Mostre-me o Código!
Repositório GIT com código-fonte em Python
Utilizado apenas a biblioteca nativa MATH para permitir
claro entendimento dos algorítimos utilizados.
A sintaxe está bem didática
https://github.com/edulemasson/colaborative_recommender
31. - Coursera (Maiores Universidades do Mundo)
https://www.coursera.org/browse/data-science
- EDX – Data Science Engineering with Apache SPARK
https://www.edx.org/xseries/data-science-engineering-apache-spark
- Kaagle – Dados, Desafios e Códigos
https://www.kaggle.com/
- Machine Learning IBM NLTK
http://www.ibm.com/developerworks/br/library/os-pythonnltk/
- Udacity Intro (Data Analisys, Science, Statistics, ML)
https://br.udacity.com/course/data-analyst-nanodegree--nd002
Para saber mais
Cursos Gratuitos: