O documento discute o papel dos cientistas de dados e as habilidades necessárias para a profissão. Resume que cientistas de dados precisam ter fortes habilidades em programação, estatística, aquisição e limpeza de dados e machine learning para analisar grandes volumes de dados de forma a gerar insights valiosos.
2. Sobre
Diego Cardoso Alves - Linkedin: diegocardosoalves
Engenheiro da Computação pela Unifei-MG
Mestrando em Engenharia da Computação pela Unicamp
Engenheiro de Software no Instituto de Pesquisas Eldorado
Desenvolvedor Android e entusiasta de Ciência de Dados
Artigo publicado na IEEE Services 2016 - San Francisco
USA
3. O que essa palestra NÃO vai ser
★ Não será uma palestra técnica
★ Não será uma palestra motivacional
★ Você não vai sair daqui um Cientista de Dados
4. O que essa palestra vai ser
★ O que é um Cientista de Dados e qual sua importância
★ Cases envolvendo Ciência de Dados
★ As habilidades esperadas de um Cientista de Dados
★ Onde procurar recursos para ir em busca dessas habilidades
5. Cientista de Dados
Pessoa que é melhor em estatística que qualquer engenheiro de
software e melhor em engenharia de software do que qualquer
estatístico.
6. Cientista de Dados
Cientista de Dados é um
profissional híbrido, um
cientista da computação
com habilidades de
programação , extração e
gerenciamento de dados
juntamente com um
estatístico que sabe como
dar sentido a informações
supostamente não
relacionadas.
7. Rotina de um Cientista de Dados
Encontrar Problema Buscar Dados
Limpar e Explorar
Dados
Comunicar
Resultados
Validar Hipótese
Estabelecer
Hipótese
Hipótese
Incorreta
8. Volume de dados
Total de dados
sendo capturados
e gravados pelas
indústrias dobra
a cada 1.2 anos.
A Google sozinha
processa em
média 40 mil
queries por
segundo.
A cada minuto
são enviados 204
milhões de
emails.
A cada minuto
são gerados 1.8
milhões de likes
no Facebook e
enviados 278 mil
tweets.
Se você gravasse
todo conteúdo
criado em 1 dia
em DVD’s, você
poderia empilhá-
los e alcançar a
lua. Obs: 2 vezes.
Youtube recebe
100 horas de
vídeo a cada
minuto.
13. Mudança de mercado
Novas correlações
Tendências de negócios no local
Prevenção de doenças
Detecção de fraudes
Combate à criminalidade
Recomendações personalizadas
15. Alemanha, Copa do Mundo
● 12 jogadores
● Parceria SAP e
Alemanha
● Análise de dados dos
jogadores, performance
dos times e estratégias
● Difícil tarefa de analisar
dados aparentemente
não relacionados
16. Starbucks vs Consumidor vs Local
● Análise de localidade
● Análise de preferências
do consumidor
● Estudo de tráfego das
ruas
● Possibilidade de abrir
nova Starbucks próxima
à uma existente.
17. Apostadores
● Análise de apostas de jogos.
● Informações sobre histórico das equipes, resultados de jogos, colocações na tabela,
jogadores, momentos das partidas que determinados pontos ocorrem.
○ Número muito grande de informações e conexões entre as mesmas.
○ Dados sendo atualizados em tempo real.
● Bons modelos trazem chance de retorno nas apostas maior do que zero.
● Normalmente, empresas de apostas punem ou banem usuários que criam bons modelos
de predição de resultados.
18. ● 25% dos americanos possuem múltiplas
doenças crônicas.
● Pessoas com múltiplas doenças crônicas tem
risco maior de mortalidade e de má-qualidade
de vida.
● Philips tem investido cada vez mais na coleta
de dados sobre as pessoas e do ambiente.
● Dados detalhados obtidos em tempo real
(paciente e ambiente) dão uma visão completa
sobre o estado do paciente e permite ao
médico dar um melhor diagnóstico.
Philips HealthCare
19. Rede de hotéis utiliza Data Science para
aumentar reservas
20. Rede de hotéis utiliza Data Science para
aumentar reservas
● Informações de clima
● Informações de cancelamentos de
vôos
● Hora do dia
● Localização de hotéis e aeroportos
● Condições de tráfego
21. Seguradoras
● Análise de fraude de clientes em tempo real
● Mais informações sobre as pessoas e conexões do que antigamente
● Diversas fontes de informações
● Perda financeira para a seguradora muito menor
22. Spotify
● Milhões de usuários
● Análise de preferências
do consumidor
● Recomendação de
playlists e lançamentos
● Predição dos
ganhadores do Grammy
Awards.
○ 4 de 6 ganhadores
23. Netflix
● “Existem 33 milhões de
diferentes versões do Netflix.”
● Comportamento de uso para
cada usuário.
● Recomendação de filmes e
séries baseado no histórico e
correlação entre usuários.
● Predição das atividades
futuras dos usuários.
24. Netflix
● Quando você pausa e retorna.
● Quais dias você assiste.
● Quais horários você assiste.
● Onde você assiste.
● Quando você para de assistir a
uma série.
● Tempo que leva para procura
de um filme e qual o
comportamento nesta
procura.
● Melhores categorias que você
gosta de assistir.
25. • Interesse em determinar em qual estágio da gravidez estavam seus clientes.
• Dependendo do estágio, determinados itens são mais procurados do que outros.
• Uma semana de gravidez faz diferença, ou seja, precisão é importante.
• Modelos para obter um melhor retorno com cupons de desconto.
• Grande número de dados tanto estruturados quanto não estruturados.
• Pró: Entregar ofertas altamente direcionadas.
• Contra: “Minha filha recebeu isso pelo correio! Ela ainda está no segundo grau, e vocês ficam
enviando para ela cupons para roupas de bebê e berços?!?!”
• A filha estava realmente grávida, mas o pai não sabia.
30. Linguagens
Linguagem feita para estatísticos.
Amplamente usada no meio
acadêmico.
Forte no mercado, recebe grandes
investimentos.
Diversas bibliotecas estatísticas
prontas, facilita parte da análise
R
31. Linguagens
Versátil e fácil de aprender.
Comunidade muito forte de
bibliotecas gerais.
Fácil para análise e produção.
Python
32. Linguagens - Recursos
Aprendendo R com R | Udacity + Facebook -
Data analysis with R | R-bloggers Data Camp -
Intro to R | Coursera - R Programming | R-
Cookbook
Especialização Python ( Universidade de
Michigan) | Python (CodeAcademy) | Python
Class (Google) | Codewars, Codility,
HackerRank
R
Python
33. Banco de Dados
Grande disponibilidade de SGBD.
PostgreSQL, MongoDB, MySQL, etc
SQL vs NoSQL
Databases | SQL Tutorial
34. Aquisição e Limpeza de dados
80% do processo é gasto entre
aquisição e limpeza de dados
Inconsistência de dados é algo comum
Sem dados não há Ciência de Dados
Model Building and Validation | Cleaning data in R | Data Mining
35. Machine Learning
Permite criar modelos complexos e poderosos.
Sistemas de recomendação, Aprendizado
Dinâmico.
Redes Neurais, KNN, Máquinas de vetor suporte.
Intro to Machine Learning | Supervised ML | Unsupervised ML |
Machine Learning especialization | Machine Learning
36. Algoritmos
Eficiência faz diferença !
Saber implementar algoritmos paralelizáveis.
Algoritmos parte I e II (Princeton) | Algoritmos I e II (Stanford) |
Especialização (UC San Diego)
38. Distribuição e Otimização
Saber qual distribuição representa melhor o problema.
Fatoração matricial.
Autovalores e autovetores.
Métodos para minimizar uma função específica.
MIT - Linear Algebra | Convex Otimization | Intro to Statistics
39. Visualização de Dados
Comunicação de resultados.
Representação mais que duas dimensões.
Representação de diversas variavéis.
Udacity - Data Visualization and D3.js | Flowing Data
40. Visualização de Dados
Conhecimento de Domínio
Mercado Financeiro
Saúde
Ecologia
Marketing
Logística
Psicologia
PolíticaBiologia
Esportes
43. Concluindo
Um cientista de dados é um generalista, não um especialista
Muitas habilidades não triviais para estudar.
Inúmeras oportunidades de criar impacto.
Extremamente desafiador, muito divertido.
É preciso ir além do comum !