SlideShare une entreprise Scribd logo
1  sur  51
Télécharger pour lire hors ligne
Desvendando os
mistérios do
Data Science
1
2
Introdução
3
Introdução
4
Introdução
5
DADOS
INFORMAÇÃO
CONHECIMENTO
Dados constituem a matéria prima da informação, ou seja, é a
informação não tratada. Os dados representam um ou mais
significados que isoladamente não podem transmitir uma mensagem
ou representar algum conhecimento (sensores, leituras de campo).
Informação são dados tratados. O resultado do processamento de
dados são as informações. As informações, podem ser utilizadas na
tomada de decisões (insights, classificações e segmentações).
Conhecimento vai além de informações, pois ele além de ter um
significado tem uma aplicação (perfil de um cliente, jornada de um
consumidor).
Analogia: Petróleo. Dados são o petróleo em si, a informação é o
produto do refino do petróleo (gasolina) e o conhecimento é a
utilização do produto do refino para um fim (transporte).
 Ciência de Dados
6
Explosão da área
7
Das top 10 empresas transacionadas no mercado financeiro em 2006, 4 eram de óleo e gás.
Explosão da área
8
Das top 10 empresas
transacionadas no mercado
financeiro em 2018, 8 são
relacionadas com análise de
dados e afins
Um Mapa para a Ciência de Dados
 Analytics  Statistical Inference  Machine Learning
Caso não saiba quais
decisões irá tomar, Analytics
é um ótimo começo para
procurar inspiração.
Também conhecida como
Data Mining, Exploratory
Data Analysis (EDA) e
Knowledge Discovery (KD).
Se você pretende tomar
decisões importantes, com
controle de risco, que
dependem de conclusões
sobre o mundo além dos
dados disponíveis, você
precisará trazer habilidades
estatísticas para sua equipe.
O foco principal é o
desenvolvimento de
algoritmos capazes de
acessar a amostra de dados e
usá-la para aprender as
relações intrínsecas entre
eles.
Taxonomia do Tema
9
Explosão da área
10
BI e Data Science
11
Análise Prescritiva
“O que precisamos fazer?”
Análise Preditiva
“O que é provável que aconteça?”
Análise Diagnóstica
“Por que isso aconteceu??”
Análise Descritiva
“O que aconteceu?”
Complexidade da Análise
Valorparaonegócio
Big Data
IoT
Dados são a próxima fronteira no
ambiente empresarial. Com eles, as
empresas podem acessar mercados
inexplorados de maneira mais
rápida, eficiente e econômica.
12
Skills
Ciência de Dados é, sobretudo, um tema multidisciplinar.
Drew Conway - 2010
● Matemática: Modelagem e sumarização do
conjunto de dados (que cresce em escala
exponencial a cada dia).
● Ciência da Computação: Implementar e utilizar
algoritmos para armazenamento, processamento e
visualização dos dados.
● Conhecimento Especialista: Treinamento formal
em uma determinada área, necessário para
formular perguntas e apresentar as respostas
dentro do contexto estudado.
13
Skills
Ciência de Dados é, sobretudo, um tema multidisciplinar.
Drew Conway - 2010
Data science is a ‘concept to unify statistics, data
analysis, machine learning and their related
methods’ in order to ‘understand and analyze actual
phenomena’ with data.
Unicorn
14
Variáveis Aleatórias
● Assim sendo, precisamos de uma estatística que descreva os dados de entrada e se ajuste a cada um dos casos
de trabalho. Ou seja, vamos lançar mão de um pouco de matemática.
● Basicamente, suponha um caso geral: um gerador de dados, regido por uma função geradora de dados ( f(x) )
Gerador de Dados de
Interesse
f(x) controle
Dados de
toda a sorte
A maioria dos problemas podem ser abordados neste
modelo.
Num caso mais geral, o controle pode ser o seu sistema de
aquisição de dados ou o “trigger” da ação em si.
Perguntas importantes até aqui:
1. Qual o formato do seu dado?
2. Qual o controle que ele segue?
3. Qual a função geradora de dados?
15
Variáveis Aleatórias
● A pergunta-chave aqui é qual a função geradora dos dados?
● Quando sabemos a resposta desta pergunta, podemos dizer que temos todas as informações necessárias para
criação de dados (informação plena). Tal condição é extremamente difícil de ser obtida, sendo muitas vezes nunca
alcançada.
● Então, como em um bom projeto de engenharia: o ótimo é inimigo do bom! Utilizamos aproximações para obter
esta função geradora dos dados.
Dados = f(x)
Diversas maneiras de estimar os parâmetros e as funções do
modelo.
Vamos a dois casos “práticos”: moeda e dado não-viciado
16
Modelagem de Variáveis Aleatórias
● Modelagem de dados: descrever os dados utilizados através de uma função.
● Basicamente, descrever os dados através de uma função matemática. Quanto mais complexo a função original do
dado, mais complexa a função matemática que deve descrever este dado.
● Qual o limite? Depende da sua aplicação.
● Exemplo: média.
17
Modelagem de Variáveis Aleatórias
● Intuitivamente, sempre fazemos modelagem de dados. Quando tentamos agrupar todos os nossos dados em um único
valor.
● Modelar dados pode ser uma das partes mais complexas do problema de análise de dados. Modelos muito complexos,
geram melhores análises mas podem ser difíceis de lidar. Modelos mais simples são mais fáceis de trabalhar, mas geram
conclusões mais triviais.
● Basicamente, o que tentamos fazer é aproximar uma distribuição (função geradora de dados) por uma série de
parâmetros ou outras distribuições
Média Variância
18
Modelagem de Variáveis Aleatórias
● Um histograma é uma representação precisa e, bastante utilizada para estimar a distribuição de dados.
● É uma estimativa da distribuição de probabilidade de uma variável aleatória
● Se difere de um gráfico de barras, pois um gráfico de barras relaciona duas variáveis, mas um histograma
relaciona apenas uma.
● Para construir um histograma, o primeiro passo é a determinação da quantidade "bins", ou seja o intervalo de
valores isto é, dividir todo o intervalo de valores em um conjunto de intervalos - e depois contar quantos valores se
enquadram em cada intervalo.
19
Modelagem de Variáveis Aleatórias
● Uma das maneiras mais simples de estimar a PDF de uma variável aleatória é o boxplot
20
Relacionamento entre Variáveis Aleatórias
A relação entre duas variáveis
aleatórias pode ser de grande
utilidade em um negócio.
Ex: Conto das fraldas e cervejas
(Beer, Diapers, and Correlation: A
Tale of Ambiguity)
“The findings were that men
between 30- 40 years in age,
shopping between 5pm and 7pm
on Fridays, who purchased
diapers were most likely to also
have beer in their carts. This
motivated the grocery store to
move the beer isle closer to the
diaper isle and wiz-boom-bang,
instant 35% increase in sales of
both.”
21
Normalização de Variáveis Aleatórias
● As variáveis de um banco de dados são produtos de medidas ou informações medidas pelo cliente e, sendo assim,
podem ser de naturezas completamente diferentes.
● Dados são, naturalmente, um ativo de uma empresa e, devido a isso, devem ser cuidadosamente tratados
22
Normalização de Variáveis Aleatórias
Variáveis strings: Estudo caso a caso. Classes de
dados podem ser agrupadas, outros casos:
processamento de linguagem natural
Ex: Bairros de uma cidade, Livros
Variáveis numéricas: Escalar a variável para
comparação. Em alguns casos, outras operações
devem ser realizadas
Ex: Comparar comprimento (altura e largura
humana)
Variáveis imagens, vídeos e outros:
Processamento específico
Variáveis categóricas: Processamento
específico.
Ex: Cores
23
Normalização de Variáveis Aleatórias
● Modelos de aprendizado devem tomar decisões sobre os dados e, para isso, devem receber os dados sem
priorizar nenhum deles. Ou seja, a comparação entre eles deve ser “justa”.
24
A criação de características úteis é
difícil, consome tempo e requer
conhecimento especializado.
"Aprendizado de máquina aplicado"
é basicamente engenharia de
características.
Andrew Ng, Machine Learning and AI via Brain simulations
25
Engenharia de Características
● Muitas vezes, os dados não foram bem adquiridos. Ou seja, precisam ser “polidos” e trabalhos para serem
utilizados com todo o seu potencial para a realização de uma tarefa específica. A este processo, chamamos de
Engenharia de Características ou Feature Engineering.
26
Engenharia de Características
27
Engenharia de Características
28
Tipos de Aprendizado
29
● Aprendizado supervisionado: Algoritmos
de aprendizado supervisionado constroem
modelos a partir de dados que contém as
entradas e as saídas desejadas.
● Aprendizado não-supervisionado: estes
algoritmos usam um conjunto de dados que
contém apenas entradas e localizam
estrutura nos dados, como agrupamentos de
de dados, ou a segmentação por uma
característica específica.
● Aprendizado por Reforço: estes
algoritmos trabalham na “área cinza” entre
os dois anteriores. Utilizam programação
dinâmica e outras técnicas para o
aprendizado contínuo, sendo que o
controle é gerido pelo ambiente em que o
sistema está inserido
Tipos de Aprendizado
30
● Aprendizado de máquina (ML) é o estudo científico de
algoritmos e modelos estatísticos computacionais
aplicados para a realização de uma tarefa específica
sem usar instruções explícitas, ou seja, contando com
modelos e inferência estatística.
● É visto como um subconjunto da Inteligência Artificial
(IA).
● Algoritmos de aprendizado de máquina constroem
modelos de dados a partir de amostras específicas,
conhecidas como dados de treinamento, para fazer
previsões ou decisões sem ser explicitamente
programado para executar a tarefa.
Tipos de treinamento
31
Tipos de treinamento
32
Classificação Regressão
Modelos Supervisionados
33
● Quantos modelos existem? Muitos
● Vamos falar de três: Regressão Linear, Árvores de Decisão, Redes Neurais
Modelos Supervisionados
34
● Quantos modelos existem? Muitos
● Vamos falar de três: Regressão Linear, Árvores de Decisão, Redes Neurais
Modelos Supervisionados
35
● Quantos modelos existem? Muitos
● Vamos falar de três: Regressão Linear, Árvores de Decisão, Redes Neurais
O treinamento do modelo é uma
parte importante, mas sua análise,
extração de informações relevantes
e aplicação na tomada de decisão é a
parte mais importante, onde há a
geração de valor
36
Avaliação de treinamento
37
TP: verdadeiros positivos, TN: verdadeiros negativos, FP: falsos
positivos e FP: falsos negativos
● Precision: TP/TP+FP (do que é verdadeiro, quanto eu
posso confiar)
● Recall (sensibilidade): TP/TP+FN (do que era pra detectar,
quanto eu detectei?)
● Eficiência: Para uma dada classe, quanto eu acertei?
● Acurácia: Média das eficiências
● F1-score: 2x Precision x Recall / Precision + Recall
● Especificidade: TN/TN+FP (do que eu tinha pra negar,
quanto eu neguei?)
Avaliação de treinamento
38
Avaliação de treinamento
39
Treinamento de regressão é diferente do treinamento de
classificação
Conceito base
40
● Agrupamento por similaridade: Eventos próximos são parecidos, eventos distantes são diferentes.
● Forte dependência da representação, extrema necessidade de crítica do treinamento
● Dados no computador = vetores
○ Matemática vetorial...
Extrator de
Características
Caract 1
Caract 2
Caract1
Caract 2
Conceito base
41
● Agrupamento por similaridade: Eventos próximos são parecidos, eventos distantes são diferentes.
● Forte dependência da representação, extrema necessidade de crítica do treinamento
● Dados no computador = vetores
○ Matemática vetorial...
Extrator de
Características
Caract 1
Caract 2
Caract1
Caract 2
Conceito base
42
● Agrupamento por similaridade: Eventos próximos são parecidos, eventos distantes são diferentes.
● Forte dependência da representação, extrema necessidade de crítica do treinamento
● Dados no computador = vetores
○ Matemática vetorial...
Extrator de
Características
Caract 1
Caract 2
Caract1
Caract 2
Modelos de Agrupamentos
43
● kMeans
Modelos de Agrupamentos
44
● k-Nearest Neighbors
Exemplo de um Workflow
Fonte de Dados
IT Log
Preparação dos Dados
Transformação Limpeza
Seleção da
Amostra
Modelagem de Dados
Clusterização
Análise
Validar
Otimizar
Descobrir
Colaborar
Deploy
Relatório
Dashboard
Aplicativo
Classificação Regressão
Business and Data
Immersion
Transformamos insights através dos
dados possibilitando gerar valor real para
o negócio ($$). Nossos profissionais
utilizam a metodologia de Design
Thinking no contexto de Data-Driven
Decision Making para criar soluções
inovadoras movidas pelo conhecimento
do negócio e pelos insights gerados pelos
dados.
 Data Acquisition and
Harmonization
Trabalhamos com os clientes para
construir extensos ecossistemas de
dados. Avaliamos as fontes de dados
disponíveis dentro e fora da organização
e permitimos a criação de novos dados
usando tecnologias acessíveis, como a
Internet das coisas (IoT) e sensores
inteligentes. Permitindo potencializar os
dados para novas perspectivas.
 AI Workbench
Nossos cientistas de dados
selecionam os melhores
algoritmos e abordagens, desde
insights heurísticos do negócio até o
aprendizado de máquina avançado,
e os personalizam e aprimoram
para a situação específica do
cliente, aplicando profundo
conhecimento funcional e de setor.
 Nossos Serviços
Business-Focused Deploy
Promovemos a desmistificação dos
dados para que todos os stakeholders
envolvidos possam facilmente aplicar
análises a fim de gerar resultados mais
inteligentes. Desde tornar os dados
mais fáceis de entender por meio de
UIs simples e self-service dashboards,
até impulsionando a entrega por meio
do desenvolvimento de softwares e
apps.
 Data Architecture
Depois de entender e obter os dados
corretos, você precisa simplificar,
organizar e integrá-los, o que
geralmente envolve armazenamento na
nuvem, data lakes e o uso de outras
tecnologias emergentes de
armazenamento e integração. Tudo isso
levando em consideração os custos de
implementação e manutenção da solução
final.
 Organization & Governance
Melhoria de processos e
produtividade. Todos os aspectos
da configuração de governança da
plataforma, como segurança de big
data, implementação e governança
de carga de trabalho.
 Nossos Serviços
Possuímos o nosso próprio método científico
composto por observação, hipótese e
experimentação.
Reestruturando esses três conceitos de forma a
capturar a essência de um ambiente ágil, temos
um framework que passa pela formulação do
modelo de inteligência artificial e experimentação
com um frequente feedback do usuário.
Modelagem
de AI
Feedback
do
Usuário
 Data Science + Agile
entregas constantes
Quem nós somos?
Engenheiro Eletrônico e de Computação pela Universidade Federal do Rio de Janeiro (UFRJ), Mestre em
Ciências da Engenharia e Doutor em Ciências da Engenharia, ambos os títulos obtidos na área de
Inteligência Computacional pelo Programa de Engenharia Elétrica da COPPE/UFRJ. Tem como principais
áreas de atuação o processamento digital de sinais, modelagem de dados (supervisionada e
não-supervisionada), engenharia de características e análise de dados
Natanael Nunes de Moura Junior
Engenheiro de Telecomunicações pela UFF, Mestrando em Ciências da Engenharia pela Universidade
Federal do Rio de Janeiro (UFRJ), na área de Inteligência Computacional pelo Programa de Engenharia
Elétrica da COPPE/UFRJ. Atuou no mercado financeiro e no setor de telecomunicações, trabalhando 5
anos como Engenheiro de Software na Huawei Technologies, onde propôs e desenvolveu um solução de
software premiada dentre 547 candidatos em um contexto global da empresa. Atualmente faz parte do
time de Data Science da MJV atuando em engenharia e ciência de dados, em modelagem
(supervisionada e não-supervisionada), engenharia de características e análise de dados.
Carlos Eduardo Costa Covas
Possui graduação em Física pela Universidade Estadual do Rio de Janeiro (UERJ) e é doutorando em
Engenharia Elétrica pela Universidade Federal do Rio de Janeiro (UFRJ), atualmente faz parte do time de
Data Science da MJV aplicando seus conhecimentos analíticos em modelagem e análise de dados.
Participou das duas maiores colaborações científicas do mundo: o Fermi National Laboratory (Fermilab)
nos arredores de Chicago e o Centre Européenne pour la Recherche Nucléaire (CERN) em Genebra.
Possui uma sólida experiência em matemática, machine learning, análise estatística e habilidades
analíticas para formular problemas e desenvolver soluções inovadoras.
Philipp Gaspar
Obrigado
51

Contenu connexe

Tendances

Tendances (16)

Inovação: cultura como drive para tecnologias emergentes
Inovação: cultura como drive para tecnologias emergentesInovação: cultura como drive para tecnologias emergentes
Inovação: cultura como drive para tecnologias emergentes
 
Disrupção Digital - Sua empresa na liderança do mercado
Disrupção Digital - Sua empresa na liderança do mercadoDisrupção Digital - Sua empresa na liderança do mercado
Disrupção Digital - Sua empresa na liderança do mercado
 
Inteligencia Negócios Business Intelligence A inteligência da empresa a dispo...
Inteligencia Negócios Business Intelligence A inteligência da empresa a dispo...Inteligencia Negócios Business Intelligence A inteligência da empresa a dispo...
Inteligencia Negócios Business Intelligence A inteligência da empresa a dispo...
 
Data design: descubra porque o design thinking é essencial na adoção de novas...
Data design: descubra porque o design thinking é essencial na adoção de novas...Data design: descubra porque o design thinking é essencial na adoção de novas...
Data design: descubra porque o design thinking é essencial na adoção de novas...
 
Wiseminer Data Intelligence - Transformando Dados em Vantagem Competitiva
Wiseminer Data Intelligence - Transformando Dados em Vantagem CompetitivaWiseminer Data Intelligence - Transformando Dados em Vantagem Competitiva
Wiseminer Data Intelligence - Transformando Dados em Vantagem Competitiva
 
Ferramentas de Gestão
Ferramentas de GestãoFerramentas de Gestão
Ferramentas de Gestão
 
Cultura de dados: por que kpis garantem a saúde do seu negócio
Cultura de dados: por que kpis garantem a saúde do seu negócioCultura de dados: por que kpis garantem a saúde do seu negócio
Cultura de dados: por que kpis garantem a saúde do seu negócio
 
Como aumentar a produtividade de sua agência de publicidade?
Como aumentar a produtividade de sua agência de publicidade?Como aumentar a produtividade de sua agência de publicidade?
Como aumentar a produtividade de sua agência de publicidade?
 
Pocket Content Design Sprint: testando ideias em apenas cinco dias
Pocket Content Design Sprint: testando ideias em apenas cinco diasPocket Content Design Sprint: testando ideias em apenas cinco dias
Pocket Content Design Sprint: testando ideias em apenas cinco dias
 
Ferramentas de Gestão
Ferramentas de GestãoFerramentas de Gestão
Ferramentas de Gestão
 
Palestra sobre Métricas para Performance
Palestra sobre Métricas para PerformancePalestra sobre Métricas para Performance
Palestra sobre Métricas para Performance
 
e-Book Web Analytics Uma Visão Brasileira - 2a. edição
e-Book Web Analytics Uma Visão Brasileira - 2a. ediçãoe-Book Web Analytics Uma Visão Brasileira - 2a. edição
e-Book Web Analytics Uma Visão Brasileira - 2a. edição
 
[Pocket Content] Design Thinking e Ágil: inovação de ponta a ponta
[Pocket Content] Design Thinking e Ágil: inovação de ponta a ponta[Pocket Content] Design Thinking e Ágil: inovação de ponta a ponta
[Pocket Content] Design Thinking e Ágil: inovação de ponta a ponta
 
Aula 9 ferramentas de gestão estratégica
Aula 9   ferramentas de gestão estratégicaAula 9   ferramentas de gestão estratégica
Aula 9 ferramentas de gestão estratégica
 
Como justificar o seu projeto de BI
Como justificar o seu projeto de BIComo justificar o seu projeto de BI
Como justificar o seu projeto de BI
 
People analytics e hrbp
People analytics e hrbpPeople analytics e hrbp
People analytics e hrbp
 

Similaire à Desvendando os mistérios do Data Science

Similaire à Desvendando os mistérios do Data Science (20)

Data mining
Data miningData mining
Data mining
 
Weka pentaho day2014-fidelis
Weka pentaho day2014-fidelisWeka pentaho day2014-fidelis
Weka pentaho day2014-fidelis
 
BSDDAY 2019 - Data Science e Artificial Intelligence usando Freebsd
BSDDAY 2019 - Data Science e Artificial Intelligence usando FreebsdBSDDAY 2019 - Data Science e Artificial Intelligence usando Freebsd
BSDDAY 2019 - Data Science e Artificial Intelligence usando Freebsd
 
Modelagem de Sistemas de Informação
Modelagem de Sistemas de InformaçãoModelagem de Sistemas de Informação
Modelagem de Sistemas de Informação
 
Data Science For Dummies From a Dummy
Data Science For Dummies From a DummyData Science For Dummies From a Dummy
Data Science For Dummies From a Dummy
 
Palestra garimpando com pentaho data mining latinoware
Palestra garimpando com pentaho data mining latinowarePalestra garimpando com pentaho data mining latinoware
Palestra garimpando com pentaho data mining latinoware
 
Mineração de dados
Mineração de dadosMineração de dados
Mineração de dados
 
TDC2017 | São Paulo - Trilha BigData How we figured out we had a SRE team at ...
TDC2017 | São Paulo - Trilha BigData How we figured out we had a SRE team at ...TDC2017 | São Paulo - Trilha BigData How we figured out we had a SRE team at ...
TDC2017 | São Paulo - Trilha BigData How we figured out we had a SRE team at ...
 
Aula01 - POO
Aula01 - POOAula01 - POO
Aula01 - POO
 
Construção de Classificadores utilizando Pentaho Data Mining (WEKA) - FTSL 2014
Construção de Classificadores utilizando Pentaho Data Mining (WEKA) - FTSL 2014 Construção de Classificadores utilizando Pentaho Data Mining (WEKA) - FTSL 2014
Construção de Classificadores utilizando Pentaho Data Mining (WEKA) - FTSL 2014
 
Ciência de Dados: a revolução na tomada de decisões
Ciência de Dados: a revolução na tomada de decisõesCiência de Dados: a revolução na tomada de decisões
Ciência de Dados: a revolução na tomada de decisões
 
Data mining
Data miningData mining
Data mining
 
Guia completo para definição de estatística de modelos e algoritmos de machin...
Guia completo para definição de estatística de modelos e algoritmos de machin...Guia completo para definição de estatística de modelos e algoritmos de machin...
Guia completo para definição de estatística de modelos e algoritmos de machin...
 
Apresentação na maplink de machine learning
Apresentação na maplink de machine learningApresentação na maplink de machine learning
Apresentação na maplink de machine learning
 
01 banco de dados-basico
01 banco de dados-basico01 banco de dados-basico
01 banco de dados-basico
 
Data Warehouse - Modelagem
Data Warehouse - ModelagemData Warehouse - Modelagem
Data Warehouse - Modelagem
 
Data Mining (mineração de dados)
Data Mining (mineração de dados)Data Mining (mineração de dados)
Data Mining (mineração de dados)
 
Inteligencia de negócios
Inteligencia de negóciosInteligencia de negócios
Inteligencia de negócios
 
Fundamentos de Sistemas de Informacao - Aula 12 2009_2
Fundamentos de Sistemas de Informacao - Aula 12 2009_2Fundamentos de Sistemas de Informacao - Aula 12 2009_2
Fundamentos de Sistemas de Informacao - Aula 12 2009_2
 
Flisol 2016 fidelis - Curitiba - PR - Brazil
Flisol 2016   fidelis - Curitiba - PR - BrazilFlisol 2016   fidelis - Curitiba - PR - Brazil
Flisol 2016 fidelis - Curitiba - PR - Brazil
 

Plus de MJV Technology & Innovation Brasil

Plus de MJV Technology & Innovation Brasil (19)

Transformação Remota - como reestruturar suas operações em tempos de incerteza
Transformação Remota - como reestruturar suas operações em tempos de incertezaTransformação Remota - como reestruturar suas operações em tempos de incerteza
Transformação Remota - como reestruturar suas operações em tempos de incerteza
 
Robotic Process Automation
Robotic Process AutomationRobotic Process Automation
Robotic Process Automation
 
DesignOps:Sua Máquina de Design
DesignOps:Sua Máquina de DesignDesignOps:Sua Máquina de Design
DesignOps:Sua Máquina de Design
 
MJV Trends - Tendências em Varejo 2020
MJV Trends - Tendências em Varejo 2020MJV Trends - Tendências em Varejo 2020
MJV Trends - Tendências em Varejo 2020
 
MJV Trends - Tendências em TI 2020
MJV Trends - Tendências em TI 2020MJV Trends - Tendências em TI 2020
MJV Trends - Tendências em TI 2020
 
Design System: Criando padrões de design para tomadas de decisões mais alinhadas
Design System: Criando padrões de design para tomadas de decisões mais alinhadasDesign System: Criando padrões de design para tomadas de decisões mais alinhadas
Design System: Criando padrões de design para tomadas de decisões mais alinhadas
 
7 Erros que você não pode cometer na sua Gestão de Projetos
7 Erros que você não pode cometer na sua Gestão de Projetos7 Erros que você não pode cometer na sua Gestão de Projetos
7 Erros que você não pode cometer na sua Gestão de Projetos
 
Inovação da Gestão de Risco - Por que Inovar Essa Estratégia é Prioridade dos...
Inovação da Gestão de Risco - Por que Inovar Essa Estratégia é Prioridade dos...Inovação da Gestão de Risco - Por que Inovar Essa Estratégia é Prioridade dos...
Inovação da Gestão de Risco - Por que Inovar Essa Estratégia é Prioridade dos...
 
Report de Tendências em Negócios 2020
Report de Tendências em Negócios 2020Report de Tendências em Negócios 2020
Report de Tendências em Negócios 2020
 
Legal Design : a consultoria jurídica na Era Pós-Digital
Legal Design : a consultoria jurídica na Era Pós-DigitalLegal Design : a consultoria jurídica na Era Pós-Digital
Legal Design : a consultoria jurídica na Era Pós-Digital
 
Envelhecimento populacional: O que fazer quando os consumidores tiverem 100 anos
Envelhecimento populacional: O que fazer quando os consumidores tiverem 100 anosEnvelhecimento populacional: O que fazer quando os consumidores tiverem 100 anos
Envelhecimento populacional: O que fazer quando os consumidores tiverem 100 anos
 
Webinar - Stand-up comedy e improv para apresentacoes memoraveis
Webinar - Stand-up comedy e improv para apresentacoes memoraveisWebinar - Stand-up comedy e improv para apresentacoes memoraveis
Webinar - Stand-up comedy e improv para apresentacoes memoraveis
 
Gêmeos Digitais: o novo ciclo de desenvolvimento de produtos
Gêmeos Digitais: o novo ciclo de desenvolvimento de produtosGêmeos Digitais: o novo ciclo de desenvolvimento de produtos
Gêmeos Digitais: o novo ciclo de desenvolvimento de produtos
 
Future Studies: Como construir futuros mais estratégicos para seu negócio
Future Studies: Como construir futuros mais estratégicos para seu negócioFuture Studies: Como construir futuros mais estratégicos para seu negócio
Future Studies: Como construir futuros mais estratégicos para seu negócio
 
DevOps - Reduza o tempo de entrega da sua TI
DevOps - Reduza o tempo de entrega da sua TIDevOps - Reduza o tempo de entrega da sua TI
DevOps - Reduza o tempo de entrega da sua TI
 
Blockchain: muito além das criptomoedas
Blockchain: muito além das criptomoedasBlockchain: muito além das criptomoedas
Blockchain: muito além das criptomoedas
 
Pocket Content - Tendências de Inovação 2019 - Mercado de Saúde
Pocket Content - Tendências de Inovação 2019 - Mercado de SaúdePocket Content - Tendências de Inovação 2019 - Mercado de Saúde
Pocket Content - Tendências de Inovação 2019 - Mercado de Saúde
 
Pocket Content Tendências de Inovação 2019 - Mercado de Energia
Pocket Content Tendências de Inovação 2019 - Mercado de EnergiaPocket Content Tendências de Inovação 2019 - Mercado de Energia
Pocket Content Tendências de Inovação 2019 - Mercado de Energia
 
Tendências de Inovação para 2019: Mercado Financeiro
Tendências de Inovação para 2019: Mercado FinanceiroTendências de Inovação para 2019: Mercado Financeiro
Tendências de Inovação para 2019: Mercado Financeiro
 

Desvendando os mistérios do Data Science

  • 2. 2
  • 6. DADOS INFORMAÇÃO CONHECIMENTO Dados constituem a matéria prima da informação, ou seja, é a informação não tratada. Os dados representam um ou mais significados que isoladamente não podem transmitir uma mensagem ou representar algum conhecimento (sensores, leituras de campo). Informação são dados tratados. O resultado do processamento de dados são as informações. As informações, podem ser utilizadas na tomada de decisões (insights, classificações e segmentações). Conhecimento vai além de informações, pois ele além de ter um significado tem uma aplicação (perfil de um cliente, jornada de um consumidor). Analogia: Petróleo. Dados são o petróleo em si, a informação é o produto do refino do petróleo (gasolina) e o conhecimento é a utilização do produto do refino para um fim (transporte). Ciência de Dados 6
  • 7. Explosão da área 7 Das top 10 empresas transacionadas no mercado financeiro em 2006, 4 eram de óleo e gás.
  • 8. Explosão da área 8 Das top 10 empresas transacionadas no mercado financeiro em 2018, 8 são relacionadas com análise de dados e afins
  • 9. Um Mapa para a Ciência de Dados Analytics Statistical Inference Machine Learning Caso não saiba quais decisões irá tomar, Analytics é um ótimo começo para procurar inspiração. Também conhecida como Data Mining, Exploratory Data Analysis (EDA) e Knowledge Discovery (KD). Se você pretende tomar decisões importantes, com controle de risco, que dependem de conclusões sobre o mundo além dos dados disponíveis, você precisará trazer habilidades estatísticas para sua equipe. O foco principal é o desenvolvimento de algoritmos capazes de acessar a amostra de dados e usá-la para aprender as relações intrínsecas entre eles. Taxonomia do Tema 9
  • 11. BI e Data Science 11 Análise Prescritiva “O que precisamos fazer?” Análise Preditiva “O que é provável que aconteça?” Análise Diagnóstica “Por que isso aconteceu??” Análise Descritiva “O que aconteceu?” Complexidade da Análise Valorparaonegócio Big Data IoT
  • 12. Dados são a próxima fronteira no ambiente empresarial. Com eles, as empresas podem acessar mercados inexplorados de maneira mais rápida, eficiente e econômica. 12
  • 13. Skills Ciência de Dados é, sobretudo, um tema multidisciplinar. Drew Conway - 2010 ● Matemática: Modelagem e sumarização do conjunto de dados (que cresce em escala exponencial a cada dia). ● Ciência da Computação: Implementar e utilizar algoritmos para armazenamento, processamento e visualização dos dados. ● Conhecimento Especialista: Treinamento formal em uma determinada área, necessário para formular perguntas e apresentar as respostas dentro do contexto estudado. 13
  • 14. Skills Ciência de Dados é, sobretudo, um tema multidisciplinar. Drew Conway - 2010 Data science is a ‘concept to unify statistics, data analysis, machine learning and their related methods’ in order to ‘understand and analyze actual phenomena’ with data. Unicorn 14
  • 15. Variáveis Aleatórias ● Assim sendo, precisamos de uma estatística que descreva os dados de entrada e se ajuste a cada um dos casos de trabalho. Ou seja, vamos lançar mão de um pouco de matemática. ● Basicamente, suponha um caso geral: um gerador de dados, regido por uma função geradora de dados ( f(x) ) Gerador de Dados de Interesse f(x) controle Dados de toda a sorte A maioria dos problemas podem ser abordados neste modelo. Num caso mais geral, o controle pode ser o seu sistema de aquisição de dados ou o “trigger” da ação em si. Perguntas importantes até aqui: 1. Qual o formato do seu dado? 2. Qual o controle que ele segue? 3. Qual a função geradora de dados? 15
  • 16. Variáveis Aleatórias ● A pergunta-chave aqui é qual a função geradora dos dados? ● Quando sabemos a resposta desta pergunta, podemos dizer que temos todas as informações necessárias para criação de dados (informação plena). Tal condição é extremamente difícil de ser obtida, sendo muitas vezes nunca alcançada. ● Então, como em um bom projeto de engenharia: o ótimo é inimigo do bom! Utilizamos aproximações para obter esta função geradora dos dados. Dados = f(x) Diversas maneiras de estimar os parâmetros e as funções do modelo. Vamos a dois casos “práticos”: moeda e dado não-viciado 16
  • 17. Modelagem de Variáveis Aleatórias ● Modelagem de dados: descrever os dados utilizados através de uma função. ● Basicamente, descrever os dados através de uma função matemática. Quanto mais complexo a função original do dado, mais complexa a função matemática que deve descrever este dado. ● Qual o limite? Depende da sua aplicação. ● Exemplo: média. 17
  • 18. Modelagem de Variáveis Aleatórias ● Intuitivamente, sempre fazemos modelagem de dados. Quando tentamos agrupar todos os nossos dados em um único valor. ● Modelar dados pode ser uma das partes mais complexas do problema de análise de dados. Modelos muito complexos, geram melhores análises mas podem ser difíceis de lidar. Modelos mais simples são mais fáceis de trabalhar, mas geram conclusões mais triviais. ● Basicamente, o que tentamos fazer é aproximar uma distribuição (função geradora de dados) por uma série de parâmetros ou outras distribuições Média Variância 18
  • 19. Modelagem de Variáveis Aleatórias ● Um histograma é uma representação precisa e, bastante utilizada para estimar a distribuição de dados. ● É uma estimativa da distribuição de probabilidade de uma variável aleatória ● Se difere de um gráfico de barras, pois um gráfico de barras relaciona duas variáveis, mas um histograma relaciona apenas uma. ● Para construir um histograma, o primeiro passo é a determinação da quantidade "bins", ou seja o intervalo de valores isto é, dividir todo o intervalo de valores em um conjunto de intervalos - e depois contar quantos valores se enquadram em cada intervalo. 19
  • 20. Modelagem de Variáveis Aleatórias ● Uma das maneiras mais simples de estimar a PDF de uma variável aleatória é o boxplot 20
  • 21. Relacionamento entre Variáveis Aleatórias A relação entre duas variáveis aleatórias pode ser de grande utilidade em um negócio. Ex: Conto das fraldas e cervejas (Beer, Diapers, and Correlation: A Tale of Ambiguity) “The findings were that men between 30- 40 years in age, shopping between 5pm and 7pm on Fridays, who purchased diapers were most likely to also have beer in their carts. This motivated the grocery store to move the beer isle closer to the diaper isle and wiz-boom-bang, instant 35% increase in sales of both.” 21
  • 22. Normalização de Variáveis Aleatórias ● As variáveis de um banco de dados são produtos de medidas ou informações medidas pelo cliente e, sendo assim, podem ser de naturezas completamente diferentes. ● Dados são, naturalmente, um ativo de uma empresa e, devido a isso, devem ser cuidadosamente tratados 22
  • 23. Normalização de Variáveis Aleatórias Variáveis strings: Estudo caso a caso. Classes de dados podem ser agrupadas, outros casos: processamento de linguagem natural Ex: Bairros de uma cidade, Livros Variáveis numéricas: Escalar a variável para comparação. Em alguns casos, outras operações devem ser realizadas Ex: Comparar comprimento (altura e largura humana) Variáveis imagens, vídeos e outros: Processamento específico Variáveis categóricas: Processamento específico. Ex: Cores 23
  • 24. Normalização de Variáveis Aleatórias ● Modelos de aprendizado devem tomar decisões sobre os dados e, para isso, devem receber os dados sem priorizar nenhum deles. Ou seja, a comparação entre eles deve ser “justa”. 24
  • 25. A criação de características úteis é difícil, consome tempo e requer conhecimento especializado. "Aprendizado de máquina aplicado" é basicamente engenharia de características. Andrew Ng, Machine Learning and AI via Brain simulations 25
  • 26. Engenharia de Características ● Muitas vezes, os dados não foram bem adquiridos. Ou seja, precisam ser “polidos” e trabalhos para serem utilizados com todo o seu potencial para a realização de uma tarefa específica. A este processo, chamamos de Engenharia de Características ou Feature Engineering. 26
  • 29. Tipos de Aprendizado 29 ● Aprendizado supervisionado: Algoritmos de aprendizado supervisionado constroem modelos a partir de dados que contém as entradas e as saídas desejadas. ● Aprendizado não-supervisionado: estes algoritmos usam um conjunto de dados que contém apenas entradas e localizam estrutura nos dados, como agrupamentos de de dados, ou a segmentação por uma característica específica. ● Aprendizado por Reforço: estes algoritmos trabalham na “área cinza” entre os dois anteriores. Utilizam programação dinâmica e outras técnicas para o aprendizado contínuo, sendo que o controle é gerido pelo ambiente em que o sistema está inserido
  • 30. Tipos de Aprendizado 30 ● Aprendizado de máquina (ML) é o estudo científico de algoritmos e modelos estatísticos computacionais aplicados para a realização de uma tarefa específica sem usar instruções explícitas, ou seja, contando com modelos e inferência estatística. ● É visto como um subconjunto da Inteligência Artificial (IA). ● Algoritmos de aprendizado de máquina constroem modelos de dados a partir de amostras específicas, conhecidas como dados de treinamento, para fazer previsões ou decisões sem ser explicitamente programado para executar a tarefa.
  • 33. Modelos Supervisionados 33 ● Quantos modelos existem? Muitos ● Vamos falar de três: Regressão Linear, Árvores de Decisão, Redes Neurais
  • 34. Modelos Supervisionados 34 ● Quantos modelos existem? Muitos ● Vamos falar de três: Regressão Linear, Árvores de Decisão, Redes Neurais
  • 35. Modelos Supervisionados 35 ● Quantos modelos existem? Muitos ● Vamos falar de três: Regressão Linear, Árvores de Decisão, Redes Neurais
  • 36. O treinamento do modelo é uma parte importante, mas sua análise, extração de informações relevantes e aplicação na tomada de decisão é a parte mais importante, onde há a geração de valor 36
  • 37. Avaliação de treinamento 37 TP: verdadeiros positivos, TN: verdadeiros negativos, FP: falsos positivos e FP: falsos negativos ● Precision: TP/TP+FP (do que é verdadeiro, quanto eu posso confiar) ● Recall (sensibilidade): TP/TP+FN (do que era pra detectar, quanto eu detectei?) ● Eficiência: Para uma dada classe, quanto eu acertei? ● Acurácia: Média das eficiências ● F1-score: 2x Precision x Recall / Precision + Recall ● Especificidade: TN/TN+FP (do que eu tinha pra negar, quanto eu neguei?)
  • 39. Avaliação de treinamento 39 Treinamento de regressão é diferente do treinamento de classificação
  • 40. Conceito base 40 ● Agrupamento por similaridade: Eventos próximos são parecidos, eventos distantes são diferentes. ● Forte dependência da representação, extrema necessidade de crítica do treinamento ● Dados no computador = vetores ○ Matemática vetorial... Extrator de Características Caract 1 Caract 2 Caract1 Caract 2
  • 41. Conceito base 41 ● Agrupamento por similaridade: Eventos próximos são parecidos, eventos distantes são diferentes. ● Forte dependência da representação, extrema necessidade de crítica do treinamento ● Dados no computador = vetores ○ Matemática vetorial... Extrator de Características Caract 1 Caract 2 Caract1 Caract 2
  • 42. Conceito base 42 ● Agrupamento por similaridade: Eventos próximos são parecidos, eventos distantes são diferentes. ● Forte dependência da representação, extrema necessidade de crítica do treinamento ● Dados no computador = vetores ○ Matemática vetorial... Extrator de Características Caract 1 Caract 2 Caract1 Caract 2
  • 44. Modelos de Agrupamentos 44 ● k-Nearest Neighbors
  • 45. Exemplo de um Workflow Fonte de Dados IT Log Preparação dos Dados Transformação Limpeza Seleção da Amostra Modelagem de Dados Clusterização Análise Validar Otimizar Descobrir Colaborar Deploy Relatório Dashboard Aplicativo Classificação Regressão
  • 46.
  • 47. Business and Data Immersion Transformamos insights através dos dados possibilitando gerar valor real para o negócio ($$). Nossos profissionais utilizam a metodologia de Design Thinking no contexto de Data-Driven Decision Making para criar soluções inovadoras movidas pelo conhecimento do negócio e pelos insights gerados pelos dados. Data Acquisition and Harmonization Trabalhamos com os clientes para construir extensos ecossistemas de dados. Avaliamos as fontes de dados disponíveis dentro e fora da organização e permitimos a criação de novos dados usando tecnologias acessíveis, como a Internet das coisas (IoT) e sensores inteligentes. Permitindo potencializar os dados para novas perspectivas. AI Workbench Nossos cientistas de dados selecionam os melhores algoritmos e abordagens, desde insights heurísticos do negócio até o aprendizado de máquina avançado, e os personalizam e aprimoram para a situação específica do cliente, aplicando profundo conhecimento funcional e de setor. Nossos Serviços
  • 48. Business-Focused Deploy Promovemos a desmistificação dos dados para que todos os stakeholders envolvidos possam facilmente aplicar análises a fim de gerar resultados mais inteligentes. Desde tornar os dados mais fáceis de entender por meio de UIs simples e self-service dashboards, até impulsionando a entrega por meio do desenvolvimento de softwares e apps. Data Architecture Depois de entender e obter os dados corretos, você precisa simplificar, organizar e integrá-los, o que geralmente envolve armazenamento na nuvem, data lakes e o uso de outras tecnologias emergentes de armazenamento e integração. Tudo isso levando em consideração os custos de implementação e manutenção da solução final. Organization & Governance Melhoria de processos e produtividade. Todos os aspectos da configuração de governança da plataforma, como segurança de big data, implementação e governança de carga de trabalho. Nossos Serviços
  • 49. Possuímos o nosso próprio método científico composto por observação, hipótese e experimentação. Reestruturando esses três conceitos de forma a capturar a essência de um ambiente ágil, temos um framework que passa pela formulação do modelo de inteligência artificial e experimentação com um frequente feedback do usuário. Modelagem de AI Feedback do Usuário Data Science + Agile entregas constantes
  • 50. Quem nós somos? Engenheiro Eletrônico e de Computação pela Universidade Federal do Rio de Janeiro (UFRJ), Mestre em Ciências da Engenharia e Doutor em Ciências da Engenharia, ambos os títulos obtidos na área de Inteligência Computacional pelo Programa de Engenharia Elétrica da COPPE/UFRJ. Tem como principais áreas de atuação o processamento digital de sinais, modelagem de dados (supervisionada e não-supervisionada), engenharia de características e análise de dados Natanael Nunes de Moura Junior Engenheiro de Telecomunicações pela UFF, Mestrando em Ciências da Engenharia pela Universidade Federal do Rio de Janeiro (UFRJ), na área de Inteligência Computacional pelo Programa de Engenharia Elétrica da COPPE/UFRJ. Atuou no mercado financeiro e no setor de telecomunicações, trabalhando 5 anos como Engenheiro de Software na Huawei Technologies, onde propôs e desenvolveu um solução de software premiada dentre 547 candidatos em um contexto global da empresa. Atualmente faz parte do time de Data Science da MJV atuando em engenharia e ciência de dados, em modelagem (supervisionada e não-supervisionada), engenharia de características e análise de dados. Carlos Eduardo Costa Covas Possui graduação em Física pela Universidade Estadual do Rio de Janeiro (UERJ) e é doutorando em Engenharia Elétrica pela Universidade Federal do Rio de Janeiro (UFRJ), atualmente faz parte do time de Data Science da MJV aplicando seus conhecimentos analíticos em modelagem e análise de dados. Participou das duas maiores colaborações científicas do mundo: o Fermi National Laboratory (Fermilab) nos arredores de Chicago e o Centre Européenne pour la Recherche Nucléaire (CERN) em Genebra. Possui uma sólida experiência em matemática, machine learning, análise estatística e habilidades analíticas para formular problemas e desenvolver soluções inovadoras. Philipp Gaspar