Desvendando os mistérios do Data Science

Desvendando os
mistérios do
Data Science
1

DADOS
INFORMAÇÃO
CONHECIMENTO
Dados constituem a matéria prima da informação, ou seja, é a
informação não tratada. Os dados representam um ou mais
significados que isoladamente não podem transmitir uma mensagem
ou representar algum conhecimento (sensores, leituras de campo).
Informação são dados tratados. O resultado do processamento de
dados são as informações. As informações, podem ser utilizadas na
tomada de decisões (insights, classificações e segmentações).
Conhecimento vai além de informações, pois ele além de ter um
significado tem uma aplicação (perfil de um cliente, jornada de um
consumidor).
Analogia: Petróleo. Dados são o petróleo em si, a informação é o
produto do refino do petróleo (gasolina) e o conhecimento é a
utilização do produto do refino para um fim (transporte).
Ciência de Dados
6

Explosão da área
7
Das top 10 empresas transacionadas no mercado financeiro em 2006, 4 eram de óleo e gás.

Explosão da área
8
Das top 10 empresas
transacionadas no mercado
financeiro em 2018, 8 são
relacionadas com análise de
dados e afins

Um Mapa para a Ciência de Dados
Analytics Statistical Inference Machine Learning
Caso não saiba quais
decisões irá tomar, Analytics
é um ótimo começo para
procurar inspiração.
Também conhecida como
Data Mining, Exploratory
Data Analysis (EDA) e
Knowledge Discovery (KD).
Se você pretende tomar
decisões importantes, com
controle de risco, que
dependem de conclusões
sobre o mundo além dos
dados disponíveis, você
precisará trazer habilidades
estatísticas para sua equipe.
O foco principal é o
desenvolvimento de
algoritmos capazes de
acessar a amostra de dados e
usá-la para aprender as
relações intrínsecas entre
eles.
Taxonomia do Tema
9

BI e Data Science
11
Análise Prescritiva
“O que precisamos fazer?”
Análise Preditiva
“O que é provável que aconteça?”
Análise Diagnóstica
“Por que isso aconteceu??”
Análise Descritiva
“O que aconteceu?”
Complexidade da Análise
Valorparaonegócio
Big Data
IoT

Dados são a próxima fronteira no
ambiente empresarial. Com eles, as
empresas podem acessar mercados
inexplorados de maneira mais
rápida, eﬁciente e econômica.
12

Skills
Ciência de Dados é, sobretudo, um tema multidisciplinar.
Drew Conway - 2010
● Matemática: Modelagem e sumarização do
conjunto de dados (que cresce em escala
exponencial a cada dia).
● Ciência da Computação: Implementar e utilizar
algoritmos para armazenamento, processamento e
visualização dos dados.
● Conhecimento Especialista: Treinamento formal
em uma determinada área, necessário para
formular perguntas e apresentar as respostas
dentro do contexto estudado.
13

Skills
Ciência de Dados é, sobretudo, um tema multidisciplinar.
Drew Conway - 2010
Data science is a ‘concept to unify statistics, data
analysis, machine learning and their related
methods’ in order to ‘understand and analyze actual
phenomena’ with data.
Unicorn
14

Variáveis Aleatórias
● Assim sendo, precisamos de uma estatística que descreva os dados de entrada e se ajuste a cada um dos casos
de trabalho. Ou seja, vamos lançar mão de um pouco de matemática.
● Basicamente, suponha um caso geral: um gerador de dados, regido por uma função geradora de dados ( f(x) )
Gerador de Dados de
Interesse
f(x) controle
Dados de
toda a sorte
A maioria dos problemas podem ser abordados neste
modelo.
Num caso mais geral, o controle pode ser o seu sistema de
aquisição de dados ou o “trigger” da ação em si.
Perguntas importantes até aqui:
1. Qual o formato do seu dado?
2. Qual o controle que ele segue?
3. Qual a função geradora de dados?
15

Variáveis Aleatórias
● A pergunta-chave aqui é qual a função geradora dos dados?
● Quando sabemos a resposta desta pergunta, podemos dizer que temos todas as informações necessárias para
criação de dados (informação plena). Tal condição é extremamente difícil de ser obtida, sendo muitas vezes nunca
alcançada.
● Então, como em um bom projeto de engenharia: o ótimo é inimigo do bom! Utilizamos aproximações para obter
esta função geradora dos dados.
Dados = f(x)
Diversas maneiras de estimar os parâmetros e as funções do
modelo.
Vamos a dois casos “práticos”: moeda e dado não-viciado
16

Modelagem de Variáveis Aleatórias
● Modelagem de dados: descrever os dados utilizados através de uma função.
● Basicamente, descrever os dados através de uma função matemática. Quanto mais complexo a função original do
dado, mais complexa a função matemática que deve descrever este dado.
● Qual o limite? Depende da sua aplicação.
● Exemplo: média.
17

● Intuitivamente, sempre fazemos modelagem de dados. Quando tentamos agrupar todos os nossos dados em um único
valor.
● Modelar dados pode ser uma das partes mais complexas do problema de análise de dados. Modelos muito complexos,
geram melhores análises mas podem ser difíceis de lidar. Modelos mais simples são mais fáceis de trabalhar, mas geram
conclusões mais triviais.
● Basicamente, o que tentamos fazer é aproximar uma distribuição (função geradora de dados) por uma série de
parâmetros ou outras distribuições
Média Variância
18

● Um histograma é uma representação precisa e, bastante utilizada para estimar a distribuição de dados.
● É uma estimativa da distribuição de probabilidade de uma variável aleatória
● Se difere de um gráfico de barras, pois um gráfico de barras relaciona duas variáveis, mas um histograma
relaciona apenas uma.
● Para construir um histograma, o primeiro passo é a determinação da quantidade "bins", ou seja o intervalo de
valores isto é, dividir todo o intervalo de valores em um conjunto de intervalos - e depois contar quantos valores se
enquadram em cada intervalo.
19

● Uma das maneiras mais simples de estimar a PDF de uma variável aleatória é o boxplot
20

Relacionamento entre Variáveis Aleatórias
A relação entre duas variáveis
aleatórias pode ser de grande
utilidade em um negócio.
Ex: Conto das fraldas e cervejas
(Beer, Diapers, and Correlation: A
Tale of Ambiguity)
“The ﬁndings were that men
between 30- 40 years in age,
shopping between 5pm and 7pm
on Fridays, who purchased
diapers were most likely to also
have beer in their carts. This
motivated the grocery store to
move the beer isle closer to the
diaper isle and wiz-boom-bang,
instant 35% increase in sales of
both.”
21

Normalização de Variáveis Aleatórias
● As variáveis de um banco de dados são produtos de medidas ou informações medidas pelo cliente e, sendo assim,
podem ser de naturezas completamente diferentes.
● Dados são, naturalmente, um ativo de uma empresa e, devido a isso, devem ser cuidadosamente tratados
22

Variáveis strings: Estudo caso a caso. Classes de
dados podem ser agrupadas, outros casos:
processamento de linguagem natural
Ex: Bairros de uma cidade, Livros
Variáveis numéricas: Escalar a variável para
comparação. Em alguns casos, outras operações
devem ser realizadas
Ex: Comparar comprimento (altura e largura
humana)
Variáveis imagens, vídeos e outros:
Processamento especíﬁco
Variáveis categóricas: Processamento
especíﬁco.
Ex: Cores
23

● Modelos de aprendizado devem tomar decisões sobre os dados e, para isso, devem receber os dados sem
priorizar nenhum deles. Ou seja, a comparação entre eles deve ser “justa”.
24

A criação de características úteis é
difícil, consome tempo e requer
conhecimento especializado.
"Aprendizado de máquina aplicado"
é basicamente engenharia de
características.
Andrew Ng, Machine Learning and AI via Brain simulations
25

Engenharia de Características
● Muitas vezes, os dados não foram bem adquiridos. Ou seja, precisam ser “polidos” e trabalhos para serem
utilizados com todo o seu potencial para a realização de uma tarefa específica. A este processo, chamamos de
Engenharia de Características ou Feature Engineering.
26

27

28

Tipos de Aprendizado
29
● Aprendizado supervisionado: Algoritmos
de aprendizado supervisionado constroem
modelos a partir de dados que contém as
entradas e as saídas desejadas.
● Aprendizado não-supervisionado: estes
algoritmos usam um conjunto de dados que
contém apenas entradas e localizam
estrutura nos dados, como agrupamentos de
de dados, ou a segmentação por uma
característica específica.
● Aprendizado por Reforço: estes
algoritmos trabalham na “área cinza” entre
os dois anteriores. Utilizam programação
dinâmica e outras técnicas para o
aprendizado contínuo, sendo que o
controle é gerido pelo ambiente em que o
sistema está inserido

Tipos de Aprendizado
30
● Aprendizado de máquina (ML) é o estudo científico de
algoritmos e modelos estatísticos computacionais
aplicados para a realização de uma tarefa específica
sem usar instruções explícitas, ou seja, contando com
modelos e inferência estatística.
● É visto como um subconjunto da Inteligência Artificial
(IA).
● Algoritmos de aprendizado de máquina constroem
modelos de dados a partir de amostras específicas,
conhecidas como dados de treinamento, para fazer
previsões ou decisões sem ser explicitamente
programado para executar a tarefa.

Tipos de treinamento
32
Classificação Regressão

Modelos Supervisionados
33
● Quantos modelos existem? Muitos
● Vamos falar de três: Regressão Linear, Árvores de Decisão, Redes Neurais

34

35

O treinamento do modelo é uma
parte importante, mas sua análise,
extração de informações relevantes
e aplicação na tomada de decisão é a
parte mais importante, onde há a
geração de valor
36

Avaliação de treinamento
37
TP: verdadeiros positivos, TN: verdadeiros negativos, FP: falsos
positivos e FP: falsos negativos
● Precision: TP/TP+FP (do que é verdadeiro, quanto eu
posso confiar)
● Recall (sensibilidade): TP/TP+FN (do que era pra detectar,
quanto eu detectei?)
● Eficiência: Para uma dada classe, quanto eu acertei?
● Acurácia: Média das eficiências
● F1-score: 2x Precision x Recall / Precision + Recall
● Especificidade: TN/TN+FP (do que eu tinha pra negar,
quanto eu neguei?)

Avaliação de treinamento
39
Treinamento de regressão é diferente do treinamento de
classiﬁcação

Conceito base
40
● Agrupamento por similaridade: Eventos próximos são parecidos, eventos distantes são diferentes.
● Forte dependência da representação, extrema necessidade de crítica do treinamento
● Dados no computador = vetores
○ Matemática vetorial...
Extrator de
Características
Caract 1
Caract 2
Caract1
Caract 2

Conceito base
41
Extrator de
Características
Caract 1
Caract 2
Caract1
Caract 2

Conceito base
42
Extrator de
Características
Caract 1
Caract 2
Caract1
Caract 2

Modelos de Agrupamentos
43
● kMeans

Modelos de Agrupamentos
44
● k-Nearest Neighbors

Exemplo de um Workﬂow
Fonte de Dados
IT Log
Preparação dos Dados
Transformação Limpeza
Seleção da
Amostra
Modelagem de Dados
Clusterização
Análise
Validar
Otimizar
Descobrir
Colaborar
Deploy
Relatório
Dashboard
Aplicativo
Classiﬁcação Regressão

Business and Data
Immersion
Transformamos insights através dos
dados possibilitando gerar valor real para
o negócio ($$). Nossos proﬁssionais
utilizam a metodologia de Design
Thinking no contexto de Data-Driven
Decision Making para criar soluções
inovadoras movidas pelo conhecimento
do negócio e pelos insights gerados pelos
dados.
Data Acquisition and
Harmonization
Trabalhamos com os clientes para
construir extensos ecossistemas de
dados. Avaliamos as fontes de dados
disponíveis dentro e fora da organização
e permitimos a criação de novos dados
usando tecnologias acessíveis, como a
Internet das coisas (IoT) e sensores
inteligentes. Permitindo potencializar os
dados para novas perspectivas.
AI Workbench
Nossos cientistas de dados
selecionam os melhores
algoritmos e abordagens, desde
insights heurísticos do negócio até o
aprendizado de máquina avançado,
e os personalizam e aprimoram
para a situação especíﬁca do
cliente, aplicando profundo
conhecimento funcional e de setor.
Nossos Serviços

Business-Focused Deploy
Promovemos a desmistificação dos
dados para que todos os stakeholders
envolvidos possam facilmente aplicar
análises a fim de gerar resultados mais
inteligentes. Desde tornar os dados
mais fáceis de entender por meio de
UIs simples e self-service dashboards,
até impulsionando a entrega por meio
do desenvolvimento de softwares e
apps.
Data Architecture
Depois de entender e obter os dados
corretos, você precisa simplificar,
organizar e integrá-los, o que
geralmente envolve armazenamento na
nuvem, data lakes e o uso de outras
tecnologias emergentes de
armazenamento e integração. Tudo isso
levando em consideração os custos de
implementação e manutenção da solução
final.
Organization & Governance
Melhoria de processos e
produtividade. Todos os aspectos
da configuração de governança da
plataforma, como segurança de big
data, implementação e governança
de carga de trabalho.
Nossos Serviços

Possuímos o nosso próprio método cientíﬁco
composto por observação, hipótese e
experimentação.
Reestruturando esses três conceitos de forma a
capturar a essência de um ambiente ágil, temos
um framework que passa pela formulação do
modelo de inteligência artiﬁcial e experimentação
com um frequente feedback do usuário.
Modelagem
de AI
Feedback
do
Usuário
Data Science + Agile
entregas constantes

Quem nós somos?
Engenheiro Eletrônico e de Computação pela Universidade Federal do Rio de Janeiro (UFRJ), Mestre em
Ciências da Engenharia e Doutor em Ciências da Engenharia, ambos os títulos obtidos na área de
Inteligência Computacional pelo Programa de Engenharia Elétrica da COPPE/UFRJ. Tem como principais
áreas de atuação o processamento digital de sinais, modelagem de dados (supervisionada e
não-supervisionada), engenharia de características e análise de dados
Natanael Nunes de Moura Junior
Engenheiro de Telecomunicações pela UFF, Mestrando em Ciências da Engenharia pela Universidade
Federal do Rio de Janeiro (UFRJ), na área de Inteligência Computacional pelo Programa de Engenharia
Elétrica da COPPE/UFRJ. Atuou no mercado ﬁnanceiro e no setor de telecomunicações, trabalhando 5
anos como Engenheiro de Software na Huawei Technologies, onde propôs e desenvolveu um solução de
software premiada dentre 547 candidatos em um contexto global da empresa. Atualmente faz parte do
time de Data Science da MJV atuando em engenharia e ciência de dados, em modelagem
(supervisionada e não-supervisionada), engenharia de características e análise de dados.
Carlos Eduardo Costa Covas
Possui graduação em Física pela Universidade Estadual do Rio de Janeiro (UERJ) e é doutorando em
Engenharia Elétrica pela Universidade Federal do Rio de Janeiro (UFRJ), atualmente faz parte do time de
Data Science da MJV aplicando seus conhecimentos analíticos em modelagem e análise de dados.
Participou das duas maiores colaborações cientíﬁcas do mundo: o Fermi National Laboratory (Fermilab)
nos arredores de Chicago e o Centre Européenne pour la Recherche Nucléaire (CERN) em Genebra.
Possui uma sólida experiência em matemática, machine learning, análise estatística e habilidades
analíticas para formular problemas e desenvolver soluções inovadoras.
Philipp Gaspar

Desvendando os mistérios do Data Science

Recommandé

Recommandé

Contenu connexe

Tendances

Tendances (16)

Similaire à Desvendando os mistérios do Data Science

Similaire à Desvendando os mistérios do Data Science (20)

Plus de MJV Technology & Innovation Brasil

Plus de MJV Technology & Innovation Brasil (19)

Desvendando os mistérios do Data Science