SlideShare uma empresa Scribd logo
1 de 40
Baixar para ler offline
Data Science
e Físicos
Apoio:
•  Pesquisa Cientifica
•  Mercado Financeiro
•  Programação
•  Industria
•  Farmácia
físicos… por toda parte!
•  Pesquisa Cientifica
•  Mercado Financeiro
•  Internet
físicos… por toda parte!
•  Pesquisa Cientifica (LHC, Genética, Meteorologia)
•  Mercado Financeiro
•  Cultura (Literatura,Jornais, Netflix)
•  Processos industriais
•  … e a internet!
Alguns números:
-  LHC: 70 TB/dia de dados
-  NYSE: 1 TB/dia de trading data
-  Facebook: 1.5 bilhão de likes em marcas por mês
-  Apontador: 50 milhões de pageviews por mês
-  Maplink: 1.8 bilhões de coordenadas processadas por mês
dados e dados… por toda parte!
Fontes:
- http://en.wikipedia.org/wiki/Large_Hadron_Collider
- http://marciaconner.com/blog/data-on-big-data/
hum?
•  O usuário realiza ações em um site.
•  Ações podem indicar preferências
•  Entender ações dos usuários aumenta o grau de informação sobre
ele.
•  Customização e experiência do usuário.
•  HPC (clusters, GPU, etc)
• Problemas: custos inicial, desenvolvimento exclusivo, manutenção
em longo prazo, extensibilidade
como processar terabytes?
•  Baixa do preço do Teraflop
• Criação do MapReduce
o que é Big Data?
Processamento:
Armazenamento:
•  Baixa do preço do MB
• Invenção do NoSQL
•  Volume de dados gigante
•  Dados indicam informações sobre os usuários
•  Faz tempo que existe uma avalanche de dados, que eram em geral
sumarizados.
•  Hoje existem ferramentas que permitem armazenar e processar
esses dados em sua forma bruta.
BIG Data
•  Dados são armazenados de maneira estruturada
•  Uma pequena parcela dos dados são armazenados
o que foi feito até hoje
•  Toda informação do usuário é logada
•  Se um dado gera informações que mudam ao longo do tempo, o log
é versionado por usuário
metodologia big data
Buscas, clicks, mouse hoover, movimentos no mapa
Fonte: Maplink -
•  Não é necessário um volume absurdo de dados
•  Operações complexas podem necessitar um grande parque
computacional mesmo para uma pequena quantidade de dados
•  Sistemas com pequena quantidade de dados podem se benificiar da
Metodologia big data
Small-Big-Medium Data
“Estou na Campus Party”
“Campus Party esse mês”
“O campus da USP é no Butanta”
Estou 1
na 1
Campus 1
Party 1
Campus 2
Party 2
esse 2
mês 2
O 3
campus 3
da 3
USP 3
é 3
no 3
Butanta 3
Estou 1
na 1
Campus 1,2,3
Party 1,2
esse 2
Mes 2
o 3
da 3
USP 3
e 3
no 3
butanta 3
10 de 21
Exemplo Map Reduce
Dados
Saída
Master Node
Worker
Worker
Worker
11 de 21
•  Facilmente escalável (embarrassingly parallel) a milhares de TB.
•  Baixo custo de escalabilidade: clusters com milhares de nós,
commodity servers
•  Facil correção de problemas on the fly.
12 de 21
Vantagens do Map Reduce
•  Programação de baixo nível de abstração.
•  Nem todo algorítmo pode ser escrito como uma única tarefa de
MapReduce.
•  Representação de algorítimos matemáticos complexos depende de
diversas tarefas de Map e Reduce.
13 de 21
Desvantagens do Map Reduce
enfim a data science. estatística?
Não sabemos toda a informação sobre o usuário
No total das opções, um usuário preencheu uma pequena parte
Mesmo para pessoas bem conhecidas, as decisões não são
determinísticas
Cassino: Qual a probabilidade de uma moeda ser coroa?
a estatística bayesiana
Metereologia: Qual a probabilidade de chover hoje?
Freqüencia
XEvidência
A estatística BAYESIANA
`
Filho, Filho Filho, Filha
Filha, Filho Filha, Filha
porque ela é importante
•  Data Scientist pode trazer conhecimento externo
•  eg: características dos usuários
•  eg: Crianças e bebidas alcoólicas
•  Introduzir daos do BI
•  eg: homens e produtos para gravidez
•  eg: acordos comerciais
•  Furacão Francis
Classificar quais itens serão mais vendidos e determinar a quantidade que
devo estocar
•  O que eu quero saber?
Compras relizadas em ultimos furacões
Época do ano e o que foi vendido
Quanto eles gastam?
Dos meus clientes, quais ficarão? (classificação)
furacão francis
•  Operadora de cartão
Minimizar probabilidade de default dos clientes
Ou ainda: quanto risco quero correr com a carteira de clientes
•  O que posso usar?
Histórico de pagamentos
O que usuários parecidos com esse fizeram (clustering)
precificação do cartão de crédito
•  Medidas de trânsito
Veiculos enviam informação a cada instante.
•  O que eu quer saber?
Estado da via (classificação)
Tipo de veículos (clustering)
Como eles dirigem? (clustering)
Velocidade da via (regressão)
19 de 21
estimativa de trânsito
SOBRE O ROTEIRIZADOR
o que recebemos
<Route><Category>1</Category><DateTime>0001-01-01T00:00:00</
DateTime><Destination xmlns:a="http://schemas.datacontract.org/
2004/07/SwissKnife.Spatial"><a:Lat>-8.150483</
a:Lat><a:Lng>-35.420284</a:Lng></Destination><Origin
xmlns:a="http://schemas.datacontract.org/2004/07/
SwissKnife.Spatial"><a:Lat>-8.149973</a:Lat><a:Lng>-35.41825</
a:Lng></Origin>
SOBRE O ROTEIRIZADOR
o padrão da marginal pinheiros
“Que item devo recomendar ao meu usuário?
Devo dar um desconto? Que valor de desconto eu
posso dar?”
•  O que conheço do usuário?
Compras efetuadas no passado
Dados de Navegação (user agent, produtos visualizados no passado, ...)
Descontos efetuados no passado
Dados pessoais (idade, sexo, ...)
Que produto o usuário está visualizando agora
•  O que quero saber?
Que produto recomendar?
Que desconto oferecer?
sr david steps, dono da loja virtual velhogeek:
Pid	
  	
  descrição	
   categoria	
   preço	
  
1	
   Notebook	
  Pear	
   Informa(ca	
   	
  R$3000.00	
  	
  
2	
   Notebook	
  HAL	
   Informa(ca	
   	
  R$2000.00	
  	
  
3	
   Celular	
  Pear	
  youPhone	
   Telefonia	
   	
  R$1800.00	
  	
  
4	
   Celular	
  Blue	
  Robot	
   Telefonia	
   	
  R$1600.00	
  	
  
5	
   Celular	
  youClone	
  com	
  8	
  chips	
   Telefonia	
   	
  R$800.00	
  	
  
6	
   Celular	
  EscritórioFone	
  for	
  Businessmen	
   Telefonia	
   	
  R$1000.00	
  	
  
7	
   Tênis	
  Mike	
   Roupas	
  e	
  Acessórios	
   	
  R$300.00	
  	
  
8	
   Tênis	
  Rei	
   Roupas	
  e	
  Acessórios	
   	
  R$150.00	
  	
  
9	
   Fone	
  de	
  Ouvido	
  youPhone	
  original	
   Acessórios	
  de	
  Informá(ca	
   	
  R$90.00	
  	
  
10	
   Mouse	
  CheapJunk	
  Systems	
   Acessórios	
  de	
  Informá(ca	
   	
  R$5.00	
  	
  
11	
   Mouse	
  MacroHard	
  sem	
  fio	
   Acessórios	
  de	
  Informá(ca	
   	
  R$90.00	
  	
  
12	
   CD:	
  Boy	
  Band	
  do	
  Ano	
  "Live	
  AcusXco"	
   Música	
   	
  R$25.00	
  	
  
13	
   CD:	
  Cool	
  Jazz	
  CollecXon	
  	
   Música	
   	
  R$25.00	
  	
  
14	
   Fraldas	
  Pimpolho	
  -­‐	
  200	
  unidades	
   Bebê	
   	
  R$50.00	
  	
  
15	
   Carrinho	
  de	
  Bebê	
  	
   Bebê	
   	
  R$150.00	
  	
  
16	
   Cerveja	
  -­‐	
  6	
  pack	
   Alimentos	
   	
  R$12.00	
  	
  
21	
   Vinho	
  -­‐	
  "Chateau	
  PeXt	
  Verdot"	
  bordeaux	
  grand	
  cru	
  classé	
   Alimentos	
   	
  R$120.00	
  	
  
18	
   Jogo	
  de	
  Videogame	
  -­‐	
  God	
  of	
  Ba`le	
   Jogos	
   	
  R$50.00	
  	
  
19	
   Livro:	
  "Receitas	
  para	
  Solteiros"	
   Livros	
   	
  R$25.00	
  	
  
20	
   Livro:	
  "God	
  of	
  Ba`le	
  -­‐	
  Estratégias	
  para	
  Ganhar"	
   Livros	
   	
  R$25.00	
  	
  
21	
   Livro:	
  "Como	
  Não	
  Matar	
  o	
  Seu	
  Bebê:	
  a	
  Arte	
  da	
  Guerra	
  para	
  Pais	
  Solteiros"	
   Livros	
   	
  R$25.00	
  	
  
22	
   Livro:	
  "Espeleologia	
  Comparada:	
  Introdução	
  ao	
  Cálculo	
  Setorial	
  MulXplexado"	
   Livros	
   	
  R$55.00	
  	
  
live demo!
Nosso objetivo: aumentar vendas
um simples exemplo de recomendação
como descobrir isso?
•  O que conheço do usuário?
Compras efetuadas no passado
Dados de Navegação (user agent, produtos visualizados no passado, ...)
Descontos efetuados no passado
Dados pessoais (idade, sexo, ...)
Que produto o usuário está visualizando agora
•  O que eu quer saber?
Que produto recomendar?
Que desconto oferecer?
um simples exemplo de recomendação
Idéia: promoção direcionada ao usuário
p(i)Prob(comprari|comprari, caracJ ) + p(k)Prob(comprark|comprari, caracJ )
p(i) + p(k)Prob(comprark|comprari, caracJ )
Prob(comprark|comprari, caracJ ) =
Prob(comprari, caracJ |comprark)
Prob(comprari, caracJ )
Prob(comprark)
Prob(comprari, caracJ |comprark)
Prob(comprari, caracJ )
=
Prob(comprari|comprark)Prob(caracJ |comprark)
Prob(comprari)Prob(caracJ )
Oferecer um segundo produto que maximize a esperança!
um simples exemplo de recomendação
Idéia: promoção direcionada ao usuário
Prob(comprark|comprari, caracJ ) =
Prob(caracJ |comprark)
Prob(caracJ )
Prob(comprark)
p(i) + p(k)
Prob(caracJ |comprark)
Prob(caracJ )
Prob(comprark)
um simples exemplo de recomendação
Idéia: promoção direcionada ao usuário
Caracteristicas: sexo, idade, classe de renda, educacao
p(i) + p(k)
Prob(caracJ |comprark)
Prob(caracJ )
Prob(comprark)
Prob(sexo|comprark)Prob(renda|comprark)Prob(edu|comprark)
Prob(idade, sexo, renca, edu|comprark) = Prob(idade|comprark)
21 de 21
Teorema de Bayes:
brigado!
É possível estimar as probabilidades a partir dos dados de transações
passadas se fizermos algumas hipóteses estatísticas.
Exemplo - hipótese de naïve Bayes - features afetam independentemente a
probabilidade da compra ser realizada.
O MODELO statístico
Prob(Usuario comprar|caracteristicas do usuario)
Prob(caracteristicas do usuario|Usuario comprar)Prob(realizar una compra)
Prob(caracter´ıstica do usuario)
Caio C. Gomes
Diretor Big Data e Inovação
caio.gomes@apontador.com

Mais conteúdo relacionado

Mais procurados

Mais procurados (8)

Big Data e Data Science - Tecnologia e Mercado
Big Data e Data Science - Tecnologia e MercadoBig Data e Data Science - Tecnologia e Mercado
Big Data e Data Science - Tecnologia e Mercado
 
Ativando Inteligência com Big Data
Ativando Inteligência com Big DataAtivando Inteligência com Big Data
Ativando Inteligência com Big Data
 
Governança de Dados e Big Data_v02
Governança de Dados e Big Data_v02Governança de Dados e Big Data_v02
Governança de Dados e Big Data_v02
 
Governança de Dados e Big Data
Governança de Dados e Big DataGovernança de Dados e Big Data
Governança de Dados e Big Data
 
O queo facebook faz com minhas fotos??? E o que o BigData tem haver com isso ???
O queo facebook faz com minhas fotos??? E o que o BigData tem haver com isso ???O queo facebook faz com minhas fotos??? E o que o BigData tem haver com isso ???
O queo facebook faz com minhas fotos??? E o que o BigData tem haver com isso ???
 
O que é Data Science?
O que é Data Science?O que é Data Science?
O que é Data Science?
 
Big data
Big dataBig data
Big data
 
Hackathon UOL
Hackathon  UOL Hackathon  UOL
Hackathon UOL
 

Destaque

Big Data e suas aplicações a analises de Transito
Big Data e suas aplicações a analises de TransitoBig Data e suas aplicações a analises de Transito
Big Data e suas aplicações a analises de Transito
Caio Gomes
 
NoSQL - Por que e quando usar?
NoSQL - Por que e quando usar?NoSQL - Por que e quando usar?
NoSQL - Por que e quando usar?
Nico Steppat
 

Destaque (9)

Big Data e suas aplicações a analises de Transito
Big Data e suas aplicações a analises de TransitoBig Data e suas aplicações a analises de Transito
Big Data e suas aplicações a analises de Transito
 
BIG DATA - UNASP - EC - 08/06/2015
BIG DATA - UNASP - EC - 08/06/2015BIG DATA - UNASP - EC - 08/06/2015
BIG DATA - UNASP - EC - 08/06/2015
 
NoSQL e Big Data na Nuvem
NoSQL e Big Data na NuvemNoSQL e Big Data na Nuvem
NoSQL e Big Data na Nuvem
 
Banco de Dados - NoSQL
Banco de Dados - NoSQLBanco de Dados - NoSQL
Banco de Dados - NoSQL
 
Big Data e Data Science - GBG - Google Business Group
Big Data e Data Science - GBG - Google Business GroupBig Data e Data Science - GBG - Google Business Group
Big Data e Data Science - GBG - Google Business Group
 
Data Science e Python: entendendo e aplicando
Data Science e Python: entendendo e aplicandoData Science e Python: entendendo e aplicando
Data Science e Python: entendendo e aplicando
 
Desmistificando NoSQL e Novas Tecnologias de Bancos de Dados
Desmistificando NoSQL e Novas Tecnologias de Bancos de DadosDesmistificando NoSQL e Novas Tecnologias de Bancos de Dados
Desmistificando NoSQL e Novas Tecnologias de Bancos de Dados
 
Modelos NoSQL e a Persistência Poliglota
Modelos NoSQL e a Persistência PoliglotaModelos NoSQL e a Persistência Poliglota
Modelos NoSQL e a Persistência Poliglota
 
NoSQL - Por que e quando usar?
NoSQL - Por que e quando usar?NoSQL - Por que e quando usar?
NoSQL - Por que e quando usar?
 

Semelhante a Data science e os físicos

Semelhante a Data science e os físicos (20)

Gamification e Big Data
Gamification e Big DataGamification e Big Data
Gamification e Big Data
 
Palestra Ciência de Dados
Palestra Ciência de DadosPalestra Ciência de Dados
Palestra Ciência de Dados
 
aula1 - Bigdata.pdf
aula1 - Bigdata.pdfaula1 - Bigdata.pdf
aula1 - Bigdata.pdf
 
Contexto de Big Data, Ciência de Dados e KDD - Pós Graduação em Big Data
Contexto de Big Data, Ciência de Dados e KDD - Pós Graduação em Big DataContexto de Big Data, Ciência de Dados e KDD - Pós Graduação em Big Data
Contexto de Big Data, Ciência de Dados e KDD - Pós Graduação em Big Data
 
Palestra garimpando com pentaho data mining latinoware
Palestra garimpando com pentaho data mining latinowarePalestra garimpando com pentaho data mining latinoware
Palestra garimpando com pentaho data mining latinoware
 
Big data e data science
Big data e data scienceBig data e data science
Big data e data science
 
[Conferência E-Commerce Brasil SC 2020] A indústria precisa acelerar no merca...
[Conferência E-Commerce Brasil SC 2020] A indústria precisa acelerar no merca...[Conferência E-Commerce Brasil SC 2020] A indústria precisa acelerar no merca...
[Conferência E-Commerce Brasil SC 2020] A indústria precisa acelerar no merca...
 
Casos de Uso de Big Data e Ciência de Dados no Mercado
 Casos de Uso de Big Data e Ciência de Dados no Mercado Casos de Uso de Big Data e Ciência de Dados no Mercado
Casos de Uso de Big Data e Ciência de Dados no Mercado
 
Marketing
MarketingMarketing
Marketing
 
Marketing
MarketingMarketing
Marketing
 
Marketing
MarketingMarketing
Marketing
 
Marketing
MarketingMarketing
Marketing
 
Marketing
MarketingMarketing
Marketing
 
Marketing
MarketingMarketing
Marketing
 
Marketing 2
Marketing 2Marketing 2
Marketing 2
 
Marketing
MarketingMarketing
Marketing
 
Marketing
MarketingMarketing
Marketing
 
Marketing
MarketingMarketing
Marketing
 
Marketing
MarketingMarketing
Marketing
 
Treinamento hadoop - dia1
Treinamento hadoop - dia1Treinamento hadoop - dia1
Treinamento hadoop - dia1
 

Mais de Caio Gomes (7)

Campus Party - Teoria de cordas
Campus Party - Teoria de cordasCampus Party - Teoria de cordas
Campus Party - Teoria de cordas
 
Ciencia dos filmes
Ciencia dos filmesCiencia dos filmes
Ciencia dos filmes
 
Novos desafios para big data
Novos desafios para big dataNovos desafios para big data
Novos desafios para big data
 
Vaga maplink
Vaga maplinkVaga maplink
Vaga maplink
 
Vaga Maplink
Vaga MaplinkVaga Maplink
Vaga Maplink
 
Big data em real time
Big data em real timeBig data em real time
Big data em real time
 
AWS Summit - Case Apontador & Maplink
AWS Summit - Case Apontador & MaplinkAWS Summit - Case Apontador & Maplink
AWS Summit - Case Apontador & Maplink
 

Data science e os físicos

  • 2. •  Pesquisa Cientifica •  Mercado Financeiro •  Programação •  Industria •  Farmácia físicos… por toda parte!
  • 3. •  Pesquisa Cientifica •  Mercado Financeiro •  Internet físicos… por toda parte!
  • 4.
  • 5.
  • 6.
  • 7. •  Pesquisa Cientifica (LHC, Genética, Meteorologia) •  Mercado Financeiro •  Cultura (Literatura,Jornais, Netflix) •  Processos industriais •  … e a internet! Alguns números: -  LHC: 70 TB/dia de dados -  NYSE: 1 TB/dia de trading data -  Facebook: 1.5 bilhão de likes em marcas por mês -  Apontador: 50 milhões de pageviews por mês -  Maplink: 1.8 bilhões de coordenadas processadas por mês dados e dados… por toda parte! Fontes: - http://en.wikipedia.org/wiki/Large_Hadron_Collider - http://marciaconner.com/blog/data-on-big-data/
  • 8.
  • 9.
  • 10. hum? •  O usuário realiza ações em um site. •  Ações podem indicar preferências •  Entender ações dos usuários aumenta o grau de informação sobre ele. •  Customização e experiência do usuário.
  • 11.
  • 12. •  HPC (clusters, GPU, etc) • Problemas: custos inicial, desenvolvimento exclusivo, manutenção em longo prazo, extensibilidade como processar terabytes?
  • 13. •  Baixa do preço do Teraflop • Criação do MapReduce o que é Big Data? Processamento: Armazenamento: •  Baixa do preço do MB • Invenção do NoSQL
  • 14. •  Volume de dados gigante •  Dados indicam informações sobre os usuários •  Faz tempo que existe uma avalanche de dados, que eram em geral sumarizados. •  Hoje existem ferramentas que permitem armazenar e processar esses dados em sua forma bruta. BIG Data
  • 15. •  Dados são armazenados de maneira estruturada •  Uma pequena parcela dos dados são armazenados o que foi feito até hoje
  • 16. •  Toda informação do usuário é logada •  Se um dado gera informações que mudam ao longo do tempo, o log é versionado por usuário metodologia big data Buscas, clicks, mouse hoover, movimentos no mapa
  • 18. •  Não é necessário um volume absurdo de dados •  Operações complexas podem necessitar um grande parque computacional mesmo para uma pequena quantidade de dados •  Sistemas com pequena quantidade de dados podem se benificiar da Metodologia big data Small-Big-Medium Data
  • 19. “Estou na Campus Party” “Campus Party esse mês” “O campus da USP é no Butanta” Estou 1 na 1 Campus 1 Party 1 Campus 2 Party 2 esse 2 mês 2 O 3 campus 3 da 3 USP 3 é 3 no 3 Butanta 3 Estou 1 na 1 Campus 1,2,3 Party 1,2 esse 2 Mes 2 o 3 da 3 USP 3 e 3 no 3 butanta 3 10 de 21 Exemplo Map Reduce
  • 21. •  Facilmente escalável (embarrassingly parallel) a milhares de TB. •  Baixo custo de escalabilidade: clusters com milhares de nós, commodity servers •  Facil correção de problemas on the fly. 12 de 21 Vantagens do Map Reduce
  • 22. •  Programação de baixo nível de abstração. •  Nem todo algorítmo pode ser escrito como uma única tarefa de MapReduce. •  Representação de algorítimos matemáticos complexos depende de diversas tarefas de Map e Reduce. 13 de 21 Desvantagens do Map Reduce
  • 23. enfim a data science. estatística? Não sabemos toda a informação sobre o usuário No total das opções, um usuário preencheu uma pequena parte Mesmo para pessoas bem conhecidas, as decisões não são determinísticas
  • 24. Cassino: Qual a probabilidade de uma moeda ser coroa? a estatística bayesiana Metereologia: Qual a probabilidade de chover hoje? Freqüencia XEvidência
  • 25. A estatística BAYESIANA ` Filho, Filho Filho, Filha Filha, Filho Filha, Filha
  • 26. porque ela é importante •  Data Scientist pode trazer conhecimento externo •  eg: características dos usuários •  eg: Crianças e bebidas alcoólicas •  Introduzir daos do BI •  eg: homens e produtos para gravidez •  eg: acordos comerciais
  • 27. •  Furacão Francis Classificar quais itens serão mais vendidos e determinar a quantidade que devo estocar •  O que eu quero saber? Compras relizadas em ultimos furacões Época do ano e o que foi vendido Quanto eles gastam? Dos meus clientes, quais ficarão? (classificação) furacão francis
  • 28. •  Operadora de cartão Minimizar probabilidade de default dos clientes Ou ainda: quanto risco quero correr com a carteira de clientes •  O que posso usar? Histórico de pagamentos O que usuários parecidos com esse fizeram (clustering) precificação do cartão de crédito
  • 29. •  Medidas de trânsito Veiculos enviam informação a cada instante. •  O que eu quer saber? Estado da via (classificação) Tipo de veículos (clustering) Como eles dirigem? (clustering) Velocidade da via (regressão) 19 de 21 estimativa de trânsito
  • 30.
  • 31. SOBRE O ROTEIRIZADOR o que recebemos <Route><Category>1</Category><DateTime>0001-01-01T00:00:00</ DateTime><Destination xmlns:a="http://schemas.datacontract.org/ 2004/07/SwissKnife.Spatial"><a:Lat>-8.150483</ a:Lat><a:Lng>-35.420284</a:Lng></Destination><Origin xmlns:a="http://schemas.datacontract.org/2004/07/ SwissKnife.Spatial"><a:Lat>-8.149973</a:Lat><a:Lng>-35.41825</ a:Lng></Origin>
  • 32. SOBRE O ROTEIRIZADOR o padrão da marginal pinheiros
  • 33. “Que item devo recomendar ao meu usuário? Devo dar um desconto? Que valor de desconto eu posso dar?” •  O que conheço do usuário? Compras efetuadas no passado Dados de Navegação (user agent, produtos visualizados no passado, ...) Descontos efetuados no passado Dados pessoais (idade, sexo, ...) Que produto o usuário está visualizando agora •  O que quero saber? Que produto recomendar? Que desconto oferecer? sr david steps, dono da loja virtual velhogeek:
  • 34. Pid    descrição   categoria   preço   1   Notebook  Pear   Informa(ca    R$3000.00     2   Notebook  HAL   Informa(ca    R$2000.00     3   Celular  Pear  youPhone   Telefonia    R$1800.00     4   Celular  Blue  Robot   Telefonia    R$1600.00     5   Celular  youClone  com  8  chips   Telefonia    R$800.00     6   Celular  EscritórioFone  for  Businessmen   Telefonia    R$1000.00     7   Tênis  Mike   Roupas  e  Acessórios    R$300.00     8   Tênis  Rei   Roupas  e  Acessórios    R$150.00     9   Fone  de  Ouvido  youPhone  original   Acessórios  de  Informá(ca    R$90.00     10   Mouse  CheapJunk  Systems   Acessórios  de  Informá(ca    R$5.00     11   Mouse  MacroHard  sem  fio   Acessórios  de  Informá(ca    R$90.00     12   CD:  Boy  Band  do  Ano  "Live  AcusXco"   Música    R$25.00     13   CD:  Cool  Jazz  CollecXon     Música    R$25.00     14   Fraldas  Pimpolho  -­‐  200  unidades   Bebê    R$50.00     15   Carrinho  de  Bebê     Bebê    R$150.00     16   Cerveja  -­‐  6  pack   Alimentos    R$12.00     21   Vinho  -­‐  "Chateau  PeXt  Verdot"  bordeaux  grand  cru  classé   Alimentos    R$120.00     18   Jogo  de  Videogame  -­‐  God  of  Ba`le   Jogos    R$50.00     19   Livro:  "Receitas  para  Solteiros"   Livros    R$25.00     20   Livro:  "God  of  Ba`le  -­‐  Estratégias  para  Ganhar"   Livros    R$25.00     21   Livro:  "Como  Não  Matar  o  Seu  Bebê:  a  Arte  da  Guerra  para  Pais  Solteiros"   Livros    R$25.00     22   Livro:  "Espeleologia  Comparada:  Introdução  ao  Cálculo  Setorial  MulXplexado"   Livros    R$55.00    
  • 36. Nosso objetivo: aumentar vendas um simples exemplo de recomendação como descobrir isso? •  O que conheço do usuário? Compras efetuadas no passado Dados de Navegação (user agent, produtos visualizados no passado, ...) Descontos efetuados no passado Dados pessoais (idade, sexo, ...) Que produto o usuário está visualizando agora •  O que eu quer saber? Que produto recomendar? Que desconto oferecer?
  • 37. um simples exemplo de recomendação Idéia: promoção direcionada ao usuário p(i)Prob(comprari|comprari, caracJ ) + p(k)Prob(comprark|comprari, caracJ ) p(i) + p(k)Prob(comprark|comprari, caracJ ) Prob(comprark|comprari, caracJ ) = Prob(comprari, caracJ |comprark) Prob(comprari, caracJ ) Prob(comprark) Prob(comprari, caracJ |comprark) Prob(comprari, caracJ ) = Prob(comprari|comprark)Prob(caracJ |comprark) Prob(comprari)Prob(caracJ ) Oferecer um segundo produto que maximize a esperança!
  • 38. um simples exemplo de recomendação Idéia: promoção direcionada ao usuário Prob(comprark|comprari, caracJ ) = Prob(caracJ |comprark) Prob(caracJ ) Prob(comprark) p(i) + p(k) Prob(caracJ |comprark) Prob(caracJ ) Prob(comprark)
  • 39. um simples exemplo de recomendação Idéia: promoção direcionada ao usuário Caracteristicas: sexo, idade, classe de renda, educacao p(i) + p(k) Prob(caracJ |comprark) Prob(caracJ ) Prob(comprark) Prob(sexo|comprark)Prob(renda|comprark)Prob(edu|comprark) Prob(idade, sexo, renca, edu|comprark) = Prob(idade|comprark)
  • 40. 21 de 21 Teorema de Bayes: brigado! É possível estimar as probabilidades a partir dos dados de transações passadas se fizermos algumas hipóteses estatísticas. Exemplo - hipótese de naïve Bayes - features afetam independentemente a probabilidade da compra ser realizada. O MODELO statístico Prob(Usuario comprar|caracteristicas do usuario) Prob(caracteristicas do usuario|Usuario comprar)Prob(realizar una compra) Prob(caracter´ıstica do usuario) Caio C. Gomes Diretor Big Data e Inovação caio.gomes@apontador.com