Palestra para a turma de formandos da faculdade Anhanguera de Sorocaba sobre Big Data e Gamificação.
Nela falamos de alguns exemplos de como táticas de Gamificação podem ser usadas para aumentar a quantidade e a qualidade de informações captadas sobre os usuários e como isso ajuda em análises de Big Data.
3. age of data
•
•
•
•
•
Pesquisa Cientifica (LHC, Genética, Meteorologia)
Mercado Financeiro
Cultura (Literatura,Jornais, Netflix)
Processos industriais
… e a internet!
!
Alguns números:
LHC: 70 TB/dia de dados
NYSE: 1 TB/dia de trading data
Facebook: 1.5 bilhão de likes em marcas por mês
Apontador: 50 milhões de pageviews por mês
Maplink: 1.8 bilhões de coordenadas processadas por mês
:
4.
5. hum?
• O usuário realiza ações em um site.
• Ações podem indicar preferências
• Entender ações dos usuários aumenta o grau de informação sobre
ele.
• Customização e experiência do usuário.
15. então quais as vantagens?
• novas/melhores informações sobre os usuários
• maior tempo de uso
•
16.
17. porque nunca foi feito?
• preço do cpu
• preço do GB
• custo inicial
18. o que mudou?
Processamento:
• Baixa do preço do Teraflop
• Criação do MapReduce
Armazenamento:
• Baixa do preço do MB
• Invenção do NoSQL
19. BIG Data
• Volume de dados gigante
• Dados indicam informações sobre os usuários
• Faz tempo que existe uma avalanche de dados, que eram em geral
sumarizados.
• Hoje existem ferramentas que permitem armazenar e processar esses
dados em sua forma bruta.
20. como trabalhamos até hoje
• Dados são armazenados de maneira estruturada
• Uma pequena parcela dos dados são armazenados
!
23. Exemplo Map Reduce
“Estou na Campus Party”
“O campus da USP é no Butanta”
“Campus Party esse mês”
Estou
na
Campus
Party
1
1
1
1
Estou
1
na
1
Campus 1,2,3
Campus
Party
esse
mês
Party
esse
Mes
O
campus
da
USP
é
no
Butanta
2
2
2
2
1,2
2
2
o
da
USP
e
3
3
3
3
3
3
3
3
3
3
3
no
3
butanta 3
10 de 21
24. Vantagens do Map Reduce
• Facilmente escalável (embarrassingly parallel) a milhares de TB.
• Baixo custo de escalabilidade: clusters com milhares de nós,
commodity servers
• Facil correção de problemas on the fly.
12 de 21
25. Desvantagens do Map Reduce
• Programação de baixo nível de abstração.
• Nem todo algorítmo pode ser escrito como uma única tarefa de
MapReduce.
• Representação de algorítimos matemáticos complexos depende de
diversas tarefas de Map e Reduce.
13 de 21
26.
27. furacão francis
• Furacão Francis
Classificar quais itens serão mais vendidos e determinar a quantidade que devo
estocar
• O que eu quero saber?
Compras relizadas em ultimos furacões
Época do ano e o que foi vendido
Quanto eles gastam?
Dos meus clientes, quais ficarão? (classificação)
!
!
!
28. precificação do cartão de crédito
• Operadora de cartão
Minimizar probabilidade de default dos clientes
Ou ainda: quanto risco quero correr com a carteira de clientes
• O que posso usar?
Histórico de pagamentos
O que usuários parecidos com esse fizeram (clustering)
!
!
29. estimativa de trânsito
• Medidas de trânsito
Veiculos enviam informação a cada instante.
• O que eu quer saber?
Estado da via (classificação)
Tipo de veículos (clustering)
Como eles dirigem? (clustering)
Velocidade da via (regressão)
!
!
19 de 21
30.
31. SOBRE O ROTEIRIZADOR
o que recebemos
<Route><Category>1</Category><DateTime>0001-01-01T00:00:00</
DateTime><Destination xmlns:a="http://schemas.datacontract.org/
2004/07/SwissKnife.Spatial"><a:Lat>-8.150483</a:Lat><a:Lng>-35.420284</
a:Lng></Destination><Origin xmlns:a="http://schemas.datacontract.org/
2004/07/SwissKnife.Spatial"><a:Lat>-8.149973</a:Lat><a:Lng>-35.41825</
a:Lng></Origin>
33. sr david steps, dono da loja virtual velhogeek:
“Que item devo recomendar ao meu usuário? Devo
dar um desconto? Que valor de desconto eu posso
dar?”
• O que conheço do usuário?
Compras efetuadas no passado
Dados de Navegação (user agent, produtos visualizados no passado, ...)
Descontos efetuados no passado
Dados pessoais (idade, sexo, ...)
Que produto o usuário está visualizando agora
• O que quero saber?
Que produto recomendar?
Que desconto oferecer?
!
34. Pid
descrição
categoria
preço
1
Notebook
Pear
Informatica
R$3000.00
2
Notebook
HAL
Informatica
R$2000.00
3
Celular
Pear
youPhone
Telefonia
R$1800.00
4
Celular
Blue
Robot
Telefonia
R$1600.00
5
Celular
youClone
com
8
chips
Telefonia
R$800.00
6
Celular
EscritórioFone
for
Businessmen
Telefonia
R$1000.00
7
Tênis
Mike
Roupas
e
Acessórios
R$300.00
8
Tênis
Rei
Roupas
e
Acessórios
R$150.00
9
Fone
de
Ouvido
youPhone
original
Acessórios
de
Informática
R$90.00
10 Mouse
CheapJunk
Systems
Acessórios
de
Informática
R$5.00
11 Mouse
MacroHard
sem
fio
Acessórios
de
Informática
R$90.00
12 CD:
Boy
Band
do
Ano
"Live
Acustico"
Música
R$25.00
13 CD:
Cool
Jazz
Collection
Música
R$25.00
14 Fraldas
Pimpolho
-‐
200
unidades
Bebê
R$50.00
15 Carrinho
de
Bebê
Bebê
R$150.00
16 Cerveja
-‐
6
pack
Alimentos
R$12.00
36. O MODELO statístico
brigado!
Teorema de Bayes:
É possível estimar as probabilidades a partir dos dados de transações passadas
se fizermos algumas hipóteses estatísticas.
Caio C. Gomes
Diretor Big Data e Inovação
caio.gomes@apontador.com
Exemplo - hipótese de naïve Bayes - features afetam independentemente a
probabilidade da compra ser realizada.
21 de 21