A ciência de dados por traz de sistemas de recomendação

•Télécharger en tant que ODP, PDF•

2 j'aime•463 vues

Este documento discute os principais conceitos e técnicas por trás dos sistemas de recomendação, incluindo ciência de dados preditiva e prescritiva, machine learning, filtros colaborativos e híbridos, e métricas para avaliar modelos de recomendação.

Ingénierie

A ciência de dados por trás
de sistemas de
recomendação

Preditiva
● Vai chover ou vai fazer sol?
● Quais ações vão valorizar?
● Quanto tempo vou levar pra chegar em casa?

Preditiva
● Vai chover ou vai fazer
sol?
● Quais ações vão
valorizar?
● Quanto tempo vou levar
pra chegar em casa?
Prescritiva
● Você deveria usar esta
roupa
● Você deveria comprar
estas ações
● Você deveria seguir este
trajeto

Preditiva, prescritiva e...
Psicologia
Semiótica
UX
+

Treino do modelo
Mesma métrica na validação

Resultado do modelo
model = [ 0.4, 0.7, 0.2, ….. ]
novos exemplos:
exemplo1 = [ 0.3, 0.2, 0.8, ….. ] * model.i = score
exemplo2 = [ 0.3, 0.2, 0.8, ….. ] * model.i = score
exemplo3 = [ 0.3, 0.2, 0.8, ….. ] * model.i = score

voltando pra recomendação
sobre os algoritmos

Filtragem e ordenação
● Não personalizada
● Baseada em conteúdo
● Filtragem colaborativa
● Híbrida

Filtragem Colaborativa
● Memory based
● Model based

Resultado do modelo de algoritmos
tradicionais
model = [ 0.4, 0.7, 0.2, ….. ]
novos exemplo:
exemplo1 = [ 0.3, 0.2, 0.8, ….. ] * model.i = score
exemplo2 = [ 0.3, 0.2, 0.8, ….. ] * model.i = score
exemplo3 = [ 0.3, 0.2, 0.8, ….. ] * model.i = score

Resultado de modelo de filtragem
colaborativa
user1 = [ 0.2, 0.3, 0.4, ….. ]
user2 = [ 0.4, 0.7, 0.2, ….. ]
…
item1 = [ 0.1, 0.8, 0.2, ….. ]
item2 = [ 0.7, 0.7, 0.1, ….. ]
…

usuário e item não treinado
não participa da brincadeira

Split aleatório inválido
Um usuário
que está aqui
Mas não está
aqui

Split correto
● Selecionar usuários com preferência
de no mínimo N+1 itens
● Selecionar aleatoriamente X desses
usuários
● Selecionar no máximo K itens
aleatórios desses usuários desde que
na base de treino o usuário continue
com N itens

Treino de modelo tradicional
Mesma métrica na validação

Não dá pra comparar
Se compararmos
dois algoritmos ou
input de dados
diferentes
Colaborative Filtering
por rating explícito
Colaborative Filtering
por rating implícito
binário
Colaborative Filtering
por rating implícito de
tempo de video visto
RMSE=0.7
RMSE=0.1
RMSE=30000

Treino de modelo de recomendação
Métrica de cada algoritmo
(Exemplo: ALS: RMSE)
Métrica de
ranking ou de
classificação

Sempre alta precisão e recall
item preference predicted
item1 0.8 0.7
item2 0.7 0.6
Precision@5x5 = 1.0
Recall@5x5 = 1.0
Precision@1x5 = 1.0
Recall@1x5 = 0.5

Inserir itens sem preferência
conhecida no split de teste
item preference predicted
item1 0.8 0.7
item2 0.7 0.6
item3 -- 0.8
item4 0.9
item5 0.95
item6 0.9
Precision@5x5 = 0.2
Recall@5x5 = 0.5
Precision@1x5 = 0.0
Recall@1x5 = 0.0

Resumão pra prova
● No fim das contas é bem parecido
● Split por usuário e itens
● Métrica diferente no treino e na validação
● Complemento de itens desconhecidos pra validação

Evitem essa armadilha
val Array(training, test) = ratings.randomSplit(Array(0.8, 0.2))
val als = new ALS()
val model = als.fit(training)
val predictions = model.transform(test)
val evaluator = new RegressionEvaluator().setMetricName("rmse")
val rmse = evaluator.evaluate(predictions)
println(s"Root-mean-square error = $rmse")

Contenu connexe

Similaire à A ciência de dados por traz de sistemas de recomendação

Aprendizagem Ativa em Sistemas de Filtragem Colaborativaigorsampaio

Guia completo para definição de estatística de modelos e algoritmos de machin...Geanderson Lenz

Machine Learning e Artificial Intelligence para desenvolvedores .NETRenato Haddad

Talk conexaoMorvana Bonin

AlfaCon LABs - Meetup Machine Learning (03/07/2014)Labs Alfacon

Projeto de Interfaces - Aula 04Carlos Rosemberg

masp - Método de Análise de ProblemasSergio Murilo Rocha da Silva

Aula 7 - MASP - ferramentas da qualidade - 2019-1IFMG

Gilcimar apresentaçãoFazel Mobini Kesheh

BSDDAY 2019 - Data Science e Artificial Intelligence usando FreebsdMauro Risonho de Paula Assumpcao

Scipy meetup-2020-02Renato Candido

Testes Automatizados de SoftwareMaurício Aniche

De Zero à Web com Python e DjangoOsvaldo Santana Neto

TDC2016SP - Trilha BigDatatdc-globalcode

Introdução a Machine LearningSandro Moreira

Usabilidade1GrupoAlves - professor

Data miningRicardo Vasconcelos

Teoria do Processamento da Informação no DesignUTFPR

Aula rotulação automática - Automatic taggingFelipe

Teste de Software - Especialização UnivemAndré Abe Vicente

Similaire à A ciência de dados por traz de sistemas de recomendação (20)

Aprendizagem Ativa em Sistemas de Filtragem Colaborativa

Guia completo para definição de estatística de modelos e algoritmos de machin...

Machine Learning e Artificial Intelligence para desenvolvedores .NET

Talk conexao

AlfaCon LABs - Meetup Machine Learning (03/07/2014)

Projeto de Interfaces - Aula 04

masp - Método de Análise de Problemas

Aula 7 - MASP - ferramentas da qualidade - 2019-1

Gilcimar apresentação

BSDDAY 2019 - Data Science e Artificial Intelligence usando Freebsd

Scipy meetup-2020-02

Testes Automatizados de Software

De Zero à Web com Python e Django

TDC2016SP - Trilha BigData

Introdução a Machine Learning

Usabilidade1

Data mining

Teoria do Processamento da Informação no Design

Aula rotulação automática - Automatic tagging

Teste de Software - Especialização Univem

Plus de Tiago Albineli Motta

Multi Armed BanditTiago Albineli Motta

Challenges and research for a real-time recommendation at OLXTiago Albineli Motta

Inteligência Artificial: Da ciência da computação à ciência de dadosTiago Albineli Motta

Machine Learning no dia a dia do desenvolvedor (Atualizado)Tiago Albineli Motta

Machine Learning no dia a dia do desenvolvedorTiago Albineli Motta

Experimentation anti patternsTiago Albineli Motta

Machine Learning e experimentos online para evitar o cancelamento no GloboPlayTiago Albineli Motta

xCLiMFTiago Albineli Motta

Rastros digitaisTiago Albineli Motta

Big dataTiago Albineli Motta

Recomendação de ponta a ponta na Globo.comTiago Albineli Motta

Recomendação na Globo.comTiago Albineli Motta

Otimizando seu projeto RailsTiago Albineli Motta

Meta-programacao em pythonTiago Albineli Motta

Testes unitários e de integração: Quando e PorqueTiago Albineli Motta

Redis na PráticaTiago Albineli Motta

Dinamizando Sites EstáticosTiago Albineli Motta

Escalando Sites com NginxTiago Albineli Motta

Plus de Tiago Albineli Motta (18)

Multi Armed Bandit

Challenges and research for a real-time recommendation at OLX

Inteligência Artificial: Da ciência da computação à ciência de dados

Machine Learning no dia a dia do desenvolvedor (Atualizado)

Machine Learning no dia a dia do desenvolvedor

Experimentation anti patterns

Machine Learning e experimentos online para evitar o cancelamento no GloboPlay

xCLiMF

Rastros digitais

Big data

Recomendação de ponta a ponta na Globo.com

Recomendação na Globo.com

Otimizando seu projeto Rails

Meta-programacao em python

Testes unitários e de integração: Quando e Porque

Redis na Prática

Dinamizando Sites Estáticos

Escalando Sites com Nginx

A ciência de dados por traz de sistemas de recomendação

1. A ciência de dados por trás de sistemas de recomendação

2. Data Science

3. Preditiva ● Vai chover ou vai fazer sol? ● Quais ações vão valorizar? ● Quanto tempo vou levar pra chegar em casa?

4. Preditiva ● Vai chover ou vai fazer sol? ● Quais ações vão valorizar? ● Quanto tempo vou levar pra chegar em casa? Prescritiva ● Você deveria usar esta roupa ● Você deveria comprar estas ações ● Você deveria seguir este trajeto

5. Preditiva, prescritiva e... Psicologia Semiótica UX +

6. Machine Learning

7. Pipeline de Machine Learning

8. Treino do modelo

9. Treino do modelo Split aleatório

10. Treino do modelo Mesma métrica na validação

11. Resultado do modelo model = [ 0.4, 0.7, 0.2, ….. ] novos exemplos: exemplo1 = [ 0.3, 0.2, 0.8, ….. ] * model.i = score exemplo2 = [ 0.3, 0.2, 0.8, ….. ] * model.i = score exemplo3 = [ 0.3, 0.2, 0.8, ….. ] * model.i = score

12. voltando pra recomendação sobre os algoritmos

13. Filtragem e ordenação ● Não personalizada ● Baseada em conteúdo ● Filtragem colaborativa ● Híbrida

14. Filtragem e ordenação ● Não personalizada ● Baseada em conteúdo ● Filtragem colaborativa ● Híbrida

15. Filtragem Colaborativa ● Memory based ● Model based

16. Memory based

17. Memory based

18. Model based

19. Model based

20. 3.634.0 - Model based

21. Média de erros quadráticos Model based

22. Resultado do modelo de algoritmos tradicionais model = [ 0.4, 0.7, 0.2, ….. ] novos exemplo: exemplo1 = [ 0.3, 0.2, 0.8, ….. ] * model.i = score exemplo2 = [ 0.3, 0.2, 0.8, ….. ] * model.i = score exemplo3 = [ 0.3, 0.2, 0.8, ….. ] * model.i = score

23. Resultado de modelo de filtragem colaborativa user1 = [ 0.2, 0.3, 0.4, ….. ] user2 = [ 0.4, 0.7, 0.2, ….. ] … item1 = [ 0.1, 0.8, 0.2, ….. ] item2 = [ 0.7, 0.7, 0.1, ….. ] …

24. usuário e item não treinado não participa da brincadeira

25. Split aleatório inválido Um usuário que está aqui Mas não está aqui

26. Split correto ● Selecionar usuários com preferência de no mínimo N+1 itens ● Selecionar aleatoriamente X desses usuários ● Selecionar no máximo K itens aleatórios desses usuários desde que na base de treino o usuário continue com N itens

27. Treino de modelo tradicional Mesma métrica na validação

28. Não dá pra comparar Se compararmos dois algoritmos ou input de dados diferentes Colaborative Filtering por rating explícito Colaborative Filtering por rating implícito binário Colaborative Filtering por rating implícito de tempo de video visto RMSE=0.7 RMSE=0.1 RMSE=30000

29. Treino de modelo de recomendação Métrica de cada algoritmo (Exemplo: ALS: RMSE) Métrica de ranking ou de classificação

30. Sempre alta precisão e recall item preference predicted item1 0.8 0.7 item2 0.7 0.6 Precision@5x5 = 1.0 Recall@5x5 = 1.0 Precision@1x5 = 1.0 Recall@1x5 = 0.5

31. Inserir itens sem preferência conhecida no split de teste item preference predicted item1 0.8 0.7 item2 0.7 0.6 item3 -- 0.8 item4 0.9 item5 0.95 item6 0.9 Precision@5x5 = 0.2 Recall@5x5 = 0.5 Precision@1x5 = 0.0 Recall@1x5 = 0.0

32. Resumão pra prova ● No fim das contas é bem parecido ● Split por usuário e itens ● Métrica diferente no treino e na validação ● Complemento de itens desconhecidos pra validação

33. Evitem essa armadilha val Array(training, test) = ratings.randomSplit(Array(0.8, 0.2)) val als = new ALS() val model = als.fit(training) val predictions = model.transform(test) val evaluator = new RegressionEvaluator().setMetricName("rmse") val rmse = evaluator.evaluate(predictions) println(s"Root-mean-square error = $rmse")

34. @timotta timotta@gmail.com

Notes de l'éditeur

É o sistema que ajuda pessoas a encontrarem o que necessitam com o mínimo esforço possivel.
Enorme matriz
SVD redução de dimensionalidade
É o sistema que ajuda pessoas a encontrarem o que necessitam com o mínimo esforço possivel.
P. Cremonesi, Y. Koren, and R. Turrin. Performance of recommender algorithms on top-n recommendation tasks. RecSys ’10, pages 39–46. ACM, 2010. Y. Koren. Factorization meets the neighborhood: a multifaceted collaborative filtering model. KDD ’08, pages 426–434. ACM, 2008.

A ciência de dados por traz de sistemas de recomendação

Recommandé

Recommandé

Contenu connexe

Similaire à A ciência de dados por traz de sistemas de recomendação

Similaire à A ciência de dados por traz de sistemas de recomendação (20)

Plus de Tiago Albineli Motta

Plus de Tiago Albineli Motta (18)

A ciência de dados por traz de sistemas de recomendação

Notes de l'éditeur