Ce diaporama a bien été signalé.
Nous utilisons votre profil LinkedIn et vos données d’activité pour vous proposer des publicités personnalisées et pertinentes. Vous pouvez changer vos préférences de publicités à tout moment.

Big data e Machine Learning na globo.com

1 026 vues

Publié le

Como a globo.com utiliza big data e machine learning para impulsionar o engajamento dos usuários.
Como utilizamos aprendizado supervisionado, não supervisionado e por reforço para conseguirmos melhorar a experiência do usuário.

Publié dans : Technologie
  • Soyez le premier à commenter

Big data e Machine Learning na globo.com

  1. 1. BIGDATAe MACHINELEARNING @renan_oliveira
  2. 2. CARA QUE GOSTA DE DADOS @renan_oliveira
  3. 3. Líderemaudiênciaeumadasprincipais empresasdetecnologiadoBrasil
  4. 4. 100 MILHÕESDE USUÁRIOS ÚNICOS POR MÊS comScore out/2018
  5. 5. BIG NUMBERS 10 milhões de usuários únicos por dia 2 milhões de conexões simultâneas 4 bilhõesde eventos diários 100 mil novos conteúdos por mês
  6. 6. Como aprendemos os interesses dos usuários dado a sua navegação. desde 2012
  7. 7. RIO 2000 SPO 2019 POA 2016
  8. 8. BigData éanossa base
  9. 9. event tracker by globo.com
  10. 10. TRABALHANDO COM
  11. 11. Experimentação orientadaa dados
  12. 12. A/B 80%daaudiência 20%daaudiência vs
  13. 13. 80%daaudiência 20%daaudiência vsA/B
  14. 14. 80%daaudiência 20%daaudiência vs +78%conversão A/B
  15. 15. NOVO
  16. 16. MVT - MULTIVARIATE TESTING todososexperimentose alternativasdoseuproduto podemsercombinados*. emlugarescommuitaaudiência
  17. 17. MVT - MULTIVARIATE TESTING impressões conversões taxa ux_a 150mil 50mil 30% ux_b 100mil 22mil 22% impressões conversões taxa api_a 300mil 15mil 5% api_b 200mil 40mil 20% experimento /alternativa exp/alt (comparador) impressões interseção conversões interseção taxa ux_a api_a 50mil 16mil 32% ux_a api_b 30mil 7.5mil 25% ux_b api_a 35mil 3.1mil 9% ux_b api_b 20mil 1.2mil 6%
  18. 18. QUAL É O MELHOR? ab testing vantagem: altíssimaconfiançaestatísticae nãodependedemuitovolume desvantagem: populaçãoentreosexperimentos temquesersignificativa desvantagem: podemocorrerruídosnãovisíveis vantagem: melhorcombinaçãoe asinterseçõessãovistas multivariate testing
  19. 19. Reinforcement Learning aplicado a split testing
  20. 20. MULTI-ARMED BANDIT
  21. 21. Padrão de Mercado: Display - mínimo de 50% da área da publicidade exibida na tela do usuário por ao menos 1 segundo. Vídeo - mínimo de 50% da área da publicidade em vídeo exibida na tela do usuário por ao menos 2 segundos. Viewability D E F I N I Ç Ã O KPI de mercado usado para estimar o percentual de impressões de publicidade que tiveram chance de ser vistas pelo usuário.
  22. 22. Padrão de Mercado: Display - mínimo de 50% da área da publicidade exibida na tela do usuário por ao menos 1 segundo. Vídeo - mínimo de 50% da área da publicidade em vídeo exibida na tela do usuário por ao menos 2 segundos. Viewability D E F I N I Ç Ã O KPI de mercado usado para estimar o percentual de impressões de publicidade que tiveram chance de ser vistas pelo usuário.
  23. 23. Viewability H I P Ó T E S E Utilização de um algoritmo de otimização (MAB) para definir o meIhor momento de início de carregamento da publicidade na página e distribuir os usuários de acordo ALTERNATIVA A ALTERNATIVA B ALTERNATIVA C 200px 250px 300px
  24. 24. Viewability H I P Ó T E S E ALTERNATIVA A ALTERNATIVA B ALTERNATIVA C 200px 250px 300px Utilização de um algoritmo de otimização (MAB) para definir o meIhor momento de início de carregamento da publicidade na página e distribuir os usuários de acordo
  25. 25. Viewability H I P Ó T E S E ALTERNATIVA A ALTERNATIVA B ALTERNATIVA C 200px 250px 300px Utilização de um algoritmo de otimização (MAB) para definir o meIhor momento de início de carregamento da publicidade na página e distribuir os usuários de acordo Multi-Armed Bandit
  26. 26. Viewability H I P Ó T E S E ALTERNATIVA A ALTERNATIVA B ALTERNATIVA C 200px 250px 300px Utilização de um algoritmo de otimização (MAB) para definir o meIhor momento de início de carregamento da publicidade na página e distribuir os usuários de acordo Multi-Armed Bandit
  27. 27. VARIAÇÕES DOS ARMS MAIS ENTREGUES
  28. 28. MachineLearning para conteúdo
  29. 29. Milhões deusuários Milhares de conteúdos interesses padrões segmentos termos audiência assuntos
  30. 30. 100algoritmos SUPERVISED UNSUPERVISED REINFORCEMENT
  31. 31. SIMILARIDADE ENTRE USUÁRIOS 5 2 2 ? 3 4 5 3 ? GOKU SEIYA SAITAMA
  32. 32. SIMILARIDADE ENTRE ITENS 1.0 0.8 0.7 0.8 1.0 0.9 0.7 0.9 1.0
  33. 33. collaborative filtering FAMÍLIAS DE ALGORITMOS content-basedtop
  34. 34. FAMÍLIAS DE ALGORITMOS top ordena listas deitens combaseemalgumcritério: maislidos,maisconvertidos, maisrecentes resolveoproblema dasmatériasbombásticas.
  35. 35. TOP NO G1
  36. 36. content-based foconascaracterísticas dositens analisaoconteúdo calculaasimilaridade entredocumentos FAMÍLIAS DE ALGORITMOS
  37. 37. algoritmo para item FAMÍLIACONTENT-BASED banana laranja morango banana morango banana morango laranja 2 2 1 documento original termos extraídos relevância dostermos uva banana morango 4 2 1 morango laranja banana 3 2 1 limão uva laranja 3 3 1 cálculode similaridade 2764 1736 3427 #1 #2 #3 … basededados dedocumentos docID:1736 docID:2764 docID:3427 … consideradocumentoatual eoutrosdocumentosdoinventário
  38. 38. FINAL DE MATÉRIA
  39. 39. algoritmo para usuário FAMÍLIACONTENT-BASED documentos consumidos banana laranja morango laranja morango uva uva morango laranja termos extraídos 5 1 1 3 2 2 4 3 1 uva morango laranja banana 5 4.25 2.75 1.25 relevânciacom decaimentotemporal ÷4 ÷2 docID:1862 docID:2479 docID:3274 … uva morango laranja 4 3 2 limão banana laranja 5 2 1 morango laranja banana 3 3 1 cálculode similaridade 1862 3274 2479 … #1 #2 #3 1anoatrás 1mêsatrás 1diaatrás considerahistóricodousuário eoutrosdocumentosdoinventário
  40. 40. FINAL DE MATÉRIA
  41. 41. Feature extraction aplicado a texto e vídeos CONTENT KNOWLEDGE
  42. 42. CONTENT KNOWLEDGE - TEXTO TF-IDF popular detector de termos relevantes Word2Vec detecta contexto usando espaço vetorial Semânticausando ontologia, representada em grafos
  43. 43. Tags termos descritos por editores Reglobinition detector de personagens em vídeos Semânticausando ontologia, representada em grafos CONTENT KNOWLEDGE - VÍDEO
  44. 44. REGLOBINITION FACENET Ele aprende um mapeamento de imagens faciais para um espaço euclidiano compacto onde as distâncias correspondem diretamente a uma medida de similaridade de faces
  45. 45. REGLOBINITION FACENET
  46. 46. collaborative filtering foconaspreferências dosusuários analisaohistórico deconsumo calculaasimilaridade entreperfis FAMÍLIAS DE ALGORITMOS
  47. 47. algoritmo para usuário FAMÍLIA COLLABORATIVE FILTERING
  48. 48. FAMÍLIA COLLABORATIVE FILTERING algoritmo para usuário
  49. 49. FAMÍLIA COLLABORATIVE FILTERING algoritmo para usuário
  50. 50. FAMÍLIA COLLABORATIVE FILTERING algoritmo para usuário
  51. 51. FAMÍLIA COLLABORATIVE FILTERING algoritmo para usuário FAMÍLIA COLLABORATIVE FILTERING considerahistóricodousuário ehistóricodeoutrosusuário
  52. 52. PRA VOCÊ
  53. 53. algoritmo para item FAMÍLIA COLLABORATIVE FILTERING
  54. 54. FAMÍLIA COLLABORATIVE FILTERING algoritmo para item
  55. 55. FAMÍLIA COLLABORATIVE FILTERING algoritmo para item FAMÍLIA COLLABORATIVE FILTERING consideradocumentoatual ehistóricodeoutrosusuários
  56. 56. QUEM VIU ISSO
  57. 57. collaborative filtering content-based top vantagem: conseguelidarbemcom matériasrecentes vantagem: estratégiaparalidarcom coldstartnahome desvantagem: nãolidabemcommatérias tipobreakingnews desvantagem: nãoentregadeforma customizada/personalizada desvantagem: podeentregardocumentos muitoparecidos(bolha) vantagem: podesurpreenderousuário e entregardeformamaisassertiva COMPARAÇÃO ENTRE ALGORITMOS
  58. 58. COLLABORATIVE FILTERING GLOBO CONTENT BASED GLOBO TOP GLOBO FILTRODE24H GE TOPUF GLOBO blend= GE100 55 10 70 COLLABORATIVE FILTERING GLOBO CONTENT BASED GLOBO TOPVÍDEOS GLOBO FILTRODE10ANOS GLOBOPLAY TOPUF GLOBO blend=Globoplay400 200 10 0 1yr pesosefiltrosparafinsdemonstrativos
  59. 59. Automatizaaprocurapelo conjuntodepesosque maximizemoengajamento. utiliza“regLog”-LBFGS OPTIMIZER RLAPLICADO AOSPESOS
  60. 60. OPTIMIZER
  61. 61. CTRindo além DIVERSITY COVERAGE FRESHNESS SERENDIPITY ENGAGEMENT
  62. 62. RecInspector INTERFACE DE VALIDAÇÃO BIG DATA – GLOBO.COM
  63. 63. DICAS Infraestrutura tem que tá na veia - DevOps Publicações tem que ser rotina de leitura Estatística vai entrar no seu dia Equipe e não unicórnios
  64. 64. OBRIGADO! @renan_oliveira www.renanoliveira.net http://slideshare.net/renangpa
  65. 65. talentos.globo.com www.renanoliveira.net

×