SlideShare une entreprise Scribd logo
1  sur  30
© 2018 Confidential
Comment extraire des topics à partir de vidéos ?
21/02/2019
Axel de Romblay
© 2018 Confidential
Introduction
© 2018 Confidential
Contexte
Dailymotion est une plateforme qui héberge des
millions de vidéos dans plus de 20 langages.
Nos projets au sein de l’équipe Data:
• La recommandation de vidéos et de sections
• La détection de fraude (bots)
• La caractérisation du contenu de nos vidéos
© 2018 Confidential
Identifier le sujet principal d’une vidéo
pour une meilleur recommandation et découverte du contenu
Objectif
© 2018 Confidential
Quels défis techniques pour une annotation pertinente ?
Pertinence/précision des topics
Ex : « 2018 FIFA World Cup » vs « Football »
Critères de
performance
Couverture du catalogue vidéo
On souhaiter tagguer le maximum de vidéos
avec au moins un topic.
Mise à jour rapide
Ex : « Juventus » pour une vidéo sur
CR vs « Real Madrid »
Multi-langues
Ex : FR, EN, Coréen, Turc, …
© 2018 Confidential
Présentation du pipeline
© 2018 Confidential
gilet de haute visibilité Mouvement des Gilets jaunes
© 2018 Confidential
• Signaux
• Knowledge graph
• Pipeline
Agenda
© 2018 Confidential
• Signaux
• Knowledge graph
• Pipeline
Agenda
© 2018 Confidential
Signaux
description
frames
audio
embed context co-watching
© 2018 Confidential
Signaux
description
frames
audio
embed context co-watching
Google Speech API
Très cher
Nécessite des
premières vues /
pas assez robuste
Disponible
immédiatement
Pas assez précis
© 2018 Confidential
• Signaux
• Knowledge graph
• Pipeline
Agenda
© 2018 Confidential
Knowledge Graph
Wikipedia: « pour les humains »
© 2018 Confidential
Knowledge Graph
Wikipedia: « pour les humains »
© 2018 Confidential
Wikidata: « pour les machines »
Knowledge Graph
© 2018 Confidential
Wikidata: « pour les machines »
Knowledge Graph
Une base de connaissance
open source
Collaborative et mise a jour
Toutes les semaines
Multi-lingues
Chaque entité de Wikidata est
identifiée par Qid unique.
Interconnectée
50M d’entitées
4k type de relations
160M de relations
© 2018 Confidential
• Signaux
• Knowledge graph
• Pipeline
Agenda
© 2018 Confidential
Pipeline
Gilet jaune
(Q1585082
)
Europe
(Q46)
Mouvement
des gilets
jaunes
(Q58805164)
CENTRAL
OFF
Vidéo Metadata Générateur
de topics Topics
candidats
TopicsFiltre
21 3
© 2018 Confidential
Pipeline 1 Détection du language et extraction de la
description
• Détection du langage :
Pour l’instant, on travaille essentiellement
sur les vidéos FR et EN.
• Extraction:
 Titre
 description
 tags
© 2018 Confidential
Pipeline 2 Générateurs de topics candidats
NEL (Named Entity Linking) : on map un ensemble
non ordonné de mots à des entités wikidata
• Preprocessing
• Désambigüisation: on map le mot avec la bonne entité Wikidata.
 La probabilité que le mot pointe vers l’entité wikidata (commonness)
 Le score d’adéquation entre le mot et l’entité wikidata en fonction des mots de la même phrase
Ex: le mot « gilet jaune » pointe-t-il vers l’entité wikidata « mouvement de gilets jaunes » OU vers « gilet de haute visibilité » ?
• Pruning: on garde les entités wikidata qui sont pertinentes
 La probabilité que le mot soit un lien Wikipedia
 La cohérence de l’entité wikidata au sein de la description
mot
Entités
wikidata
© 2018 Confidential
Disambiguation
description
Title: Interview d'une manifestante
"Gilet Jaune" - Appel au Hold-Up sur
les Européennes
Desc: Marie-Rose (de Cleebourg)
s'exprime sur le marché de Noêl de
Haguenau en lançant un appel au
"Hold-Up sur les Européennes".
Gilet Jaune
58805164
Mouvement de gilets jaunes
Appel
Q3000944
Cour d’appel
Hold-up
Q5711091
Attaque à main armée
Européennes
Q46
Europe
…
Topics
candidats
2 Générateurs de topics candidats
© 2018 Confidential
Pipeline 3 Sélection de topics (centraux)
Feature engineering: on quantifie chacun des topics candidats
Match
(occurrence
, position,
…)
Cohérence
avec la
chaine
Popularité
du topic
Cohérence
avec les
autres topics
candidats
Q3000944
Cour d’appel
Q5711091
Attaque à main
armée
Q46
Europe
Q58805164
Mouvement de gilets jaunes
© 2018 Confidential
Pipeline 3 Sélection de topics (centraux)
Apprentissage supervisé: on set un seuil de précision de nos topics
et on fit un modèle de classification (central/off) sur une base
annotée.
Q58805164
Mouvement de gilets jaunes
Training Set
8k vidéos annotées par
des humains
Topics candidats
Features
Machine Learning
© 2018 Confidential
Pipeline
Gilet Jaune
Appel
Hold-up
Européennes
description
Q3000944
Cour d’appel
Q5711091
Attaque à main
armée
Q46
Europe
…
topic(s)
centraux
Vidéo associée au
topic:
« Mouvement de
gilets jaunes »
58805164
Mouvement de gilets jaunes
© 2018 Confidential
gilet de haute visibilité Mouvement des Gilets jaunes
© 2018 Confidential
Pistes futures
© 2018 Confidential
Catégorisation de
topics
Mouvement de
Gilets Jaunes
(Q58805164)
France (Q142) Société (Q8425)
Comportement (Q9332)
Niveau 1
Niveau 2
Niveau 3
Mouvement social (Q49773)
© 2018 Confidential
Catégorisation de
vidéos
Mouvement de
Gilets Jaunes
(Q58805164)
France (Q142) Société (Q8425)
Comportement (Q9332)
Niveau 1
Niveau 2
Niveau 3
Mouvement social (Q49773)
© 2018 Confidential
Team
Silèye Ba
Senior data scientist
Silèye Ba
Senior data scientist
Axel de Romblay
Data scientist
Sharone Dayan
Data scientist
GermainTanguy
Senior Data Engineer
François Milhem
Data Engineer
Alexandre Cormerais
Data Analyst
Damien Bazard
Squad Master
email: axel.deromblay@dailymotion
Medium: https://medium.com/dailymotion/topic-annotation-
automatic-algorithms-data-377079d27936
© 2018 Confidential
Merci ! Questions ?

Contenu connexe

Similaire à Meetup "Big Data & Machine Learning" (French version)

Programme Connexion - Rapport d’expérience
Programme Connexion - Rapport d’expérienceProgramme Connexion - Rapport d’expérience
Programme Connexion - Rapport d’expérience
Audrey Gaspard
 
Présentation rtb matiro master
Présentation rtb matiro   masterPrésentation rtb matiro   master
Présentation rtb matiro master
Ghislain Lefebvre
 
Séminaire Solutions Libres de Gestions de Contenu
Séminaire Solutions Libres de Gestions de ContenuSéminaire Solutions Libres de Gestions de Contenu
Séminaire Solutions Libres de Gestions de Contenu
Pierre Munck
 

Similaire à Meetup "Big Data & Machine Learning" (French version) (20)

I week nantes-2019-cncpi-marque-brevets
I week nantes-2019-cncpi-marque-brevetsI week nantes-2019-cncpi-marque-brevets
I week nantes-2019-cncpi-marque-brevets
 
Introduction à Neo4j
Introduction à Neo4jIntroduction à Neo4j
Introduction à Neo4j
 
meetup devops aix marseille du 16/05/23
meetup devops aix marseille du 16/05/23meetup devops aix marseille du 16/05/23
meetup devops aix marseille du 16/05/23
 
Présentation IMF - PAD fichier juin2013
Présentation IMF - PAD fichier juin2013Présentation IMF - PAD fichier juin2013
Présentation IMF - PAD fichier juin2013
 
La Duck Conf - CovidTracker, la data au service de tous
La Duck Conf - CovidTracker, la data au service de tousLa Duck Conf - CovidTracker, la data au service de tous
La Duck Conf - CovidTracker, la data au service de tous
 
Spotter- Presentation Conférence Expert ICC 2009 - Veille internationale
Spotter- Presentation Conférence Expert ICC 2009 - Veille internationaleSpotter- Presentation Conférence Expert ICC 2009 - Veille internationale
Spotter- Presentation Conférence Expert ICC 2009 - Veille internationale
 
Programme Connexion - Rapport d’expérience
Programme Connexion - Rapport d’expérienceProgramme Connexion - Rapport d’expérience
Programme Connexion - Rapport d’expérience
 
OCCIware presentation au groupe de travail Big Data du SCS
OCCIware presentation au groupe de travail Big Data du SCSOCCIware presentation au groupe de travail Big Data du SCS
OCCIware presentation au groupe de travail Big Data du SCS
 
Présentation rtb matiro master
Présentation rtb matiro   masterPrésentation rtb matiro   master
Présentation rtb matiro master
 
Opensource pitch 2008
Opensource pitch 2008Opensource pitch 2008
Opensource pitch 2008
 
Inria - Catalogue logiciels
Inria - Catalogue logicielsInria - Catalogue logiciels
Inria - Catalogue logiciels
 
Design d'une organisation produit : Flowcon 2024
Design d'une organisation produit : Flowcon 2024Design d'une organisation produit : Flowcon 2024
Design d'une organisation produit : Flowcon 2024
 
Transformations numériques durables ?
Transformations numériques durables ?Transformations numériques durables ?
Transformations numériques durables ?
 
Les stratégies concurrentielles: La vidéo à la demande par abonnement ( vàda)...
Les stratégies concurrentielles: La vidéo à la demande par abonnement ( vàda)...Les stratégies concurrentielles: La vidéo à la demande par abonnement ( vàda)...
Les stratégies concurrentielles: La vidéo à la demande par abonnement ( vàda)...
 
ML Ops a Survey
ML Ops a SurveyML Ops a Survey
ML Ops a Survey
 
CWIN17 Paris / Big Data industriel & MES, le pari gagnant pour améliorer la ...
CWIN17 Paris /  Big Data industriel & MES, le pari gagnant pour améliorer la ...CWIN17 Paris /  Big Data industriel & MES, le pari gagnant pour améliorer la ...
CWIN17 Paris / Big Data industriel & MES, le pari gagnant pour améliorer la ...
 
Stratégies de Migration de UNV à UNX et des Bases de Données : Retour d'Expér...
Stratégies de Migration de UNV à UNX et des Bases de Données : Retour d'Expér...Stratégies de Migration de UNV à UNX et des Bases de Données : Retour d'Expér...
Stratégies de Migration de UNV à UNX et des Bases de Données : Retour d'Expér...
 
Séminaire Solutions Libres de Gestions de Contenu
Séminaire Solutions Libres de Gestions de ContenuSéminaire Solutions Libres de Gestions de Contenu
Séminaire Solutions Libres de Gestions de Contenu
 
Présentation dream tim 2014
Présentation dream tim 2014Présentation dream tim 2014
Présentation dream tim 2014
 
Les nouveautés de la vidéo dans Azure, aggrémentées de cas clients, VLC et le...
Les nouveautés de la vidéo dans Azure, aggrémentées de cas clients, VLC et le...Les nouveautés de la vidéo dans Azure, aggrémentées de cas clients, VLC et le...
Les nouveautés de la vidéo dans Azure, aggrémentées de cas clients, VLC et le...
 

Plus de Axel de Romblay

Plus de Axel de Romblay (8)

MLBox 0.8.2
MLBox 0.8.2 MLBox 0.8.2
MLBox 0.8.2
 
Meetup "Paris NLP"
Meetup "Paris NLP" Meetup "Paris NLP"
Meetup "Paris NLP"
 
[UPDATE] Udacity webinar on Recommendation Systems
[UPDATE] Udacity webinar on Recommendation Systems[UPDATE] Udacity webinar on Recommendation Systems
[UPDATE] Udacity webinar on Recommendation Systems
 
Regression on gaussian symbols
Regression on gaussian symbolsRegression on gaussian symbols
Regression on gaussian symbols
 
How to automate Machine Learning pipeline ?
How to automate Machine Learning pipeline ?How to automate Machine Learning pipeline ?
How to automate Machine Learning pipeline ?
 
Automate Machine Learning Pipeline Using MLBox
Automate Machine Learning Pipeline Using MLBoxAutomate Machine Learning Pipeline Using MLBox
Automate Machine Learning Pipeline Using MLBox
 
MLBox
MLBoxMLBox
MLBox
 
Udacity webinar on Recommendation Systems
Udacity webinar on Recommendation SystemsUdacity webinar on Recommendation Systems
Udacity webinar on Recommendation Systems
 

Dernier

Dernier (6)

La face cachée des jeux vidéo - Conférence de 15/05 2024
La face cachée des jeux vidéo - Conférence de 15/05 2024La face cachée des jeux vidéo - Conférence de 15/05 2024
La face cachée des jeux vidéo - Conférence de 15/05 2024
 
rapport de stage Organisme d’accueil Centre National d'Etudes & de Recherche...
rapport de stage Organisme d’accueil  Centre National d'Etudes & de Recherche...rapport de stage Organisme d’accueil  Centre National d'Etudes & de Recherche...
rapport de stage Organisme d’accueil Centre National d'Etudes & de Recherche...
 
Intervention dans le cadre de la journée SOUND du 26 avril 2024
Intervention dans le cadre de la journée SOUND du 26 avril 2024Intervention dans le cadre de la journée SOUND du 26 avril 2024
Intervention dans le cadre de la journée SOUND du 26 avril 2024
 
MÉMOIRE DE MASTER EN DIAGNOSTIC DES SYSTÈMES ÉNERGÉTIQUES
MÉMOIRE DE MASTER EN DIAGNOSTIC DES SYSTÈMES ÉNERGÉTIQUESMÉMOIRE DE MASTER EN DIAGNOSTIC DES SYSTÈMES ÉNERGÉTIQUES
MÉMOIRE DE MASTER EN DIAGNOSTIC DES SYSTÈMES ÉNERGÉTIQUES
 
RAPPORT PFE Projet urbain: -«El-Hamma d'un quartier à une ville» -«La créat...
RAPPORT  PFE Projet urbain: -«El-Hamma d'un quartier à une ville»  -«La créat...RAPPORT  PFE Projet urbain: -«El-Hamma d'un quartier à une ville»  -«La créat...
RAPPORT PFE Projet urbain: -«El-Hamma d'un quartier à une ville» -«La créat...
 
La constellation d'Andromède.présentation.pptx
La constellation d'Andromède.présentation.pptxLa constellation d'Andromède.présentation.pptx
La constellation d'Andromède.présentation.pptx
 

Meetup "Big Data & Machine Learning" (French version)

  • 1. © 2018 Confidential Comment extraire des topics à partir de vidéos ? 21/02/2019 Axel de Romblay
  • 3. © 2018 Confidential Contexte Dailymotion est une plateforme qui héberge des millions de vidéos dans plus de 20 langages. Nos projets au sein de l’équipe Data: • La recommandation de vidéos et de sections • La détection de fraude (bots) • La caractérisation du contenu de nos vidéos
  • 4. © 2018 Confidential Identifier le sujet principal d’une vidéo pour une meilleur recommandation et découverte du contenu Objectif
  • 5. © 2018 Confidential Quels défis techniques pour une annotation pertinente ? Pertinence/précision des topics Ex : « 2018 FIFA World Cup » vs « Football » Critères de performance Couverture du catalogue vidéo On souhaiter tagguer le maximum de vidéos avec au moins un topic. Mise à jour rapide Ex : « Juventus » pour une vidéo sur CR vs « Real Madrid » Multi-langues Ex : FR, EN, Coréen, Turc, …
  • 7. © 2018 Confidential gilet de haute visibilité Mouvement des Gilets jaunes
  • 8. © 2018 Confidential • Signaux • Knowledge graph • Pipeline Agenda
  • 9. © 2018 Confidential • Signaux • Knowledge graph • Pipeline Agenda
  • 11. © 2018 Confidential Signaux description frames audio embed context co-watching Google Speech API Très cher Nécessite des premières vues / pas assez robuste Disponible immédiatement Pas assez précis
  • 12. © 2018 Confidential • Signaux • Knowledge graph • Pipeline Agenda
  • 13. © 2018 Confidential Knowledge Graph Wikipedia: « pour les humains »
  • 14. © 2018 Confidential Knowledge Graph Wikipedia: « pour les humains »
  • 15. © 2018 Confidential Wikidata: « pour les machines » Knowledge Graph
  • 16. © 2018 Confidential Wikidata: « pour les machines » Knowledge Graph Une base de connaissance open source Collaborative et mise a jour Toutes les semaines Multi-lingues Chaque entité de Wikidata est identifiée par Qid unique. Interconnectée 50M d’entitées 4k type de relations 160M de relations
  • 17. © 2018 Confidential • Signaux • Knowledge graph • Pipeline Agenda
  • 18. © 2018 Confidential Pipeline Gilet jaune (Q1585082 ) Europe (Q46) Mouvement des gilets jaunes (Q58805164) CENTRAL OFF Vidéo Metadata Générateur de topics Topics candidats TopicsFiltre 21 3
  • 19. © 2018 Confidential Pipeline 1 Détection du language et extraction de la description • Détection du langage : Pour l’instant, on travaille essentiellement sur les vidéos FR et EN. • Extraction:  Titre  description  tags
  • 20. © 2018 Confidential Pipeline 2 Générateurs de topics candidats NEL (Named Entity Linking) : on map un ensemble non ordonné de mots à des entités wikidata • Preprocessing • Désambigüisation: on map le mot avec la bonne entité Wikidata.  La probabilité que le mot pointe vers l’entité wikidata (commonness)  Le score d’adéquation entre le mot et l’entité wikidata en fonction des mots de la même phrase Ex: le mot « gilet jaune » pointe-t-il vers l’entité wikidata « mouvement de gilets jaunes » OU vers « gilet de haute visibilité » ? • Pruning: on garde les entités wikidata qui sont pertinentes  La probabilité que le mot soit un lien Wikipedia  La cohérence de l’entité wikidata au sein de la description mot Entités wikidata
  • 21. © 2018 Confidential Disambiguation description Title: Interview d'une manifestante "Gilet Jaune" - Appel au Hold-Up sur les Européennes Desc: Marie-Rose (de Cleebourg) s'exprime sur le marché de Noêl de Haguenau en lançant un appel au "Hold-Up sur les Européennes". Gilet Jaune 58805164 Mouvement de gilets jaunes Appel Q3000944 Cour d’appel Hold-up Q5711091 Attaque à main armée Européennes Q46 Europe … Topics candidats 2 Générateurs de topics candidats
  • 22. © 2018 Confidential Pipeline 3 Sélection de topics (centraux) Feature engineering: on quantifie chacun des topics candidats Match (occurrence , position, …) Cohérence avec la chaine Popularité du topic Cohérence avec les autres topics candidats Q3000944 Cour d’appel Q5711091 Attaque à main armée Q46 Europe Q58805164 Mouvement de gilets jaunes
  • 23. © 2018 Confidential Pipeline 3 Sélection de topics (centraux) Apprentissage supervisé: on set un seuil de précision de nos topics et on fit un modèle de classification (central/off) sur une base annotée. Q58805164 Mouvement de gilets jaunes Training Set 8k vidéos annotées par des humains Topics candidats Features Machine Learning
  • 24. © 2018 Confidential Pipeline Gilet Jaune Appel Hold-up Européennes description Q3000944 Cour d’appel Q5711091 Attaque à main armée Q46 Europe … topic(s) centraux Vidéo associée au topic: « Mouvement de gilets jaunes » 58805164 Mouvement de gilets jaunes
  • 25. © 2018 Confidential gilet de haute visibilité Mouvement des Gilets jaunes
  • 27. © 2018 Confidential Catégorisation de topics Mouvement de Gilets Jaunes (Q58805164) France (Q142) Société (Q8425) Comportement (Q9332) Niveau 1 Niveau 2 Niveau 3 Mouvement social (Q49773)
  • 28. © 2018 Confidential Catégorisation de vidéos Mouvement de Gilets Jaunes (Q58805164) France (Q142) Société (Q8425) Comportement (Q9332) Niveau 1 Niveau 2 Niveau 3 Mouvement social (Q49773)
  • 29. © 2018 Confidential Team Silèye Ba Senior data scientist Silèye Ba Senior data scientist Axel de Romblay Data scientist Sharone Dayan Data scientist GermainTanguy Senior Data Engineer François Milhem Data Engineer Alexandre Cormerais Data Analyst Damien Bazard Squad Master email: axel.deromblay@dailymotion Medium: https://medium.com/dailymotion/topic-annotation- automatic-algorithms-data-377079d27936
  • 30. © 2018 Confidential Merci ! Questions ?

Notes de l'éditeur

  1. Comment notre équipe tente d’identifier le sujet principale d’une video
  2. Comment notre équipe tente d’identifier le sujet principale d’une video
  3. Comment notre équipe tente d’identifier le sujet principale d’une video
  4. On the upload on verified content
  5. How to do the mapping between the text and the topic
  6. Millions de sujet qui peuvent interesser les gens? Où trouver toute cette liste? On pourrais lister les sujets qui concerne dailymotion -> Knwodlege graph Le knowledge graph que tout le monde connait est wikipedia Wikipedia, knowledge for human
  7. Millions de sujet qui peuvent interesser les gens? Où trouver toute cette liste? On pourrais lister les sujets qui concerne dailymotion -> Knwodlege graph Le knowledge graph que tout le monde connait est wikipedia Wikipedia, knowledge for human
  8. ON ne peut pas se permettre d’avoir notre propore knowledge graph, contriarement à google. On s’appuie donc sur la communauté. Topic page: Q51 71 92 Pleins d’info structuré, facilement accessibles avec une requet FETCH Structuré sous un forme de statement
  9. ON ne peut pas se permettre d’avoir notre propore knowledge graph, contriarement à google. On s’appuie donc sur la communauté. Topic page: Q51 71 92 Pleins d’info structuré, facilement accessibles avec une requet FETCH Structuré sous un forme de statement
  10. How to do the mapping between the text and the topic Tagme
  11. How to do the mapping between the text and the topic Tagme
  12. How to do the mapping between the text and the topic Tagme
  13. How to do the mapping between the text and the topic
  14. How to do the mapping between the text and the topic Tagme
  15. How to do the mapping between the text and the topic Tagme
  16. How to do the mapping between the text and the topic Tagme