Les enjeux scientifiques de l’indexation vidéo Patrick Gros  Responsable de l’équipe TEXMEX INRIA Rennes et IRISA http://www.irisa.fr/texmex
Qu’est ce que l’indexation vidéo ? Des techniques d’analyse / description des vidéos Analyse de l’image, du son, de la parole Des techniques de recherche de contenus Moteurs de recherche d’images, de séquences, de sons, de vidéos Des applications d’exploitation d’archives Recherche d’information Des applications de réutilisation de contenu Création de résumés, tables de matières, chapitrage, index La télévision, le cinéma, la radio, les photos…
Des applications Les détenteurs de contenus Archiveurs, chaines Les diffuseurs FAI, opérateurs telcos Les instances publiques CSA, dépôt légal Les possesseurs de droit Sport, cinéma, séries TV
Quelques opérations Segmentation Couper un flux en morceaux : émissions, thèmes, apparition d’une personne… Détection d’événements : buts, paniers, action… Description De l’action, du thème, de l’émission… Structuration D’une collection, d’un flux Indexation, classification
Des opérations de base En image Détection, regroupement, reconnaissance de visages Segmentation en plans Reconnaissance d’objets Détection, reconnaissance de texte En audio Segmentation parole, musique, sons clés, bruit Segmentation, regroupement, reconnaissance des locuteurs Reconnaissance de la parole En texte Segmentation thématique Caractérisation thématique
Mais… La reconnaissance de visages marche mal Il faut une base de visages Les visages changent Il faut une bonne résolution et des visages de face La reconnaissance de la parole marche mal Contexte d’apprentissage ≠ contexte de reconnaissance Des changements perpétuels de locuteurs, sujets, conditions On a besoin de tous les médias à la fois Les faiblesses des techniques ne coïncident pas
Les problèmes scientifiques La temporalité La multimodalité La généricité La sémantique
La temporalité Des fréquences différentes 24/25 images par seconde 16 à 48 kHz audio, 100 frames audio par secondes 4 syllabes par secondes Des médias faiblement synchronisés Celui que l’on voit ≠ celui que l’on entend Transitions vidéo ≠ transitions sonores Le nom des gens n’est pas mis sur leur front Des flux non stationnaires Des descriptions de taille variable
Exemple des Modèles de Markov cachés MM = une suite d’états + probas de transition MMC = chaque état -> observation + proba d’émission Pb : identifier les états à partir des observations Solution : Bayes + Viterbi
Exemple des Modèles de Markov cachés Les problèmes : À quoi correspondent les états : images, plans… ? Proba de rester dans un état : exponentielle Les observations éparses : ex. les scores
Exemple des Modèles de Markov cachés Une solution : les modèles de segments À chaque état, une suite d’observations Un modèle de durée explicite Problèmes : Comment synchroniser les flux ?
La généricité La structure d’un MMC est figée : un MMC par pb ? Quelles variables utiles ? Toutes ? Beaucoup d’apprentissage…
La généricité Les réseaux bayésiens Permettent d’apprendre les dépendances entre variables On peut apprendre la structure du réseau (contrairement aux MMC) et les proba d’émission Permettent de détecter les variables utiles
La généricité Les réseaux bayésiens Sont statiques en général Réseaux bayésiens dynamiques : stationnaires en fait = réplication d’un réseau statique Stationnarité ? Quelle unité de temps ?
La multimodalité Quel poids relatif du son, de l’image, de la parole ? Comment inclure des informations symboliques dans nos modèles ? Des probabilités sur les mots prononcés dans un MMC ?
La sémantique Les vidéos à contenu image Sport, cirque, certaines publicités Les vidéos à contenu langagier Tout le reste ! Le langage Texte incrusté, visible Parole Texte exogène
La sémantique Les conditions acoustiques variables Les locuteurs qui changent Les sujets qui changent On peut essayer de faire de l’adaptation dynamique Transcription de mauvaise qualité On peut améliorer Il faut utiliser ce qui sort !
Adaptation dynamique Construction d’un modèle de langue adapté au sujet pour chaque segment de thème homogène  Lancement d’une nouvelle transcription € ASR system ... receives a single electoral vote in this state Un flux long (audio)‏ Hypothèse de transcription (texte)‏ ... ...
Web-based topic adaptation ... ... € … thus a  candidate  who fails to carry a particular  state  receives not a single  electoral   vote  in that  state  for the popular votes received since residential  elections  are won by  electoral  ... candidate state election 3.  Building of an adaptation corpus candidate vote electoral vote 2.  Querying 1.  Keyword spotting Adaptation LM 4.a  Training of a topic-specific LM   4.b  Mix of this LM and the general one Baseline LM + Adapted LM = Web search engine ✘ ✔ ✔ ✔ ✘ ✔ ✘ ✔
La sémantique Utilisation d’information morpho-syntaxiques pour réduire les fautes d’accord : -0.9 de WER Utilisation de la phonétique pour retrouver les entités nommées hors dictionnaire…
Conclusion Jusqu’à présent : On définit ce que l’on doit chercher On fait un algorithme Apprentissage + tunning de paramètres Grande sensibilité au contexte Une voie d’avenir Partir de ce que l’on sait faire / extraire Dépenser plus d’énergie sur l’exploitation que sur l’extraction

Irisa p gros

  • 1.
    Les enjeux scientifiquesde l’indexation vidéo Patrick Gros Responsable de l’équipe TEXMEX INRIA Rennes et IRISA http://www.irisa.fr/texmex
  • 2.
    Qu’est ce quel’indexation vidéo ? Des techniques d’analyse / description des vidéos Analyse de l’image, du son, de la parole Des techniques de recherche de contenus Moteurs de recherche d’images, de séquences, de sons, de vidéos Des applications d’exploitation d’archives Recherche d’information Des applications de réutilisation de contenu Création de résumés, tables de matières, chapitrage, index La télévision, le cinéma, la radio, les photos…
  • 3.
    Des applications Lesdétenteurs de contenus Archiveurs, chaines Les diffuseurs FAI, opérateurs telcos Les instances publiques CSA, dépôt légal Les possesseurs de droit Sport, cinéma, séries TV
  • 4.
    Quelques opérations SegmentationCouper un flux en morceaux : émissions, thèmes, apparition d’une personne… Détection d’événements : buts, paniers, action… Description De l’action, du thème, de l’émission… Structuration D’une collection, d’un flux Indexation, classification
  • 5.
    Des opérations debase En image Détection, regroupement, reconnaissance de visages Segmentation en plans Reconnaissance d’objets Détection, reconnaissance de texte En audio Segmentation parole, musique, sons clés, bruit Segmentation, regroupement, reconnaissance des locuteurs Reconnaissance de la parole En texte Segmentation thématique Caractérisation thématique
  • 6.
    Mais… La reconnaissancede visages marche mal Il faut une base de visages Les visages changent Il faut une bonne résolution et des visages de face La reconnaissance de la parole marche mal Contexte d’apprentissage ≠ contexte de reconnaissance Des changements perpétuels de locuteurs, sujets, conditions On a besoin de tous les médias à la fois Les faiblesses des techniques ne coïncident pas
  • 7.
    Les problèmes scientifiquesLa temporalité La multimodalité La généricité La sémantique
  • 8.
    La temporalité Desfréquences différentes 24/25 images par seconde 16 à 48 kHz audio, 100 frames audio par secondes 4 syllabes par secondes Des médias faiblement synchronisés Celui que l’on voit ≠ celui que l’on entend Transitions vidéo ≠ transitions sonores Le nom des gens n’est pas mis sur leur front Des flux non stationnaires Des descriptions de taille variable
  • 9.
    Exemple des Modèlesde Markov cachés MM = une suite d’états + probas de transition MMC = chaque état -> observation + proba d’émission Pb : identifier les états à partir des observations Solution : Bayes + Viterbi
  • 10.
    Exemple des Modèlesde Markov cachés Les problèmes : À quoi correspondent les états : images, plans… ? Proba de rester dans un état : exponentielle Les observations éparses : ex. les scores
  • 11.
    Exemple des Modèlesde Markov cachés Une solution : les modèles de segments À chaque état, une suite d’observations Un modèle de durée explicite Problèmes : Comment synchroniser les flux ?
  • 12.
    La généricité Lastructure d’un MMC est figée : un MMC par pb ? Quelles variables utiles ? Toutes ? Beaucoup d’apprentissage…
  • 13.
    La généricité Lesréseaux bayésiens Permettent d’apprendre les dépendances entre variables On peut apprendre la structure du réseau (contrairement aux MMC) et les proba d’émission Permettent de détecter les variables utiles
  • 14.
    La généricité Lesréseaux bayésiens Sont statiques en général Réseaux bayésiens dynamiques : stationnaires en fait = réplication d’un réseau statique Stationnarité ? Quelle unité de temps ?
  • 15.
    La multimodalité Quelpoids relatif du son, de l’image, de la parole ? Comment inclure des informations symboliques dans nos modèles ? Des probabilités sur les mots prononcés dans un MMC ?
  • 16.
    La sémantique Lesvidéos à contenu image Sport, cirque, certaines publicités Les vidéos à contenu langagier Tout le reste ! Le langage Texte incrusté, visible Parole Texte exogène
  • 17.
    La sémantique Lesconditions acoustiques variables Les locuteurs qui changent Les sujets qui changent On peut essayer de faire de l’adaptation dynamique Transcription de mauvaise qualité On peut améliorer Il faut utiliser ce qui sort !
  • 18.
    Adaptation dynamique Constructiond’un modèle de langue adapté au sujet pour chaque segment de thème homogène Lancement d’une nouvelle transcription € ASR system ... receives a single electoral vote in this state Un flux long (audio)‏ Hypothèse de transcription (texte)‏ ... ...
  • 19.
    Web-based topic adaptation... ... € … thus a candidate who fails to carry a particular state receives not a single electoral vote in that state for the popular votes received since residential elections are won by electoral ... candidate state election 3. Building of an adaptation corpus candidate vote electoral vote 2. Querying 1. Keyword spotting Adaptation LM 4.a Training of a topic-specific LM 4.b Mix of this LM and the general one Baseline LM + Adapted LM = Web search engine ✘ ✔ ✔ ✔ ✘ ✔ ✘ ✔
  • 20.
    La sémantique Utilisationd’information morpho-syntaxiques pour réduire les fautes d’accord : -0.9 de WER Utilisation de la phonétique pour retrouver les entités nommées hors dictionnaire…
  • 21.
    Conclusion Jusqu’à présent: On définit ce que l’on doit chercher On fait un algorithme Apprentissage + tunning de paramètres Grande sensibilité au contexte Une voie d’avenir Partir de ce que l’on sait faire / extraire Dépenser plus d’énergie sur l’exploitation que sur l’extraction