Architecture de systèmes de traitement de l'information multimédia
Nabil Bouzerna © Janvier 2013
Architecture de systèmes ...
Architecture de systèmes de traitement de l'information multimédia
2 // Nabil Bouzerna © Janvier 2013
| Objectifs du modul...
| Des besoins émergents : rechercher / analyser
Un déluge informationnel
► TV/radio satellitaires et terrestres : BBC (UK)...
Raffiner les besoins pour réaliser
La gestion des médias audio-vidéo-photo numériques : une équation pas simple.
► Des bes...
Architecture de systèmes de traitement de l'information multimédia
5 // Nabil Bouzerna © Janvier 2013
Briques Technologiqu...
Architecture de systèmes de traitement de l'information multimédia
6 // Nabil Bouzerna © Janvier 2013
Briques Technologiqu...
Briques Technologiques
Traitement Automatique de l’Image
Traitements réalisables
► Détection de doublon : Il s’agit d’iden...
Briques Technologiques
Traitement Automatique du Texte
Traitements réalisables
► Détection de doublon : Il s’agit d’identi...
Briques Technologiques
Traitement Automatique du Texte
Traitements réalisables
► Résumé automatique de texte : produire un...
Raffiner les besoins pour réaliser
Besoins ? Briques de
Technologies
Système
La gestion des médias audio-vidéo-photo numér...
EIP et ESB
En matière d'intégration applicative, il y a deux solutions - comme en développement - :
1. soit on réinvente l...
| Architecture Orientée Services
Paradigme SOA (Service-Oriented Architecture)
Flexibilité : possibilité d’intégrer un ou ...
Enterprise Integration Patterns
Mêmes concepts que les designs patterns en conception objet
► Solution éprouvées à un prob...
Enterprise Integration Patterns
Architecture de systèmes de traitement de l'information multimédia
14 // Nabil Bouzerna © ...
Enterprise Service Bus
Roy Schulte de la société Gartner inc, en fait la description suivante :
► L'ESB est une nouvelle a...
Enterprise Service Bus
L'ESB possède quatre fondements :
► Le Middleware Orienté Message (MOM) qui permet l'échange de mes...
Styles d’intégration et de communication
Styles d’intégration
► le transfert de fichier
► le partage de données
► l’invoca...
Styles d’intégration et de communication
Transfert de fichier (File Transfer)
le transfert de fichier
► Deux applications ...
Styles d’intégration et de communication
Partage de données (Shared data)
le partage de données
► Plusieurs applications o...
Styles d’intégration et de communication
Invocation de procédure distante (Remote Procedure Call)
l’invocation de procédur...
Styles d’intégration et de communication
Communication par message (MOM)
Système de messagerie ( ≠ de la messagerie « emai...
Text
Processing
Video
Processing
Image
Processing
UGC Podcast
Audio
Processing
Architecture mise en œuvre en TP
Architectu...
Questions
Architecture de systèmes de traitement de l'information multimédia
23 // Nabil Bouzerna © Janvier 2013
Nabil Bouzerna
Architecte & Solution manager
 nabil@bouzerna.com
Prochain SlideShare
Chargement dans…5
×

ESILV Nabil Bouzerna Architecture de systèmes de traitement de l'information multimédia

1 356 vues

Publié le

Architecture de systèmes de traitement de l'information multimédia

Publié dans : Données & analyses
0 commentaire
0 j’aime
Statistiques
Remarques
  • Soyez le premier à commenter

  • Soyez le premier à aimer ceci

Aucun téléchargement
Vues
Nombre de vues
1 356
Sur SlideShare
0
Issues des intégrations
0
Intégrations
432
Actions
Partages
0
Téléchargements
0
Commentaires
0
J’aime
0
Intégrations 0
Aucune incorporation

Aucune remarque pour cette diapositive

ESILV Nabil Bouzerna Architecture de systèmes de traitement de l'information multimédia

  1. 1. Architecture de systèmes de traitement de l'information multimédia Nabil Bouzerna © Janvier 2013 Architecture de systèmes de traitement de l'information multimédia multilingue Nabil Bouzerna Architecte & Responsable Solution en Traitement de l’Information Multimédia Multilingue ESILV Paris La Défense, 15 janvier 2013
  2. 2. Architecture de systèmes de traitement de l'information multimédia 2 // Nabil Bouzerna © Janvier 2013 | Objectifs du module Savoir assembler des modules pour construire un système simple Réalisation d’un système de traitement de contenus multimédias (vidéo, audio, image et texte) et multilingues issus de Source Ouverte (web TV et/ou plateforme de partage vidéo) en intégrant des briques technologiques commerciales et Open Source qui couvre un processus complet de veille, depuis l’acquisition de données jusqu’à leur analyse et exploitation. Ingénieur en capacité d’aller vers le métier d’architecte logiciel dans les Nouvelles Technologies d’Analyse de l’Information (NTAI) et le Media Mining
  3. 3. | Des besoins émergents : rechercher / analyser Un déluge informationnel ► TV/radio satellitaires et terrestres : BBC (UK), CBS (USA), Al Arabiya (ARE), France 2 (FRA),… ► Web TV, Podcast, : CNN.com (USA), Al Jazeera.net (Qatar), CCTV.com (Chine), FranceTV,… ► Plateforme de partage de contenu (User Generated Content) : Youtube, Dailymotion, MetaCafe, Flickr, MySpace, … ► Réseaux sociaux : Facebook, Diaspora, Pinterest, … ► Micro-blogging : Twitter, SinoWeibo (Chine), … La gestion des médias audio-vidéo-photo numériques. ► L’arrivée du numérique permet de stocker tous ces médias sur des supports informatiques. ► Mais il est nécessaire de pouvoir retrouver l’élément recherché dans une masse de données numériques. Emergence d’un discours marketing autour du « Big Data ». Architecture de systèmes de traitement de l'information multimédia 3 // Nabil Bouzerna © Janvier 2013
  4. 4. Raffiner les besoins pour réaliser La gestion des médias audio-vidéo-photo numériques : une équation pas simple. ► Des besoins spécifiques (Volume, Velocity, Variety) Une multitude de briques technologiques ► Logiciels commerciaux sur étagère (COTS) ► Logiciels libres et/ou « open-source » (OSS) Architecture de systèmes de traitement de l'information multimédia 4 // Nabil Bouzerna © Janvier 2013
  5. 5. Architecture de systèmes de traitement de l'information multimédia 5 // Nabil Bouzerna © Janvier 2013 Briques Technologiques Traitement Automatique de la Vidéo Traitements réalisables ► Détection de doublon : Il s’agit d’identifier et supprimer les documents en double en comparant leur contenu (empreinte/signature) et leurs métadonnées. ► Résumé/Aperçu vidéo : Il consiste à sélectionner les images les plus représentatives de la vidéo (statique) ou a composer des extraits de la vidéo correspondant à une version courte de la vidéo originale (dynamique). ► Localisation et extraction des textes en surimpression : Il s'agit de repérer dans la vidéo des zones de textes et d’extraire par Reconnaissance Optique de Caractère le contenu informationnel. ► Reconnaissance et Identification de visage : Il s'agit de détecter au sein des documents des visages et d’identifier les visages connus du système en indiquant leur identité (Biométrie et/ou fusion de descripteurs : visage + texte). ► Extraction des flux audio du conteneur vidéo: il s’agit d’extraire le ou les flux les flux audio en vue le traitement ultérieur.
  6. 6. Architecture de systèmes de traitement de l'information multimédia 6 // Nabil Bouzerna © Janvier 2013 Briques Technologiques Traitement Automatique de l’Audio/Parole Traitements réalisables ► Détection de doublon : Il s’agit d’identifier et supprimer les documents en double en comparant leur contenu (empreinte/signature) et leurs métadonnées (tags) ► Détection de parole et suivi de locuteur : il s’agit de distinguer les segments de parole des autres types de segments (silence, musique, bruit, etc.) et de regrouper ceux associés à un même locuteur ► Identification de la langue : Il s'agit d'identifier la langue employée par le locuteur, incluant les éventuels dialectes et variantes, indépendamment de son accent éventuel ► Identification du locuteur : Il s'agit de détecter au sein des documents traités les locuteurs connus du système en indiquant leur identité ► Transcription orthographique : Il s'agit de reconnaître les mots prononcés par le locuteur. La transcription présuppose d'avoir identifié la langue principale du document traité ► Synthèse vocale : Il s'agit de de créer de la parole artificielle à partir de n'importe quel texte
  7. 7. Briques Technologiques Traitement Automatique de l’Image Traitements réalisables ► Détection de doublon : Il s’agit d’identifier et supprimer les documents en double en comparant leur contenu (empreinte/signature) et leurs métadonnées (tags ID3) ► Recherche d’images par similarité/ recherche visuelle: reconnaissance d’images à travers une mesure/distance de similarité . La similarité entre les images peut être évaluée grâce à l’analyse des formes, des couleurs et des textures ► Identification de la langue : Il s'agit d'identifier la langue employée dans un document ► Identification du scripteur : Il s'agit de détecter au sein des documents traités les scripteurs connus du système en indiquant leur identité ► Reconnaissance optique de caractères manuscrits : Il s’agit de transcrire les images de textes manuscrits en fichiers de texte ► Reconnaissance de caractères dactylographiés : Il s’agit de transcrire les images de textes imprimés ou dactylographiés en fichiers de texte Architecture de systèmes de traitement de l'information multimédia 7 // Nabil Bouzerna © Janvier 2013
  8. 8. Briques Technologiques Traitement Automatique du Texte Traitements réalisables ► Détection de doublon : Il s’agit d’identifier et supprimer les documents en double en comparant leur contenu (empreinte/signature) et leurs métadonnées (distance/similarité) ► Identification de la langue : Il s'agit d'identifier la langue employée par le locuteur, incluant les éventuels dialectes et variantes, indépendamment de son accent éventuel ► Traduction Automatique : il s’agit d’analyser le texte dans la langue source (texte à traduire) et à générer automatiquement le texte correspondant dans la langue cible (texte traduit), en utilisant des règles précises pour le transfert de la structure grammaticale ou par méthodes statistiques Architecture de systèmes de traitement de l'information multimédia 8 // Nabil Bouzerna © Janvier 2013
  9. 9. Briques Technologiques Traitement Automatique du Texte Traitements réalisables ► Résumé automatique de texte : produire une version condensée d'un document textuel ► Classification de documents : plan de classification prédéfini (supervisé); ► Catégorisation de documents : catégories non définis (non supervisée); ► Moteur de recherche/fouille de textes : applications très connues de fouille de textes sur de grandes masses de données. Cf. « Recherche d’information » par N. Travers. et « Exalead CloudView » Rémi Landais, Dassault Systèmes ► Reconnaissance d’entités Nommées : étant donné un texte, il s’agit de déterminer les noms propres, tels que des organisations, des personnes ou des lieux; Architecture de systèmes de traitement de l'information multimédia 9 // Nabil Bouzerna © Janvier 2013
  10. 10. Raffiner les besoins pour réaliser Besoins ? Briques de Technologies Système La gestion des médias audio-vidéo-photo numériques : une équation pas simple. ► Des besoins spécifiques (Volume, Velocity, Variety) Une multitude de briques technologiques ► Logiciels commerciaux sur étagère (COTS) ► Logiciels libres et/ou « open-source » (OSS) Comment les assembler et mettre en œuvre des chaînes de fonctions/traitements ? ► Acquérir – Analyser et Indexer – Gérer les données et les processus – Rechercher et distribuer Architecture de systèmes de traitement de l'information multimédia 10 // Nabil Bouzerna © Janvier 2013
  11. 11. EIP et ESB En matière d'intégration applicative, il y a deux solutions - comme en développement - : 1. soit on réinvente la roue, le syndrome NIH « Not Invented Here » 2. soit on réutilise des solutions et patterns existants (déjà éprouvés). Des « Design patterns » d'intégration applicative : les EIP ► « Enterprise Integration Patterns » Gregor Hohpe and Bobby Woolf ► Un vocabulaire pour formaliser les échanges inter applicatifs. ► Exemple « Content-Based Router » Permet de faire des choix basés sur des prédicats (conditions à satisfaire pour valider le test) e.g. SI langue <> ’fre’ ALORS SystranTra,sa Des intergiciels/middleware d’intégration qui implémentent les EIP : les ESB ► Permettre la communication des applications qui à la base ne sont pas pensées pour fonctionner ensemble Architecture de systèmes de traitement de l'information multimédia 11 // Nabil Bouzerna © Janvier 2013
  12. 12. | Architecture Orientée Services Paradigme SOA (Service-Oriented Architecture) Flexibilité : possibilité d’intégrer un ou plusieurs composant(s) dans un système préexistant Modularité : possibilité de remplacer facilement un composant (service) par un autre Réutilisabilité des composants (contrairement à un système tout-en-un conçu sur mesure) Évolutivité : possibilité de faire évoluer un service, d’en ajouter un nouveau Architecture de systèmes de traitement de l'information multimédia 12 // Nabil Bouzerna © Janvier 2013
  13. 13. Enterprise Integration Patterns Mêmes concepts que les designs patterns en conception objet ► Solution éprouvées à un problème commun EIP = patterns d’intégration d’applications ► Transformation de messages ► Routages de messages  Content-Based Routing qui permet de router les messages en fonction du contenu de ces derniers en fonction de règles prédéfinies.  Message Filter qui permet de filtrer les messages en fonction de règles prédéfinies. Il est à noter qu’il peut être sans état ou avec état (par exemple dans le cas où il est nécessaire de supprimer les messages en doublons).  Dynamic Router qui permet de router les messages en fonction de critères fournis par un composant tierce pouvant être renseigné dynamiquement.  Splitter qui permet de découper un message en fonction de règles pouvant être définies statiquement ou dynamiquement. Il est à noter qu’il peut également adjoindre au message des propriétés comme Message Sequence et Correlation Identifier en prévision d’une éventuelle réagrégation du message découpé. Architecture de systèmes de traitement de l'information multimédia 13 // Nabil Bouzerna © Janvier 2013
  14. 14. Enterprise Integration Patterns Architecture de systèmes de traitement de l'information multimédia 14 // Nabil Bouzerna © Janvier 2013
  15. 15. Enterprise Service Bus Roy Schulte de la société Gartner inc, en fait la description suivante : ► L'ESB est une nouvelle architecture qui exploite les services web, les systèmes orientés messages, le routage intelligent et la transformation. ► L'ESB agit comme une colonne vertébrale légère et omniprésente de l'intégration à travers laquelle les services logiciels et les composants applicatifs circulent. Architecture de systèmes de traitement de l'information multimédia 15 // Nabil Bouzerna © Janvier 2013
  16. 16. Enterprise Service Bus L'ESB possède quatre fondements : ► Le Middleware Orienté Message (MOM) qui permet l'échange de messages de manière asynchrone. Ainsi chaque message est déposé sur une file d'attente avant d'être consommé par le destinataire. ► Les services Web qui permettent d'interfacer les applications avec le bus. Chaque service contient une logique d'intégration des messages (transformation, routage, etc.). ► Les transformations qui concernent les messages circulant sur le bus, elles sont essentielles dans un ESB car leur rôle est de permettre à des applications de converser même si elles définissent différemment leurs données. ► Le routage intelligent qui découple l'expéditeur du message de son destinataire. C'est en fait l'ESB qui va déduire la destination du message. Pour cela il se base sur le contenu du message et les règles qui ont été définies. Architecture de systèmes de traitement de l'information multimédia 16 // Nabil Bouzerna © Janvier 2013
  17. 17. Styles d’intégration et de communication Styles d’intégration ► le transfert de fichier ► le partage de données ► l’invocation de procédure distante ► la communication par message Architecture de systèmes de traitement de l'information multimédia 17 // Nabil Bouzerna © Janvier 2013
  18. 18. Styles d’intégration et de communication Transfert de fichier (File Transfer) le transfert de fichier ► Deux applications communiquent entre elles en se partageant des données stockées dans des fichiers ► Principe de l’export / import de données : FTP, HTTP, SCP, … ► Problème du format de fichier, un mauvais choix pouvant entrainer des problèmes d'interopérabilités (e.g. : mp3 encodage destructeur) ► En l’absence de standard, le fichier produit par l’application A est rarement au format attendu par l’application B et il est donc nécessaire de compléter le système avec des processus de conversion/transformation des données. Architecture de systèmes de traitement de l'information multimédia 18 // Nabil Bouzerna © Janvier 2013
  19. 19. Styles d’intégration et de communication Partage de données (Shared data) le partage de données ► Plusieurs applications ont accès à une même base de données et/ou un même espace de stockage pour s’échanger des données ► Solution « naturelle » et largement employée  partage via un système de fichier distribué : SMB, NFS, CIFS, WebDAV  partage de base de données ► Les accès concurrents aux données doivent être gérés, chaque application doit parfaitement gérer les transactions Architecture de systèmes de traitement de l'information multimédia 19 // Nabil Bouzerna © Janvier 2013
  20. 20. Styles d’intégration et de communication Invocation de procédure distante (Remote Procedure Call) l’invocation de procédure distante ► Une application expose une interface de service dont opération peuvent être invoques à distance par une autre application  CORBA, RMI, DCOM, …  SOAP, REST ► L’application effectuant l’invocation ne connaît que l’interface exposée par l’autre application ► Les paramètres d’invocation et le résultat doivent être sous une forme compréhensible par les deux applications Architecture de systèmes de traitement de l'information multimédia 20 // Nabil Bouzerna © Janvier 2013
  21. 21. Styles d’intégration et de communication Communication par message (MOM) Système de messagerie ( ≠ de la messagerie « email/courriel » à ne pas confondre) ► Plusieurs applications s’échangent des messages sans se connaître ni se « voir » directement (couplage lâche). ► La communication entre les applications est asynchrone ► Envoi/récupération de message via Message-Oriented Middleware (MOM)  Normalisation • Java Message Service (JMS) Architecture de systèmes de traitement de l'information multimédia 21 // Nabil Bouzerna © Janvier 2013
  22. 22. Text Processing Video Processing Image Processing UGC Podcast Audio Processing Architecture mise en œuvre en TP Architecture de systèmes de traitement de l'information multimédia 22 // Nabil Bouzerna © Janvier 2013
  23. 23. Questions Architecture de systèmes de traitement de l'information multimédia 23 // Nabil Bouzerna © Janvier 2013
  24. 24. Nabil Bouzerna Architecte & Solution manager  nabil@bouzerna.com

×