#AAFSaintÉ19 : Une transformation numérique au service de l’usage : évolution du traitement des fonds de l’Ina
1. Une transformation numérique
au service de l’usage
Evolution du traitement des fonds
de l’Institut national de l’audiovisuel
Eleonore Alquier, chef du département Collecte et Conservation, INA
2. 1974 : CRÉATION D’UN EPIC
Après l'éclatement de l'ORTF, l'Ina hérite
de la recherche
de l’archivage et de la valorisation des chaînes publiques
de la formation professionnelle
1999 : LE VIRAGE NUMÉRIQUE
Plan de Sauvegarde Numérique : 1,5 millions d’heures numérisées
2004 : InaMediaPro.com
2006 : Ina.fr
2010: Ina Global, revue en ligne sur les industries créatives, les médias et le web.
Panorama historique des missions
Eleonore Alquier, INA - Forum de l'AAF 2019
3. Radio
TV (Régionales)
TV (national)e
Photos
Collections
privées
1986 : loi relative à la communication : l’Ina est autorisé à
commercialiser des archives pour alimenter de nouvelles productions
Ariana films
(Afghanistan)
supports
Usage : commercial
Cibles : réalisateurs,
journalistes, institutions…
Modes d’accès : Inamediapro, ina.fr
https://www.inamediapro.com/
http://www.ina.fr
Eleonore Alquier, INA - Forum de l'AAF 2019
Un archivage à des fins « d’exploitation professionnelle »…
Eleonore Alquier, INA - Forum de l'AAF 2019
4. DL du web
1995 : Mise en place du dépôt légal de la radio et de la télévision
Usages : patrimonial, scientifique
Cibles: éducative, académique
Modes d’accès : Ina THEQUE
http://www.inatheque.fr/index.html
Radio
TV (régionales)
TV (satellite)
TV (nationale)
Collections privées
Archives écrites
7 chaînes TV en 1995 > 103 chaînes en 2018
6 Chaînes radio en 1995 > 66 chaînes en 2018
Eleonore Alquier, INA - Forum de l'AAF 2019
… Et patrimoniales
Eleonore Alquier, INA - Forum de l'AAF 2019
5. Des collections massives et en accroissement constant
Évolution du nombre de version d’URL archivées
Évolution du nombre d’heures de vidéo WEB captées
Eleonore Alquier, INA - Forum de l'AAF 2019
6. Face à la masse (1) : ne pas décrire, mais agréger des données
Diffuseurs
Bulletins de Presse
BASE
BASE
Import quotidien
19 chaînes
Si clé Imedia connue =
rediff
Reprise n° ISAN de
première diffusion
Si clé Imedia new
Insert n° Isan New
ou
Programme de flux
sans Isan
+
+
Sur sélections DL
• Réalisateurs
• Découpage suppl. sujets
• Producteurs
Exports
19 chaînes
Copie France
J-15 J Diffusion J +2 J +45
Alignement
=> Inscription
nouveau numéro Isan
/clé Imedia
BASES
BASE
• Si nouveau
programme
annoncé
=>nouvelle clé unique
Imedia
=> recherche n° Isan
Import quotidien :
66 chaînes
CATALOGAGE
TRAITEMENT
DOCUMENTAIRE
Alignement 19 ch par synchro
Mediamat =
Réel diffusé
Sur tous :
Requêtes et
correctionsTGCMs +
Sélection DL
+ 6 mois
Compléments de
numéros Isan
Alignement n° Isan
<Procirep/clé Imedia
% copie privée
Eleonore Alquier, INA - Forum de l'AAF 2019
7. Structure
simple
Structure
complexe
Série
Unitaire
Catalogage
Signalétique
Catalogage
avec descripteurs
Catalogage
synthétique
Catalogage
analytique
Indexation
Niveaux différenciés
IDENTIFICATION
Auteurs, générique,
producteurs,
résumé producteur
+
Mots clés
+
Résumé synthétique :
forme et contenu
+
+
Résumé chrono
grandes séquences
Description fine
+
Tous les programmes
Programmes
français inédits
Jeu, série de fiction dessin animé,
sitcom, tranche horaire
programme de stock avec résumé producteur,
chroniques, collection de programmes courts
Journaux, téléfilm, série de fiction, magazine avec
reportages, divertissement, évènements
Collection de grands
reportages ou documentaires
Documentaires unitaires
Informations documentairesType programme Genres de programmes
DOC
DOC
DOC
DOC
TGCM
Métiers :
TGCM : catalogueurs (formation interne)
DOC : documentalistes (diplôme d’état)
TGCM
Eleonore Alquier, INA - Forum de l'AAF 2019
Face à la masse (2) : ne pas décrire l’exhaustivité, mais sélectionner
Eleonore Alquier, INA - Forum de l'AAF 2019
8. 1 tweet = 30 métadonnées
Texte du tweet : 5% des données du tweet
Face à la masse (3) : réfléchir à la data-visualisation
Eleonore Alquier, INA - Forum de l'AAF 2019
9. Bonsoir la boîte noire du Boeing britannique a été retrouvé tout à l' heure le 737 de la compagnie Midland Airways s'est écrasé hier soir dans le comté de Leicester dernier bilan 46 morts 80 blessés une catastrophe (…………………………)
Herb.Crash Brèves AuroreSolidarité drogueRika Zarai Confér.MITTERMunicipales Usine chimique
Journal
Plateaux (voix du présentateur)Frontières de sujets
mots mots mots mots mots mots mots mots mots mots mots mots mots mots
Une tradition de R&D, et des cas d’usages testés avec succès (1) :
Segmenter un flux par analyse de la transcription
Action dir.
Eleonore Alquier et Jean Carrive, INA - Forum de l'AAF 2019
10. Notices de contenuEmissions Lexiques Web des données
MusicBrainz
Périmètre de liage
Création d’une
nouvelle entité
Une tradition de R&D, et des cas d’usages testés avec succès (2) :
Enrichir les descriptions par recours au web de données
Eleonore Alquier et Steffen Lalande, INA - Forum de l'AAF 2019
11. Des idées adaptées aux usages, mais pas intégrées ni
anticipées dans l’architecture informatique existante
Une démarche qui appelle l’agile, mais s’oppose à la
méthodologie de projet « traditionnelle »
Des tentatives qui s’arrêtent à l’état de tests ponctuels
(ex : organisation d’un design sprint)
Mais qui permettent aussi une amorce
d’accompagnement au changement, et un début de
mobilisation des futurs utilisateurs
Une frustration à ne pas (réussir à) mettre en œuvre ces solutions
Eleonore Alquier, INA - Forum de l'AAF 2019
13. Un nouveau modèle de données qui permet d’articuler données « manuelles » et
analysées automatisées
Eleonore Alquier, INA - Forum de l'AAF 2019
14. Son
Vidéo
Image
Transcription Détection des
tours de parole « Tagging »
automatique
Détection des
génériques
ClassificationExtraction
entités
nommées
Segmentation
automatique des
JTs
Océrisation
Reconnaissance
des participants
En cours de déploiement
Tests envisagés en 2018
Une maturation rapide des solutions disponibles : état des technologies en mars 2018
Solution
externe à
l’étude
Solution
externe à
l’étude
Eleonore Alquier et Gautier Poupeau, INA - Forum de l'AAF 2019
15. Une maturation rapide des solutions disponibles : état des technologies en janv. 2019
Son
Vidéo
Image
Transcription Détection des
tours de parole
Détection des
différentes parties
d’émission
« Tagging »
automatique
Détection des
génériques
ClassificationExtraction
entités
nommées
Segmentation
automatique des
sujets
Détection
d’actions
Détection de
la musique
Identification de
personnes
Time-codage de
locuteurs Océrisation
Reconnaissance
des participants
Déploiement en cours
Identification de
la musique
A implémenter dans le SI
Test de validation avec DDCOL
Test prévu avec la recherche
Travail à poursuivre en 2019
Test à mener en 2019Solution interne :
InaSpeechSegmenter
Création de
modèles sur
base indexée
Exploitation données Qualinca
(outil INA)
+ solutions externes
Détection et
clustering visages
Test des solutions
sur étagères
Chargement des données de
SyncNotes (outil INA)
Bilan d'un an de tests d'outils de TDM | 24 janvier 2019
Solution externe à
l’étude
Eleonore Alquier et Gautier Poupeau, INA - Forum de l'AAF 2019
16. Au-delà des POC ponctuels…
une démarche plus efficace une fois intégrée dans un processus de
décision porté par l’encadrement
Au-delà des tests techniques « tous azimuts » sur les solutions du
marché ou conçues en interne…
une mobilisation du métier qui permet d’identifier les cas d’usages
et de définir des priorités de mise en œuvre
Détecter automatiquement les éléments de structuration d’une journée de diffusion
sur des chaînes d’information, naturellement « volatiles »
Détecter automatiquement les éléments de structuration de programmes
« composites » : Thalassa, Envoyé Spécial, Tout le sport, …)
Analyser par OCR les textes visibles à l’écran : identifier les intervenants, enrichir les
génériques (noms et rôles, …)
Un enjeu d’organisation avant tout !
Eleonore Alquier, INA - Forum de l'AAF 2019
17. Constituer des corpus définis par le métier
Déterminer des critères d’analyse des résultats :
métriques d’acceptation/refus des résultats,
analyse du temps de mobilisation nécessaire à la préparation
et à l’analyse des résultats,
calcul du gain « net » (en temps, en données, …)
MOBILISER ET EXPLIQUER : les choix, les options, les
hypothèses, les calendriers… et les objectifs, dans une
démarche cohérente avec les réflexion relatives à
l’évolution de l’organisation
Bref : faire preuve de… #transparence !
Et la suite ?
Eleonore Alquier, INA - Forum de l'AAF 2019
18. Merci de votre attention !
Pour poursuivre la discussion :
Stand INA, Salon Armuriers
Eleonore Alquier, ealquier@ina.fr