Support de l'intervention effectuée au cours de la séance dédiée aux lacs de données du séminaire "Nouveaux paradigmes de l'Archive" organisée par le DICEN-CNAM et les Archives nationales
Bidirectional Encoder Representations from Transformers
Le "Lac de données" de l'Ina, un projet pour placer la donnée au cœur de l'organisation
1. Le « lac de données » de l'Ina, un projet
pour placer la donnée au cœur de l’organisation
Séminaire « Nouveaux paradigmes de l’Archive »,
15 décembre 2020
Gautier Poupeau
gpoupeau@ina.fr
@lespetitescases
http://www.lespetitescases.net
3. Démultiplication des données
L’objet
Structure physique
Structure numérique
1ère question : Quel est ce livre ?
Métadonnées descriptives
3ème question : Quels sont les formats des fichiers ?
Métadonnées techniques
2ème question : Quels sont tous les fichiers qui résultent
de la numérisation ?
Structure numérique
4ème question : l’organisation maîtrise-t-elle
ces formats ?
Référentiel de formats
Formats
5ème question : Quand a eu lieu
la numérisation et quel est le nom
du scanner ?
Métadonnées de provenance
6ème question : A quelle page
correspond chaque fichier ?
Métadonnées de structure
7ème question : Qui, quand et comment un
usager a consulté ce livre ?
Données d’usage 8ème question : Que contient exactement ce livre ?
Contenu exploitable
Un exemple : les métadonnées d’un livre dans une collection de bibliothèques
9ème question : Comment valoriser ce
livre sur notre site Web et les réseaux
sociaux ?
Données éditoriales
10ème question : comment réagit-on
sur les réseaux sociaux ?
Données des utilisateurs
11ème question : que dit-on de ce
livre ou de son auteur dans les
autres collections ou
Wikipedia/Wikidata ?
Données interopérables
4. Du document à la donnée, un changement de granularité
En permettant le traitement informatisé du contenu lui-même, la numérisation a peu à peu provoqué une
modification dans l’appréhension des choses : du document à la donnée et a rendue poreuse la frontière entre
données et métadonnées.
La description
est numérique
Le document/support est
accessible via une notice
qui en décrit la globalité
Le document est numérisé
ou nativement numérique
Le moteur de recherche
permet d’accéder au
contenu du document
Le document est un ensemble
de données exploitables
Le document lui-même devient
une source de données, il n’existe
plus de dichotomie entre les
métadonnées et les données
5. La donnée, au centre de l’attention
En 15 ans, de par les évolutions technologiques, de par la montée en puissance du numérique, et avec elle
de la donnée, dans nos vies, de par la prise de conscience politique et citoyenne, la donnée est peu à peu
devenue le centre de toutes les attentions.
Traiter et stocker les
données en masse
Big data Data mining Linked data
Exploiter automatiquement
les contenus et les données
Open Data
Rendre accessible les
données
Permettre l’interopérabilité
des données
6. Les processus : la partie émergée de l’iceberg
• Besoins primaires : production, stockage et restitution
• Modélisation des processus-métiers
• Réponse directe aux besoins des utilisateurs
• Entraîne une multiplication des applications
• A chaque application, sa logique propre, son format de données, ses
propres mécanismes d’accès
Les données : la partie immergée de l’iceberg
• Les données du SI dépendent de la modélisation des processus
• Les données sont enfermées dans chaque application formant des silos de
données
• Absence de cohérence technique et sémantique entre les silos
• Le modèle physique de stockage des données peut être très éloigné du
modèle logique ce qui rend difficile la migration, la maintenance et la
compréhension du modèle
Et pourtant….
Dans la plupart de nos SI, les données restent enfermées, redondées dans des silos applicatifs pensés en
fonction de leurs usages et non de leurs logiques….
7. Alors que…
les attentes d’un SI documentaire évoluent pour répondre à tous les constats précédents…
Permettre l’accès à la collection
Assurer la maîtrise sur le long terme d’une
collection de plus en plus hétérogène et
de moins en moins physique
Permettre aux usagers de trouver la réponse à leur question et
plus simplement de trouver le document qui pourrait
éventuellement répondre à leur question
Replacer la collection elle-même et les données contenues dans les
documents de nos collections dans l’ensemble de l’écosystème des données
de l’organisation
Naviguer et rechercher au sein de collections de différentes
organisations composées de documents hétérogènes
Assurer la cohérence et la fluidité entre données et
métadonnées, entre le contenu et sa (ses) description(s)
Enrichir les (méta)données à partir de
données d’origines et de natures diverses
Permettre l’analyse et l’exploitation en masse des
documents eux-mêmes et des métadonnées
8. Comment répondre à ces constats?
Quelques propositions de solutions mises en place à l’Ina ces dernières années
9. Les constats à l’Ina
Des données
éparpillées et silotées
Un (des ?) SI à repenser pour accompagner les
transformations
Des nouvelles technologies
à intégrer
Globalement, nous dressons à partir de 2014 les mêmes constats au sein de l’Ina….
Conclusion : il est nécessaire de repenser globalement tout notre système d’information, mais plutôt que
conduire le projet uniquement en fonction des processus métiers, on décide de placer la donnée au cœur de
notre réflexion !
10. Les objectifs
Mette en cohérence les
différents ensembles de données
Assurer l’exploitation, la supervision et l’évolution
des systèmes de traitement et de stockage des données
Partager une connaissance des données et
déployer une gouvernance des données
Séparer techniquement et
logiquement les données des usages
Maîtriser les données et les placer au cœur du SI, de nos usages et de notre organisation
11. Ingénieurs, chefs de projet, professionnels de l’information, juristes, chercheurs, rédacteurs et journalistes
intègrent peu à peu la question de la donnée à leur pratique et à leur réflexion
Les acteurs de la transformation
Les « métiers » de la donnée
Data scientist
Architecte
de données
Ingénieur
de la donnée
Analyste de la donnée
Professionnels de l’information
Data ops/DBA
12. Les réalisations : un nouveau modèle conceptuel de données
La mise au point d’un nouveau modèle conceptuel de données co-construit avec les professionnels de la donnée
de la DSI et les professionnels de l’information de la Direction des collections pour décrire toutes les données
autour des collections.
Cartographie des grands ensembles de données de l’Ina
Schéma représentant le cœur du nouveau modèle de l’Ina
organisé autour de 3 entités principales :
le contenu, l’événement et le support
13. Les réalisations : une infrastructure technique
• Disposer des différentes familles de bases de données
pour répondre aux différents cas d’usage pour stocker
et interroger les données
• Penser un système global intégrant à la fois les
systèmes de stockage, de traitement, de
synchronisation et d’accès aux données
• Abstraire la complexité sous-jacente aux autres
applications et leur offrir une infrastructure sécurisée
et clé en main de stockage et de traitement de
données
L’infrastructure technique, le « lac de données » en lui-même, une architecture hybride qui assure la séparation
entre les données et les usages, stocke les différentes natures de données, centralise les traitements et répond
aux différents cas d’usage.
14. Les réalisations : une reprise de l’ensemble des données existantes
Le dépôt légal
Constituer le reflet du flux diffusé depuis 1995
Les archives professionnelles
Constituer une banque de programmes
depuis l’ORTF
Récupération, restructuration, fusion, nettoyage et mise en relation d’une vingtaine de bases de données
documentaires, matérielles, juridiques au sein d’une seule base de données suivant le modèle conceptuel.
15. Les réalisations : une reprise de l’ensemble des données existantes
Récupération, restructuration, fusion, nettoyage et mise en relation d’une vingtaine de bases de données
documentaires, matérielles, juridiques au sein d’une seule base de données suivant le modèle conceptuel.
16. Les réalisations : une reprise de l’ensemble des données existantes
Récupération, restructuration, fusion, nettoyage et mise en relation d’une vingtaine de bases de données
documentaires, matérielles, juridiques au sein d’une seule base de données suivant le modèle conceptuel.
17. Les données à la fin de l’année 2020
• Données pour le moteur de recherche d’ina.fr
• Données de Madelen issues de totem + les
enrichissements éditoriaux
• Données migrées depuis les bases actuelles pour
Notilus (jusqu’en 2017)
• Données pour le moteur de recherche
d’InaMediaPro issues de Totem
• Données du moteur de recherche Mediaclip issues
du Magento PAV
• Données de la transcription effectuée par Vocapia +
extractions d’entités nommées (personnes, lieux,
organisation)
• Données des sous-titres issues des bases DL +
extraction d’entités nommées
• Données migrées depuis les bases actuelles
documentaires et juridiques pour Notilus
• Données issues de Wikidata liées à nos bases
• Données de la transcription effectuée par Vocapia
pour des besoins de recherche + extractions d’entités
nommées
• Données issues des études menées par David
Doukhan sur l’analyse du temps de paroles des
hommes et des femmes
• Données liées aux droits d’exploitation des
contenus vidéos (contributions + droits
associés)
18. • Données pour le moteur de recherche du hub
issues des bases totem/OGP du lac et du CMS Hub
• Données de Madelen issues de totem + les
enrichissements éditoriaux
• Données migrées depuis les bases actuelles pour
Notilus (jusqu’en 2018)
• Données migrées en différentiel depuis Totem
• Données pour le moteur de recherche
d’InaMediaPro issues de Totem et de la Sonuma
• Données du moteur de recherche Mediaclip issues
du Magento PAV
• Données de la transcription effectuée par Vocapia +
extractions d’entités nommées (personnes, lieux,
organisation)
• Données des sous-titres issues des bases DL +
extraction d’entités nommées
• Données nécessaires pour l’analyse des journées de
programme des chaînes d’info en continu (classif
images, OCR, reconnaissance images, analyse de
visages)
• Données issues de l’analyse du son sur les chaînes de
l’Audiovisuel public
• Données migrées depuis les bases actuelles
documentaires et juridiques pour Notilus
• Données issues de Wikidata liées à nos bases
• Données d’usage (SVOD/Hub)
• Données de la transcription effectuée par Vocapia
pour des besoins de recherche + extractions d’entités
nommées
• Données issues des études menées par David
Doukhan sur l’analyse du temps de paroles des
hommes et des femmes
• Données liées aux droits d’exploitation des
contenus vidéos (contributions + droits
associés)
• Données sur les dossiers de production
Les données à la fin de l’année 2021
19. Les réalisations : déploiement du TDM
Mise au point et déploiement d’un ensemble d’outils de Text et data
mining pour répondre à des cas d’usages métiers et dont toutes les
données sont stockées et interrogeables dans le lac de données selon le
modèle conceptuel de l’Ina.
Transcription et extraction d’entités nommées
Analyse des visages
Analyse du son
Basée sur les travaux menés par
David Doukhan, chercheur à l’Ina
Segmentation automatique des journées de
programme des chaînes d’information en continu
Segmentation et analyse automatique
des journaux télévisés
20. En résumé : déployer une gouvernance des données à l’Ina
Mieux maîtriser les données pour
répondre aux usages actuels et futurs
avec un maximum de réactivité en
garantissant la qualité et la
disponibilité des données
21. CONTACT
4, avenue de l’Europe
94366 Bry-sur-Marne Cedex - France
établissement public à caractère industriel et commercial
RCS Créteil 302 421 193 B institut.ina.fr
Merci pour votre attention !
Gautier POUPEAU
gpoupeau@ina.fr
@lespetitescases