Données liées : Succès, leçons et prochaines étapes
1. Présentation au réseau
des Agents de
développement
numérique
Frédéric Julien
Association canadienne
des organismes
artistiques (CAPACOA)
Données liées :
Succès, leçons et
prochaines étapes
Photo: J’aime Hydro de Christine Beaulieu. Coproduction de Porte Parole et Champ gauche. Photo : Pierre Antoine Lafon Simard.
Sauf avis contraire, les contenus de cette présentation sont disponible sous licence CC BY 4.0 .
10 juin 2020
2. Un avenir numérique lié
Lancée en novembre 2018,
l’initiative s’appuie sur les
données liées pour favoriser
la découvrabilité et la
collaboration numérique
dans la chaîne de valeur
des arts de la scène.
3. Constats de départ
La recherche converge
vers les mêmes solutions.
Le secteur des arts de la
scène a besoin :
• Une vision globale pour
une stratégie de donnée
collective; et
• Des métadonnées
interopérables de bonne
qualité.
4. Un avenir numérique lié
L’initiative intervient sur plusieurs
fronts afin de :
• Définir un stratégie de données
– interopérabilité;
• Traduire les informations au sujet
des arts de la scène en données
ouvertes liées – découvrabilité;
• Accompagner les organismes
artistiques dans leur
transformation numérique;
• Favoriser la collaboration
numérique à travers l’ensemble de
la chaîne de valeur du spectacle.
5. Notre vision :
plusieurs parties prenantes; une seule base de connaissances
Chaîne de valeur des arts de la
scène
Écosystème de données ouvertes
liées sur les arts de la scène
Architecture
distribuée
Parties
prenantes
Réutilisation
des données
6. Une base de
connaissance distribuée
Imaginez des bases de données
liées les unes aux autres de
façon à permettre une
réutilisation et un
enrichissement des données.
Avantages :
• Accès à une plus grande
quantité de données.
• Distribution du fardeau
d’entretien de la donnée.
• Données plus complètes et à
jour.
7. Les avantages des données liées
Données liées = données graphe = Web des données
Le web des données offre
• Un cadre commun
• Permettant aux données d’être
partagées et réutilisées
• Par-delà les limites
des applications, des enterprises
et des communautés.
Source: W3C, Semantic Web Activity, 2001.
8. Les avantages des données liées
Les données graphe sont :
• Plus rapides que SQL
• Mieux adaptées à l’intégration de jeux de données
hétérogènes
• Mieux adaptées aux situations dans lesquelles le
modèle de données est en evolution.
Source: W3C, Data Activity: Building the Web of Data.
9. Qu’est-ce qu’un graphe de connaissance?
• Un modèle de données (un modèle conceptuel pour
représenter les informations sous forme de données,
avec des ontologies formelles régissant l’organisation
du savoir à l’intérieur d’un domaine de connaissances);
et,
• Des données liées, entreposées dans une base de
donnée graphes.
Lecture suggérée : Mais qu’est-ce qu’un graphe de connaissances? (et autres
questions toutes aussi pertinentes)
11. Le modèle conceptuel ANL : version… conceptuelle
• Construit avec
des ontologies
RDF classiques :
• FRBR, FRBRoo
• RDA
• CIDOC-CRM
• Concordances
avec :
• Wikidata
• Schema
12. Le modèle conceptuel ANL : exemples de données
Photo: J’aime Hydro by Christine Beaulieu. Co-produced by Porte Parole and Champ gauche. Photo credit: Pierre Antoine Lafond Simard.
Entité nommée
Classe d’entités similaires
13. Le modèle conceptuel ANL : exemples de données
Sujet Prédicat Objet
J’aime Hydo Est un
élément de
la classe
Production
scénique
La même information peut être représentée
sous forme de triplet selon le
Resource Description Framework (RDF)
18. Bases de données
• ISNI
• VIAF
• MusicBrainz
• Discogs
• Songkick
• EIDR
• IMDb
• Wikidata
Registres de base et fichiers d’autorité
Entités nommées
• Œuvres (littéraire, musicale, chorégraphique)
• Éditions ou traductions d’œuvres
• Personnages fictifs
• Salles de spectacles
• Personnes (auteurs, compositeurs, interprètes)
• Organisation (companies de production, organismes de
diffusion)
Les registres de base et les
fichiers d’autorité jouent un rôle
central dans la liaison de jeux
de données dispersés.
Quelques statistiques
(Wikidata, avril 2019)
• 420 000 œuvres musicales
• 21 000 pièces de théâtre
• 820 œuvres chorégraphiques
• 11 000 personnages fictifs
• 20 000 salles de spectacles
• 260 000 musiciens
• 250 000 acteur/actrice
• 87 000 ensembles musicaux
• 5 000 troupes/compagnies de théâtre
• 340 troupes/compagnies de danse
et ça augmente rapidement...
19. Rappel de quelques concepts de base
• Classe d’éléments
• On y retrouve des
entités nommées
• Peuvent être sujets ou
objets dans un triplet
• Propriétés
• Ce sont les prédicats dans
les triplets
• Registres de bases et
fichiers d’autorité
• Uniform Resource
Identifier
20. Rappel de quelques concepts de base
Données liées = Données graphe = Web des données
Base de connaissance décentralisée =
des base de données décentralisées mais liées
21. Alors, c’est pour bientôt cet
avenir numérique lié?
Ce que nous avons réalisé jusqu’à présent
22. Activités de recherche action
• Rapport de recherche publié avec la Haute École
spécialisée bernoise.
• Modèle conceptuel pour représenter l’information sur
les arts de la scène en tant que données ouvertes liées.
• Bon coup: Méthode basée sur les cas d’usages pour définir les
données essentielles et leur usagers actuels et potentiels.
• Autre bon coup: Modéliser à partir de données réelles.
23. Activités de prototypage
• Développement de la technologie Footlight avec La Culture
crée pour alimenter le graphe des connaissances
Artsdata.ca en données ouvertes liées sur des événements,
des salles et des organismes.
• 17 organismes dans la première cohorte du programme de
découvrabilité numérique.
• Footlight pour traduire l’information sur les sites Web de ces
organismes en données ouvertes liées.
• En mars 2020, le graphe de connaissances Artsdata.ca
contenait 47 000 URI d’entités de la scène et 456 000
triplets RDF.
• Plus de la moitié de ces triplets a été générée automatiquement à
partir de règles d’inférence.
24. Activités de prototypage
• Rapport technique sur la faisabilité d’une passerelle
sémantique entre Scène Pro et Artsdata.ca
25. Activités de littératie numérique
• Formation et accompagnement sur la découvrabilité
numérique et la transformation numérique à plus de
500 travailleuses et travailleurs culturels.
• Nous avons constaté l’enthousiasme envers Wikidata et
envers les données structurées Schema.
• Pour des informations plus détaillées, vous pouvez
consulter le rapport annuel 2019-2020 de l’initiative Un
avenir numérique lié.
27. Ce que nous avons appris
• Pour qu’une culture de la donnée soit adoptée, les
différents sens du mot « données » doit être clarifiés et
vulgarisés.
• Il faut rendre le savoir implicite explicite. Il faut éviter
les raccourcis conceptuels.
• C’est quoi un « diffuseur » ?
• Il faut éviter le piège de la granularité. Avant de définir
les détails qui nous distinguent, il faut définir les points
communs qui nous unissent.
28. Conditions de succès
• Convaincre les intervenants du secteur d’emprunter la voie
de la collaboration plutôt que celle de la compétition (notion
de « coopétition »).
• Il ne suffit pas de parler des avantages des données liées. Il
faut que les gens visualisent la réutilisation et
l’enrichissement de la donnée (outil « Footlight »). Il faut
qu’ils aient l’occasion de manipuler des données structurées
ou liées (outil de données structurée Schema.org,
Wikidata).
• Il nous reste à fournir des preuves de concept : des
applications alimentées avec des données décentralisées
30. Autres apprentissages
• Très peu d’initiatives considèrent l’ensemble de la
chaîne de valeur.
• Les problèmes liés aux données sont bien connus :
• multiples saisies des mêmes données dans plusieurs
systèmes;
• donnée de faible qualité;
• peu de réutilisation ou de valorisation des données.
• Pourtant les solutions qu’on tente d’y apporter reposent
encore essentiellement sur des paradigmes de
centralisation.
31. Autres apprentissages
• Le fait de modéliser, valider et prototyper dans deux
langues différentes met en évidence de nombreuses
ambiguïtés dans chaque langue ainsi que dans l’usage
courant.
• Il y a très peu de fournisseurs capables de monter des
bases de données graphe.
• Problème de l’œuf et de la poule.
Lequel doit venir en premier : l’offre ou la demande?
33. On maintient le cap sur le développement d’un
graphe de connaissance pancanadien
Organismes
artistiques
Bases de données,
répertoires,
calendriers, etc.
Moissonnage de sites Web
(Footlight)
Plateformes et
systemes
d’information
Mention de source : inspire par La culture crée
34. Présence des arts de la scène dans Wikidata
• Activités de modélisation
• Intégration de jeux de données dans Wikidata
• Formations
• Avec l’appui du Conseil québécois du théâtre, de
LaCogency, du Conseil des arts du Canada et de la
Fondation Wikimedia
https://meta.wikimedia.org/wiki/Grants:Project/Fjjulien/Modelling_and_Popul
ating_Performing_Arts_Data_in_Wikidata
35. Autres projets
• Projet de gouvernance des données
• avec Nord Ouvert
• Initiative internationale pour la création d’un
écosystème de données ouvertes liées pour les arts de
la scène
• En collaboration avec la Haute école spécialisée bernoise
38. Recommandations du rapport Lier l’avenir numérique des arts
de la scène
1. Il faut accorder une importance immédiate à l'ajout de données sur les arts de la
scène au graphe de connaissances pancanadien.
2. Wikidata doit être perçu comme étant complémentaire au graphe de
connaissances pancanadien. Il faut donc entreprendre des efforts pour contribuer à
son enrichissement en données pertinentes sur les arts de la scène.
3. Il faut mettre au point une structure de gouvernance des données en coopération
avec des représentants des différentes sections du secteur des arts afin d'établir qui
peut partager quel type de données avec qui, et qui aura autorité sur quelles données
ou informations.
4. Il faut entreprendre des recherches additionnelles pour mieux comprendre les
exigences des utilisateurs en ce qui a trait à l'adoption de pratiques de
données ouvertes liées dans les offres de services existants et émergents.
5. Il faudra déployer des efforts additionnels pour mettre au point et décrire des modèles
opérationnels novateurs qui mobilisent et entretiennent un écosystème de données
ouvertes liées dans un souci d’efficacité et de durabilité.
39. Jeux transversaux
• Freebase
• DBpedia
Géographie
• Geonames
Musique
• Musicbrainz
95 jeux de données
L’écosystème des
données ouvertes
liées en 2009
41. L’écosystème des données
ouvertes liées en 2009
1240 jeux de données
• Deux fois plus qu’en 2014 !
Il n’y a aucun
jeu de données
consacré aux
arts de la scène.
42. La vraie compétition vient d’en dehors des arts de la
scène
• Une salle de spectacles peut présenter jusqu’à
8 représentations d’un même spectacle par
semaine
• Une salle de cinéma offre plus d’une
cinquantaine de séances dans différents genres
par semaine
• Netflix vous permet de voir plusieurs films et
séries, partout, n’importe quand et sur n’importe
quel appareil
43. Nous ne faisons pas le poids.
Et nous accusons un sérieux retard.
L’indutrie du film
• Les films commerciaux
disposent tous
d’identifiants uniques
pérennes dans une ou
plusieurs bases de
connaissances ouvertes:
• International Standard
Audiovisual Number (ISAN)
• Entertainment Identifier
Registry (EIDR)
• Internet Movie Database
(IMDb)
Les arts de la scène
• Il n’existe pas
d’identifiant unique pour
les productions en arts de
la scène.
• Il n’existe pas de base de
connaissances normalisée
pour les arts de la scène.
44. La co-opétition, c’est se regrouper en lot
plutôt que d’essayer de ressortir du lot
En tout temps
En tout lieu
Sur n’importe
quel appareil
En tout temps
En tout lieu
En toute salle
de spectacle
ARTS DE LA SCÈNE