Dans un contexte où le volume de données produit est de plus en plus grand, et les données sont peu utilisés, pourtant pouvant être mise en valeur, un nouveau vent souflle: Le linked open data
Linked open data pour la consommation des informations
1. Colloque en l’honneur de Gauthier SALLET
Atelier sur la gestion de données épidémiologiques
UGB, 6 et 7 décembre 2012
L INKED O PEN D ATA
POUR LA CONSOMMATION
DES INFORMATIONS ISSUES DE LA
COLLECTE DE DONNÉES ÉPIDÉMIOLOGIQUES
1
2. 2 C ANEVAS DE LA PRÉSENTATION
1. Cycle des données dans les systèmes de collectes
de données,
2. Enjeux de la publication des données,
3. C’est quoi l’open data,
4. Cas d’utilisation de l’open data pour le médical,
5. 5 étapes pour publier les données liées
3. 3
S YSTÈME DE COLLECTE DE
DONNÉES ÉPIDÉMIOLOGIQUES
Volume énorme de données collectées,
Données analysées pour détection d’épidémies,
Actions entreprises par des décideurs,
Données archivées,
4. 4 C YCLE DE LA DONNÉE
Collecte de données
Rapport sur les données
Réactions et actions
Analyse de données
5. 5 E NJEUX DE PUBLICATION DE DONNÉES
Enjeu démocratique:
La transparence,
Enjeu socio-économique:
Susciter la création de nouveaux secteurs
économiques
Enjeu universitaire:
Amélioration de la détection des épidémies
6. 6 L’ OPEN D ATA : U N OBJECTIF DOUBLE
Rendre les données accessibles, exploitables et
rentables par la majorité,
Offrir la possibilité de croiser, traiter et analyser
des données de sources différentes.
8. 8 WEB DES DOCUMENTS : CHALLENGES
Accès:
Liens non typés,
Données faiblement structurées,
Données déconnectées,
Intégration
Présenter les symptômes des maladies ayant fait l’objet
d’une épidémie l’année dernière.
Interrogation
Quelles sont les régions ayant été victimes des mêmes
épidémies l’années dernière?
9. 9 API S W EB ET MASHUPS
Mashup Limites:
Up
APIs fournissent des
interfaces propriétaires,
API API API API
WEB Web Web Web Les mashups sont basées
sur un ensemble de
données fixes,
Impossible de mettre des
A B C D liens entre les données,
10. 10 WEB DE DONNÉES LIÉES
Utiliser les technologies du web sémantique :
Publier les données structurées sur le WEB,
Lier les données d’une source de données à une
autre
RDF RDF RDF RDF RDF
RDF RDF RDF RDF RDF
Lien RDF Liens RDF Liens RDF Liens RDF
A B C D E
11. 11 L INKED D ATA C ’ EST...
...Un moyen de publier des données sur le Web
qui:
Encourage la réutilisation,
Réduit la redondance,
Maximise la connectivité des données,
Permet d’ajouter la valeur aux données par le
réseau de connexion,
12. 12
I NGRÉDIENTS CLÉS DU LINKED
D ATA
RDF (Resource description Framework) pour:
Identifier les objets (URIs),
Connecter les informations (relations),
Ontologies (Vocabulaire) pour:
Fournir une compréhension partagée du domaine,
Organiser la connaissance de manière
compréhensible par la machine,
Fournir une compréhension exploitable des
données,
16. E XEMPLE 4 : CDC (C ENTERS FOR
16
D ISEASE C ONTROL AND P REVENTION )
17. 17
E XEMPLE U TILISATION O PEN
D ATA : G OOGLE
18. 18
E XEMPLE U TILISATION O PEN
D ATA : G OOGLE
19. 19
5 ÉTAPES POUR PUBLIER LES
DONNÉES LIÉES
1. Comprendre les principes,
2. Comprendre vos données,
3. Choisir les URIs pour vos éléments de donnée,
4. Lier aux autres sources de données,
5. Publier vos données
20. 20
1- C OMPRENDRE LES
PRINCIPES
Utiliser les URIs pour identifier vos éléments:
Tout élément, pas seulement les documents,
Utiliser les URIs HTTP:
Noms globallement uniques,
Permet l’accès par ces noms,
Fournir une information utile en RDF
Lorsque quelque accède à une URI,
Inclure des liens RDF à d’autres URIs
Pour permettre la découverte de l’information,
21. 21
2- C OMPRENDRE VOS
DONNÉES
Quelles sont les informations clés présentes dans vos
données:
Maladies,
Médicaments,
Symptômes,
Villes, …
Quelles ontologies peuvent être réutilisées?
Geo,
FOAF,
22. 22
3- C HOISIR LES URI S POUR
VOS ÉLÉMENTS DE DONNÉE
Utiliser les espaces de nommage disjoints de
ceux existant,
Abstraire des détails d’implémentation
http://dbpedia.org/resource/Berlin
http://www4.wiwiss.fu-
berlin.de:2020/demos/dbpedia/cgibin/resources.
php?id=Berlin
23. 23
3- C HOISIR LES URI S POUR
VOS ÉLÉMENTS DE DONNÉE
Utiliser les slash
http://mydomain.com/foaf.rdf#me
http://mydomain.com/id/me
Utiliser des patterns
http://dbpedia.org/resource/New_York_City
http://dbpedia.org/data/New_York_City
http://dbpedia.org/page/New_York_City
25. 25
4- L IER AUX AUTRES
SOURCES DE DONNÉES
Utiliser des prédicats de liaison:
owl:sameAs
foaf:homepage, foaf:topic, foaf:based_near
rdfs:seeAlso
26. 26 5- P UBLIER VOS DONNÉES
Mettre en place votre infrastructure,
Tester la négotiation de contenu,
27. 27 5- P UBLIER VOS DONNÉES
Utiliser des outils:
Joseki est un moteur HTTP qui supporte SPARQL,
Virtuoso Universal Server fournit un serveur
SPARQL et un stockage RDF,
METAmorphoses est un outil de publication écrit
en PHP
http://www.w3.org/wiki/TaskForces/Community
Projects/LinkingOpenData/PublishingTools
28. 28 C ONCLUSION
Volume énorme de données produit par les
systèmes de collecte de données,
Plusieurs enjeux de publication de données,
Émergence dans l’utilisation de l’open data,
Processus de publication de données.