Atelier JDEV2017 : initiation à SPARQL avec Wikidata
Cet atelier a pour objectif de vous montrer comment dans l’avenir un étudiant et un chercheur (et demain les machines) vont naviguer dans le Linked Data (Web des données) à l’aide du langage SPARQL. Nous utiliserons un outil d'auto-complétion qui facilitera la création de votre première requête. Nous utiliserons le logiciel http://LinkedWiki.com afin d’écrire et partager les requêtes des participants de l’atelier ou bien https://io.datascience-paris-saclay.fr/map.php si le participant est membre de cette université.
Slides de l'atelier JDEV2017 : SPARQL, avancé
Vous saurez après cet atelier : lire un document RDF écrit en Turtle, découvrir une ontologie au travers d’un service SPARQL et lire la documentation officielle de SPARQL.
Introduction au web des données (Linked Data)BorderCloud
L'Open Data, le Big Data, le Web des données, le Web sémantique, les ontologies, le NoSql et le SPARQL sont autant de notions qu'il faut comprendre pour ne pas rater la prochaine rupture technologique du Web.
Cette présentation est l'introduction de la formation sur le Web sémantique que donne la société BorderCloud pour prendre un peu de recule sur les buzzwords du moment et savoir si vous avez besoin de faire du Big Data ou bien du Linked Data.
Les technologies du Web appliquées aux données structurées (2ème partie : Rel...Gautier Poupeau
Diaporama de la présentation effectuée au séminaire INRIA IST "Le document à l'heure du Web de données" (Carnac 1er-5 octobre 2012) en compagnie d'Emmanuelle Bermès (aka figoblog)
Présentation sur la démarche de l'Open Data (quelles données ? Quels acteurs ?) et sur les technologies gravitant autour du Linked Data (le modèle RDF, RDFS, OWL, les ontologies, les triplestores, etc).
Web sémantique, Web de données, Web 3.0, Linked Data... Quelques repères pour...Antidot
Diaporama de la présentation faite à l'occasion du Co-lab Semantique organisé par le consortium Scribo. L'enjeu était de présenter en 45-60min les enjeux du Web sémantique.
Slides de l'atelier JDEV2017 : SPARQL, avancé
Vous saurez après cet atelier : lire un document RDF écrit en Turtle, découvrir une ontologie au travers d’un service SPARQL et lire la documentation officielle de SPARQL.
Introduction au web des données (Linked Data)BorderCloud
L'Open Data, le Big Data, le Web des données, le Web sémantique, les ontologies, le NoSql et le SPARQL sont autant de notions qu'il faut comprendre pour ne pas rater la prochaine rupture technologique du Web.
Cette présentation est l'introduction de la formation sur le Web sémantique que donne la société BorderCloud pour prendre un peu de recule sur les buzzwords du moment et savoir si vous avez besoin de faire du Big Data ou bien du Linked Data.
Les technologies du Web appliquées aux données structurées (2ème partie : Rel...Gautier Poupeau
Diaporama de la présentation effectuée au séminaire INRIA IST "Le document à l'heure du Web de données" (Carnac 1er-5 octobre 2012) en compagnie d'Emmanuelle Bermès (aka figoblog)
Présentation sur la démarche de l'Open Data (quelles données ? Quels acteurs ?) et sur les technologies gravitant autour du Linked Data (le modèle RDF, RDFS, OWL, les ontologies, les triplestores, etc).
Web sémantique, Web de données, Web 3.0, Linked Data... Quelques repères pour...Antidot
Diaporama de la présentation faite à l'occasion du Co-lab Semantique organisé par le consortium Scribo. L'enjeu était de présenter en 45-60min les enjeux du Web sémantique.
Web sémantique et Web de données, et si on passait à la pratique ?Antidot
Le web sémantique, théorisé il y a déjà longtemps par Tim Berners-Lee, a tardé à prendre son envol. Mais aujourd'hui la vague est là et les premiers à la surfer sont les grands acteurs du web, comme Google qui bâtit son Knowledge Graph. Les standards sont aujourd'hui matures, et des organisations de toutes tailles les mettent en oeuvre dans des projets concrets, avec un vrai retour sur investissement. Cependant faire une application à l’aide des technologies du Web Sémantique peut s’avérer être une tâche fastidieuse pour ceux qui souhaitent découvrir ce domaine. De nombreuses questions restent souvent en suspens. Quel est le rôle des ontologies ? Pourquoi utiliser RDF et SPARQL ? Qu’est ce qu’un triplestore et comment l’exploiter ? Comment tirer parti du Web de données pour enrichir ses données métier à l'aide de ces outils ? Autant de questions auxquelles nous essaieront de répondre à partir d’un exemple concret : les données de l'institution culturelle Les Champs Libres à Rennes.
Le Web sémantique (plus techniquement appelé « le Web de données ») permet aux machines de comprendre la sémantique, la signification de l'information sur le Web.
Le terme a été inventé par Tim Berners-Lee, coinventeur du Web et directeur du W3C, qui supervise l'élaboration des propositions de standards du Web sémantique.
Les professionnels de l'information face aux défis du Web de donnéesGautier Poupeau
Diaporama pour une communication donnée dans le cadre de la journée d'études ADBS-EDB, "Quel Web demain ?", 7 avril 2009, http://www.adbs.fr/quel-web-demain--57415.htm
Les technologies du Web appliquées aux données structurées (1ère partie : Enc...Gautier Poupeau
Diaporama de la présentation effectuée au séminaire INRIA IST "Le document à l'heure du Web de données" (Carnac 1er-5 octobre 2012) en compagnie d'Emmanuelle Bermès (aka figoblog)
Présentation générale de ce que sont les métadonnées, de quelques questions qu'elles soulèvent, suivie d'une proposition de typologie des standards de métadonnées.
Manquent les animations
Version 1.1
IODS : Retour d’expériences au sein du Center for Data ScienceBorderCloud
Le Center for Data Science de l’université Paris Saclay met en oeuvre une solution opérationnelle depuis 2016 afin de référencer toutes les sources de données, fichiers ou d’API au sein de l’université. Nous verrons quelles opportunités apportent le respect des standards et bonnes pratiques pour faciliter la réutilisation et la valorisation des données de la recherche.
Version ouverte à tous : http://linkedwiki.com
Version de l’université Paris Saclay : https://io.datascience-paris-saclay.fr
Web sémantique et Web de données, et si on passait à la pratique ?Antidot
Le web sémantique, théorisé il y a déjà longtemps par Tim Berners-Lee, a tardé à prendre son envol. Mais aujourd'hui la vague est là et les premiers à la surfer sont les grands acteurs du web, comme Google qui bâtit son Knowledge Graph. Les standards sont aujourd'hui matures, et des organisations de toutes tailles les mettent en oeuvre dans des projets concrets, avec un vrai retour sur investissement. Cependant faire une application à l’aide des technologies du Web Sémantique peut s’avérer être une tâche fastidieuse pour ceux qui souhaitent découvrir ce domaine. De nombreuses questions restent souvent en suspens. Quel est le rôle des ontologies ? Pourquoi utiliser RDF et SPARQL ? Qu’est ce qu’un triplestore et comment l’exploiter ? Comment tirer parti du Web de données pour enrichir ses données métier à l'aide de ces outils ? Autant de questions auxquelles nous essaieront de répondre à partir d’un exemple concret : les données de l'institution culturelle Les Champs Libres à Rennes.
Le Web sémantique (plus techniquement appelé « le Web de données ») permet aux machines de comprendre la sémantique, la signification de l'information sur le Web.
Le terme a été inventé par Tim Berners-Lee, coinventeur du Web et directeur du W3C, qui supervise l'élaboration des propositions de standards du Web sémantique.
Les professionnels de l'information face aux défis du Web de donnéesGautier Poupeau
Diaporama pour une communication donnée dans le cadre de la journée d'études ADBS-EDB, "Quel Web demain ?", 7 avril 2009, http://www.adbs.fr/quel-web-demain--57415.htm
Les technologies du Web appliquées aux données structurées (1ère partie : Enc...Gautier Poupeau
Diaporama de la présentation effectuée au séminaire INRIA IST "Le document à l'heure du Web de données" (Carnac 1er-5 octobre 2012) en compagnie d'Emmanuelle Bermès (aka figoblog)
Présentation générale de ce que sont les métadonnées, de quelques questions qu'elles soulèvent, suivie d'une proposition de typologie des standards de métadonnées.
Manquent les animations
Version 1.1
IODS : Retour d’expériences au sein du Center for Data ScienceBorderCloud
Le Center for Data Science de l’université Paris Saclay met en oeuvre une solution opérationnelle depuis 2016 afin de référencer toutes les sources de données, fichiers ou d’API au sein de l’université. Nous verrons quelles opportunités apportent le respect des standards et bonnes pratiques pour faciliter la réutilisation et la valorisation des données de la recherche.
Version ouverte à tous : http://linkedwiki.com
Version de l’université Paris Saclay : https://io.datascience-paris-saclay.fr
Datalift, une plateforme Linked Data, Retour d'expériencesSemWebPro
La production, la consommation et l'échange de données s'intensifient et le besoin d'interopérabilité n'a jamais été aussi prégnant. Mais a-t-on encore le temps de développer des interfaces ou de mettre au point une langue commune entre acteurs ? A-t-on encore besoin de telles interfaces qui ne serviront peut-être qu’une fois ? Ou bien la solution n’est pas plutôt dans une data interopérable ? Le linked data n'est plus un Eldorado incertain, il est devenu une réalité aux dimensions vastes et en expansion mais encore méconnue.
Datalift est une plateforme tout-en-un productrice de linked data qui apporte une solution concrète et aisée. Les données à traiter sont captées dans leurs structures d'origine (fichiers, bases de données, requêtes, données géographiques, etc.). A l'aide de vocabulaires (thesaurus, ontologies), elles sont transformées pour faciliter leurs liaisons. Les fusions obtenues enrichissent mutuellement les sources en même temps qu’elles forment un ensemble de données liées (linked data) exploitables de multiples façons : requêtes, data visualisation, extractions, exports dans de nombreux formats. Ces opérations peuvent être réalisées sans programmation sur un socle open source de façon interactive, elles peuvent aussi être automatisées. La richesse fonctionnelle et technologique de Datalift fait que ses utilisateurs vont des simples utilisateurs aux datascientistes, mais aussi au dialogue machine to machine.
Le développement de la plateforme et son utilisation permettent aujourd'hui de dresser un premier regard rétrospectif que nous nous proposons de présenter en trois temps. Nous commencerons notre exposé par la démonstration d’une interconnexion de jeux de données hétérogènes rendue possible par un alignement d’ontologies. Cette démo visibilisera le caractère « tout-en-un » d’une plateforme qui s’installe en un clic. Nous poursuivrons par un survol de l’architecture de la plateforme. Nous terminerons par un triple retour d’expérience : méthodologique, architectural et usages.
L’émergence de larges répertoires de données sémantiques et interconnectées crée de nouvelles opportunités quant à l’utilisation et au partage d’informations au sein d’applications intelligentes. Cette nouvelle façon de publier des données aide à la découverte d’informations structurées et contextuelles ainsi qu’à la réutilisation de données existantes. Dans ce contexte, il est important pour un individu ou une organisation de distribuer ces informations selon le même principe afin d’assurer la pérennité et le partage de ces données sémantiques.
Pour l’instant, la plupart des publications sur le Web de Données sont le plus souvent soit complètement ouvertes (Open Linked Data), soit complètement fermées (intranets). De plus, la publication de ces données reste restreinte à la publication de larges ensembles de données approuvées et éditées par de larges organisations limitant ainsi la création de base de données individuelles nécessaires au développement d’un Sémantique Web centré autour de ses utilisateurs plutôt que sur ses données (Social Semantic Web).
Avant de mettre à disposition ses informations, un individu ou une organisation a besoin d’être sûr que ses informations sont uniquement accessibles et modifiables par des personnes autorisées. Dans ce contexte, il est impératif d’identifier l’entité qui publie une information particulière ainsi que la personne qui essaie d’y accéder ou de la modifier. Il requiert d’organiser le Web de Données autour de répertoires personnels et décentralisés combinant à la fois la représentation d’un individu, son identification (et authentification) ainsi que ses informations tout en gérant leur accès.
Bien que le web sémantique contienne ses propres modèles identitaires (FOAF and WebID) et protocoles chargés d’identifier et autoriser des communications entre différentes parties (FOAF+SSL), il n’existe pour l’instant aucune plateforme combinant ces différentes technologies.
Asterid est un serveur de données sémantiques qui permet d’organiser et de partager des informations structurées autour de répertoires de données privées et personnelles tout en supportant l’identification et authentification de leur créateur et utilisateur.
Notre présentation sera l’occasion de montrer les différents modèles nécessaires au développement d’une telle architecture : le Web de données, l’ontologie FOAF, le protocole d’identification FOAF+SSL ainsi que la gestion de contrôle d’accès sur le Web Sémantique. Notre présentation alternera entre l’introduction de ces modèles théoriques et leur effective application dans la plateforme Asterid.
Introduction aux protocoles IIIF. Formation Enssib 23.01.2019 (Régis Robineau)Equipex Biblissima
Présentation des protocoles IIIF dans le cadre de la formation au Diplôme de conservateur de bibliothèque de l'Enssib (DCB 27), à Villeurbanne le 23 janvier 2019. Par Régis Robineau (Biblissima - Campus Condorcet, EPHE-PSL).
Présentation de Stéphane Pouyllau (TGE Adonis, CNRS) lors du colloque infoclio.ch 2011 à Berne le 30 septembre 2011.
Ecouter la conférence:
http://soundcloud.com/infoclio-ch/isidore
ISIDORE : plateforme d’accès unifié aux données de la recherche en sciences humaines et sociales
ISIDORE est un plate-forme informatique d'accès unifié, de valorisation et d'enrichissement des données numériques de la recherche en sciences humaines et sociales. Créé et animée par le très grand équipement ADONIS du Centre national de la recherche scientifique (Paris, France), ISIDORE est accessible à tous depuis décembre 2010 sur le site web http://rechercheisidore.fr. Ce nouvel outil s'appuie sur des principales méthodes d'interopérabilité des données en vigueur depuis plus de 10 ans tout en ouvrant sur les méthodes du web de données, aussi nommé web 3.0, actuellement en plein développement (RDF, etc.).
ISIDORE collecte les métadonnées et les données, les enrichies en les reliant aux termes issus de référentiels scientifiques (thesaurus, vocabulaires, etc.), les places dans le web de données et les rend accessibles au travers d'un triple accès (moteur de recherche sur le web, api et "sparql endpoint" pour pour construire des applications d'aide à la recherche). ISIDORE est le plus gros projet d'open data scientifique opérationnel en France.
L'intervention proposée permettra de découvrir la rapidement la plate-forme et ces spécificités, d'en comprendre le fonctionnement et d'en présenter les premiers retours.
Support 4 (web de données) des journées de formation sur l'évolution des catalogues organisées par MédiaLille et le groupe technique sur l'adoption de RDA en France.
Formation sur les approches d'activation de la découvrabilité pour les contenus culturels incluant 12 mesures à adopter tout en ayant recours aux communs numériques.
Masterclasse i-expo 2011 : Pour un véritable accès unifié à l'informationAntidot
Toute organisation subit les limites de son système d’information : entrepôts de données cloisonnés, données hétérogènes, documents non structurés, thésaurus incomplets, taxonomies incohérentes…
Les utilisateurs en souffrent et attendent un véritable « accès unifié à l’information » : trouver l’information par les concepts plutôt que la chercher par les mots, naviguer aisément dans l’information, mieux l’exploiter en collaborant. L’entreprise doit évoluer vers un « espace informationnel enrichi », servant différents usages selon le profil ou la mission de chaque collaborateur.
La vision innovante d'Antidot permet d’aller bien au-delà de ce que permettent les approchent traditionnelles comme la « recherche fédérée » ou encore les « search based applications » car Antidot Information Factory et Antidot Finder Suite permettent de modéliser l’information, de capter, normaliser, décrire et agréger des données puis d’en inférer des informations nouvelles, facilement accessibles.
Intégrant nativement les technologies du web sémantique, Antidot apporte les solutions les plus en pointe dans le domaine et démontre à travers une réalisation emblématique - le projet ISIDORE du CNRS TGE Adonis - comment capter, remodeler et rendre accessible une information à forte valeur ajoutée.
De l'intelligence dans les données ouvertes - Problèmes et solutions dans les...Mathieu d'Aquin
Presentation a la matinee Donnees Ouverte LIRMM - Montpellier - 28/11/2013
Presentation at the Open Data workshop LIRMM
http://odrg.lirmm.fr/index.php/event-details?id=14
Similaire à Initiation à SPARQL avec Wikidata (20)
L'IA connaît une croissance rapide et son intégration dans le domaine éducatif soulève de nombreuses questions. Aujourd'hui, nous explorerons comment les étudiants utilisent l'IA, les perceptions des enseignants à ce sujet, et les mesures possibles pour encadrer ces usages.
Constat Actuel
L'IA est de plus en plus présente dans notre quotidien, y compris dans l'éducation. Certaines universités, comme Science Po en janvier 2023, ont interdit l'utilisation de l'IA, tandis que d'autres, comme l'Université de Prague, la considèrent comme du plagiat. Cette diversité de positions souligne la nécessité urgente d'une réponse institutionnelle pour encadrer ces usages et prévenir les risques de triche et de plagiat.
Enquête Nationale
Pour mieux comprendre ces dynamiques, une enquête nationale intitulée "L'IA dans l'enseignement" a été réalisée. Les auteurs de cette enquête sont Le Sphynx (sondage) et Compilatio (fraude académique). Elle a été diffusée dans les universités de Lyon et d'Aix-Marseille entre le 21 juin et le 15 août 2023, touchant 1242 enseignants et 4443 étudiants. Les questionnaires, conçus pour étudier les usages de l'IA et les représentations de ces usages, abordaient des thèmes comme les craintes, les opportunités et l'acceptabilité.
Résultats de l'Enquête
Les résultats montrent que 55 % des étudiants utilisent l'IA de manière occasionnelle ou fréquente, contre 34 % des enseignants. Cependant, 88 % des enseignants pensent que leurs étudiants utilisent l'IA, ce qui pourrait indiquer une surestimation des usages. Les usages identifiés incluent la recherche d'informations et la rédaction de textes, bien que ces réponses ne puissent pas être cumulées dans les choix proposés.
Analyse Critique
Une analyse plus approfondie révèle que les enseignants peinent à percevoir les bénéfices de l'IA pour l'apprentissage, contrairement aux étudiants. La question de savoir si l'IA améliore les notes sans développer les compétences reste débattue. Est-ce un dopage académique ou une opportunité pour un apprentissage plus efficace ?
Acceptabilité et Éthique
L'enquête révèle que beaucoup d'étudiants jugent acceptable d'utiliser l'IA pour rédiger leurs devoirs, et même un quart des enseignants partagent cet avis. Cela pose des questions éthiques cruciales : copier-coller est-il tricher ? Utiliser l'IA sous supervision ou pour des traductions est-il acceptable ? La réponse n'est pas simple et nécessite un débat ouvert.
Propositions et Solutions
Pour encadrer ces usages, plusieurs solutions sont proposées. Plutôt que d'interdire l'IA, il est suggéré de fixer des règles pour une utilisation responsable. Des innovations pédagogiques peuvent également être explorées, comme la création de situations de concurrence professionnelle ou l'utilisation de détecteurs d'IA.
Conclusion
En conclusion, bien que l'étude présente des limites, elle souligne un besoin urgent de régulation. Une charte institutionnelle pourrait fournir un cadre pour une utilisation éthique.
Le Comptoir OCTO - Qu’apporte l’analyse de cycle de vie lors d’un audit d’éco...OCTO Technology
Par Nicolas Bordier (Consultant numérique responsable @OCTO Technology) et Alaric Rougnon-Glasson (Sustainable Tech Consultant @OCTO Technology)
Sur un exemple très concret d’audit d’éco-conception de l’outil de bilan carbone C’Bilan développé par ICDC (Caisse des dépôts et consignations) nous allons expliquer en quoi l’ACV (analyse de cycle de vie) a été déterminante pour identifier les pistes d’actions pour réduire jusqu'à 82% de l’empreinte environnementale du service.
Vidéo Youtube : https://www.youtube.com/watch?v=7R8oL2P_DkU
Compte-rendu :
Le Comptoir OCTO - Équipes infra et prod, ne ratez pas l'embarquement pour l'...OCTO Technology
par Claude Camus (Coach agile d'organisation @OCTO Technology) et Gilles Masy (Organizational Coach @OCTO Technology)
Les équipes infrastructure, sécurité, production, ou cloud, doivent consacrer du temps à la modernisation de leurs outils (automatisation, cloud, etc) et de leurs pratiques (DevOps, SRE, etc). Dans le même temps, elles doivent répondre à une avalanche croissante de demandes, tout en maintenant un niveau de qualité de service optimal.
Habitué des environnements développeurs, les transformations agiles négligent les particularités des équipes OPS. Lors de ce comptoir, nous vous partagerons notre proposition de valeur de l'agilité@OPS, qui embarquera vos équipes OPS en Classe Business (Agility), et leur fera dire : "nous ne reviendrons pas en arrière".
MongoDB in a scale-up: how to get away from a monolithic hell — MongoDB Paris...Horgix
This is the slide deck of a talk by Alexis "Horgix" Chotard and Laurentiu Capatina presented at the MongoDB Paris User Group in June 2024 about the feedback on how PayFit move away from a monolithic hell of a self-hosted MongoDB cluster to managed alternatives. Pitch below.
March 15, 2023, 6:59 AM: a MongoDB cluster collapses. Tough luck, this cluster contains 95% of user data and is absolutely vital for even minimal operation of our application. To worsen matters, this cluster is 7 years behind on versions, is not scalable, and barely observable. Furthermore, even the data model would quickly raise eyebrows: applications communicating with each other by reading/writing in the same MongoDB documents, documents reaching the maximum limit of 16MiB with hundreds of levels of nesting, and so forth. The incident will last several days and result in the loss of many users. We've seen better scenarios.
Let's explore how PayFit found itself in this hellish situation and, more importantly, how we managed to overcome it!
On the agenda: technical stabilization, untangling data models, breaking apart a Single Point of Failure (SPOF) into several elements with a more restricted blast radius, transitioning to managed services, improving internal accesses, regaining control over risky operations, and ultimately, approaching a technical migration when it impacts all development teams.
Ouvrez la porte ou prenez un mur (Agile Tour Genève 2024)Laurent Speyser
(Conférence dessinée)
Vous êtes certainement à l’origine, ou impliqué, dans un changement au sein de votre organisation. Et peut être que cela ne se passe pas aussi bien qu’attendu…
Depuis plusieurs années, je fais régulièrement le constat de l’échec de l’adoption de l’Agilité, et plus globalement de grands changements, dans les organisations. Je vais tenter de vous expliquer pourquoi ils suscitent peu d'adhésion, peu d’engagement, et ils ne tiennent pas dans le temps.
Heureusement, il existe un autre chemin. Pour l'emprunter il s'agira de cultiver l'invitation, l'intelligence collective , la mécanique des jeux, les rites de passages, .... afin que l'agilité prenne racine.
Vous repartirez de cette conférence en ayant pris du recul sur le changement tel qu‘il est généralement opéré aujourd’hui, et en ayant découvert (ou redécouvert) le seul guide valable à suivre, à mon sens, pour un changement authentique, durable, et respectueux des individus! Et en bonus, 2 ou 3 trucs pratiques!
Ouvrez la porte ou prenez un mur (Agile Tour Genève 2024)
Initiation à SPARQL avec Wikidata
1. Web 3.0 Hosting & Factory
Karima Rafes, BorderCloud
01/08/2017
Atelier : initiation à SPARQL
Ma première requête avec Wikidata
2. Karima Rafes
karima.rafes@gmail.com
@Karima_Rafes
http://karimarafes.me
Développeuse Web (des données) depuis 1999
CanalPlus (Canalnumédia), Orange Lab, Globecast, Experte UE, INRIA, etc.
Fondatrice et CEO de BorderCloud depuis 2010
Logiciels-Formations-Conseils
Email : karima.rafes@bordercloud.com
Twitter : @BorderCloudInfo
http://www.bordercloud.com/
Doctorante depuis 2014
Sujet de thèse : Gestion des données de la recherché en utilisant le Web sémantique
5. 5
Formations
Conduite du changement
Web sémantique et Web des données
– Responsable : comprendre les enjeux
– Architecte de système d’information : savoir mettre en place
– Développeur : savoir interroger les données
– Administrateur de bases de données : savoir tester
l’interopérabilité des solutions
Points forts : Utilisation d’un outil d’Elearning : TPO
• Aucune base en programmation n’est nécessaire
• Poursuivre les exercices à la maison
• Obtenir un résultat partageable avec ses collègues
7. 7
Editeur logiciel / R&D
Plateforme LinkedWiki – U Paris Saclay
TPOnline (3e version) – IAE Amiens, ITESCIA
SPARQLScore – U Paris Sud
Développement de prototypes pour
constituer des bases de connaissances
– SHS : droit canonique, éducation (U-PSud Droit, ENS Cachan)
– Chimie analytique : LipSys², IPS2 (U Paris Sud)
– Science de la vie : LATMOS (IPSL)
8. 8
Centre de formation
215 Rue Jean Jacques Rousseau
92130 Issy les Moulineaux
RER C : à la station "Issy"
T2 : Les Moulineaux ou Jacques-Henri Lartigue
9. 9
Programme
JDEV 2017
Atelier (3h)
SPARQL, initiation (Mardi 9h)
SPARQL, niveau avancé (Mercredi 14h)
Groupe de travail (1h30)
Quelles sont les compétences professionnelles à
développer par les administrateurs de systèmes
d’information dédiés à la gestion des
connaissances ? (Mercredi 17h30)
Référencement des données pour la recherche :
retour d’expériences du Center for Data Science
de l’université Paris-Saclay ? (Jeudi 9h)
10. 10
Outil utilisé
durant le JDEV
Version ouverte à tous :
http://linkedwiki.com
Version de l’université Paris Saclay :
https://io.datascience-paris-saclay.fr
VIDEO
11. 11
Sommaire
1. Historique du Web des données
2. Définition
3. Constituer un réseau global d'informations
4. Accéder à des données (Exemple avec Wikidata)
5. Ecrire sa première requête SPARQL
6. Accéder au Web des données
7. Conclusion
13. 13
Si on reliait tous les documents sur Internet !?
Et le Web fut ?
1989
14. Le concept
"informations liées"
apparaît dès les
origines.
{
Dès ses origines, le Web n’avait pas la finalité de relier
seulement des documents mais de relier les informations.
15. En 1999, le concept de Web sémantique est créé/structuré
pour décrire la finalité du Web mais le concept fut mal
compris et souvent détourné.
17. 17
Le Web des données…
en route vers le Web sémantique
2000
2017
Web des données
Linked Data
En 2025-30, le Web sémantique ?
Travaux de
recommandations
en cours
En 2006, on crée un point d’étape au Web sémantique que l’on
nomme le Web des données ou Linked Data. Ce concept offre un
objectif plus simple à comprendre/expliquer et moins utopique car il
est de + en + facile de faire des démonstrations.
18. 18
Objectif du
Web des données
Pouvoir accéder aux informations disponibles
avec l’aide de machines.
Cortana
20. 20
Définition :
le Web de données
ou Linked Data
Initiative visant à favoriser la publication de données :
Interopérables à l’aide d’un modèle commun pour
représenter une information
Structurées à l’aide d’ontologies
Accessibles à travers le Web
Reliées entre elles pour constituer un réseau global
d'informations
22. 22
Projets locaux
Bases de connaissances
– Grégorius, INRIA, YAGO,…
Annuaires des scientifiques, du personnel de
l’université et des projets
– LRI, Adonis,…
Bases de traçabilité de la production des
résultats de la recherche
– DAAP,…
Besoin d’un référentiel commun
pour éviter de réinventer la roue.
Eviter de décrire le monde à nouveau.
26. Demo 1.2 : Wikidata extrait les données structurées
pour les mettre à disposition des systèmes en CC0
27. 27
Wikidata en clair
Wikidata constitue une base de données :
D’identifiants uniques sur le Web
Avec une ontologie dynamique variant au grès
des découvertes et de l’actualité.
Licence CC0 : réutilisable gratuitement par toute
la société (entreprises incluses)
Modification ouverte à tous
Des millions de concepts sont déjà
dans ce référentiel
28. 28
Atelier 1 :
Wikidata et Paris Saclay
Ce référentiel peut simplifier la fabrication de
nombreux services.
Le premier d’entres eux est de réutiliser la force
de Wikipédia pour partager des données utiles
au sein de l’université.
Par exemple : retrouver les données, les
appareils de mesures, les scientifiques, les
équipes, les projets de l’université, etc.
Demo
29. Demo : taper un mot dans Google et ouvrir la page Wikipédia
pour retrouver les données de l’université à propos de ce sujet.
30. 30
Atelier 1 :
Wikidata et Paris Saclay
1. Aller sur Wikipedia
2. Se connecter ou s’inscrire si ce n’est pas déjà
fait.
3. Aller sur le site https://io.datascience-paris-saclay.fr
4. Dans le menu APP : ouvrir le gadget qui vous
intéresse.
5. Suivre les instructions pour installer le Gadget
« Trouver les datasets de Paris Saclay »
33. 33
Atelier 2 :
Distributions de Wikidata
1. Aller sur le site https://io.datascience-paris-saclay.fr
2. Utiliser le champ recherche et taper Wikidata
Ou (si vous avez enregistrer le gadget de ParisSaclay)
1. Passer par Google
2. Ouvrir la page Wikipedia de Wikidata
3. Ouvrir l’onglet recherche pour accéder aux
sources.
34. Description
Références de Wikidata.
Domaine scientifique (bleu clair)
Tag décrivant le contenu des
données (bleu foncé)
Distributions
C’est-à-dire les
moyens d’y accéder
Exemples illustrant
les données
35. Pour accéder au site
Web ou aux fichiers
Type d’accès :
WWW site Web
Torrent via P2P
File : fichier
DATA via une API
Le nb d’étoiles
correspond à la capacité
de réutiliser ces données
sans avoir besoin de les
traiter
Licence, formats et date
Détail d’accès
Chercher des
exemples
d’utilisation
Editer une
nouvelle
requête
Ouvrir le
formulaire
officiel
39. 11/09/2015
Partager
Capturer
Réutiliser
Plein
écran
Faire une nouvelle requête
en partant de cet exemple
Choisir son langage préféré2
1
3 Copier dans son code en
vérifiant que les
dépendances fonctionnent
Lire la doc si nécessaire4
Méthode pour récupérer les
données d’un exemple sans
avoir besoin de le coder
41. 1
A travers le service, vous pouvez partir d’un exemple
pour en proposer un nouveau.
Seul contrainte, savoir écrire une requête SPARQL
Faire une nouvelle requête
en partant de cet exemple
43. 43
L'ambition de SPARQL
SPARQL Protocol and RDF Query Language
Offrir une interopérabilité au niveau des
données structurées ou non au travers
d’Internet
– L’utilisation des services Web ou de service REST
demande une connaissance de l’API pour accéder
aux données mais pas avec SPARQL
– Un agent peut découvrir les données et les interroger
à condition de comprendre leurs ontologies
Les données disponibles via SPARQL sont
ce que l'on nomme le Web des données.
44. 44
Objectifs
Apprendre à interroger Wikidata.
–Base du langage SPARQL
–Sélection les instances d’un concept
de Wikidata
–Sélectionner des propriétés
45. La seule chose à préciser pour accéder à un endpoint
SPARQL public. C’est son adresse sur le Web.
Un agent ou un humain peut à partir de cette
information découvrir l’ontologie qu’il utilise et
découvrir les données qu’ils possèdent.
47. 47
IRI unique
(Internationalized Resource Identifier)
Chaque chose doit être représentée par un IRI.
Un IRI doit être :
• Unique sur le Web
• Valide : un IRI dans un navigateur doit afficher un document
• Lisible : (si possible) dans la langue de l'être humain qui l’a créé
• Lié : si vous décrivez une chose qui est déjà décrite sur le web
avec un IRI, il faut lier les IRIs.
Un IRI pointe sur un document qui doit également être lisible pour
les humains et les machines. Un IRI affiche
• une page HTML pour un être humain,
• un document RDF pour une machine.
49. 49
RDF
(Resource Description Framework)
Triplets
Modèle de graphe destiné à décrire de façon formelle les
ressources Web et leurs métadonnées, de façon à permettre
le traitement automatique (par des machines) de telles
descriptions.
Un document structuré en RDF est constitué d'un
ensemble de triplets.
Objet
Valeur
Ou
Objet
Prédicat/Propriété
https://en.wikipedia.org/wiki/Voyager_1
https://www.wikidata.org/wiki/Property:P18 (Image)
https://commons.wikimedia.org/wiki/File:Voyager.jpg
51. 51
Les structures de
représentation des faits
avec des ontologies
A travers RDF :
Les données peuvent prendre
n’importe quelle structure. On
parle aussi d’ontologie.
Plusieurs
structures/ontologies peuvent
exister simultanément dans la
même BDD
54. 54
Préfixes communs
Il vous en manque un ? Allez sur http://prefix.cc ou
prefix... …stands for
rdf: http://www.w3.org/1999/02/22-rdf-syntax-ns#
rdfs: http://www.w3.org/2000/01/rdf-schema#
owl: http://www.w3.org/2002/07/owl#
xsd: http://www.w3.org/2001/XMLSchema#
dc: http://purl.org/dc/elements/1.1/
foaf: http://xmlns.com/foaf/0.1/
55. Une requête SELECT à la loupe
PREFIX foo: <…>
PREFIX bar: <…>
…
SELECT …
FROM <…>
FROM NAMED <…>
WHERE {
…
}
GROUP BY … (1.1)
HAVING … (1.1)
ORDER BY …
LIMIT …
OFFSET …
BINDINGS … (1.1)
Déclarer les préfixes
(facultatif)
Pas d’espace entre
Le nom du préfixe et
Les deux points
Clause
de définition
des résultats
Conditions
qui devront
être respectées
Modificateurs
de résultats
(facultatif)
Définir
le jeu de données
(facultatif)
57. 57
Les triplets
Match an exact RDF triple:
ex:myWidget ex:partNumber “XY24Z1” .
Match one variable:
?person foaf:name “Lee Feigenbaum” .
Match multiple variables:
conf:SemTech2009 ?property ?value .
(1 sujet, 2 prédicat, 3 objet)
1. Le sujet représente la ressource à décrire ;
2. Le prédicat représente un type de propriété applicable à cette
ressource ;
3. L'objet représente une donnée ou une autre ressource : c'est la valeur
de la propriété.
58. 58
Atelier 3 :
ex 1 : Afficher 10 triplets
Vous allez via le formulaire :
Sélectionner le endpoint de Wikidata
Vous allez afficher dans un tableau 10 triplets
60. 60
Atelier 3 :
ex 2 : chercher les instances
d’un concept
Dans la requête précédente vous allez
supprimer la variable propriété
Puis appuyer sur CTRL+ESPACE
Sélectionner
Add a property
61. 61
Atelier 3 :
ex 2 : chercher les instances
d’un concept
?p: vient d’apparaitre
Il vous suffit de commencer à taper :
– Nature de (français)
– Instance (anglais)
Puis avec CTRL+SPACE, une liste de
propriétés apparait
sélectionner « Nature de l’élément »
62. 62
Atelier 3 :
ex 2 : chercher les instances
d’un concept
Maintenant, supprimer la variable literalOrObject
Puis appuyer sur CTRL+ESPACE
Sélectionner « Add an item »
Commencer à taper un concept dans la langue que
vous préférez (en sélectionnant la langue en haut à
droite)
Puis appuyer sur le bouton tester la requête et voir
les erreurs
63. 63
Atelier 3 :
ex 2 : chercher les instances
d’un concept
S’il n’y a pas d’erreurs, appuyer sur tester le
graphique pour obtenir un aperçu avant la
sauvegarde de votre exemple
64. 64
Atelier 3 :
ex 3 : sélectionner des données
1. Aller sur Wikipedia pour sélectionner un exemple de vos
instances
2. Aller ensuite sur sa page Wikidata pour faire la liste des
propriétés que vous souhaitez utiliser dans votre requête.
3. Retourner dans le formulaire de la requête
4. Rajouter dans l’entête le texte
?subject ?subjectLabel
5. Dans le corps de la requête ajouter via CTRL+ESPACE : le
label service
6. Changer le tag « en » par « fr » si vous souhaitez voir les
labels en français ou anglais.
66. 66
Atelier 3 :
ex 3 : sélectionner des données
Maintenant, copier le triplet suivant pour chaque
variable que vous souhaitez récupérer :
?subject ?p: ?variable1 .
Rechercher via CTRL+ESPACE la propriété que
vous aviez trouvée sur la page de Wikidata.
Puis dans l’entête de la requête écrire :
?variable1 ou ?variable1Label
(si c’est un objet)
70. 70
SPARQL
Le Linked Data supporte
les données décentralisées
avec plusieurs structures
SPARQL
Data
Data
Data
Data
Data
Data
Data
Data
Data
Data
Data
Data
Data
Data
Data
Data
Organisation 1
Organisation 2
Organisation 3
SPARQL
httpLa décentralisation des données avec des structures différentes
à travers le Web permet aussi de garder le contrôle des données
par leurs propriétaires.
Le croisement des données peut se faire du côté du client
(respect des données privées) ou des serveurs.
71. 71
La jointure des données
entre bases de données
Via des requêtes fédérées, on peut croiser
les données de Wikidata avec les données
d’autres sources.
Par exemple : afficher les petites
bibliothèques des services de l’université
avec celle décrite dans Wikipedia.
https://io.datascience-paris-saclay.fr/query/University_library_in_France
72. 72
Conclusion
Vous savez :
chercher un jeu de données et voir des exemples de
requêtes
tester un exemple de requête
utiliser dans votre code une requête
écrire une simple requête SPARQL avecWikidata
partager une requête
Demandez notre catalogue de formations pour
apprendre à utiliser et déployer le Web des
données dans votre organisation