SlideShare une entreprise Scribd logo
1  sur  65
Télécharger pour lire hors ligne
1
Wikidata
Quand Wikipedia s’intéresse aux données
RELIER LES DONNÉES : UN ENJEU MAJEUR POUR
LES USAGES ?
27 MARS 2014, PARIS Gautier Poupeau
gpoupeau@antidot.net
@lespetitescases
http://www.lespetitescases.net
2
Mais où sont les données dans Wikipedia ?
Wikipedia : une masse insoupçonnée de données structurées
3
Où sont les données ?
4
Où sont les données ?
Etiquette principale de l’entité
5
Où sont les données ?
Etiquette principale de l’entité
Liens Interwikis
6
Où sont les données ?
Etiquette principale de l’entité
Liens Interwikis
Infobox
7
Où sont les données ?
Etiquette principale de l’entité
Liens Interwikis
Image
8
Où sont les données ?
Etiquette principale de l’entité
Liens Interwikis
Image
Donnée
9
Où sont les données ?
Etiquette principale de l’entité
Liens Interwikis
Image
Nature de la donnée
Valeur de la donnée
10
Où sont les données ?
11
Où sont les données ?
Lien vers des notices d’autorités
des bibliothèques
12
Où sont les données ?
Lien vers des pages équivalentes
dans d’autres projets de la
Wikimedia Foundation
Lien vers des notices d’autorités
des bibliothèques
13
Où sont les données ?
Lien vers des pages équivalentes
dans d’autres projets de la
Wikimedia Foundation
Lien vers des notices d’autorités
des bibliothèques
Catégories
14
Où sont les données ?
Etiquette principale de l’entité
Liens Interwikis
Infobox
15
Où sont les données ?
Etiquette principale de l’entité
Liens Interwikis
Infobox
Coordonnées géographiques
16
Où sont les données
Lien vers des pages équivalentes
dans d’autres projets de la
Wikimedia Foundation
Catégories
17
Où sont les données ?
18
Où sont les données ?
Liens
Interwikis
19
Où sont les données ?
Liens
Interwikis
Alignement avec un
identifiant d’autorité
20
Où sont les données ?
Liens
Interwikis
Liste de médias associés
et organisés
21
A quoi peuvent servir ces données ?
Wikipedia : un pivot pour relier les données
22
Créer du lien exploitable par les machines
23
Créer du lien exploitable par les machines
24
Créer du lien exploitable par les machines
25
Créer du lien exploitable par les machines
26
Créer du lien exploitable par les machines
27
Créer du lien exploitable par les machines
28
Créer du lien exploitable par les machines
29
Créer du lien exploitable par les machines
30
Pour construire de nouvelles applications
31
32
33
34
35
Créer du lien exploitable par les machines
36
Créer du lien exploitable par les machines
37
Créer du lien exploitable par les machines
38
Créer du lien exploitable par les machines
39
Créer du lien exploitable par les machines
40
Créer du lien exploitable par les machines
41
Créer du lien exploitable par les machines
42
Créer du lien exploitable par les machines
43
Créer du lien exploitable par les machines
44
Pour construire de nouvelles applications
http://labs.antidot.net/widgets/monuments
45
46
47
48
49
Comment récupérer ces données ?
Dbpedia : le pionnier
50
Dbpedia et SemanticPedia
832 000 personnes, 639 000
lieux, 116 000 albums musicaux,
78 000 films...
DBPedia permet de faire des requêtes complexes sur les
données de Wikipedia, et de relier d’autres ensembles de
données du Web à Wikipedia.
http://dbpedia.org
Mis au point et maintenu depuis 2006 par Universität Leipzig,
Freie Universität Berlin et la société OpenLink Software dans
le cadre du projet
4 millions de choses dont :
La version française de Dbpedia est
maintenue et développée depuis
2013 par Winimics (INRIA) en
partenariat avec Wikimedia France
et le Ministère de la Culture http://fr.dbpedia.org/
51
Dbpedia : le centre du LOD
De par la nature et la richesse de Wikipedia, Dbpedia est devenu le centre
d’un vaste réseau de jeux de données reliées selon les principes du Linked Data
52
Les limites
Données structurées complexes à
modifier dans les Wikipedias
Délai d’attente pour disposer de la mise à
jour (dbpedia mis à jour une fois par an)
Données dispersées dans les différentes
versions de Dbpedia
Dbpedia ne propose pas un niveau de
service compatible avec des impératifs
de production
Complexité de certaines extractions
53
Comment harmoniser les données de
Wikipedia et en faciliter l’édition ?
Wikidata : le petit nouveau
Disclaimer : cette partie utilise les slides de Coyau (http://commons.wikimedia.org/wiki/File:2013-
09_Introduction_%C3%A0_Wikidata.pdf) disponible en CC-BY-SA. Merci à lui !
54
Wikidata
Projet officiel de la Wikimedia
Foundation
Développée à partir de 2012 à
l’initiative de l’association
Wikimedia Deutschland
Ouvert à tous
Les données sont libres : CC0
Le site est entièrement
multilingue
Objectif 1er : centraliser et
faciliter la maintenance des
données structurées des
Wikipedias
55
La gestion des liens interlangues
Ancien système Nouveau système
Gestion disséminée (données
dispersées sur 280 Wikipédias)
Gestion centralisée
Maintenance par une noria de robots Collecte par robots (sauf ambiguïté),
maintenance à la main
56
La gestion des liens interlangues
[[af:Victor Hugo]]
[[als:Victor Hugo]]
[[an:Victor Hugo]]
[[ar: ]]
[[arz: ]]
[[ast:Victor Hugo]]
[[az:Viktor Hüqo]]
[[bat-smg:Victor Hugo]]
[[ba:Гюго, Виктор]]
[[be-x-old:Віктор Юго]]
[[be:Віктор Гюго]]
[[bg:Виктор Юго]]
[[bn: ]]
[[br:Victor Hugo]]
[[cv:Виктор Гюго]]
[[cy:Victor Hugo]]
[[da:Victor Hugo]]
[[de:Victor Hugo]]
[[diq:Victor Hugo]]
[[el:Βίκτωρ Ουγκώ]]
[[en:Victor Hugo]]
Ancien système
Wikipédia
Nouveau système
Wikidata
57
La gestion des infobox
Ancien système Nouveau système
données dispersées (280 Wikipédias) données centralisées
mise à jour variable selon les Wikipédias gestion simplifiée des données
58
La gestion des infobox
{{Infobox Conjoint politique
| nom = Berthe Faure
| image = Faure.1212301544-1-
.jpg
| légende = Dessin supposé de
Berthe Faure, debout et de dos, lors du
décès de son mari (une du ''[[Le Petit
Journal (quotidien)|Petit Journal]]'').
| statut = [[Liste des épouses
des présidents de la République
française|Épouse du {{7e}} président de la
République française]]
| début =
{{date|17|janvier|1895}}
| fin =
{{date|16|février|1899}}<br /><small>(4
ans et 29 jours)</small>
| conjoint = [[Félix Faure]]
| prédécesseur = [[Hélène Casimir-
Perier]]
| successeur = [[Marie-Louise
Loubet]]
| nom de naissance = Marie-Mathilde
Berthe Belluot
| date de naissance = {{date de
naissance|21|février|1842}}
| lieu de naissance =
| date de décès = [[1920]] (à 78 ans)
| lieu de décès =
| profession =
}}
59
Anatomie d’un élément dans Wikidata
libellé (nom, label)
cf.
description
cf.
alias
cf.
liens interlangues
60
Anatomie d’un élément dans Wikidata
affirmation (claim)
propriété (property) valeur (value) éventuellement des qualificateurs (qualifiers)
référence, source
(reference, source)
rang (rank)
déclaration (statement)
61
La récupération des données
Négociation de contenu
(XML, RDF/XML, JSON, Turtle…)
API MediaWiki
enrichie
Dump full ou
journalier
62
Outils autour de Wikidata
Permet de faire des
requêtes complexes
sur la base de
données
Résultat au format
JSON.
● http://wikidataquery.eu
WikiDataQuery
63
Outils autour de Wikidata
Mise en page avancée
des données de
Wikidata
http://tools.wmflabs.org/reasonator/
Reasonator
64
Exemple de réutilisation
Les musées de France
Mashup en reliant une
dizaine de jeux de
données dont
Wikidata, data.bnf.fr,
Dbpedia, data.gouv.fr,
Wikimedia Commons,
Instagram, Twitter…
http://labs.antidot.net/museesdefrance/
65
MERCI
DES QUESTIONS ?

Contenu connexe

Tendances

Sensibilisation open-data 2017
Sensibilisation open-data 2017Sensibilisation open-data 2017
Sensibilisation open-data 2017Claire Gallon
 
Etats des lieux de l'Open Data culturel en France et en Europe
Etats des lieux de l'Open Data culturel en France et en EuropeEtats des lieux de l'Open Data culturel en France et en Europe
Etats des lieux de l'Open Data culturel en France et en EuropeCalimaq S.I.Lex
 
Pour ou contre l'ouverture des données et contenus culturels ?
Pour ou contre l'ouverture des données et contenus culturels ?Pour ou contre l'ouverture des données et contenus culturels ?
Pour ou contre l'ouverture des données et contenus culturels ?Calimaq S.I.Lex
 
Atelier EtaLab : Retour d'expérience Open Data Paris
Atelier EtaLab : Retour d'expérience Open Data ParisAtelier EtaLab : Retour d'expérience Open Data Paris
Atelier EtaLab : Retour d'expérience Open Data ParisMairie de Paris
 
Des Outils 2.0 En Bdp 19 FéVrier Bdp 13
Des Outils 2.0 En Bdp 19 FéVrier Bdp 13Des Outils 2.0 En Bdp 19 FéVrier Bdp 13
Des Outils 2.0 En Bdp 19 FéVrier Bdp 13Franck Queyraud
 
Centre de ressources en ligne : l'USH et XWiki
Centre de ressources en ligne : l'USH et XWikiCentre de ressources en ligne : l'USH et XWiki
Centre de ressources en ligne : l'USH et XWikiXWiki
 
Bouchout Declaration on Open Biodiversity Knowledge Management, Montpellier J...
Bouchout Declaration on Open Biodiversity Knowledge Management, Montpellier J...Bouchout Declaration on Open Biodiversity Knowledge Management, Montpellier J...
Bouchout Declaration on Open Biodiversity Knowledge Management, Montpellier J...agosti
 
Ophélie Popille: Les promesses et impacts de l'ouverture des données sur le t...
Ophélie Popille: Les promesses et impacts de l'ouverture des données sur le t...Ophélie Popille: Les promesses et impacts de l'ouverture des données sur le t...
Ophélie Popille: Les promesses et impacts de l'ouverture des données sur le t...liberTIC
 

Tendances (10)

Sensibilisation open-data 2017
Sensibilisation open-data 2017Sensibilisation open-data 2017
Sensibilisation open-data 2017
 
Etats des lieux de l'Open Data culturel en France et en Europe
Etats des lieux de l'Open Data culturel en France et en EuropeEtats des lieux de l'Open Data culturel en France et en Europe
Etats des lieux de l'Open Data culturel en France et en Europe
 
Pour ou contre l'ouverture des données et contenus culturels ?
Pour ou contre l'ouverture des données et contenus culturels ?Pour ou contre l'ouverture des données et contenus culturels ?
Pour ou contre l'ouverture des données et contenus culturels ?
 
Atelier EtaLab : Retour d'expérience Open Data Paris
Atelier EtaLab : Retour d'expérience Open Data ParisAtelier EtaLab : Retour d'expérience Open Data Paris
Atelier EtaLab : Retour d'expérience Open Data Paris
 
Des Outils 2.0 En Bdp 19 FéVrier Bdp 13
Des Outils 2.0 En Bdp 19 FéVrier Bdp 13Des Outils 2.0 En Bdp 19 FéVrier Bdp 13
Des Outils 2.0 En Bdp 19 FéVrier Bdp 13
 
Clarifier le sens de vos données publiques avec le Web de données
Clarifier le sens de vos données publiques avec le Web de donnéesClarifier le sens de vos données publiques avec le Web de données
Clarifier le sens de vos données publiques avec le Web de données
 
Centre de ressources en ligne : l'USH et XWiki
Centre de ressources en ligne : l'USH et XWikiCentre de ressources en ligne : l'USH et XWiki
Centre de ressources en ligne : l'USH et XWiki
 
Bouchout Declaration on Open Biodiversity Knowledge Management, Montpellier J...
Bouchout Declaration on Open Biodiversity Knowledge Management, Montpellier J...Bouchout Declaration on Open Biodiversity Knowledge Management, Montpellier J...
Bouchout Declaration on Open Biodiversity Knowledge Management, Montpellier J...
 
ZOne DEV #lemobile20 2011 2J
ZOne DEV #lemobile20 2011 2JZOne DEV #lemobile20 2011 2J
ZOne DEV #lemobile20 2011 2J
 
Ophélie Popille: Les promesses et impacts de l'ouverture des données sur le t...
Ophélie Popille: Les promesses et impacts de l'ouverture des données sur le t...Ophélie Popille: Les promesses et impacts de l'ouverture des données sur le t...
Ophélie Popille: Les promesses et impacts de l'ouverture des données sur le t...
 

Similaire à Wikidata : quand Wikipédia s'intéresse aux données

Les technologies du Web appliquées aux données structurées (2ème partie : Rel...
Les technologies du Web appliquées aux données structurées (2ème partie : Rel...Les technologies du Web appliquées aux données structurées (2ème partie : Rel...
Les technologies du Web appliquées aux données structurées (2ème partie : Rel...Gautier Poupeau
 
Introduction au web des données (Linked Data)
Introduction au web des données (Linked Data)Introduction au web des données (Linked Data)
Introduction au web des données (Linked Data)BorderCloud
 
Wikipedia, une introduction
Wikipedia, une introductionWikipedia, une introduction
Wikipedia, une introductionBourrion Daniel
 
2 focus web
2 focus web2 focus web
2 focus webABES
 
Web2, le contexte général
Web2, le contexte généralWeb2, le contexte général
Web2, le contexte généralXavier Galaup
 
Les chercheurs et wikipédia v1.1 bruno dewailly
Les chercheurs et wikipédia v1.1   bruno dewaillyLes chercheurs et wikipédia v1.1   bruno dewailly
Les chercheurs et wikipédia v1.1 bruno dewaillyBruno2wi
 
Abf normandie formation 1 les outils de la communication
Abf normandie formation 1 les outils de la communicationAbf normandie formation 1 les outils de la communication
Abf normandie formation 1 les outils de la communicationSophie C.
 
metadata_pour_dirbu_mars2011
metadata_pour_dirbu_mars2011metadata_pour_dirbu_mars2011
metadata_pour_dirbu_mars2011Y. Nicolas
 
2 infrastructure numerique_focusweb_cnfpt2011
2 infrastructure numerique_focusweb_cnfpt20112 infrastructure numerique_focusweb_cnfpt2011
2 infrastructure numerique_focusweb_cnfpt2011Fleury Christine
 
Wikipedia et Intelligence Collective
Wikipedia et Intelligence CollectiveWikipedia et Intelligence Collective
Wikipedia et Intelligence CollectiveFlorence Devouard
 
Formation professionnelle "Big data : concepts et enjeux"
Formation professionnelle "Big data : concepts et enjeux"Formation professionnelle "Big data : concepts et enjeux"
Formation professionnelle "Big data : concepts et enjeux"Philippe METAYER
 
Atelier juriconnexion 2009
Atelier juriconnexion 2009Atelier juriconnexion 2009
Atelier juriconnexion 2009Geemik
 
Wiki et gestion du savoir : 5@7 centre de productique
Wiki et gestion du savoir : 5@7 centre de productiqueWiki et gestion du savoir : 5@7 centre de productique
Wiki et gestion du savoir : 5@7 centre de productiqueBenoit des Ligneris
 
Le web participatif en bibliotheque publique
Le web participatif en bibliotheque publiqueLe web participatif en bibliotheque publique
Le web participatif en bibliotheque publiqueXavier Galaup
 
Vers la bibliothèque 2.0?
Vers la bibliothèque 2.0?Vers la bibliothèque 2.0?
Vers la bibliothèque 2.0?Xavier Galaup
 
Le Web de données - nouvelles pratiques de publication et nouveaux services?
Le Web de données - nouvelles pratiques de publication et nouveaux services? Le Web de données - nouvelles pratiques de publication et nouveaux services?
Le Web de données - nouvelles pratiques de publication et nouveaux services? chessmu
 

Similaire à Wikidata : quand Wikipédia s'intéresse aux données (20)

Les technologies du Web appliquées aux données structurées (2ème partie : Rel...
Les technologies du Web appliquées aux données structurées (2ème partie : Rel...Les technologies du Web appliquées aux données structurées (2ème partie : Rel...
Les technologies du Web appliquées aux données structurées (2ème partie : Rel...
 
Introduction au web des données (Linked Data)
Introduction au web des données (Linked Data)Introduction au web des données (Linked Data)
Introduction au web des données (Linked Data)
 
Wikipedia, une introduction
Wikipedia, une introductionWikipedia, une introduction
Wikipedia, une introduction
 
2 focus web
2 focus web2 focus web
2 focus web
 
Web2, le contexte général
Web2, le contexte généralWeb2, le contexte général
Web2, le contexte général
 
Les chercheurs et wikipédia v1.1 bruno dewailly
Les chercheurs et wikipédia v1.1   bruno dewaillyLes chercheurs et wikipédia v1.1   bruno dewailly
Les chercheurs et wikipédia v1.1 bruno dewailly
 
DBpedia Cafe-In
DBpedia Cafe-InDBpedia Cafe-In
DBpedia Cafe-In
 
Formation ADBS du 26 06 2009
Formation ADBS du 26 06 2009Formation ADBS du 26 06 2009
Formation ADBS du 26 06 2009
 
Cours Big Data Part I
Cours Big Data Part ICours Big Data Part I
Cours Big Data Part I
 
Abf normandie formation 1 les outils de la communication
Abf normandie formation 1 les outils de la communicationAbf normandie formation 1 les outils de la communication
Abf normandie formation 1 les outils de la communication
 
metadata_pour_dirbu_mars2011
metadata_pour_dirbu_mars2011metadata_pour_dirbu_mars2011
metadata_pour_dirbu_mars2011
 
2 infrastructure numerique_focusweb_cnfpt2011
2 infrastructure numerique_focusweb_cnfpt20112 infrastructure numerique_focusweb_cnfpt2011
2 infrastructure numerique_focusweb_cnfpt2011
 
Wikipedia et Intelligence Collective
Wikipedia et Intelligence CollectiveWikipedia et Intelligence Collective
Wikipedia et Intelligence Collective
 
Formation professionnelle "Big data : concepts et enjeux"
Formation professionnelle "Big data : concepts et enjeux"Formation professionnelle "Big data : concepts et enjeux"
Formation professionnelle "Big data : concepts et enjeux"
 
Atelier juriconnexion 2009
Atelier juriconnexion 2009Atelier juriconnexion 2009
Atelier juriconnexion 2009
 
Wiki et gestion du savoir : 5@7 centre de productique
Wiki et gestion du savoir : 5@7 centre de productiqueWiki et gestion du savoir : 5@7 centre de productique
Wiki et gestion du savoir : 5@7 centre de productique
 
Le web participatif en bibliotheque publique
Le web participatif en bibliotheque publiqueLe web participatif en bibliotheque publique
Le web participatif en bibliotheque publique
 
Vers la bibliothèque 2.0?
Vers la bibliothèque 2.0?Vers la bibliothèque 2.0?
Vers la bibliothèque 2.0?
 
Le Web de données - nouvelles pratiques de publication et nouveaux services?
Le Web de données - nouvelles pratiques de publication et nouveaux services? Le Web de données - nouvelles pratiques de publication et nouveaux services?
Le Web de données - nouvelles pratiques de publication et nouveaux services?
 
Wikis 2008
Wikis 2008Wikis 2008
Wikis 2008
 

Plus de Antidot

Comment l'intelligence artificielle améliore la recherche documentaire
Comment l'intelligence artificielle améliore la recherche documentaireComment l'intelligence artificielle améliore la recherche documentaire
Comment l'intelligence artificielle améliore la recherche documentaireAntidot
 
Antidot Content Classifier - Valorisez vos contenus
Antidot Content Classifier - Valorisez vos contenusAntidot Content Classifier - Valorisez vos contenus
Antidot Content Classifier - Valorisez vos contenusAntidot
 
Comment l’intelligence artificielle réinvente la fouille de texte
Comment l’intelligence artificielle réinvente la fouille de texteComment l’intelligence artificielle réinvente la fouille de texte
Comment l’intelligence artificielle réinvente la fouille de texteAntidot
 
Antidot Content Classifier
Antidot Content ClassifierAntidot Content Classifier
Antidot Content ClassifierAntidot
 
Cas client CAIJ
Cas client CAIJCas client CAIJ
Cas client CAIJAntidot
 
Du Big Data à la Smart Information : comment valoriser les actifs information...
Du Big Data à la Smart Information : comment valoriser les actifs information...Du Big Data à la Smart Information : comment valoriser les actifs information...
Du Big Data à la Smart Information : comment valoriser les actifs information...Antidot
 
Compte rendu de la matinée "E-commerce B2B : les leviers de croissance"
Compte rendu de la matinée "E-commerce B2B : les leviers de croissance"Compte rendu de la matinée "E-commerce B2B : les leviers de croissance"
Compte rendu de la matinée "E-commerce B2B : les leviers de croissance"Antidot
 
Web sémantique et Web de données, et si on passait à la pratique ?
Web sémantique et Web de données, et si on passait à la pratique ?Web sémantique et Web de données, et si on passait à la pratique ?
Web sémantique et Web de données, et si on passait à la pratique ?Antidot
 
Machine learning, deep learning et search : à quand ces innovations dans nos ...
Machine learning, deep learning et search : à quand ces innovations dans nos ...Machine learning, deep learning et search : à quand ces innovations dans nos ...
Machine learning, deep learning et search : à quand ces innovations dans nos ...Antidot
 
Flyer AFS@Store 2015 FR
Flyer AFS@Store 2015 FRFlyer AFS@Store 2015 FR
Flyer AFS@Store 2015 FRAntidot
 
WISS 2015 - Machine Learning lecture by Ludovic Samper
WISS 2015 - Machine Learning lecture by Ludovic Samper WISS 2015 - Machine Learning lecture by Ludovic Samper
WISS 2015 - Machine Learning lecture by Ludovic Samper Antidot
 
Do’s and don'ts : la recherche interne aux sites de ecommerce
Do’s and don'ts : la recherche interne aux sites de ecommerceDo’s and don'ts : la recherche interne aux sites de ecommerce
Do’s and don'ts : la recherche interne aux sites de ecommerceAntidot
 
Boostez votre taux de conversion et augmentez vos ventes grâce au searchandis...
Boostez votre taux de conversion et augmentez vos ventes grâce au searchandis...Boostez votre taux de conversion et augmentez vos ventes grâce au searchandis...
Boostez votre taux de conversion et augmentez vos ventes grâce au searchandis...Antidot
 
Synergie entre intranet collaboratif et recherche sémantique : le cas des hôp...
Synergie entre intranet collaboratif et recherche sémantique : le cas des hôp...Synergie entre intranet collaboratif et recherche sémantique : le cas des hôp...
Synergie entre intranet collaboratif et recherche sémantique : le cas des hôp...Antidot
 
En 2015, quelles sont les bonnes pratiques du searchandising ?
En 2015, quelles sont les bonnes pratiques du searchandising ?En 2015, quelles sont les bonnes pratiques du searchandising ?
En 2015, quelles sont les bonnes pratiques du searchandising ?Antidot
 
Comment tirer profit des données publiques ouvertes dans un mashup web grâce ...
Comment tirer profit des données publiques ouvertes dans un mashup web grâce ...Comment tirer profit des données publiques ouvertes dans un mashup web grâce ...
Comment tirer profit des données publiques ouvertes dans un mashup web grâce ...Antidot
 
Vous utilisez Prestashop ? Changez votre moteur de recherche interne pour boo...
Vous utilisez Prestashop ? Changez votre moteur de recherche interne pour boo...Vous utilisez Prestashop ? Changez votre moteur de recherche interne pour boo...
Vous utilisez Prestashop ? Changez votre moteur de recherche interne pour boo...Antidot
 
Boostez votre taux de conversion en tirant profit des bonnes pratiques du sea...
Boostez votre taux de conversion en tirant profit des bonnes pratiques du sea...Boostez votre taux de conversion en tirant profit des bonnes pratiques du sea...
Boostez votre taux de conversion en tirant profit des bonnes pratiques du sea...Antidot
 
Améliorer le searchandising d’un site spécialisé : retour d'expérience de Cui...
Améliorer le searchandising d’un site spécialisé : retour d'expérience de Cui...Améliorer le searchandising d’un site spécialisé : retour d'expérience de Cui...
Améliorer le searchandising d’un site spécialisé : retour d'expérience de Cui...Antidot
 
Comment sélectionner, qualifier puis exploiter les données ouvertes
Comment sélectionner, qualifier puis exploiter les données ouvertesComment sélectionner, qualifier puis exploiter les données ouvertes
Comment sélectionner, qualifier puis exploiter les données ouvertesAntidot
 

Plus de Antidot (20)

Comment l'intelligence artificielle améliore la recherche documentaire
Comment l'intelligence artificielle améliore la recherche documentaireComment l'intelligence artificielle améliore la recherche documentaire
Comment l'intelligence artificielle améliore la recherche documentaire
 
Antidot Content Classifier - Valorisez vos contenus
Antidot Content Classifier - Valorisez vos contenusAntidot Content Classifier - Valorisez vos contenus
Antidot Content Classifier - Valorisez vos contenus
 
Comment l’intelligence artificielle réinvente la fouille de texte
Comment l’intelligence artificielle réinvente la fouille de texteComment l’intelligence artificielle réinvente la fouille de texte
Comment l’intelligence artificielle réinvente la fouille de texte
 
Antidot Content Classifier
Antidot Content ClassifierAntidot Content Classifier
Antidot Content Classifier
 
Cas client CAIJ
Cas client CAIJCas client CAIJ
Cas client CAIJ
 
Du Big Data à la Smart Information : comment valoriser les actifs information...
Du Big Data à la Smart Information : comment valoriser les actifs information...Du Big Data à la Smart Information : comment valoriser les actifs information...
Du Big Data à la Smart Information : comment valoriser les actifs information...
 
Compte rendu de la matinée "E-commerce B2B : les leviers de croissance"
Compte rendu de la matinée "E-commerce B2B : les leviers de croissance"Compte rendu de la matinée "E-commerce B2B : les leviers de croissance"
Compte rendu de la matinée "E-commerce B2B : les leviers de croissance"
 
Web sémantique et Web de données, et si on passait à la pratique ?
Web sémantique et Web de données, et si on passait à la pratique ?Web sémantique et Web de données, et si on passait à la pratique ?
Web sémantique et Web de données, et si on passait à la pratique ?
 
Machine learning, deep learning et search : à quand ces innovations dans nos ...
Machine learning, deep learning et search : à quand ces innovations dans nos ...Machine learning, deep learning et search : à quand ces innovations dans nos ...
Machine learning, deep learning et search : à quand ces innovations dans nos ...
 
Flyer AFS@Store 2015 FR
Flyer AFS@Store 2015 FRFlyer AFS@Store 2015 FR
Flyer AFS@Store 2015 FR
 
WISS 2015 - Machine Learning lecture by Ludovic Samper
WISS 2015 - Machine Learning lecture by Ludovic Samper WISS 2015 - Machine Learning lecture by Ludovic Samper
WISS 2015 - Machine Learning lecture by Ludovic Samper
 
Do’s and don'ts : la recherche interne aux sites de ecommerce
Do’s and don'ts : la recherche interne aux sites de ecommerceDo’s and don'ts : la recherche interne aux sites de ecommerce
Do’s and don'ts : la recherche interne aux sites de ecommerce
 
Boostez votre taux de conversion et augmentez vos ventes grâce au searchandis...
Boostez votre taux de conversion et augmentez vos ventes grâce au searchandis...Boostez votre taux de conversion et augmentez vos ventes grâce au searchandis...
Boostez votre taux de conversion et augmentez vos ventes grâce au searchandis...
 
Synergie entre intranet collaboratif et recherche sémantique : le cas des hôp...
Synergie entre intranet collaboratif et recherche sémantique : le cas des hôp...Synergie entre intranet collaboratif et recherche sémantique : le cas des hôp...
Synergie entre intranet collaboratif et recherche sémantique : le cas des hôp...
 
En 2015, quelles sont les bonnes pratiques du searchandising ?
En 2015, quelles sont les bonnes pratiques du searchandising ?En 2015, quelles sont les bonnes pratiques du searchandising ?
En 2015, quelles sont les bonnes pratiques du searchandising ?
 
Comment tirer profit des données publiques ouvertes dans un mashup web grâce ...
Comment tirer profit des données publiques ouvertes dans un mashup web grâce ...Comment tirer profit des données publiques ouvertes dans un mashup web grâce ...
Comment tirer profit des données publiques ouvertes dans un mashup web grâce ...
 
Vous utilisez Prestashop ? Changez votre moteur de recherche interne pour boo...
Vous utilisez Prestashop ? Changez votre moteur de recherche interne pour boo...Vous utilisez Prestashop ? Changez votre moteur de recherche interne pour boo...
Vous utilisez Prestashop ? Changez votre moteur de recherche interne pour boo...
 
Boostez votre taux de conversion en tirant profit des bonnes pratiques du sea...
Boostez votre taux de conversion en tirant profit des bonnes pratiques du sea...Boostez votre taux de conversion en tirant profit des bonnes pratiques du sea...
Boostez votre taux de conversion en tirant profit des bonnes pratiques du sea...
 
Améliorer le searchandising d’un site spécialisé : retour d'expérience de Cui...
Améliorer le searchandising d’un site spécialisé : retour d'expérience de Cui...Améliorer le searchandising d’un site spécialisé : retour d'expérience de Cui...
Améliorer le searchandising d’un site spécialisé : retour d'expérience de Cui...
 
Comment sélectionner, qualifier puis exploiter les données ouvertes
Comment sélectionner, qualifier puis exploiter les données ouvertesComment sélectionner, qualifier puis exploiter les données ouvertes
Comment sélectionner, qualifier puis exploiter les données ouvertes
 

Dernier

Les Metiers de l'Intelligence Artificielle
Les Metiers de l'Intelligence ArtificielleLes Metiers de l'Intelligence Artificielle
Les Metiers de l'Intelligence ArtificielleErol GIRAUDY
 
KIT-COPILOT and more Article du 20240311
KIT-COPILOT and more Article du 20240311KIT-COPILOT and more Article du 20240311
KIT-COPILOT and more Article du 20240311Erol GIRAUDY
 
Installation de Sylius 2.0 et découverte du nouveau backoffice en Bootstrap
Installation de Sylius 2.0 et découverte du nouveau backoffice en BootstrapInstallation de Sylius 2.0 et découverte du nouveau backoffice en Bootstrap
Installation de Sylius 2.0 et découverte du nouveau backoffice en BootstrapMaxime Huran 🌈
 
The Importance of Indoor Air Quality (French)
The Importance of Indoor Air Quality (French)The Importance of Indoor Air Quality (French)
The Importance of Indoor Air Quality (French)IES VE
 
Mes succès sur Microsoft LEARN et examens
Mes succès sur Microsoft LEARN et examensMes succès sur Microsoft LEARN et examens
Mes succès sur Microsoft LEARN et examensErol GIRAUDY
 
Workshop l'IA au service de l'industrie - Présentation générale - Extra 14...
Workshop l'IA au service de l'industrie - Présentation générale - Extra 14...Workshop l'IA au service de l'industrie - Présentation générale - Extra 14...
Workshop l'IA au service de l'industrie - Présentation générale - Extra 14...Infopole1
 

Dernier (6)

Les Metiers de l'Intelligence Artificielle
Les Metiers de l'Intelligence ArtificielleLes Metiers de l'Intelligence Artificielle
Les Metiers de l'Intelligence Artificielle
 
KIT-COPILOT and more Article du 20240311
KIT-COPILOT and more Article du 20240311KIT-COPILOT and more Article du 20240311
KIT-COPILOT and more Article du 20240311
 
Installation de Sylius 2.0 et découverte du nouveau backoffice en Bootstrap
Installation de Sylius 2.0 et découverte du nouveau backoffice en BootstrapInstallation de Sylius 2.0 et découverte du nouveau backoffice en Bootstrap
Installation de Sylius 2.0 et découverte du nouveau backoffice en Bootstrap
 
The Importance of Indoor Air Quality (French)
The Importance of Indoor Air Quality (French)The Importance of Indoor Air Quality (French)
The Importance of Indoor Air Quality (French)
 
Mes succès sur Microsoft LEARN et examens
Mes succès sur Microsoft LEARN et examensMes succès sur Microsoft LEARN et examens
Mes succès sur Microsoft LEARN et examens
 
Workshop l'IA au service de l'industrie - Présentation générale - Extra 14...
Workshop l'IA au service de l'industrie - Présentation générale - Extra 14...Workshop l'IA au service de l'industrie - Présentation générale - Extra 14...
Workshop l'IA au service de l'industrie - Présentation générale - Extra 14...
 

Wikidata : quand Wikipédia s'intéresse aux données

  • 1. 1 Wikidata Quand Wikipedia s’intéresse aux données RELIER LES DONNÉES : UN ENJEU MAJEUR POUR LES USAGES ? 27 MARS 2014, PARIS Gautier Poupeau gpoupeau@antidot.net @lespetitescases http://www.lespetitescases.net
  • 2. 2 Mais où sont les données dans Wikipedia ? Wikipedia : une masse insoupçonnée de données structurées
  • 3. 3 Où sont les données ?
  • 4. 4 Où sont les données ? Etiquette principale de l’entité
  • 5. 5 Où sont les données ? Etiquette principale de l’entité Liens Interwikis
  • 6. 6 Où sont les données ? Etiquette principale de l’entité Liens Interwikis Infobox
  • 7. 7 Où sont les données ? Etiquette principale de l’entité Liens Interwikis Image
  • 8. 8 Où sont les données ? Etiquette principale de l’entité Liens Interwikis Image Donnée
  • 9. 9 Où sont les données ? Etiquette principale de l’entité Liens Interwikis Image Nature de la donnée Valeur de la donnée
  • 10. 10 Où sont les données ?
  • 11. 11 Où sont les données ? Lien vers des notices d’autorités des bibliothèques
  • 12. 12 Où sont les données ? Lien vers des pages équivalentes dans d’autres projets de la Wikimedia Foundation Lien vers des notices d’autorités des bibliothèques
  • 13. 13 Où sont les données ? Lien vers des pages équivalentes dans d’autres projets de la Wikimedia Foundation Lien vers des notices d’autorités des bibliothèques Catégories
  • 14. 14 Où sont les données ? Etiquette principale de l’entité Liens Interwikis Infobox
  • 15. 15 Où sont les données ? Etiquette principale de l’entité Liens Interwikis Infobox Coordonnées géographiques
  • 16. 16 Où sont les données Lien vers des pages équivalentes dans d’autres projets de la Wikimedia Foundation Catégories
  • 17. 17 Où sont les données ?
  • 18. 18 Où sont les données ? Liens Interwikis
  • 19. 19 Où sont les données ? Liens Interwikis Alignement avec un identifiant d’autorité
  • 20. 20 Où sont les données ? Liens Interwikis Liste de médias associés et organisés
  • 21. 21 A quoi peuvent servir ces données ? Wikipedia : un pivot pour relier les données
  • 22. 22 Créer du lien exploitable par les machines
  • 23. 23 Créer du lien exploitable par les machines
  • 24. 24 Créer du lien exploitable par les machines
  • 25. 25 Créer du lien exploitable par les machines
  • 26. 26 Créer du lien exploitable par les machines
  • 27. 27 Créer du lien exploitable par les machines
  • 28. 28 Créer du lien exploitable par les machines
  • 29. 29 Créer du lien exploitable par les machines
  • 30. 30 Pour construire de nouvelles applications
  • 31. 31
  • 32. 32
  • 33. 33
  • 34. 34
  • 35. 35 Créer du lien exploitable par les machines
  • 36. 36 Créer du lien exploitable par les machines
  • 37. 37 Créer du lien exploitable par les machines
  • 38. 38 Créer du lien exploitable par les machines
  • 39. 39 Créer du lien exploitable par les machines
  • 40. 40 Créer du lien exploitable par les machines
  • 41. 41 Créer du lien exploitable par les machines
  • 42. 42 Créer du lien exploitable par les machines
  • 43. 43 Créer du lien exploitable par les machines
  • 44. 44 Pour construire de nouvelles applications http://labs.antidot.net/widgets/monuments
  • 45. 45
  • 46. 46
  • 47. 47
  • 48. 48
  • 49. 49 Comment récupérer ces données ? Dbpedia : le pionnier
  • 50. 50 Dbpedia et SemanticPedia 832 000 personnes, 639 000 lieux, 116 000 albums musicaux, 78 000 films... DBPedia permet de faire des requêtes complexes sur les données de Wikipedia, et de relier d’autres ensembles de données du Web à Wikipedia. http://dbpedia.org Mis au point et maintenu depuis 2006 par Universität Leipzig, Freie Universität Berlin et la société OpenLink Software dans le cadre du projet 4 millions de choses dont : La version française de Dbpedia est maintenue et développée depuis 2013 par Winimics (INRIA) en partenariat avec Wikimedia France et le Ministère de la Culture http://fr.dbpedia.org/
  • 51. 51 Dbpedia : le centre du LOD De par la nature et la richesse de Wikipedia, Dbpedia est devenu le centre d’un vaste réseau de jeux de données reliées selon les principes du Linked Data
  • 52. 52 Les limites Données structurées complexes à modifier dans les Wikipedias Délai d’attente pour disposer de la mise à jour (dbpedia mis à jour une fois par an) Données dispersées dans les différentes versions de Dbpedia Dbpedia ne propose pas un niveau de service compatible avec des impératifs de production Complexité de certaines extractions
  • 53. 53 Comment harmoniser les données de Wikipedia et en faciliter l’édition ? Wikidata : le petit nouveau Disclaimer : cette partie utilise les slides de Coyau (http://commons.wikimedia.org/wiki/File:2013- 09_Introduction_%C3%A0_Wikidata.pdf) disponible en CC-BY-SA. Merci à lui !
  • 54. 54 Wikidata Projet officiel de la Wikimedia Foundation Développée à partir de 2012 à l’initiative de l’association Wikimedia Deutschland Ouvert à tous Les données sont libres : CC0 Le site est entièrement multilingue Objectif 1er : centraliser et faciliter la maintenance des données structurées des Wikipedias
  • 55. 55 La gestion des liens interlangues Ancien système Nouveau système Gestion disséminée (données dispersées sur 280 Wikipédias) Gestion centralisée Maintenance par une noria de robots Collecte par robots (sauf ambiguïté), maintenance à la main
  • 56. 56 La gestion des liens interlangues [[af:Victor Hugo]] [[als:Victor Hugo]] [[an:Victor Hugo]] [[ar: ]] [[arz: ]] [[ast:Victor Hugo]] [[az:Viktor Hüqo]] [[bat-smg:Victor Hugo]] [[ba:Гюго, Виктор]] [[be-x-old:Віктор Юго]] [[be:Віктор Гюго]] [[bg:Виктор Юго]] [[bn: ]] [[br:Victor Hugo]] [[cv:Виктор Гюго]] [[cy:Victor Hugo]] [[da:Victor Hugo]] [[de:Victor Hugo]] [[diq:Victor Hugo]] [[el:Βίκτωρ Ουγκώ]] [[en:Victor Hugo]] Ancien système Wikipédia Nouveau système Wikidata
  • 57. 57 La gestion des infobox Ancien système Nouveau système données dispersées (280 Wikipédias) données centralisées mise à jour variable selon les Wikipédias gestion simplifiée des données
  • 58. 58 La gestion des infobox {{Infobox Conjoint politique | nom = Berthe Faure | image = Faure.1212301544-1- .jpg | légende = Dessin supposé de Berthe Faure, debout et de dos, lors du décès de son mari (une du ''[[Le Petit Journal (quotidien)|Petit Journal]]''). | statut = [[Liste des épouses des présidents de la République française|Épouse du {{7e}} président de la République française]] | début = {{date|17|janvier|1895}} | fin = {{date|16|février|1899}}<br /><small>(4 ans et 29 jours)</small> | conjoint = [[Félix Faure]] | prédécesseur = [[Hélène Casimir- Perier]] | successeur = [[Marie-Louise Loubet]] | nom de naissance = Marie-Mathilde Berthe Belluot | date de naissance = {{date de naissance|21|février|1842}} | lieu de naissance = | date de décès = [[1920]] (à 78 ans) | lieu de décès = | profession = }}
  • 59. 59 Anatomie d’un élément dans Wikidata libellé (nom, label) cf. description cf. alias cf. liens interlangues
  • 60. 60 Anatomie d’un élément dans Wikidata affirmation (claim) propriété (property) valeur (value) éventuellement des qualificateurs (qualifiers) référence, source (reference, source) rang (rank) déclaration (statement)
  • 61. 61 La récupération des données Négociation de contenu (XML, RDF/XML, JSON, Turtle…) API MediaWiki enrichie Dump full ou journalier
  • 62. 62 Outils autour de Wikidata Permet de faire des requêtes complexes sur la base de données Résultat au format JSON. ● http://wikidataquery.eu WikiDataQuery
  • 63. 63 Outils autour de Wikidata Mise en page avancée des données de Wikidata http://tools.wmflabs.org/reasonator/ Reasonator
  • 64. 64 Exemple de réutilisation Les musées de France Mashup en reliant une dizaine de jeux de données dont Wikidata, data.bnf.fr, Dbpedia, data.gouv.fr, Wikimedia Commons, Instagram, Twitter… http://labs.antidot.net/museesdefrance/