DBpédia en français est un projet d'extraction de données de Wikipédia en français.
Les données sont publiées au format RDF sur le Web de données (Linked Data) afin d'être librement réutilisées par des applications.
Présentation pour la journée de lancement de Sémanticpédia, le 19 Novembre 2012.
2. ● Extraction de données depuis Wikipédia en
français
● Membre du comité d'internationalisation
(12 chapitres)
http://dbpedia.org/Internationalization
5. Données extraites de Wikipédia
48.861073 2.335784
Catégorie:
Musée_égyptologique
longitude
latitude
Infobox
Musée catégorie
modèle
Musée
Date du Louvre
10/08/1793
ouverture ville
pays
adresse
99, rue de Rivoli
75001 Paris Paris
France
6. Données extraites de Wikipédia
48.861073 2.335784
Catégorie:
Musée_égyptologique
longitude
latitude
Infobox
Musée catégorie
modèle
Musée du Louvre
Date
10/08/1793
ouverture ville
pays
adresse
99, rue de Rivoli
75001 Paris Paris
pays code insee
75056
région
France
Île-de-France
7. Données extraites de Wikipédia
48.861073 2.335784
Catégorie:
Musée_égyptologique
longitude
latitude
Infobox
Musée catégorie
modèle
Musée du Louvre
Date
10/08/1793
ouverture ville
pays
adresse
99, rue de Rivoli
75001 Paris Paris
pays code insee
75056
région
France
pays
Île-de-France
8. Nommage des ressources
Sujet des articles de DBpedia :
Musée du Louvre
http://fr.dbpedia.org/resource/[Nom_Page]
dbFr:
Propriétés extraites textuellement :
pays http://fr.dbpedia.org/property/[propriété]
dbFr-prop:
9. Représentation RDF
● RDF : Resource Description Format
standard du W3C pour la représentation de données
structurées
● Triplet : arrête du graphe
Musée du Louvre ville Paris
dbpedia-fr:Musée_du_Louvre dbpediaFr-prop:ville dbpedia-fr:Paris
(Sujet) (predicat) (objet)
10. Mais aussi :
● Vocabulaire normalisé
(Ontologie DBpedia)
● URI stables
11. Vocabulaire normalisé
Problèmes soulevés par l'extraction textuelle
● Mêmes termes, plusieurs sens
Musée du Louvre pays France
Raymond pays France
Poulidor
● Différents termes avec le même sens
Emmanuel Kant naissance
22/04/1724
Le Corbusier date de naissance
06/10/1887
12. Vocabulaire normalisé
Vocabulaire défini collaborativement sur
http://mappings.dbpedia.org
Ontologie :
● Hiérarchie de classes
http://dbpedia.org/ontology/Museum
● Propriétés
http://dbpedia.org/ontology/city dbo:
Mappings : Infobox dbo :
infobox Musée rdf:type Museum
Musée du Musée du
Louvre Louvre
ville dbo:city
Paris Paris
13. URI stables
● Lorsqu'une page est renommée
« Le Louvre » « Palais du Louvre »
dbFr :Le_Louvre dbFr :Palais_du_Louvre
● Introduction d'URI ne indépendante du titre
http://fr.dbpedia.org/resourceById/469958
dbFrId:
dbFrId : dbFrId :
469958 469958
owl: owl:
sameAs sameAs dbFr :
dbFr : Palais_du_Louvre
Le_Louvre
14. Volume des données
fichier nbr de triplets fichier nbr de triplets
correspondance avec 7574361 liens interlangues 1876807
les pages wikipédia liens entre pages 60849851
id page wikipédia 2863425
titre des pages 2524787 redirections 1214339
extraction d'infobox 16579168 homonymie 298634
textuelle liens vers 3779203
extraction d'infobox 2092711 catégories
normalisée categories 201230
types des instances 2118305 liens externes 2140229
images 1649470
En total 130 millions de triplets.
(soit le second chapitre en taille).
16. Accès aux données
● Téléchargement de l'ensemble des données
http://fr.dbpedia.org/download/
(licence: CC – BY – SA)
http
● Par déréférencement
● SPARQL SPARQL
http://fr.dbpedia.org/sparql
18. SPARQL
● Langage de requête sur des données RDF
● Standard du W3C
● Accessible à http://fr.dbpedia.org/sparql
19. Exemple SPARQL 1
Musées à Paris
SELECT DISTINCT ?m WHERE {
Musée ?m rdf:type dbpedia-owl:Museum .
?m dbpedia-owl:city dbpedia-fr:Paris .
type }
?m
ville
Paris
20. Exemple SPARQL 2
Musées dans une ville d'Île de
France
Musée SELECT DISTINCT ?m?ville WHERE {
?m rdf:type dbpedia-owl:Museum .
type ?m dbpedia-owl:city ?ville .
?ville dbpedia-owl:region dbpedia-fr:Île-de-France
}
?m
ville
?ville
région
Île-de-France
21. Exemple SPARQL 3
Dans quelles villes y a-t-il des
Catégorie: musées égyptologiques ?
Musée_égyptologique Combien ?
Musée select ?ville count(distinct ?m) as ?nb where {
sujet ?m rdf:type dbpedia-owl:Museum .
type
?m dbpedia-owl:city ?ville .
?m dcterms:subject <http://fr.dbpedia.org/
?m resource/Catégorie:Musée_égyptologique>
} group by ?ville order by desc(?nb)
ville
?ville
22. À venir
● Outils
● Lookup en français
Recherche de termes par mot clés
● Spotlight en français
Reconnaissance d'entités nommées dans un texte
● Historisation des données