[ « Wikipédia, objet scientifique non identifié » (ISCC, Paris) – 05 juin 2013 ]Collecter des données sur Wikipédia : appl...
2Qua-t-on fait avec Wikipédia ? (1/2)• Contexte général :• Usage de plus en plus fréquent du contenu de Wikipédiadans les ...
3Qua-t-on fait avec Wikipedia ? (2/2)• Ce qui est présenté ici = travail dévaluation.• Cinq étapes principales :1.Identifi...
4Comment pensait-on pouvoirprocéder ?• En exploitant les informations structurées.
5Étape 1 : identification des articles• Comparaison :• Interrogation dune copie de base de donnéesWikipédia (via les dumps...
6Étape 2 : extraction des donnéesdepuis le texte (1/2)• Accès au texte des articles parURL dutype http://fr.wikipedia.org/...
7Étape 2 : extraction des donnéesdepuis le texte (2/2)• Lanalyse du texte se fait par la mise en œuvredun jeu dexpressions...
8Étape 3 : inventaire des difficultésrencontrées (1/2)• Une minorité darticles dispose dunInfobox.• Linformation est donc ...
9Étape 3 : inventaire des difficultésrencontrées (2/2)• Lextraction doit être mise en œuvre sur le texte par essais eterre...
10Étape 4 : évaluation de la qualitéde lextraction
11Étape 5 : évaluation de la fiabilitédes données (1/3)• Comparaison des données extraites de Wikipédiaavec des données de...
12Étape 5 : évaluation de la fiabilitédes données (2/3)• Création dune liste fusionnée (938 lignes)• Différences de valeur...
13Étape 5 : évaluation de la fiabilitédes données (3/3)• A faire : automatiser la détection des données(potentiellement) e...
14Que conclure ? (1/2)• Le projet Dbpedia, version sémantique deWikipédia, donne une image de structuration etdexhaustivit...
15Que conclure ? (2/2)• Lexploitation du texte des articles peutheureusement être abordée avec des techniquessimples (jeu ...
16Quelles sont les perspectives ?• Lintérêt dutiliser des outils spécialisés pourlextraction dentités nommées pourrait êtr...
17Des questions ?Merci pour votre attention.Des questions ?
18Contact• Dr Ir Robert Viseur.• Assistant @ UMONS.• Ingénieur de recherche Senior @ CETIC.• Courriels :• robert.viseur@um...
Prochain SlideShare
Chargement dans…5
×

Collecter des données sur Wikipédia : application à la création d'une base de données biographiques

563 vues

Publié le

Publié dans : Technologie, Business
0 commentaire
0 j’aime
Statistiques
Remarques
  • Soyez le premier à commenter

  • Soyez le premier à aimer ceci

Aucun téléchargement
Vues
Nombre de vues
563
Sur SlideShare
0
Issues des intégrations
0
Intégrations
146
Actions
Partages
0
Téléchargements
0
Commentaires
0
J’aime
0
Intégrations 0
Aucune incorporation

Aucune remarque pour cette diapositive

Collecter des données sur Wikipédia : application à la création d'une base de données biographiques

  1. 1. [ « Wikipédia, objet scientifique non identifié » (ISCC, Paris) – 05 juin 2013 ]Collecter des données sur Wikipédia : application à lacréation d’une base de données biographiquesDr Ir Robert Viseur
  2. 2. 2Qua-t-on fait avec Wikipédia ? (1/2)• Contexte général :• Usage de plus en plus fréquent du contenu de Wikipédiadans les domaines techniques et scientifiques(classification de documents, REN, création dURI, etc.).• Plus de 22 mille résultats pour la requête « ExploitingWikipédia » dans Google Scholar (scholar.google.fr).• Contexte interne :• Demande dune entreprise pour laider...• à créer dune base de données biographique depuisWikipédia (personnalités belges).• Recherche menée principalement au CETIC, avec lesoutien de lUMONS (FPMs).
  3. 3. 3Qua-t-on fait avec Wikipedia ? (2/2)• Ce qui est présenté ici = travail dévaluation.• Cinq étapes principales :1.Identification des articles pertinents.2.Extraction des données depuis le texte.3.Inventaire des difficultés rencontrées.4.Évaluation de la qualité de lextraction.5.Évaluation de la fiabilité des données (en cours).
  4. 4. 4Comment pensait-on pouvoirprocéder ?• En exploitant les informations structurées.
  5. 5. 5Étape 1 : identification des articles• Comparaison :• Interrogation dune copie de base de donnéesWikipédia (via les dumps publics).• Accès par crawl des catégories (portail Belgique ->Personnalités belges) vs...• Accès par requête SPARQL (exploitation de lapropriété « birthPlace » dans DBPedia).
  6. 6. 6Étape 2 : extraction des donnéesdepuis le texte (1/2)• Accès au texte des articles parURL dutype http://fr.wikipedia.org/w/index.php?action=raw&title=xxxxx.• Extraction du texte de larticleet de lInfobox (si larticle enpossède un).• Extraction depuis le texte desdates de naissance et dedécès, ainsi que desprofessions.
  7. 7. 7Étape 2 : extraction des donnéesdepuis le texte (2/2)• Lanalyse du texte se fait par la mise en œuvredun jeu dexpressions régulières exploitant destournures de phrases typiques.• Exemples : « né à ... », « naquit à ... », « estun ... »,  etc.• Les outils standards dextraction dentitésnommées ou détiquetage grammatical nont pasété utilisés.
  8. 8. 8Étape 3 : inventaire des difficultésrencontrées (1/2)• Une minorité darticles dispose dunInfobox.• Linformation est donc moinsstructurée quelle ne peut le semblerau départ.• Les propriétés des Infobox ne sontelles-mêmes pas totalementstandardisées.• Exemple : les dates de naissanceapparaissent avec différents labels(→ folksonomie).?
  9. 9. 9Étape 3 : inventaire des difficultésrencontrées (2/2)• Lextraction doit être mise en œuvre sur le texte par essais eterreurs en exploitant des tournures de phrases typiques.• Le format de date est un bel exemple de lhétérogénéitéconstatée dans le formatage de linformation au sein delencyclopédie.
  10. 10. 10Étape 4 : évaluation de la qualitéde lextraction
  11. 11. 11Étape 5 : évaluation de la fiabilitédes données (1/3)• Comparaison des données extraites de Wikipédiaavec des données de référence.
  12. 12. 12Étape 5 : évaluation de la fiabilitédes données (2/3)• Création dune liste fusionnée (938 lignes)• Différences de valeurs sur 14,4% des lignes.• → Problème des homonymies...• → Vérification manuelle...• Travail de vérification fait pour les 250 premières lignes.• Fiabilité : 98,4%.• Erreurs dextraction : 2,4%.
  13. 13. 13Étape 5 : évaluation de la fiabilitédes données (3/3)• A faire : automatiser la détection des données(potentiellement) erronées• Moyen : utiliser les critères de qualité des articlesdans Wikipédia.• Exemples : nombre de mots, nombre déditeursdistincts, nombre déditions, etc.• Voir (Blumenstock, 2008), (Chevalier et al., 2010),(Stvilia et al., 2005), (Wilkinson et Huberman,2007), etc.
  14. 14. 14Que conclure ? (1/2)• Le projet Dbpedia, version sémantique deWikipédia, donne une image de structuration etdexhaustivité. Cette image est partiellementtrompeuse.• Wikipédia est un projet basé sur les contributionsdes utilisateurs, et souffre encore dun manque dunmanque de structuration et homogénéisation pouren faciliter lexploitation.• Dbpedia reflète cette caractéristique. Dbpediareste cependant une excellente base pour desopérations de « linked data ».
  15. 15. 15Que conclure ? (2/2)• Lexploitation du texte des articles peutheureusement être abordée avec des techniquessimples (jeu dexpressions régulières) grâce à lastructure typique des articles et des phrases.• Résultat obtenu :• Précision : ~90%.• Rappel : ~80%.• Après une évaluation partielle, la fiabilité desdonnées paraît satisfaisante (98,4%).
  16. 16. 16Quelles sont les perspectives ?• Lintérêt dutiliser des outils spécialisés pourlextraction dentités nommées pourrait êtreévalué.• Nous devons approfondir linfluence de laformulation des requêtes SPARQL sur lesvolumétries.• Nous avons démarré un travail complémentaire surla fiabilité des données présentes dans Wikipedia.
  17. 17. 17Des questions ?Merci pour votre attention.Des questions ?
  18. 18. 18Contact• Dr Ir Robert Viseur.• Assistant @ UMONS.• Ingénieur de recherche Senior @ CETIC.• Courriels :• robert.viseur@umons.ac.be.• robert.viseur@cetic.be.• Téléphone : 0032 (0) 479 66 08 76.• Plus dinfos : www.robertviseur.be.Cette présentation est diffusée sous licence « CC-BY-ND ».

×