La Toile des Fictions. Serge Abiteboul

1 242 vues

Publié le

Intervention de Serge Abiteboul au séminaire VeriFiction du 15 mai 2013

0 commentaire
0 j’aime
Statistiques
Remarques
  • Soyez le premier à commenter

  • Soyez le premier à aimer ceci

Aucun téléchargement
Vues
Nombre de vues
1 242
Sur SlideShare
0
Issues des intégrations
0
Intégrations
282
Actions
Partages
0
Téléchargements
11
Commentaires
0
J’aime
0
Intégrations 0
Aucune incorporation

Aucune remarque pour cette diapositive

La Toile des Fictions. Serge Abiteboul

  1. 1. La toile des fictionsetles connaissancesSerge AbiteboulINRIA & ENS CachanConseil national du numérique & Académie des sciences5/18/2013 1La toile des fictions
  2. 2. • Les personnages de ce roman étant réels, touteressemblance avec des individus imaginaires, seraitfortuite. Raymond Queneau (Le Dimanche de la vie)• … lhistoire est entièrement vraie, puisque je laiimaginée dun bout à lautre. Boris Vian (LÉcume desjours)• Mettons-nous bien daccord, mes drôles : cespersonnages et cette compagnie sont fictifsabsolument ! Ils nexistent pas, nont jamais existé, nese permettront jamais dexister. Et cest bien dommage! San-Antonio (Les Vacances de Bérurier)5/18/2013 La toile des fictions 2
  3. 3. Préambule• J’ai découvert ce sujet très récemment endiscutant avec Yannick Maignien– Je n’ai encore rien fait de sérieux là-dessus• Pour en savoir plus sur mon travail– Web: abiteboul.com– Blog: http://abiteboul.blogspot.fr/5/18/2013 La toile des fictions 3
  4. 4. Organisation• Introduction• Créer une ontologie• Aligner des ontologies• Données probabilistes• Quelques aspects en vrac• Séparer le vrai du faux• Conclusion5/18/2013 La toile des fictions 4
  5. 5. INTRODUCTION5/18/2013 La toile des fictions 5
  6. 6. La vérité dans/sur la Toile• Erreurs• Exagérations• Mensonges• Omissions• Manipulations• Délires• Folies• …• Fiction• …• Où est la vérité? Quelle vérité ?– Qui est le gouvernement légitime en Syrie ?– Est-ce qu’Elvis est mort ?– Peut-on voler sur un balai ? Et dans l’univers de J. K. Rowling ?Une informationprise au hasard surla toile n’a aucunsens avec une forteprobabilité,Et si elle en a un, ilest faux avec uneforte probabilité5/18/2013 La toile des fictions 6
  7. 7. La fiction sur la Toile• De plus en plus de fiction sur la toile• Romans et toutes sortes de textes enCreativecommons– E.g: fanfics(récits que des fans écrivent pourprolonger, amender ou même totalement transformerun roman, un manga, une série télévisée, un film, unjeu vidéo…)• D’autres références que dans le monde réel– Personnages, lieux….• Extraire les connaissances du Web, c’est aussiretrouver ces références5/18/2013 La toile des fictions 7
  8. 8. HIRONDELLES SUR LE WEBAVEC LUC BLANCHARD, EDITION STUDIO GRAPHJe prendrai parfois mes exemples de l’extraction deconnaissances d’un roman disponible sur la toile5/18/2013 La toile des fictions 8
  9. 9. Le mélange banal : réalité et fiction• Une fiction– Une énigme policière inventée– Personnages, évènements, lieux fictifs– La fin du roman se passe dans le futur• Des lieux, personnages, évènements vrais– Autour de la ville de Sèvres– Simone Hagnauer – Hirondelle– L’histoire oubliée de La maison d’enfants de Sèvres5/18/2013 La toile des fictions 9
  10. 10. CONSTRUIRE UNE ONTOLOGIE5/18/2013 La toile des fictions 10
  11. 11. Extraction manuelle sur la toileAjouter manuellement des annotations sémantiques dansdes langages formels sur les ressources de la ToileFreebase: Freebase is an open, Creative Commonslicensed graph database with millions of entitiesLinked data: publish RDF links between Web dataGros succès mais limites– Sur la toile, les gens aiment écrire du texte pas éditer desontologies5/18/2013 La toile des fictions 11
  12. 12. Extraction manuelle• C’est ce qui se passe dans des domaines scientifiquesou industriels• Et dans le domaine de la fiction ?– Personnage fictif– Personnage réel – yago:jean_martin– Probable lieu réel – gmap:sèvres-france– Possible personnage réel : yanouche@globenet.org• Un écrivain voudra-il passer du temps à annotersémantiquement son roman ?• Qui d’autre ?5/18/2013 La toile des fictions 12
  13. 13. Extraction automatique deconnaissances de la ToileA partir de tables en HTML et pdfA partir de données disponibles de formulaires– Énormément de données structurées disponiblesA partir de textes (en HTML)– Des sources comme Wikipedia contiennentbeaucoup de connaissance– Exemple : Yago18/05/2013 13La toile des fictions
  14. 14. Extraction de texte : Yago• E.g., thesis of Fabian Suchanek• YAGO is a knowledge base developed at the MaxPlanck Institute for Computer Science inSaarbrücken• As of 2012, YAGO has knowledge of more than 10million entities and contains more than 120million facts about these entities• The information in YAGO is automatically extrac-ted from Wikipedia, WordNet, and GeoNames• The accuracy of YAGO was manually evaluated tobe above 95% on a sample of facts5/18/2013 La toile des fictions 14Mes excuses pour lestextes en anglais iciou là
  15. 15. Extraction de texte : Yago• E.g., thesis of Fabian Suchanek• YAGO is a knowledge base developed at the MaxPlanck Institute for Computer Science inSaarbrücken• As of 2012, YAGO has knowledge of more than 10million entities and contains more than 120million facts about these entities• The information in YAGO is automatically extrac-ted from Wikipedia, WordNet, and GeoNames• The accuracy of YAGO was manually evaluated tobe above 95% on a sample of facts5/18/2013 La toile des fictions 15
  16. 16. Extraction from text : difficileNatural language processing is complex anderror proneSimpler if we already have an ontology with lotsof instances– Possible to semi-automatically wrap new datasources using overlaps with already known data– Use specific techniques adapted to the particulardomain– Heavy use of statistics5/18/2013 16La toile des fictions
  17. 17. ALIGNER DES ONTOLOGIES5/18/2013 La toile des fictions 17
  18. 18. Hirondelles sur la ToileOntologieuniverselleContexte du roman: plusieurs ontologies5/18/2013 La toile des fictions 18Ontologieperso deSergeAbiteboulOntologiede laMaisond’enfantsde Sèvres
  19. 19. Alignement d’ontologies[SuchanekAbiteboulSenellart, PVLDB Journal 201O]Aligner les entités/relations du texte avec ces ontologies– La ville de Sèvres– Le directeur d’Espace dans le roman, dans la réalité, dansles contacts de Serge A.Le système ParisAlignement des conceptsAlignement des relationsDétecter la fonctionalité des relationsEvaluer les probabilitésDélicat : précision et rappel (recall)5/18/2013 19La toile des fictions
  20. 20. Difficulté: précision et rappel (recall)• Exemple « identifier un personnage duroman »• Trop de précision : on va en rater parce que leroman est imprécis où qu’il prend des libertésavec la réalité• Trop de témérité : on va identifier à tord despersonnages du livre• Incertain• Quantifier l’incertain – les probabilités5/18/2013 La toile des fictions 20
  21. 21. DONNÉES PROBABILISTES5/18/2013 La toile des fictions 21
  22. 22. Bases de données probabilistes• E.g., thèse de Pierre Senellart• Faits avec des probabilités– Alice est à Londres 98%– et Bob aussi 98%– Mais les deux faits sont indépendants• Faits conditionnés par des évènements– Alice est à Londres si x est vrai (x est 98%)– Bob aussi si x est vrai– Sue est à Edinbourg si x est faux5/18/2013 La toile des fictions 22
  23. 23. Calculer des réponses• Répondre aux requêtes dans ce contexte– Faits certains– Faits possibles– Faits avec probabilité 42%?• Complexe sur de gros volumes de données• Techniques d’échantillonnage• Raisonner sur des bases de connaissancesprobabilistes– pas simple• Sujet de recherche5/18/2013 La toile des fictions 23
  24. 24. QUELQUES ASPECTS EN VRAC5/18/2013 La toile des fictions 24
  25. 25. Aspects spatio-temporels• Résoudre la localisation dans le texte• Résoudre la temporalité dans le texte• L’ontologie peut évoluer– Vous changez d’adresse, d’emploi– Les identités peuvent changerDes pays fusionnent (Allemagne), se découpent(Yougoslavie)– Les lois changent« un mariage unit un homme et une femme »5/18/2013 La toile des fictions 25
  26. 26. Erreurs dans les schémasdes ontologies• En plus d’erreurs sur les faits– Alice est à Paris alors qu’elle est en fait à Londres• Des erreurs sur les schémas – les règles– On ne peut pas être enseignant et étudiant à lafois – des contrexemples– Les personnes sont des véhicules – quasi que descontrexemples– Une seule règle fausse peut générer des millionsde faits erronés5/18/2013 La toile des fictions 26
  27. 27. Cœur du problème dans la fiction:séparer réalité ou fiction• Personnages réels ou pas• Evènements réels ou pas• Lieux réels ou pas• …• Et toute la zone grise– Peut-être réel– Aurait pu exister– Improbable– Impossible…5/18/2013 La toile des fictions 27
  28. 28. Dans un mondeoù rien n’est certain• Mondes possibles : le coupable du deuxièmemeurtre pourrait être M. X ou M. Y – le romanlaisse le doute• Mondes parallèles : dans le roman, TadeoAndo a construit un musée sur l’Île Seguin– Ce n’est pas juste faux, c’est un autre monde5/18/2013 La toile des fictions 28
  29. 29. SÉPARER LE VRAI DU FAUX5/18/2013 La toile des fictions 29
  30. 30. Raisonner en monde ouvert…• Dans un monde ouvert où tout est positif, tout pourraitêtre vrai• Le monde des moteurs de recherche– Une référence à une page indique de l’intérêt – même sivous dites « tout faux »• On ne passe pas son temps à dire :– Je ne suis jamais allé au Chili– Je ne suis pas un serial killer…• Plus rarement– voici la liste complète de tous les pays où je suis allé• Une bonne source de faits négatifs: les fonctions5/18/2013 La toile des fictions 30
  31. 31. Contradictions• Des sources de données & des faits• S13 dit qu’Alice est à Paris– Elle n’est pas à Rome, Madrid…• S12 dit qu’Elvis est vivant– Il n’est pas mort• En votant on estime la vraisemblance des faits• Du coup, on estime la qualité des sources (tauxd’erreur)• Du coup, on peut même estimer la probabilité de faitsnouveaux5/18/2013 La toile des fictions 31
  32. 32. Travail sur la corroboration[GallandAbiteboulMarianSenellart, WSDM 2010]• Des sources de données & des faits• Peut-on faire mieux que le vote ?• On peut faire mieux– En estimant la probabilité d’erreur des sources– En réévaluant la probabilité d’erreur des faits– …– Jusqu’à arriver à un point fixe• Plus grosse difficulté : la complexité5/18/2013 La toile des fictions 32
  33. 33. Améliorations possibles• Déterminer l’expertise dans des domainesparticuliers– Sources spécialisées• Déterminer les corrélations entre des sources– Si S4 dit toujours la même chose (y compris pourles erreurs) que S12, ce n’est plus de lacorroboration mais peut-être des copies5/18/2013 La toile des fictions 33
  34. 34. Vraisemblance1. Obama assiste à ma présentation2. Obama a assisté à ma dernière présentation3. Obama va venir à la fin de ma présentation5/18/2013 La toile des fictions 34
  35. 35. Séparer le vrai du fauxOn peut donc déduire (avec forte probabilité) qu’unfait est faux pour pas mal de raisons• Parce qu’il contredit d’autres faits plus probables• Parce qu’il n’y a pas assez de raisons de le croire• Parce qu’il est absent de sources assez complètessur ce sujet• Parce qu’il est trop improbable• Parce que le locuteur est un menteur chronique• …5/18/2013 La toile des fictions 35
  36. 36. CONCLUSION5/18/2013 La toile des fictions 365/18/2013
  37. 37. L’acquisition de connaissances• Dépend du texte– De sa nature : roman, fanfic, etc.– De ses hypothèses : Dans le monde de HarryPotter, on peut voler avec un balai– De sa place dans une série comme Le Poulpe• Dépend du lecteur– De ses connaissances préalables– De ses intérêts– De ses biais/croyances personnels5/18/2013 La toile des fictions 37
  38. 38. Le biais de la fiction• Par défaut les personnages sont inventés peut-être« inspirés »• On est éventuellement dans une logique particulière• On est dans le monde de l’auteurSur la toile : on aimerait avoir des fléchage des sites en« fiction », « bidon », « paranoïa »… « HP fanfic »…– Ces annotations simplifieraient l’analyse– Pourraient varier selon la personne qui annoteLa toile des fictions 38
  39. 39. 5/18/2013 395/18/2013 39Merci !5/18/2013 39La toile des fictions

×