Aussenac ri ia-2015

688 vues

Publié le

0 commentaire
1 j’aime
Statistiques
Remarques
  • Soyez le premier à commenter

Aucun téléchargement
Vues
Nombre de vues
688
Sur SlideShare
0
Issues des intégrations
0
Intégrations
56
Actions
Partages
0
Téléchargements
13
Commentaires
0
J’aime
1
Intégrations 0
Aucune incorporation

Aucune remarque pour cette diapositive

Aussenac ri ia-2015

  1. 1. Ontologies et accès aux contenus, un exemple de fertilisation croisée entre SIG et IA Nathalie Aussenac-Gilles (IRIT – CNRS, Toulouse, France) aussenac@irit.fr
  2. 2. Plan • Systèmes d’information et IA: différences fondatrices – Un point de vue : la gestion des textes – Approches et problématiques • Convergences – Évolutions dans chaque domaine – Un point de rencontre : données <-> connaissances • Cas de la recherche d’information sémantique – Une vue RI : Représenter un texte par un graphe sémantique – Une vue IA : les modèles de RTO – Une fertilisation à cultiver pour aller plus loin : ex des relations sémantiques 2Fertilisation croisée entre SIG et IA27/05/2015 - Aussenac
  3. 3. SI, IA : Différences fondatrices « Si tu ne sais pas où tu vas, regarde d’où tu viens » • Des sous-disciplines de l’informatique • Questions des recherche et problématiques propres • Applications différentes • Ma lorgnette : les textes • Données, Informations • vs connaissances 27/05/2015 - Aussenac Fertilisation croisée entre SIG et IA 3 Alors que les points de convergence entre Systèmes d'information et Intelligence Artificielle semblent de plus en plus nombreux, les frontières entre ces deux domaines de l'informatique sont de moins en moins nettes, tant sur le terrain des applications que celui des questions de recherche. Aujourd'hui, faire progresser la recherche d'information, répondre à des questions précises, analyser des données de réseaux sociaux ou encore adapter les réponses aux usages et préférences des utilisateurs sont des questions étudiées par le traitement automatique des langues, la recherche d'information et les systèmes d'information du web, l'ingénierie des connaissances, ou le web sémantique, mais aussi par les mathématiciens et statisticiens. Or une réponse opérationnelle fait souvent appel à tous ces domaines.
  4. 4. SI, IA : Différences fondatrices Les textes dans les SIG • Des données : Documents comme fichiers, mots comme Chaînes de caractères • Statut : sources d’information, traces d’activités, restitution de traitements • Traitements 27/05/2015 - Aussenac Fertilisation croisée entre SIG et IA 4 Alors que les points de convergence entre Systèmes d'information et Intelligence Artificielle semblent de plus en plus nombreux, les frontières entre ces deux domaines de l'informatique sont de moins en moins nettes, tant sur le terrain des applications que celui des questions de recherche. Aujourd'hui, faire progresser la recherche d'information, répondre à des questions précises, analyser des données de réseaux sociaux ou encore adapter les réponses aux usages et préférences des utilisateurs sont des questions étudiées par le traitement automatique des langues, la recherche d'information et les systèmes d'information du web, l'ingénierie des connaissances, ou le web sémantique, mais aussi par les mathématiciens et statisticiens. Or une réponse opérationnelle fait souvent appel à tous ces domaines. Rechercher des fichiers Stocker, archiver Représentations optimisées : Indexer Documenter Méta-données ... Systèmes d’information … Afficher, mettre en forme, éditer
  5. 5. SI, IA : Différences fondatrices Les textes en IA > la langage en IA • Approche symbolique • Langage et raisonnement, ref. linguistique • La logique comme modèle cognitif 27/05/2015 - Aussenac Fertilisation croisée entre SIG et IA 5 Alors que les points de convergence entre Systèmes d'information et Intelligence Artificielle semblent de plus en plus nombreux, les frontières entre ces deux domaines de l'informatique sont de moins en moins nettes, tant sur le terrain des applications que celui des questions de recherche. Relation de causalité Valeurs graduelles : plus les convergences sont nombreuses, moins les frontières sont nettes Formalisation : Pour tout p et f, Convergence(p) & nombreuses (p) & frontière(f) > non nette (f) Computational linguistics vs NLP Symboles, Connaissances (prédicats, règles, faits) Description, analyses manuelles, corpus « artificiels »
  6. 6. Deux domaines dans l’informatique Recherche d’information BD SIAD Recommandations Gestion documents … 27/05/2015 - Aussenac Fertilisation croisée entre SIG et IA 6 Logiques Base de connaissances Décision et incertitude … TAL Ingénierie des connaissances
  7. 7. Plan • Systèmes d’information et IA: differences fondatrices – Un point de vue : la gestion des textes – Approches et problématiques • Convergences – Évolutions dans chaque domaine – Un point de rencontre : données <-> connaissances • Cas de la recherche d’information sémantique – Une vue RI: ex de la thèse de M. Baziz – Une vue IA: les modèles de RTO – Une fertilisation à cultiver pour aller plus loin : ex des relations sémantiques 7Fertilisation croisée entre SIG et IA27/05/2015 - Aussenac
  8. 8. SI, IA : exemples d’évolutions Les textes dans les SIG • Chercher des réponses précises • Affichage et accès sur le web • Mettre en relation : hypertexte 27/05/2015 - Aussenac Fertilisation croisée entre SIG et IA 827/05/2015 - Aussenac Fertilisation croisée entre SIG et IA 8 Alors que les points de convergence entre Systèmes d'information et Intelligence Artificielle semblent de plus en plus nombreux, les frontières entre ces deux domaines de l'informatique sont de moins en moins nettes, tant sur le terrain des applications que celui des questions de recherche. <partie 1 > Aujourd'hui, faire progresser la recherche d'information, répondre à des questions précises, analyser des données de réseaux sociaux ou encore adapter les réponses aux usages et préférences des utilisateurs sont des questions étudiées par le traitement automatique des langues, la recherche d'information et les systèmes d'information du web, <a href = « http:// … »>l'ingénierie des connaissances </a>, ou le web sémantique, mais aussi par les mathématiciens et statisticiens. </partie1> Or une réponse opérationnelle fait souvent appel à tous ces domaines. Dissocier forme et contenu Découper, structurer, étiqueter, baliser Représentations sémantiques : Index sémantiques Documenter des fragments Méta-données ... Ingénierie des connaissances… Fonctions « cognitives » plus complexes … intelligence ?
  9. 9. SI, IA : exemples d’évolutions Les textes en IA : le succès du TAL • Sémantique formelle • TAL à base de règles linguistiques : analyses syntaxiques • Plus de corpus sur le web : TAL statistique • Plus de ressources, lexiques, dictionnaires … • Apport du Machine Learning 27/05/2015 - Aussenac Fertilisation croisée entre SIG et IA 9 Alors que les points de convergence entre Systèmes d'information et Intelligence Artificielle semblent de plus en plus nombreux, les frontières entre ces deux domaines de l'informatique sont de moins en moins nettes, tant sur le terrain des applications que celui des questions de recherche. <partie 1 > Aujourd'hui, faire progresser la recherche d'information, répondre à des questions précises, analyser des données de réseaux sociaux ou encore adapter les réponses aux usages et préférences des utilisateurs sont des questions étudiées par le traitement automatique des langues, la recherche d'information et les systèmes d'information du web, <a href = « http:// … »>l'ingénierie des connaissances </a>, ou le web sémantique, mais aussi par les mathématiciens et statisticiens. </partie1> Or une réponse opérationnelle fait souvent appel à tous ces domaines. Corriger, analyser, étiqueter automatiquement Résumer, traduire Construire des arbres syntaxiques, sémantiques
  10. 10. Le défi du web sémantique : exemple du site de la BBC 27/05/2015 - Aussenac Fertilisation croisée entre SIG et IA 10 Additional informations on web pages Situation in a taxonomy Close and similar animals Dynamic generation of the page content using various knowledge sourcesDefinition Properties Relevant BBC documents
  11. 11. Le défi du web sémantique : exemple du site de la BBC 27/05/2015 - Aussenac 11 Fert ilisa tion croi sée entr A life science taxonomy Semantic distance Dynamic generation of the page content using various knowledge sources The Semantic options to answer these needs - Unified representation - Standard meta-data - Ontologies - Formal definitions - Inference capabilities Rich and formal concept descriptions
  12. 12. Le défi du web sémantique : exemple du site de la BBC 27/05/2015 - Aussenac 12 Fert ilisa tion croi sée entr Dynamic “data semantisation” Semantic search Standard query language Dynamic generation of the page content using various knowledge sources Semantic annotation
  13. 13. • Ontologies and vocabularies for – Tagging videos and papers – Collecting additional information on the web – Providing synthetic information about wildlife • Ontologies – 6 main ontologies • wildlife ontology http://www.bbc.co.uk/ontologies/wildlife/2010-11-04.shtml 27/05/2015 - Aussenac 13 Fertilisation croisée entre Le défi du web sémantique : exemple du site de la BBC
  14. 14. Deux domaines dans l’informatique Recherche d’information BD SIAD Recommandations Gestion documents … 27/05/2015 - Aussenac Fertilisation croisée entre SIG et IA 14 Logique, représentation des connaissances Base de connaissances Décision et incertitude Ontologies TAL, … Ingénierie des connaissances Web sémantique Questions-réponses Apprentissage automatique Web des données, Entrepôts de données RDF Fouille de données RI sur le web Rapprochement entre données et connaissances
  15. 15. Plan • Systèmes d’information et IA: differences fondatrices – Un point de vue : la gestion des textes – Approches et problématiques • Convergences – Évolutions dans chaque domaine – Un point de rencontre : données <-> connaissances • Cas de la recherche d’information sémantique – Une vue RI: ex de la thèse de M. Baziz – Une vue IA: les modèles de RTO – Une fertilisation à cultiver pour aller plus loin : ex des relations sémantiques 15Fertilisation croisée entre SIG et IA27/05/2015 - Aussenac
  16. 16. 27/05/2015 - Aussenac Fertilisation croisée entre SIG et IA 16 Systèmes de Recherche d’Information sémantique M. Baziz (2004) ----- -- --- ---------- -- --- ----- Besoin en Information Représentation de la requête Analyse Appariement ---- --- -------- ----- -------- ---- --- -------- ----- -------- ---- --- -------- ----- -------- ---- --- -------- ----- -------- ---- --- -------- ----- -------- ---- --- -------- ----- -------- Collection de documents Representation des documents ---- --- -------- ----- -------- ---- --- -------- ----- -------- ---- --- -------- ----- -------- ---- --- -------- ----- -------- ---- --- -------- ----- -------- ---- --- -------- ----- -------- Indexation ---- --- -------- ----- -------- ---- --- -------- ----- -------- ---- --- -------- ----- -------- ---- --- -------- ----- -------- ---- --- -------- ----- -------- ---- --- -------- ----- -------- Documents sélectionnés hierarchies de concepts, thesaurus, ontologies, ... Représentation
  17. 17. Indexation • Qu’est ce qu’indexer ? – Associer des descripteurs à un document pour le retrouver [Calabretto et Prié,04] – Extraire d’un document une représentation caractéristique de son contenu [Baziz,05] • Nature variable des descripteurs : – RI non sémantique : descripteur = groupe de mots – RI sémantique : descripteur = élément d’ontologie 17 Le moteur manque de puissance en accélération et en vitesse de pointe. Phase moteur : accélération Phase véhicule : grande vitesse Motorisation Manque de puissance 27/05/2015 - Aussenac Fertilisation croisée entre SIG et IA
  18. 18. 27/05/2015 - Aussenac Fertilisation croisée entre SIG et IA 18 t1, t4 t7 t9 tk, Schéma général de l’approche des réseaux sémantiques pour représenter les documents [Baziz, 05] ontologie n1 n4 n3 n2 n6 n5 P13 P23 P12 P14 P42 P4i P2i Pmi P3m P2m Un réseau sémantique Projeter un document sur une ontologie Questions: • Comment identifier les noeuds ? • Comment les pondérer ? • Comment pondérer les liens entre eux ? un document • noeuds + arcs • noeuds = concepts • arcs = liens étiqueté entre concepts Réseau sémantique [Quillian, 68][Lee, 93]
  19. 19. Des réseaux sémantiques pour représenter les documents • Quelle ontologie ? – Wordnet …. qui n’est pas une ontologie mais un réseau lexical (Cf Guarino et Welty) • Projeter un document sur une ontologie 1. Détection et extraction de concepts candidats 2. Calcul de similarité entre concepts candidats 3. Construire le meilleur réseau (noyau) sémantique 1927/05/2015 - Aussenac Fertilisation croisée entre SIG et IA
  20. 20. Détection de concepts 20 Exemple1 : Exemple2 : Exemple3 : Solar energy C1 The structure of an organism 2 concepts formés de mots simples The abdominal external oblique muscle C1 C2 Ck=tjtj+1..tmConcept= Max CkText=t1t2...tn with m<=nk C3 Le concept le plus long formé par des mots successifs et appartenant à au moins une entrée dans l’ontologie est sélectionné: Le plus long (C3) est le bon. 27/05/2015 - Aussenac Fertilisation croisée entre SIG et IA
  21. 21. Problémtisation de l’indexation du point de vue du TAL et de l’IA • Articuler texte et représentation sémantique • Disposer de représentations – Sémantiquement valides et précises : ontologies validées – Vocabulaires riches mais moins formels : vocabulaires du LOD ou SKOS – De logiciels pour retrouver des éléments de modèle dans les textes • Etre conscient des distorsions, ambiguïtés entre mots / représentations / interprétation des représentations 27/05/2015 - Aussenac Fertilisation croisée entre SIG et IA 21 Indices linguistiques RTO
  22. 22. Meta-modèle de Ressource Termino-Ontologique 27/05/2015 - Aussenac Fertilisation croisée entre SIG et IA 22  Termes manipulés comme classes  Associer des informations (POS, langue, ..)  Meta-modèle OBIR (Reymonet 2007 et 2009)  Autres modèles LingInfo (Buitelaar et al. 2006) LexOnto [Cimiano et al. 2007] LexInfo [Buitelaar et al. 2009] LIR in NEON (Monteil Ponsoda et al., 2008, 2011)
  23. 23. TEXVIZ implémente ce modèle de RTO 23
  24. 24. Meta-modèle pour ontologies lexicales : le méta-modèle NEON 27/05/2015 - Aussenac 24Fertilisation croisée entre SIG et IA LIR : Linguistic Information Repository
  25. 25. the LEMON meta-model 27/05/2015 - Aussenac Fertilisation croisée entre SIG et IA 26  Main Classes of the meta- model: ● Lexical Entry ● Form: inflectional variant – Representation: written versions) of the entry ● Sense (one of the meanings of the lexical Entry) – Reference: actual meaning in the ontology
  26. 26. Questions à approfondir • Annotation sémantique – Quelle richesse des annotations ? Avec quel type de ressources ? Quelle fidélité au langage suivant les applications ? • Passage à l’échelle, complexité – Mieux étudié en RI – Quelle efficacité de l’ensemble du processus ? Sachant le coût de construction d’une ontologie, la place requise par des annotations sem etc – Jusqu’où enrichir les 27/05/2015 - Aussenac Fertilisation croisée entre SIG et IA 27
  27. 27. Plan • Systèmes d’information et IA: differences fondatrices – Un point de vue : la gestion des textes – Approches et problématiques • Convergences – Évolutions dans chaque domaine – Un point de rencontre : données <-> connaissances • Cas de la recherche d’information sémantique – Une vue RI: ex de la thèse de M. Baziz – Une vue IA: les modèles de RTO – Une fertilisation à cultiver pour aller plus loin : ex des relations sémantiques 28Fertilisation croisée entre SIG et IA27/05/2015 - Aussenac
  28. 28. Semantic relations, what do we mean? Research field • Domain Ontology engineering – Formal (logic, RDF, OWL …) and may lead to infer new knowledge – The relation is part of a network – May be shared or not • Semantic web – Independent triples – Publically available in data repositories with W3C Standard format – Connect triples with existing ones, with web ontologies What is a relation bot:Tree bot:has_part bot:Branch 27/05/2015 - Aussenac Fertilisation croisée entre SIG et IA 29 Trunk Has-part Root Plant Fonguscereals Has- part Root is_a Tree Has- part Branch bot:myTr ee bot:has- part bot:MyTre eRoots bot:Tree bot:has- part bot:Branch rdf:Type
  29. 29. Finding semantic relations, what are the issues? • Knowledge sources: – where can we find relations? • Extraction techniques – How can we identify them? • Representation – Which way do I represent this information? • Validation – What makes a relation representation valild? Relevant? 27/05/2015 - Aussenac Fertilisation croisée entre SIG et IA 30
  30. 30. Finding semantic relations, what are the issues? • Knowledge sources – text, human experts, existing “semantic” resources (lexicon, terminologies, ontologies, Linked Data vocabularies) – Domain specific vs general knowledge • Extraction techniques – “obvious” language regularities, known relations and classes (or entities) -> Patterns • Issues : domain dependence, domain coverage, variation and flexibility, rigidity (need to be regularly updated) • Research issues: automatic building by machine learning – “more implicit” language regularities, medium size corpora, open list of classes/entities -> supervised learning – Very large corpora, unexpected relations -> unsupervised learning 31Fertilisation croisée entre SIG et IA27/05/2015 - Aussenac
  31. 31. Pattern based relation extraction, an issue: variation • A tree comprises at least a trunk, roots and branches. • With branches reaching the ground, the willow is an ornamental tree. • The tree of the neighbor has been delimed. • He climbs on the branches of the tree. • This tree is wonderful. Its branches reach the ground. • Contains: very systematic pattern; the parts may be difficult to spot; enumeration > various parts • With: meronymy pattern only in some genres (such as catalogs, biology documents) • Delimed : Term and pattern are in the same word; requires background knowledge: delimed -> has_part branches (and branches are cut) • Of : Very ambiguous pattern; polysemy reduced in [verb N1 of N2] • Its : very ambiguous pattern; necessity to take into account two sentences 32Fertilisation croisée entre SIG et IA27/05/2015 - Aussenac
  32. 32. Relation extraction: learning relations from enumerative structures • Corpus – 745 enumerative structures from Wikipedia pages – 3 relation types: taxonomic, ontological_non_taxonomic, non_ontological • Classification task – Feature definition – Automatic evaluation of features – 3 algorithms are compared : SVM, MaxEntropy and baseline (majority) – Training of the 2 algorithms • Results – 82% f-measure for SVM – Best result with a 2 step process (ontological yes/no -> feature and then taxonomic yes/no) 27/05/2015 - Aussenac Fertilisation croisée entre SIG et IA 33
  33. 33. From intepretation to representation • A tree comprises at least a trunk, roots and branches. • With branches reaching the ground, the willow is an ornamental tree. • The tree of the neighbor has been delimed. • He’s climbing on the branches of the tree. • This tree is wonderful. Its branches reach the ground. Tree Trunk Branches Has-part Roots Ornamental Tree Willow Tree Has-part Branches Has-part Branches Has-part Branches Fertilisation croisée entre SIG et IA 3427/05/2015 - Aussenac Neighbor Tree Instance _of
  34. 34. Convergences SIG / IA • La complémentarité est encore plus diverse – Logique floue : réponses “approchées” à des requêtes – Réseaux bayésiens et classifieurs pour la recherche d’information (documents classés en fonction de la requête) – Exploitation des standards du W3C : entrepôts de données etc. – Passage à l’échelle des index sémantiques … 27/05/2015 - Aussenac Fertilisation croisée entre SIG et IA 35

×