SlideShare une entreprise Scribd logo
Ontologies et accès aux contenus,
un exemple de fertilisation
croisée entre SIG et IA
Nathalie Aussenac-Gilles
(IRIT – CNRS, Toulouse, France)
aussenac@irit.fr
Plan
• Systèmes d’information et IA: différences fondatrices
– Un point de vue : la gestion des textes
– Approches et problématiques
• Convergences
– Évolutions dans chaque domaine
– Un point de rencontre : données <-> connaissances
• Cas de la recherche d’information sémantique
– Une vue RI : Représenter un texte par un graphe sémantique
– Une vue IA : les modèles de RTO
– Une fertilisation à cultiver pour aller plus loin : ex des relations
sémantiques
2Fertilisation croisée entre SIG et IA27/05/2015 - Aussenac
SI, IA : Différences fondatrices
« Si tu ne sais pas où tu vas, regarde d’où tu viens »
• Des sous-disciplines de l’informatique
• Questions des recherche et problématiques propres
• Applications différentes
• Ma lorgnette : les textes
• Données, Informations
• vs connaissances
27/05/2015 - Aussenac Fertilisation croisée entre SIG et IA 3
Alors que les points de convergence entre Systèmes
d'information et Intelligence Artificielle semblent de plus en
plus nombreux, les frontières entre ces deux domaines de
l'informatique sont de moins en moins nettes, tant sur le terrain
des applications que celui des questions de recherche.
Aujourd'hui, faire progresser la recherche d'information,
répondre à des questions précises, analyser des données de
réseaux sociaux ou encore adapter les réponses aux usages et
préférences des utilisateurs sont des questions étudiées par le
traitement automatique des langues, la recherche
d'information et les systèmes d'information du web, l'ingénierie
des connaissances, ou le web sémantique, mais aussi par les
mathématiciens et statisticiens. Or une réponse opérationnelle
fait souvent appel à tous ces domaines.
SI, IA : Différences fondatrices
Les textes dans les SIG
• Des données : Documents comme fichiers, mots
comme Chaînes de caractères
• Statut : sources d’information, traces d’activités,
restitution de traitements
• Traitements
27/05/2015 - Aussenac Fertilisation croisée entre SIG et IA 4
Alors que les points de convergence entre Systèmes d'information et
Intelligence Artificielle semblent de plus en plus nombreux, les
frontières entre ces deux domaines de l'informatique sont de moins
en moins nettes, tant sur le terrain des applications que celui des
questions de recherche. Aujourd'hui, faire progresser la recherche
d'information, répondre à des questions précises, analyser des
données de réseaux sociaux ou encore adapter les réponses aux
usages et préférences des utilisateurs sont des questions étudiées par
le traitement automatique des langues, la recherche d'information et
les systèmes d'information du web, l'ingénierie des connaissances, ou
le web sémantique, mais aussi par les mathématiciens et
statisticiens. Or une réponse opérationnelle fait souvent appel à tous
ces domaines.
Rechercher des fichiers
Stocker, archiver
Représentations
optimisées : Indexer
Documenter
Méta-données
... Systèmes d’information … Afficher, mettre en
forme, éditer
SI, IA : Différences fondatrices
Les textes en IA > la langage en IA
• Approche symbolique
• Langage et raisonnement, ref. linguistique
• La logique comme modèle cognitif
27/05/2015 - Aussenac Fertilisation croisée entre SIG et IA 5
Alors que les points de convergence entre Systèmes
d'information et Intelligence Artificielle semblent de
plus en plus nombreux, les frontières entre ces deux
domaines de l'informatique sont de moins en moins
nettes, tant sur le terrain des applications que celui
des questions de recherche.
Relation de causalité
Valeurs graduelles : plus les convergences sont nombreuses,
moins les frontières sont nettes
Formalisation : Pour tout p et f, Convergence(p) & nombreuses (p) &
frontière(f) > non nette (f)
Computational
linguistics vs NLP
Symboles, Connaissances
(prédicats, règles, faits)
Description, analyses manuelles,
corpus « artificiels »
Deux domaines dans l’informatique
Recherche
d’information
BD
SIAD
Recommandations
Gestion
documents
…
27/05/2015 - Aussenac Fertilisation croisée entre SIG et IA 6
Logiques
Base de
connaissances
Décision et
incertitude
…
TAL
Ingénierie des
connaissances
Plan
• Systèmes d’information et IA: differences fondatrices
– Un point de vue : la gestion des textes
– Approches et problématiques
• Convergences
– Évolutions dans chaque domaine
– Un point de rencontre : données <-> connaissances
• Cas de la recherche d’information sémantique
– Une vue RI: ex de la thèse de M. Baziz
– Une vue IA: les modèles de RTO
– Une fertilisation à cultiver pour aller plus loin : ex des
relations sémantiques
7Fertilisation croisée entre SIG et IA27/05/2015 - Aussenac
SI, IA : exemples d’évolutions
Les textes dans les SIG
• Chercher des réponses précises
• Affichage et accès sur le web
• Mettre en relation : hypertexte
27/05/2015 - Aussenac Fertilisation croisée entre SIG et IA 827/05/2015 - Aussenac Fertilisation croisée entre SIG et IA 8
Alors que les points de convergence entre Systèmes d'information et
Intelligence Artificielle semblent de plus en plus nombreux, les frontières
entre ces deux domaines de l'informatique sont de moins en moins nettes,
tant sur le terrain des applications que celui des questions de recherche.
<partie 1 > Aujourd'hui, faire progresser la recherche d'information,
répondre à des questions précises, analyser des données de réseaux sociaux
ou encore adapter les réponses aux usages et préférences des utilisateurs
sont des questions étudiées par le traitement automatique des langues, la
recherche d'information et les systèmes d'information du web, <a href =
« http:// … »>l'ingénierie des connaissances </a>, ou le web sémantique,
mais aussi par les mathématiciens et statisticiens.
</partie1> Or une réponse opérationnelle fait souvent appel à tous ces
domaines.
Dissocier forme et contenu
Découper, structurer, étiqueter, baliser
Représentations sémantiques :
Index sémantiques
Documenter des fragments
Méta-données
... Ingénierie des connaissances…
Fonctions
« cognitives »
plus complexes …
intelligence ?
SI, IA : exemples d’évolutions
Les textes en IA : le succès du TAL
• Sémantique formelle
• TAL à base de règles linguistiques : analyses syntaxiques
• Plus de corpus sur le web : TAL statistique
• Plus de ressources, lexiques, dictionnaires …
• Apport du Machine Learning
27/05/2015 - Aussenac Fertilisation croisée entre SIG et IA 9
Alors que les points de convergence entre Systèmes d'information et
Intelligence Artificielle semblent de plus en plus nombreux, les frontières
entre ces deux domaines de l'informatique sont de moins en moins nettes,
tant sur le terrain des applications que celui des questions de recherche.
<partie 1 > Aujourd'hui, faire progresser la recherche d'information,
répondre à des questions précises, analyser des données de réseaux sociaux
ou encore adapter les réponses aux usages et préférences des utilisateurs
sont des questions étudiées par le traitement automatique des langues, la
recherche d'information et les systèmes d'information du web, <a href =
« http:// … »>l'ingénierie des connaissances </a>, ou le web sémantique,
mais aussi par les mathématiciens et statisticiens.
</partie1> Or une réponse opérationnelle fait souvent appel à tous ces
domaines.
Corriger, analyser, étiqueter
automatiquement
Résumer, traduire
Construire des arbres
syntaxiques, sémantiques
Le défi du web sémantique :
exemple du site de la BBC
27/05/2015 - Aussenac Fertilisation croisée entre SIG et IA 10
Additional informations on web pages
Situation in a taxonomy
Close and
similar animals
Dynamic generation of the page
content using various knowledge
sourcesDefinition
Properties
Relevant BBC documents
Le défi du web sémantique :
exemple du site de la BBC
27/05/2015 - Aussenac 11
Fert
ilisa
tion
croi
sée
entr
A life science taxonomy
Semantic
distance
Dynamic generation of the page
content using various knowledge
sources
The Semantic options to answer these
needs
- Unified representation
- Standard meta-data
- Ontologies
- Formal definitions
- Inference capabilities
Rich and
formal
concept
descriptions
Le défi du web sémantique :
exemple du site de la BBC
27/05/2015 - Aussenac 12
Fert
ilisa
tion
croi
sée
entr
Dynamic “data semantisation”
Semantic search
Standard query language
Dynamic generation of the page
content using various knowledge
sources
Semantic annotation
• Ontologies and vocabularies for
– Tagging videos and papers
– Collecting additional information on the web
– Providing synthetic information about wildlife
• Ontologies
– 6 main ontologies
• wildlife ontology
http://www.bbc.co.uk/ontologies/wildlife/2010-11-04.shtml
27/05/2015 - Aussenac 13
Fertilisation
croisée entre
Le défi du web sémantique :
exemple du site de la BBC
Deux domaines dans l’informatique
Recherche
d’information
BD
SIAD
Recommandations
Gestion
documents
…
27/05/2015 - Aussenac Fertilisation croisée entre SIG et IA 14
Logique,
représentation
des connaissances
Base de
connaissances
Décision et
incertitude
Ontologies
TAL, …
Ingénierie des
connaissances
Web
sémantique
Questions-réponses
Apprentissage
automatique
Web des données,
Entrepôts de
données RDF
Fouille de
données
RI sur le web
Rapprochement entre
données et connaissances
Plan
• Systèmes d’information et IA: differences fondatrices
– Un point de vue : la gestion des textes
– Approches et problématiques
• Convergences
– Évolutions dans chaque domaine
– Un point de rencontre : données <-> connaissances
• Cas de la recherche d’information sémantique
– Une vue RI: ex de la thèse de M. Baziz
– Une vue IA: les modèles de RTO
– Une fertilisation à cultiver pour aller plus loin : ex des
relations sémantiques
15Fertilisation croisée entre SIG et IA27/05/2015 - Aussenac
27/05/2015 - Aussenac Fertilisation croisée entre SIG et IA 16
Systèmes de Recherche
d’Information sémantique M. Baziz (2004)
----- -- --- ---------- -- --- -----
Besoin en Information
Représentation de
la requête
Analyse
Appariement
---- ---
--------
-----
--------
---- ---
--------
-----
--------
---- ---
--------
-----
--------
---- ---
--------
-----
--------
---- ---
--------
-----
--------
---- ---
--------
-----
--------
Collection de documents
Representation
des documents
---- ---
--------
-----
--------
---- ---
--------
-----
--------
---- ---
--------
-----
--------
---- ---
--------
-----
--------
---- ---
--------
-----
--------
---- ---
--------
-----
--------
Indexation
---- ---
--------
-----
--------
---- ---
--------
-----
--------
---- ---
--------
-----
--------
---- ---
--------
-----
--------
---- ---
--------
-----
--------
---- ---
--------
-----
--------
Documents
sélectionnés
hierarchies de concepts,
thesaurus, ontologies, ...
Représentation
Indexation
• Qu’est ce qu’indexer ?
– Associer des descripteurs à un document pour le
retrouver [Calabretto et Prié,04]
– Extraire d’un document une représentation
caractéristique de son contenu [Baziz,05]
• Nature variable des descripteurs :
– RI non sémantique : descripteur = groupe de mots
– RI sémantique : descripteur = élément d’ontologie
17
Le moteur manque de puissance en accélération
et en vitesse de pointe.
Phase moteur : accélération
Phase véhicule : grande vitesse
Motorisation Manque de puissance
27/05/2015 - Aussenac Fertilisation croisée entre SIG et IA
27/05/2015 - Aussenac Fertilisation croisée entre SIG et IA 18
t1, t4
t7 t9
tk,
Schéma général de l’approche
des réseaux sémantiques pour représenter les documents [Baziz, 05]
ontologie
n1
n4
n3
n2
n6
n5
P13
P23
P12
P14
P42
P4i
P2i
Pmi
P3m
P2m
Un réseau
sémantique
Projeter un document sur une ontologie
Questions:
• Comment identifier les noeuds ?
• Comment les pondérer ?
• Comment pondérer les liens entre eux ?
un document
• noeuds + arcs
• noeuds = concepts
• arcs = liens étiqueté entre concepts
Réseau sémantique [Quillian, 68][Lee, 93]
Des réseaux sémantiques pour
représenter les documents
• Quelle ontologie ?
– Wordnet …. qui n’est pas une ontologie mais un
réseau lexical (Cf Guarino et Welty)
• Projeter un document sur une ontologie
1. Détection et extraction de concepts candidats
2. Calcul de similarité entre concepts candidats
3. Construire le meilleur réseau (noyau)
sémantique
1927/05/2015 - Aussenac Fertilisation croisée entre SIG et IA
Détection de concepts
20
Exemple1 :
Exemple2 :
Exemple3 :
Solar energy
C1
The structure of an organism 2 concepts formés
de mots simples
The abdominal external oblique muscle
C1
C2
Ck=tjtj+1..tmConcept= Max CkText=t1t2...tn
with m<=nk
C3
Le concept le plus long formé par des mots successifs et appartenant à au moins une entrée dans
l’ontologie est sélectionné:
Le plus long (C3)
est le bon.
27/05/2015 - Aussenac Fertilisation croisée entre SIG et IA
Problémtisation de l’indexation
du point de vue du TAL et de l’IA
• Articuler texte et représentation sémantique
• Disposer de représentations
– Sémantiquement valides et précises : ontologies validées
– Vocabulaires riches mais moins formels : vocabulaires du LOD ou SKOS
– De logiciels pour retrouver des éléments de modèle dans les textes
• Etre conscient des distorsions, ambiguïtés entre mots /
représentations / interprétation des représentations
27/05/2015 - Aussenac Fertilisation croisée entre SIG et IA 21
Indices
linguistiques
RTO
Meta-modèle de Ressource
Termino-Ontologique
27/05/2015 - Aussenac
Fertilisation croisée entre SIG et IA 22
 Termes manipulés
comme classes
 Associer des informations
(POS, langue, ..)
 Meta-modèle
OBIR (Reymonet 2007 et 2009)
 Autres modèles
LingInfo (Buitelaar et al. 2006)
LexOnto [Cimiano et al. 2007]
LexInfo [Buitelaar et al. 2009]
LIR in NEON (Monteil Ponsoda
et al., 2008, 2011)
TEXVIZ implémente ce modèle de RTO
23
Meta-modèle pour ontologies lexicales : le
méta-modèle NEON
27/05/2015 - Aussenac 24Fertilisation croisée entre SIG et IA
LIR :
Linguistic
Information
Repository
the LEMON meta-model
27/05/2015 - Aussenac
Fertilisation croisée entre SIG et IA 26
 Main Classes of the meta-
model:
● Lexical Entry
● Form: inflectional variant
– Representation: written versions) of
the entry
● Sense (one of the meanings of the
lexical Entry)
– Reference: actual meaning in the
ontology
Questions à approfondir
• Annotation sémantique
– Quelle richesse des annotations ? Avec quel type
de ressources ? Quelle fidélité au langage suivant
les applications ?
• Passage à l’échelle, complexité
– Mieux étudié en RI
– Quelle efficacité de l’ensemble du processus ?
Sachant le coût de construction d’une ontologie,
la place requise par des annotations sem etc
– Jusqu’où enrichir les
27/05/2015 - Aussenac Fertilisation croisée entre SIG et IA 27
Plan
• Systèmes d’information et IA: differences fondatrices
– Un point de vue : la gestion des textes
– Approches et problématiques
• Convergences
– Évolutions dans chaque domaine
– Un point de rencontre : données <-> connaissances
• Cas de la recherche d’information sémantique
– Une vue RI: ex de la thèse de M. Baziz
– Une vue IA: les modèles de RTO
– Une fertilisation à cultiver pour aller plus loin : ex des
relations sémantiques
28Fertilisation croisée entre SIG et IA27/05/2015 - Aussenac
Semantic relations,
what do we mean?
Research field
• Domain Ontology engineering
– Formal (logic, RDF, OWL …) and
may lead to infer new
knowledge
– The relation is part of a network
– May be shared or not
• Semantic web
– Independent triples
– Publically available in data
repositories with W3C Standard
format
– Connect triples with existing
ones, with web ontologies
What is a relation
bot:Tree bot:has_part bot:Branch
27/05/2015 - Aussenac Fertilisation croisée entre SIG et IA 29
Trunk
Has-part
Root
Plant
Fonguscereals
Has-
part
Root
is_a
Tree
Has-
part
Branch
bot:myTr
ee
bot:has-
part
bot:MyTre
eRoots
bot:Tree
bot:has-
part
bot:Branch
rdf:Type
Finding semantic relations,
what are the issues?
• Knowledge sources:
– where can we find relations?
• Extraction techniques
– How can we identify them?
• Representation
– Which way do I represent this information?
• Validation
– What makes a relation representation valild? Relevant?
27/05/2015 - Aussenac Fertilisation croisée entre SIG et IA 30
Finding semantic relations,
what are the issues?
• Knowledge sources
– text, human experts, existing “semantic” resources (lexicon,
terminologies, ontologies, Linked Data vocabularies)
– Domain specific vs general knowledge
• Extraction techniques
– “obvious” language regularities, known relations and classes (or
entities) -> Patterns
• Issues : domain dependence, domain coverage, variation and
flexibility, rigidity (need to be regularly updated)
• Research issues: automatic building by machine learning
– “more implicit” language regularities, medium size corpora,
open list of classes/entities -> supervised learning
– Very large corpora, unexpected relations -> unsupervised
learning
31Fertilisation croisée entre SIG et IA27/05/2015 - Aussenac
Pattern based relation extraction,
an issue: variation
• A tree comprises at least a trunk,
roots and branches.
• With branches reaching the ground,
the willow is an ornamental tree.
• The tree of the neighbor has been
delimed.
• He climbs on the branches of the tree.
• This tree is wonderful. Its branches
reach the ground.
• Contains: very systematic pattern; the
parts may be difficult to spot;
enumeration > various parts
• With: meronymy pattern only in some
genres (such as catalogs, biology
documents)
• Delimed : Term and pattern are in the
same word; requires background
knowledge: delimed -> has_part
branches (and branches are cut)
• Of : Very ambiguous pattern; polysemy
reduced in [verb N1 of N2]
• Its : very ambiguous pattern; necessity
to take into account two sentences
32Fertilisation croisée entre SIG et IA27/05/2015 - Aussenac
Relation extraction:
learning relations from enumerative structures
• Corpus
– 745 enumerative structures from
Wikipedia pages
– 3 relation types: taxonomic,
ontological_non_taxonomic,
non_ontological
• Classification task
– Feature definition
– Automatic evaluation of features
– 3 algorithms are compared : SVM,
MaxEntropy and baseline (majority)
– Training of the 2 algorithms
• Results
– 82% f-measure for SVM
– Best result with a 2 step process
(ontological yes/no -> feature and
then taxonomic yes/no)
27/05/2015 - Aussenac Fertilisation croisée entre SIG et IA 33
From intepretation to representation
• A tree comprises at least a trunk,
roots and branches.
• With branches reaching the
ground, the willow is an
ornamental tree.
• The tree of the neighbor has been
delimed.
• He’s climbing on the branches of
the tree.
• This tree is wonderful. Its
branches reach the ground.
Tree
Trunk
Branches
Has-part Roots
Ornamental
Tree
Willow Tree Has-part Branches
Has-part Branches
Has-part Branches
Fertilisation croisée entre SIG et IA 3427/05/2015 - Aussenac
Neighbor
Tree
Instance _of
Convergences SIG / IA
• La complémentarité est encore plus diverse
– Logique floue : réponses “approchées” à des requêtes
– Réseaux bayésiens et classifieurs pour la recherche d’information
(documents classés en fonction de la requête)
– Exploitation des standards du W3C : entrepôts de données etc.
– Passage à l’échelle des index sémantiques …
27/05/2015 - Aussenac Fertilisation croisée entre SIG et IA 35

Contenu connexe

En vedette

Thesis slides - Definition and evluation of collaborative information retriev...
Thesis slides - Definition and evluation of collaborative information retriev...Thesis slides - Definition and evluation of collaborative information retriev...
Thesis slides - Definition and evluation of collaborative information retriev...
UPMC - Sorbonne Universities
 
Information Retrieval UMLS
Information Retrieval UMLSInformation Retrieval UMLS
Information Retrieval UMLS
siddarajuss
 
Information Retrieval
Information RetrievalInformation Retrieval
Information RetrievalPhuong Pham
 
Unified Medical Language System & MetaMap
Unified Medical Language System & MetaMapUnified Medical Language System & MetaMap
Unified Medical Language System & MetaMap
Osama Jomaa
 
Health IT & Voice of Patient
Health IT & Voice of PatientHealth IT & Voice of Patient
Health IT & Voice of Patient
Dr.Mahmoud Abbas
 
Description and retrieval of medical visual information based on language mod...
Description and retrieval of medical visual information based on language mod...Description and retrieval of medical visual information based on language mod...
Description and retrieval of medical visual information based on language mod...
Antonio Foncubierta Rodriguez
 
2. Triết học MBA (LS triết học Ấn Độ)
2. Triết học MBA (LS triết học Ấn Độ)2. Triết học MBA (LS triết học Ấn Độ)
2. Triết học MBA (LS triết học Ấn Độ)Hưng, Đinh Duy
 
Medical Information Retrieval and its Evaluation: an Overview of CLEF eHealth...
Medical Information Retrieval and its Evaluation: an Overview of CLEF eHealth...Medical Information Retrieval and its Evaluation: an Overview of CLEF eHealth...
Medical Information Retrieval and its Evaluation: an Overview of CLEF eHealth...
lorrainegoeuriot
 
Challenges of managing Data Science Project
Challenges of managing Data Science ProjectChallenges of managing Data Science Project
Challenges of managing Data Science Project
Lamjed Ben Jabeur
 
Quels facteurs de pertinence pour la recherche de produits e-commerce ?
Quels facteurs de pertinence pour la recherche de produits e-commerce ?Quels facteurs de pertinence pour la recherche de produits e-commerce ?
Quels facteurs de pertinence pour la recherche de produits e-commerce ?
Lamjed Ben Jabeur
 
Introduction au web sémantique : quand le lient fait sens
Introduction au web sémantique : quand le lient fait sensIntroduction au web sémantique : quand le lient fait sens
Introduction au web sémantique : quand le lient fait sens
FICEL Hemza
 
Introduction to Information Retrieval & Models
Introduction to Information Retrieval & ModelsIntroduction to Information Retrieval & Models
Introduction to Information Retrieval & Models
Mounia Lalmas-Roelleke
 
Accès à l’information dans les réseaux sociaux : quelles formes de collaborat...
Accès à l’information dans les réseaux sociaux : quelles formes de collaborat...Accès à l’information dans les réseaux sociaux : quelles formes de collaborat...
Accès à l’information dans les réseaux sociaux : quelles formes de collaborat...
Lamjed Ben Jabeur
 
Définition et évaluation de modèles d'agrégation pour l'estimation de la pert...
Définition et évaluation de modèles d'agrégation pour l'estimation de la pert...Définition et évaluation de modèles d'agrégation pour l'estimation de la pert...
Définition et évaluation de modèles d'agrégation pour l'estimation de la pert...
Bilel Moulahi
 
Método y técnicas de estudio
Método y técnicas de estudioMétodo y técnicas de estudio
Método y técnicas de estudio
William Fabian Gomez
 
Cap8 web20 marcadores_sociales
Cap8 web20 marcadores_socialesCap8 web20 marcadores_sociales
Cap8 web20 marcadores_sociales
Sara Alvarez Rodriguez
 
Europe Information Jeunesse n°45 - La lettre du réseau Eurodesk en France
Europe Information Jeunesse n°45 - La lettre du réseau Eurodesk en FranceEurope Information Jeunesse n°45 - La lettre du réseau Eurodesk en France
Europe Information Jeunesse n°45 - La lettre du réseau Eurodesk en France
CIDJ
 
Potencia
PotenciaPotencia
Potencia
mayraisabela
 
PresentacióN1 Cem
PresentacióN1 CemPresentacióN1 Cem
PresentacióN1 Cem
2011Edu
 

En vedette (20)

Thesis slides - Definition and evluation of collaborative information retriev...
Thesis slides - Definition and evluation of collaborative information retriev...Thesis slides - Definition and evluation of collaborative information retriev...
Thesis slides - Definition and evluation of collaborative information retriev...
 
Information Retrieval UMLS
Information Retrieval UMLSInformation Retrieval UMLS
Information Retrieval UMLS
 
Information Retrieval
Information RetrievalInformation Retrieval
Information Retrieval
 
Unified Medical Language System & MetaMap
Unified Medical Language System & MetaMapUnified Medical Language System & MetaMap
Unified Medical Language System & MetaMap
 
Health IT & Voice of Patient
Health IT & Voice of PatientHealth IT & Voice of Patient
Health IT & Voice of Patient
 
Description and retrieval of medical visual information based on language mod...
Description and retrieval of medical visual information based on language mod...Description and retrieval of medical visual information based on language mod...
Description and retrieval of medical visual information based on language mod...
 
2. Triết học MBA (LS triết học Ấn Độ)
2. Triết học MBA (LS triết học Ấn Độ)2. Triết học MBA (LS triết học Ấn Độ)
2. Triết học MBA (LS triết học Ấn Độ)
 
Medical Information Retrieval and its Evaluation: an Overview of CLEF eHealth...
Medical Information Retrieval and its Evaluation: an Overview of CLEF eHealth...Medical Information Retrieval and its Evaluation: an Overview of CLEF eHealth...
Medical Information Retrieval and its Evaluation: an Overview of CLEF eHealth...
 
Challenges of managing Data Science Project
Challenges of managing Data Science ProjectChallenges of managing Data Science Project
Challenges of managing Data Science Project
 
Quels facteurs de pertinence pour la recherche de produits e-commerce ?
Quels facteurs de pertinence pour la recherche de produits e-commerce ?Quels facteurs de pertinence pour la recherche de produits e-commerce ?
Quels facteurs de pertinence pour la recherche de produits e-commerce ?
 
Introduction au web sémantique : quand le lient fait sens
Introduction au web sémantique : quand le lient fait sensIntroduction au web sémantique : quand le lient fait sens
Introduction au web sémantique : quand le lient fait sens
 
Introduction to Information Retrieval & Models
Introduction to Information Retrieval & ModelsIntroduction to Information Retrieval & Models
Introduction to Information Retrieval & Models
 
Accès à l’information dans les réseaux sociaux : quelles formes de collaborat...
Accès à l’information dans les réseaux sociaux : quelles formes de collaborat...Accès à l’information dans les réseaux sociaux : quelles formes de collaborat...
Accès à l’information dans les réseaux sociaux : quelles formes de collaborat...
 
Définition et évaluation de modèles d'agrégation pour l'estimation de la pert...
Définition et évaluation de modèles d'agrégation pour l'estimation de la pert...Définition et évaluation de modèles d'agrégation pour l'estimation de la pert...
Définition et évaluation de modèles d'agrégation pour l'estimation de la pert...
 
Método y técnicas de estudio
Método y técnicas de estudioMétodo y técnicas de estudio
Método y técnicas de estudio
 
Fiches assemblees - Kit complet
Fiches assemblees - Kit completFiches assemblees - Kit complet
Fiches assemblees - Kit complet
 
Cap8 web20 marcadores_sociales
Cap8 web20 marcadores_socialesCap8 web20 marcadores_sociales
Cap8 web20 marcadores_sociales
 
Europe Information Jeunesse n°45 - La lettre du réseau Eurodesk en France
Europe Information Jeunesse n°45 - La lettre du réseau Eurodesk en FranceEurope Information Jeunesse n°45 - La lettre du réseau Eurodesk en France
Europe Information Jeunesse n°45 - La lettre du réseau Eurodesk en France
 
Potencia
PotenciaPotencia
Potencia
 
PresentacióN1 Cem
PresentacióN1 CemPresentacióN1 Cem
PresentacióN1 Cem
 

Similaire à Aussenac ri ia-2015

Le "Lac de données" de l'Ina, un projet pour placer la donnée au cœur de l'or...
Le "Lac de données" de l'Ina, un projet pour placer la donnée au cœur de l'or...Le "Lac de données" de l'Ina, un projet pour placer la donnée au cœur de l'or...
Le "Lac de données" de l'Ina, un projet pour placer la donnée au cœur de l'or...
Gautier Poupeau
 
Webatlas à l'inauguration du médialab Sciences Po
Webatlas à l'inauguration du médialab Sciences PoWebatlas à l'inauguration du médialab Sciences Po
Webatlas à l'inauguration du médialab Sciences Po
medialabSciencesPo
 
Concepts de Recherche dans un environnement WSS et MOSS
Concepts de Recherche dans un environnement WSS et MOSSConcepts de Recherche dans un environnement WSS et MOSS
Concepts de Recherche dans un environnement WSS et MOSS
Desjardins
 
Parcours Sudoc - Quelle trajectoire pour les catalogues français dans le web ...
Parcours Sudoc - Quelle trajectoire pour les catalogues français dans le web ...Parcours Sudoc - Quelle trajectoire pour les catalogues français dans le web ...
Parcours Sudoc - Quelle trajectoire pour les catalogues français dans le web ...
ABES
 
Ontologies, web de données et SKOS transformation
Ontologies, web de données et SKOS transformationOntologies, web de données et SKOS transformation
Ontologies, web de données et SKOS transformation
catherine roussey
 
metadata_pour_dirbu_mars2011
metadata_pour_dirbu_mars2011metadata_pour_dirbu_mars2011
metadata_pour_dirbu_mars2011
Y. Nicolas
 
Amar Lakel - Patrimonialisation numérique et avenir digital du document.
Amar Lakel - Patrimonialisation numérique et avenir digital du document.Amar Lakel - Patrimonialisation numérique et avenir digital du document.
Amar Lakel - Patrimonialisation numérique et avenir digital du document.
Amar LAKEL, PhD
 
Le Web sémantique pour la formation et la gestion des connaissances dans les ...
Le Web sémantique pour la formation et la gestion des connaissances dans les ...Le Web sémantique pour la formation et la gestion des connaissances dans les ...
Le Web sémantique pour la formation et la gestion des connaissances dans les ...
Gilbert Paquette
 
Smart data
Smart dataSmart data
Smart data
gbaseckou
 
Skos transformation
Skos transformationSkos transformation
Skos transformation
catherine roussey
 
De la recherche d'information aux pratiques scientifiques : vers de nouveaux ...
De la recherche d'information aux pratiques scientifiques : vers de nouveaux ...De la recherche d'information aux pratiques scientifiques : vers de nouveaux ...
De la recherche d'information aux pratiques scientifiques : vers de nouveaux ...
olivier
 
Cersic: culture informationnelle et institutions
Cersic: culture informationnelle et institutionsCersic: culture informationnelle et institutions
Cersic: culture informationnelle et institutions
olivier
 
préservation de l'information numérique formation 2015
préservation de l'information numérique formation 2015préservation de l'information numérique formation 2015
préservation de l'information numérique formation 2015
Pascal Romain
 
Des traces d'usages aux patterns relationnels : la construction technologique...
Des traces d'usages aux patterns relationnels : la construction technologique...Des traces d'usages aux patterns relationnels : la construction technologique...
Des traces d'usages aux patterns relationnels : la construction technologique...
Sébastien
 
Masterclasse i-expo 2011 : Pour un véritable accès unifié à l'information
Masterclasse i-expo 2011 : Pour un véritable accès unifié à l'informationMasterclasse i-expo 2011 : Pour un véritable accès unifié à l'information
Masterclasse i-expo 2011 : Pour un véritable accès unifié à l'information
Antidot
 
formation URFIST Rennes 2009
formation URFIST Rennes 2009formation URFIST Rennes 2009
formation URFIST Rennes 2009
L'Atelier de Cartographie
 
Données liées : Succès, leçons et prochaines étapes
Données liées : Succès, leçons et prochaines étapesDonnées liées : Succès, leçons et prochaines étapes
Moteurs de recherche et web sémantique
Moteurs de recherche et web sémantiqueMoteurs de recherche et web sémantique
Moteurs de recherche et web sémantique
Antidot
 
Atelier documentaire du chercheur à l'INRIA
Atelier documentaire du chercheur à l'INRIAAtelier documentaire du chercheur à l'INRIA
Atelier documentaire du chercheur à l'INRIAADBSAquidoc
 

Similaire à Aussenac ri ia-2015 (20)

Le "Lac de données" de l'Ina, un projet pour placer la donnée au cœur de l'or...
Le "Lac de données" de l'Ina, un projet pour placer la donnée au cœur de l'or...Le "Lac de données" de l'Ina, un projet pour placer la donnée au cœur de l'or...
Le "Lac de données" de l'Ina, un projet pour placer la donnée au cœur de l'or...
 
Ic05complet
Ic05completIc05complet
Ic05complet
 
Webatlas à l'inauguration du médialab Sciences Po
Webatlas à l'inauguration du médialab Sciences PoWebatlas à l'inauguration du médialab Sciences Po
Webatlas à l'inauguration du médialab Sciences Po
 
Concepts de Recherche dans un environnement WSS et MOSS
Concepts de Recherche dans un environnement WSS et MOSSConcepts de Recherche dans un environnement WSS et MOSS
Concepts de Recherche dans un environnement WSS et MOSS
 
Parcours Sudoc - Quelle trajectoire pour les catalogues français dans le web ...
Parcours Sudoc - Quelle trajectoire pour les catalogues français dans le web ...Parcours Sudoc - Quelle trajectoire pour les catalogues français dans le web ...
Parcours Sudoc - Quelle trajectoire pour les catalogues français dans le web ...
 
Ontologies, web de données et SKOS transformation
Ontologies, web de données et SKOS transformationOntologies, web de données et SKOS transformation
Ontologies, web de données et SKOS transformation
 
metadata_pour_dirbu_mars2011
metadata_pour_dirbu_mars2011metadata_pour_dirbu_mars2011
metadata_pour_dirbu_mars2011
 
Amar Lakel - Patrimonialisation numérique et avenir digital du document.
Amar Lakel - Patrimonialisation numérique et avenir digital du document.Amar Lakel - Patrimonialisation numérique et avenir digital du document.
Amar Lakel - Patrimonialisation numérique et avenir digital du document.
 
Le Web sémantique pour la formation et la gestion des connaissances dans les ...
Le Web sémantique pour la formation et la gestion des connaissances dans les ...Le Web sémantique pour la formation et la gestion des connaissances dans les ...
Le Web sémantique pour la formation et la gestion des connaissances dans les ...
 
Smart data
Smart dataSmart data
Smart data
 
Skos transformation
Skos transformationSkos transformation
Skos transformation
 
De la recherche d'information aux pratiques scientifiques : vers de nouveaux ...
De la recherche d'information aux pratiques scientifiques : vers de nouveaux ...De la recherche d'information aux pratiques scientifiques : vers de nouveaux ...
De la recherche d'information aux pratiques scientifiques : vers de nouveaux ...
 
Cersic: culture informationnelle et institutions
Cersic: culture informationnelle et institutionsCersic: culture informationnelle et institutions
Cersic: culture informationnelle et institutions
 
préservation de l'information numérique formation 2015
préservation de l'information numérique formation 2015préservation de l'information numérique formation 2015
préservation de l'information numérique formation 2015
 
Des traces d'usages aux patterns relationnels : la construction technologique...
Des traces d'usages aux patterns relationnels : la construction technologique...Des traces d'usages aux patterns relationnels : la construction technologique...
Des traces d'usages aux patterns relationnels : la construction technologique...
 
Masterclasse i-expo 2011 : Pour un véritable accès unifié à l'information
Masterclasse i-expo 2011 : Pour un véritable accès unifié à l'informationMasterclasse i-expo 2011 : Pour un véritable accès unifié à l'information
Masterclasse i-expo 2011 : Pour un véritable accès unifié à l'information
 
formation URFIST Rennes 2009
formation URFIST Rennes 2009formation URFIST Rennes 2009
formation URFIST Rennes 2009
 
Données liées : Succès, leçons et prochaines étapes
Données liées : Succès, leçons et prochaines étapesDonnées liées : Succès, leçons et prochaines étapes
Données liées : Succès, leçons et prochaines étapes
 
Moteurs de recherche et web sémantique
Moteurs de recherche et web sémantiqueMoteurs de recherche et web sémantique
Moteurs de recherche et web sémantique
 
Atelier documentaire du chercheur à l'INRIA
Atelier documentaire du chercheur à l'INRIAAtelier documentaire du chercheur à l'INRIA
Atelier documentaire du chercheur à l'INRIA
 

Aussenac ri ia-2015

  • 1. Ontologies et accès aux contenus, un exemple de fertilisation croisée entre SIG et IA Nathalie Aussenac-Gilles (IRIT – CNRS, Toulouse, France) aussenac@irit.fr
  • 2. Plan • Systèmes d’information et IA: différences fondatrices – Un point de vue : la gestion des textes – Approches et problématiques • Convergences – Évolutions dans chaque domaine – Un point de rencontre : données <-> connaissances • Cas de la recherche d’information sémantique – Une vue RI : Représenter un texte par un graphe sémantique – Une vue IA : les modèles de RTO – Une fertilisation à cultiver pour aller plus loin : ex des relations sémantiques 2Fertilisation croisée entre SIG et IA27/05/2015 - Aussenac
  • 3. SI, IA : Différences fondatrices « Si tu ne sais pas où tu vas, regarde d’où tu viens » • Des sous-disciplines de l’informatique • Questions des recherche et problématiques propres • Applications différentes • Ma lorgnette : les textes • Données, Informations • vs connaissances 27/05/2015 - Aussenac Fertilisation croisée entre SIG et IA 3 Alors que les points de convergence entre Systèmes d'information et Intelligence Artificielle semblent de plus en plus nombreux, les frontières entre ces deux domaines de l'informatique sont de moins en moins nettes, tant sur le terrain des applications que celui des questions de recherche. Aujourd'hui, faire progresser la recherche d'information, répondre à des questions précises, analyser des données de réseaux sociaux ou encore adapter les réponses aux usages et préférences des utilisateurs sont des questions étudiées par le traitement automatique des langues, la recherche d'information et les systèmes d'information du web, l'ingénierie des connaissances, ou le web sémantique, mais aussi par les mathématiciens et statisticiens. Or une réponse opérationnelle fait souvent appel à tous ces domaines.
  • 4. SI, IA : Différences fondatrices Les textes dans les SIG • Des données : Documents comme fichiers, mots comme Chaînes de caractères • Statut : sources d’information, traces d’activités, restitution de traitements • Traitements 27/05/2015 - Aussenac Fertilisation croisée entre SIG et IA 4 Alors que les points de convergence entre Systèmes d'information et Intelligence Artificielle semblent de plus en plus nombreux, les frontières entre ces deux domaines de l'informatique sont de moins en moins nettes, tant sur le terrain des applications que celui des questions de recherche. Aujourd'hui, faire progresser la recherche d'information, répondre à des questions précises, analyser des données de réseaux sociaux ou encore adapter les réponses aux usages et préférences des utilisateurs sont des questions étudiées par le traitement automatique des langues, la recherche d'information et les systèmes d'information du web, l'ingénierie des connaissances, ou le web sémantique, mais aussi par les mathématiciens et statisticiens. Or une réponse opérationnelle fait souvent appel à tous ces domaines. Rechercher des fichiers Stocker, archiver Représentations optimisées : Indexer Documenter Méta-données ... Systèmes d’information … Afficher, mettre en forme, éditer
  • 5. SI, IA : Différences fondatrices Les textes en IA > la langage en IA • Approche symbolique • Langage et raisonnement, ref. linguistique • La logique comme modèle cognitif 27/05/2015 - Aussenac Fertilisation croisée entre SIG et IA 5 Alors que les points de convergence entre Systèmes d'information et Intelligence Artificielle semblent de plus en plus nombreux, les frontières entre ces deux domaines de l'informatique sont de moins en moins nettes, tant sur le terrain des applications que celui des questions de recherche. Relation de causalité Valeurs graduelles : plus les convergences sont nombreuses, moins les frontières sont nettes Formalisation : Pour tout p et f, Convergence(p) & nombreuses (p) & frontière(f) > non nette (f) Computational linguistics vs NLP Symboles, Connaissances (prédicats, règles, faits) Description, analyses manuelles, corpus « artificiels »
  • 6. Deux domaines dans l’informatique Recherche d’information BD SIAD Recommandations Gestion documents … 27/05/2015 - Aussenac Fertilisation croisée entre SIG et IA 6 Logiques Base de connaissances Décision et incertitude … TAL Ingénierie des connaissances
  • 7. Plan • Systèmes d’information et IA: differences fondatrices – Un point de vue : la gestion des textes – Approches et problématiques • Convergences – Évolutions dans chaque domaine – Un point de rencontre : données <-> connaissances • Cas de la recherche d’information sémantique – Une vue RI: ex de la thèse de M. Baziz – Une vue IA: les modèles de RTO – Une fertilisation à cultiver pour aller plus loin : ex des relations sémantiques 7Fertilisation croisée entre SIG et IA27/05/2015 - Aussenac
  • 8. SI, IA : exemples d’évolutions Les textes dans les SIG • Chercher des réponses précises • Affichage et accès sur le web • Mettre en relation : hypertexte 27/05/2015 - Aussenac Fertilisation croisée entre SIG et IA 827/05/2015 - Aussenac Fertilisation croisée entre SIG et IA 8 Alors que les points de convergence entre Systèmes d'information et Intelligence Artificielle semblent de plus en plus nombreux, les frontières entre ces deux domaines de l'informatique sont de moins en moins nettes, tant sur le terrain des applications que celui des questions de recherche. <partie 1 > Aujourd'hui, faire progresser la recherche d'information, répondre à des questions précises, analyser des données de réseaux sociaux ou encore adapter les réponses aux usages et préférences des utilisateurs sont des questions étudiées par le traitement automatique des langues, la recherche d'information et les systèmes d'information du web, <a href = « http:// … »>l'ingénierie des connaissances </a>, ou le web sémantique, mais aussi par les mathématiciens et statisticiens. </partie1> Or une réponse opérationnelle fait souvent appel à tous ces domaines. Dissocier forme et contenu Découper, structurer, étiqueter, baliser Représentations sémantiques : Index sémantiques Documenter des fragments Méta-données ... Ingénierie des connaissances… Fonctions « cognitives » plus complexes … intelligence ?
  • 9. SI, IA : exemples d’évolutions Les textes en IA : le succès du TAL • Sémantique formelle • TAL à base de règles linguistiques : analyses syntaxiques • Plus de corpus sur le web : TAL statistique • Plus de ressources, lexiques, dictionnaires … • Apport du Machine Learning 27/05/2015 - Aussenac Fertilisation croisée entre SIG et IA 9 Alors que les points de convergence entre Systèmes d'information et Intelligence Artificielle semblent de plus en plus nombreux, les frontières entre ces deux domaines de l'informatique sont de moins en moins nettes, tant sur le terrain des applications que celui des questions de recherche. <partie 1 > Aujourd'hui, faire progresser la recherche d'information, répondre à des questions précises, analyser des données de réseaux sociaux ou encore adapter les réponses aux usages et préférences des utilisateurs sont des questions étudiées par le traitement automatique des langues, la recherche d'information et les systèmes d'information du web, <a href = « http:// … »>l'ingénierie des connaissances </a>, ou le web sémantique, mais aussi par les mathématiciens et statisticiens. </partie1> Or une réponse opérationnelle fait souvent appel à tous ces domaines. Corriger, analyser, étiqueter automatiquement Résumer, traduire Construire des arbres syntaxiques, sémantiques
  • 10. Le défi du web sémantique : exemple du site de la BBC 27/05/2015 - Aussenac Fertilisation croisée entre SIG et IA 10 Additional informations on web pages Situation in a taxonomy Close and similar animals Dynamic generation of the page content using various knowledge sourcesDefinition Properties Relevant BBC documents
  • 11. Le défi du web sémantique : exemple du site de la BBC 27/05/2015 - Aussenac 11 Fert ilisa tion croi sée entr A life science taxonomy Semantic distance Dynamic generation of the page content using various knowledge sources The Semantic options to answer these needs - Unified representation - Standard meta-data - Ontologies - Formal definitions - Inference capabilities Rich and formal concept descriptions
  • 12. Le défi du web sémantique : exemple du site de la BBC 27/05/2015 - Aussenac 12 Fert ilisa tion croi sée entr Dynamic “data semantisation” Semantic search Standard query language Dynamic generation of the page content using various knowledge sources Semantic annotation
  • 13. • Ontologies and vocabularies for – Tagging videos and papers – Collecting additional information on the web – Providing synthetic information about wildlife • Ontologies – 6 main ontologies • wildlife ontology http://www.bbc.co.uk/ontologies/wildlife/2010-11-04.shtml 27/05/2015 - Aussenac 13 Fertilisation croisée entre Le défi du web sémantique : exemple du site de la BBC
  • 14. Deux domaines dans l’informatique Recherche d’information BD SIAD Recommandations Gestion documents … 27/05/2015 - Aussenac Fertilisation croisée entre SIG et IA 14 Logique, représentation des connaissances Base de connaissances Décision et incertitude Ontologies TAL, … Ingénierie des connaissances Web sémantique Questions-réponses Apprentissage automatique Web des données, Entrepôts de données RDF Fouille de données RI sur le web Rapprochement entre données et connaissances
  • 15. Plan • Systèmes d’information et IA: differences fondatrices – Un point de vue : la gestion des textes – Approches et problématiques • Convergences – Évolutions dans chaque domaine – Un point de rencontre : données <-> connaissances • Cas de la recherche d’information sémantique – Une vue RI: ex de la thèse de M. Baziz – Une vue IA: les modèles de RTO – Une fertilisation à cultiver pour aller plus loin : ex des relations sémantiques 15Fertilisation croisée entre SIG et IA27/05/2015 - Aussenac
  • 16. 27/05/2015 - Aussenac Fertilisation croisée entre SIG et IA 16 Systèmes de Recherche d’Information sémantique M. Baziz (2004) ----- -- --- ---------- -- --- ----- Besoin en Information Représentation de la requête Analyse Appariement ---- --- -------- ----- -------- ---- --- -------- ----- -------- ---- --- -------- ----- -------- ---- --- -------- ----- -------- ---- --- -------- ----- -------- ---- --- -------- ----- -------- Collection de documents Representation des documents ---- --- -------- ----- -------- ---- --- -------- ----- -------- ---- --- -------- ----- -------- ---- --- -------- ----- -------- ---- --- -------- ----- -------- ---- --- -------- ----- -------- Indexation ---- --- -------- ----- -------- ---- --- -------- ----- -------- ---- --- -------- ----- -------- ---- --- -------- ----- -------- ---- --- -------- ----- -------- ---- --- -------- ----- -------- Documents sélectionnés hierarchies de concepts, thesaurus, ontologies, ... Représentation
  • 17. Indexation • Qu’est ce qu’indexer ? – Associer des descripteurs à un document pour le retrouver [Calabretto et Prié,04] – Extraire d’un document une représentation caractéristique de son contenu [Baziz,05] • Nature variable des descripteurs : – RI non sémantique : descripteur = groupe de mots – RI sémantique : descripteur = élément d’ontologie 17 Le moteur manque de puissance en accélération et en vitesse de pointe. Phase moteur : accélération Phase véhicule : grande vitesse Motorisation Manque de puissance 27/05/2015 - Aussenac Fertilisation croisée entre SIG et IA
  • 18. 27/05/2015 - Aussenac Fertilisation croisée entre SIG et IA 18 t1, t4 t7 t9 tk, Schéma général de l’approche des réseaux sémantiques pour représenter les documents [Baziz, 05] ontologie n1 n4 n3 n2 n6 n5 P13 P23 P12 P14 P42 P4i P2i Pmi P3m P2m Un réseau sémantique Projeter un document sur une ontologie Questions: • Comment identifier les noeuds ? • Comment les pondérer ? • Comment pondérer les liens entre eux ? un document • noeuds + arcs • noeuds = concepts • arcs = liens étiqueté entre concepts Réseau sémantique [Quillian, 68][Lee, 93]
  • 19. Des réseaux sémantiques pour représenter les documents • Quelle ontologie ? – Wordnet …. qui n’est pas une ontologie mais un réseau lexical (Cf Guarino et Welty) • Projeter un document sur une ontologie 1. Détection et extraction de concepts candidats 2. Calcul de similarité entre concepts candidats 3. Construire le meilleur réseau (noyau) sémantique 1927/05/2015 - Aussenac Fertilisation croisée entre SIG et IA
  • 20. Détection de concepts 20 Exemple1 : Exemple2 : Exemple3 : Solar energy C1 The structure of an organism 2 concepts formés de mots simples The abdominal external oblique muscle C1 C2 Ck=tjtj+1..tmConcept= Max CkText=t1t2...tn with m<=nk C3 Le concept le plus long formé par des mots successifs et appartenant à au moins une entrée dans l’ontologie est sélectionné: Le plus long (C3) est le bon. 27/05/2015 - Aussenac Fertilisation croisée entre SIG et IA
  • 21. Problémtisation de l’indexation du point de vue du TAL et de l’IA • Articuler texte et représentation sémantique • Disposer de représentations – Sémantiquement valides et précises : ontologies validées – Vocabulaires riches mais moins formels : vocabulaires du LOD ou SKOS – De logiciels pour retrouver des éléments de modèle dans les textes • Etre conscient des distorsions, ambiguïtés entre mots / représentations / interprétation des représentations 27/05/2015 - Aussenac Fertilisation croisée entre SIG et IA 21 Indices linguistiques RTO
  • 22. Meta-modèle de Ressource Termino-Ontologique 27/05/2015 - Aussenac Fertilisation croisée entre SIG et IA 22  Termes manipulés comme classes  Associer des informations (POS, langue, ..)  Meta-modèle OBIR (Reymonet 2007 et 2009)  Autres modèles LingInfo (Buitelaar et al. 2006) LexOnto [Cimiano et al. 2007] LexInfo [Buitelaar et al. 2009] LIR in NEON (Monteil Ponsoda et al., 2008, 2011)
  • 23. TEXVIZ implémente ce modèle de RTO 23
  • 24. Meta-modèle pour ontologies lexicales : le méta-modèle NEON 27/05/2015 - Aussenac 24Fertilisation croisée entre SIG et IA LIR : Linguistic Information Repository
  • 25. the LEMON meta-model 27/05/2015 - Aussenac Fertilisation croisée entre SIG et IA 26  Main Classes of the meta- model: ● Lexical Entry ● Form: inflectional variant – Representation: written versions) of the entry ● Sense (one of the meanings of the lexical Entry) – Reference: actual meaning in the ontology
  • 26. Questions à approfondir • Annotation sémantique – Quelle richesse des annotations ? Avec quel type de ressources ? Quelle fidélité au langage suivant les applications ? • Passage à l’échelle, complexité – Mieux étudié en RI – Quelle efficacité de l’ensemble du processus ? Sachant le coût de construction d’une ontologie, la place requise par des annotations sem etc – Jusqu’où enrichir les 27/05/2015 - Aussenac Fertilisation croisée entre SIG et IA 27
  • 27. Plan • Systèmes d’information et IA: differences fondatrices – Un point de vue : la gestion des textes – Approches et problématiques • Convergences – Évolutions dans chaque domaine – Un point de rencontre : données <-> connaissances • Cas de la recherche d’information sémantique – Une vue RI: ex de la thèse de M. Baziz – Une vue IA: les modèles de RTO – Une fertilisation à cultiver pour aller plus loin : ex des relations sémantiques 28Fertilisation croisée entre SIG et IA27/05/2015 - Aussenac
  • 28. Semantic relations, what do we mean? Research field • Domain Ontology engineering – Formal (logic, RDF, OWL …) and may lead to infer new knowledge – The relation is part of a network – May be shared or not • Semantic web – Independent triples – Publically available in data repositories with W3C Standard format – Connect triples with existing ones, with web ontologies What is a relation bot:Tree bot:has_part bot:Branch 27/05/2015 - Aussenac Fertilisation croisée entre SIG et IA 29 Trunk Has-part Root Plant Fonguscereals Has- part Root is_a Tree Has- part Branch bot:myTr ee bot:has- part bot:MyTre eRoots bot:Tree bot:has- part bot:Branch rdf:Type
  • 29. Finding semantic relations, what are the issues? • Knowledge sources: – where can we find relations? • Extraction techniques – How can we identify them? • Representation – Which way do I represent this information? • Validation – What makes a relation representation valild? Relevant? 27/05/2015 - Aussenac Fertilisation croisée entre SIG et IA 30
  • 30. Finding semantic relations, what are the issues? • Knowledge sources – text, human experts, existing “semantic” resources (lexicon, terminologies, ontologies, Linked Data vocabularies) – Domain specific vs general knowledge • Extraction techniques – “obvious” language regularities, known relations and classes (or entities) -> Patterns • Issues : domain dependence, domain coverage, variation and flexibility, rigidity (need to be regularly updated) • Research issues: automatic building by machine learning – “more implicit” language regularities, medium size corpora, open list of classes/entities -> supervised learning – Very large corpora, unexpected relations -> unsupervised learning 31Fertilisation croisée entre SIG et IA27/05/2015 - Aussenac
  • 31. Pattern based relation extraction, an issue: variation • A tree comprises at least a trunk, roots and branches. • With branches reaching the ground, the willow is an ornamental tree. • The tree of the neighbor has been delimed. • He climbs on the branches of the tree. • This tree is wonderful. Its branches reach the ground. • Contains: very systematic pattern; the parts may be difficult to spot; enumeration > various parts • With: meronymy pattern only in some genres (such as catalogs, biology documents) • Delimed : Term and pattern are in the same word; requires background knowledge: delimed -> has_part branches (and branches are cut) • Of : Very ambiguous pattern; polysemy reduced in [verb N1 of N2] • Its : very ambiguous pattern; necessity to take into account two sentences 32Fertilisation croisée entre SIG et IA27/05/2015 - Aussenac
  • 32. Relation extraction: learning relations from enumerative structures • Corpus – 745 enumerative structures from Wikipedia pages – 3 relation types: taxonomic, ontological_non_taxonomic, non_ontological • Classification task – Feature definition – Automatic evaluation of features – 3 algorithms are compared : SVM, MaxEntropy and baseline (majority) – Training of the 2 algorithms • Results – 82% f-measure for SVM – Best result with a 2 step process (ontological yes/no -> feature and then taxonomic yes/no) 27/05/2015 - Aussenac Fertilisation croisée entre SIG et IA 33
  • 33. From intepretation to representation • A tree comprises at least a trunk, roots and branches. • With branches reaching the ground, the willow is an ornamental tree. • The tree of the neighbor has been delimed. • He’s climbing on the branches of the tree. • This tree is wonderful. Its branches reach the ground. Tree Trunk Branches Has-part Roots Ornamental Tree Willow Tree Has-part Branches Has-part Branches Has-part Branches Fertilisation croisée entre SIG et IA 3427/05/2015 - Aussenac Neighbor Tree Instance _of
  • 34. Convergences SIG / IA • La complémentarité est encore plus diverse – Logique floue : réponses “approchées” à des requêtes – Réseaux bayésiens et classifieurs pour la recherche d’information (documents classés en fonction de la requête) – Exploitation des standards du W3C : entrepôts de données etc. – Passage à l’échelle des index sémantiques … 27/05/2015 - Aussenac Fertilisation croisée entre SIG et IA 35