Aussenac ri ia-2015

Ontologies et accès aux contenus,
un exemple de fertilisation
croisée entre SIG et IA
Nathalie Aussenac-Gilles
(IRIT – CNRS, Toulouse, France)
aussenac@irit.fr

Plan
• Systèmes d’information et IA: différences fondatrices
– Un point de vue : la gestion des textes
– Approches et problématiques
• Convergences
– Évolutions dans chaque domaine
– Un point de rencontre : données <-> connaissances
• Cas de la recherche d’information sémantique
– Une vue RI : Représenter un texte par un graphe sémantique
– Une vue IA : les modèles de RTO
– Une fertilisation à cultiver pour aller plus loin : ex des relations
sémantiques
2Fertilisation croisée entre SIG et IA27/05/2015 - Aussenac

SI, IA : Différences fondatrices
« Si tu ne sais pas où tu vas, regarde d’où tu viens »
• Des sous-disciplines de l’informatique
• Questions des recherche et problématiques propres
• Applications différentes
• Ma lorgnette : les textes
• Données, Informations
• vs connaissances
27/05/2015 - Aussenac Fertilisation croisée entre SIG et IA 3
Alors que les points de convergence entre Systèmes
d'information et Intelligence Artificielle semblent de plus en
plus nombreux, les frontières entre ces deux domaines de
l'informatique sont de moins en moins nettes, tant sur le terrain
des applications que celui des questions de recherche.
Aujourd'hui, faire progresser la recherche d'information,
répondre à des questions précises, analyser des données de
réseaux sociaux ou encore adapter les réponses aux usages et
préférences des utilisateurs sont des questions étudiées par le
traitement automatique des langues, la recherche
d'information et les systèmes d'information du web, l'ingénierie
des connaissances, ou le web sémantique, mais aussi par les
mathématiciens et statisticiens. Or une réponse opérationnelle
fait souvent appel à tous ces domaines.

Les textes dans les SIG
• Des données : Documents comme fichiers, mots
comme Chaînes de caractères
• Statut : sources d’information, traces d’activités,
restitution de traitements
• Traitements
Alors que les points de convergence entre Systèmes d'information et
Intelligence Artificielle semblent de plus en plus nombreux, les
frontières entre ces deux domaines de l'informatique sont de moins
en moins nettes, tant sur le terrain des applications que celui des
questions de recherche. Aujourd'hui, faire progresser la recherche
d'information, répondre à des questions précises, analyser des
données de réseaux sociaux ou encore adapter les réponses aux
usages et préférences des utilisateurs sont des questions étudiées par
le traitement automatique des langues, la recherche d'information et
les systèmes d'information du web, l'ingénierie des connaissances, ou
le web sémantique, mais aussi par les mathématiciens et
statisticiens. Or une réponse opérationnelle fait souvent appel à tous
ces domaines.
Rechercher des fichiers
Stocker, archiver
Représentations
optimisées : Indexer
Documenter
Méta-données
... Systèmes d’information … Afficher, mettre en
forme, éditer

Les textes en IA > la langage en IA
• Approche symbolique
• Langage et raisonnement, ref. linguistique
• La logique comme modèle cognitif
Alors que les points de convergence entre Systèmes
d'information et Intelligence Artificielle semblent de
plus en plus nombreux, les frontières entre ces deux
domaines de l'informatique sont de moins en moins
nettes, tant sur le terrain des applications que celui
des questions de recherche.
Relation de causalité
Valeurs graduelles : plus les convergences sont nombreuses,
moins les frontières sont nettes
Formalisation : Pour tout p et f, Convergence(p) & nombreuses (p) &
frontière(f) > non nette (f)
Computational
linguistics vs NLP
Symboles, Connaissances
(prédicats, règles, faits)
Description, analyses manuelles,
corpus « artificiels »

Deux domaines dans l’informatique
Recherche
d’information
BD
SIAD
Recommandations
Gestion
documents
…
Logiques
Base de
connaissances
Décision et
incertitude
…
TAL
Ingénierie des
connaissances

Plan
• Systèmes d’information et IA: differences fondatrices
• Convergences
– Une vue RI: ex de la thèse de M. Baziz
– Une vue IA: les modèles de RTO
– Une fertilisation à cultiver pour aller plus loin : ex des
relations sémantiques

SI, IA : exemples d’évolutions
Les textes dans les SIG
• Chercher des réponses précises
• Affichage et accès sur le web
• Mettre en relation : hypertexte
27/05/2015 - Aussenac Fertilisation croisée entre SIG et IA 827/05/2015 - Aussenac Fertilisation croisée entre SIG et IA 8
Intelligence Artificielle semblent de plus en plus nombreux, les frontières
entre ces deux domaines de l'informatique sont de moins en moins nettes,
tant sur le terrain des applications que celui des questions de recherche.
<partie 1 > Aujourd'hui, faire progresser la recherche d'information,
répondre à des questions précises, analyser des données de réseaux sociaux
ou encore adapter les réponses aux usages et préférences des utilisateurs
sont des questions étudiées par le traitement automatique des langues, la
recherche d'information et les systèmes d'information du web, <a href =
« http:// … »>l'ingénierie des connaissances </a>, ou le web sémantique,
mais aussi par les mathématiciens et statisticiens.
</partie1> Or une réponse opérationnelle fait souvent appel à tous ces
domaines.
Dissocier forme et contenu
Découper, structurer, étiqueter, baliser
Représentations sémantiques :
Index sémantiques
Documenter des fragments
Méta-données
... Ingénierie des connaissances…
Fonctions
« cognitives »
plus complexes …
intelligence ?

SI, IA : exemples d’évolutions
Les textes en IA : le succès du TAL
• Sémantique formelle
• TAL à base de règles linguistiques : analyses syntaxiques
• Plus de corpus sur le web : TAL statistique
• Plus de ressources, lexiques, dictionnaires …
• Apport du Machine Learning
Intelligence Artificielle semblent de plus en plus nombreux, les frontières
entre ces deux domaines de l'informatique sont de moins en moins nettes,
tant sur le terrain des applications que celui des questions de recherche.
<partie 1 > Aujourd'hui, faire progresser la recherche d'information,
répondre à des questions précises, analyser des données de réseaux sociaux
ou encore adapter les réponses aux usages et préférences des utilisateurs
sont des questions étudiées par le traitement automatique des langues, la
recherche d'information et les systèmes d'information du web, <a href =
« http:// … »>l'ingénierie des connaissances </a>, ou le web sémantique,
mais aussi par les mathématiciens et statisticiens.
</partie1> Or une réponse opérationnelle fait souvent appel à tous ces
domaines.
Corriger, analyser, étiqueter
automatiquement
Résumer, traduire
Construire des arbres
syntaxiques, sémantiques

Le défi du web sémantique :
exemple du site de la BBC
Additional informations on web pages
Situation in a taxonomy
Close and
similar animals
Dynamic generation of the page
content using various knowledge
sourcesDefinition
Properties
Relevant BBC documents

27/05/2015 - Aussenac 11
Fert
ilisa
tion
croi
sée
entr
A life science taxonomy
Semantic
distance
sources
The Semantic options to answer these
needs
- Unified representation
- Standard meta-data
- Ontologies
- Formal definitions
- Inference capabilities
Rich and
formal
concept
descriptions

27/05/2015 - Aussenac 12
Fert
ilisa
tion
croi
sée
entr
Dynamic “data semantisation”
Semantic search
Standard query language
sources
Semantic annotation

• Ontologies and vocabularies for
– Tagging videos and papers
– Collecting additional information on the web
– Providing synthetic information about wildlife
• Ontologies
– 6 main ontologies
• wildlife ontology
http://www.bbc.co.uk/ontologies/wildlife/2010-11-04.shtml
27/05/2015 - Aussenac 13
Fertilisation
croisée entre

Deux domaines dans l’informatique
Recherche
d’information
BD
SIAD
Recommandations
Gestion
documents
…
Logique,
représentation
des connaissances
Base de
connaissances
Décision et
incertitude
Ontologies
TAL, …
Ingénierie des
connaissances
Web
sémantique
Questions-réponses
Apprentissage
automatique
Web des données,
Entrepôts de
données RDF
Fouille de
données
RI sur le web
Rapprochement entre
données et connaissances

Plan
• Convergences

Systèmes de Recherche
d’Information sémantique M. Baziz (2004)
----- -- --- ---------- -- --- -----
Besoin en Information
Représentation de
la requête
Analyse
Appariement
---- ---
--------
-----
--------
---- ---
--------
-----
--------
---- ---
--------
-----
--------
---- ---
--------
-----
--------
---- ---
--------
-----
--------
---- ---
--------
-----
--------
Collection de documents
Representation
des documents
---- ---
--------
-----
--------
---- ---
--------
-----
--------
---- ---
--------
-----
--------
---- ---
--------
-----
--------
---- ---
--------
-----
--------
---- ---
--------
-----
--------
Indexation
---- ---
--------
-----
--------
---- ---
--------
-----
--------
---- ---
--------
-----
--------
---- ---
--------
-----
--------
---- ---
--------
-----
--------
---- ---
--------
-----
--------
Documents
sélectionnés
hierarchies de concepts,
thesaurus, ontologies, ...
Représentation

Indexation
• Qu’est ce qu’indexer ?
– Associer des descripteurs à un document pour le
retrouver [Calabretto et Prié,04]
– Extraire d’un document une représentation
caractéristique de son contenu [Baziz,05]
• Nature variable des descripteurs :
– RI non sémantique : descripteur = groupe de mots
– RI sémantique : descripteur = élément d’ontologie
17
Le moteur manque de puissance en accélération
et en vitesse de pointe.
Phase moteur : accélération
Phase véhicule : grande vitesse
Motorisation Manque de puissance
27/05/2015 - Aussenac Fertilisation croisée entre SIG et IA

t1, t4
t7 t9
tk,
Schéma général de l’approche
des réseaux sémantiques pour représenter les documents [Baziz, 05]
ontologie
n1
n4
n3
n2
n6
n5
P13
P23
P12
P14
P42
P4i
P2i
Pmi
P3m
P2m
Un réseau
sémantique
Projeter un document sur une ontologie
Questions:
• Comment identifier les noeuds ?
• Comment les pondérer ?
• Comment pondérer les liens entre eux ?
un document
• noeuds + arcs
• noeuds = concepts
• arcs = liens étiqueté entre concepts
Réseau sémantique [Quillian, 68][Lee, 93]

Des réseaux sémantiques pour
représenter les documents
• Quelle ontologie ?
– Wordnet …. qui n’est pas une ontologie mais un
réseau lexical (Cf Guarino et Welty)
• Projeter un document sur une ontologie
1. Détection et extraction de concepts candidats
2. Calcul de similarité entre concepts candidats
3. Construire le meilleur réseau (noyau)
sémantique

Détection de concepts
20
Exemple1 :
Exemple2 :
Exemple3 :
Solar energy
C1
The structure of an organism 2 concepts formés
de mots simples
The abdominal external oblique muscle
C1
C2
Ck=tjtj+1..tmConcept= Max CkText=t1t2...tn
with m<=nk
C3
Le concept le plus long formé par des mots successifs et appartenant à au moins une entrée dans
l’ontologie est sélectionné:
Le plus long (C3)
est le bon.

Problémtisation de l’indexation
du point de vue du TAL et de l’IA
• Articuler texte et représentation sémantique
• Disposer de représentations
– Sémantiquement valides et précises : ontologies validées
– Vocabulaires riches mais moins formels : vocabulaires du LOD ou SKOS
– De logiciels pour retrouver des éléments de modèle dans les textes
• Etre conscient des distorsions, ambiguïtés entre mots /
représentations / interprétation des représentations
Indices
linguistiques
RTO

Meta-modèle de Ressource
Termino-Ontologique
27/05/2015 - Aussenac
Fertilisation croisée entre SIG et IA 22
 Termes manipulés
comme classes
 Associer des informations
(POS, langue, ..)
 Meta-modèle
OBIR (Reymonet 2007 et 2009)
 Autres modèles
LingInfo (Buitelaar et al. 2006)
LexOnto [Cimiano et al. 2007]
LexInfo [Buitelaar et al. 2009]
LIR in NEON (Monteil Ponsoda
et al., 2008, 2011)

TEXVIZ implémente ce modèle de RTO
23

Meta-modèle pour ontologies lexicales : le
méta-modèle NEON
27/05/2015 - Aussenac 24Fertilisation croisée entre SIG et IA
LIR :
Linguistic
Information
Repository

the LEMON meta-model
27/05/2015 - Aussenac
Fertilisation croisée entre SIG et IA 26
 Main Classes of the meta-
model:
● Lexical Entry
● Form: inflectional variant
– Representation: written versions) of
the entry
● Sense (one of the meanings of the
lexical Entry)
– Reference: actual meaning in the
ontology

Questions à approfondir
• Annotation sémantique
– Quelle richesse des annotations ? Avec quel type
de ressources ? Quelle fidélité au langage suivant
les applications ?
• Passage à l’échelle, complexité
– Mieux étudié en RI
– Quelle efficacité de l’ensemble du processus ?
Sachant le coût de construction d’une ontologie,
la place requise par des annotations sem etc
– Jusqu’où enrichir les

Plan
• Convergences

Semantic relations,
what do we mean?
Research field
• Domain Ontology engineering
– Formal (logic, RDF, OWL …) and
may lead to infer new
knowledge
– The relation is part of a network
– May be shared or not
• Semantic web
– Independent triples
– Publically available in data
repositories with W3C Standard
format
– Connect triples with existing
ones, with web ontologies
What is a relation
bot:Tree bot:has_part bot:Branch
Trunk
Has-part
Root
Plant
Fonguscereals
Has-
part
Root
is_a
Tree
Has-
part
Branch
bot:myTr
ee
bot:has-
part
bot:MyTre
eRoots
bot:Tree
bot:has-
part
bot:Branch
rdf:Type

Finding semantic relations,
what are the issues?
• Knowledge sources:
– where can we find relations?
• Extraction techniques
– How can we identify them?
• Representation
– Which way do I represent this information?
• Validation
– What makes a relation representation valild? Relevant?

Finding semantic relations,
what are the issues?
• Knowledge sources
– text, human experts, existing “semantic” resources (lexicon,
terminologies, ontologies, Linked Data vocabularies)
– Domain specific vs general knowledge
• Extraction techniques
– “obvious” language regularities, known relations and classes (or
entities) -> Patterns
• Issues : domain dependence, domain coverage, variation and
flexibility, rigidity (need to be regularly updated)
• Research issues: automatic building by machine learning
– “more implicit” language regularities, medium size corpora,
open list of classes/entities -> supervised learning
– Very large corpora, unexpected relations -> unsupervised
learning

Pattern based relation extraction,
an issue: variation
• A tree comprises at least a trunk,
roots and branches.
• With branches reaching the ground,
the willow is an ornamental tree.
• The tree of the neighbor has been
delimed.
• He climbs on the branches of the tree.
• This tree is wonderful. Its branches
reach the ground.
• Contains: very systematic pattern; the
parts may be difficult to spot;
enumeration > various parts
• With: meronymy pattern only in some
genres (such as catalogs, biology
documents)
• Delimed : Term and pattern are in the
same word; requires background
knowledge: delimed -> has_part
branches (and branches are cut)
• Of : Very ambiguous pattern; polysemy
reduced in [verb N1 of N2]
• Its : very ambiguous pattern; necessity
to take into account two sentences

Relation extraction:
learning relations from enumerative structures
• Corpus
– 745 enumerative structures from
Wikipedia pages
– 3 relation types: taxonomic,
ontological_non_taxonomic,
non_ontological
• Classification task
– Feature definition
– Automatic evaluation of features
– 3 algorithms are compared : SVM,
MaxEntropy and baseline (majority)
– Training of the 2 algorithms
• Results
– 82% f-measure for SVM
– Best result with a 2 step process
(ontological yes/no -> feature and
then taxonomic yes/no)

From intepretation to representation
• A tree comprises at least a trunk,
roots and branches.
• With branches reaching the
ground, the willow is an
ornamental tree.
• The tree of the neighbor has been
delimed.
• He’s climbing on the branches of
the tree.
• This tree is wonderful. Its
branches reach the ground.
Tree
Trunk
Branches
Has-part Roots
Ornamental
Tree
Willow Tree Has-part Branches
Has-part Branches
Has-part Branches
Fertilisation croisée entre SIG et IA 3427/05/2015 - Aussenac
Neighbor
Tree
Instance _of

Convergences SIG / IA
• La complémentarité est encore plus diverse
– Logique floue : réponses “approchées” à des requêtes
– Réseaux bayésiens et classifieurs pour la recherche d’information
(documents classés en fonction de la requête)
– Exploitation des standards du W3C : entrepôts de données etc.
– Passage à l’échelle des index sémantiques …

Aussenac ri ia-2015

Contenu connexe

En vedette

Aussenac ri ia-2015