Apprentissage automatique pour
l'extraction de réseaux de régulation
géniques à partir d'articles
DigiCosme ‐ Groupe de travail D2K
Dialekti VALSAMOU ‐ 8 juin 2015
0
Plan de la présentation
1.  Du texte aux connaissances
Un cas typique d'IE : du texte à l'ontologie
2.  Le cas d'IE pour l'extraction d'un réseau, exemples de la vraie
vie
Challenge BioNLP '13, ma thèse, ...
3.  Approfondir en IE
Un système complet : du 0 au réseau (ou presque)
Apprentissage pour l'extraction de relations
Du texte aux connaissances
Un exemple sur les bacteries
Du texte aux connaissances
Un exemple sur les bacteries
Du texte aux connaissances
Un exemple sur les bacteries
IE pour l'extraction d'un réseau
Challenge BioNLP '13 : Tâche GRN, extraction d'un réseau
de régulation génique
IE pour l'extraction d'un réseau
Challenge BioNLP '13 : Tâche GRN, extraction d'un réseau
de régulation génique
IE pour l'extraction d'un réseau
Challenge BioNLP '13 : Tâche PC, Pathway curation
Réseau de régulation ailleurs :
IE pour l'extraction d'un réseau
Arabidopsis thaliana
Gene regulatory network for secondary cell wall biosynthesis in Arabidopsis root xylem. (Interactions)
IE pour l'extraction d'un réseau
Arabidopsis thaliana
Modèle de connaissance pour le réseau de régulation de la phase
de développement de la graine
Un cycle complet d' IE
Composantes
Un cycle complet d'IE
Architecture de la suite Alvis
Un cycle complet d'IE
Editeur en ligne d'annotations
Un cycle complet d'IE
Schéma et Modèle A.thaliana
Modèle de connaissance pour le réseau de régulation de la phase
de développement de la graine
Un cycle complet d'IE
Apprentissage Automatique
1.  Traitement linguistique :
lemmmatisation,
segmentation,
POS tagging
analyse syntactique,
...
2.  Extraction d'Entités Nommées
3.  Résolution d'anaphores et coréférences
4.  Extraction de relations (binaire) et événements (n‐naire)
Un cycle complet d'IE
Apprentissage Automatique
1.  Traitement linguistique
2.  Extraction d'Entités Nommées :
terminologies (source ou résultat),
ontologies, (source, alignement..)
règles,
apprentissage, ...
3.  Résolution d'anaphores et coréférences
4.  Extraction de relations (binaire) et événements (n‐naire)
Un cycle complet d'IE
Apprentissage Automatique
1.  Traitement linguistique
2.  Extraction d'Entités Nommées
3.  Résolution d'anaphores et coréférences :
systèmes de règles
4.  Extraction de relations (binaire) et événements (n‐naire)
Un cycle complet d'IE
Apprentissage Automatique
1.  Traitement linguistique
2.  Extraction d'Entités Nommées
3.  Résolution d'anaphores et coréférences
4.  Extraction de relations (binaire) et événements (n-naire) :
rel. binaires : entre deux arguments (entités)
événements : relations plus complèxes
approches à features ou à noyau (fonctions de similarité)
plusieurs type d'informations exploitées
pre‐traitement des données : syntaxe, surface, ..
sources et outils externes (semantique distributionnelle)
Un cycle complet d'IE
Extraction de Relations par AlvisRE
Approche à noyau, basée sur informations syntaxiques et
sémantiques
1.  Preparation de la représentation
Calcul de co‐occurrences
Chemin entre arguments sur le graphe de dépencences
syntaxiques
2.  Calcul de matrice de similarité
Fonction de similarité: alignement global de séquence
3.  Classification
SVM linéaire (Empirical Kernel Map)
Un cycle complet d'IE
Extraction de Relations par AlvisRE
Combine l'intuition d'une fonction de similarité...
Pas besoin de feature engineering
.. avec une représentation vectorielle
compatible avec les features supplémentaires
Chaque instance est représentée par
Un vecteur composé de la similarité entre cette instance et
tous les instances d'entraînement
Représentation
Un cycle complet d'IE
Extraction de Relations par AlvisRE
Représentation
Un cycle complet d'IE
Extraction de Relations par AlvisRE
Représentation
Un cycle complet d'IE
Extraction de Relations par AlvisRE
Représentation
Un cycle complet d'IE
Extraction de Relations par AlvisRE
Représentation
Un cycle complet d'IE
Extraction de Relations par AlvisRE
Représentation
Un cycle complet d'IE
Extraction de Relations par AlvisRE
Alignement
Un cycle complet d'IE
Extraction de Relations par AlvisRE
Results on Benchmarks
Un cycle complet d'IE
Extraction de Relations par AlvisRE
Corpus "Concurrence" AlvisRE
‐‐ PRE REC F1 PRE REC F1
LLL 70,9 95,4 79,7 63,3 77,1 69,5
BB 28 82 42 70 51 59
Un cycle complet d'IE
Moteur de recherche sémantique
merci!

Dialekti VALSAMOU - Presentation - 08 juin 2015