2. Aperçu de l'exposé
• Introduction: reconnaissance d’entités nommées (NER)
– Définition et motivation
• exemple: BnF et Europeana
• exemples: paternaires LiP6
– Solution(s) et problématique(s)
• Méthode UNERD
– Vue d’ensemble
– Désambiguïsassion contextuelle
– Résultats
• Applications et outils
– Nuage des mots à la Figaro
– Fleuve de la première guerre mondiale
– Soulignement automatique
– Outil d’annotation
• Mes recherches actuelles et futures
3. Reconnaissance d'entités nommées (1)
Définition:
L'étiquetage automatique des mots qui correspondent à des
concepts comme PERSONNE, LIEU et ORGANISATION
Motivation:
Indexation, résumé, classification thématique, analyse de
flux d’information, visualisation, enrichissement de la
lecture numérique ...
5. Exemple: Autres Partenaires
Partenaires:
LOCUPLETO, JOUVES,
SEJER, Labex OBVIL, Paris
Sorbonne, Pitié Salpetriere
I2D3, iManga, ACTIALUNA,
CELSA Sorbonne
Exemple: modélisation des systèmes
immunitaires
identification des taux de prolifération, division et la
mortalité des cellules a partir des milliers des textes
Exemple: Rome et l’empire romain: Edition Nathan
Exemple: Labex OBVIL
identification d’auteur,
études stylistiques,
comparaison littéraire
Exemple: iManga
recommandation de
bibliothécaire et livre
Fromat EPUB et XML
Standard OCR text en iso-8859-1
6. Reconnaissance d’entités nommées (2)
Solutions:
• Supervisées
• Non-supervisées
• Semi-supervisées
Problématiques supervisées:
● Manque de données d’apprentissage et de
ressources humaines
● Spécificité des modules d’apprentissage
Problématiques non-supervisées:
• Ambiguïté: Paris LIEU, ORG ou PERSONNE?
• Limitation: Phénicie n’est pas dans le dictionnaire
• Bruit: 20BE2T et d’autres erreurs d’OCRisation
• Limite des mots: Fondation Fontaine de Charles de Gaule
7. Méthode UNERD (vue d’ensemble de la démarche scientifique)
Unsupervised Named Entity Recognition & Disambiguation
OCRisation
<String ID="PAG_1_ST000001"
STYLEREFS="TXT_1" HPOS="132"
VPOS="305" HEIGHT="20"
WIDTH="125" WC="0.99"
CONTENT="REGION"/><SP
ID="PAG_1_SP000001"
HPOS="257" VPOS="304"
WIDTH="20"/><String
ID="PAG_1_ST000002"
STYLEREFS="TXT_1" HPOS="277"
VPOS="304" WIDTH="222"
HEIGHT="21" WC="0.98"
CONTENT="PABISIENNE."/><SP
ID="PAG_1_SP000002"
HPOS="499" VPOS="304"
WIDTH="40"/><String
Étiquetage
Syntaxique
Recherche dans
les dictionnaires Apprentissage
Désambiguïsas
sion et
reconnaissance
machine sur les
entités sures
- ---
- -
- --- - ---
- ---- -- - -
Parametrisation
et optimisation
Prédiction
comparaison a
d’autres méthodes
Application
Apprentissage
Supervisé
Outil
d’annotation
Annotation Manuelle
Comparaison avec
l’annotation
manuelle
8. Méthode UNERD
Méthode d’apprentissage et de désambiguïsassion
Phase
d’apprentissag
e
Phase de
classification ou
de prédiction
9. Résultats UNERD
Comparaison avec la méthode supervisée de stanford sur textes de BnF
Comparaison avec les méthodes non-supervisée sur textes anglais CoNLL
● (S1) dictionnaire de Aleda uniquement
● (S2) utilise 75% de Manually Annotated Data (MAD) pour entrainer la
classification CRF avec l’outil de stanford et le reste pour valider
● (S3) come S2 mais avec l’aide du dictionnaire Aleda augmente les donnees
d’annotation pour l’apprentissage.
● (S4) comme S3, mais avec desambig. du UNERD avant l’entrainement
● (UNERD) Finallement notre mehode non-supervisee UNERD
Sum with BDpedia + YAGO2
0.6471
AdaBoost with BDpedia + YAGO2
0.614
DBpedia SpotLight* 0.419
BaLIE** 0.559
14. Mes recherches actuelles et futures
Outil d’annotation
+ Transcodage
Validation des méthodes:
● UNERD++
● Stanford CRF
● Clemens CRF
Semi-annotation
UNERD de 120
pages
Annotation
automatique
500M+
Applications
Visualisations
mois 1
Maintenance
mois 2 mois 3
mois 4 correction
Merci
27 November
1 October
31 January
alahay@alahay.org