Presentation of Alaa Abi Haidar at the BnF Information Day

Reconnaissance d’entités nommées
et application sur les données de la { BnF
Alaa ABI HAIDAR, PhD

Aperçu de l'exposé
• Introduction: reconnaissance d’entités nommées (NER)
– Définition et motivation
• exemple: BnF et Europeana
• exemples: paternaires LiP6
– Solution(s) et problématique(s)
• Méthode UNERD
– Vue d’ensemble
– Désambiguïsassion contextuelle
– Résultats
• Applications et outils
– Nuage des mots à la Figaro
– Fleuve de la première guerre mondiale
– Soulignement automatique
– Outil d’annotation
• Mes recherches actuelles et futures

Reconnaissance d'entités nommées (1)
Définition:
L'étiquetage automatique des mots qui correspondent à des
concepts comme PERSONNE, LIEU et ORGANISATION
Motivation:
Indexation, résumé, classification thématique, analyse de
flux d’information, visualisation, enrichissement de la
lecture numérique ...

Exemple: BnF et Europeana Newspaper
Le Petit Parisien journal (1863-1944
) Fromat ALTO en open XML
Standard OCR text en iso-8859-1
<String ID="PAG_1_ST000001"
STYLEREFS="TXT_1" HPOS="132" VPOS="305"
HEIGHT="20" WIDTH="125" WC="0.99"
CONTENT="REGION"/><SP ID="PAG_1_SP000001"
HPOS="257" VPOS="304" WIDTH="20"/><String
ID="PAG_1_ST000002" STYLEREFS="TXT_1"
HPOS="277" VPOS="304" WIDTH="222"
HEIGHT="21" WC="0.98"
CONTENT="PABISIENNE."/><SP
ID="PAG_1_SP000002" HPOS="499" VPOS="304"
WIDTH="40"/><String ID="PAG_1_ST000003"
HEIGHT="20" WIDTH="40" WC="0.99"
CONTENT="Un"/><SP ID="PAG_1_SP000003"
HPOS="598" VPOS="303" WIDTH="18"/><String
ID="PAG_1_ST000004" STYLEREFS="TXT_1"
HPOS="616" VPOS="303" HEIGHT="23"
WIDTH="83" WC="0.99" CONTENT="temps"/><SP
HEIGHT="21" WIDTH="32" WC="0.99"
CONTENT="de"/></TextLine><TextLine
ID="PAG_1_TL000002" STYLEREFS="TXT_1"
HPOS="66" VPOS="331" HEIGHT="27"
WIDTH="682"><String ID="PAG_1_ST000006"
WIDTH="156" HEIGHT="26" WC="0.98"
CONTENT="Toussaint,"/><SP
HEIGHT="23" WIDTH="145" WC="0.99"
CONTENT="maussade,"/><SP
HEIGHT="20" WIDTH="103" WC="0.99"
CONTENT="humide"/>

Exemple: Autres Partenaires
Partenaires:
LOCUPLETO, JOUVES,
SEJER, Labex OBVIL, Paris
Sorbonne, Pitié Salpetriere
I2D3, iManga, ACTIALUNA,
CELSA Sorbonne
Exemple: modélisation des systèmes
immunitaires
identification des taux de prolifération, division et la
mortalité des cellules a partir des milliers des textes
Exemple: Rome et l’empire romain: Edition Nathan
Exemple: Labex OBVIL
identification d’auteur,
études stylistiques,
comparaison littéraire
Exemple: iManga
recommandation de
bibliothécaire et livre
Fromat EPUB et XML
Standard OCR text en iso-8859-1

Reconnaissance d’entités nommées (2)
Solutions:
• Supervisées
• Non-supervisées
• Semi-supervisées
Problématiques supervisées:
● Manque de données d’apprentissage et de
ressources humaines
● Spécificité des modules d’apprentissage
Problématiques non-supervisées:
• Ambiguïté: Paris LIEU, ORG ou PERSONNE?
• Limitation: Phénicie n’est pas dans le dictionnaire
• Bruit: 20BE2T et d’autres erreurs d’OCRisation
• Limite des mots: Fondation Fontaine de Charles de Gaule

Méthode UNERD (vue d’ensemble de la démarche scientifique)
Unsupervised Named Entity Recognition & Disambiguation
OCRisation
<String ID="PAG_1_ST000001"
STYLEREFS="TXT_1" HPOS="132"
VPOS="305" HEIGHT="20"
WIDTH="125" WC="0.99"
CONTENT="REGION"/><SP
ID="PAG_1_SP000001"
HPOS="257" VPOS="304"
WIDTH="20"/><String
ID="PAG_1_ST000002"
STYLEREFS="TXT_1" HPOS="277"
VPOS="304" WIDTH="222"
HEIGHT="21" WC="0.98"
CONTENT="PABISIENNE."/><SP
ID="PAG_1_SP000002"
HPOS="499" VPOS="304"
WIDTH="40"/><String
Étiquetage
Syntaxique
Recherche dans
les dictionnaires Apprentissage
Désambiguïsas
sion et
reconnaissance
machine sur les
entités sures
- ---
- -
- --- - ---
- ---- -- - -
Parametrisation
et optimisation
Prédiction
comparaison a
d’autres méthodes
Application
Apprentissage
Supervisé
Outil
d’annotation
Annotation Manuelle
Comparaison avec
l’annotation
manuelle

Méthode UNERD
Méthode d’apprentissage et de désambiguïsassion
Phase
d’apprentissag
e
Phase de
classification ou
de prédiction

Résultats UNERD
Comparaison avec la méthode supervisée de stanford sur textes de BnF
Comparaison avec les méthodes non-supervisée sur textes anglais CoNLL
● (S1) dictionnaire de Aleda uniquement
● (S2) utilise 75% de Manually Annotated Data (MAD) pour entrainer la
classification CRF avec l’outil de stanford et le reste pour valider
● (S3) come S2 mais avec l’aide du dictionnaire Aleda augmente les donnees
d’annotation pour l’apprentissage.
● (S4) comme S3, mais avec desambig. du UNERD avant l’entrainement
● (UNERD) Finallement notre mehode non-supervisee UNERD
Sum with BDpedia + YAGO2
0.6471
AdaBoost with BDpedia + YAGO2
0.614
DBpedia SpotLight* 0.419
BaLIE** 0.559

Application:
Nuage des mots à la Figaro
PE
R
LO
C
OR
G

Application [DÉMO]: Fleuve d’entités nommées
pendant la première guerre mondiale

Application [DÉMO]:
Soulignement automatique d’entités nommées

Mes recherches actuelles et futures
Outil d’annotation
+ Transcodage
Validation des méthodes:
● UNERD++
● Stanford CRF
● Clemens CRF
Semi-annotation
UNERD de 120
pages
Annotation
automatique
500M+
Applications
Visualisations
mois 1
Maintenance
mois 2 mois 3
mois 4 correction
Merci
27 November
1 October
31 January
alahay@alahay.org

Presentation of Alaa Abi Haidar at the BnF Information Day

Recommandé

Recommandé

Contenu connexe

Similaire à Presentation of Alaa Abi Haidar at the BnF Information Day

Similaire à Presentation of Alaa Abi Haidar at the BnF Information Day (18)

Plus de Europeana Newspapers

Plus de Europeana Newspapers (20)

Dernier

Dernier (19)

Presentation of Alaa Abi Haidar at the BnF Information Day