Reconnaissance d’entités nommées 
et application sur les données de la { BnF 
Alaa ABI HAIDAR, PhD
Aperçu de l'exposé 
• Introduction: reconnaissance d’entités nommées (NER) 
– Définition et motivation 
• exemple: BnF et Europeana 
• exemples: paternaires LiP6 
– Solution(s) et problématique(s) 
• Méthode UNERD 
– Vue d’ensemble 
– Désambiguïsassion contextuelle 
– Résultats 
• Applications et outils 
– Nuage des mots à la Figaro 
– Fleuve de la première guerre mondiale 
– Soulignement automatique 
– Outil d’annotation 
• Mes recherches actuelles et futures
Reconnaissance d'entités nommées (1) 
Définition: 
L'étiquetage automatique des mots qui correspondent à des 
concepts comme PERSONNE, LIEU et ORGANISATION 
Motivation: 
Indexation, résumé, classification thématique, analyse de 
flux d’information, visualisation, enrichissement de la 
lecture numérique ...
Exemple: BnF et Europeana Newspaper 
Le Petit Parisien journal (1863-1944 
) Fromat ALTO en open XML 
Standard OCR text en iso-8859-1 
<String ID="PAG_1_ST000001" 
STYLEREFS="TXT_1" HPOS="132" VPOS="305" 
HEIGHT="20" WIDTH="125" WC="0.99" 
CONTENT="REGION"/><SP ID="PAG_1_SP000001" 
HPOS="257" VPOS="304" WIDTH="20"/><String 
ID="PAG_1_ST000002" STYLEREFS="TXT_1" 
HPOS="277" VPOS="304" WIDTH="222" 
HEIGHT="21" WC="0.98" 
CONTENT="PABISIENNE."/><SP 
ID="PAG_1_SP000002" HPOS="499" VPOS="304" 
WIDTH="40"/><String ID="PAG_1_ST000003" 
STYLEREFS="TXT_1" HPOS="558" VPOS="304" 
HEIGHT="20" WIDTH="40" WC="0.99" 
CONTENT="Un"/><SP ID="PAG_1_SP000003" 
HPOS="598" VPOS="303" WIDTH="18"/><String 
ID="PAG_1_ST000004" STYLEREFS="TXT_1" 
HPOS="616" VPOS="303" HEIGHT="23" 
WIDTH="83" WC="0.99" CONTENT="temps"/><SP 
ID="PAG_1_SP000004" HPOS="699" VPOS="301" 
WIDTH="19"/><String ID="PAG_1_ST000005" 
STYLEREFS="TXT_1" HPOS="718" VPOS="301" 
HEIGHT="21" WIDTH="32" WC="0.99" 
CONTENT="de"/></TextLine><TextLine 
ID="PAG_1_TL000002" STYLEREFS="TXT_1" 
HPOS="66" VPOS="331" HEIGHT="27" 
WIDTH="682"><String ID="PAG_1_ST000006" 
STYLEREFS="TXT_1" HPOS="98" VPOS="332" 
WIDTH="156" HEIGHT="26" WC="0.98" 
CONTENT="Toussaint,"/><SP 
ID="PAG_1_SP000005" HPOS="252" VPOS="333" 
WIDTH="22"/><String ID="PAG_1_ST000007" 
STYLEREFS="TXT_1" HPOS="274" VPOS="333" 
HEIGHT="23" WIDTH="145" WC="0.99" 
CONTENT="maussade,"/><SP 
ID="PAG_1_SP000006" HPOS="419" VPOS="332" 
WIDTH="23"/><String ID="PAG_1_ST000008" 
STYLEREFS="TXT_1" HPOS="442" VPOS="332" 
HEIGHT="20" WIDTH="103" WC="0.99" 
CONTENT="humide"/>
Exemple: Autres Partenaires 
Partenaires: 
LOCUPLETO, JOUVES, 
SEJER, Labex OBVIL, Paris 
Sorbonne, Pitié Salpetriere 
I2D3, iManga, ACTIALUNA, 
CELSA Sorbonne 
Exemple: modélisation des systèmes 
immunitaires 
identification des taux de prolifération, division et la 
mortalité des cellules a partir des milliers des textes 
Exemple: Rome et l’empire romain: Edition Nathan 
Exemple: Labex OBVIL 
identification d’auteur, 
études stylistiques, 
comparaison littéraire 
Exemple: iManga 
recommandation de 
bibliothécaire et livre 
Fromat EPUB et XML 
Standard OCR text en iso-8859-1
Reconnaissance d’entités nommées (2) 
Solutions: 
• Supervisées 
• Non-supervisées 
• Semi-supervisées 
Problématiques supervisées: 
● Manque de données d’apprentissage et de 
ressources humaines 
● Spécificité des modules d’apprentissage 
Problématiques non-supervisées: 
• Ambiguïté: Paris LIEU, ORG ou PERSONNE? 
• Limitation: Phénicie n’est pas dans le dictionnaire 
• Bruit: 20BE2T et d’autres erreurs d’OCRisation 
• Limite des mots: Fondation Fontaine de Charles de Gaule
Méthode UNERD (vue d’ensemble de la démarche scientifique) 
Unsupervised Named Entity Recognition & Disambiguation 
OCRisation 
<String ID="PAG_1_ST000001" 
STYLEREFS="TXT_1" HPOS="132" 
VPOS="305" HEIGHT="20" 
WIDTH="125" WC="0.99" 
CONTENT="REGION"/><SP 
ID="PAG_1_SP000001" 
HPOS="257" VPOS="304" 
WIDTH="20"/><String 
ID="PAG_1_ST000002" 
STYLEREFS="TXT_1" HPOS="277" 
VPOS="304" WIDTH="222" 
HEIGHT="21" WC="0.98" 
CONTENT="PABISIENNE."/><SP 
ID="PAG_1_SP000002" 
HPOS="499" VPOS="304" 
WIDTH="40"/><String 
Étiquetage 
Syntaxique 
Recherche dans 
les dictionnaires Apprentissage 
Désambiguïsas 
sion et 
reconnaissance 
machine sur les 
entités sures 
- --- 
- - 
- --- - --- 
- ---- -- - - 
Parametrisation 
et optimisation 
Prédiction 
comparaison a 
d’autres méthodes 
Application 
Apprentissage 
Supervisé 
Outil 
d’annotation 
Annotation Manuelle 
Comparaison avec 
l’annotation 
manuelle
Méthode UNERD 
Méthode d’apprentissage et de désambiguïsassion 
Phase 
d’apprentissag 
e 
Phase de 
classification ou 
de prédiction
Résultats UNERD 
Comparaison avec la méthode supervisée de stanford sur textes de BnF 
Comparaison avec les méthodes non-supervisée sur textes anglais CoNLL 
● (S1) dictionnaire de Aleda uniquement 
● (S2) utilise 75% de Manually Annotated Data (MAD) pour entrainer la 
classification CRF avec l’outil de stanford et le reste pour valider 
● (S3) come S2 mais avec l’aide du dictionnaire Aleda augmente les donnees 
d’annotation pour l’apprentissage. 
● (S4) comme S3, mais avec desambig. du UNERD avant l’entrainement 
● (UNERD) Finallement notre mehode non-supervisee UNERD 
Sum with BDpedia + YAGO2 
0.6471 
AdaBoost with BDpedia + YAGO2 
0.614 
DBpedia SpotLight* 0.419 
BaLIE** 0.559
Application: 
Nuage des mots à la Figaro 
PE 
R 
LO 
C 
OR 
G
Application [DÉMO]: Fleuve d’entités nommées 
pendant la première guerre mondiale
Application [DÉMO]: 
Soulignement automatique d’entités nommées
Outil d’annotation [DÉMO]:
Mes recherches actuelles et futures 
Outil d’annotation 
+ Transcodage 
Validation des méthodes: 
● UNERD++ 
● Stanford CRF 
● Clemens CRF 
Semi-annotation 
UNERD de 120 
pages 
Annotation 
automatique 
500M+ 
Applications 
Visualisations 
mois 1 
Maintenance 
mois 2 mois 3 
mois 4 correction 
Merci 
27 November 
1 October 
31 January 
alahay@alahay.org

Presentation of Alaa Abi Haidar at the BnF Information Day

  • 1.
    Reconnaissance d’entités nommées et application sur les données de la { BnF Alaa ABI HAIDAR, PhD
  • 2.
    Aperçu de l'exposé • Introduction: reconnaissance d’entités nommées (NER) – Définition et motivation • exemple: BnF et Europeana • exemples: paternaires LiP6 – Solution(s) et problématique(s) • Méthode UNERD – Vue d’ensemble – Désambiguïsassion contextuelle – Résultats • Applications et outils – Nuage des mots à la Figaro – Fleuve de la première guerre mondiale – Soulignement automatique – Outil d’annotation • Mes recherches actuelles et futures
  • 3.
    Reconnaissance d'entités nommées(1) Définition: L'étiquetage automatique des mots qui correspondent à des concepts comme PERSONNE, LIEU et ORGANISATION Motivation: Indexation, résumé, classification thématique, analyse de flux d’information, visualisation, enrichissement de la lecture numérique ...
  • 4.
    Exemple: BnF etEuropeana Newspaper Le Petit Parisien journal (1863-1944 ) Fromat ALTO en open XML Standard OCR text en iso-8859-1 <String ID="PAG_1_ST000001" STYLEREFS="TXT_1" HPOS="132" VPOS="305" HEIGHT="20" WIDTH="125" WC="0.99" CONTENT="REGION"/><SP ID="PAG_1_SP000001" HPOS="257" VPOS="304" WIDTH="20"/><String ID="PAG_1_ST000002" STYLEREFS="TXT_1" HPOS="277" VPOS="304" WIDTH="222" HEIGHT="21" WC="0.98" CONTENT="PABISIENNE."/><SP ID="PAG_1_SP000002" HPOS="499" VPOS="304" WIDTH="40"/><String ID="PAG_1_ST000003" STYLEREFS="TXT_1" HPOS="558" VPOS="304" HEIGHT="20" WIDTH="40" WC="0.99" CONTENT="Un"/><SP ID="PAG_1_SP000003" HPOS="598" VPOS="303" WIDTH="18"/><String ID="PAG_1_ST000004" STYLEREFS="TXT_1" HPOS="616" VPOS="303" HEIGHT="23" WIDTH="83" WC="0.99" CONTENT="temps"/><SP ID="PAG_1_SP000004" HPOS="699" VPOS="301" WIDTH="19"/><String ID="PAG_1_ST000005" STYLEREFS="TXT_1" HPOS="718" VPOS="301" HEIGHT="21" WIDTH="32" WC="0.99" CONTENT="de"/></TextLine><TextLine ID="PAG_1_TL000002" STYLEREFS="TXT_1" HPOS="66" VPOS="331" HEIGHT="27" WIDTH="682"><String ID="PAG_1_ST000006" STYLEREFS="TXT_1" HPOS="98" VPOS="332" WIDTH="156" HEIGHT="26" WC="0.98" CONTENT="Toussaint,"/><SP ID="PAG_1_SP000005" HPOS="252" VPOS="333" WIDTH="22"/><String ID="PAG_1_ST000007" STYLEREFS="TXT_1" HPOS="274" VPOS="333" HEIGHT="23" WIDTH="145" WC="0.99" CONTENT="maussade,"/><SP ID="PAG_1_SP000006" HPOS="419" VPOS="332" WIDTH="23"/><String ID="PAG_1_ST000008" STYLEREFS="TXT_1" HPOS="442" VPOS="332" HEIGHT="20" WIDTH="103" WC="0.99" CONTENT="humide"/>
  • 5.
    Exemple: Autres Partenaires Partenaires: LOCUPLETO, JOUVES, SEJER, Labex OBVIL, Paris Sorbonne, Pitié Salpetriere I2D3, iManga, ACTIALUNA, CELSA Sorbonne Exemple: modélisation des systèmes immunitaires identification des taux de prolifération, division et la mortalité des cellules a partir des milliers des textes Exemple: Rome et l’empire romain: Edition Nathan Exemple: Labex OBVIL identification d’auteur, études stylistiques, comparaison littéraire Exemple: iManga recommandation de bibliothécaire et livre Fromat EPUB et XML Standard OCR text en iso-8859-1
  • 6.
    Reconnaissance d’entités nommées(2) Solutions: • Supervisées • Non-supervisées • Semi-supervisées Problématiques supervisées: ● Manque de données d’apprentissage et de ressources humaines ● Spécificité des modules d’apprentissage Problématiques non-supervisées: • Ambiguïté: Paris LIEU, ORG ou PERSONNE? • Limitation: Phénicie n’est pas dans le dictionnaire • Bruit: 20BE2T et d’autres erreurs d’OCRisation • Limite des mots: Fondation Fontaine de Charles de Gaule
  • 7.
    Méthode UNERD (vued’ensemble de la démarche scientifique) Unsupervised Named Entity Recognition & Disambiguation OCRisation <String ID="PAG_1_ST000001" STYLEREFS="TXT_1" HPOS="132" VPOS="305" HEIGHT="20" WIDTH="125" WC="0.99" CONTENT="REGION"/><SP ID="PAG_1_SP000001" HPOS="257" VPOS="304" WIDTH="20"/><String ID="PAG_1_ST000002" STYLEREFS="TXT_1" HPOS="277" VPOS="304" WIDTH="222" HEIGHT="21" WC="0.98" CONTENT="PABISIENNE."/><SP ID="PAG_1_SP000002" HPOS="499" VPOS="304" WIDTH="40"/><String Étiquetage Syntaxique Recherche dans les dictionnaires Apprentissage Désambiguïsas sion et reconnaissance machine sur les entités sures - --- - - - --- - --- - ---- -- - - Parametrisation et optimisation Prédiction comparaison a d’autres méthodes Application Apprentissage Supervisé Outil d’annotation Annotation Manuelle Comparaison avec l’annotation manuelle
  • 8.
    Méthode UNERD Méthoded’apprentissage et de désambiguïsassion Phase d’apprentissag e Phase de classification ou de prédiction
  • 9.
    Résultats UNERD Comparaisonavec la méthode supervisée de stanford sur textes de BnF Comparaison avec les méthodes non-supervisée sur textes anglais CoNLL ● (S1) dictionnaire de Aleda uniquement ● (S2) utilise 75% de Manually Annotated Data (MAD) pour entrainer la classification CRF avec l’outil de stanford et le reste pour valider ● (S3) come S2 mais avec l’aide du dictionnaire Aleda augmente les donnees d’annotation pour l’apprentissage. ● (S4) comme S3, mais avec desambig. du UNERD avant l’entrainement ● (UNERD) Finallement notre mehode non-supervisee UNERD Sum with BDpedia + YAGO2 0.6471 AdaBoost with BDpedia + YAGO2 0.614 DBpedia SpotLight* 0.419 BaLIE** 0.559
  • 10.
    Application: Nuage desmots à la Figaro PE R LO C OR G
  • 11.
    Application [DÉMO]: Fleuved’entités nommées pendant la première guerre mondiale
  • 12.
    Application [DÉMO]: Soulignementautomatique d’entités nommées
  • 13.
  • 14.
    Mes recherches actuelleset futures Outil d’annotation + Transcodage Validation des méthodes: ● UNERD++ ● Stanford CRF ● Clemens CRF Semi-annotation UNERD de 120 pages Annotation automatique 500M+ Applications Visualisations mois 1 Maintenance mois 2 mois 3 mois 4 correction Merci 27 November 1 October 31 January alahay@alahay.org