Successfully reported this slideshow.
Reconnaissance d’entités nommées 
et application sur les données de la { BnF 
Alaa ABI HAIDAR, PhD
Aperçu de l'exposé 
• Introduction: reconnaissance d’entités nommées (NER) 
– Définition et motivation 
• exemple: BnF et ...
Reconnaissance d'entités nommées (1) 
Définition: 
L'étiquetage automatique des mots qui correspondent à des 
concepts com...
Exemple: BnF et Europeana Newspaper 
Le Petit Parisien journal (1863-1944 
) Fromat ALTO en open XML 
Standard OCR text en...
Exemple: Autres Partenaires 
Partenaires: 
LOCUPLETO, JOUVES, 
SEJER, Labex OBVIL, Paris 
Sorbonne, Pitié Salpetriere 
I2D...
Reconnaissance d’entités nommées (2) 
Solutions: 
• Supervisées 
• Non-supervisées 
• Semi-supervisées 
Problématiques sup...
Méthode UNERD (vue d’ensemble de la démarche scientifique) 
Unsupervised Named Entity Recognition & Disambiguation 
OCRisa...
Méthode UNERD 
Méthode d’apprentissage et de désambiguïsassion 
Phase 
d’apprentissag 
e 
Phase de 
classification ou 
de ...
Résultats UNERD 
Comparaison avec la méthode supervisée de stanford sur textes de BnF 
Comparaison avec les méthodes non-s...
Application: 
Nuage des mots à la Figaro 
PE 
R 
LO 
C 
OR 
G
Application [DÉMO]: Fleuve d’entités nommées 
pendant la première guerre mondiale
Application [DÉMO]: 
Soulignement automatique d’entités nommées
Outil d’annotation [DÉMO]:
Mes recherches actuelles et futures 
Outil d’annotation 
+ Transcodage 
Validation des méthodes: 
● UNERD++ 
● Stanford CR...
Prochain SlideShare
Chargement dans…5
×

Presentation of Alaa Abi Haidar at the BnF Information Day

1 157 vues

Publié le

The presentation of Alaa Abi Haidar at the BnF Information Day for the Europeana Newspapers project (November 2014).

Publié dans : Formation
  • Soyez le premier à commenter

  • Soyez le premier à aimer ceci

Presentation of Alaa Abi Haidar at the BnF Information Day

  1. 1. Reconnaissance d’entités nommées et application sur les données de la { BnF Alaa ABI HAIDAR, PhD
  2. 2. Aperçu de l'exposé • Introduction: reconnaissance d’entités nommées (NER) – Définition et motivation • exemple: BnF et Europeana • exemples: paternaires LiP6 – Solution(s) et problématique(s) • Méthode UNERD – Vue d’ensemble – Désambiguïsassion contextuelle – Résultats • Applications et outils – Nuage des mots à la Figaro – Fleuve de la première guerre mondiale – Soulignement automatique – Outil d’annotation • Mes recherches actuelles et futures
  3. 3. Reconnaissance d'entités nommées (1) Définition: L'étiquetage automatique des mots qui correspondent à des concepts comme PERSONNE, LIEU et ORGANISATION Motivation: Indexation, résumé, classification thématique, analyse de flux d’information, visualisation, enrichissement de la lecture numérique ...
  4. 4. Exemple: BnF et Europeana Newspaper Le Petit Parisien journal (1863-1944 ) Fromat ALTO en open XML Standard OCR text en iso-8859-1 <String ID="PAG_1_ST000001" STYLEREFS="TXT_1" HPOS="132" VPOS="305" HEIGHT="20" WIDTH="125" WC="0.99" CONTENT="REGION"/><SP ID="PAG_1_SP000001" HPOS="257" VPOS="304" WIDTH="20"/><String ID="PAG_1_ST000002" STYLEREFS="TXT_1" HPOS="277" VPOS="304" WIDTH="222" HEIGHT="21" WC="0.98" CONTENT="PABISIENNE."/><SP ID="PAG_1_SP000002" HPOS="499" VPOS="304" WIDTH="40"/><String ID="PAG_1_ST000003" STYLEREFS="TXT_1" HPOS="558" VPOS="304" HEIGHT="20" WIDTH="40" WC="0.99" CONTENT="Un"/><SP ID="PAG_1_SP000003" HPOS="598" VPOS="303" WIDTH="18"/><String ID="PAG_1_ST000004" STYLEREFS="TXT_1" HPOS="616" VPOS="303" HEIGHT="23" WIDTH="83" WC="0.99" CONTENT="temps"/><SP ID="PAG_1_SP000004" HPOS="699" VPOS="301" WIDTH="19"/><String ID="PAG_1_ST000005" STYLEREFS="TXT_1" HPOS="718" VPOS="301" HEIGHT="21" WIDTH="32" WC="0.99" CONTENT="de"/></TextLine><TextLine ID="PAG_1_TL000002" STYLEREFS="TXT_1" HPOS="66" VPOS="331" HEIGHT="27" WIDTH="682"><String ID="PAG_1_ST000006" STYLEREFS="TXT_1" HPOS="98" VPOS="332" WIDTH="156" HEIGHT="26" WC="0.98" CONTENT="Toussaint,"/><SP ID="PAG_1_SP000005" HPOS="252" VPOS="333" WIDTH="22"/><String ID="PAG_1_ST000007" STYLEREFS="TXT_1" HPOS="274" VPOS="333" HEIGHT="23" WIDTH="145" WC="0.99" CONTENT="maussade,"/><SP ID="PAG_1_SP000006" HPOS="419" VPOS="332" WIDTH="23"/><String ID="PAG_1_ST000008" STYLEREFS="TXT_1" HPOS="442" VPOS="332" HEIGHT="20" WIDTH="103" WC="0.99" CONTENT="humide"/>
  5. 5. Exemple: Autres Partenaires Partenaires: LOCUPLETO, JOUVES, SEJER, Labex OBVIL, Paris Sorbonne, Pitié Salpetriere I2D3, iManga, ACTIALUNA, CELSA Sorbonne Exemple: modélisation des systèmes immunitaires identification des taux de prolifération, division et la mortalité des cellules a partir des milliers des textes Exemple: Rome et l’empire romain: Edition Nathan Exemple: Labex OBVIL identification d’auteur, études stylistiques, comparaison littéraire Exemple: iManga recommandation de bibliothécaire et livre Fromat EPUB et XML Standard OCR text en iso-8859-1
  6. 6. Reconnaissance d’entités nommées (2) Solutions: • Supervisées • Non-supervisées • Semi-supervisées Problématiques supervisées: ● Manque de données d’apprentissage et de ressources humaines ● Spécificité des modules d’apprentissage Problématiques non-supervisées: • Ambiguïté: Paris LIEU, ORG ou PERSONNE? • Limitation: Phénicie n’est pas dans le dictionnaire • Bruit: 20BE2T et d’autres erreurs d’OCRisation • Limite des mots: Fondation Fontaine de Charles de Gaule
  7. 7. Méthode UNERD (vue d’ensemble de la démarche scientifique) Unsupervised Named Entity Recognition & Disambiguation OCRisation <String ID="PAG_1_ST000001" STYLEREFS="TXT_1" HPOS="132" VPOS="305" HEIGHT="20" WIDTH="125" WC="0.99" CONTENT="REGION"/><SP ID="PAG_1_SP000001" HPOS="257" VPOS="304" WIDTH="20"/><String ID="PAG_1_ST000002" STYLEREFS="TXT_1" HPOS="277" VPOS="304" WIDTH="222" HEIGHT="21" WC="0.98" CONTENT="PABISIENNE."/><SP ID="PAG_1_SP000002" HPOS="499" VPOS="304" WIDTH="40"/><String Étiquetage Syntaxique Recherche dans les dictionnaires Apprentissage Désambiguïsas sion et reconnaissance machine sur les entités sures - --- - - - --- - --- - ---- -- - - Parametrisation et optimisation Prédiction comparaison a d’autres méthodes Application Apprentissage Supervisé Outil d’annotation Annotation Manuelle Comparaison avec l’annotation manuelle
  8. 8. Méthode UNERD Méthode d’apprentissage et de désambiguïsassion Phase d’apprentissag e Phase de classification ou de prédiction
  9. 9. Résultats UNERD Comparaison avec la méthode supervisée de stanford sur textes de BnF Comparaison avec les méthodes non-supervisée sur textes anglais CoNLL ● (S1) dictionnaire de Aleda uniquement ● (S2) utilise 75% de Manually Annotated Data (MAD) pour entrainer la classification CRF avec l’outil de stanford et le reste pour valider ● (S3) come S2 mais avec l’aide du dictionnaire Aleda augmente les donnees d’annotation pour l’apprentissage. ● (S4) comme S3, mais avec desambig. du UNERD avant l’entrainement ● (UNERD) Finallement notre mehode non-supervisee UNERD Sum with BDpedia + YAGO2 0.6471 AdaBoost with BDpedia + YAGO2 0.614 DBpedia SpotLight* 0.419 BaLIE** 0.559
  10. 10. Application: Nuage des mots à la Figaro PE R LO C OR G
  11. 11. Application [DÉMO]: Fleuve d’entités nommées pendant la première guerre mondiale
  12. 12. Application [DÉMO]: Soulignement automatique d’entités nommées
  13. 13. Outil d’annotation [DÉMO]:
  14. 14. Mes recherches actuelles et futures Outil d’annotation + Transcodage Validation des méthodes: ● UNERD++ ● Stanford CRF ● Clemens CRF Semi-annotation UNERD de 120 pages Annotation automatique 500M+ Applications Visualisations mois 1 Maintenance mois 2 mois 3 mois 4 correction Merci 27 November 1 October 31 January alahay@alahay.org

×