Presentation of Alaa Abi Haidar at the BnF Information Day

917 vues

Publié le

The presentation of Alaa Abi Haidar at the BnF Information Day for the Europeana Newspapers project (November 2014).

Publié dans : Formation
0 commentaire
0 j’aime
Statistiques
Remarques
  • Soyez le premier à commenter

  • Soyez le premier à aimer ceci

Aucun téléchargement
Vues
Nombre de vues
917
Sur SlideShare
0
Issues des intégrations
0
Intégrations
4
Actions
Partages
0
Téléchargements
5
Commentaires
0
J’aime
0
Intégrations 0
Aucune incorporation

Aucune remarque pour cette diapositive

Presentation of Alaa Abi Haidar at the BnF Information Day

  1. 1. Reconnaissance d’entités nommées et application sur les données de la { BnF Alaa ABI HAIDAR, PhD
  2. 2. Aperçu de l'exposé • Introduction: reconnaissance d’entités nommées (NER) – Définition et motivation • exemple: BnF et Europeana • exemples: paternaires LiP6 – Solution(s) et problématique(s) • Méthode UNERD – Vue d’ensemble – Désambiguïsassion contextuelle – Résultats • Applications et outils – Nuage des mots à la Figaro – Fleuve de la première guerre mondiale – Soulignement automatique – Outil d’annotation • Mes recherches actuelles et futures
  3. 3. Reconnaissance d'entités nommées (1) Définition: L'étiquetage automatique des mots qui correspondent à des concepts comme PERSONNE, LIEU et ORGANISATION Motivation: Indexation, résumé, classification thématique, analyse de flux d’information, visualisation, enrichissement de la lecture numérique ...
  4. 4. Exemple: BnF et Europeana Newspaper Le Petit Parisien journal (1863-1944 ) Fromat ALTO en open XML Standard OCR text en iso-8859-1 <String ID="PAG_1_ST000001" STYLEREFS="TXT_1" HPOS="132" VPOS="305" HEIGHT="20" WIDTH="125" WC="0.99" CONTENT="REGION"/><SP ID="PAG_1_SP000001" HPOS="257" VPOS="304" WIDTH="20"/><String ID="PAG_1_ST000002" STYLEREFS="TXT_1" HPOS="277" VPOS="304" WIDTH="222" HEIGHT="21" WC="0.98" CONTENT="PABISIENNE."/><SP ID="PAG_1_SP000002" HPOS="499" VPOS="304" WIDTH="40"/><String ID="PAG_1_ST000003" STYLEREFS="TXT_1" HPOS="558" VPOS="304" HEIGHT="20" WIDTH="40" WC="0.99" CONTENT="Un"/><SP ID="PAG_1_SP000003" HPOS="598" VPOS="303" WIDTH="18"/><String ID="PAG_1_ST000004" STYLEREFS="TXT_1" HPOS="616" VPOS="303" HEIGHT="23" WIDTH="83" WC="0.99" CONTENT="temps"/><SP ID="PAG_1_SP000004" HPOS="699" VPOS="301" WIDTH="19"/><String ID="PAG_1_ST000005" STYLEREFS="TXT_1" HPOS="718" VPOS="301" HEIGHT="21" WIDTH="32" WC="0.99" CONTENT="de"/></TextLine><TextLine ID="PAG_1_TL000002" STYLEREFS="TXT_1" HPOS="66" VPOS="331" HEIGHT="27" WIDTH="682"><String ID="PAG_1_ST000006" STYLEREFS="TXT_1" HPOS="98" VPOS="332" WIDTH="156" HEIGHT="26" WC="0.98" CONTENT="Toussaint,"/><SP ID="PAG_1_SP000005" HPOS="252" VPOS="333" WIDTH="22"/><String ID="PAG_1_ST000007" STYLEREFS="TXT_1" HPOS="274" VPOS="333" HEIGHT="23" WIDTH="145" WC="0.99" CONTENT="maussade,"/><SP ID="PAG_1_SP000006" HPOS="419" VPOS="332" WIDTH="23"/><String ID="PAG_1_ST000008" STYLEREFS="TXT_1" HPOS="442" VPOS="332" HEIGHT="20" WIDTH="103" WC="0.99" CONTENT="humide"/>
  5. 5. Exemple: Autres Partenaires Partenaires: LOCUPLETO, JOUVES, SEJER, Labex OBVIL, Paris Sorbonne, Pitié Salpetriere I2D3, iManga, ACTIALUNA, CELSA Sorbonne Exemple: modélisation des systèmes immunitaires identification des taux de prolifération, division et la mortalité des cellules a partir des milliers des textes Exemple: Rome et l’empire romain: Edition Nathan Exemple: Labex OBVIL identification d’auteur, études stylistiques, comparaison littéraire Exemple: iManga recommandation de bibliothécaire et livre Fromat EPUB et XML Standard OCR text en iso-8859-1
  6. 6. Reconnaissance d’entités nommées (2) Solutions: • Supervisées • Non-supervisées • Semi-supervisées Problématiques supervisées: ● Manque de données d’apprentissage et de ressources humaines ● Spécificité des modules d’apprentissage Problématiques non-supervisées: • Ambiguïté: Paris LIEU, ORG ou PERSONNE? • Limitation: Phénicie n’est pas dans le dictionnaire • Bruit: 20BE2T et d’autres erreurs d’OCRisation • Limite des mots: Fondation Fontaine de Charles de Gaule
  7. 7. Méthode UNERD (vue d’ensemble de la démarche scientifique) Unsupervised Named Entity Recognition & Disambiguation OCRisation <String ID="PAG_1_ST000001" STYLEREFS="TXT_1" HPOS="132" VPOS="305" HEIGHT="20" WIDTH="125" WC="0.99" CONTENT="REGION"/><SP ID="PAG_1_SP000001" HPOS="257" VPOS="304" WIDTH="20"/><String ID="PAG_1_ST000002" STYLEREFS="TXT_1" HPOS="277" VPOS="304" WIDTH="222" HEIGHT="21" WC="0.98" CONTENT="PABISIENNE."/><SP ID="PAG_1_SP000002" HPOS="499" VPOS="304" WIDTH="40"/><String Étiquetage Syntaxique Recherche dans les dictionnaires Apprentissage Désambiguïsas sion et reconnaissance machine sur les entités sures - --- - - - --- - --- - ---- -- - - Parametrisation et optimisation Prédiction comparaison a d’autres méthodes Application Apprentissage Supervisé Outil d’annotation Annotation Manuelle Comparaison avec l’annotation manuelle
  8. 8. Méthode UNERD Méthode d’apprentissage et de désambiguïsassion Phase d’apprentissag e Phase de classification ou de prédiction
  9. 9. Résultats UNERD Comparaison avec la méthode supervisée de stanford sur textes de BnF Comparaison avec les méthodes non-supervisée sur textes anglais CoNLL ● (S1) dictionnaire de Aleda uniquement ● (S2) utilise 75% de Manually Annotated Data (MAD) pour entrainer la classification CRF avec l’outil de stanford et le reste pour valider ● (S3) come S2 mais avec l’aide du dictionnaire Aleda augmente les donnees d’annotation pour l’apprentissage. ● (S4) comme S3, mais avec desambig. du UNERD avant l’entrainement ● (UNERD) Finallement notre mehode non-supervisee UNERD Sum with BDpedia + YAGO2 0.6471 AdaBoost with BDpedia + YAGO2 0.614 DBpedia SpotLight* 0.419 BaLIE** 0.559
  10. 10. Application: Nuage des mots à la Figaro PE R LO C OR G
  11. 11. Application [DÉMO]: Fleuve d’entités nommées pendant la première guerre mondiale
  12. 12. Application [DÉMO]: Soulignement automatique d’entités nommées
  13. 13. Outil d’annotation [DÉMO]:
  14. 14. Mes recherches actuelles et futures Outil d’annotation + Transcodage Validation des méthodes: ● UNERD++ ● Stanford CRF ● Clemens CRF Semi-annotation UNERD de 120 pages Annotation automatique 500M+ Applications Visualisations mois 1 Maintenance mois 2 mois 3 mois 4 correction Merci 27 November 1 October 31 January alahay@alahay.org

×