SlideShare une entreprise Scribd logo
1  sur  14
Reconnaissance d’entités nommées 
et application sur les données de la { BnF 
Alaa ABI HAIDAR, PhD
Aperçu de l'exposé 
• Introduction: reconnaissance d’entités nommées (NER) 
– Définition et motivation 
• exemple: BnF et Europeana 
• exemples: paternaires LiP6 
– Solution(s) et problématique(s) 
• Méthode UNERD 
– Vue d’ensemble 
– Désambiguïsassion contextuelle 
– Résultats 
• Applications et outils 
– Nuage des mots à la Figaro 
– Fleuve de la première guerre mondiale 
– Soulignement automatique 
– Outil d’annotation 
• Mes recherches actuelles et futures
Reconnaissance d'entités nommées (1) 
Définition: 
L'étiquetage automatique des mots qui correspondent à des 
concepts comme PERSONNE, LIEU et ORGANISATION 
Motivation: 
Indexation, résumé, classification thématique, analyse de 
flux d’information, visualisation, enrichissement de la 
lecture numérique ...
Exemple: BnF et Europeana Newspaper 
Le Petit Parisien journal (1863-1944 
) Fromat ALTO en open XML 
Standard OCR text en iso-8859-1 
<String ID="PAG_1_ST000001" 
STYLEREFS="TXT_1" HPOS="132" VPOS="305" 
HEIGHT="20" WIDTH="125" WC="0.99" 
CONTENT="REGION"/><SP ID="PAG_1_SP000001" 
HPOS="257" VPOS="304" WIDTH="20"/><String 
ID="PAG_1_ST000002" STYLEREFS="TXT_1" 
HPOS="277" VPOS="304" WIDTH="222" 
HEIGHT="21" WC="0.98" 
CONTENT="PABISIENNE."/><SP 
ID="PAG_1_SP000002" HPOS="499" VPOS="304" 
WIDTH="40"/><String ID="PAG_1_ST000003" 
STYLEREFS="TXT_1" HPOS="558" VPOS="304" 
HEIGHT="20" WIDTH="40" WC="0.99" 
CONTENT="Un"/><SP ID="PAG_1_SP000003" 
HPOS="598" VPOS="303" WIDTH="18"/><String 
ID="PAG_1_ST000004" STYLEREFS="TXT_1" 
HPOS="616" VPOS="303" HEIGHT="23" 
WIDTH="83" WC="0.99" CONTENT="temps"/><SP 
ID="PAG_1_SP000004" HPOS="699" VPOS="301" 
WIDTH="19"/><String ID="PAG_1_ST000005" 
STYLEREFS="TXT_1" HPOS="718" VPOS="301" 
HEIGHT="21" WIDTH="32" WC="0.99" 
CONTENT="de"/></TextLine><TextLine 
ID="PAG_1_TL000002" STYLEREFS="TXT_1" 
HPOS="66" VPOS="331" HEIGHT="27" 
WIDTH="682"><String ID="PAG_1_ST000006" 
STYLEREFS="TXT_1" HPOS="98" VPOS="332" 
WIDTH="156" HEIGHT="26" WC="0.98" 
CONTENT="Toussaint,"/><SP 
ID="PAG_1_SP000005" HPOS="252" VPOS="333" 
WIDTH="22"/><String ID="PAG_1_ST000007" 
STYLEREFS="TXT_1" HPOS="274" VPOS="333" 
HEIGHT="23" WIDTH="145" WC="0.99" 
CONTENT="maussade,"/><SP 
ID="PAG_1_SP000006" HPOS="419" VPOS="332" 
WIDTH="23"/><String ID="PAG_1_ST000008" 
STYLEREFS="TXT_1" HPOS="442" VPOS="332" 
HEIGHT="20" WIDTH="103" WC="0.99" 
CONTENT="humide"/>
Exemple: Autres Partenaires 
Partenaires: 
LOCUPLETO, JOUVES, 
SEJER, Labex OBVIL, Paris 
Sorbonne, Pitié Salpetriere 
I2D3, iManga, ACTIALUNA, 
CELSA Sorbonne 
Exemple: modélisation des systèmes 
immunitaires 
identification des taux de prolifération, division et la 
mortalité des cellules a partir des milliers des textes 
Exemple: Rome et l’empire romain: Edition Nathan 
Exemple: Labex OBVIL 
identification d’auteur, 
études stylistiques, 
comparaison littéraire 
Exemple: iManga 
recommandation de 
bibliothécaire et livre 
Fromat EPUB et XML 
Standard OCR text en iso-8859-1
Reconnaissance d’entités nommées (2) 
Solutions: 
• Supervisées 
• Non-supervisées 
• Semi-supervisées 
Problématiques supervisées: 
● Manque de données d’apprentissage et de 
ressources humaines 
● Spécificité des modules d’apprentissage 
Problématiques non-supervisées: 
• Ambiguïté: Paris LIEU, ORG ou PERSONNE? 
• Limitation: Phénicie n’est pas dans le dictionnaire 
• Bruit: 20BE2T et d’autres erreurs d’OCRisation 
• Limite des mots: Fondation Fontaine de Charles de Gaule
Méthode UNERD (vue d’ensemble de la démarche scientifique) 
Unsupervised Named Entity Recognition & Disambiguation 
OCRisation 
<String ID="PAG_1_ST000001" 
STYLEREFS="TXT_1" HPOS="132" 
VPOS="305" HEIGHT="20" 
WIDTH="125" WC="0.99" 
CONTENT="REGION"/><SP 
ID="PAG_1_SP000001" 
HPOS="257" VPOS="304" 
WIDTH="20"/><String 
ID="PAG_1_ST000002" 
STYLEREFS="TXT_1" HPOS="277" 
VPOS="304" WIDTH="222" 
HEIGHT="21" WC="0.98" 
CONTENT="PABISIENNE."/><SP 
ID="PAG_1_SP000002" 
HPOS="499" VPOS="304" 
WIDTH="40"/><String 
Étiquetage 
Syntaxique 
Recherche dans 
les dictionnaires Apprentissage 
Désambiguïsas 
sion et 
reconnaissance 
machine sur les 
entités sures 
- --- 
- - 
- --- - --- 
- ---- -- - - 
Parametrisation 
et optimisation 
Prédiction 
comparaison a 
d’autres méthodes 
Application 
Apprentissage 
Supervisé 
Outil 
d’annotation 
Annotation Manuelle 
Comparaison avec 
l’annotation 
manuelle
Méthode UNERD 
Méthode d’apprentissage et de désambiguïsassion 
Phase 
d’apprentissag 
e 
Phase de 
classification ou 
de prédiction
Résultats UNERD 
Comparaison avec la méthode supervisée de stanford sur textes de BnF 
Comparaison avec les méthodes non-supervisée sur textes anglais CoNLL 
● (S1) dictionnaire de Aleda uniquement 
● (S2) utilise 75% de Manually Annotated Data (MAD) pour entrainer la 
classification CRF avec l’outil de stanford et le reste pour valider 
● (S3) come S2 mais avec l’aide du dictionnaire Aleda augmente les donnees 
d’annotation pour l’apprentissage. 
● (S4) comme S3, mais avec desambig. du UNERD avant l’entrainement 
● (UNERD) Finallement notre mehode non-supervisee UNERD 
Sum with BDpedia + YAGO2 
0.6471 
AdaBoost with BDpedia + YAGO2 
0.614 
DBpedia SpotLight* 0.419 
BaLIE** 0.559
Application: 
Nuage des mots à la Figaro 
PE 
R 
LO 
C 
OR 
G
Application [DÉMO]: Fleuve d’entités nommées 
pendant la première guerre mondiale
Application [DÉMO]: 
Soulignement automatique d’entités nommées
Outil d’annotation [DÉMO]:
Mes recherches actuelles et futures 
Outil d’annotation 
+ Transcodage 
Validation des méthodes: 
● UNERD++ 
● Stanford CRF 
● Clemens CRF 
Semi-annotation 
UNERD de 120 
pages 
Annotation 
automatique 
500M+ 
Applications 
Visualisations 
mois 1 
Maintenance 
mois 2 mois 3 
mois 4 correction 
Merci 
27 November 
1 October 
31 January 
alahay@alahay.org

Contenu connexe

Similaire à Presentation of Alaa Abi Haidar at the BnF Information Day

Métadonnées de thèse
Métadonnées de thèseMétadonnées de thèse
Métadonnées de thèseY. Nicolas
 
Référentiel et Moteur de Recherche
Référentiel et Moteur de RechercheRéférentiel et Moteur de Recherche
Référentiel et Moteur de RechercheAntidot
 
Gérer l’information d’une démarche scientifique
Gérer l’information d’une démarche scientifiqueGérer l’information d’une démarche scientifique
Gérer l’information d’une démarche scientifiqueJean-Marie Monget
 
Panorama des logiciels de gestion de références bibliographiques
Panorama des logiciels de gestion de références bibliographiquesPanorama des logiciels de gestion de références bibliographiques
Panorama des logiciels de gestion de références bibliographiquesURFIST de Paris
 
ResearcherID, ORCID, IdHAL... Enjeux et perspectives des identifiants chercheur
ResearcherID, ORCID, IdHAL... Enjeux et perspectives des identifiants chercheurResearcherID, ORCID, IdHAL... Enjeux et perspectives des identifiants chercheur
ResearcherID, ORCID, IdHAL... Enjeux et perspectives des identifiants chercheurURFIST de Paris
 
Pérennisation et mise à disposition des données de l’Observatoire de recherch...
Pérennisation et mise à disposition des données de l’Observatoire de recherch...Pérennisation et mise à disposition des données de l’Observatoire de recherch...
Pérennisation et mise à disposition des données de l’Observatoire de recherch...Lesticetlart Invisu
 
Ontologies, web de données et SKOS transformation
Ontologies, web de données et SKOS transformationOntologies, web de données et SKOS transformation
Ontologies, web de données et SKOS transformationcatherine roussey
 
La recherche documentaire sur moteurs de recherche et bases de données
La recherche documentaire sur moteurs de recherche et bases de donnéesLa recherche documentaire sur moteurs de recherche et bases de données
La recherche documentaire sur moteurs de recherche et bases de donnéesLatour Marie
 
Formation recherche d'article de périodiques
Formation recherche d'article de périodiquesFormation recherche d'article de périodiques
Formation recherche d'article de périodiquesadeleflannery
 
Sudoc, Calames, theses.fr et le Web de données
Sudoc, Calames, theses.fr et le Web de donnéesSudoc, Calames, theses.fr et le Web de données
Sudoc, Calames, theses.fr et le Web de donnéesY. Nicolas
 
Introduction aux systèmes de recommandation part 3.pptx
Introduction aux systèmes  de recommandation part 3.pptxIntroduction aux systèmes  de recommandation part 3.pptx
Introduction aux systèmes de recommandation part 3.pptxbahija babzine
 
Définition des besoins et des spécifications du milieu documentaire
Définition des besoins et des spécifications du milieu documentaireDéfinition des besoins et des spécifications du milieu documentaire
Définition des besoins et des spécifications du milieu documentairefolkthes
 
Gestion des références bibliographiques
Gestion des références bibliographiquesGestion des références bibliographiques
Gestion des références bibliographiquesbibbh08
 
Quelques_cles pour_la_recherche_documentaire
Quelques_cles pour_la_recherche_documentaireQuelques_cles pour_la_recherche_documentaire
Quelques_cles pour_la_recherche_documentaireABES
 

Similaire à Presentation of Alaa Abi Haidar at the BnF Information Day (18)

Métadonnées de thèse
Métadonnées de thèseMétadonnées de thèse
Métadonnées de thèse
 
Référentiel et Moteur de Recherche
Référentiel et Moteur de RechercheRéférentiel et Moteur de Recherche
Référentiel et Moteur de Recherche
 
Gérer l’information d’une démarche scientifique
Gérer l’information d’une démarche scientifiqueGérer l’information d’une démarche scientifique
Gérer l’information d’une démarche scientifique
 
Introduction à la fouille de textes et positionnement de l'offre logicielle
Introduction à la fouille de textes et positionnement de l'offre logicielleIntroduction à la fouille de textes et positionnement de l'offre logicielle
Introduction à la fouille de textes et positionnement de l'offre logicielle
 
Polytech geii sept2016
Polytech geii sept2016Polytech geii sept2016
Polytech geii sept2016
 
Panorama des logiciels de gestion de références bibliographiques
Panorama des logiciels de gestion de références bibliographiquesPanorama des logiciels de gestion de références bibliographiques
Panorama des logiciels de gestion de références bibliographiques
 
ResearcherID, ORCID, IdHAL... Enjeux et perspectives des identifiants chercheur
ResearcherID, ORCID, IdHAL... Enjeux et perspectives des identifiants chercheurResearcherID, ORCID, IdHAL... Enjeux et perspectives des identifiants chercheur
ResearcherID, ORCID, IdHAL... Enjeux et perspectives des identifiants chercheur
 
Pérennisation et mise à disposition des données de l’Observatoire de recherch...
Pérennisation et mise à disposition des données de l’Observatoire de recherch...Pérennisation et mise à disposition des données de l’Observatoire de recherch...
Pérennisation et mise à disposition des données de l’Observatoire de recherch...
 
Ontologies, web de données et SKOS transformation
Ontologies, web de données et SKOS transformationOntologies, web de données et SKOS transformation
Ontologies, web de données et SKOS transformation
 
La recherche documentaire sur moteurs de recherche et bases de données
La recherche documentaire sur moteurs de recherche et bases de donnéesLa recherche documentaire sur moteurs de recherche et bases de données
La recherche documentaire sur moteurs de recherche et bases de données
 
Semantic web introduction
Semantic web introductionSemantic web introduction
Semantic web introduction
 
Formation recherche d'article de périodiques
Formation recherche d'article de périodiquesFormation recherche d'article de périodiques
Formation recherche d'article de périodiques
 
Sudoc, Calames, theses.fr et le Web de données
Sudoc, Calames, theses.fr et le Web de donnéesSudoc, Calames, theses.fr et le Web de données
Sudoc, Calames, theses.fr et le Web de données
 
Introduction aux systèmes de recommandation part 3.pptx
Introduction aux systèmes  de recommandation part 3.pptxIntroduction aux systèmes  de recommandation part 3.pptx
Introduction aux systèmes de recommandation part 3.pptx
 
Définition des besoins et des spécifications du milieu documentaire
Définition des besoins et des spécifications du milieu documentaireDéfinition des besoins et des spécifications du milieu documentaire
Définition des besoins et des spécifications du milieu documentaire
 
Gestion des références bibliographiques
Gestion des références bibliographiquesGestion des références bibliographiques
Gestion des références bibliographiques
 
Skos transformation
Skos transformationSkos transformation
Skos transformation
 
Quelques_cles pour_la_recherche_documentaire
Quelques_cles pour_la_recherche_documentaireQuelques_cles pour_la_recherche_documentaire
Quelques_cles pour_la_recherche_documentaire
 

Plus de Europeana Newspapers

Presentation of Philippe Mezzasalma at the BnF Information Day in Paris
Presentation of Philippe Mezzasalma at the BnF Information Day in ParisPresentation of Philippe Mezzasalma at the BnF Information Day in Paris
Presentation of Philippe Mezzasalma at the BnF Information Day in ParisEuropeana Newspapers
 
Presentation of Ioannis Anagnostopoulos at BnF Information Day
Presentation of Ioannis Anagnostopoulos at BnF Information DayPresentation of Ioannis Anagnostopoulos at BnF Information Day
Presentation of Ioannis Anagnostopoulos at BnF Information DayEuropeana Newspapers
 
Presentation of Clemens Neudecker, BnF Information Day
Presentation of Clemens Neudecker, BnF Information DayPresentation of Clemens Neudecker, BnF Information Day
Presentation of Clemens Neudecker, BnF Information DayEuropeana Newspapers
 
Presentation of Hans-Jörg Lieder, BnF Information Day
Presentation of Hans-Jörg Lieder, BnF Information DayPresentation of Hans-Jörg Lieder, BnF Information Day
Presentation of Hans-Jörg Lieder, BnF Information DayEuropeana Newspapers
 
Présentation Günter Mühlberger, BnF Information Day
Présentation Günter Mühlberger, BnF Information DayPrésentation Günter Mühlberger, BnF Information Day
Présentation Günter Mühlberger, BnF Information DayEuropeana Newspapers
 
Presentation of Claus Gravenhorst, BnF Information Day
Presentation of Claus Gravenhorst, BnF Information DayPresentation of Claus Gravenhorst, BnF Information Day
Presentation of Claus Gravenhorst, BnF Information DayEuropeana Newspapers
 
IFLA 2014 Europeana Newspapers Rossitza Atanassova
IFLA 2014 Europeana Newspapers Rossitza AtanassovaIFLA 2014 Europeana Newspapers Rossitza Atanassova
IFLA 2014 Europeana Newspapers Rossitza AtanassovaEuropeana Newspapers
 
Europeana Newspapers Estonian Infoday Ragne Kouts
Europeana Newspapers Estonian Infoday Ragne KoutsEuropeana Newspapers Estonian Infoday Ragne Kouts
Europeana Newspapers Estonian Infoday Ragne KoutsEuropeana Newspapers
 
Europeana Newspapers Estonian Infoday Kristel Veimann
Europeana Newspapers Estonian Infoday Kristel VeimannEuropeana Newspapers Estonian Infoday Kristel Veimann
Europeana Newspapers Estonian Infoday Kristel VeimannEuropeana Newspapers
 
Europeana Newspapers Estonian Infoday Krista Kiisa
Europeana Newspapers Estonian Infoday Krista KiisaEuropeana Newspapers Estonian Infoday Krista Kiisa
Europeana Newspapers Estonian Infoday Krista KiisaEuropeana Newspapers
 
Europeana Newspapers Estonian Infoday Krista Aru
Europeana Newspapers Estonian Infoday Krista AruEuropeana Newspapers Estonian Infoday Krista Aru
Europeana Newspapers Estonian Infoday Krista AruEuropeana Newspapers
 
Europeana Newspapers Estonian Infoday Fred Puss
Europeana Newspapers Estonian Infoday Fred PussEuropeana Newspapers Estonian Infoday Fred Puss
Europeana Newspapers Estonian Infoday Fred PussEuropeana Newspapers
 
Europeana Newpapers LFT Infoday Neudecker
Europeana Newpapers LFT Infoday NeudeckerEuropeana Newpapers LFT Infoday Neudecker
Europeana Newpapers LFT Infoday NeudeckerEuropeana Newspapers
 
Europeana Newspapers LFT Infoday Thompson
Europeana Newspapers LFT Infoday ThompsonEuropeana Newspapers LFT Infoday Thompson
Europeana Newspapers LFT Infoday ThompsonEuropeana Newspapers
 
Europeana Newspapers LFT Infoday Rossi
Europeana Newspapers LFT Infoday RossiEuropeana Newspapers LFT Infoday Rossi
Europeana Newspapers LFT Infoday RossiEuropeana Newspapers
 
Europeana Newspapers LFT Infoday Muehlberger
Europeana Newspapers LFT Infoday MuehlbergerEuropeana Newspapers LFT Infoday Muehlberger
Europeana Newspapers LFT Infoday MuehlbergerEuropeana Newspapers
 
Europeana Newspapers LFT Infoday Messina
Europeana Newspapers LFT Infoday MessinaEuropeana Newspapers LFT Infoday Messina
Europeana Newspapers LFT Infoday MessinaEuropeana Newspapers
 
Europeana Newspapers Infoday Marchetti
Europeana Newspapers Infoday MarchettiEuropeana Newspapers Infoday Marchetti
Europeana Newspapers Infoday MarchettiEuropeana Newspapers
 
Europeana Newspapers LFT Infoday Kempf
Europeana Newspapers LFT Infoday KempfEuropeana Newspapers LFT Infoday Kempf
Europeana Newspapers LFT Infoday KempfEuropeana Newspapers
 

Plus de Europeana Newspapers (20)

Presentation of Philippe Mezzasalma at the BnF Information Day in Paris
Presentation of Philippe Mezzasalma at the BnF Information Day in ParisPresentation of Philippe Mezzasalma at the BnF Information Day in Paris
Presentation of Philippe Mezzasalma at the BnF Information Day in Paris
 
Presentation of Ioannis Anagnostopoulos at BnF Information Day
Presentation of Ioannis Anagnostopoulos at BnF Information DayPresentation of Ioannis Anagnostopoulos at BnF Information Day
Presentation of Ioannis Anagnostopoulos at BnF Information Day
 
Presentation of Clemens Neudecker, BnF Information Day
Presentation of Clemens Neudecker, BnF Information DayPresentation of Clemens Neudecker, BnF Information Day
Presentation of Clemens Neudecker, BnF Information Day
 
Presentation of Hans-Jörg Lieder, BnF Information Day
Presentation of Hans-Jörg Lieder, BnF Information DayPresentation of Hans-Jörg Lieder, BnF Information Day
Presentation of Hans-Jörg Lieder, BnF Information Day
 
Présentation Günter Mühlberger, BnF Information Day
Présentation Günter Mühlberger, BnF Information DayPrésentation Günter Mühlberger, BnF Information Day
Présentation Günter Mühlberger, BnF Information Day
 
Presentation of Claus Gravenhorst, BnF Information Day
Presentation of Claus Gravenhorst, BnF Information DayPresentation of Claus Gravenhorst, BnF Information Day
Presentation of Claus Gravenhorst, BnF Information Day
 
IFLA 2014 Europeana Newspapers Rossitza Atanassova
IFLA 2014 Europeana Newspapers Rossitza AtanassovaIFLA 2014 Europeana Newspapers Rossitza Atanassova
IFLA 2014 Europeana Newspapers Rossitza Atanassova
 
Europeana Newspapers Estonian Infoday Ragne Kouts
Europeana Newspapers Estonian Infoday Ragne KoutsEuropeana Newspapers Estonian Infoday Ragne Kouts
Europeana Newspapers Estonian Infoday Ragne Kouts
 
Europeana Newspapers Estonian Infoday Kristel Veimann
Europeana Newspapers Estonian Infoday Kristel VeimannEuropeana Newspapers Estonian Infoday Kristel Veimann
Europeana Newspapers Estonian Infoday Kristel Veimann
 
Europeana Newspapers Estonian Infoday Krista Kiisa
Europeana Newspapers Estonian Infoday Krista KiisaEuropeana Newspapers Estonian Infoday Krista Kiisa
Europeana Newspapers Estonian Infoday Krista Kiisa
 
Europeana Newspapers Estonian Infoday Krista Aru
Europeana Newspapers Estonian Infoday Krista AruEuropeana Newspapers Estonian Infoday Krista Aru
Europeana Newspapers Estonian Infoday Krista Aru
 
Europeana Newspapers Estonian Infoday Fred Puss
Europeana Newspapers Estonian Infoday Fred PussEuropeana Newspapers Estonian Infoday Fred Puss
Europeana Newspapers Estonian Infoday Fred Puss
 
Europeana Newpapers LFT Infoday Neudecker
Europeana Newpapers LFT Infoday NeudeckerEuropeana Newpapers LFT Infoday Neudecker
Europeana Newpapers LFT Infoday Neudecker
 
Europeana Newspapers LFT Infoday Thompson
Europeana Newspapers LFT Infoday ThompsonEuropeana Newspapers LFT Infoday Thompson
Europeana Newspapers LFT Infoday Thompson
 
Europeana Newspapers LFT Infoday Rossi
Europeana Newspapers LFT Infoday RossiEuropeana Newspapers LFT Infoday Rossi
Europeana Newspapers LFT Infoday Rossi
 
Enp lft infoday_neudecker
Enp lft infoday_neudeckerEnp lft infoday_neudecker
Enp lft infoday_neudecker
 
Europeana Newspapers LFT Infoday Muehlberger
Europeana Newspapers LFT Infoday MuehlbergerEuropeana Newspapers LFT Infoday Muehlberger
Europeana Newspapers LFT Infoday Muehlberger
 
Europeana Newspapers LFT Infoday Messina
Europeana Newspapers LFT Infoday MessinaEuropeana Newspapers LFT Infoday Messina
Europeana Newspapers LFT Infoday Messina
 
Europeana Newspapers Infoday Marchetti
Europeana Newspapers Infoday MarchettiEuropeana Newspapers Infoday Marchetti
Europeana Newspapers Infoday Marchetti
 
Europeana Newspapers LFT Infoday Kempf
Europeana Newspapers LFT Infoday KempfEuropeana Newspapers LFT Infoday Kempf
Europeana Newspapers LFT Infoday Kempf
 

Dernier

Bibdoc 2024 - Ecologie du livre et creation de badge.pdf
Bibdoc 2024 - Ecologie du livre et creation de badge.pdfBibdoc 2024 - Ecologie du livre et creation de badge.pdf
Bibdoc 2024 - Ecologie du livre et creation de badge.pdfBibdoc 37
 
LA MONTÉE DE L'ÉDUCATION DANS LE MONDE DE LA PRÉHISTOIRE À L'ÈRE CONTEMPORAIN...
LA MONTÉE DE L'ÉDUCATION DANS LE MONDE DE LA PRÉHISTOIRE À L'ÈRE CONTEMPORAIN...LA MONTÉE DE L'ÉDUCATION DANS LE MONDE DE LA PRÉHISTOIRE À L'ÈRE CONTEMPORAIN...
LA MONTÉE DE L'ÉDUCATION DANS LE MONDE DE LA PRÉHISTOIRE À L'ÈRE CONTEMPORAIN...Faga1939
 
Zotero avancé - support de formation doctorants SHS 2024
Zotero avancé - support de formation doctorants SHS 2024Zotero avancé - support de formation doctorants SHS 2024
Zotero avancé - support de formation doctorants SHS 2024Alain Marois
 
SciencesPo_Aix_InnovationPédagogique_Atelier_IA.pdf
SciencesPo_Aix_InnovationPédagogique_Atelier_IA.pdfSciencesPo_Aix_InnovationPédagogique_Atelier_IA.pdf
SciencesPo_Aix_InnovationPédagogique_Atelier_IA.pdfSKennel
 
PIE-A2-P4-support stagiaires sept 22-validé.pdf
PIE-A2-P4-support stagiaires sept 22-validé.pdfPIE-A2-P4-support stagiaires sept 22-validé.pdf
PIE-A2-P4-support stagiaires sept 22-validé.pdfRiDaHAziz
 
Bibdoc 2024 - Les maillons de la chaine du livre face aux enjeux écologiques.pdf
Bibdoc 2024 - Les maillons de la chaine du livre face aux enjeux écologiques.pdfBibdoc 2024 - Les maillons de la chaine du livre face aux enjeux écologiques.pdf
Bibdoc 2024 - Les maillons de la chaine du livre face aux enjeux écologiques.pdfBibdoc 37
 
Cours SE Gestion des périphériques - IG IPSET
Cours SE Gestion des périphériques - IG IPSETCours SE Gestion des périphériques - IG IPSET
Cours SE Gestion des périphériques - IG IPSETMedBechir
 
SciencesPo_Aix_InnovationPédagogique_Conférence_SK.pdf
SciencesPo_Aix_InnovationPédagogique_Conférence_SK.pdfSciencesPo_Aix_InnovationPédagogique_Conférence_SK.pdf
SciencesPo_Aix_InnovationPédagogique_Conférence_SK.pdfSKennel
 
Cours SE Le système Linux : La ligne de commande bash - IG IPSET
Cours SE Le système Linux : La ligne de commande bash - IG IPSETCours SE Le système Linux : La ligne de commande bash - IG IPSET
Cours SE Le système Linux : La ligne de commande bash - IG IPSETMedBechir
 
SciencesPo_Aix_InnovationPédagogique_Bilan.pdf
SciencesPo_Aix_InnovationPédagogique_Bilan.pdfSciencesPo_Aix_InnovationPédagogique_Bilan.pdf
SciencesPo_Aix_InnovationPédagogique_Bilan.pdfSKennel
 
Presentation de la plateforme Moodle - avril 2024
Presentation de la plateforme Moodle - avril 2024Presentation de la plateforme Moodle - avril 2024
Presentation de la plateforme Moodle - avril 2024Gilles Le Page
 
Principe de fonctionnement d'un moteur 4 temps
Principe de fonctionnement d'un moteur 4 tempsPrincipe de fonctionnement d'un moteur 4 temps
Principe de fonctionnement d'un moteur 4 tempsRajiAbdelghani
 
Bernard Réquichot.pptx Peintre français
Bernard Réquichot.pptx   Peintre françaisBernard Réquichot.pptx   Peintre français
Bernard Réquichot.pptx Peintre françaisTxaruka
 
SciencesPo_Aix_InnovationPédagogique_Atelier_EtudiantActeur.pdf
SciencesPo_Aix_InnovationPédagogique_Atelier_EtudiantActeur.pdfSciencesPo_Aix_InnovationPédagogique_Atelier_EtudiantActeur.pdf
SciencesPo_Aix_InnovationPédagogique_Atelier_EtudiantActeur.pdfSKennel
 
Le Lean sur une ligne de production : Formation et mise en application directe
Le Lean sur une ligne de production : Formation et mise en application directeLe Lean sur une ligne de production : Formation et mise en application directe
Le Lean sur une ligne de production : Formation et mise en application directeXL Groupe
 
SciencesPo_Aix_InnovationPédagogique_Atelier_FormationRecherche.pdf
SciencesPo_Aix_InnovationPédagogique_Atelier_FormationRecherche.pdfSciencesPo_Aix_InnovationPédagogique_Atelier_FormationRecherche.pdf
SciencesPo_Aix_InnovationPédagogique_Atelier_FormationRecherche.pdfSKennel
 
PIE-A2-P 5- Supports stagiaires.pptx.pdf
PIE-A2-P 5- Supports stagiaires.pptx.pdfPIE-A2-P 5- Supports stagiaires.pptx.pdf
PIE-A2-P 5- Supports stagiaires.pptx.pdfRiDaHAziz
 
Annie Ernaux Extérieurs. pptx. Exposition basée sur un livre .
Annie   Ernaux  Extérieurs. pptx. Exposition basée sur un livre .Annie   Ernaux  Extérieurs. pptx. Exposition basée sur un livre .
Annie Ernaux Extérieurs. pptx. Exposition basée sur un livre .Txaruka
 

Dernier (19)

Bibdoc 2024 - Ecologie du livre et creation de badge.pdf
Bibdoc 2024 - Ecologie du livre et creation de badge.pdfBibdoc 2024 - Ecologie du livre et creation de badge.pdf
Bibdoc 2024 - Ecologie du livre et creation de badge.pdf
 
LA MONTÉE DE L'ÉDUCATION DANS LE MONDE DE LA PRÉHISTOIRE À L'ÈRE CONTEMPORAIN...
LA MONTÉE DE L'ÉDUCATION DANS LE MONDE DE LA PRÉHISTOIRE À L'ÈRE CONTEMPORAIN...LA MONTÉE DE L'ÉDUCATION DANS LE MONDE DE LA PRÉHISTOIRE À L'ÈRE CONTEMPORAIN...
LA MONTÉE DE L'ÉDUCATION DANS LE MONDE DE LA PRÉHISTOIRE À L'ÈRE CONTEMPORAIN...
 
Zotero avancé - support de formation doctorants SHS 2024
Zotero avancé - support de formation doctorants SHS 2024Zotero avancé - support de formation doctorants SHS 2024
Zotero avancé - support de formation doctorants SHS 2024
 
SciencesPo_Aix_InnovationPédagogique_Atelier_IA.pdf
SciencesPo_Aix_InnovationPédagogique_Atelier_IA.pdfSciencesPo_Aix_InnovationPédagogique_Atelier_IA.pdf
SciencesPo_Aix_InnovationPédagogique_Atelier_IA.pdf
 
PIE-A2-P4-support stagiaires sept 22-validé.pdf
PIE-A2-P4-support stagiaires sept 22-validé.pdfPIE-A2-P4-support stagiaires sept 22-validé.pdf
PIE-A2-P4-support stagiaires sept 22-validé.pdf
 
Bibdoc 2024 - Les maillons de la chaine du livre face aux enjeux écologiques.pdf
Bibdoc 2024 - Les maillons de la chaine du livre face aux enjeux écologiques.pdfBibdoc 2024 - Les maillons de la chaine du livre face aux enjeux écologiques.pdf
Bibdoc 2024 - Les maillons de la chaine du livre face aux enjeux écologiques.pdf
 
Cours SE Gestion des périphériques - IG IPSET
Cours SE Gestion des périphériques - IG IPSETCours SE Gestion des périphériques - IG IPSET
Cours SE Gestion des périphériques - IG IPSET
 
SciencesPo_Aix_InnovationPédagogique_Conférence_SK.pdf
SciencesPo_Aix_InnovationPédagogique_Conférence_SK.pdfSciencesPo_Aix_InnovationPédagogique_Conférence_SK.pdf
SciencesPo_Aix_InnovationPédagogique_Conférence_SK.pdf
 
Cours SE Le système Linux : La ligne de commande bash - IG IPSET
Cours SE Le système Linux : La ligne de commande bash - IG IPSETCours SE Le système Linux : La ligne de commande bash - IG IPSET
Cours SE Le système Linux : La ligne de commande bash - IG IPSET
 
SciencesPo_Aix_InnovationPédagogique_Bilan.pdf
SciencesPo_Aix_InnovationPédagogique_Bilan.pdfSciencesPo_Aix_InnovationPédagogique_Bilan.pdf
SciencesPo_Aix_InnovationPédagogique_Bilan.pdf
 
Presentation de la plateforme Moodle - avril 2024
Presentation de la plateforme Moodle - avril 2024Presentation de la plateforme Moodle - avril 2024
Presentation de la plateforme Moodle - avril 2024
 
Principe de fonctionnement d'un moteur 4 temps
Principe de fonctionnement d'un moteur 4 tempsPrincipe de fonctionnement d'un moteur 4 temps
Principe de fonctionnement d'un moteur 4 temps
 
Bernard Réquichot.pptx Peintre français
Bernard Réquichot.pptx   Peintre françaisBernard Réquichot.pptx   Peintre français
Bernard Réquichot.pptx Peintre français
 
SciencesPo_Aix_InnovationPédagogique_Atelier_EtudiantActeur.pdf
SciencesPo_Aix_InnovationPédagogique_Atelier_EtudiantActeur.pdfSciencesPo_Aix_InnovationPédagogique_Atelier_EtudiantActeur.pdf
SciencesPo_Aix_InnovationPédagogique_Atelier_EtudiantActeur.pdf
 
Le Lean sur une ligne de production : Formation et mise en application directe
Le Lean sur une ligne de production : Formation et mise en application directeLe Lean sur une ligne de production : Formation et mise en application directe
Le Lean sur une ligne de production : Formation et mise en application directe
 
SciencesPo_Aix_InnovationPédagogique_Atelier_FormationRecherche.pdf
SciencesPo_Aix_InnovationPédagogique_Atelier_FormationRecherche.pdfSciencesPo_Aix_InnovationPédagogique_Atelier_FormationRecherche.pdf
SciencesPo_Aix_InnovationPédagogique_Atelier_FormationRecherche.pdf
 
PIE-A2-P 5- Supports stagiaires.pptx.pdf
PIE-A2-P 5- Supports stagiaires.pptx.pdfPIE-A2-P 5- Supports stagiaires.pptx.pdf
PIE-A2-P 5- Supports stagiaires.pptx.pdf
 
DO PALÁCIO À ASSEMBLEIA .
DO PALÁCIO À ASSEMBLEIA                 .DO PALÁCIO À ASSEMBLEIA                 .
DO PALÁCIO À ASSEMBLEIA .
 
Annie Ernaux Extérieurs. pptx. Exposition basée sur un livre .
Annie   Ernaux  Extérieurs. pptx. Exposition basée sur un livre .Annie   Ernaux  Extérieurs. pptx. Exposition basée sur un livre .
Annie Ernaux Extérieurs. pptx. Exposition basée sur un livre .
 

Presentation of Alaa Abi Haidar at the BnF Information Day

  • 1. Reconnaissance d’entités nommées et application sur les données de la { BnF Alaa ABI HAIDAR, PhD
  • 2. Aperçu de l'exposé • Introduction: reconnaissance d’entités nommées (NER) – Définition et motivation • exemple: BnF et Europeana • exemples: paternaires LiP6 – Solution(s) et problématique(s) • Méthode UNERD – Vue d’ensemble – Désambiguïsassion contextuelle – Résultats • Applications et outils – Nuage des mots à la Figaro – Fleuve de la première guerre mondiale – Soulignement automatique – Outil d’annotation • Mes recherches actuelles et futures
  • 3. Reconnaissance d'entités nommées (1) Définition: L'étiquetage automatique des mots qui correspondent à des concepts comme PERSONNE, LIEU et ORGANISATION Motivation: Indexation, résumé, classification thématique, analyse de flux d’information, visualisation, enrichissement de la lecture numérique ...
  • 4. Exemple: BnF et Europeana Newspaper Le Petit Parisien journal (1863-1944 ) Fromat ALTO en open XML Standard OCR text en iso-8859-1 <String ID="PAG_1_ST000001" STYLEREFS="TXT_1" HPOS="132" VPOS="305" HEIGHT="20" WIDTH="125" WC="0.99" CONTENT="REGION"/><SP ID="PAG_1_SP000001" HPOS="257" VPOS="304" WIDTH="20"/><String ID="PAG_1_ST000002" STYLEREFS="TXT_1" HPOS="277" VPOS="304" WIDTH="222" HEIGHT="21" WC="0.98" CONTENT="PABISIENNE."/><SP ID="PAG_1_SP000002" HPOS="499" VPOS="304" WIDTH="40"/><String ID="PAG_1_ST000003" STYLEREFS="TXT_1" HPOS="558" VPOS="304" HEIGHT="20" WIDTH="40" WC="0.99" CONTENT="Un"/><SP ID="PAG_1_SP000003" HPOS="598" VPOS="303" WIDTH="18"/><String ID="PAG_1_ST000004" STYLEREFS="TXT_1" HPOS="616" VPOS="303" HEIGHT="23" WIDTH="83" WC="0.99" CONTENT="temps"/><SP ID="PAG_1_SP000004" HPOS="699" VPOS="301" WIDTH="19"/><String ID="PAG_1_ST000005" STYLEREFS="TXT_1" HPOS="718" VPOS="301" HEIGHT="21" WIDTH="32" WC="0.99" CONTENT="de"/></TextLine><TextLine ID="PAG_1_TL000002" STYLEREFS="TXT_1" HPOS="66" VPOS="331" HEIGHT="27" WIDTH="682"><String ID="PAG_1_ST000006" STYLEREFS="TXT_1" HPOS="98" VPOS="332" WIDTH="156" HEIGHT="26" WC="0.98" CONTENT="Toussaint,"/><SP ID="PAG_1_SP000005" HPOS="252" VPOS="333" WIDTH="22"/><String ID="PAG_1_ST000007" STYLEREFS="TXT_1" HPOS="274" VPOS="333" HEIGHT="23" WIDTH="145" WC="0.99" CONTENT="maussade,"/><SP ID="PAG_1_SP000006" HPOS="419" VPOS="332" WIDTH="23"/><String ID="PAG_1_ST000008" STYLEREFS="TXT_1" HPOS="442" VPOS="332" HEIGHT="20" WIDTH="103" WC="0.99" CONTENT="humide"/>
  • 5. Exemple: Autres Partenaires Partenaires: LOCUPLETO, JOUVES, SEJER, Labex OBVIL, Paris Sorbonne, Pitié Salpetriere I2D3, iManga, ACTIALUNA, CELSA Sorbonne Exemple: modélisation des systèmes immunitaires identification des taux de prolifération, division et la mortalité des cellules a partir des milliers des textes Exemple: Rome et l’empire romain: Edition Nathan Exemple: Labex OBVIL identification d’auteur, études stylistiques, comparaison littéraire Exemple: iManga recommandation de bibliothécaire et livre Fromat EPUB et XML Standard OCR text en iso-8859-1
  • 6. Reconnaissance d’entités nommées (2) Solutions: • Supervisées • Non-supervisées • Semi-supervisées Problématiques supervisées: ● Manque de données d’apprentissage et de ressources humaines ● Spécificité des modules d’apprentissage Problématiques non-supervisées: • Ambiguïté: Paris LIEU, ORG ou PERSONNE? • Limitation: Phénicie n’est pas dans le dictionnaire • Bruit: 20BE2T et d’autres erreurs d’OCRisation • Limite des mots: Fondation Fontaine de Charles de Gaule
  • 7. Méthode UNERD (vue d’ensemble de la démarche scientifique) Unsupervised Named Entity Recognition & Disambiguation OCRisation <String ID="PAG_1_ST000001" STYLEREFS="TXT_1" HPOS="132" VPOS="305" HEIGHT="20" WIDTH="125" WC="0.99" CONTENT="REGION"/><SP ID="PAG_1_SP000001" HPOS="257" VPOS="304" WIDTH="20"/><String ID="PAG_1_ST000002" STYLEREFS="TXT_1" HPOS="277" VPOS="304" WIDTH="222" HEIGHT="21" WC="0.98" CONTENT="PABISIENNE."/><SP ID="PAG_1_SP000002" HPOS="499" VPOS="304" WIDTH="40"/><String Étiquetage Syntaxique Recherche dans les dictionnaires Apprentissage Désambiguïsas sion et reconnaissance machine sur les entités sures - --- - - - --- - --- - ---- -- - - Parametrisation et optimisation Prédiction comparaison a d’autres méthodes Application Apprentissage Supervisé Outil d’annotation Annotation Manuelle Comparaison avec l’annotation manuelle
  • 8. Méthode UNERD Méthode d’apprentissage et de désambiguïsassion Phase d’apprentissag e Phase de classification ou de prédiction
  • 9. Résultats UNERD Comparaison avec la méthode supervisée de stanford sur textes de BnF Comparaison avec les méthodes non-supervisée sur textes anglais CoNLL ● (S1) dictionnaire de Aleda uniquement ● (S2) utilise 75% de Manually Annotated Data (MAD) pour entrainer la classification CRF avec l’outil de stanford et le reste pour valider ● (S3) come S2 mais avec l’aide du dictionnaire Aleda augmente les donnees d’annotation pour l’apprentissage. ● (S4) comme S3, mais avec desambig. du UNERD avant l’entrainement ● (UNERD) Finallement notre mehode non-supervisee UNERD Sum with BDpedia + YAGO2 0.6471 AdaBoost with BDpedia + YAGO2 0.614 DBpedia SpotLight* 0.419 BaLIE** 0.559
  • 10. Application: Nuage des mots à la Figaro PE R LO C OR G
  • 11. Application [DÉMO]: Fleuve d’entités nommées pendant la première guerre mondiale
  • 12. Application [DÉMO]: Soulignement automatique d’entités nommées
  • 14. Mes recherches actuelles et futures Outil d’annotation + Transcodage Validation des méthodes: ● UNERD++ ● Stanford CRF ● Clemens CRF Semi-annotation UNERD de 120 pages Annotation automatique 500M+ Applications Visualisations mois 1 Maintenance mois 2 mois 3 mois 4 correction Merci 27 November 1 October 31 January alahay@alahay.org