NAMED ENTITY RECOGNITION
(Reconnaissance d'entités nommées)
&
CLASSIFICATION
Comment ça marche ?
À quoi ça sert ?
Named Entity Recognition (NER)
2
• Recherche des catégories d’entités prédéfinies dans
un texte non structuré :
• Noms propres de personnes / organisations
• Lieux
• Jargon médical / pharmacologique / juridique ou
terminologie
• Expressions temporelles
• Quantités, pourcentages
• Devises et valeurs monétaires
• …
• Peut être considéré comme un volet du « data mining »
NER : approche
3
• Basé sur des règles (regex)
• Recherche des parties de texte qui
respectent certaines règles
• Utilise entre autres des « listes de termes »
fixes et des règles spécifiques, par exemple
pour des dates, des numéros de
téléphone...
• Pas ou peu de désambiguïsation
(Apple : fruit / entreprise ?)
• Statistique (= Machine Learning)
• Dans un premier temps, les entités
souhaitées sont marquées manuellement
• Ensuite, le système apprend lui-même à
découvrir ces entités
• Le modèle qui en résulte peut alors être
utilisé pour de nouveaux textes
• Nécessite des milliers, voire des millions
d’exemples annotés
NER sur un fichier EDE (serv. Jurid. ONSS)
(obtenu par méthode statistique / machine learning)
NER : numéros BCE dans un document EDE
(basé sur des règles : des fragments de code reconnaissent le numéro BCE)
5
6
NER pour l’Entity
Linking
Lorsque des entités sont découvertes, elles
peuvent être reliées à d'autres données
Par exemple, si un numéro BCE est trouvé,
l’adresse de l’entreprise peut être
recherchée sur la base du numéro BCE
• Faire correspondre des entités avec des ontologies
• Référence croisée dans d'autres bases de données
• Créer des liens vers d'autres ressources utiles
7
Exemple d’Entity Linking :
LegalTech
• Le but est de reconnaître un
article de loi dans un texte
juridique
Exemple d’Entity Linking : textes juridiques
8
(source : “the matchbox”)
et dès qu'un article de loi a été trouvé, il est relié à
son contenu
NER voor Question Answering
99
NER pour le Question Answering
• Reconnaît des entités nommées
• Enregistre des liens entre entités nommées dans une base de données (ex. graphe)
 permet une recherche sémantique :
• Qu'a étudié Lansky ?
• Où vivait Lansky ?
Limites du NER
10
• Le développement est spécifique à un domaine
• Requiert une adaptation au domaine
• Le transfert vers d'autres domaines est difficile
(sauf pour des concepts très généraux tels que : date/heure/devise...)
• La formation nécessite beaucoup d'annotations manuelles
• Production participative ?
• Sujet d'actualité : méthodes "semi-supervisées" (ex. : « prodigy »)
• Très peu de données annotées disponibles pour le néerlandais
• La désambiguïsation n'a pas encore été résolue :
Washington : s’agit-il de l'homme ou de la ville ?
Classification de documents : concept
• Organiser les données
• L’algorithme apprend un modèle de classement
• Les classes/catégories sont imposées à l’algorithme
Classification de documents (Juridoc)
• Objectif : catégoriser des documents juridiques
• Dans Juridoc 305 documents avec des métadonnées, par
sous-type
• Modèle appris sur 244 paires (documents, libellés) utilisées pour la formation
• Modèle testé sur 61 documents
• Les documents ont été scindés en cinq groupes de qualité raisonnable
Indexation de documents juridiques (métadonnées)
• À la réception d'un document juridique,
celui-ci doit être classé dans une
dossier électronique et certaines
informations doivent être enregistrées
• Nous faisons cela
• via NER :
• Numéros BCE, numéros ONSS
• Dates
• Sommes d'argent
• ( ? Expéditeur / destinataire)
• ( ? Sujet)
• Via la classification de documents :
• Quel est le type/sous-type de document ?
Merci !
Website
www.smals.be
www.smalsresearch.be/
Phone
+3227875928
Email
research@smals.be

Reconnaissance d'entites nommees introduction

  • 1.
    NAMED ENTITY RECOGNITION (Reconnaissanced'entités nommées) & CLASSIFICATION Comment ça marche ? À quoi ça sert ?
  • 2.
    Named Entity Recognition(NER) 2 • Recherche des catégories d’entités prédéfinies dans un texte non structuré : • Noms propres de personnes / organisations • Lieux • Jargon médical / pharmacologique / juridique ou terminologie • Expressions temporelles • Quantités, pourcentages • Devises et valeurs monétaires • … • Peut être considéré comme un volet du « data mining »
  • 3.
    NER : approche 3 •Basé sur des règles (regex) • Recherche des parties de texte qui respectent certaines règles • Utilise entre autres des « listes de termes » fixes et des règles spécifiques, par exemple pour des dates, des numéros de téléphone... • Pas ou peu de désambiguïsation (Apple : fruit / entreprise ?) • Statistique (= Machine Learning) • Dans un premier temps, les entités souhaitées sont marquées manuellement • Ensuite, le système apprend lui-même à découvrir ces entités • Le modèle qui en résulte peut alors être utilisé pour de nouveaux textes • Nécessite des milliers, voire des millions d’exemples annotés
  • 4.
    NER sur unfichier EDE (serv. Jurid. ONSS) (obtenu par méthode statistique / machine learning)
  • 5.
    NER : numérosBCE dans un document EDE (basé sur des règles : des fragments de code reconnaissent le numéro BCE) 5
  • 6.
    6 NER pour l’Entity Linking Lorsquedes entités sont découvertes, elles peuvent être reliées à d'autres données Par exemple, si un numéro BCE est trouvé, l’adresse de l’entreprise peut être recherchée sur la base du numéro BCE • Faire correspondre des entités avec des ontologies • Référence croisée dans d'autres bases de données • Créer des liens vers d'autres ressources utiles
  • 7.
    7 Exemple d’Entity Linking: LegalTech • Le but est de reconnaître un article de loi dans un texte juridique
  • 8.
    Exemple d’Entity Linking: textes juridiques 8 (source : “the matchbox”) et dès qu'un article de loi a été trouvé, il est relié à son contenu
  • 9.
    NER voor QuestionAnswering 99 NER pour le Question Answering • Reconnaît des entités nommées • Enregistre des liens entre entités nommées dans une base de données (ex. graphe)  permet une recherche sémantique : • Qu'a étudié Lansky ? • Où vivait Lansky ?
  • 10.
    Limites du NER 10 •Le développement est spécifique à un domaine • Requiert une adaptation au domaine • Le transfert vers d'autres domaines est difficile (sauf pour des concepts très généraux tels que : date/heure/devise...) • La formation nécessite beaucoup d'annotations manuelles • Production participative ? • Sujet d'actualité : méthodes "semi-supervisées" (ex. : « prodigy ») • Très peu de données annotées disponibles pour le néerlandais • La désambiguïsation n'a pas encore été résolue : Washington : s’agit-il de l'homme ou de la ville ?
  • 11.
    Classification de documents: concept • Organiser les données • L’algorithme apprend un modèle de classement • Les classes/catégories sont imposées à l’algorithme
  • 12.
    Classification de documents(Juridoc) • Objectif : catégoriser des documents juridiques • Dans Juridoc 305 documents avec des métadonnées, par sous-type • Modèle appris sur 244 paires (documents, libellés) utilisées pour la formation • Modèle testé sur 61 documents • Les documents ont été scindés en cinq groupes de qualité raisonnable
  • 13.
    Indexation de documentsjuridiques (métadonnées) • À la réception d'un document juridique, celui-ci doit être classé dans une dossier électronique et certaines informations doivent être enregistrées • Nous faisons cela • via NER : • Numéros BCE, numéros ONSS • Dates • Sommes d'argent • ( ? Expéditeur / destinataire) • ( ? Sujet) • Via la classification de documents : • Quel est le type/sous-type de document ?
  • 14.

Notes de l'éditeur

  • #4 Rule-based: pas que basé sur des listes (lookup) on peut utiliser des règles typiquement pour les dates, numéros de telephone Grammaticaal: ik heb het zelden gezien, ik weet dat het gebruikt was voor namen bvb
  • #5 Methode statistique
  • #6 Méthode basée sur des règles
  • #9 Voorbeeld komt van bedrijf “the matchbox” niet van smals
  • #10 Le NER n’est qu’une partie de la solution, les liens entre les entités sont importants
  • #11 Ter info: moderne tools zoals prodigy bieden “semi-supervised” annotaties