2. Named Entity Recognition (NER)
2
• Zoek vooraf gedefinieerde categorieën van
entiteiten in ongestructureerde tekst:
• Eigennamen van personen / organisaties
• Locaties
• Medisch / farmacologisch / legaal jargon of
terminologie
• Tijdsuitdrukkingen
• Hoeveelheden, percentages
• Valuta en monetaire waarden
• …
• Kan gezien worden als onderdeel van “data mining”
3. NER: Aanpak
3
• Rule-based (regex)
• Men zoekt tekstonderdelen die
beantwoorden aan zekere regels
• Gebruikt onder meer vaste
“lijsten van termen” en specifieke
regels bv. voor datums,
telefoonnummers….
• Geen/weinig disambiguatie
(Apple: fruit / bedrijf?)
• Statistisch ( = Machine Learning)
• In een eerste stap worden manueel de
gewenste entiteiten gemarkeerd
• Vervolgens leert het systeem zelf aan om
die entiteiten te ontdekken
• Het op die wijze ontstane model kan dan
gebruikt worden voor nieuwe teksten
• Vereist duizenden tot miljoenen
geannoteerde voorbeelden
4. NER op EDE-bestand (RSZ jurid.)
(Bekomen door statistische method/ machine learning)
5. NER: KBO-nummers in een EDE-document
(rule based: kleine stukjes code herkennen het KBO-nummer)
5
6. 6
• Match entities met ontologies
• Cross-reference in andere databases
• Creëer links naar andere nuttige resources
NER for Entity Linking
Wanneer entiteiten ontdekt worden
dan kunnen we ze verbinden met andere
data
Voorbeeld: een KBO-nummer wordt
gevonden, dan zoekt men via KBO search
het adres op van de onderneming
7. 7
• De opdracht bestaat erin om in
een juridische tekst een wetsartikel
te herkennen
Entity Linking example: LegalTech
8. Entity Linking example: legal texts
8
(bron: “the matchbox”)
en zodra een wetsartikel gevonden is wordt dit
gelinkt met de inhoud ervan
9. NER voor Question Answering
99
NER voor Question Answering
• Herken Named Entities
• Sla links tussen Named Entities op in database (bvb. graph)
maakt “semantic search” mogelijk:
• What did Lansky study?
• Where did Lansky live?
10. Beperkingen van NER
10
• Ontwikkeling is domeinspecifiek
• Vraagt finetuning aan het domain
• Transfer naar andere domeinen is moeilijk
(Behalve heel algemene concepten zoals datum/tijd/valuta/…)
• Training vereist veel manuele annotatie
• Crowdsourcing?
• Hot topic op dit moment: “semi-supervised”-methoden (bv. “prodigy”)
• Erg weinig geannoteerde data beschikbaar voor Nederlands
• Disambiguatie is nog niet opgelost:
Washington the man of Washington the city?
11. Documentklassificatie: Concept
• Data organiseren
• Het algoritme leert een classificatiemodel
• De klassen/categorieën worden opgelegd aan het algoritme
12. Documentklassificatie (Juridoc)
• Doel: categoriseer juridische documenten
• In Juridoc 305 documenten met metadata, volgens
subtype
• Model aangeleerd op 244 paren (documenten, labels) gebruikt voor training
• Model getest op 61 documenten
• De documenten werden opgedeeld in de gewenste vijf groepen met redelijke kwaliteit
13. Indexering juridische documenten (metadata)
• Bij ontvangst van een juridisch document
moet het geklasseerd worden in een
elektronisch dossier en dient er bepaalde
informatie opgenomen;
• We doen dit
• via NER:
• KBO-nummers, RSZ-nummers
• Datums
• Geldbedragen
• (? Verzender / ontvanger)
• (? Onderwerp)
• via document-classificatie:
• Wat is het type/subtype document?
Rule-based: pas que basé sur des listes (lookup) on peut utiliser des règles typiquement pour les dates, numéros de telephone
Grammaticaal: ik heb het zelden gezien, ik weet dat het gebruikt was voor namen bvb
Methode statistique
Méthode basée sur des règles
Voorbeeld komt van bedrijf “the matchbox” niet van smals
Le NER n’est qu’une partie de la solution, les liens entre les entités sont importants
Ter info: moderne tools zoals prodigy bieden “semi-supervised” annotaties