Named entity recognition hoe werkt het wat kunnen we er mee doen nl

•Télécharger en tant que PPTX, PDF•

0 j'aime•881 vues

Smals

Inleiding tot Named entity recognition in het Nederlands met voorbeelden

Technologie

NAMED ENTITY RECOGNITION
&
CLASSIFICATION
Hoe werkt het
En wat kunnen we ermee doen?

Named Entity Recognition (NER)
2
• Zoek vooraf gedefinieerde categorieën van
entiteiten in ongestructureerde tekst:
• Eigennamen van personen / organisaties
• Locaties
• Medisch / farmacologisch / legaal jargon of
terminologie
• Tijdsuitdrukkingen
• Hoeveelheden, percentages
• Valuta en monetaire waarden
• …
• Kan gezien worden als onderdeel van “data mining”

NER: Aanpak
3
• Rule-based (regex)
• Men zoekt tekstonderdelen die
beantwoorden aan zekere regels
• Gebruikt onder meer vaste
“lijsten van termen” en specifieke
regels bv. voor datums,
telefoonnummers….
• Geen/weinig disambiguatie
(Apple: fruit / bedrijf?)
• Statistisch ( = Machine Learning)
• In een eerste stap worden manueel de
gewenste entiteiten gemarkeerd
• Vervolgens leert het systeem zelf aan om
die entiteiten te ontdekken
• Het op die wijze ontstane model kan dan
gebruikt worden voor nieuwe teksten
• Vereist duizenden tot miljoenen
geannoteerde voorbeelden

NER op EDE-bestand (RSZ jurid.)
(Bekomen door statistische method/ machine learning)

NER: KBO-nummers in een EDE-document
(rule based: kleine stukjes code herkennen het KBO-nummer)
5

6
• Match entities met ontologies
• Cross-reference in andere databases
• Creëer links naar andere nuttige resources
NER for Entity Linking
Wanneer entiteiten ontdekt worden
dan kunnen we ze verbinden met andere
data
Voorbeeld: een KBO-nummer wordt
gevonden, dan zoekt men via KBO search
het adres op van de onderneming

7
• De opdracht bestaat erin om in
een juridische tekst een wetsartikel
te herkennen
Entity Linking example: LegalTech

Entity Linking example: legal texts
8
(bron: “the matchbox”)
en zodra een wetsartikel gevonden is wordt dit
gelinkt met de inhoud ervan

NER voor Question Answering
99
NER voor Question Answering
• Herken Named Entities
• Sla links tussen Named Entities op in database (bvb. graph)
 maakt “semantic search” mogelijk:
• What did Lansky study?
• Where did Lansky live?

Beperkingen van NER
10
• Ontwikkeling is domeinspecifiek
• Vraagt finetuning aan het domain
• Transfer naar andere domeinen is moeilijk
(Behalve heel algemene concepten zoals datum/tijd/valuta/…)
• Training vereist veel manuele annotatie
• Crowdsourcing?
• Hot topic op dit moment: “semi-supervised”-methoden (bv. “prodigy”)
• Erg weinig geannoteerde data beschikbaar voor Nederlands
• Disambiguatie is nog niet opgelost:
Washington the man of Washington the city?

Documentklassificatie: Concept
• Data organiseren
• Het algoritme leert een classificatiemodel
• De klassen/categorieën worden opgelegd aan het algoritme

Documentklassificatie (Juridoc)
• Doel: categoriseer juridische documenten
• In Juridoc 305 documenten met metadata, volgens
subtype
• Model aangeleerd op 244 paren (documenten, labels) gebruikt voor training
• Model getest op 61 documenten
• De documenten werden opgedeeld in de gewenste vijf groepen met redelijke kwaliteit

Indexering juridische documenten (metadata)
• Bij ontvangst van een juridisch document
moet het geklasseerd worden in een
elektronisch dossier en dient er bepaalde
informatie opgenomen;
• We doen dit
• via NER:
• KBO-nummers, RSZ-nummers
• Datums
• Geldbedragen
• (? Verzender / ontvanger)
• (? Onderwerp)
• via document-classificatie:
• Wat is het type/subtype document?

Thank You!
Website
www.smals.be
www.smalsresearch.be/
Phone
+3227875928
Email
research@smals.be

Recommandé

Named entity recognition hoe werkt het wat kunnen we er mee doenSmals

Pres idbb hoofdstuk4CVO_De_Nobel

Pres b4 hoofdstuk4CVO_De_Nobel

Pres c6 chapter2CVO_De_Nobel

Pres idbb hoofdstuk2CVO_De_Nobel

Grote hoeveelheden tekst analyseren als datavoginip

Gaat Artificial Intelligence helpen het zoeken verder te automatiseren?voginip

Semantisch Zoeken - knowledge graph, semantisch web, linked data, rdf, ontolo...Eric Sieverts

Recommandé

Named entity recognition hoe werkt het wat kunnen we er mee doenSmals

Pres idbb hoofdstuk4CVO_De_Nobel

Pres b4 hoofdstuk4CVO_De_Nobel

Pres c6 chapter2CVO_De_Nobel

Pres idbb hoofdstuk2CVO_De_Nobel

Grote hoeveelheden tekst analyseren als datavoginip

Gaat Artificial Intelligence helpen het zoeken verder te automatiseren?voginip

Semantisch Zoeken - knowledge graph, semantisch web, linked data, rdf, ontolo...Eric Sieverts

Semantisch zoeken - over knowledge graph, semantisch web, rdf enz.Eric Sieverts

20120829 Presentatie over Semantic Searchhannah_ff

Pres idbb hoofdstuk9CVO_De_Nobel

Zoekmachinemarketing voginip

semantischzoeken-2013.pptvoginip

Introductie ModellerenGabriel Hopmans

Semantische zoekmachines voor wetenschap: een stresstestvoginip

Semantisch zoeken in een webomgevingEric Sieverts

Workshop Informatie vindbaar met metadata en taxonomieënJoyce van Aalten

Netwerkdag 2017 | Marian Hellema | Workflow digitaliseringNetwerk Oorlogsbronnen

Automatische classificatieEric Sieverts

Informatie vindbaar met metadata en taxonomieën vogin ip workshop 2017 joyce...Joyce van Aalten

Presentatie PCDB overleg Utrecht 28 juni 2016Enno Meijers

Artificiële intelligentie en bibliotheeksoftware - Tom De Mey & Richard PhilipsVlaamse Vereniging voor Bibliotheek, Archief & Documentatie vzw (VVBAD)

Inhoudelijke ontsluiting in het perspectie van zoeken.bibiotheek.beRosemie Callewaert

LIBISnet gebruikersdag 01062017 - Introductie tot Linked DataLIBIS

UBU 3.0: semantisch web & linked data voor de UB?Eric Sieverts

Krijgen we ooit de beschikking over slimme zoektechnologie?Leiden University

Workshop Knowledge Graphs- VOGIN-IP lezing 2022Joyce van Aalten

Zoeken in SharePoint by Arno Flapper Imtech ICTDynamic People B.V.

Wat zijn chatbots en waarvoor gebruiken we zeSmals

Wat is augmented reality en waarvoor gebruiken we het nlSmals

Contenu connexe

Similaire à Named entity recognition hoe werkt het wat kunnen we er mee doen nl

Semantisch zoeken - over knowledge graph, semantisch web, rdf enz.Eric Sieverts

20120829 Presentatie over Semantic Searchhannah_ff

Pres idbb hoofdstuk9CVO_De_Nobel

Zoekmachinemarketing voginip

semantischzoeken-2013.pptvoginip

Introductie ModellerenGabriel Hopmans

Semantische zoekmachines voor wetenschap: een stresstestvoginip

Semantisch zoeken in een webomgevingEric Sieverts

Workshop Informatie vindbaar met metadata en taxonomieënJoyce van Aalten

Netwerkdag 2017 | Marian Hellema | Workflow digitaliseringNetwerk Oorlogsbronnen

Automatische classificatieEric Sieverts

Informatie vindbaar met metadata en taxonomieën vogin ip workshop 2017 joyce...Joyce van Aalten

Presentatie PCDB overleg Utrecht 28 juni 2016Enno Meijers

Artificiële intelligentie en bibliotheeksoftware - Tom De Mey & Richard PhilipsVlaamse Vereniging voor Bibliotheek, Archief & Documentatie vzw (VVBAD)

Inhoudelijke ontsluiting in het perspectie van zoeken.bibiotheek.beRosemie Callewaert

LIBISnet gebruikersdag 01062017 - Introductie tot Linked DataLIBIS

UBU 3.0: semantisch web & linked data voor de UB?Eric Sieverts

Krijgen we ooit de beschikking over slimme zoektechnologie?Leiden University

Workshop Knowledge Graphs- VOGIN-IP lezing 2022Joyce van Aalten

Zoeken in SharePoint by Arno Flapper Imtech ICTDynamic People B.V.

Similaire à Named entity recognition hoe werkt het wat kunnen we er mee doen nl (20)

Semantisch zoeken - over knowledge graph, semantisch web, rdf enz.

20120829 Presentatie over Semantic Search

Pres idbb hoofdstuk9

Zoekmachinemarketing

semantischzoeken-2013.ppt

Introductie Modelleren

Semantische zoekmachines voor wetenschap: een stresstest

Semantisch zoeken in een webomgeving

Workshop Informatie vindbaar met metadata en taxonomieën

Netwerkdag 2017 | Marian Hellema | Workflow digitalisering

Automatische classificatie

Informatie vindbaar met metadata en taxonomieën vogin ip workshop 2017 joyce...

Presentatie PCDB overleg Utrecht 28 juni 2016

Artificiële intelligentie en bibliotheeksoftware - Tom De Mey & Richard Philips

Inhoudelijke ontsluiting in het perspectie van zoeken.bibiotheek.be

LIBISnet gebruikersdag 01062017 - Introductie tot Linked Data

UBU 3.0: semantisch web & linked data voor de UB?

Krijgen we ooit de beschikking over slimme zoektechnologie?

Workshop Knowledge Graphs- VOGIN-IP lezing 2022

Zoeken in SharePoint by Arno Flapper Imtech ICT

Plus de Smals

Wat zijn chatbots en waarvoor gebruiken we zeSmals

Wat is augmented reality en waarvoor gebruiken we het nlSmals

Natural language generation nederlandsSmals

Wat is ai en wat kan het nlSmals

Realite augmenteeSmals

Internet des objetsSmals

Chatbots comment ca marche a quoi ca sertSmals

Analyse predictive comment ca marche a quoi ca sertSmals

Traduction vocale quasi instantanee introductionSmals

Automatisation des processus robotises introductionSmals

Interfaces conversationnelle introductionSmals

Reconnaissance d'entites nommees introductionSmals

Generation automatique de textesSmals

Intelligence artificielle etroite introductionSmals

Real time voice translation handig maar hoe ver staat hetSmals

Wat is predictive analytics en waarvoor kun je het gebruikenSmals

Wat is robotic process automation en wat kun je er mee doenSmals

Exemples europeens comme source d inspirationSmals

Wat zijn conversational interfaces en waarvoor kun je ze gebruikenSmals

Wat is natural laguage generationSmals

Plus de Smals (20)

Wat zijn chatbots en waarvoor gebruiken we ze

Wat is augmented reality en waarvoor gebruiken we het nl

Natural language generation nederlands

Wat is ai en wat kan het nl

Realite augmentee

Internet des objets

Chatbots comment ca marche a quoi ca sert

Analyse predictive comment ca marche a quoi ca sert

Traduction vocale quasi instantanee introduction

Automatisation des processus robotises introduction

Interfaces conversationnelle introduction

Reconnaissance d'entites nommees introduction

Generation automatique de textes

Intelligence artificielle etroite introduction

Real time voice translation handig maar hoe ver staat het

Wat is predictive analytics en waarvoor kun je het gebruiken

Wat is robotic process automation en wat kun je er mee doen

Exemples europeens comme source d inspiration

Wat zijn conversational interfaces en waarvoor kun je ze gebruiken

Wat is natural laguage generation

Named entity recognition hoe werkt het wat kunnen we er mee doen nl

1. NAMED ENTITY RECOGNITION & CLASSIFICATION Hoe werkt het En wat kunnen we ermee doen?

2. Named Entity Recognition (NER) 2 • Zoek vooraf gedefinieerde categorieën van entiteiten in ongestructureerde tekst: • Eigennamen van personen / organisaties • Locaties • Medisch / farmacologisch / legaal jargon of terminologie • Tijdsuitdrukkingen • Hoeveelheden, percentages • Valuta en monetaire waarden • … • Kan gezien worden als onderdeel van “data mining”

3. NER: Aanpak 3 • Rule-based (regex) • Men zoekt tekstonderdelen die beantwoorden aan zekere regels • Gebruikt onder meer vaste “lijsten van termen” en specifieke regels bv. voor datums, telefoonnummers…. • Geen/weinig disambiguatie (Apple: fruit / bedrijf?) • Statistisch ( = Machine Learning) • In een eerste stap worden manueel de gewenste entiteiten gemarkeerd • Vervolgens leert het systeem zelf aan om die entiteiten te ontdekken • Het op die wijze ontstane model kan dan gebruikt worden voor nieuwe teksten • Vereist duizenden tot miljoenen geannoteerde voorbeelden

4. NER op EDE-bestand (RSZ jurid.) (Bekomen door statistische method/ machine learning)

5. NER: KBO-nummers in een EDE-document (rule based: kleine stukjes code herkennen het KBO-nummer) 5

6. 6 • Match entities met ontologies • Cross-reference in andere databases • Creëer links naar andere nuttige resources NER for Entity Linking Wanneer entiteiten ontdekt worden dan kunnen we ze verbinden met andere data Voorbeeld: een KBO-nummer wordt gevonden, dan zoekt men via KBO search het adres op van de onderneming

7. 7 • De opdracht bestaat erin om in een juridische tekst een wetsartikel te herkennen Entity Linking example: LegalTech

8. Entity Linking example: legal texts 8 (bron: “the matchbox”) en zodra een wetsartikel gevonden is wordt dit gelinkt met de inhoud ervan

9. NER voor Question Answering 99 NER voor Question Answering • Herken Named Entities • Sla links tussen Named Entities op in database (bvb. graph)  maakt “semantic search” mogelijk: • What did Lansky study? • Where did Lansky live?

10. Beperkingen van NER 10 • Ontwikkeling is domeinspecifiek • Vraagt finetuning aan het domain • Transfer naar andere domeinen is moeilijk (Behalve heel algemene concepten zoals datum/tijd/valuta/…) • Training vereist veel manuele annotatie • Crowdsourcing? • Hot topic op dit moment: “semi-supervised”-methoden (bv. “prodigy”) • Erg weinig geannoteerde data beschikbaar voor Nederlands • Disambiguatie is nog niet opgelost: Washington the man of Washington the city?

11. Documentklassificatie: Concept • Data organiseren • Het algoritme leert een classificatiemodel • De klassen/categorieën worden opgelegd aan het algoritme

12. Documentklassificatie (Juridoc) • Doel: categoriseer juridische documenten • In Juridoc 305 documenten met metadata, volgens subtype • Model aangeleerd op 244 paren (documenten, labels) gebruikt voor training • Model getest op 61 documenten • De documenten werden opgedeeld in de gewenste vijf groepen met redelijke kwaliteit

13. Indexering juridische documenten (metadata) • Bij ontvangst van een juridisch document moet het geklasseerd worden in een elektronisch dossier en dient er bepaalde informatie opgenomen; • We doen dit • via NER: • KBO-nummers, RSZ-nummers • Datums • Geldbedragen • (? Verzender / ontvanger) • (? Onderwerp) • via document-classificatie: • Wat is het type/subtype document?

14. Thank You! Website www.smals.be www.smalsresearch.be/ Phone +3227875928 Email research@smals.be

Notes de l'éditeur

Rule-based: pas que basé sur des listes (lookup) on peut utiliser des règles typiquement pour les dates, numéros de telephone Grammaticaal: ik heb het zelden gezien, ik weet dat het gebruikt was voor namen bvb
Methode statistique
Méthode basée sur des règles
Voorbeeld komt van bedrijf “the matchbox” niet van smals
Le NER n’est qu’une partie de la solution, les liens entre les entités sont importants
Ter info: moderne tools zoals prodigy bieden “semi-supervised” annotaties