Presentatie voor de Belastingdienst in het kader van een onderzoek naar de (on)mogelijkheden rond het herkennen en extraheren van concepten en hun definities, en het representeren daarvan met Semantic Web standaarden.
4. start
State Name
entry/action
do/activity action
State
exit/action
event/action(arguments)
end
Regulation A Art 12 Art 14, lid 3, 2e volzin
5. start
State Name
entry/action
do/activity action
State
exit/action
event/action(arguments)
end
Regulation A Art 12 Art 14, lid 3, 2e volzin
6. start
State Name
entry/action
do/activity action
State
exit/action
event/action(arguments)
end
Regulation A Art 12 Art 14, lid 3, 2e volzin
7. start
State Name
entry/action
do/activity action
State
exit/action
event/action(arguments)
end
Regulation A Art 12 Art 14, lid 3, 2e volzin
8. start
State Name
entry/action
do/activity action
State
exit/action
event/action(arguments)
end
Regulation A Art 12 Art 14, lid 3, 2e volzin Art 14, lid 3, 2e volzin
9. start
State Name
entry/action
do/activity action
State
exit/action
event/action(arguments)
end
Regulation A Art 12 Art 14, lid 3, 2e volzin Art 14, lid 3, 2e volzin
(01-01-2011) (04-02-2011) (11-06-2008) (01-07-2011)
11. Wat willen we
kunnen?
• “Deserializeren” van regelingen
(e.g. topic-based browsen, verwijzingen rijgen)
• Annoteren van regelingen
(gereconstrueerde metadata, metadata van derden)
• Annoteren met regelingen
(processen, services, kennisbestanden, documenten ...)
• Toegankelijk en herbruikbaar voor andere partijen
(gedeelde vocabulaires, standaard API)
• Analyseren van informatienetwerk
12. Mise en Place
• Wetten en regelingen verzamelen en representeren
• Extraheren en reconstrueren van impliciete
informatie
• Metadata toegankelijk maken
• Identificatie van alle elementen
• Verwijzingen expliciet maken
13. CEN MetaLex
“Open XML Interchange Format for Legal
and Legislative Resources”
• CEN Workshop Agreement
• Uitwisselingsformaat
• Zeer generische XML elementen
(hcontainer, block, inline)
• “Content models” geven het soort inhoud weer
(e.g. chapter, article, sentence)
• Schema uitbreiding mogelijk
• Metadata als RDFa
• Naming convention
http://www.metalex.eu
14. MetaLex Document Server
• Alle Nederlandse wet- en regelgeving in CEN MetaLex formaat
28.981 document versies
• Metadata in RDF
113.333.017 triples
• Elke nacht bijgewerkt vanuit BWB (wetten.nl API)
• “Versiebewuste” identificatie van alle elementen
• Persistente identificatie van alle elementen
• Extractie van verwijzingsstructuren
http://doc.metalex.eu
19. Conceptextractie
Artikel 10, lid 9
Het eerste lid is mede van toepassing, indien tot het vermogen van de erflater een schuld
behoort, die is ontstaan als gevolg van een uiterste wil, voor zover de nominale waarde
van die schuld meer bedraagt dan de waarde [...]
• Voor elk artikel, ontleed elke zin afzonderlijk
• Elke naamwoordzin verwijst naar een concept
• Elk zelfstandig naamwoord verwijst naar een
concept
• Elk zelfstandig naamwoord dat binnen een
naamwoordzin voorkomt, verwijst naar een
algemener concept dan de naamwoordzin.
20. Representatie
• Simple Knowledge Organization System (SKOS)
• Concepten worden gerepresenteerd als skos:Concept
• Concepten hebben hiërarchische skos:broader relaties
• Concepten worden gekoppeld aan de vindplaats door
dcterms:subject relaties
• Samen voorkomende concepten worden onderling gekoppeld
met ma:cooccursWith relaties
• Concepten worden gekoppeld aan een thesaurus door
skos:exactMatch relaties
21. Princeton
Wordnet
testator [...]
Cornetto
Wordnet
vermogen vermogen
weten capaciteit legator erflater
(geld) (het kunnen)
skos:closeMatch skos:closeMatch
aanspraken
vermogen erflater
MetaLex Annotator
ma:cooccursWith
skos:relatedMatch aard
skos:broader skos:broader ma:cooccursWith
algemeen
vermogen van de erflater ma:cooccursWith
belang
ma:cooccursWith
[...]
dcterms:subject dcterms:subject dcterms:subject
Document
MetaLex
SW SW SW
Server
Hoofdstuk I, Artikel 10 Hoofdstuk I, Artikel 13 Hoofdstuk III, Artikel 32
31. Verwijzingsniveau
vermogen van de erflater
Successiewet
dcterms:subject Successiewet
vermogen van de erflater
32. Verwijzingsniveau
vermogen van de erflater
Successiewet
dcterms:subject Successiewet
vermogen van de erflater
SW Hoofdstuk I SW
dcterms:subject
vermogen van de erflater Hoofdstuk I
SW Artikel 10 SW
dcterms:subject
vermogen van de erflater Hoofdstuk I, Artikel 10
SW
SW Art. 10, zin 1 Hoofdstuk I, Artikel 10
dcterms:subject
vermogen van de erflater Zin 1
33. Resultaten
• Herkennen van begrippen is doenbaar
(nog aardig wat false positives, vnl. te lange begrippen)
• Samenvoegen van enkelvoud en meervoud nog
problematisch
• Juiste niveau van koppelen aan bron nog te kiezen
• Annotatieomgeving (?)
34. Definitie Extractie
• Voor elk artikel, ga op zoek naar patronen
Onder verkrijging krachtens erfrecht wordt voor de toepassing van deze wet
mede verstaan de verkrijging van vergunningen en aanspraken bij of na het
overlijden van de erflater indien die verkrijging rechtstreeks verband houdt met
de omstandigheid dat de erflater die of dergelijke vergunningen en aanspraken
bezat.
Begrip verkrijging krachtens erfrecht
Definitie de verkrijging van vergunningen en aanspraken bij of na het overlijden van de erflater
Modifier mede
Scope voor de toepassing van deze wet
Conditie die verkrijging rechtstreeks verband houdt met de omstandigheid ...
38. Problemen
• Ficties
“wordt geacht”, “worden aangemerkt als” en “wordt beschouwd als”,
“wordt onder ... begrepen”, “worden vermoed te zijn”, “wordt
bepaald alsof” en “worden op dezelfde wijze behandeld als”
• Lijsten
• Gemiste kansen (bug?)
“Onder schenking wordt niet begrepen...”,
“Voor de toepassing van deze wet en de daarop berustende
bepalingen worden de landen van het Koninkrijk der Nederlanden
aangemerkt als afzonderlijke mogendheden.”
39. Resultaten
• Dertig patronen voor standaardzinnen
• Recall is momenteel ongeveer 50% (nare bug)
• Precision is redelijk (op Successiewet)
• Precision is erg slecht op breder corpus
• Uitbreiden naar ficties?
• Conclusie: (sc)haalbaarheid is een open vraag
40. Analyse
• Verwijzingen tussen artikelen
• Inzicht in belang van artikelen
• Inzicht in belangrijke schakel artikelen
• Cooccurrence van begrippen
• Identificatie van thema’s
• Samenvallen verwijzingsstructuur en thema?
41. Analyse
Eigenschappen van een netwerk
Dichtheid van het netwerk. Dichtheid van 1 = alle knopen
Density
zijn met elkaar verbonden
Modularity Clusters van onderling sterk gerelateerde knopen
Onafhankelijke clusters van onderling zeer sterk gerelateerde
Small World
knopen
Eigenschappen van individuele knopen
Degree Centrality Aantal verwijzingen
In/Out Degree Aantal inkomende/uitgaande verwijzingen
Belangrijkheid van knoop op ‘kortste paden’ tussen andere
Betweenness Centrality
knopen
42.
43. WJZ
BW
SW
Boek 4, Art. 13
WaJong
IB
WIA WBRV
WPO
WVP
WLB
IV
AWB Art 4
44.
45.
46.
47.
48. Discussie
• Concepten herkennen gaat goed
• Definities extraheren gaat nog moeizaam
• Netwerkanalyse biedt perspectief
• Impactanalyse van wijzigingen
• Uitbreiden met meer soorten documenten?
beleidsnotities, uitvoeringsbesluiten
• TFIDF op concept co-occurrence