1. Veranderend Taalgebruik in de Kamer 1
Veranderend Taalgebruik in de
Kamer
Voor(delen|beelden) van een diachroon corpus
Maarten Marx
Universiteit van Amsterdam
Diachroom Corpus Workshop, ING Den Haag, 2011-03-30
2. Veranderend Taalgebruik in de Kamer 2
Inhoud
• Wat is een Diachroon Corpus voor mij?
• Staten Generaal Digitaal
• Boodschap
3. Veranderend Taalgebruik in de Kamer 3
Diachroon Corpus = OCR + Structuurherkenning
• statengeneraaldigitaal.nl
• Alle Handelingen van 1814–1995.
• Groot verschil tussen wens en werkelijkheid.
• Structuurherkenning: link
4. Veranderend Taalgebruik in de Kamer 4
Bronnen zitten vol impliciete data en metadata
• Rijk data model Link
• Meeting (1 Dag)
• Topic
• Stage direction
• Scene
• Stage direction
• Speech
• Paragraph
5. Veranderend Taalgebruik in de Kamer 5
Zelfde gegevens: verschillend bekeken
• Ruwe data in PDF
• XML leesbaar voor de mens
• Machine leesbaar XML formaat
6. Veranderend Taalgebruik in de Kamer 6
Lage kosten, enorme meerwaarde
• Bij statengeneraaldigitaal:
• verzamelen en OCR: 10M
• structuurherkenning: 50K (half procent)
• Voor elk woord weten we
• wie het zei
• wanneer
• in welke hoedanigheid
• in welke context (debat over . . . )
• tegen wie, en wie er aanwezig waren
• Krachtige zoek en analyse technieken komen beschikbaar.
7. Veranderend Taalgebruik in de Kamer 7
Voorbeeld 1: Huisvrouwen van Els Kloek
• Vraag: Diachrone ontwikkeling van begrip huis(vrouw|wijf).
• Methode 1 Search en Browse
• Methode 2 Zet alle ’hits’ netjes bij elkaar in een excel bestand:
• Zoek in alle Handelingen van 1814-1995 (5.G GB tekst).
• Resultaten:
huiswijf 0 hits
wijf 57
huisvrouw 1501
8. Veranderend Taalgebruik in de Kamer 8
Wat ’hits’
• Eerste hit huisvrouw: 1814
Cornelis de Haas en Anna de Boer, zuster van zijne overleden
huisvrouw
• Mooiste hit “wijf”
. . . want de tale is een vroedwijf der zinnen, een tolck des
herten ende een schilderij der ghedachten . . .
• Handelingen Eerste Kamer 1981 23 juni 1981, Paginas 11-34
9. Veranderend Taalgebruik in de Kamer 9
Voorbeeld data opslag
<speech docno="nl.19810000003-proc.pm.8.3.1"
speaker="Oskamp"
MPid="02724"
party="PvdA"
role="mp">
<p docno="nl.19810000003-proc.pm.8.3.1.1">Mijnheer de Voorzitter! Wat is passender
dan mijn bijdrage bij de totstandkoming van de Taalunie tussen Belgi"e en Nederland
te beginnen met een citaat uit Coornherts voorwoor d bij Spieghels Twespraack van
de Neder-duytsche Letterkunst?
...
• http://www.parlement.com/9291000/biof/02724
10. Veranderend Taalgebruik in de Kamer 10
Voorbeeld 2: grootschalige diachronische analyse
• Van elke politicus hebben we alle gesproken woorden per dag
geordend bij elkaar gezet.
• Zie http://politicalmashup.nl/2011/03/
wie-zegt-wat-en-wanneer-in-het-nederlandse-parlement/
• Toetsbare Hypotheses:
• Gebruikt men simpeler taal, naarmate je langer in de kamer zit?
• Gaat men wolliger spreken tijdens zware debatten?
• Mooie voorbeelden: 00738, 02682, Marcus Bakker, Balkenende,
. . . Link
12. Veranderend Taalgebruik in de Kamer 12
Denk groot en groots
• Bronnen zitten vol data en metadata.
• Haal dat er automatisch uit.
• Processen moeten schalen naar 10, 100, 1000 keer zoveel data.
• Wees niet bang voor foutjes.
Maak impliciete structuur en informatie expliciet.