SlideShare une entreprise Scribd logo
1  sur  12
Télécharger pour lire hors ligne
Veranderend Taalgebruik in de Kamer                                1




          Veranderend Taalgebruik in de
                     Kamer
            Voor(delen|beelden) van een diachroon corpus

                                            Maarten Marx

                                      Universiteit van Amsterdam

          Diachroom Corpus Workshop, ING Den Haag, 2011-03-30
Veranderend Taalgebruik in de Kamer            2



                                      Inhoud

• Wat is een Diachroon Corpus voor mij?

• Staten Generaal Digitaal

• Boodschap
Veranderend Taalgebruik in de Kamer               3



   Diachroon Corpus = OCR + Structuurherkenning

• statengeneraaldigitaal.nl

• Alle Handelingen van 1814–1995.

• Groot verschil tussen wens en werkelijkheid.

• Structuurherkenning: link
Veranderend Taalgebruik in de Kamer                    4



      Bronnen zitten vol impliciete data en metadata

• Rijk data model Link
• Meeting (1 Dag)
  • Topic
    • Stage direction
    • Scene
     • Stage direction
     • Speech
      • Paragraph
Veranderend Taalgebruik in de Kamer                      5



                 Zelfde gegevens: verschillend bekeken

• Ruwe data in PDF

• XML leesbaar voor de mens

• Machine leesbaar XML formaat
Veranderend Taalgebruik in de Kamer                         6



                       Lage kosten, enorme meerwaarde

• Bij statengeneraaldigitaal:
  • verzamelen en OCR: 10M
  • structuurherkenning: 50K (half procent)
• Voor elk woord weten we
  • wie het zei
  • wanneer
  • in welke hoedanigheid
  • in welke context (debat over . . . )
  • tegen wie, en wie er aanwezig waren

• Krachtige zoek en analyse technieken komen beschikbaar.
Veranderend Taalgebruik in de Kamer                                   7



              Voorbeeld 1: Huisvrouwen van Els Kloek

• Vraag: Diachrone ontwikkeling van begrip huis(vrouw|wijf).

• Methode 1 Search en Browse

• Methode 2 Zet alle ’hits’ netjes bij elkaar in een excel bestand:
  • Zoek in alle Handelingen van 1814-1995 (5.G GB tekst).
  • Resultaten:
                            huiswijf     0 hits
                            wijf         57
                            huisvrouw 1501
Veranderend Taalgebruik in de Kamer                                      8



                                      Wat ’hits’

• Eerste hit huisvrouw: 1814
        Cornelis de Haas en Anna de Boer, zuster van zijne overleden
         huisvrouw

• Mooiste hit “wijf”
         . . . want de tale is een vroedwijf der zinnen, een tolck des
        herten ende een schilderij der ghedachten . . .

• Handelingen Eerste Kamer 1981 23 juni 1981, Paginas 11-34
Veranderend Taalgebruik in de Kamer                                             9



                                      Voorbeeld data opslag

<speech docno="nl.19810000003-proc.pm.8.3.1"
        speaker="Oskamp"
        MPid="02724"
        party="PvdA"
        role="mp">
<p docno="nl.19810000003-proc.pm.8.3.1.1">Mijnheer de Voorzitter! Wat is passender
dan mijn bijdrage bij de totstandkoming van de Taalunie tussen Belgi"e en Nederland
te beginnen met een citaat uit Coornherts voorwoor d bij Spieghels Twespraack van
de Neder-duytsche Letterkunst?
...


• http://www.parlement.com/9291000/biof/02724
Veranderend Taalgebruik in de Kamer                                   10



    Voorbeeld 2: grootschalige diachronische analyse

• Van elke politicus hebben we alle gesproken woorden per dag
  geordend bij elkaar gezet.

• Zie http://politicalmashup.nl/2011/03/
  wie-zegt-wat-en-wanneer-in-het-nederlandse-parlement/

• Toetsbare Hypotheses:
  • Gebruikt men simpeler taal, naarmate je langer in de kamer zit?
  • Gaat men wolliger spreken tijdens zware debatten?

• Mooie voorbeelden: 00738, 02682, Marcus Bakker, Balkenende,
  . . . Link
Veranderend Taalgebruik in de Kamer               11



                                      Boodschap
Veranderend Taalgebruik in de Kamer                               12



                                      Denk groot en groots

• Bronnen zitten vol data en metadata.

• Haal dat er automatisch uit.

• Processen moeten schalen naar 10, 100, 1000 keer zoveel data.

• Wees niet bang voor foutjes.


 Maak impliciete structuur en informatie expliciet.

Contenu connexe

Plus de maartenmarx (12)

Economie van de aandacht
  Economie van de aandacht  Economie van de aandacht
Economie van de aandacht
 
Dans dataprijs2012
Dans dataprijs2012Dans dataprijs2012
Dans dataprijs2012
 
College sicco van-sas-2012_10_08
College sicco van-sas-2012_10_08College sicco van-sas-2012_10_08
College sicco van-sas-2012_10_08
 
Presentation at NLDB 2012
Presentation at NLDB 2012Presentation at NLDB 2012
Presentation at NLDB 2012
 
Women in Dutch parliament: what they did
Women in Dutch parliament: what they didWomen in Dutch parliament: what they did
Women in Dutch parliament: what they did
 
Keynote Exploring and Exploiting Official Publications
Keynote Exploring and Exploiting Official PublicationsKeynote Exploring and Exploiting Official Publications
Keynote Exploring and Exploiting Official Publications
 
Namescape 2012 03 06
Namescape 2012 03 06Namescape 2012 03 06
Namescape 2012 03 06
 
voting advice slides
 voting advice slides voting advice slides
voting advice slides
 
TV-slant presentatie_politicologen_etmaal
TV-slant presentatie_politicologen_etmaalTV-slant presentatie_politicologen_etmaal
TV-slant presentatie_politicologen_etmaal
 
Groningen nl pgroep
Groningen nl pgroepGroningen nl pgroep
Groningen nl pgroep
 
networks inparliament-ccct
 networks inparliament-ccct networks inparliament-ccct
networks inparliament-ccct
 
Screen biographischportaal2010 12-10
Screen biographischportaal2010 12-10Screen biographischportaal2010 12-10
Screen biographischportaal2010 12-10
 

Diachroon Corpus Workshop

  • 1. Veranderend Taalgebruik in de Kamer 1 Veranderend Taalgebruik in de Kamer Voor(delen|beelden) van een diachroon corpus Maarten Marx Universiteit van Amsterdam Diachroom Corpus Workshop, ING Den Haag, 2011-03-30
  • 2. Veranderend Taalgebruik in de Kamer 2 Inhoud • Wat is een Diachroon Corpus voor mij? • Staten Generaal Digitaal • Boodschap
  • 3. Veranderend Taalgebruik in de Kamer 3 Diachroon Corpus = OCR + Structuurherkenning • statengeneraaldigitaal.nl • Alle Handelingen van 1814–1995. • Groot verschil tussen wens en werkelijkheid. • Structuurherkenning: link
  • 4. Veranderend Taalgebruik in de Kamer 4 Bronnen zitten vol impliciete data en metadata • Rijk data model Link • Meeting (1 Dag) • Topic • Stage direction • Scene • Stage direction • Speech • Paragraph
  • 5. Veranderend Taalgebruik in de Kamer 5 Zelfde gegevens: verschillend bekeken • Ruwe data in PDF • XML leesbaar voor de mens • Machine leesbaar XML formaat
  • 6. Veranderend Taalgebruik in de Kamer 6 Lage kosten, enorme meerwaarde • Bij statengeneraaldigitaal: • verzamelen en OCR: 10M • structuurherkenning: 50K (half procent) • Voor elk woord weten we • wie het zei • wanneer • in welke hoedanigheid • in welke context (debat over . . . ) • tegen wie, en wie er aanwezig waren • Krachtige zoek en analyse technieken komen beschikbaar.
  • 7. Veranderend Taalgebruik in de Kamer 7 Voorbeeld 1: Huisvrouwen van Els Kloek • Vraag: Diachrone ontwikkeling van begrip huis(vrouw|wijf). • Methode 1 Search en Browse • Methode 2 Zet alle ’hits’ netjes bij elkaar in een excel bestand: • Zoek in alle Handelingen van 1814-1995 (5.G GB tekst). • Resultaten: huiswijf 0 hits wijf 57 huisvrouw 1501
  • 8. Veranderend Taalgebruik in de Kamer 8 Wat ’hits’ • Eerste hit huisvrouw: 1814 Cornelis de Haas en Anna de Boer, zuster van zijne overleden huisvrouw • Mooiste hit “wijf” . . . want de tale is een vroedwijf der zinnen, een tolck des herten ende een schilderij der ghedachten . . . • Handelingen Eerste Kamer 1981 23 juni 1981, Paginas 11-34
  • 9. Veranderend Taalgebruik in de Kamer 9 Voorbeeld data opslag <speech docno="nl.19810000003-proc.pm.8.3.1" speaker="Oskamp" MPid="02724" party="PvdA" role="mp"> <p docno="nl.19810000003-proc.pm.8.3.1.1">Mijnheer de Voorzitter! Wat is passender dan mijn bijdrage bij de totstandkoming van de Taalunie tussen Belgi"e en Nederland te beginnen met een citaat uit Coornherts voorwoor d bij Spieghels Twespraack van de Neder-duytsche Letterkunst? ... • http://www.parlement.com/9291000/biof/02724
  • 10. Veranderend Taalgebruik in de Kamer 10 Voorbeeld 2: grootschalige diachronische analyse • Van elke politicus hebben we alle gesproken woorden per dag geordend bij elkaar gezet. • Zie http://politicalmashup.nl/2011/03/ wie-zegt-wat-en-wanneer-in-het-nederlandse-parlement/ • Toetsbare Hypotheses: • Gebruikt men simpeler taal, naarmate je langer in de kamer zit? • Gaat men wolliger spreken tijdens zware debatten? • Mooie voorbeelden: 00738, 02682, Marcus Bakker, Balkenende, . . . Link
  • 11. Veranderend Taalgebruik in de Kamer 11 Boodschap
  • 12. Veranderend Taalgebruik in de Kamer 12 Denk groot en groots • Bronnen zitten vol data en metadata. • Haal dat er automatisch uit. • Processen moeten schalen naar 10, 100, 1000 keer zoveel data. • Wees niet bang voor foutjes. Maak impliciete structuur en informatie expliciet.