SlideShare une entreprise Scribd logo
Corpus-écrits
           GT7, nouv-com
         https://groupes.renater.fr/wiki/corpus-ecrits-nouvcom/




 Expériences d'élaboration des
    corpus de référence du
  hollandais et de l'allemand.
Projet de noyau de corpus CMC
          en français
         Thierry Chanier, Université Blaise Pascal


2ème journées : Corpus de référence
du français
28-29 mars 2013, Paris
1



    CORPUS EN ALLEMAND DWDS
    DIGITALES WÖRTERBUCH DER
    DEUTSCHEN SPRACHE

    Merci à Alexander Geyken (BBAW) et Lothar Lemnitzer (Berlin-
    Brandebourg)

                                                                   2
Principaux projets corpus en
               allemand

Allemand des 20 et 21 ème   Allemand 1650-1900




                                                 3
Objectif DWDS Noyau

      Construire un dictionnaire rendant
      compte des usages de l’allemand moderne
      à partir d’un corpus équilibré d’écrits
      - 60% électronique
      - 40% papier au départ
      -Métadonnées pour tous les documents




                                            4
DWDS-E étendu

   Mais statistiques lexicales montrent qu’il
    faut des tailles supérieures pour analyser
    certains phénomènes (collocations, etc.)
   Corpus étendu de type opportuniste
   Base importante à partir de journaux et de
    l’Internet (pb droits plus facile à régler)
   Tous les corpus DWDS et DTA, ainsi que
    les dictionnaires sont structurés en TEI/P5

                                                  5
Planification du projet DWDS




Dico DWDS basé sur dico WDG (1961-75)                               6
                             Wörterbuch der deutschen Gegenwartssprache
BBAW                                  AvH


Akademienunion

                 Patrons et ressources




                        Financé par “Akademienunion » sur 18 ans



                                                                   7
DWDS noyau : tâches principales



                            Accès :
                            voir infra

                            -TAGH :
                            morpho
                            composé
                            -STTS :
                            POS
                            - GermaNet
                            : sém.


                                         8
www.dwds.de : un site en accès libre
                                       9
Par décennies
    et genres           Les corpus


71% des textes en accès libre dans DWDS noyau
                                                10
Statistiques en accès libres faites sur ensemble corpus
On voit plus de textes après identification          11
2



    CORPUS DE RÉFÉRENCE EN
    HOLLANDAIS, SONAR
           STEVIN Nederlandstalig Referentiecorpus




    Merci à Nelleke Oostdijk (Radboud University Nijmegen)

                                                             12
Objectifs

   Construire un corpus de référence de du
    hollandais et du flamand moderne (post
    1954) de grande taille (500 M tokens) qui
    puissent servir à la fois à des analyses
    linguistiques et au développement de
    technologies du langage.
   Inclure dès le début des écrits provenant
    des médias traditionnels et de l’Internet
   Auparavant corpus oral de 9 M tokens
    (transcript + audio), collecte entre 1998 et2003
                                                       13
Une grande variété initialement prévue




                                         14
Du prévu à la réalité
  prévu              réalisé


          Phase 1 Holland. Flamand   NC




                                          15
Du prévu à la réalité
   Question de droits : grande variété,
    chronophage
   Grande variété de formats, délaisser
    formats trop complexes (PDF)
   Approche opportuniste avec Internet
    – Collectes faciles (Tweets, forum, clav) ou difficile
      (SMS)
    – Droits difficiles (Sites, blogues) ou libres
      (licences CC ou GPL)
   Maintenir équilibre global, collecter plus que
    ce qui sera intégré dans corpus référence                16
D’abord un corpus pilote




                           17
SoNaR : organisation

                                        Chercheurs
                                        Industrie




                                            Éval
Constitution    Annotations   Qualité    extérieure
  corpus        sémantiques
                                                      18
Développement: collaboration nationale




                                         19
Diagramme de flux




                    20
Ressources financières




                         21
Ressources financières




+ 1 ETP par université pour tâche A et temps partiels des
autres pour début
Budget ne comprend pas les missions internes, ni conf.
                                                            22
3                                          à
                                 u e dcd
                               sq >c        p
                                        co
                           lut _4 r sa n?
                         Sa OM            i
                                  d p 2ma
                          <N 1 dv la
                           ht     a
                               ep
                            ki

SMS / textos
Tweets
Blogues        Projet de corpus CMC en français
Forums
Clavardage
Etc.
Rappel objectifs projet 2013-14

   Créer un noyau (pas encore le corpus de
    référence !) de corpus CMC en français
   Ensembles de conversations intervenant sur
    la Toile et les réseaux
   Couvrir variété de systèmes de
    communication synchrone ou asynchrone,
    mono ou multimodaux (éventuellement) :
    blogues, tweets, SMS / textos, courriels ,
    clavardage, forums, etc.

                                                 24
Rappel objectifs projet 2013-14

   Le faire suivant standard (TEI, CLARIN,
    OLAC?)
   Diffuser en accès libre ce corpus en 2014
    sur Ortolang
   Travailler en partenarait avec Europe (projet
    consortium TEI, DARIAH)
   Intégrer ce noyau au « Corpus de référence
    du français »


                                                    25
Macrostructure discursive




(Beißwenger et
al., 2012)




                                             26
Macro et
microstructure




                 27
Audio   Clavardage


                                 Multimodalité




              (LETEC corpus Archi21 : archi21-slrefl-av-j2)
sms anonymisé
       sms brut
Salut s que 2nis c dcd à anonymisation                              Salut s que <NOM_4> c
ht 1 dvd pr sa cop ki e                                             dcd à ht 1 dvd pr sa cop
      pa la 2main?                                                      ki e pa la 2main?

                                                          dage
    sms transcodé                                      co
                                                 tr ans
                                                                     sms annoté
    Salut est-ce que
<NOM_4> s'est décidé
                                                     Salut <MOD_s_que> est-ce que <NOM_4> <MOD_c> s'est
à acheter 1 dvd pour sa                             <MOD_dcd> décidé à <MOD_ht> acheter 1 <TYP_dvd> DVD
  copine qui est pas là                               <MOD_pr> pour sa <MOD_cop> copine <MOD_ki> qui
                                                        <ABS_ne> <MOD_e> est <MOD_pa> pas <TYP_la> là
        demain?                                      <MOD_2main> demain <TYP_espace_avant_?_manquante> ?



                                            annotation
              Rachel Panckhurst, CÉNC, 31/5/12        29
Variability (orthographique)

     • can only in part be explained in terms of errors, as a great deal of variation is
       intentional

     • is a research topic in itself

     • complicates research as it hinders the processing of the data by means of standard
       tools (tokenizers, POS taggers and lemmatizers, parsers, NE recognizers, etc.)

         Han & Baldwin (2012: 368):
         “We found Twitter data to have an unsurprisingly long tail of OOV words,
         suggesting that conventional supervised learning will not perform well due to data
         sparsity. Additionally, many ill-formed words are ambiguous, and require context to
         disambiguate.”




Workshop on Building Corpora of Computer-Mediated Communication — Dortmund 14-15 February      8
                                                                                    2013
Expérience TAL dans notre groupe




                                   31
32
33
Groupes de travail du projet 2013
                                         Droits,
                                         Amont : accept V0
                                         Aval : accept V1
                                         métadonnées


                                                         Relations Ortolang
                                                         corpus-écrits
                                                         Prépa V1




                                                           Tweets, wikipedia
          TEI                              Nelles
                Structuration            acquisitions

Linda   méta
                Ingénieur   (Corpus-écrits + Ortolang)                    34
Dépôts individuels    Flux de traitements
                                     GT traitements
                     GT Validation




V0 Clermont




                     ingénieur




                                                      35
PROJET TEI-CMC
EUROPÉEN

                 36
   1) Modelling CMC in TEI:
    – brief overview of essential requirements concerning the
      representation of CMC from the perspective of the four projects
      [8 min],
    – selected aspects from the DeRiK-TEI schema reviewed from the
      perspective of the four projects (suggested focus: element
      posting, user modelling, interaction signs) [15 min],
    – problem sketches: (a) hypertext structures/“linked data“ (cf.
      topical focus of the conference), (b) multimodal CMC [5 mins
      each].
   2) Challenges and perspectives in mapping features of
    computer-mediated communication to elements in TEI-P5
   3) Metadata for cmc documents: challenges & suggestions

                                                                        37
Participants a                            u projet
    Groupe GT7, corpus-écrits
                                                         Linda Hriba , corpus-écrits
   Achille Falaise, LIG, Grenoble
   Benoît Sagot, Alpage, INRIA , Univ. P7
                                                         Paul Lotin, ingénieur, LRL
   Béatrice Turpin, CRTF, Univ. de Cergy                Ingénieur à recruter (6
   Céline Poudat, UMR LDI, Univ. Paris 13                mois/ETP, sur fonds
   Ciara Wigham, LRL, Univ. Blaise Pascal                Ortolang et corpus-écrits)
   Fiammetta Namer, ATILF, Nancy
   Georges Antoniadis, LIDILEM, Univ Grenoble 3
   Georgeta Cislaru, CLESTHIA, Univ. Paris 3
   Gudrun Ledegen , PREFics, Univ. de Rennes 2
   Julien Longhi, CRTF, Univ. de Cergy
   Mahé Ben Hamed, UMR BCL, Nice
   Natalia Grabar, UMR STL, CNRS Univ. Lille 3
   Paloque-Berges, Camille, DICEN, CNAM
   Rachel Panckhurst, UMR Praxiling, CNRS Univ.
    Montpellier 3
   Thierry Chanier, LRL, Univ. Blaise Pascal
   Tita Kyriacopoulou, LIGM, Univ. Marne-la-Vallée
   Virginie Zampa, LIDILEM, Univ Grenoble 3
                                                                                        38
Pour nous suivre


Corpus-écrits
GT7, nouv-com




https://groupes.renater.fr/wiki/corpus-ecrits-nouvcom/ 39

Contenu connexe

Similaire à Corpus communication médiée par les réseaux en français et corpus allemand et hollandais

Interopérabilité et échanges de données pour les archives
Interopérabilité et échanges de données pour les archivesInteropérabilité et échanges de données pour les archives
Interopérabilité et échanges de données pour les archives
Pauline Moirez
 
Domain_Driven_Design
Domain_Driven_DesignDomain_Driven_Design
Domain_Driven_Design
SpikeeLabs
 
La Meta-programmation
La Meta-programmation La Meta-programmation
La Meta-programmation
Microsoft
 
Modèles de données et langages de description ouverts 2021-2022 - 1
Modèles de données et langages de description ouverts   2021-2022 - 1Modèles de données et langages de description ouverts   2021-2022 - 1
Modèles de données et langages de description ouverts 2021-2022 - 1
François-Xavier Boffy
 
Informatique documentaire - Cours Licence pro bib 2013
Informatique documentaire - Cours Licence pro bib 2013Informatique documentaire - Cours Licence pro bib 2013
Informatique documentaire - Cours Licence pro bib 2013
Sylvain Machefert
 
Algo vol.2 sujets
Algo vol.2   sujetsAlgo vol.2   sujets
Algo vol.2 sujets
chrisdilane
 
Concevoir la diffusion d’une banque de corpus dès le début du projet de reche...
Concevoir la diffusion d’une banque de corpus dès le début du projet de reche...Concevoir la diffusion d’une banque de corpus dès le début du projet de reche...
Concevoir la diffusion d’une banque de corpus dès le début du projet de reche...
Thierry Chanier
 
Dev ops - Contiuous delivery
Dev ops - Contiuous deliveryDev ops - Contiuous delivery
Dev ops - Contiuous delivery
Patrice Ferlet
 
Conduire un projet de dématérialisation.pdf
Conduire un projet de dématérialisation.pdfConduire un projet de dématérialisation.pdf
Conduire un projet de dématérialisation.pdf
Farah Louzali
 
Gestion avancé des médias – retour d’expérience Radio France
Gestion avancé des médias – retour d’expérience Radio France Gestion avancé des médias – retour d’expérience Radio France
Gestion avancé des médias – retour d’expérience Radio France
Olivier Friesse
 
OCCIware presentation au groupe de travail Big Data du SCS
OCCIware presentation au groupe de travail Big Data du SCSOCCIware presentation au groupe de travail Big Data du SCS
OCCIware presentation au groupe de travail Big Data du SCS
OCCIware
 
DDD, CQRS et Event Sourcing : quand coder propre n'est plus suffisant
 DDD, CQRS et Event Sourcing : quand coder propre n'est plus suffisant DDD, CQRS et Event Sourcing : quand coder propre n'est plus suffisant
DDD, CQRS et Event Sourcing : quand coder propre n'est plus suffisant
cluelessjoe
 
Decoder Systematic Presentation
Decoder Systematic Presentation Decoder Systematic Presentation
Decoder Systematic Presentation
Decoder Project
 
Introduction à l'informatique documentaire - 2011
Introduction à l'informatique documentaire - 2011Introduction à l'informatique documentaire - 2011
Introduction à l'informatique documentaire - 2011Sylvain Machefert
 
Comment travailler avec les logiciels Open Source
Comment travailler avec les logiciels Open SourceComment travailler avec les logiciels Open Source
Comment travailler avec les logiciels Open Source
Christian Charreyre
 
CV Template Jun 15 WD French - Jeremie Simonet
CV Template Jun 15 WD French - Jeremie SimonetCV Template Jun 15 WD French - Jeremie Simonet
CV Template Jun 15 WD French - Jeremie SimonetJérémie Simonet
 
Intégration continue
Intégration continueIntégration continue
Intégration continue
Johan Moreau
 
MediaLille evolutions catalogage_avril2014_enjeux_1
MediaLille evolutions catalogage_avril2014_enjeux_1MediaLille evolutions catalogage_avril2014_enjeux_1
MediaLille evolutions catalogage_avril2014_enjeux_1
nonue12
 
Berard texte intervention_jabes_2010
Berard texte intervention_jabes_2010Berard texte intervention_jabes_2010
Berard texte intervention_jabes_2010ABES
 

Similaire à Corpus communication médiée par les réseaux en français et corpus allemand et hollandais (20)

Interopérabilité et échanges de données pour les archives
Interopérabilité et échanges de données pour les archivesInteropérabilité et échanges de données pour les archives
Interopérabilité et échanges de données pour les archives
 
Domain_Driven_Design
Domain_Driven_DesignDomain_Driven_Design
Domain_Driven_Design
 
La Meta-programmation
La Meta-programmation La Meta-programmation
La Meta-programmation
 
Modèles de données et langages de description ouverts 2021-2022 - 1
Modèles de données et langages de description ouverts   2021-2022 - 1Modèles de données et langages de description ouverts   2021-2022 - 1
Modèles de données et langages de description ouverts 2021-2022 - 1
 
Informatique documentaire - Cours Licence pro bib 2013
Informatique documentaire - Cours Licence pro bib 2013Informatique documentaire - Cours Licence pro bib 2013
Informatique documentaire - Cours Licence pro bib 2013
 
Algo vol.2 sujets
Algo vol.2   sujetsAlgo vol.2   sujets
Algo vol.2 sujets
 
Concevoir la diffusion d’une banque de corpus dès le début du projet de reche...
Concevoir la diffusion d’une banque de corpus dès le début du projet de reche...Concevoir la diffusion d’une banque de corpus dès le début du projet de reche...
Concevoir la diffusion d’une banque de corpus dès le début du projet de reche...
 
Dev ops - Contiuous delivery
Dev ops - Contiuous deliveryDev ops - Contiuous delivery
Dev ops - Contiuous delivery
 
Conduire un projet de dématérialisation.pdf
Conduire un projet de dématérialisation.pdfConduire un projet de dématérialisation.pdf
Conduire un projet de dématérialisation.pdf
 
Démo abelos
Démo abelosDémo abelos
Démo abelos
 
Gestion avancé des médias – retour d’expérience Radio France
Gestion avancé des médias – retour d’expérience Radio France Gestion avancé des médias – retour d’expérience Radio France
Gestion avancé des médias – retour d’expérience Radio France
 
OCCIware presentation au groupe de travail Big Data du SCS
OCCIware presentation au groupe de travail Big Data du SCSOCCIware presentation au groupe de travail Big Data du SCS
OCCIware presentation au groupe de travail Big Data du SCS
 
DDD, CQRS et Event Sourcing : quand coder propre n'est plus suffisant
 DDD, CQRS et Event Sourcing : quand coder propre n'est plus suffisant DDD, CQRS et Event Sourcing : quand coder propre n'est plus suffisant
DDD, CQRS et Event Sourcing : quand coder propre n'est plus suffisant
 
Decoder Systematic Presentation
Decoder Systematic Presentation Decoder Systematic Presentation
Decoder Systematic Presentation
 
Introduction à l'informatique documentaire - 2011
Introduction à l'informatique documentaire - 2011Introduction à l'informatique documentaire - 2011
Introduction à l'informatique documentaire - 2011
 
Comment travailler avec les logiciels Open Source
Comment travailler avec les logiciels Open SourceComment travailler avec les logiciels Open Source
Comment travailler avec les logiciels Open Source
 
CV Template Jun 15 WD French - Jeremie Simonet
CV Template Jun 15 WD French - Jeremie SimonetCV Template Jun 15 WD French - Jeremie Simonet
CV Template Jun 15 WD French - Jeremie Simonet
 
Intégration continue
Intégration continueIntégration continue
Intégration continue
 
MediaLille evolutions catalogage_avril2014_enjeux_1
MediaLille evolutions catalogage_avril2014_enjeux_1MediaLille evolutions catalogage_avril2014_enjeux_1
MediaLille evolutions catalogage_avril2014_enjeux_1
 
Berard texte intervention_jabes_2010
Berard texte intervention_jabes_2010Berard texte intervention_jabes_2010
Berard texte intervention_jabes_2010
 

Dernier

Cours de conjugaison des verbes du premier, deuxième et troisième groupe
Cours de conjugaison des verbes du premier, deuxième et troisième groupeCours de conjugaison des verbes du premier, deuxième et troisième groupe
Cours de conjugaison des verbes du premier, deuxième et troisième groupe
Yuma91
 
Iris van Herpen. pptx
Iris            van        Herpen.     pptxIris            van        Herpen.     pptx
Iris van Herpen. pptx
Txaruka
 
Burkina Faso library newsletter May 2024
Burkina Faso library newsletter May 2024Burkina Faso library newsletter May 2024
Burkina Faso library newsletter May 2024
Friends of African Village Libraries
 
M2i Webinar - « Participation Financière Obligatoire » et CPF : une opportuni...
M2i Webinar - « Participation Financière Obligatoire » et CPF : une opportuni...M2i Webinar - « Participation Financière Obligatoire » et CPF : une opportuni...
M2i Webinar - « Participation Financière Obligatoire » et CPF : une opportuni...
M2i Formation
 
Evaluación docentes "Un cielo, dos países: El camino de los descubrimientos"
Evaluación docentes "Un cielo, dos países: El camino de los descubrimientos"Evaluación docentes "Un cielo, dos países: El camino de los descubrimientos"
Evaluación docentes "Un cielo, dos países: El camino de los descubrimientos"
IES Turina/Rodrigo/Itaca/Palomeras
 
Système de gestion des fichiers de amine
Système de gestion des fichiers de amineSystème de gestion des fichiers de amine
Système de gestion des fichiers de amine
sewawillis
 
Impact des Critères Environnementaux, Sociaux et de Gouvernance (ESG) sur les...
Impact des Critères Environnementaux, Sociaux et de Gouvernance (ESG) sur les...Impact des Critères Environnementaux, Sociaux et de Gouvernance (ESG) sur les...
Impact des Critères Environnementaux, Sociaux et de Gouvernance (ESG) sur les...
mrelmejri
 
Edito-B1-francais Manuel to learning.pdf
Edito-B1-francais Manuel to learning.pdfEdito-B1-francais Manuel to learning.pdf
Edito-B1-francais Manuel to learning.pdf
WarlockeTamagafk
 
Formation Intelligence Artificielle pour dirigeants- IT6-DIGITALIX 24_opt OK_...
Formation Intelligence Artificielle pour dirigeants- IT6-DIGITALIX 24_opt OK_...Formation Intelligence Artificielle pour dirigeants- IT6-DIGITALIX 24_opt OK_...
Formation Intelligence Artificielle pour dirigeants- IT6-DIGITALIX 24_opt OK_...
cristionobedi
 
SYLLABUS DU COURS MARKETING DTS 1-2.pdf
SYLLABUS DU COURS  MARKETING DTS 1-2.pdfSYLLABUS DU COURS  MARKETING DTS 1-2.pdf
SYLLABUS DU COURS MARKETING DTS 1-2.pdf
Moukagni Evrard
 
Mémoire de licence en finance comptabilité et audit
Mémoire de licence en finance comptabilité et auditMémoire de licence en finance comptabilité et audit
Mémoire de licence en finance comptabilité et audit
MelDjobo
 
Iris et les hommes.pptx
Iris      et         les      hommes.pptxIris      et         les      hommes.pptx
Iris et les hommes.pptx
Txaruka
 
Conseils pour Les Jeunes | Conseils de La Vie| Conseil de La Jeunesse
Conseils pour Les Jeunes | Conseils de La Vie| Conseil de La JeunesseConseils pour Les Jeunes | Conseils de La Vie| Conseil de La Jeunesse
Conseils pour Les Jeunes | Conseils de La Vie| Conseil de La Jeunesse
Oscar Smith
 

Dernier (13)

Cours de conjugaison des verbes du premier, deuxième et troisième groupe
Cours de conjugaison des verbes du premier, deuxième et troisième groupeCours de conjugaison des verbes du premier, deuxième et troisième groupe
Cours de conjugaison des verbes du premier, deuxième et troisième groupe
 
Iris van Herpen. pptx
Iris            van        Herpen.     pptxIris            van        Herpen.     pptx
Iris van Herpen. pptx
 
Burkina Faso library newsletter May 2024
Burkina Faso library newsletter May 2024Burkina Faso library newsletter May 2024
Burkina Faso library newsletter May 2024
 
M2i Webinar - « Participation Financière Obligatoire » et CPF : une opportuni...
M2i Webinar - « Participation Financière Obligatoire » et CPF : une opportuni...M2i Webinar - « Participation Financière Obligatoire » et CPF : une opportuni...
M2i Webinar - « Participation Financière Obligatoire » et CPF : une opportuni...
 
Evaluación docentes "Un cielo, dos países: El camino de los descubrimientos"
Evaluación docentes "Un cielo, dos países: El camino de los descubrimientos"Evaluación docentes "Un cielo, dos países: El camino de los descubrimientos"
Evaluación docentes "Un cielo, dos países: El camino de los descubrimientos"
 
Système de gestion des fichiers de amine
Système de gestion des fichiers de amineSystème de gestion des fichiers de amine
Système de gestion des fichiers de amine
 
Impact des Critères Environnementaux, Sociaux et de Gouvernance (ESG) sur les...
Impact des Critères Environnementaux, Sociaux et de Gouvernance (ESG) sur les...Impact des Critères Environnementaux, Sociaux et de Gouvernance (ESG) sur les...
Impact des Critères Environnementaux, Sociaux et de Gouvernance (ESG) sur les...
 
Edito-B1-francais Manuel to learning.pdf
Edito-B1-francais Manuel to learning.pdfEdito-B1-francais Manuel to learning.pdf
Edito-B1-francais Manuel to learning.pdf
 
Formation Intelligence Artificielle pour dirigeants- IT6-DIGITALIX 24_opt OK_...
Formation Intelligence Artificielle pour dirigeants- IT6-DIGITALIX 24_opt OK_...Formation Intelligence Artificielle pour dirigeants- IT6-DIGITALIX 24_opt OK_...
Formation Intelligence Artificielle pour dirigeants- IT6-DIGITALIX 24_opt OK_...
 
SYLLABUS DU COURS MARKETING DTS 1-2.pdf
SYLLABUS DU COURS  MARKETING DTS 1-2.pdfSYLLABUS DU COURS  MARKETING DTS 1-2.pdf
SYLLABUS DU COURS MARKETING DTS 1-2.pdf
 
Mémoire de licence en finance comptabilité et audit
Mémoire de licence en finance comptabilité et auditMémoire de licence en finance comptabilité et audit
Mémoire de licence en finance comptabilité et audit
 
Iris et les hommes.pptx
Iris      et         les      hommes.pptxIris      et         les      hommes.pptx
Iris et les hommes.pptx
 
Conseils pour Les Jeunes | Conseils de La Vie| Conseil de La Jeunesse
Conseils pour Les Jeunes | Conseils de La Vie| Conseil de La JeunesseConseils pour Les Jeunes | Conseils de La Vie| Conseil de La Jeunesse
Conseils pour Les Jeunes | Conseils de La Vie| Conseil de La Jeunesse
 

Corpus communication médiée par les réseaux en français et corpus allemand et hollandais

  • 1. Corpus-écrits GT7, nouv-com https://groupes.renater.fr/wiki/corpus-ecrits-nouvcom/ Expériences d'élaboration des corpus de référence du hollandais et de l'allemand. Projet de noyau de corpus CMC en français Thierry Chanier, Université Blaise Pascal 2ème journées : Corpus de référence du français 28-29 mars 2013, Paris
  • 2. 1 CORPUS EN ALLEMAND DWDS DIGITALES WÖRTERBUCH DER DEUTSCHEN SPRACHE Merci à Alexander Geyken (BBAW) et Lothar Lemnitzer (Berlin- Brandebourg) 2
  • 3. Principaux projets corpus en allemand Allemand des 20 et 21 ème Allemand 1650-1900 3
  • 4. Objectif DWDS Noyau Construire un dictionnaire rendant compte des usages de l’allemand moderne à partir d’un corpus équilibré d’écrits - 60% électronique - 40% papier au départ -Métadonnées pour tous les documents 4
  • 5. DWDS-E étendu  Mais statistiques lexicales montrent qu’il faut des tailles supérieures pour analyser certains phénomènes (collocations, etc.)  Corpus étendu de type opportuniste  Base importante à partir de journaux et de l’Internet (pb droits plus facile à régler)  Tous les corpus DWDS et DTA, ainsi que les dictionnaires sont structurés en TEI/P5 5
  • 6. Planification du projet DWDS Dico DWDS basé sur dico WDG (1961-75) 6 Wörterbuch der deutschen Gegenwartssprache
  • 7. BBAW AvH Akademienunion Patrons et ressources Financé par “Akademienunion » sur 18 ans 7
  • 8. DWDS noyau : tâches principales Accès : voir infra -TAGH : morpho composé -STTS : POS - GermaNet : sém. 8
  • 9. www.dwds.de : un site en accès libre 9
  • 10. Par décennies et genres Les corpus 71% des textes en accès libre dans DWDS noyau 10
  • 11. Statistiques en accès libres faites sur ensemble corpus On voit plus de textes après identification 11
  • 12. 2 CORPUS DE RÉFÉRENCE EN HOLLANDAIS, SONAR STEVIN Nederlandstalig Referentiecorpus Merci à Nelleke Oostdijk (Radboud University Nijmegen) 12
  • 13. Objectifs  Construire un corpus de référence de du hollandais et du flamand moderne (post 1954) de grande taille (500 M tokens) qui puissent servir à la fois à des analyses linguistiques et au développement de technologies du langage.  Inclure dès le début des écrits provenant des médias traditionnels et de l’Internet  Auparavant corpus oral de 9 M tokens (transcript + audio), collecte entre 1998 et2003 13
  • 14. Une grande variété initialement prévue 14
  • 15. Du prévu à la réalité prévu réalisé Phase 1 Holland. Flamand NC 15
  • 16. Du prévu à la réalité  Question de droits : grande variété, chronophage  Grande variété de formats, délaisser formats trop complexes (PDF)  Approche opportuniste avec Internet – Collectes faciles (Tweets, forum, clav) ou difficile (SMS) – Droits difficiles (Sites, blogues) ou libres (licences CC ou GPL)  Maintenir équilibre global, collecter plus que ce qui sera intégré dans corpus référence 16
  • 17. D’abord un corpus pilote 17
  • 18. SoNaR : organisation Chercheurs Industrie Éval Constitution Annotations Qualité extérieure corpus sémantiques 18
  • 22. Ressources financières + 1 ETP par université pour tâche A et temps partiels des autres pour début Budget ne comprend pas les missions internes, ni conf. 22
  • 23. 3 à u e dcd sq >c p co lut _4 r sa n? Sa OM i d p 2ma <N 1 dv la ht a ep ki SMS / textos Tweets Blogues Projet de corpus CMC en français Forums Clavardage Etc.
  • 24. Rappel objectifs projet 2013-14  Créer un noyau (pas encore le corpus de référence !) de corpus CMC en français  Ensembles de conversations intervenant sur la Toile et les réseaux  Couvrir variété de systèmes de communication synchrone ou asynchrone, mono ou multimodaux (éventuellement) : blogues, tweets, SMS / textos, courriels , clavardage, forums, etc. 24
  • 25. Rappel objectifs projet 2013-14  Le faire suivant standard (TEI, CLARIN, OLAC?)  Diffuser en accès libre ce corpus en 2014 sur Ortolang  Travailler en partenarait avec Europe (projet consortium TEI, DARIAH)  Intégrer ce noyau au « Corpus de référence du français » 25
  • 28. Audio Clavardage Multimodalité (LETEC corpus Archi21 : archi21-slrefl-av-j2)
  • 29. sms anonymisé sms brut Salut s que 2nis c dcd à anonymisation Salut s que <NOM_4> c ht 1 dvd pr sa cop ki e dcd à ht 1 dvd pr sa cop pa la 2main? ki e pa la 2main? dage sms transcodé co tr ans sms annoté Salut est-ce que <NOM_4> s'est décidé Salut <MOD_s_que> est-ce que <NOM_4> <MOD_c> s'est à acheter 1 dvd pour sa <MOD_dcd> décidé à <MOD_ht> acheter 1 <TYP_dvd> DVD copine qui est pas là <MOD_pr> pour sa <MOD_cop> copine <MOD_ki> qui <ABS_ne> <MOD_e> est <MOD_pa> pas <TYP_la> là demain? <MOD_2main> demain <TYP_espace_avant_?_manquante> ? annotation Rachel Panckhurst, CÉNC, 31/5/12 29
  • 30. Variability (orthographique) • can only in part be explained in terms of errors, as a great deal of variation is intentional • is a research topic in itself • complicates research as it hinders the processing of the data by means of standard tools (tokenizers, POS taggers and lemmatizers, parsers, NE recognizers, etc.) Han & Baldwin (2012: 368): “We found Twitter data to have an unsurprisingly long tail of OOV words, suggesting that conventional supervised learning will not perform well due to data sparsity. Additionally, many ill-formed words are ambiguous, and require context to disambiguate.” Workshop on Building Corpora of Computer-Mediated Communication — Dortmund 14-15 February 8 2013
  • 31. Expérience TAL dans notre groupe 31
  • 32. 32
  • 33. 33
  • 34. Groupes de travail du projet 2013 Droits, Amont : accept V0 Aval : accept V1 métadonnées Relations Ortolang corpus-écrits Prépa V1 Tweets, wikipedia TEI Nelles Structuration acquisitions Linda méta Ingénieur (Corpus-écrits + Ortolang) 34
  • 35. Dépôts individuels Flux de traitements GT traitements GT Validation V0 Clermont ingénieur 35
  • 37. 1) Modelling CMC in TEI: – brief overview of essential requirements concerning the representation of CMC from the perspective of the four projects [8 min], – selected aspects from the DeRiK-TEI schema reviewed from the perspective of the four projects (suggested focus: element posting, user modelling, interaction signs) [15 min], – problem sketches: (a) hypertext structures/“linked data“ (cf. topical focus of the conference), (b) multimodal CMC [5 mins each].  2) Challenges and perspectives in mapping features of computer-mediated communication to elements in TEI-P5  3) Metadata for cmc documents: challenges & suggestions 37
  • 38. Participants a u projet Groupe GT7, corpus-écrits  Linda Hriba , corpus-écrits  Achille Falaise, LIG, Grenoble  Benoît Sagot, Alpage, INRIA , Univ. P7  Paul Lotin, ingénieur, LRL  Béatrice Turpin, CRTF, Univ. de Cergy  Ingénieur à recruter (6  Céline Poudat, UMR LDI, Univ. Paris 13 mois/ETP, sur fonds  Ciara Wigham, LRL, Univ. Blaise Pascal Ortolang et corpus-écrits)  Fiammetta Namer, ATILF, Nancy  Georges Antoniadis, LIDILEM, Univ Grenoble 3  Georgeta Cislaru, CLESTHIA, Univ. Paris 3  Gudrun Ledegen , PREFics, Univ. de Rennes 2  Julien Longhi, CRTF, Univ. de Cergy  Mahé Ben Hamed, UMR BCL, Nice  Natalia Grabar, UMR STL, CNRS Univ. Lille 3  Paloque-Berges, Camille, DICEN, CNAM  Rachel Panckhurst, UMR Praxiling, CNRS Univ. Montpellier 3  Thierry Chanier, LRL, Univ. Blaise Pascal  Tita Kyriacopoulou, LIGM, Univ. Marne-la-Vallée  Virginie Zampa, LIDILEM, Univ Grenoble 3 38
  • 39. Pour nous suivre Corpus-écrits GT7, nouv-com https://groupes.renater.fr/wiki/corpus-ecrits-nouvcom/ 39