Corpus-écrits           GT7, nouv-com         https://groupes.renater.fr/wiki/corpus-ecrits-nouvcom/ Expériences délaborat...
1    CORPUS EN ALLEMAND DWDS    DIGITALES WÖRTERBUCH DER    DEUTSCHEN SPRACHE    Merci à Alexander Geyken (BBAW) et Lothar...
Principaux projets corpus en               allemandAllemand des 20 et 21 ème   Allemand 1650-1900                         ...
Objectif DWDS Noyau      Construire un dictionnaire rendant      compte des usages de l’allemand moderne      à partir d’u...
DWDS-E étendu   Mais statistiques lexicales montrent qu’il    faut des tailles supérieures pour analyser    certains phén...
Planification du projet DWDSDico DWDS basé sur dico WDG (1961-75)                               6                         ...
BBAW                                  AvHAkademienunion                 Patrons et ressources                        Finan...
DWDS noyau : tâches principales                            Accès :                            voir infra                  ...
www.dwds.de : un site en accès libre                                       9
Par décennies    et genres           Les corpus71% des textes en accès libre dans DWDS noyau                              ...
Statistiques en accès libres faites sur ensemble corpusOn voit plus de textes après identification          11
2    CORPUS DE RÉFÉRENCE EN    HOLLANDAIS, SONAR           STEVIN Nederlandstalig Referentiecorpus    Merci à Nelleke Oost...
Objectifs   Construire un corpus de référence de du    hollandais et du flamand moderne (post    1954) de grande taille (...
Une grande variété initialement prévue                                         14
Du prévu à la réalité  prévu              réalisé          Phase 1 Holland. Flamand   NC                                  ...
Du prévu à la réalité   Question de droits : grande variété,    chronophage   Grande variété de formats, délaisser    fo...
D’abord un corpus pilote                           17
SoNaR : organisation                                        Chercheurs                                        Industrie   ...
Développement: collaboration nationale                                         19
Diagramme de flux                    20
Ressources financières                         21
Ressources financières+ 1 ETP par université pour tâche A et temps partiels desautres pour débutBudget ne comprend pas les...
3                                          à                                 u e dcd                               sq >c  ...
Rappel objectifs projet 2013-14   Créer un noyau (pas encore le corpus de    référence !) de corpus CMC en français   En...
Rappel objectifs projet 2013-14   Le faire suivant standard (TEI, CLARIN,    OLAC?)   Diffuser en accès libre ce corpus ...
Macrostructure discursive(Beißwenger etal., 2012)                                             26
Macro etmicrostructure                 27
Audio   Clavardage                                 Multimodalité              (LETEC corpus Archi21 : archi21-slrefl-av-j2)
sms anonymisé       sms brutSalut s que 2nis c dcd à anonymisation                              Salut s que <NOM_4> cht 1 ...
Variability (orthographique)     • can only in part be explained in terms of errors, as a great deal of variation is      ...
Expérience TAL dans notre groupe                                   31
32
33
Groupes de travail du projet 2013                                         Droits,                                         ...
Dépôts individuels    Flux de traitements                                     GT traitements                     GT Valida...
PROJET TEI-CMCEUROPÉEN                 36
   1) Modelling CMC in TEI:    – brief overview of essential requirements concerning the      representation of CMC from ...
Participants a                            u projet    Groupe GT7, corpus-écrits                                           ...
Pour nous suivreCorpus-écritsGT7, nouv-comhttps://groupes.renater.fr/wiki/corpus-ecrits-nouvcom/ 39
Prochain SlideShare
Chargement dans…5
×

Corpus communication médiée par les réseaux en français et corpus allemand et hollandais

1 173 vues

Publié le

Exposé donnée lors de la journée en mars 2013 sur l'initiative Corpus de Référence du Français

Publié dans : Formation
0 commentaire
0 j’aime
Statistiques
Remarques
  • Soyez le premier à commenter

  • Soyez le premier à aimer ceci

Aucun téléchargement
Vues
Nombre de vues
1 173
Sur SlideShare
0
Issues des intégrations
0
Intégrations
732
Actions
Partages
0
Téléchargements
2
Commentaires
0
J’aime
0
Intégrations 0
Aucune incorporation

Aucune remarque pour cette diapositive

Corpus communication médiée par les réseaux en français et corpus allemand et hollandais

  1. 1. Corpus-écrits GT7, nouv-com https://groupes.renater.fr/wiki/corpus-ecrits-nouvcom/ Expériences délaboration des corpus de référence du hollandais et de lallemand.Projet de noyau de corpus CMC en français Thierry Chanier, Université Blaise Pascal2ème journées : Corpus de référencedu français28-29 mars 2013, Paris
  2. 2. 1 CORPUS EN ALLEMAND DWDS DIGITALES WÖRTERBUCH DER DEUTSCHEN SPRACHE Merci à Alexander Geyken (BBAW) et Lothar Lemnitzer (Berlin- Brandebourg) 2
  3. 3. Principaux projets corpus en allemandAllemand des 20 et 21 ème Allemand 1650-1900 3
  4. 4. Objectif DWDS Noyau Construire un dictionnaire rendant compte des usages de l’allemand moderne à partir d’un corpus équilibré d’écrits - 60% électronique - 40% papier au départ -Métadonnées pour tous les documents 4
  5. 5. DWDS-E étendu Mais statistiques lexicales montrent qu’il faut des tailles supérieures pour analyser certains phénomènes (collocations, etc.) Corpus étendu de type opportuniste Base importante à partir de journaux et de l’Internet (pb droits plus facile à régler) Tous les corpus DWDS et DTA, ainsi que les dictionnaires sont structurés en TEI/P5 5
  6. 6. Planification du projet DWDSDico DWDS basé sur dico WDG (1961-75) 6 Wörterbuch der deutschen Gegenwartssprache
  7. 7. BBAW AvHAkademienunion Patrons et ressources Financé par “Akademienunion » sur 18 ans 7
  8. 8. DWDS noyau : tâches principales Accès : voir infra -TAGH : morpho composé -STTS : POS - GermaNet : sém. 8
  9. 9. www.dwds.de : un site en accès libre 9
  10. 10. Par décennies et genres Les corpus71% des textes en accès libre dans DWDS noyau 10
  11. 11. Statistiques en accès libres faites sur ensemble corpusOn voit plus de textes après identification 11
  12. 12. 2 CORPUS DE RÉFÉRENCE EN HOLLANDAIS, SONAR STEVIN Nederlandstalig Referentiecorpus Merci à Nelleke Oostdijk (Radboud University Nijmegen) 12
  13. 13. Objectifs Construire un corpus de référence de du hollandais et du flamand moderne (post 1954) de grande taille (500 M tokens) qui puissent servir à la fois à des analyses linguistiques et au développement de technologies du langage. Inclure dès le début des écrits provenant des médias traditionnels et de l’Internet Auparavant corpus oral de 9 M tokens (transcript + audio), collecte entre 1998 et2003 13
  14. 14. Une grande variété initialement prévue 14
  15. 15. Du prévu à la réalité prévu réalisé Phase 1 Holland. Flamand NC 15
  16. 16. Du prévu à la réalité Question de droits : grande variété, chronophage Grande variété de formats, délaisser formats trop complexes (PDF) Approche opportuniste avec Internet – Collectes faciles (Tweets, forum, clav) ou difficile (SMS) – Droits difficiles (Sites, blogues) ou libres (licences CC ou GPL) Maintenir équilibre global, collecter plus que ce qui sera intégré dans corpus référence 16
  17. 17. D’abord un corpus pilote 17
  18. 18. SoNaR : organisation Chercheurs Industrie ÉvalConstitution Annotations Qualité extérieure corpus sémantiques 18
  19. 19. Développement: collaboration nationale 19
  20. 20. Diagramme de flux 20
  21. 21. Ressources financières 21
  22. 22. Ressources financières+ 1 ETP par université pour tâche A et temps partiels desautres pour débutBudget ne comprend pas les missions internes, ni conf. 22
  23. 23. 3 à u e dcd sq >c p co lut _4 r sa n? Sa OM i d p 2ma <N 1 dv la ht a ep kiSMS / textosTweetsBlogues Projet de corpus CMC en françaisForumsClavardageEtc.
  24. 24. Rappel objectifs projet 2013-14 Créer un noyau (pas encore le corpus de référence !) de corpus CMC en français Ensembles de conversations intervenant sur la Toile et les réseaux Couvrir variété de systèmes de communication synchrone ou asynchrone, mono ou multimodaux (éventuellement) : blogues, tweets, SMS / textos, courriels , clavardage, forums, etc. 24
  25. 25. Rappel objectifs projet 2013-14 Le faire suivant standard (TEI, CLARIN, OLAC?) Diffuser en accès libre ce corpus en 2014 sur Ortolang Travailler en partenarait avec Europe (projet consortium TEI, DARIAH) Intégrer ce noyau au « Corpus de référence du français » 25
  26. 26. Macrostructure discursive(Beißwenger etal., 2012) 26
  27. 27. Macro etmicrostructure 27
  28. 28. Audio Clavardage Multimodalité (LETEC corpus Archi21 : archi21-slrefl-av-j2)
  29. 29. sms anonymisé sms brutSalut s que 2nis c dcd à anonymisation Salut s que <NOM_4> cht 1 dvd pr sa cop ki e dcd à ht 1 dvd pr sa cop pa la 2main? ki e pa la 2main? dage sms transcodé co tr ans sms annoté Salut est-ce que<NOM_4> sest décidé Salut <MOD_s_que> est-ce que <NOM_4> <MOD_c> sestà acheter 1 dvd pour sa <MOD_dcd> décidé à <MOD_ht> acheter 1 <TYP_dvd> DVD copine qui est pas là <MOD_pr> pour sa <MOD_cop> copine <MOD_ki> qui <ABS_ne> <MOD_e> est <MOD_pa> pas <TYP_la> là demain? <MOD_2main> demain <TYP_espace_avant_?_manquante> ? annotation Rachel Panckhurst, CÉNC, 31/5/12 29
  30. 30. Variability (orthographique) • can only in part be explained in terms of errors, as a great deal of variation is intentional • is a research topic in itself • complicates research as it hinders the processing of the data by means of standard tools (tokenizers, POS taggers and lemmatizers, parsers, NE recognizers, etc.) Han & Baldwin (2012: 368): “We found Twitter data to have an unsurprisingly long tail of OOV words, suggesting that conventional supervised learning will not perform well due to data sparsity. Additionally, many ill-formed words are ambiguous, and require context to disambiguate.”Workshop on Building Corpora of Computer-Mediated Communication — Dortmund 14-15 February 8 2013
  31. 31. Expérience TAL dans notre groupe 31
  32. 32. 32
  33. 33. 33
  34. 34. Groupes de travail du projet 2013 Droits, Amont : accept V0 Aval : accept V1 métadonnées Relations Ortolang corpus-écrits Prépa V1 Tweets, wikipedia TEI Nelles Structuration acquisitionsLinda méta Ingénieur (Corpus-écrits + Ortolang) 34
  35. 35. Dépôts individuels Flux de traitements GT traitements GT ValidationV0 Clermont ingénieur 35
  36. 36. PROJET TEI-CMCEUROPÉEN 36
  37. 37.  1) Modelling CMC in TEI: – brief overview of essential requirements concerning the representation of CMC from the perspective of the four projects [8 min], – selected aspects from the DeRiK-TEI schema reviewed from the perspective of the four projects (suggested focus: element posting, user modelling, interaction signs) [15 min], – problem sketches: (a) hypertext structures/“linked data“ (cf. topical focus of the conference), (b) multimodal CMC [5 mins each]. 2) Challenges and perspectives in mapping features of computer-mediated communication to elements in TEI-P5 3) Metadata for cmc documents: challenges & suggestions 37
  38. 38. Participants a u projet Groupe GT7, corpus-écrits  Linda Hriba , corpus-écrits Achille Falaise, LIG, Grenoble Benoît Sagot, Alpage, INRIA , Univ. P7  Paul Lotin, ingénieur, LRL Béatrice Turpin, CRTF, Univ. de Cergy  Ingénieur à recruter (6 Céline Poudat, UMR LDI, Univ. Paris 13 mois/ETP, sur fonds Ciara Wigham, LRL, Univ. Blaise Pascal Ortolang et corpus-écrits) Fiammetta Namer, ATILF, Nancy Georges Antoniadis, LIDILEM, Univ Grenoble 3 Georgeta Cislaru, CLESTHIA, Univ. Paris 3 Gudrun Ledegen , PREFics, Univ. de Rennes 2 Julien Longhi, CRTF, Univ. de Cergy Mahé Ben Hamed, UMR BCL, Nice Natalia Grabar, UMR STL, CNRS Univ. Lille 3 Paloque-Berges, Camille, DICEN, CNAM Rachel Panckhurst, UMR Praxiling, CNRS Univ. Montpellier 3 Thierry Chanier, LRL, Univ. Blaise Pascal Tita Kyriacopoulou, LIGM, Univ. Marne-la-Vallée Virginie Zampa, LIDILEM, Univ Grenoble 3 38
  39. 39. Pour nous suivreCorpus-écritsGT7, nouv-comhttps://groupes.renater.fr/wiki/corpus-ecrits-nouvcom/ 39

×