Analyse linguistique de grands corpus d’écrits scolaires
problèmes de transcription, d’annotation et de traitement
Journée...
Objective: Kernel corpus assembling existing corpora of different CMC
genres and new corpora build on data extracted from ...
3
4
Ref Tokens Partici. Posts, <u>, <prod> Envir.
(Antoniadis,2014) 449 313 359 22 052 SMS
(Falaise, 2014) 35 M 25 000 3 M tex...
6
Serveur
Local LRL
Dépositeur individuel
Ingénieur :
Kun Jin
Groupe qualité
Discussion avec
dépositeur
Groupe étiquetage
...
7
La diffusion des
corpus et surtout la
possibilité de
longues recherches
futures dépend des
choix de départ
9
1) garantir l'accès ouvert aux données / corpus
10
l'utilisateur est autorisé à télécharger une copie du corpus […]
• la réutilisation (reproduction, diffusion) de partie...
11
12
Collecte
des données
Contrats de
consentement
éclairé
ou
Licence d'utilisation
sur données récoltées
Anonymisation
- Pr...
13
14
15
≠
Images,
audio,
vidéo,
etc.
Exemple sur
Ortolang
Exemple sur
Mulce
16
Données
≠
Corpus version V1
Corpus version V2
17
18
<teiheader>
<text>
19
<teiheader>
20
OLAC
keywords
Discourse
Genre
Type of
interaction
21
The IRC textchat
Types of acts within this
Specific IRC
Subtypes of « event »
22
23
Important
Information
for research
purposes can
be described
24
<text>
25
Individual, informal
context
Individual, educational context
Group with 4 status/ roles
26
27
Title
label
comment
message
Contents
/ body
28
Response
to what?
Sent to
whom?
Read by
whom?
May
contain
HTML,
Table,etc.
Attached
doc
29
30
Prochain SlideShare
Chargement dans…5
×

Concevoir la diffusion d’une banque de corpus dès le début du projet de recherche

771 vues

Publié le

A l'occasion de la journée sur les corpus d'écrits scolaires, mars 2015, paris

Publié dans : Sciences
  • Soyez le premier à commenter

  • Soyez le premier à aimer ceci

Concevoir la diffusion d’une banque de corpus dès le début du projet de recherche

  1. 1. Analyse linguistique de grands corpus d’écrits scolaires problèmes de transcription, d’annotation et de traitement Journée d’études organisée par le groupe Ecriture Scolaire du laboratoire Clesthia (EA 7345) Mercredi 18 mars 2015 Consortium Corpus-écrits SIG TEI-CMC Open Resources and TOols for LANGuage http://comere.org http://hdl.handle.net/11403/comere Thierry Chanier
  2. 2. Objective: Kernel corpus assembling existing corpora of different CMC genres and new corpora build on data extracted from the Internet. These heterogeneous corpora will be structured and processed in a uniform way, complemented with metadata. CoMeRe will be released as OpenData through the national infrastructure Ortolang, following constraints which will be reused for the forthcoming “Corpus de Référence du Français”. Project supported by the national consortium Corpus-écrits, sub-part of Huma-Num, and Ortolang (French correspondant to DARIAH) Variety + Standards + Open Access Consortium Corpus-écrits
  3. 3. 3
  4. 4. 4
  5. 5. Ref Tokens Partici. Posts, <u>, <prod> Envir. (Antoniadis,2014) 449 313 359 22 052 SMS (Falaise, 2014) 35 M 25 000 3 M textchat (Ledegen, 2014) 357 000 850 22 000 SMS (Reffay et al., 2014) 600 000 67 + 4 groups - textchat: 6 790 - emails: 2 030 - forums: 2 686 LMS (Yun, Chanier, 2014) 77 605 31 + 2 courses 7 750 textchat (Abendroth et al., 2014) 273 546 26 + 4 groups 1 200 Blog (Longhi et al., 2014) 567 851 205 34273 Tweet (Poudat et al., 2015) 489 000 discussions + 330 Mo art. 3 971 4456 (discussions) Wiki discussions (Chanier & Audras, 2015) 184 594 62 + 12 groups -2809 audio acts, -248 chat acts, - 1058 nonverbal acts, -779 blog messages Audiographic conference (Chanier & Wigham, 2015) 27 912 18 + 4 groups - 1690 audio acts, - 669 chat acts, - 2452 nonverbal acts 3D env. (Chanier, 2015) 127 228 16 + 2 groups - 7718 audio acts, - 1566 chat acts, - 5790 nonverbal acts Audiographic conference 5 informal business informal informal education education education education education science education politic
  6. 6. 6 Serveur Local LRL Dépositeur individuel Ingénieur : Kun Jin Groupe qualité Discussion avec dépositeur Groupe étiquetage TAL : TEI-v2 TEI-V1
  7. 7. 7
  8. 8. La diffusion des corpus et surtout la possibilité de longues recherches futures dépend des choix de départ
  9. 9. 9 1) garantir l'accès ouvert aux données / corpus
  10. 10. 10 l'utilisateur est autorisé à télécharger une copie du corpus […] • la réutilisation (reproduction, diffusion) de parties non substantielles du corpus XXX est autorisée […] • la réutilisation est soumise à la condition de citer in extenso, à titre de crédits : […] • la réutilisation (reproduction, diffusion) de parties substantielles du corpus XXX n'est pas permise sur le fondement de la présente licence d'utilisation. Je consens aux présentes conditions d'utilisation (obligatoire pour avoir accès au corpus) Ce corpus, diffusé par Huma-Num, est présenté comme étant en accès libre (OA) Regarder sans pouvoir réutiliser?
  11. 11. 11
  12. 12. 12 Collecte des données Contrats de consentement éclairé ou Licence d'utilisation sur données récoltées Anonymisation - Préserver informations essentielles - Identifier utilisateur sur toute la banque de corpus Poser licence d'utilisation
  13. 13. 13
  14. 14. 14
  15. 15. 15 ≠ Images, audio, vidéo, etc. Exemple sur Ortolang Exemple sur Mulce
  16. 16. 16 Données ≠ Corpus version V1 Corpus version V2
  17. 17. 17
  18. 18. 18 <teiheader> <text>
  19. 19. 19 <teiheader>
  20. 20. 20 OLAC keywords Discourse Genre Type of interaction
  21. 21. 21 The IRC textchat Types of acts within this Specific IRC Subtypes of « event »
  22. 22. 22
  23. 23. 23 Important Information for research purposes can be described
  24. 24. 24 <text>
  25. 25. 25 Individual, informal context Individual, educational context Group with 4 status/ roles
  26. 26. 26
  27. 27. 27 Title label comment message Contents / body
  28. 28. 28 Response to what? Sent to whom? Read by whom? May contain HTML, Table,etc. Attached doc
  29. 29. 29
  30. 30. 30

×