Analyse linguistique de grands corpus d’écrits scolaires
problèmes de transcription, d’annotation et de traitement
Journée...
Objective: Kernel corpus assembling existing corpora of different CMC
genres and new corpora build on data extracted from ...
3
4
Ref Tokens Partici. Posts, <u>, <prod> Envir.
(Antoniadis,2014) 449 313 359 22 052 SMS
(Falaise, 2014) 35 M 25 000 3 M tex...
6
Serveur
Local LRL
Dépositeur individuel
Ingénieur :
Kun Jin
Groupe qualité
Discussion avec
dépositeur
Groupe étiquetage
...
7
La diffusion des
corpus et surtout la
possibilité de
longues recherches
futures dépend des
choix de départ
9
1) garantir l'accès ouvert aux données / corpus
10
l'utilisateur est autorisé à télécharger une copie du corpus […]
• la réutilisation (reproduction, diffusion) de partie...
11
12
Collecte
des données
Contrats de
consentement
éclairé
ou
Licence d'utilisation
sur données récoltées
Anonymisation
- Pr...
13
14
15
≠
Images,
audio,
vidéo,
etc.
Exemple sur
Ortolang
Exemple sur
Mulce
16
Données
≠
Corpus version V1
Corpus version V2
17
18
<teiheader>
<text>
19
<teiheader>
20
OLAC
keywords
Discourse
Genre
Type of
interaction
21
The IRC textchat
Types of acts within this
Specific IRC
Subtypes of « event »
22
23
Important
Information
for research
purposes can
be described
24
<text>
25
Individual, informal
context
Individual, educational context
Group with 4 status/ roles
26
27
Title
label
comment
message
Contents
/ body
28
Response
to what?
Sent to
whom?
Read by
whom?
May
contain
HTML,
Table,etc.
Attached
doc
29
30
Prochain SlideShare
Chargement dans…5
×

Concevoir la diffusion d’une banque de corpus dès le début du projet de recherche

729 vues

Publié le

A l'occasion de la journée sur les corpus d'écrits scolaires, mars 2015, paris

Publié dans : Sciences
0 commentaire
0 j’aime
Statistiques
Remarques
  • Soyez le premier à commenter

  • Soyez le premier à aimer ceci

Aucun téléchargement
Vues
Nombre de vues
729
Sur SlideShare
0
Issues des intégrations
0
Intégrations
214
Actions
Partages
0
Téléchargements
7
Commentaires
0
J’aime
0
Intégrations 0
Aucune incorporation

Aucune remarque pour cette diapositive
  • Parler des citations / références
  • http://88milsms.huma-num.fr/corpus.html
  • There exist 3 main criteria that research data should follow in order to be considered OpenData.

    Besides being obviously available, the interesting perspective is the fact that data can be access in order to be reuse and mix with other data and licence should explicitly mention this.
    Second interesting point is that the constraints for reuse should be reduced to a minimum, then the definition stipulate that non-commercial’ restrictions that would prevent ‘commercial’ use, or restrictions of use for certain purposes are not allowed
  • V1 prend du temps et pourra servir pendant des années aux autres chercheurs
    Sinon inutilisable après une recherche, adhoc
    Marie-Laure Elalouf, « Constitution d’un grand corpus de textes d’élèves. Problèmes méthodologiques et premiers
    résultats », Linx [En ligne], 51 | 2004, mis en ligne le 28 janvier 2011, consulté le 17 octobre 2012. URL : http://
    linx.revues.org/205 ; DOI : 10.4000/linx.205
  • Concevoir la diffusion d’une banque de corpus dès le début du projet de recherche

    1. 1. Analyse linguistique de grands corpus d’écrits scolaires problèmes de transcription, d’annotation et de traitement Journée d’études organisée par le groupe Ecriture Scolaire du laboratoire Clesthia (EA 7345) Mercredi 18 mars 2015 Consortium Corpus-écrits SIG TEI-CMC Open Resources and TOols for LANGuage http://comere.org http://hdl.handle.net/11403/comere Thierry Chanier
    2. 2. Objective: Kernel corpus assembling existing corpora of different CMC genres and new corpora build on data extracted from the Internet. These heterogeneous corpora will be structured and processed in a uniform way, complemented with metadata. CoMeRe will be released as OpenData through the national infrastructure Ortolang, following constraints which will be reused for the forthcoming “Corpus de Référence du Français”. Project supported by the national consortium Corpus-écrits, sub-part of Huma-Num, and Ortolang (French correspondant to DARIAH) Variety + Standards + Open Access Consortium Corpus-écrits
    3. 3. 3
    4. 4. 4
    5. 5. Ref Tokens Partici. Posts, <u>, <prod> Envir. (Antoniadis,2014) 449 313 359 22 052 SMS (Falaise, 2014) 35 M 25 000 3 M textchat (Ledegen, 2014) 357 000 850 22 000 SMS (Reffay et al., 2014) 600 000 67 + 4 groups - textchat: 6 790 - emails: 2 030 - forums: 2 686 LMS (Yun, Chanier, 2014) 77 605 31 + 2 courses 7 750 textchat (Abendroth et al., 2014) 273 546 26 + 4 groups 1 200 Blog (Longhi et al., 2014) 567 851 205 34273 Tweet (Poudat et al., 2015) 489 000 discussions + 330 Mo art. 3 971 4456 (discussions) Wiki discussions (Chanier & Audras, 2015) 184 594 62 + 12 groups -2809 audio acts, -248 chat acts, - 1058 nonverbal acts, -779 blog messages Audiographic conference (Chanier & Wigham, 2015) 27 912 18 + 4 groups - 1690 audio acts, - 669 chat acts, - 2452 nonverbal acts 3D env. (Chanier, 2015) 127 228 16 + 2 groups - 7718 audio acts, - 1566 chat acts, - 5790 nonverbal acts Audiographic conference 5 informal business informal informal education education education education education science education politic
    6. 6. 6 Serveur Local LRL Dépositeur individuel Ingénieur : Kun Jin Groupe qualité Discussion avec dépositeur Groupe étiquetage TAL : TEI-v2 TEI-V1
    7. 7. 7
    8. 8. La diffusion des corpus et surtout la possibilité de longues recherches futures dépend des choix de départ
    9. 9. 9 1) garantir l'accès ouvert aux données / corpus
    10. 10. 10 l'utilisateur est autorisé à télécharger une copie du corpus […] • la réutilisation (reproduction, diffusion) de parties non substantielles du corpus XXX est autorisée […] • la réutilisation est soumise à la condition de citer in extenso, à titre de crédits : […] • la réutilisation (reproduction, diffusion) de parties substantielles du corpus XXX n'est pas permise sur le fondement de la présente licence d'utilisation. Je consens aux présentes conditions d'utilisation (obligatoire pour avoir accès au corpus) Ce corpus, diffusé par Huma-Num, est présenté comme étant en accès libre (OA) Regarder sans pouvoir réutiliser?
    11. 11. 11
    12. 12. 12 Collecte des données Contrats de consentement éclairé ou Licence d'utilisation sur données récoltées Anonymisation - Préserver informations essentielles - Identifier utilisateur sur toute la banque de corpus Poser licence d'utilisation
    13. 13. 13
    14. 14. 14
    15. 15. 15 ≠ Images, audio, vidéo, etc. Exemple sur Ortolang Exemple sur Mulce
    16. 16. 16 Données ≠ Corpus version V1 Corpus version V2
    17. 17. 17
    18. 18. 18 <teiheader> <text>
    19. 19. 19 <teiheader>
    20. 20. 20 OLAC keywords Discourse Genre Type of interaction
    21. 21. 21 The IRC textchat Types of acts within this Specific IRC Subtypes of « event »
    22. 22. 22
    23. 23. 23 Important Information for research purposes can be described
    24. 24. 24 <text>
    25. 25. 25 Individual, informal context Individual, educational context Group with 4 status/ roles
    26. 26. 26
    27. 27. 27 Title label comment message Contents / body
    28. 28. 28 Response to what? Sent to whom? Read by whom? May contain HTML, Table,etc. Attached doc
    29. 29. 29
    30. 30. 30

    ×