SlideShare une entreprise Scribd logo
1  sur  30
Analyse linguistique de grands corpus d’écrits scolaires
problèmes de transcription, d’annotation et de traitement
Journée d’études organisée par le groupe Ecriture Scolaire du laboratoire Clesthia (EA 7345)
Mercredi 18 mars 2015
Consortium Corpus-écrits
SIG
TEI-CMC
Open Resources and
TOols for LANGuage
http://comere.org
http://hdl.handle.net/11403/comere
Thierry Chanier
Objective: Kernel corpus assembling existing corpora of different CMC
genres and new corpora build on data extracted from the Internet. These
heterogeneous corpora will be structured and processed in a uniform way,
complemented with metadata. CoMeRe will be released as OpenData
through the national infrastructure Ortolang, following constraints which will
be reused for the forthcoming “Corpus de Référence du Français”.
Project supported by the national
consortium Corpus-écrits, sub-part of
Huma-Num, and Ortolang (French
correspondant to DARIAH)
Variety + Standards + Open Access
Consortium Corpus-écrits
3
4
Ref Tokens Partici. Posts, <u>, <prod> Envir.
(Antoniadis,2014) 449 313 359 22 052 SMS
(Falaise, 2014) 35 M 25 000 3 M textchat
(Ledegen, 2014) 357 000 850 22 000 SMS
(Reffay et al., 2014) 600 000 67 + 4 groups
- textchat: 6 790
- emails: 2 030
- forums: 2 686
LMS
(Yun, Chanier, 2014) 77 605 31 + 2 courses 7 750 textchat
(Abendroth et al.,
2014)
273 546 26 + 4 groups 1 200 Blog
(Longhi et al., 2014) 567 851 205 34273 Tweet
(Poudat et al., 2015)
489 000
discussions + 330
Mo art.
3 971 4456 (discussions)
Wiki
discussions
(Chanier & Audras,
2015)
184 594 62 + 12 groups
-2809 audio acts,
-248 chat acts,
- 1058 nonverbal acts,
-779 blog messages
Audiographic
conference
(Chanier & Wigham,
2015)
27 912 18 + 4 groups
- 1690 audio acts,
- 669 chat acts,
- 2452 nonverbal acts
3D env.
(Chanier, 2015) 127 228 16 + 2 groups
- 7718 audio acts,
- 1566 chat acts,
- 5790 nonverbal acts
Audiographic
conference 5
informal
business
informal
informal
education
education
education
education
education
science
education
politic
6
Serveur
Local LRL
Dépositeur individuel
Ingénieur :
Kun Jin
Groupe qualité
Discussion avec
dépositeur
Groupe étiquetage
TAL : TEI-v2
TEI-V1
7
La diffusion des
corpus et surtout la
possibilité de
longues recherches
futures dépend des
choix de départ
9
1) garantir l'accès ouvert aux données / corpus
10
l'utilisateur est autorisé à télécharger une copie du corpus […]
• la réutilisation (reproduction, diffusion) de parties non substantielles du corpus XXX est
autorisée […]
• la réutilisation est soumise à la condition de citer in extenso, à titre de crédits : […]
• la réutilisation (reproduction, diffusion) de parties substantielles du corpus XXX n'est pas
permise sur le fondement de la présente licence d'utilisation.
Je consens aux présentes conditions d'utilisation (obligatoire pour avoir accès au corpus)
Ce corpus, diffusé par Huma-Num, est présenté comme étant en accès libre (OA)
Regarder sans pouvoir
réutiliser?
11
12
Collecte
des données
Contrats de
consentement
éclairé
ou
Licence d'utilisation
sur données récoltées
Anonymisation
- Préserver informations
essentielles
- Identifier utilisateur sur
toute la banque de corpus
Poser licence
d'utilisation
13
14
15
≠
Images,
audio,
vidéo,
etc.
Exemple sur
Ortolang
Exemple sur
Mulce
16
Données
≠
Corpus version V1
Corpus version V2
17
18
<teiheader>
<text>
19
<teiheader>
20
OLAC
keywords
Discourse
Genre
Type of
interaction
21
The IRC textchat
Types of acts within this
Specific IRC
Subtypes of « event »
22
23
Important
Information
for research
purposes can
be described
24
<text>
25
Individual, informal
context
Individual, educational context
Group with 4 status/ roles
26
27
Title
label
comment
message
Contents
/ body
28
Response
to what?
Sent to
whom?
Read by
whom?
May
contain
HTML,
Table,etc.
Attached
doc
29
30

Contenu connexe

Similaire à Concevoir la diffusion d’une banque de corpus dès le début du projet de recherche

Françoise gouzi digitalhumanities
Françoise gouzi digitalhumanitiesFrançoise gouzi digitalhumanities
Françoise gouzi digitalhumanitiesAgatheR
 
Préservation et accès aux données du CERN - Jean-Yves Le Meur
Préservation et accès aux données du CERN - Jean-Yves Le MeurPréservation et accès aux données du CERN - Jean-Yves Le Meur
Préservation et accès aux données du CERN - Jean-Yves Le MeureGov Innovation Center
 
Actualités et perspectives de IIIF
Actualités et perspectives de IIIFActualités et perspectives de IIIF
Actualités et perspectives de IIIFEquipex Biblissima
 
Traduction des extensions et du core de TYPO3 CMS avec XLIFF
Traduction des extensions et du core de TYPO3 CMS avec XLIFFTraduction des extensions et du core de TYPO3 CMS avec XLIFF
Traduction des extensions et du core de TYPO3 CMS avec XLIFFdfeyer
 
[Webinar] Deeptech : financement & accompagnement @Bpifrance @CNRSinnovation
[Webinar] Deeptech : financement & accompagnement @Bpifrance @CNRSinnovation[Webinar] Deeptech : financement & accompagnement @Bpifrance @CNRSinnovation
[Webinar] Deeptech : financement & accompagnement @Bpifrance @CNRSinnovationFrenchTechCentral
 
Archives ouvertes tarek-hamdi
Archives ouvertes tarek-hamdiArchives ouvertes tarek-hamdi
Archives ouvertes tarek-hamdiHAMDI TAREK
 
Développement Noyau Et Driver Sous Gnu Linux
Développement Noyau Et Driver Sous Gnu LinuxDéveloppement Noyau Et Driver Sous Gnu Linux
Développement Noyau Et Driver Sous Gnu LinuxThierry Gayet
 
Annotate (E-ReColNat) : annotation rapide d’images et de vidéos en sciences n...
Annotate (E-ReColNat) : annotation rapide d’images et de vidéos en sciences n...Annotate (E-ReColNat) : annotation rapide d’images et de vidéos en sciences n...
Annotate (E-ReColNat) : annotation rapide d’images et de vidéos en sciences n...Equipex Biblissima
 
Cartographie des marchés Open Source belges et français
Cartographie des marchés Open Source belges et françaisCartographie des marchés Open Source belges et français
Cartographie des marchés Open Source belges et françaisRobert Viseur
 
Les expériences du CNUDST à la recherche d’une stratégie nationale pour les a...
Les expériences du CNUDST à la recherche d’une stratégie nationale pour les a...Les expériences du CNUDST à la recherche d’une stratégie nationale pour les a...
Les expériences du CNUDST à la recherche d’une stratégie nationale pour les a...Bessem Aamira
 
Tralogy 2013-ttc platform
Tralogy 2013-ttc platformTralogy 2013-ttc platform
Tralogy 2013-ttc platformhblanca
 
#AAFSaintÉ19 : Une transformation numérique au service de l’usage : évolution...
#AAFSaintÉ19 : Une transformation numérique au service de l’usage : évolution...#AAFSaintÉ19 : Une transformation numérique au service de l’usage : évolution...
#AAFSaintÉ19 : Une transformation numérique au service de l’usage : évolution...AssociationAF
 
Agenda 2ème réunion TTFx Breizh 2011-06-20
Agenda 2ème réunion TTFx Breizh 2011-06-20Agenda 2ème réunion TTFx Breizh 2011-06-20
Agenda 2ème réunion TTFx Breizh 2011-06-20Christophe Keromen
 
Nouvelles méthodes de développement web avec les technologies centrées doc...
Nouvelles méthodes de développement web avec les technologies centrées doc...Nouvelles méthodes de développement web avec les technologies centrées doc...
Nouvelles méthodes de développement web avec les technologies centrées doc...stsire
 
infrastructure numerique_focusweb_cnfpt2011
 infrastructure numerique_focusweb_cnfpt2011 infrastructure numerique_focusweb_cnfpt2011
infrastructure numerique_focusweb_cnfpt2011Fleury Christine
 
Présentation de Génériques
Présentation de GénériquesPrésentation de Génériques
Présentation de GénériquesAssociationAF
 

Similaire à Concevoir la diffusion d’une banque de corpus dès le début du projet de recherche (20)

Françoise gouzi digitalhumanities
Françoise gouzi digitalhumanitiesFrançoise gouzi digitalhumanities
Françoise gouzi digitalhumanities
 
Préservation et accès aux données du CERN - Jean-Yves Le Meur
Préservation et accès aux données du CERN - Jean-Yves Le MeurPréservation et accès aux données du CERN - Jean-Yves Le Meur
Préservation et accès aux données du CERN - Jean-Yves Le Meur
 
Actualités et perspectives de IIIF
Actualités et perspectives de IIIFActualités et perspectives de IIIF
Actualités et perspectives de IIIF
 
Traduction des extensions et du core de TYPO3 CMS avec XLIFF
Traduction des extensions et du core de TYPO3 CMS avec XLIFFTraduction des extensions et du core de TYPO3 CMS avec XLIFF
Traduction des extensions et du core de TYPO3 CMS avec XLIFF
 
Le projet NEEO
Le projet NEEOLe projet NEEO
Le projet NEEO
 
[Webinar] Deeptech : financement & accompagnement @Bpifrance @CNRSinnovation
[Webinar] Deeptech : financement & accompagnement @Bpifrance @CNRSinnovation[Webinar] Deeptech : financement & accompagnement @Bpifrance @CNRSinnovation
[Webinar] Deeptech : financement & accompagnement @Bpifrance @CNRSinnovation
 
Archives ouvertes tarek-hamdi
Archives ouvertes tarek-hamdiArchives ouvertes tarek-hamdi
Archives ouvertes tarek-hamdi
 
Développement Noyau Et Driver Sous Gnu Linux
Développement Noyau Et Driver Sous Gnu LinuxDéveloppement Noyau Et Driver Sous Gnu Linux
Développement Noyau Et Driver Sous Gnu Linux
 
Vsst 2010 le_semiopole_26102010
Vsst 2010 le_semiopole_26102010Vsst 2010 le_semiopole_26102010
Vsst 2010 le_semiopole_26102010
 
Annotate (E-ReColNat) : annotation rapide d’images et de vidéos en sciences n...
Annotate (E-ReColNat) : annotation rapide d’images et de vidéos en sciences n...Annotate (E-ReColNat) : annotation rapide d’images et de vidéos en sciences n...
Annotate (E-ReColNat) : annotation rapide d’images et de vidéos en sciences n...
 
Cartographie des marchés Open Source belges et français
Cartographie des marchés Open Source belges et françaisCartographie des marchés Open Source belges et français
Cartographie des marchés Open Source belges et français
 
OATAO, archive ouverte institutionnelle
OATAO, archive ouverte institutionnelleOATAO, archive ouverte institutionnelle
OATAO, archive ouverte institutionnelle
 
Les expériences du CNUDST à la recherche d’une stratégie nationale pour les a...
Les expériences du CNUDST à la recherche d’une stratégie nationale pour les a...Les expériences du CNUDST à la recherche d’une stratégie nationale pour les a...
Les expériences du CNUDST à la recherche d’une stratégie nationale pour les a...
 
Tralogy 2013-ttc platform
Tralogy 2013-ttc platformTralogy 2013-ttc platform
Tralogy 2013-ttc platform
 
#AAFSaintÉ19 : Une transformation numérique au service de l’usage : évolution...
#AAFSaintÉ19 : Une transformation numérique au service de l’usage : évolution...#AAFSaintÉ19 : Une transformation numérique au service de l’usage : évolution...
#AAFSaintÉ19 : Une transformation numérique au service de l’usage : évolution...
 
Agenda 2ème réunion TTFx Breizh 2011-06-20
Agenda 2ème réunion TTFx Breizh 2011-06-20Agenda 2ème réunion TTFx Breizh 2011-06-20
Agenda 2ème réunion TTFx Breizh 2011-06-20
 
Nouvelles méthodes de développement web avec les technologies centrées doc...
Nouvelles méthodes de développement web avec les technologies centrées doc...Nouvelles méthodes de développement web avec les technologies centrées doc...
Nouvelles méthodes de développement web avec les technologies centrées doc...
 
Mag Jll2009
Mag Jll2009Mag Jll2009
Mag Jll2009
 
infrastructure numerique_focusweb_cnfpt2011
 infrastructure numerique_focusweb_cnfpt2011 infrastructure numerique_focusweb_cnfpt2011
infrastructure numerique_focusweb_cnfpt2011
 
Présentation de Génériques
Présentation de GénériquesPrésentation de Génériques
Présentation de Génériques
 

Concevoir la diffusion d’une banque de corpus dès le début du projet de recherche

  • 1. Analyse linguistique de grands corpus d’écrits scolaires problèmes de transcription, d’annotation et de traitement Journée d’études organisée par le groupe Ecriture Scolaire du laboratoire Clesthia (EA 7345) Mercredi 18 mars 2015 Consortium Corpus-écrits SIG TEI-CMC Open Resources and TOols for LANGuage http://comere.org http://hdl.handle.net/11403/comere Thierry Chanier
  • 2. Objective: Kernel corpus assembling existing corpora of different CMC genres and new corpora build on data extracted from the Internet. These heterogeneous corpora will be structured and processed in a uniform way, complemented with metadata. CoMeRe will be released as OpenData through the national infrastructure Ortolang, following constraints which will be reused for the forthcoming “Corpus de Référence du Français”. Project supported by the national consortium Corpus-écrits, sub-part of Huma-Num, and Ortolang (French correspondant to DARIAH) Variety + Standards + Open Access Consortium Corpus-écrits
  • 3. 3
  • 4. 4
  • 5. Ref Tokens Partici. Posts, <u>, <prod> Envir. (Antoniadis,2014) 449 313 359 22 052 SMS (Falaise, 2014) 35 M 25 000 3 M textchat (Ledegen, 2014) 357 000 850 22 000 SMS (Reffay et al., 2014) 600 000 67 + 4 groups - textchat: 6 790 - emails: 2 030 - forums: 2 686 LMS (Yun, Chanier, 2014) 77 605 31 + 2 courses 7 750 textchat (Abendroth et al., 2014) 273 546 26 + 4 groups 1 200 Blog (Longhi et al., 2014) 567 851 205 34273 Tweet (Poudat et al., 2015) 489 000 discussions + 330 Mo art. 3 971 4456 (discussions) Wiki discussions (Chanier & Audras, 2015) 184 594 62 + 12 groups -2809 audio acts, -248 chat acts, - 1058 nonverbal acts, -779 blog messages Audiographic conference (Chanier & Wigham, 2015) 27 912 18 + 4 groups - 1690 audio acts, - 669 chat acts, - 2452 nonverbal acts 3D env. (Chanier, 2015) 127 228 16 + 2 groups - 7718 audio acts, - 1566 chat acts, - 5790 nonverbal acts Audiographic conference 5 informal business informal informal education education education education education science education politic
  • 6. 6 Serveur Local LRL Dépositeur individuel Ingénieur : Kun Jin Groupe qualité Discussion avec dépositeur Groupe étiquetage TAL : TEI-v2 TEI-V1
  • 7. 7
  • 8. La diffusion des corpus et surtout la possibilité de longues recherches futures dépend des choix de départ
  • 9. 9 1) garantir l'accès ouvert aux données / corpus
  • 10. 10 l'utilisateur est autorisé à télécharger une copie du corpus […] • la réutilisation (reproduction, diffusion) de parties non substantielles du corpus XXX est autorisée […] • la réutilisation est soumise à la condition de citer in extenso, à titre de crédits : […] • la réutilisation (reproduction, diffusion) de parties substantielles du corpus XXX n'est pas permise sur le fondement de la présente licence d'utilisation. Je consens aux présentes conditions d'utilisation (obligatoire pour avoir accès au corpus) Ce corpus, diffusé par Huma-Num, est présenté comme étant en accès libre (OA) Regarder sans pouvoir réutiliser?
  • 11. 11
  • 12. 12 Collecte des données Contrats de consentement éclairé ou Licence d'utilisation sur données récoltées Anonymisation - Préserver informations essentielles - Identifier utilisateur sur toute la banque de corpus Poser licence d'utilisation
  • 13. 13
  • 14. 14
  • 17. 17
  • 21. 21 The IRC textchat Types of acts within this Specific IRC Subtypes of « event »
  • 22. 22
  • 25. 25 Individual, informal context Individual, educational context Group with 4 status/ roles
  • 26. 26
  • 28. 28 Response to what? Sent to whom? Read by whom? May contain HTML, Table,etc. Attached doc
  • 29. 29
  • 30. 30

Notes de l'éditeur

  1. Parler des citations / références
  2. http://88milsms.huma-num.fr/corpus.html
  3. There exist 3 main criteria that research data should follow in order to be considered OpenData. Besides being obviously available, the interesting perspective is the fact that data can be access in order to be reuse and mix with other data and licence should explicitly mention this. Second interesting point is that the constraints for reuse should be reduced to a minimum, then the definition stipulate that non-commercial’ restrictions that would prevent ‘commercial’ use, or restrictions of use for certain purposes are not allowed
  4. V1 prend du temps et pourra servir pendant des années aux autres chercheurs Sinon inutilisable après une recherche, adhoc Marie-Laure Elalouf, « Constitution d’un grand corpus de textes d’élèves. Problèmes méthodologiques et premiers résultats », Linx [En ligne], 51 | 2004, mis en ligne le 28 janvier 2011, consulté le 17 octobre 2012. URL : http:// linx.revues.org/205 ; DOI : 10.4000/linx.205