1. Première partie "Méthode de recueil des données" : Kelly-Sofia
·
Constitution d'un corpus d'apprenants en ALMT : considérations techniques et
méthodologiques - Cédric Sarré (Université Paris-Sorbonne - ESPE, CELTA EA 3553)
Dans cette partie, Cédric Sarré et Ciarra Wigham expliquent comment organiser le recueil de
données ainsi que les corpus (quels outils, quelles méthodes?).
Tout d’abord, Cédric Sarré aborde la constitution d’un corpus d'apprenants. Il insiste sur le fait que
cela ne constitue pas une simple collection de données de corpus oraux mais plutôt un ensemble de
données collectées et d’un enrichissement de ces données. De fait, le corpus est un ensemble de
données primaires et de données secondaires activement produites par le chercheur.
Lors de sa recherche, le contexte dans lequel Sarré a mis en place son dispositif s’inscrivait dans une
formation hybride en anglais Langue vivante 2 pour des étudiants en master Sciences du vivant.
L’objectif était de développer la compétence interactionnelle en L2 en télécollaboration rassemblant
ainsi plusieurs tâches collaboratives et permettant des interactions entre pairs. Quant à l’objectif de
recherche, il s’agissait de comparer 3 modes de CMO : le clavardage, la visioconférence et le forum
électronique.
De ce fait, le recueil de données s’est fait par le biais de données primaires orales et écrites, puis en
face à face et enfin en ligne.
Lors de ce dispositif, le problème rencontré fut, tout d’abord, le recours à une multiplicité d’outils. En
effet, lors de la capture des données écrites du clavardage et du forum, il a fallu recourir à la
plateforme de téléformation Dokeos qui donne accès aux données assez facilement.
Ensuite, pour le recueil des données orales, la plateforme ne contenant pas d’outil de
visioconférence, un outil externe, flashmeeting, a été utilisé. Enfin, pour les données orales récoltées
lors du face à face, le caméscope numérique a été utilisé cependant, il faut prendre en compte que la
présence de la caméra peut avoir une influence sur le comportement des étudiants, ce qui constitue
le paradoxe de l’observateur.
Cédric Sarré a aussi évoqué les aspects éthiques importants qui peuvent aussi rajouter des difficultés
lors de ce recueil de données. En effet, le consentement éclairé des apprenants est nécessaire, c’està-dire qu’ils doivent être informés de la finalité de la recherche et donner leur autorisation avant
d’entamer les phases de tests. Là encore, le fait d’informer les apprenants peut avoir une influence
sur leur comportement et donc un peu biaiser les résultats.
Pour mener à bien cette collecte de données en vue d’un corpus d’apprenant, il faut tenir compte de
certains principes. Notamment, en ce qui concerne les données orales, il y a le paradoxe du passage
de l’oral à l’écrit pour les transcriptions. Ainsi, un des soucis du chercheur est de savoir quoi
transcrire et avec quel niveau de détail. Ce degré de détail lors de la transcription peut varier d’un
corpus à l’autre mais il se doit, cependant, d’être fidèle, de garder une cohérence, une granularité
ainsi que d’être pertinent.
Il est possible de rencontrer un problème de pertinence de la transcription car comme le dit Ochs
(1979, Transcription is theory), « transcrire c'est déjà interpréter ».
Pour cette collecte, il est bon de suivre des méthodologies qui répondent aux questions à savoir
comment, avec quels outils, avec quel degré de détail et s’il s’agit du même degré de détail sur
l’ensemble du corpus, s’il faut opter une approche quantitative ou qualitative pour obtenir une
transcription plus fine…etc.
Pour déterminer le type d’outil que l’on peut utiliser pour le recueil de données, il est nécessaire de
considérer plusieurs paramètres tels que le type de données et le logiciel d'alignement.
2. En ce qui concerne cette expérience les objectifs étaient de décrire et représenter à l'écrit les traits
de la langue parlée pour faciliter son analyse.
Le logiciel utilisé s’appelle EXMARalda. EXMARaLDA est un acronyme de "Extensible Markup
Language for Discourse Annotation". Il s'agit d'un système de formats et outils pour la transcription
et l'annotation de la langue parlée, et pour la constitution et l'analyse de corpus oraux. EXMARaLDA
est développé par le projet "Méthodes computationelles pour la création et l'analyse de données
multilingues" au Centre de Recherche "Multilingualisme" (Sonderforschungsbereich
"Mehrsprachigkeit" - SFB 538) à l'Université de Hambourg. Tous les composants du système peuvent
être téléchargés gratuitement. (http://www.exmaralda.org/fr_index.html et http://icar.univlyon2.fr/projets/corinte/confection/exmaralda.htm)
Il s’agit d’une suite de trois logiciels qui accomplissent trois fonctions principales : l’édition, la gestion
du corpus et la concordance des données.
Par ailleurs, le chercheur doit aussi se questionner par rapport aux phénomènes qu’il choisira
d’annoter. Il est important de se demander comment assurer la fiabilité de l’annotation.
Granger (2002) nous rappelle que l’annotation des erreurs est une approche pertinente mais il s’agit
d’une pratique chronophage. Lors de l’annotation, il est nécessaire de ne pas perdre de vue l’enjeu
du degré de granularité.
Sarré nous explique qu’il est possible de rendre compte d’une évolution au niveau des erreurs
commises on mettant en place une catégorisation des erreurs.
Il ajoute que la transcription des erreurs peut avoir une influence sur l’annotation des erreurs et sur
certains types d'analyse.
En conclusion à cette présentation sur la constitution d’un corpus d’apprenants en ALMT, Cédric
Sarré a fait part de deux remarques et a proposé trois questions d’ouverture.
Par ailleurs, il ne faut pas oublier que la constitution de corpus est une pratique qui est toujours
adaptée à l'objectif de la recherche.
En questions d’ouverture, il nous propose tout d’abord de réfléchir à la représentativité de ce type
de corpus comprenant ainsi la remise en question des limites en termes de volume de textes et le
nombre de participants ainsi que le choix d’études longitudinales ou empiriques.
Puis, il interroge l’utilité d’une élaboration standard commune pour l’annotation des erreurs et enfin
il demande quels pourraient être les incitations et les moyens pour diffuser plus largement les corpus
à la communauté.