Exploitation d’un corpus de parole dialectale écrite sur Internet
1. Table Ronde - Colloque des Doctorants
de l’Ecole doctorale Erasme
11 et 12 avril 2013
Nouvelles perspectives de recherche à
l’heure du web 2.0
Laura-Gabrielle Goudet
Noémie Marignier
Aboubekeur Zineddine
2. Exploitation d’un corpus
de parole dialectale
écrite sur forums internet
Laura-Gabrielle Goudet – Paris 13 – Sorbonne Paris Cité Pléiade (CRIDAF)
Colloque des doctorants de l’Ecole Doctorale Erasme
12 avril 2013
3. Introduction
Étude de plusieurs forums de locuteurs
Communauté de pratiques ?
Dialectologie, analyse de
discours, graphophonématique ?
Comment envisager le corpus ?
3
5. Scots Afro-Américain
Scotster Black Planet
Parlé en Écosse (où ø
gaélique)
Parlé aux États-Unis
Proche du moyen-anglais Proche de l’anglais du sud
14ème siècle 15ème siècle
Interdiction d’utiliser à
l’écrit → 17-18ème siècle
Interdiction d’apprendre à
écrire (esclaves)
Populations minoritaires; paroles vues comme inférieures
Revalorisation : 20-21ème siècle
5
11. Parole dialectale, corpus écrit
Peut-on parler de parole ?
Transfert vers l’écrit ?
« Communaulecte, mode d’emploi »
Usages communs entre des membres d’un même
groupe en ligne
Netspeak ?
11
12. Alternance codique
Anglais, Scots et prononciation
―Weekly Scots Vocab List‖
Dreich - cold, wet, miserable weather. (drreech;
same soft 'ch' as in loch, versus hard 'ck' of lock)
"It's a gey dreich day the day." (it is very cold, wet
and miserable today)
“Liste de vocabulaire en scots hebdomadaire”
Dreich : froid, humide, temps affreux (driiiche, le même
son doux de „ch‟ que dans „loch‟, pas le son dur de
„ck‟ dans lock)
„Le temps est vraiment mauvais aujourd‟hui‟
12
13. Netspeak, anglais, AA
I know I told this story numerous times b4, but one
of the clubs I use to frequent some foo got killed
INSIDE the club. Like how u get shot in the
head...INSIDE the club?? Smh
Je sais que j’ai déjà raconté cette histoire plein de fois
avt, mais [dans] une des boîtes dans lesquelles j’avais
l’habitude d’aller, un type s’est fait tuer DANS la boîte.
Genre comment on se fait tirer dans la tête DANS une
boîte ?? RLT/TDH
13
14. Corpus en contexte, hors contexte ?
Les recherches en linguistique de corpus
Qu’est-ce qu’un corpus en contexte ?
Dimensions pragmatiques de la
recherche
Questions éthiques, techniques
14
18. Désavantages du corpus hors-contexte
Perte de contenu suppression de :
Pseudonyme
Avatar
Signature
Structure interne du forum
Certains signes typographiques : retour à la ligne (/br)
18
19. Avantages du corpus hors-contexte
Pour le chercheur :
Gain de temps dans l’analyse de données
Possibilité de sauvegarde sous un autre format : .txt,
.csv, tab-delimited…
Facilité d’analyse
Pas de destruction des données
Accessibles sans compte au forum, sans connexion
internet.
19
20. Vers une exploitation du corpus
efficace
Automatisation des procédés
Personnalisation des outils textométriques
Treetagger : logiciel d’étiquetage
grammatical
20
21. Treetagger :
Erreurs dues à l’absence
des mots en scots dans le
dictionnaire fourni.
NN : NOM COMMUN ; -S : PLURIEL
NP : NOM PROPRE
« [Jean-Claude’s ready] tae git doon
tae some serious swedgin.
— Rents. Ah’ve goat tae see Mother
[Superior] »
[J-C est prêt] à se mettre à
savater sévère.
— Rents. Je dois aller voir
Mère [Supérieure]
21
Mot Tag Gramm. Lemme
23. Travailler sur internet : problèmes éventuels
Bannissement éventuel
Peur de racisme
Aspiration de site refusée
Dimension éthique/humaine
Informants et chercheur
23
25. Conclusion
Adaptations des approches au matériau travaillé : le
corpus en ligne.
Adaptation des outils de travail conventionnels
(Treetagger…)
Problèmes liés au recueil et à l’exploitation des
données
Graphies : indicateurs dialectaux et modulation du
discours (absence de standard…)
25
26. Références
Black Planet, (2001). <http://www.blackplanet.com/>. [consulté le 04/01/2013]
Scotster (2008) < http://www.scotster.com/>. [consulté le 04/01/2013]
Baron, N. S. (2008). Always on: Language in an online and mobile world. Oxford:
Oxford University Press.
Goudet, L. (2010) « Typologie des usages langagiers sur internet à partir de trois
communautés virtuelles » Actes du Colloque des doctorants de l‟École
doctorale ERASME à l‟occasion du 40ème anniversaire de Paris 13-Nord.
Villetaneuse [parution 2013]
Hinrichs, L. (2006). Codeswitching on the web: English and Jamaican Creole in
e-mail communication. Amsterdam: J. Benjamins Pub.
Marcoccia M., 2004, « La communication écrite médiatisée par ordinateur :
faire du face à face avec de l’écrit », Journée d‟étude de l‟ATALA « Le
traitement automatique des nouvelles formes de communication écrite (e-
mails, forums, chats, SMS, etc.) », 5 juin 2004, ENST Paris, publication en
ligne, http://www.up.univmrs.fr/~veronis/je-nfce/Marcoccia.pdf [consulté le
02/01/2013]
26
30. Dialectologie, analyse de
discours, graphophonématique ?
Enjeux multiples : plusieurs
domaines, ambiguïté de
l’étiquetage, plusieurs exploitations du
même corpus.
Comment l’envisager ?
Textométrie ?
Étude de discussion ?
30