Table Ronde - Colloque des Doctorantsde l’Ecole doctorale Erasme11 et 12 avril 2013Nouvelles perspectives de recherche àl’...
Exploitation d’un corpusde parole dialectaleécrite sur forums internetLaura-Gabrielle Goudet – Paris 13 – Sorbonne Paris C...
IntroductionÉtude de plusieurs forums de locuteursCommunauté de pratiques ?Dialectologie, analyse dediscours, graphopho...
Présentation des communautésétudiées4
Scots Afro-AméricainScotster Black PlanetParlé en Écosse (où øgaélique)Parlé aux États-UnisProche du moyen-anglais Proche ...
6ArchitectureBlack Planet
Black Planet35 millions d’utilisateurs276 000 fils de discussion1,2 million de messages7
8
9Scotster :Architecture nonadaptée auxcontenus :• sous-sections vides• redites
Parole dialectale, corpus écrit10
Parole dialectale, corpus écritPeut-on parler de parole ?Transfert vers l’écrit ?« Communaulecte, mode d’emploi »Usage...
Alternance codiqueAnglais, Scots et prononciation―Weekly Scots Vocab List‖Dreich - cold, wet, miserable weather. (drreech...
Netspeak, anglais, AAI know I told this story numerous times b4, but oneof the clubs I use to frequent some foo got kille...
Corpus en contexte, hors contexte ?Les recherches en linguistique de corpusQu’est-ce qu’un corpus en contexte ?Dimensi...
15
Code source16
Anonymisation17
Désavantages du corpus hors-contextePerte de contenu suppression de :PseudonymeAvatarSignatureStructure interne du fo...
Avantages du corpus hors-contextePour le chercheur :Gain de temps dans l’analyse de donnéesPossibilité de sauvegarde so...
Vers une exploitation du corpusefficaceAutomatisation des procédés Personnalisation des outils textométriquesTreetagger ...
Treetagger :Erreurs dues à l’absencedes mots en scots dans ledictionnaire fourni.NN : NOM COMMUN ; -S : PLURIELNP : NOM PR...
Classification des graphies alternativesGraphies alternativesType d’utilisationLemmeClasse22
Travailler sur internet : problèmes éventuelsBannissement éventuelPeur de racismeAspiration de site refuséeDimension é...
Dimension éthiqueTraitement des données personnelles :Articles de loiAnonymisation des données ?Étude de pseudonymes ?24
ConclusionAdaptations des approches au matériau travaillé : lecorpus en ligne.Adaptation des outils de travail conventio...
Références Black Planet, (2001). <http://www.blackplanet.com/>. [consulté le 04/01/2013] Scotster (2008) < http://www.sc...
 : lauragoudet@gmail.comCarnet de recherches : lac.hypotheses.org@TheSchwatterer27Merci !
28
29
Dialectologie, analyse dediscours, graphophonématique ?Enjeux multiples : plusieursdomaines, ambiguïté del’étiquetage, pl...
Prochain SlideShare
Chargement dans…5
×

Exploitation d’un corpus de parole dialectale écrite sur Internet

403 vues

Publié le

Conférence donnée le

Publié dans : Formation, Technologie, Business
  • Soyez le premier à commenter

  • Soyez le premier à aimer ceci

Exploitation d’un corpus de parole dialectale écrite sur Internet

  1. 1. Table Ronde - Colloque des Doctorantsde l’Ecole doctorale Erasme11 et 12 avril 2013Nouvelles perspectives de recherche àl’heure du web 2.0Laura-Gabrielle GoudetNoémie MarignierAboubekeur Zineddine
  2. 2. Exploitation d’un corpusde parole dialectaleécrite sur forums internetLaura-Gabrielle Goudet – Paris 13 – Sorbonne Paris Cité Pléiade (CRIDAF)Colloque des doctorants de l’Ecole Doctorale Erasme12 avril 2013
  3. 3. IntroductionÉtude de plusieurs forums de locuteursCommunauté de pratiques ?Dialectologie, analyse dediscours, graphophonématique ?Comment envisager le corpus ?3
  4. 4. Présentation des communautésétudiées4
  5. 5. Scots Afro-AméricainScotster Black PlanetParlé en Écosse (où øgaélique)Parlé aux États-UnisProche du moyen-anglais Proche de l’anglais du sud14ème siècle 15ème siècleInterdiction d’utiliser àl’écrit → 17-18ème siècleInterdiction d’apprendre àécrire (esclaves)Populations minoritaires; paroles vues comme inférieuresRevalorisation : 20-21ème siècle5
  6. 6. 6ArchitectureBlack Planet
  7. 7. Black Planet35 millions d’utilisateurs276 000 fils de discussion1,2 million de messages7
  8. 8. 8
  9. 9. 9Scotster :Architecture nonadaptée auxcontenus :• sous-sections vides• redites
  10. 10. Parole dialectale, corpus écrit10
  11. 11. Parole dialectale, corpus écritPeut-on parler de parole ?Transfert vers l’écrit ?« Communaulecte, mode d’emploi »Usages communs entre des membres d’un mêmegroupe en ligneNetspeak ?11
  12. 12. Alternance codiqueAnglais, Scots et prononciation―Weekly Scots Vocab List‖Dreich - cold, wet, miserable weather. (drreech;same soft ch as in loch, versus hard ck of lock)"Its a gey dreich day the day." (it is very cold, wetand miserable today)“Liste de vocabulaire en scots hebdomadaire”Dreich : froid, humide, temps affreux (driiiche, le mêmeson doux de „ch‟ que dans „loch‟, pas le son dur de„ck‟ dans lock)„Le temps est vraiment mauvais aujourd‟hui‟12
  13. 13. Netspeak, anglais, AAI know I told this story numerous times b4, but oneof the clubs I use to frequent some foo got killedINSIDE the club. Like how u get shot in thehead...INSIDE the club?? SmhJe sais que j’ai déjà raconté cette histoire plein de foisavt, mais [dans] une des boîtes dans lesquelles j’avaisl’habitude d’aller, un type s’est fait tuer DANS la boîte.Genre comment on se fait tirer dans la tête DANS uneboîte ?? RLT/TDH13
  14. 14. Corpus en contexte, hors contexte ?Les recherches en linguistique de corpusQu’est-ce qu’un corpus en contexte ?Dimensions pragmatiques de larechercheQuestions éthiques, techniques14
  15. 15. 15
  16. 16. Code source16
  17. 17. Anonymisation17
  18. 18. Désavantages du corpus hors-contextePerte de contenu suppression de :PseudonymeAvatarSignatureStructure interne du forumCertains signes typographiques : retour à la ligne (/br)18
  19. 19. Avantages du corpus hors-contextePour le chercheur :Gain de temps dans l’analyse de donnéesPossibilité de sauvegarde sous un autre format : .txt,.csv, tab-delimited…Facilité d’analysePas de destruction des donnéesAccessibles sans compte au forum, sans connexioninternet.19
  20. 20. Vers une exploitation du corpusefficaceAutomatisation des procédés Personnalisation des outils textométriquesTreetagger : logiciel d’étiquetagegrammatical20
  21. 21. Treetagger :Erreurs dues à l’absencedes mots en scots dans ledictionnaire fourni.NN : NOM COMMUN ; -S : PLURIELNP : NOM PROPRE« [Jean-Claude’s ready] tae git doontae some serious swedgin.— Rents. Ah’ve goat tae see Mother[Superior] »[J-C est prêt] à se mettre àsavater sévère.— Rents. Je dois aller voirMère [Supérieure]21Mot Tag Gramm. Lemme
  22. 22. Classification des graphies alternativesGraphies alternativesType d’utilisationLemmeClasse22
  23. 23. Travailler sur internet : problèmes éventuelsBannissement éventuelPeur de racismeAspiration de site refuséeDimension éthique/humaineInformants et chercheur23
  24. 24. Dimension éthiqueTraitement des données personnelles :Articles de loiAnonymisation des données ?Étude de pseudonymes ?24
  25. 25. ConclusionAdaptations des approches au matériau travaillé : lecorpus en ligne.Adaptation des outils de travail conventionnels(Treetagger…)Problèmes liés au recueil et à l’exploitation desdonnéesGraphies : indicateurs dialectaux et modulation dudiscours (absence de standard…)25
  26. 26. Références Black Planet, (2001). <http://www.blackplanet.com/>. [consulté le 04/01/2013] Scotster (2008) < http://www.scotster.com/>. [consulté le 04/01/2013] Baron, N. S. (2008). Always on: Language in an online and mobile world. Oxford:Oxford University Press. Goudet, L. (2010) « Typologie des usages langagiers sur internet à partir de troiscommunautés virtuelles » Actes du Colloque des doctorants de l‟Écoledoctorale ERASME à l‟occasion du 40ème anniversaire de Paris 13-Nord.Villetaneuse [parution 2013] Hinrichs, L. (2006). Codeswitching on the web: English and Jamaican Creole ine-mail communication. Amsterdam: J. Benjamins Pub. Marcoccia M., 2004, « La communication écrite médiatisée par ordinateur :faire du face à face avec de l’écrit », Journée d‟étude de l‟ATALA « Letraitement automatique des nouvelles formes de communication écrite (e-mails, forums, chats, SMS, etc.) », 5 juin 2004, ENST Paris, publication enligne, http://www.up.univmrs.fr/~veronis/je-nfce/Marcoccia.pdf [consulté le02/01/2013]26
  27. 27.  : lauragoudet@gmail.comCarnet de recherches : lac.hypotheses.org@TheSchwatterer27Merci !
  28. 28. 28
  29. 29. 29
  30. 30. Dialectologie, analyse dediscours, graphophonématique ?Enjeux multiples : plusieursdomaines, ambiguïté del’étiquetage, plusieurs exploitations dumême corpus.Comment l’envisager ?Textométrie ?Étude de discussion ?30

×