Table Ronde - Colloque des Doctorantsde l’Ecole doctorale Erasme11 et 12 avril 2013Nouvelles perspectives de recherche àl’...
Exploitation d’un corpusde parole dialectaleécrite sur forums internetLaura-Gabrielle Goudet – Paris 13 – Sorbonne Paris C...
IntroductionÉtude de plusieurs forums de locuteursCommunauté de pratiques ?Dialectologie, analyse dediscours, graphopho...
Présentation des communautésétudiées4
Scots Afro-AméricainScotster Black PlanetParlé en Écosse (où øgaélique)Parlé aux États-UnisProche du moyen-anglais Proche ...
6ArchitectureBlack Planet
Black Planet35 millions d’utilisateurs276 000 fils de discussion1,2 million de messages7
8
9Scotster :Architecture nonadaptée auxcontenus :• sous-sections vides• redites
Parole dialectale, corpus écrit10
Parole dialectale, corpus écritPeut-on parler de parole ?Transfert vers l’écrit ?« Communaulecte, mode d’emploi »Usage...
Alternance codiqueAnglais, Scots et prononciation―Weekly Scots Vocab List‖Dreich - cold, wet, miserable weather. (drreech...
Netspeak, anglais, AAI know I told this story numerous times b4, but oneof the clubs I use to frequent some foo got kille...
Corpus en contexte, hors contexte ?Les recherches en linguistique de corpusQu’est-ce qu’un corpus en contexte ?Dimensi...
15
Code source16
Anonymisation17
Désavantages du corpus hors-contextePerte de contenu suppression de :PseudonymeAvatarSignatureStructure interne du fo...
Avantages du corpus hors-contextePour le chercheur :Gain de temps dans l’analyse de donnéesPossibilité de sauvegarde so...
Vers une exploitation du corpusefficaceAutomatisation des procédés Personnalisation des outils textométriquesTreetagger ...
Treetagger :Erreurs dues à l’absencedes mots en scots dans ledictionnaire fourni.NN : NOM COMMUN ; -S : PLURIELNP : NOM PR...
Classification des graphies alternativesGraphies alternativesType d’utilisationLemmeClasse22
Travailler sur internet : problèmes éventuelsBannissement éventuelPeur de racismeAspiration de site refuséeDimension é...
Dimension éthiqueTraitement des données personnelles :Articles de loiAnonymisation des données ?Étude de pseudonymes ?24
ConclusionAdaptations des approches au matériau travaillé : lecorpus en ligne.Adaptation des outils de travail conventio...
Références Black Planet, (2001). <http://www.blackplanet.com/>. [consulté le 04/01/2013] Scotster (2008) < http://www.sc...
 : lauragoudet@gmail.comCarnet de recherches : lac.hypotheses.org@TheSchwatterer27Merci !
28
29
Dialectologie, analyse dediscours, graphophonématique ?Enjeux multiples : plusieursdomaines, ambiguïté del’étiquetage, pl...
Prochain SlideShare
Chargement dans…5
×

Exploitation d’un corpus de parole dialectale écrite sur Internet

340 vues

Publié le

Conférence donnée le

Publié dans : Formation, Technologie, Business
0 commentaire
0 j’aime
Statistiques
Remarques
  • Soyez le premier à commenter

  • Soyez le premier à aimer ceci

Aucun téléchargement
Vues
Nombre de vues
340
Sur SlideShare
0
Issues des intégrations
0
Intégrations
5
Actions
Partages
0
Téléchargements
0
Commentaires
0
J’aime
0
Intégrations 0
Aucune incorporation

Aucune remarque pour cette diapositive
  • http://www.blackplanet.com/forums/thread.html?thread_id=2728158
  • view-source:http://www.blackplanet.com/forums/thread.html?thread_id=2728158
  • Les deux derniers avantages sont en fait les mêmes qu’on pourrait avoir si jamais on sauve la page (navigation hors connexion, ou sauvegarde en HTML)
  • Exploitation d’un corpus de parole dialectale écrite sur Internet

    1. 1. Table Ronde - Colloque des Doctorantsde l’Ecole doctorale Erasme11 et 12 avril 2013Nouvelles perspectives de recherche àl’heure du web 2.0Laura-Gabrielle GoudetNoémie MarignierAboubekeur Zineddine
    2. 2. Exploitation d’un corpusde parole dialectaleécrite sur forums internetLaura-Gabrielle Goudet – Paris 13 – Sorbonne Paris Cité Pléiade (CRIDAF)Colloque des doctorants de l’Ecole Doctorale Erasme12 avril 2013
    3. 3. IntroductionÉtude de plusieurs forums de locuteursCommunauté de pratiques ?Dialectologie, analyse dediscours, graphophonématique ?Comment envisager le corpus ?3
    4. 4. Présentation des communautésétudiées4
    5. 5. Scots Afro-AméricainScotster Black PlanetParlé en Écosse (où øgaélique)Parlé aux États-UnisProche du moyen-anglais Proche de l’anglais du sud14ème siècle 15ème siècleInterdiction d’utiliser àl’écrit → 17-18ème siècleInterdiction d’apprendre àécrire (esclaves)Populations minoritaires; paroles vues comme inférieuresRevalorisation : 20-21ème siècle5
    6. 6. 6ArchitectureBlack Planet
    7. 7. Black Planet35 millions d’utilisateurs276 000 fils de discussion1,2 million de messages7
    8. 8. 8
    9. 9. 9Scotster :Architecture nonadaptée auxcontenus :• sous-sections vides• redites
    10. 10. Parole dialectale, corpus écrit10
    11. 11. Parole dialectale, corpus écritPeut-on parler de parole ?Transfert vers l’écrit ?« Communaulecte, mode d’emploi »Usages communs entre des membres d’un mêmegroupe en ligneNetspeak ?11
    12. 12. Alternance codiqueAnglais, Scots et prononciation―Weekly Scots Vocab List‖Dreich - cold, wet, miserable weather. (drreech;same soft ch as in loch, versus hard ck of lock)"Its a gey dreich day the day." (it is very cold, wetand miserable today)“Liste de vocabulaire en scots hebdomadaire”Dreich : froid, humide, temps affreux (driiiche, le mêmeson doux de „ch‟ que dans „loch‟, pas le son dur de„ck‟ dans lock)„Le temps est vraiment mauvais aujourd‟hui‟12
    13. 13. Netspeak, anglais, AAI know I told this story numerous times b4, but oneof the clubs I use to frequent some foo got killedINSIDE the club. Like how u get shot in thehead...INSIDE the club?? SmhJe sais que j’ai déjà raconté cette histoire plein de foisavt, mais [dans] une des boîtes dans lesquelles j’avaisl’habitude d’aller, un type s’est fait tuer DANS la boîte.Genre comment on se fait tirer dans la tête DANS uneboîte ?? RLT/TDH13
    14. 14. Corpus en contexte, hors contexte ?Les recherches en linguistique de corpusQu’est-ce qu’un corpus en contexte ?Dimensions pragmatiques de larechercheQuestions éthiques, techniques14
    15. 15. 15
    16. 16. Code source16
    17. 17. Anonymisation17
    18. 18. Désavantages du corpus hors-contextePerte de contenu suppression de :PseudonymeAvatarSignatureStructure interne du forumCertains signes typographiques : retour à la ligne (/br)18
    19. 19. Avantages du corpus hors-contextePour le chercheur :Gain de temps dans l’analyse de donnéesPossibilité de sauvegarde sous un autre format : .txt,.csv, tab-delimited…Facilité d’analysePas de destruction des donnéesAccessibles sans compte au forum, sans connexioninternet.19
    20. 20. Vers une exploitation du corpusefficaceAutomatisation des procédés Personnalisation des outils textométriquesTreetagger : logiciel d’étiquetagegrammatical20
    21. 21. Treetagger :Erreurs dues à l’absencedes mots en scots dans ledictionnaire fourni.NN : NOM COMMUN ; -S : PLURIELNP : NOM PROPRE« [Jean-Claude’s ready] tae git doontae some serious swedgin.— Rents. Ah’ve goat tae see Mother[Superior] »[J-C est prêt] à se mettre àsavater sévère.— Rents. Je dois aller voirMère [Supérieure]21Mot Tag Gramm. Lemme
    22. 22. Classification des graphies alternativesGraphies alternativesType d’utilisationLemmeClasse22
    23. 23. Travailler sur internet : problèmes éventuelsBannissement éventuelPeur de racismeAspiration de site refuséeDimension éthique/humaineInformants et chercheur23
    24. 24. Dimension éthiqueTraitement des données personnelles :Articles de loiAnonymisation des données ?Étude de pseudonymes ?24
    25. 25. ConclusionAdaptations des approches au matériau travaillé : lecorpus en ligne.Adaptation des outils de travail conventionnels(Treetagger…)Problèmes liés au recueil et à l’exploitation desdonnéesGraphies : indicateurs dialectaux et modulation dudiscours (absence de standard…)25
    26. 26. Références Black Planet, (2001). <http://www.blackplanet.com/>. [consulté le 04/01/2013] Scotster (2008) < http://www.scotster.com/>. [consulté le 04/01/2013] Baron, N. S. (2008). Always on: Language in an online and mobile world. Oxford:Oxford University Press. Goudet, L. (2010) « Typologie des usages langagiers sur internet à partir de troiscommunautés virtuelles » Actes du Colloque des doctorants de l‟Écoledoctorale ERASME à l‟occasion du 40ème anniversaire de Paris 13-Nord.Villetaneuse [parution 2013] Hinrichs, L. (2006). Codeswitching on the web: English and Jamaican Creole ine-mail communication. Amsterdam: J. Benjamins Pub. Marcoccia M., 2004, « La communication écrite médiatisée par ordinateur :faire du face à face avec de l’écrit », Journée d‟étude de l‟ATALA « Letraitement automatique des nouvelles formes de communication écrite (e-mails, forums, chats, SMS, etc.) », 5 juin 2004, ENST Paris, publication enligne, http://www.up.univmrs.fr/~veronis/je-nfce/Marcoccia.pdf [consulté le02/01/2013]26
    27. 27.  : lauragoudet@gmail.comCarnet de recherches : lac.hypotheses.org@TheSchwatterer27Merci !
    28. 28. 28
    29. 29. 29
    30. 30. Dialectologie, analyse dediscours, graphophonématique ?Enjeux multiples : plusieursdomaines, ambiguïté del’étiquetage, plusieurs exploitations dumême corpus.Comment l’envisager ?Textométrie ?Étude de discussion ?30

    ×