séminaire "Recherches linguistiques et corpus"
STIH de l’Université Paris-Sorbonne
mercredi 8 avril 2015
Thierry Chanier
L...
2
3
(Liégeois, 2014)
5
6
7
8
Collecte
des données
Contrats de
consentement
éclairé
ou
Licence d'utilisation
sur données récoltées
Anonymisation
- Pré...
9
Corpus PFC, 15 ans d'études
10
Loic Liegeois (2014).
Usage des variables phonologiques
dans un corpus d'interactions
naturelles parents-enfant : impac...
11
12
13
Acquisition de la liaison
• Objet d’un débat entre une approche constructionniste,
« basée sur l’usage » (Dugua, 2006 ;...
14
Annotation Contexte Exemple
A Dét - N Un ours
B Pro - V Ils aiment
C Expression figée Tout à l'heure
D V - Pro Prends-e...
15
 Répartition des
adresses équivalente
chez les parents de
Prune et de Salomé.
 Dominance des
énoncés adressés à
l'enf...
16
La liaison variable : analyse à partir des mots1 après
lesquels la liaison est réalisée au moins une fois.
17.30%
19.60...
17
Le schwa
Une voyelle pouvant alterner avec zéro dans un
même contexte lexical en fonction de différents
critères.
Cinq con...
Taux d’élision en DAA et DAE en FrL1
Parents
Temps de recueil
et âge de l’enfant
Taux d’élision en
DAA
Taux d’élision en
D...
Élision chez l’enfant et développement
linguistique
9.2% 10.8%
44.2%
19.1%
44.9%
51.9%
0.0%
10.0%
20.0%
30.0%
40.0%
50.0%
...
Élision en DAE en FrL1
Les parents tendent à davantage maintenir le schwa
lorsqu’ils s’adressent à leur enfant et ajustent...
22
• Corpus audio d’interactions parents-enfant recueillis en
situation naturelle (bain, jeu, repas…).
• Deux temps (voire 3)...
24
Avant, projet ANR Phonlex
Réalisées par Loic seul
25
Format XML-ALIPE
Programme de conversion
Format CHAT
Format CHAT-XML
Format XML-TEI
Conversion via le Chatter
Programme...
26
Format XML-ALIPE
Programme de conversion
Format CHAT
Format CHAT-XML
Format XML-TEI
Conversion via le Chatter
Programme...
27
Format XML-ALIPE
Programme de conversion
Format CHAT
Format CHAT-XML
Format XML-TEI
Conversion via le Chatter
Programme...
28
Vocabulaires contrôlés
TEI > Métadonnées > Acteurs
29
<w>mais</w>
<w>la</w>
<w>politique</w>
<w>à</w>
<fs type="anonymisation">
<f name="Identity" fVal=”Place"/>
<f name="Or...
30
<w>elle</w>
<w>a</w>
<w>pas</w>
<w>de</w>
<fs type="liaison">
<f name="Word1" fVal="de"/>
<f name="Word2" fVal="oreille...
31
32
Zip pour corpus distinguable :
- Transcription TEI
- Transcription avec
alignement CLAN : CHAT
- Fichier audio
- Fiche ...
33
Affichage « simplifié » des transcriptions
généré à partir du fichier XML-TEI :
- Affichage des liaisons
- Affichage de...
34
http://hdl.handle.net/11041/alipe-000853
35
Ciara R. Wigham (2012). The interplay
between nonverbal and verbal
interaction in synthetic worlds
which supports verba...
36
Interplay nonverbal & verbal
• 1A: During a collaborative building activity, are
nonverbal acts autonomous in the syntheti...
Characterisation of SL modalities
Methodology 38
• Literature review of classifications of nonverbal mode
used in SLA & CS...
Interplay textchat & voicechat
• 3D: Can the textchat serve for L2 feedback
provision?
Analyses 39
An example of modality interplay 40
European project with architects: course Environments
face-
to-face
distance
VoiceForum Second Life
Paris Malaquais
UBP La...
Research protocol
Methodology 42
Design
Data
collection
Data
organisation
Post research
Data collection and coverage
Data
collected
Pre-
questionnaires
Session data Post
questionnaires
Semi-
directive
interview...
Multimodal transcription using ELAN
video screen
capture
multimodal transcription
aligned using timeline
participants
& mo...
Aperçu du
code de
transcription
pour non
verbal
45
An example of modality interplay 46
Annotations du chercheur
47
Un type de corpus défini dans projet MULCE
précédent : corpus d’apprentissage LETEC
Instantiation
Pedagogical
scenario
Res...
Organisation des données dans LETEC
49
50
Simuligne
(2001)
UK-FR
fre
Copéas
(2005)
eng
UK-FR
Tridem
(2005-06)
UK-FR-USA
eng, fre
Ecofralin
(2008)
CO-FR
fre,spa
V...
Nouveaux corpus
apportés par
chercheur(se)
51
52
Objective: Kernel corpus assembling existing corpora of different CMC
genres and new corpora build on data extracted from ...
54
55
New macro-level elements
56
57
(co)-création d’un corpus en linguistique : une étape à la portée des jeunes chercheurs ?
Prochain SlideShare
Chargement dans…5
×

(co)-création d’un corpus en linguistique : une étape à la portée des jeunes chercheurs ?

622 vues

Publié le

"(co)-création d’un corpus en linguistique : une étape à la portée des jeunes chercheurs ? ", séminaire "Recherches linguistiques et corpus" , STIH de l’Université Paris-Sorbonne, mercredi 8 avril 2015

Publié dans : Formation
  • Soyez le premier à commenter

  • Soyez le premier à aimer ceci

(co)-création d’un corpus en linguistique : une étape à la portée des jeunes chercheurs ?

  1. 1. séminaire "Recherches linguistiques et corpus" STIH de l’Université Paris-Sorbonne mercredi 8 avril 2015 Thierry Chanier LETEC Mulce
  2. 2. 2
  3. 3. 3 (Liégeois, 2014)
  4. 4. 5
  5. 5. 6
  6. 6. 7
  7. 7. 8 Collecte des données Contrats de consentement éclairé ou Licence d'utilisation sur données récoltées Anonymisation - Préserver informations essentielles - Identifier utilisateur sur toute la banque de corpus Poser licence d'utilisation
  8. 8. 9 Corpus PFC, 15 ans d'études
  9. 9. 10 Loic Liegeois (2014). Usage des variables phonologiques dans un corpus d'interactions naturelles parents-enfant : impact du bain linguistique et dispositifs cognitifs d'apprentissage. Humanities and Social Sciences. Clermont Ferrand 2. French. <tel-01108764> http://tel.archives-ouvertes.fr/tel-01108764
  10. 10. 11
  11. 11. 12
  12. 12. 13 Acquisition de la liaison • Objet d’un débat entre une approche constructionniste, « basée sur l’usage » (Dugua, 2006 ; Chevrot et al., 2007 ; Chevrot et al., 2009) et une approche « basée sur des principes abstraits » (Wauquier-Gravelines et Braud, 2005). • Divergence théorique, accord sur les faits observés et relevés dans des études de corpus. Modèles d’acquisition de la liaison
  13. 13. 14 Annotation Contexte Exemple A Dét - N Un ours B Pro - V Ils aiment C Expression figée Tout à l'heure D V - Pro Prends-en E Adj - N Petit oiseau F N(pluriel) - X Des pommes et … G Avoir - X Ils ont appris H Être - X C'est un I V - X Prends un verre J Inv - X Pas appris P « Poubelle » En orange Z Hors contexte Le -n- âne Annotation des données Liaisons catégoriques Liaisons variables Acquisition de la liaison variable et catégorique : ce que nous apprend le DAE
  14. 14. 15  Répartition des adresses équivalente chez les parents de Prune et de Salomé.  Dominance des énoncés adressés à l'enfant.  Nombre suffisant des deux types d'énoncé pour pouvoir les comparer.0% 10% 20% 30% 40% 50% 60% 70% 80% 90% 100% Prune Salomé Adressé à tous Adressé à l'enfant Adressé à l'adulte Distribution des contextes de liaison dans les corpus (chez les parents)
  15. 15. 16 La liaison variable : analyse à partir des mots1 après lesquels la liaison est réalisée au moins une fois. 17.30% 19.60% 29% 28.20% 0.00% 10.00% 20.00% 30.00% 40.00% 50.00% 60.00% 70.00% 80.00% 90.00% 100.00% Prune Salomé Discours adressé à l'adulte Discours adressé à l'enfant
  16. 16. 17
  17. 17. Le schwa Une voyelle pouvant alterner avec zéro dans un même contexte lexical en fonction de différents critères. Cinq contextes d’apparition : monosyllabe, syllabe interne d'un polysyllabe première ou la dernière syllabe d'un polysyllabe et dans la métathèse.
  18. 18. Taux d’élision en DAA et DAE en FrL1 Parents Temps de recueil et âge de l’enfant Taux d’élision en DAA Taux d’élision en DAE χ² P Parents de Baptiste T1 : 2;4 ans 65,1% 31,7% Chi2=75.9812 p<0,0001 T2 : 3;0 ans 49,4% 34,2% Chi2=21.8028 p<0,0001 Parents de Salomé T1 : 3;0 ans 62,1% 37,0% Chi2=95.0865 p<0,0001 T2 : 3;7 ans 58,2% 56,1% Chi2=0 p>0,05 Parents de Prune T1 : 3;4 ans 67,8% 31,6% Chi2=95.0865 p<0,0001 T2 : 4;0 ans 50,0% 51,2% Chi2=0 p>0,05 65.1% 49.4% 62.1% 58.2% 67.8% 50.0% 31.7% 34.2% 37.0% 56.1% 31.6% 51.2% 0.0% 10.0% 20.0% 30.0% 40.0% 50.0% 60.0% 70.0% 80.0% 90.0% 100.0% T1 T2 T1 T2 T1 T2 Parents de Baptiste Parents de Salomé Parents de Prune DAA DAE
  19. 19. Élision chez l’enfant et développement linguistique 9.2% 10.8% 44.2% 19.1% 44.9% 51.9% 0.0% 10.0% 20.0% 30.0% 40.0% 50.0% 60.0% 70.0% 80.0% 90.0% 100.0% Baptiste Salomé Prune T1 T2 Enfant Temps de recueil et âge de l’enfant Taux d’élision χ² P Salomé T1 : 2;4 ans 10,81% χ² = 216.0006 P<0,0001 T2 : 3;0 ans 44,91% Baptiste T1 : 3;0 ans 9,2% χ² = 6.7688 P<0,01 T2 : 3;7 ans 19,02% Prune T1 : 3;4 ans 44,19% χ² = 7.3637 P<0,01 Enfant T2 : 4;0 ans 51,9%
  20. 20. Élision en DAE en FrL1 Les parents tendent à davantage maintenir le schwa lorsqu’ils s’adressent à leur enfant et ajustent leur production en fonction des performances de celui- ci. Chez les parents de Salomé et Prune, au T2, plus de différence significative DAA/DAE. Au T2, Salomé et Prune élident le schwa dans des proportions proches de celles des adultes. L’élision du schwa en DAE est modulée selon le développement linguistique de l’enfant.
  21. 21. 22
  22. 22. • Corpus audio d’interactions parents-enfant recueillis en situation naturelle (bain, jeu, repas…). • Deux temps (voire 3) d’enregistrement afin d’observer la vitesse et la qualité de l’acquisition de la variation phonologique. • Enregistrement audio géré par les parents : • méthode peu intrusive : le chercheur n’est pas présent au domicile familial, • méthode qui demande peu d’intervention des parents. • Nouvelles collectes, après réutilisation d'un corpus (mal structuré) venant d'une ANR • Recherche de parents, contrat de consentement éclairé) Constitution et diffusion du corpus ALIPE
  23. 23. 24 Avant, projet ANR Phonlex Réalisées par Loic seul
  24. 24. 25 Format XML-ALIPE Programme de conversion Format CHAT Format CHAT-XML Format XML-TEI Conversion via le Chatter Programme de conversion
  25. 25. 26 Format XML-ALIPE Programme de conversion Format CHAT Format CHAT-XML Format XML-TEI Conversion via le Chatter Programme de conversion
  26. 26. 27 Format XML-ALIPE Programme de conversion Format CHAT Format CHAT-XML Format XML-TEI Conversion via le Chatter Programme de conversion
  27. 27. 28 Vocabulaires contrôlés TEI > Métadonnées > Acteurs
  28. 28. 29 <w>mais</w> <w>la</w> <w>politique</w> <w>à</w> <fs type="anonymisation"> <f name="Identity" fVal=”Place"/> <f name="Original" fVal=”PlaceName"/> </fs> <w>[_Lieu-de-travail-de-mot-Prune_]</w> <w>c'est</w> Transcription Métadonnées Métadonnées TEI > Métadonnées > Anonymisation
  29. 29. 30 <w>elle</w> <w>a</w> <w>pas</w> <w>de</w> <fs type="liaison"> <f name="Word1" fVal="de"/> <f name="Word2" fVal="oreilles"/> <f name="SynctacticContext" fVal="Z"/> <f name="ExpectedConsonnant" fVal="o"/> <f name="ProducedConsonnant" fVal="z"/> <f name="ObligatoryOptional" fVal="2"/> </fs> <w>oreilles</w> Transcription Métadonnées Possibilité de futures annotations de part l’extensivité du format
  30. 30. 31
  31. 31. 32 Zip pour corpus distinguable : - Transcription TEI - Transcription avec alignement CLAN : CHAT - Fichier audio - Fiche descriptive HTML http://lrl-diffusion.univ-bpclermont.fr/alipe/ Base de corpus en ligne
  32. 32. 33 Affichage « simplifié » des transcriptions généré à partir du fichier XML-TEI : - Affichage des liaisons - Affichage des évènements para- et extralinguistique Lecture en ligne (streaming) des fichiers audio téléchargeables
  33. 33. 34 http://hdl.handle.net/11041/alipe-000853
  34. 34. 35 Ciara R. Wigham (2012). The interplay between nonverbal and verbal interaction in synthetic worlds which supports verbal participation and production in a foreign language.. Linguistics. Université Blaise Pascal - Clermont-Ferrand II. English. <tel- 00762382v2> http://tel.archives-ouvertes.fr/tel- 00762382
  35. 35. 36
  36. 36. Interplay nonverbal & verbal • 1A: During a collaborative building activity, are nonverbal acts autonomous in the synthetic world or does interplay exist between the nonverbal and verbal modes? Analyses 37
  37. 37. Characterisation of SL modalities Methodology 38 • Literature review of classifications of nonverbal mode used in SLA & CSCW domains • Classification of verbal & nonverbal modalities in Second Life • Elaboration of transcription methodology
  38. 38. Interplay textchat & voicechat • 3D: Can the textchat serve for L2 feedback provision? Analyses 39
  39. 39. An example of modality interplay 40
  40. 40. European project with architects: course Environments face- to-face distance VoiceForum Second Life Paris Malaquais UBP Language tutor UBP Language tutor ENSAPM Architecture teachers ENSAPM Architecture teachers UBP Language tutors 4 workgroups GA, GE, GL, GS Presentation environment
  41. 41. Research protocol Methodology 42 Design Data collection Data organisation Post research
  42. 42. Data collection and coverage Data collected Pre- questionnaires Session data Post questionnaires Semi- directive interviews Environ ment Kwiksurveys Second Life VoiceForum Kwiksurveys Skype Data type Spreadsheet file Video screen captures Audio recordings Spreadsheet file Audio recordings Quantity & coverage of data 17 student questionnaires 20 group sessions & 2 presentation sessions 19h40m 64 forum messages 16 student questionnaires 5 student interviews 2h30 Multimodal Transcription 7 sessions 5h15m 2238 verbal 2659 nonverbal Methodology 43 pre-course post-courseduring course
  43. 43. Multimodal transcription using ELAN video screen capture multimodal transcription aligned using timeline participants & modality view of annotations for one participant in one modality Max Planck Institute for Psycholinguistics (2001). ELAN [software]. The Netherlands: Max Planck Institute for Psycholinguistics. [http://www.lat-mpi.eu/tools/elan/] 44
  44. 44. Aperçu du code de transcription pour non verbal 45
  45. 45. An example of modality interplay 46
  46. 46. Annotations du chercheur 47
  47. 47. Un type de corpus défini dans projet MULCE précédent : corpus d’apprentissage LETEC Instantiation Pedagogical scenario Research protocol Public licence Private licence Analyses C o n t e x t 48 "A LETEC corpus collects in a systematic and structured way all the data from interactions which occur during a course which is partially or entirely online. These data are enriched by technical, pedagogical and scientific information as well as information about the participants and are organized to allow contextualized analyses to be performed.“ (Mulce-documentation, 2013) ethics & rights
  48. 48. Organisation des données dans LETEC 49
  49. 49. 50 Simuligne (2001) UK-FR fre Copéas (2005) eng UK-FR Tridem (2005-06) UK-FR-USA eng, fre Ecofralin (2008) CO-FR fre,spa VMT- teamC (2006) math UK-USA-SG INFRAL (2009) deu,fra DE-FR FR FAVI (2006-08) fra ARCHI21 (2011) eng,fra FR SLIC (2013) USA-FR fra http://mulce.org http://repository.mulce.org
  50. 50. Nouveaux corpus apportés par chercheur(se) 51
  51. 51. 52
  52. 52. Objective: Kernel corpus assembling existing corpora of different CMC genres and new corpora build on data extracted from the Internet. These heterogeneous corpora will be structured and processed in a uniform way, complemented with metadata. CoMeRe will be released as OpenData through the national infrastructure Ortolang, following constraints which will be reused for the forthcoming “Corpus de Référence du Français”. Project supported by the national consortium Corpus-écrits, sub-part of Huma-Num, and Ortolang Variety + Standards + Open Access Consortium Corpus-écrits http://comere.org http://hdl.handle.net/11403/comere
  53. 53. 54
  54. 54. 55 New macro-level elements
  55. 55. 56
  56. 56. 57

×