séminaire "Recherches linguistiques et corpus"
STIH de l’Université Paris-Sorbonne
mercredi 8 avril 2015
Thierry Chanier
L...
2
3
(Liégeois, 2014)
5
6
7
8
Collecte
des données
Contrats de
consentement
éclairé
ou
Licence d'utilisation
sur données récoltées
Anonymisation
- Pré...
9
Corpus PFC, 15 ans d'études
10
Loic Liegeois (2014).
Usage des variables phonologiques
dans un corpus d'interactions
naturelles parents-enfant : impac...
11
12
13
Acquisition de la liaison
• Objet d’un débat entre une approche constructionniste,
« basée sur l’usage » (Dugua, 2006 ;...
14
Annotation Contexte Exemple
A Dét - N Un ours
B Pro - V Ils aiment
C Expression figée Tout à l'heure
D V - Pro Prends-e...
15
 Répartition des
adresses équivalente
chez les parents de
Prune et de Salomé.
 Dominance des
énoncés adressés à
l'enf...
16
La liaison variable : analyse à partir des mots1 après
lesquels la liaison est réalisée au moins une fois.
17.30%
19.60...
17
Le schwa
Une voyelle pouvant alterner avec zéro dans un
même contexte lexical en fonction de différents
critères.
Cinq con...
Taux d’élision en DAA et DAE en FrL1
Parents
Temps de recueil
et âge de l’enfant
Taux d’élision en
DAA
Taux d’élision en
D...
Élision chez l’enfant et développement
linguistique
9.2% 10.8%
44.2%
19.1%
44.9%
51.9%
0.0%
10.0%
20.0%
30.0%
40.0%
50.0%
...
Élision en DAE en FrL1
Les parents tendent à davantage maintenir le schwa
lorsqu’ils s’adressent à leur enfant et ajustent...
22
• Corpus audio d’interactions parents-enfant recueillis en
situation naturelle (bain, jeu, repas…).
• Deux temps (voire 3)...
24
Avant, projet ANR Phonlex
Réalisées par Loic seul
25
Format XML-ALIPE
Programme de conversion
Format CHAT
Format CHAT-XML
Format XML-TEI
Conversion via le Chatter
Programme...
26
Format XML-ALIPE
Programme de conversion
Format CHAT
Format CHAT-XML
Format XML-TEI
Conversion via le Chatter
Programme...
27
Format XML-ALIPE
Programme de conversion
Format CHAT
Format CHAT-XML
Format XML-TEI
Conversion via le Chatter
Programme...
28
Vocabulaires contrôlés
TEI > Métadonnées > Acteurs
29
<w>mais</w>
<w>la</w>
<w>politique</w>
<w>à</w>
<fs type="anonymisation">
<f name="Identity" fVal=”Place"/>
<f name="Or...
30
<w>elle</w>
<w>a</w>
<w>pas</w>
<w>de</w>
<fs type="liaison">
<f name="Word1" fVal="de"/>
<f name="Word2" fVal="oreille...
31
32
Zip pour corpus distinguable :
- Transcription TEI
- Transcription avec
alignement CLAN : CHAT
- Fichier audio
- Fiche ...
33
Affichage « simplifié » des transcriptions
généré à partir du fichier XML-TEI :
- Affichage des liaisons
- Affichage de...
34
http://hdl.handle.net/11041/alipe-000853
35
Ciara R. Wigham (2012). The interplay
between nonverbal and verbal
interaction in synthetic worlds
which supports verba...
36
Interplay nonverbal & verbal
• 1A: During a collaborative building activity, are
nonverbal acts autonomous in the syntheti...
Characterisation of SL modalities
Methodology 38
• Literature review of classifications of nonverbal mode
used in SLA & CS...
Interplay textchat & voicechat
• 3D: Can the textchat serve for L2 feedback
provision?
Analyses 39
An example of modality interplay 40
European project with architects: course Environments
face-
to-face
distance
VoiceForum Second Life
Paris Malaquais
UBP La...
Research protocol
Methodology 42
Design
Data
collection
Data
organisation
Post research
Data collection and coverage
Data
collected
Pre-
questionnaires
Session data Post
questionnaires
Semi-
directive
interview...
Multimodal transcription using ELAN
video screen
capture
multimodal transcription
aligned using timeline
participants
& mo...
Aperçu du
code de
transcription
pour non
verbal
45
An example of modality interplay 46
Annotations du chercheur
47
Un type de corpus défini dans projet MULCE
précédent : corpus d’apprentissage LETEC
Instantiation
Pedagogical
scenario
Res...
Organisation des données dans LETEC
49
50
Simuligne
(2001)
UK-FR
fre
Copéas
(2005)
eng
UK-FR
Tridem
(2005-06)
UK-FR-USA
eng, fre
Ecofralin
(2008)
CO-FR
fre,spa
V...
Nouveaux corpus
apportés par
chercheur(se)
51
52
Objective: Kernel corpus assembling existing corpora of different CMC
genres and new corpora build on data extracted from ...
54
55
New macro-level elements
56
57
(co)-création d’un corpus en linguistique : une étape à la portée des jeunes chercheurs ?
Prochain SlideShare
Chargement dans…5
×

(co)-création d’un corpus en linguistique : une étape à la portée des jeunes chercheurs ?

513 vues

Publié le

"(co)-création d’un corpus en linguistique : une étape à la portée des jeunes chercheurs ? ", séminaire "Recherches linguistiques et corpus" , STIH de l’Université Paris-Sorbonne, mercredi 8 avril 2015

Publié dans : Formation
0 commentaire
0 j’aime
Statistiques
Remarques
  • Soyez le premier à commenter

  • Soyez le premier à aimer ceci

Aucun téléchargement
Vues
Nombre de vues
513
Sur SlideShare
0
Issues des intégrations
0
Intégrations
24
Actions
Partages
0
Téléchargements
6
Commentaires
0
J’aime
0
Intégrations 0
Aucune incorporation

Aucune remarque pour cette diapositive
  • .
  • (co)-création d’un corpus en linguistique : une étape à la portée des jeunes chercheurs ?

    1. 1. séminaire "Recherches linguistiques et corpus" STIH de l’Université Paris-Sorbonne mercredi 8 avril 2015 Thierry Chanier LETEC Mulce
    2. 2. 2
    3. 3. 3 (Liégeois, 2014)
    4. 4. 5
    5. 5. 6
    6. 6. 7
    7. 7. 8 Collecte des données Contrats de consentement éclairé ou Licence d'utilisation sur données récoltées Anonymisation - Préserver informations essentielles - Identifier utilisateur sur toute la banque de corpus Poser licence d'utilisation
    8. 8. 9 Corpus PFC, 15 ans d'études
    9. 9. 10 Loic Liegeois (2014). Usage des variables phonologiques dans un corpus d'interactions naturelles parents-enfant : impact du bain linguistique et dispositifs cognitifs d'apprentissage. Humanities and Social Sciences. Clermont Ferrand 2. French. <tel-01108764> http://tel.archives-ouvertes.fr/tel-01108764
    10. 10. 11
    11. 11. 12
    12. 12. 13 Acquisition de la liaison • Objet d’un débat entre une approche constructionniste, « basée sur l’usage » (Dugua, 2006 ; Chevrot et al., 2007 ; Chevrot et al., 2009) et une approche « basée sur des principes abstraits » (Wauquier-Gravelines et Braud, 2005). • Divergence théorique, accord sur les faits observés et relevés dans des études de corpus. Modèles d’acquisition de la liaison
    13. 13. 14 Annotation Contexte Exemple A Dét - N Un ours B Pro - V Ils aiment C Expression figée Tout à l'heure D V - Pro Prends-en E Adj - N Petit oiseau F N(pluriel) - X Des pommes et … G Avoir - X Ils ont appris H Être - X C'est un I V - X Prends un verre J Inv - X Pas appris P « Poubelle » En orange Z Hors contexte Le -n- âne Annotation des données Liaisons catégoriques Liaisons variables Acquisition de la liaison variable et catégorique : ce que nous apprend le DAE
    14. 14. 15  Répartition des adresses équivalente chez les parents de Prune et de Salomé.  Dominance des énoncés adressés à l'enfant.  Nombre suffisant des deux types d'énoncé pour pouvoir les comparer.0% 10% 20% 30% 40% 50% 60% 70% 80% 90% 100% Prune Salomé Adressé à tous Adressé à l'enfant Adressé à l'adulte Distribution des contextes de liaison dans les corpus (chez les parents)
    15. 15. 16 La liaison variable : analyse à partir des mots1 après lesquels la liaison est réalisée au moins une fois. 17.30% 19.60% 29% 28.20% 0.00% 10.00% 20.00% 30.00% 40.00% 50.00% 60.00% 70.00% 80.00% 90.00% 100.00% Prune Salomé Discours adressé à l'adulte Discours adressé à l'enfant
    16. 16. 17
    17. 17. Le schwa Une voyelle pouvant alterner avec zéro dans un même contexte lexical en fonction de différents critères. Cinq contextes d’apparition : monosyllabe, syllabe interne d'un polysyllabe première ou la dernière syllabe d'un polysyllabe et dans la métathèse.
    18. 18. Taux d’élision en DAA et DAE en FrL1 Parents Temps de recueil et âge de l’enfant Taux d’élision en DAA Taux d’élision en DAE χ² P Parents de Baptiste T1 : 2;4 ans 65,1% 31,7% Chi2=75.9812 p<0,0001 T2 : 3;0 ans 49,4% 34,2% Chi2=21.8028 p<0,0001 Parents de Salomé T1 : 3;0 ans 62,1% 37,0% Chi2=95.0865 p<0,0001 T2 : 3;7 ans 58,2% 56,1% Chi2=0 p>0,05 Parents de Prune T1 : 3;4 ans 67,8% 31,6% Chi2=95.0865 p<0,0001 T2 : 4;0 ans 50,0% 51,2% Chi2=0 p>0,05 65.1% 49.4% 62.1% 58.2% 67.8% 50.0% 31.7% 34.2% 37.0% 56.1% 31.6% 51.2% 0.0% 10.0% 20.0% 30.0% 40.0% 50.0% 60.0% 70.0% 80.0% 90.0% 100.0% T1 T2 T1 T2 T1 T2 Parents de Baptiste Parents de Salomé Parents de Prune DAA DAE
    19. 19. Élision chez l’enfant et développement linguistique 9.2% 10.8% 44.2% 19.1% 44.9% 51.9% 0.0% 10.0% 20.0% 30.0% 40.0% 50.0% 60.0% 70.0% 80.0% 90.0% 100.0% Baptiste Salomé Prune T1 T2 Enfant Temps de recueil et âge de l’enfant Taux d’élision χ² P Salomé T1 : 2;4 ans 10,81% χ² = 216.0006 P<0,0001 T2 : 3;0 ans 44,91% Baptiste T1 : 3;0 ans 9,2% χ² = 6.7688 P<0,01 T2 : 3;7 ans 19,02% Prune T1 : 3;4 ans 44,19% χ² = 7.3637 P<0,01 Enfant T2 : 4;0 ans 51,9%
    20. 20. Élision en DAE en FrL1 Les parents tendent à davantage maintenir le schwa lorsqu’ils s’adressent à leur enfant et ajustent leur production en fonction des performances de celui- ci. Chez les parents de Salomé et Prune, au T2, plus de différence significative DAA/DAE. Au T2, Salomé et Prune élident le schwa dans des proportions proches de celles des adultes. L’élision du schwa en DAE est modulée selon le développement linguistique de l’enfant.
    21. 21. 22
    22. 22. • Corpus audio d’interactions parents-enfant recueillis en situation naturelle (bain, jeu, repas…). • Deux temps (voire 3) d’enregistrement afin d’observer la vitesse et la qualité de l’acquisition de la variation phonologique. • Enregistrement audio géré par les parents : • méthode peu intrusive : le chercheur n’est pas présent au domicile familial, • méthode qui demande peu d’intervention des parents. • Nouvelles collectes, après réutilisation d'un corpus (mal structuré) venant d'une ANR • Recherche de parents, contrat de consentement éclairé) Constitution et diffusion du corpus ALIPE
    23. 23. 24 Avant, projet ANR Phonlex Réalisées par Loic seul
    24. 24. 25 Format XML-ALIPE Programme de conversion Format CHAT Format CHAT-XML Format XML-TEI Conversion via le Chatter Programme de conversion
    25. 25. 26 Format XML-ALIPE Programme de conversion Format CHAT Format CHAT-XML Format XML-TEI Conversion via le Chatter Programme de conversion
    26. 26. 27 Format XML-ALIPE Programme de conversion Format CHAT Format CHAT-XML Format XML-TEI Conversion via le Chatter Programme de conversion
    27. 27. 28 Vocabulaires contrôlés TEI > Métadonnées > Acteurs
    28. 28. 29 <w>mais</w> <w>la</w> <w>politique</w> <w>à</w> <fs type="anonymisation"> <f name="Identity" fVal=”Place"/> <f name="Original" fVal=”PlaceName"/> </fs> <w>[_Lieu-de-travail-de-mot-Prune_]</w> <w>c'est</w> Transcription Métadonnées Métadonnées TEI > Métadonnées > Anonymisation
    29. 29. 30 <w>elle</w> <w>a</w> <w>pas</w> <w>de</w> <fs type="liaison"> <f name="Word1" fVal="de"/> <f name="Word2" fVal="oreilles"/> <f name="SynctacticContext" fVal="Z"/> <f name="ExpectedConsonnant" fVal="o"/> <f name="ProducedConsonnant" fVal="z"/> <f name="ObligatoryOptional" fVal="2"/> </fs> <w>oreilles</w> Transcription Métadonnées Possibilité de futures annotations de part l’extensivité du format
    30. 30. 31
    31. 31. 32 Zip pour corpus distinguable : - Transcription TEI - Transcription avec alignement CLAN : CHAT - Fichier audio - Fiche descriptive HTML http://lrl-diffusion.univ-bpclermont.fr/alipe/ Base de corpus en ligne
    32. 32. 33 Affichage « simplifié » des transcriptions généré à partir du fichier XML-TEI : - Affichage des liaisons - Affichage des évènements para- et extralinguistique Lecture en ligne (streaming) des fichiers audio téléchargeables
    33. 33. 34 http://hdl.handle.net/11041/alipe-000853
    34. 34. 35 Ciara R. Wigham (2012). The interplay between nonverbal and verbal interaction in synthetic worlds which supports verbal participation and production in a foreign language.. Linguistics. Université Blaise Pascal - Clermont-Ferrand II. English. <tel- 00762382v2> http://tel.archives-ouvertes.fr/tel- 00762382
    35. 35. 36
    36. 36. Interplay nonverbal & verbal • 1A: During a collaborative building activity, are nonverbal acts autonomous in the synthetic world or does interplay exist between the nonverbal and verbal modes? Analyses 37
    37. 37. Characterisation of SL modalities Methodology 38 • Literature review of classifications of nonverbal mode used in SLA & CSCW domains • Classification of verbal & nonverbal modalities in Second Life • Elaboration of transcription methodology
    38. 38. Interplay textchat & voicechat • 3D: Can the textchat serve for L2 feedback provision? Analyses 39
    39. 39. An example of modality interplay 40
    40. 40. European project with architects: course Environments face- to-face distance VoiceForum Second Life Paris Malaquais UBP Language tutor UBP Language tutor ENSAPM Architecture teachers ENSAPM Architecture teachers UBP Language tutors 4 workgroups GA, GE, GL, GS Presentation environment
    41. 41. Research protocol Methodology 42 Design Data collection Data organisation Post research
    42. 42. Data collection and coverage Data collected Pre- questionnaires Session data Post questionnaires Semi- directive interviews Environ ment Kwiksurveys Second Life VoiceForum Kwiksurveys Skype Data type Spreadsheet file Video screen captures Audio recordings Spreadsheet file Audio recordings Quantity & coverage of data 17 student questionnaires 20 group sessions & 2 presentation sessions 19h40m 64 forum messages 16 student questionnaires 5 student interviews 2h30 Multimodal Transcription 7 sessions 5h15m 2238 verbal 2659 nonverbal Methodology 43 pre-course post-courseduring course
    43. 43. Multimodal transcription using ELAN video screen capture multimodal transcription aligned using timeline participants & modality view of annotations for one participant in one modality Max Planck Institute for Psycholinguistics (2001). ELAN [software]. The Netherlands: Max Planck Institute for Psycholinguistics. [http://www.lat-mpi.eu/tools/elan/] 44
    44. 44. Aperçu du code de transcription pour non verbal 45
    45. 45. An example of modality interplay 46
    46. 46. Annotations du chercheur 47
    47. 47. Un type de corpus défini dans projet MULCE précédent : corpus d’apprentissage LETEC Instantiation Pedagogical scenario Research protocol Public licence Private licence Analyses C o n t e x t 48 "A LETEC corpus collects in a systematic and structured way all the data from interactions which occur during a course which is partially or entirely online. These data are enriched by technical, pedagogical and scientific information as well as information about the participants and are organized to allow contextualized analyses to be performed.“ (Mulce-documentation, 2013) ethics & rights
    48. 48. Organisation des données dans LETEC 49
    49. 49. 50 Simuligne (2001) UK-FR fre Copéas (2005) eng UK-FR Tridem (2005-06) UK-FR-USA eng, fre Ecofralin (2008) CO-FR fre,spa VMT- teamC (2006) math UK-USA-SG INFRAL (2009) deu,fra DE-FR FR FAVI (2006-08) fra ARCHI21 (2011) eng,fra FR SLIC (2013) USA-FR fra http://mulce.org http://repository.mulce.org
    50. 50. Nouveaux corpus apportés par chercheur(se) 51
    51. 51. 52
    52. 52. Objective: Kernel corpus assembling existing corpora of different CMC genres and new corpora build on data extracted from the Internet. These heterogeneous corpora will be structured and processed in a uniform way, complemented with metadata. CoMeRe will be released as OpenData through the national infrastructure Ortolang, following constraints which will be reused for the forthcoming “Corpus de Référence du Français”. Project supported by the national consortium Corpus-écrits, sub-part of Huma-Num, and Ortolang Variety + Standards + Open Access Consortium Corpus-écrits http://comere.org http://hdl.handle.net/11403/comere
    53. 53. 54
    54. 54. 55 New macro-level elements
    55. 55. 56
    56. 56. 57

    ×