Encoder loral en TEI :démarches, avantages, défis Lou Burnard (Meet, TGE Adonis)           mai 2012                        ...
Encoder loralCela veut dire :     saisie dun signal sonore     sa transcription     sa contextualisationLa saisie de telle...
Cest quoi lOral ?expériences délicitation linguistique, sous conditionscontrôléesinterviews documentairesémissions radioph...
LOral : quelques défisPar rapport aux textes écrits, les textes oraux     se produisent dans le temps     nont pas de forma...
La transcription    nécessite un acte interprétatif, pas susceptible    dautomatisation    implique des décisions difficiles...
Exemple de transcription orale ... factice ?.<div>                                                                        ...
Macro-structure dune transcriptionOn peut identifier un continuum du plus au moins structuré :     les débats, les intervie...
Les objectifs dune transcriptionDistinguo    la transciption lisible    la transcription en vue dun traitementavec emphase...
Combien de formats standardisés faut-il dans le monde ?     WKWBFY un seul : solution centralisée    NWEUMP aucun : soluti...
Les normes ne simposent pas dans la vie intellectuelle     soit elles émergent dun besoin de le communauté     soit leur u...
Standards : un paysage complexeAgences officielles de standardisation nationales : AFNOR, ANSI,            BSI, DIN ; intern...
Standards : on peut sen passer?Pour les scientifiques, les standards pourraient constituer uninconvénient :    ils figent un...
Quelques besoins scientifiques ...  1    Comment sur le web identifier et retrouver des ressources       numériques ayant un...
Quelques besoins techniques ...  1    possibilité de recombiner ou de réutiliser les systèmes existants ...  2    évolutio...
Est-ce quon peut arriver à normaliser la transcription ? ‘No transcript is completely theory-neutral or without bias.’ (Ed...
Est-ce quon peut arriver à normaliser la transcription ?     ... there is, to date, no widely dominant method, let alone a...
Influence des outils sur la modélisation de loralOutils de transcription les plus répandus :     Anvil, CHAT, ELAN, EXMARaL...
EXMARaLDA, par exempleEXMARaLDA: “Extensible Markup Language for DiscourseAnnotation” http://www.exmaralda.org/           ...
Format interne EXMARaLDA.<common-timeline>                                                              .  <tli id="T0" ti...
Voices of the Holocaust.<div xml:lang="de">                                                        .  <u who="#boderD" sta...
IFA Dialog Video corpus.<TIME_ORDER>                                                            .  <TIME_SLOT TIME_SLOT_ID...
Transcriber.<Turn speaker="spk2" startTime="0.557" endTime="5.851">                     .  <Sync time="0.557"/> so what do...
Au niveau de la transcription...Même jeu: plusieurs conventions de transcription pour les objetscommuns :  HIAT   ((coughs...
Une version TEI XML.<u>                                                  .  <kinesic>   <desc>coughs</desc>  </kinesic>you...
Une autre version TEI XML.<u who="#locuteur" sync="#T234">                 .  <seg type="interrupted">   <kinesic>     <de...
Le modèle TEI de loralCe modèle reconnaît plusieurs phénomènes de discours :     des énoncés (utterances) de point de vue ...
En résumé...               27/55
A complèter avecstructuration et segmentation des énoncésmécanismes dalignement temporairereprésentation et intégration de...
Propositions du module spokenDes éléments pour la transcription de l’oral <incident>, <kinesic>,            <pause>,<shift...
.                          Par exemple...<u who="#Jan">mmm delicieux</u>                         .<incident>  <desc>téléph...
Le concept d’"énoncé"    une séquence de discours d’un seul locuteur    peut être regroupé dans des sections <div>    peut...
On peut profiter de lexistence d’autres éléments                  pertinents de la TEINotamment :    <emph> for linguistic ...
... (contd)     <unclear> pour les incertitudes.ressemble aux disques <unclear>skeuzi</unclear>.                          ...
Changements de voix (1)On peut se servir de la balise <shift>, une espèce de <milestone>,pour indiquer les frontières....<...
Changements de voix (2)On peut également se servir déléments plus spécifiques, ou de<seg> typés :.<u who="#LB">            ...
Liste non exhaustive de caractéristiques prosodiques en                         prose  (basée sur Boase, Survey of English...
Mélange de loral et de lécrit.<u who="#a">écoutez <shift new="reading"/>Matignon se déclare       .confiant que les problè...
<writing> exemple.<u who="#a">regardez ceci</u>                                               .<writing who="#a" type="new...
Questions relatives à la temporalitépour les pauses : élément <pause>pour la durée : attribut @dursynchronisation : attrib...
<pause> : exemple.<u>Okay <pause dur="PT2M"/>U-m<pause dur="PT75S"/>la scène ouvre              .<pause dur="PT50S"/> avec...
ChevauchementApproche minimale :Jules: vous avez entendu les - -Jim: les résultats?Jules: quel désastre !Jim: (en même tem...
Synchronisation 1Lattribut @synch indique un point ou un empan synchronisé aveclélément qui le porte :.<u   who="#jules">v...
AlignementLe cas typique : un enregistrement identifié par un flux temporel,avec lequel on veut aligner une (ou plusieurs) t...
Usage de <timeline>Cela permet lalignement de plusieurs moments synchronisés :.<timeline unit="s" origin="#TS-P1">        ...
Description des participantsPeut être purement documentaire et informelle :.<particDesc>                                  ...
Ou bien ...Pour les entités nommés (personnes, lieux, organisations), ondispose dune large gamme déléments spécifiques etgé...
Description des participants.<listPerson>                                                                  .  <person xml:...
Description des enregistrements 1Plusieurs possibilités....<recordingStmt>                                                ...
Description des enregistrements 2Par exemple....<recordingStmt>                                                           ...
... et pour le contexte.<setting xml:id="KDFSE002" n="063505" who="#PS0M6">       .  <name type="place">Lancashire: Moreca...
En résumé ...démarche La TEI met à disposition une gamme de propositions         pour lencodage de la transcription de lor...
Pourquoi sintéresser toujours à la TEI ?Deux raisons pour lesquelles les standards échouent :    ils sont basés sur une th...
Comment faire mûrir une théorie?Dans son TEI ODD, on peut :    limiter les valeurs possibles dun attribut plus ou moins   ...
Lévolution darwinienne, ça marche...faites vos modifications dans votre espace de nomsdocumentez-les dans un ODDfaites disc...
Pour en savoir plus    http://www.tei-c.org    http://tei.sf.net    http://listserv.brown.edu/archives/cgi-bin/wa?SUBED1= ...
Prochain SlideShare
Chargement dans…5
×

Encoder l'oral en TEI : démarches, avantages, défis

1 150 vues

Publié le

Overview of what the TEI has to say about encoding spoken data and why this is a good time to re-examine it. Invited talk at the Bibliotheque Nationale, as part of a seminar on Les corpus sonores http://www.tge-adonis.fr/article/les-corpus-sonores

0 commentaire
0 j’aime
Statistiques
Remarques
  • Soyez le premier à commenter

  • Soyez le premier à aimer ceci

Aucun téléchargement
Vues
Nombre de vues
1 150
Sur SlideShare
0
Issues des intégrations
0
Intégrations
2
Actions
Partages
0
Téléchargements
5
Commentaires
0
J’aime
0
Intégrations 0
Aucune incorporation

Aucune remarque pour cette diapositive

Encoder l'oral en TEI : démarches, avantages, défis

  1. 1. Encoder loral en TEI :démarches, avantages, défis Lou Burnard (Meet, TGE Adonis) mai 2012 1/55
  2. 2. Encoder loralCela veut dire : saisie dun signal sonore sa transcription sa contextualisationLa saisie de telles ressources est : techniquement complexe conceptuellement difficile coûteuse.Pour ces raisons (entre autres) elle devrait se faire en respectant des .normes... . . 2/55
  3. 3. Cest quoi lOral ?expériences délicitation linguistique, sous conditionscontrôléesinterviews documentairesémissions radiophoniques, quasi-scénariséesenregistrements plus ou moins informels, voire avecmicrophone caché 3/55
  4. 4. LOral : quelques défisPar rapport aux textes écrits, les textes oraux se produisent dans le temps nont pas de format normalisé sont incompréhensibles hors de leur contexteCf. manuscrits, images 4/55
  5. 5. La transcription nécessite un acte interprétatif, pas susceptible dautomatisation implique des décisions difficiles sur lorthographe, la tokenisation, la sélection même des phénomenes à transcrire implique souvent une réécriture totale du point de vue temporel.La plupart des systèmes de transcriptions donnent la priorité à la .lisibilité (humaine) plutôt quau traitement... . . 5/55
  6. 6. Exemple de transcription orale ... factice ?.<div> . <u who="#DP"> Une minute de réponse sil vous plaît et on passe vraiment à autrechose.</u> <u who="#NS">Je ne crois pas que monsieur Berlusconi soit mon ami puisquil asemblé souhaiter votre élection.</u> <u who="#FH">Il est en tout cas de votre parti au niveau européen.</u> <u who="#NS">Non, ça nest pas exact.</u> <u who="#FH">Ne dites pas une contre-vérité. Il est du PPE ou pas ?</u> <u who="#NS">Monsieur Berlusconi est berlusconiesque.</u> <u who="#FH">Non. Est-ce quil est du PPE ou non ? Répondez à ma question.</u> <u who="#NS">Je ne suis pas votre élève. Jy répondrai après vous avoir dit ce quejai à vous dire.</u> <u who="#FH">Donc, monsieur Berlusconi est au PPE dans le même parti que levôtre.</u> <u who="#NS">Monsieur Berlusconi nest pas dans mon parti ni de près ni de loin.</u> <u who="#FH">Il lest au niveau européen.</u>.</div>.. . . 6/55
  7. 7. Macro-structure dune transcriptionOn peut identifier un continuum du plus au moins structuré : les débats, les interviews, les interventions ... les interactions transactionnelles (par exemple, lachat) la discussion autour dune action la conversation généraleIl y a des controverses sur lidentification des unités de loral : les "turns" : privilègient un seul type de discours en obscurcissant par exemple les discours coopératifs les "back-channel" les "actes" constitutifs de lanalyse de discours 7/55
  8. 8. Les objectifs dune transcriptionDistinguo la transciption lisible la transcription en vue dun traitementavec emphase respectivement sur le message ... analyse historique ou sociale... le medium ... analyse linguistique 8/55
  9. 9. Combien de formats standardisés faut-il dans le monde ? WKWBFY un seul : solution centralisée NWEUMP aucun : solution anarchiste FTH autant quil en arrive : solution laissez-faire 9/55
  10. 10. Les normes ne simposent pas dans la vie intellectuelle soit elles émergent dun besoin de le communauté soit leur usage dérive de la nécessité dutiliser une technologie particulière mais on ne renonce pas volontièrement à son indépendance ! 10/55
  11. 11. Standards : un paysage complexeAgences officielles de standardisation nationales : AFNOR, ANSI, BSI, DIN ; internationales : ISO, IEC, W3C, OASIS, TEI ...Regroupements des Personnes Interessées Plusieurs... par exemple LISA (Localisation Industry Standards Association) MPEG (Moving Pictures Expert Group)Projets ayant des enjeux pré-normatifs En Europe seul, on peut noter EAGLES, Multext, MATE, ISLE...Infrastructures de recherche Internationales : Bamboo, DARIAH, CLARIN ; Françaises : Corpus-IR, Adonis 11/55
  12. 12. Standards : on peut sen passer?Pour les scientifiques, les standards pourraient constituer uninconvénient : ils figent un état de la connaissance leur production est chronophage ... et nécessite des compétences sociales.quand même il y a des "plus" quil faut souligner. ... . . 12/55
  13. 13. Quelques besoins scientifiques ... 1 Comment sur le web identifier et retrouver des ressources numériques ayant un intérêt linguistique ? ... 2 Comment valider les résultats scientifiques obtenus par dautres personnes ? ... 3 Comment enrichir ou intégrer les ressources existantes avec ses propres idées ? ... 4 Comment séparer les ressources des outils qui les gèrent/analysent ?.Pour tout cela, les standards restent essentiels. ... . . 13/55
  14. 14. Quelques besoins techniques ... 1 possibilité de recombiner ou de réutiliser les systèmes existants ... 2 évolution modulaire des logiciels ... 3 réduction des coûts de formation ... 4 existence de ‘frequently answered questions’ — des solutions qui sappliquent dans plusieurs domaines.Les standards offrent ces possibilités !. ... . . 14/55
  15. 15. Est-ce quon peut arriver à normaliser la transcription ? ‘No transcript is completely theory-neutral or without bias.’ (Edwards, 1991) — Mais elle parle plutôt de la manière de visualiser la transcription, non pas de sa structuration. To code morphology and syntax, dozens of coding systems have been devised and none has yet emerged as standard, since the underlying theory in these areas continues to change. Similarly, in areas such as speech act analysis or intentional analysis, there are many detailed systems for coding, but no single standard. (MacWhinney, 2001) 15/55
  16. 16. Est-ce quon peut arriver à normaliser la transcription ? ... there is, to date, no widely dominant method, let alone a real standard, for doing spoken language transcription. However, with the advent of digital research infrastructures, in which corpora from different sources can be combined and processed together, the need for such a standard becomes more and more obvious. (Schmidt 2011) 16/55
  17. 17. Influence des outils sur la modélisation de loralOutils de transcription les plus répandus : Anvil, CHAT, ELAN, EXMARaLDa, FOLKER, Praat, Transcriber...Schmidt (2011) note que tous ces systèmes proposent un modèlecommun, une simplification dune annotation graph (Bird &Liberman, 2002) loral existe dans le temps : donc chaque morceau transcrit est associé à un point de départ et à une fin ces triplets sont regroupables en ‘tiers’ (couches) une couche peut être associée à un locuteur, et/ou à un type 17/55
  18. 18. EXMARaLDA, par exempleEXMARaLDA: “Extensible Markup Language for DiscourseAnnotation” http://www.exmaralda.org/ 18/55
  19. 19. Format interne EXMARaLDA.<common-timeline> . <tli id="T0" time="0.0"/> <tli id="T1" time="1.309974117691172"/> <tli id="T2" time="1.899962460773455"/> <tli id="T3" time="2.3399537674788866"/> ....</common-timeline><tier id="TIE0" speaker="SPK0" category="v" type="t" display-name="PRE[v]"> <event start="T2" end="T3">Good evening. </event> <event start="T5" end="T6">I have with me tonight Ann Elk Mistress AnnElk. </event>.</tier>.. . . 19/55
  20. 20. Voices of the Holocaust.<div xml:lang="de"> . <u who="#boderD" start="127.732" end="x">[In German] Also, sagen Siemir, wie lautet Ihr Name, Frau Button?</u> <u who="#buttonE" start="132.669" end="x">Deutsch sprechen?</u> <u who="#boderD" start="135.403" end="x">Auf Deutsch.</u> <u who="#buttonE" start="137.122" end="x">Ich heiße Eda Button. Ich war deportiert von Athen im, äh, April 44.</u> <u who="#boderD" start="137.122" end="x">Und nach wo wurden sie deportiert?</u> <u who="#buttonE" start="146.903" end="x">Ich war deportiert in äh Bergen-Belsen.</u> <u who="#boderD" start="149.496" end="x">Ja. Also, sagen Sie mal, äh, woist Ihr Mann?</u> <u who="#buttonE" start="153.090" end="x">Mein Mann ist, äh, weggelau-war, äh, in, äh, Palästina, in Tel Aviv.</u>.</div>.. . . 20/55
  21. 21. IFA Dialog Video corpus.<TIME_ORDER> . <TIME_SLOT TIME_SLOT_ID="ts1" TIME_VALUE="0"/> <TIME_SLOT TIME_SLOT_ID="ts2" TIME_VALUE="10"/> <TIME_SLOT TIME_SLOT_ID="ts3" TIME_VALUE="462"/> <TIME_SLOT TIME_SLOT_ID="ts4" TIME_VALUE="840"/> ...</TIME_ORDER><ANNOTATION> <ALIGNABLE_ANNOTATION ANNOTA-TION_ID="a1" TIME_SLOT_REF1="ts4" TIME_SLOT_REF2="ts7"> <ANNOTATION_VALUE>beginnen we weer opnieuw?</ANNOTATION_VALUE> </ALIGNABLE_ANNOTATION>.</ANNOTATION>.. . . 21/55
  22. 22. Transcriber.<Turn speaker="spk2" startTime="0.557" endTime="5.851"> . <Sync time="0.557"/> so what do you know of your family ’s<Sync time="2.255"/> history like <Sync time="3.410"/> do you know when andwhy they came to Oxford.</Turn>.. . . 22/55
  23. 23. Au niveau de la transcription...Même jeu: plusieurs conventions de transcription pour les objetscommuns : HIAT ((coughs)) You must/ you (should) let • it be. ((laughs)) Pleease! GAT ((coughs)) you must- you (should/could) let (-) it be; ((laughs)) plea:se- CHAT &=coughs you must... you should let # it be. &=laughs please! DT1 (COUGH) you must-- you <X should X> let .. it be. @@ please? cGAT ((coughs)) you must you (should/could) let (-) it be ((laughs)) please(Table from Schmidt 2011) 23/55
  24. 24. Une version TEI XML.<u> . <kinesic> <desc>coughs</desc> </kinesic>you must you should let <pause/> it be <vocal> <desc>laughs</desc> </vocal>please.</u>.. . . 24/55
  25. 25. Une autre version TEI XML.<u who="#locuteur" sync="#T234"> . <seg type="interrupted"> <kinesic> <desc>coughs</desc> </kinesic> <w>you</w> <w>must</w> </seg> <seg type="declarative"> <w>you</w> <w>should</w> <w>let</w> <pause dur="short"/> <w>it</w> <w>be</w> </seg> <seg type="emphatic"> <vocal> <desc>laughs</desc> </vocal> <w>please</w> </seg>.</u>.. . . 25/55
  26. 26. Le modèle TEI de loralCe modèle reconnaît plusieurs phénomènes de discours : des énoncés (utterances) de point de vue lexical des pauses des phénomènes vocalisés mais pas lexicalisés, par exemple la toux, des quasi-mots comme "hein", "uh" etc. des phénomènes kinésiques (non vocalisés, non lexicaux, mais servant à communiquer) notamment les gestes des événements entièrement non linguistiques, mais ayant un effet sur le discours, par exemple un camion qui passe etc. des événements écrits par exemple des titres ou des diapositives affichés pendant une communication des changements dans la qualité de la voix, par exemple le volume... contrairement aux textes écrits, un texte oral est organisé dans le .temps... . . 26/55
  27. 27. En résumé... 27/55
  28. 28. A complèter avecstructuration et segmentation des énoncésmécanismes dalignement temporairereprésentation et intégration des métadonnées 28/55
  29. 29. Propositions du module spokenDes éléments pour la transcription de l’oral <incident>, <kinesic>, <pause>,<shift>, <u>, <vocal>, <writing>Des mécanismes pour représenter le déroulement dans le temps <timeLine>, @dur @start @end @syncDes éléments supplémentaires dans l’en-tête <broadcast>, <equipment>, <recording>, <recordingStmt>, <scriptStmt> 29/55
  30. 30. . Par exemple...<u who="#Jan">mmm delicieux</u> .<incident> <desc>téléphone sonne</desc></incident><u who="#Kim">j’y vais</u><u who="#Tom">ya longtemps <vocal> <desc>tousse</desc> </vocal> jnefume plus</u><u who="#Bob"> <vocal> <desc>sniffs</desc> </vocal>il se croit dur</u><vocal who="#Ann"> <desc>grognement</desc></vocal><u who="#Tom">oueh <kinesic> <desc> fait un geste avec le doigt </desc> </kinesic></u><u who="#Bob">donc j’aurais dû <vocal who="#Ann"> <desc>faisant tss-tss</desc>. </vocal> faire quoi</u>.. . . 30/55
  31. 31. Le concept d’"énoncé" une séquence de discours d’un seul locuteur peut être regroupé dans des sections <div> peut être fragmenté dans des segments <seg> ou <s> l’attribut @who sert à indiquer le locuteur.Chevauchement des énoncés ... pour plus tard .... ... . . 31/55
  32. 32. On peut profiter de lexistence d’autres éléments pertinents de la TEINotamment : <emph> for linguistic emphasis ....<u who="#mar">no <emph>mine</emph> isnt old .mine is just um a little dirty</u>... . . <foreign> for language shift ....<u>eh ben peu à peu il devient <foreign xml:lang="de">eine Sache</foreign> ..</u>.. . . <sic>, <corr>, <reg> pour les gestes éditoriaux....<u who="#mar">how <reg>about</reg> your cat <pause/> .</u><u who="#mar">how <sic>bout</sic> your cat <pause/>.</u>.. . . 32/55
  33. 33. ... (contd) <unclear> pour les incertitudes.ressemble aux disques <unclear>skeuzi</unclear>. ... . . <gap> pour les lacunes.<u>ensuite il disait <gap type="non-transcrit"> . <desc>longue déclaration en basque</desc> </gap></u><u>merci beaucoup <gap type="non-enregistre"> <desc>linvité joue du piano</desc> </gap>.</u>.. . . <choice> pour les choix.... you <choice> . <seg>should</seg> <seg>could</seg></choice> let ...... . .(et bien sûr pour les métadonnées...) 33/55
  34. 34. Changements de voix (1)On peut se servir de la balise <shift>, une espèce de <milestone>,pour indiquer les frontières....<u who="#LB"> . <shift feature="volume" new="f"/>Elizabeth</u><u who="#EB">Yes</u><u who="#LB"> <shift feature="volume"/>Come and try this <pause/> <shift feature="volume" new="ff"/>come on<shift feature="code" new="fr-mru"/> tin va!</u>.<!-- ... -->.. . . 34/55
  35. 35. Changements de voix (2)On peut également se servir déléments plus spécifiques, ou de<seg> typés :.<u who="#LB"> . <seg type="loud" subtype="f">Elizabeth</seg></u><u who="#EB">Yes</u><u who="#LB">Come and try this <pause/> <seg type="loud" subtype="ff">come on <foreign xml:lang="fr-mru">tin va</foreign> </seg></u><listPerson type="speakers"> <person xml:id="LB"><!-- description de la personne LB --> </person> <person xml:id="EB"><!-- description de la personne EB --> </person>.</listPerson>.. . . 35/55
  36. 36. Liste non exhaustive de caractéristiques prosodiques en prose (basée sur Boase, Survey of English Usage, 1990) tempo rapide, lent, de plus en plus rapide, de plus en plus lent, etc. volume fort, faible, de plus en plus fort, de plus en plus faible hauteur aigu, grave,... tension lié, tendu, staccato, legato... rythme régulier, irrégulier... qualité de murmures, voix enrouée, voix de fausset, gloussements, san- la voix glots, bâillements, soupirs... . Les chercheurs ont besoin de définir/choisir leur propre . terminologie selon les besoins de leur projet . .. . . 36/55
  37. 37. Mélange de loral et de lécrit.<u who="#a">écoutez <shift new="reading"/>Matignon se déclare .confiant que les problèmes financiers actuels serontentièrement maîtrisés fin juin<shift/> mon cul</u>... . .Ou bien :.<u who="#a">écoutez .<incident> <desc>lit à haute voix du journal</desc>. </incident>mon cul</u>.. . . 37/55
  38. 38. <writing> exemple.<u who="#a">regardez ceci</u> .<writing who="#a" type="newspaper" gradual="false">Matignon se déclare<soCalled>confiant de maîtriser</soCalled> les problèmes financiers actuels</writing>. who="#a">mon cul!</u><u.. . . 38/55
  39. 39. Questions relatives à la temporalitépour les pauses : élément <pause>pour la durée : attribut @dursynchronisation : attribut @synchchevauchement : attribut @trans 39/55
  40. 40. <pause> : exemple.<u>Okay <pause dur="PT2M"/>U-m<pause dur="PT75S"/>la scène ouvre .<pause dur="PT50S"/> avec <pause dur="PT20S"/> um <pause dur="PT145S"/>on. voit un arbre okay?</u>.. . . 40/55
  41. 41. ChevauchementApproche minimale :Jules: vous avez entendu les - -Jim: les résultats?Jules: quel désastre !Jim: (en même temps) quel miracle!.<u who="#jules">vous avez entendu les</u> .<u trans="latching" who="#jim">les résultats</u><u who="#jules">quel désastre</u><u. who="#jim" trans="overlap">quel miracle </u>.. . . 41/55
  42. 42. Synchronisation 1Lattribut @synch indique un point ou un empan synchronisé aveclélément qui le porte :.<u who="#jules">vous avez entendu <anchor xml:id="T1"/>les</u> .<u synch="#T1" who="#jim">les résultats</u><u who="#jules" xml:id="T2">quel désastre</u><u. who="#jim" synch="#T2">quel miracle </u>.. . .Les attributs @start et @end permettent un peu plus de précision :.<u who="#jules" end="#T2">vous avez entendu <anchor xml:id="T1"/> les</u> .<u start="#T1" who="#jim">les <anchor xml:id="T2"/> résultats</u>... . . 42/55
  43. 43. AlignementLe cas typique : un enregistrement identifié par un flux temporel,avec lequel on veut aligner une (ou plusieurs) transcriptions.Lélément <timeline> représente un flux temporel, regroupantplusieurs <when>, un pour chaque moment identifiable.Un <when> peut être absolu :.<timeline corresp="fichier.wav" units="ms"> . <when xml:id="t0" absolute="00001728281"/> <when xml:id="t1" absolute="00001728285"/> <when xml:id="t2" absolute="00001728302"/>.</timeline>.. . .ou relatif :.<timeline xml:id="TL01" unit="ms"> . <when xml:id="TL-w0" absolute="11:30:00"/> <when xml:id="TL-w1" interval="unknown" since="#TL-w0"/> <when xml:id="TL-w2" interval="100" since="#TL-w1"/> <when xml:id="TL-w3" interval="200" since="#TL-w2"/><!-- ... -->.</timeline>.. . . 43/55
  44. 44. Usage de <timeline>Cela permet lalignement de plusieurs moments synchronisés :.<timeline unit="s" origin="#TS-P1"> . <when xml:id="TS-P1" absolute="12:20:01"/> <when xml:id="TS-P2" interval="4:05" since="#TS-P1"/> <when xml:id="TS-P3" absolute="12:20:10"/></timeline><!-- ... --><u who="#jules" xml:id="TS-U1" start="#TS-P1" end="#TS-P3">vous avez entendu <anchor sync="#TS-P2"/> les</u><u. who="#jim" start="#TS-P2">les résultats</u>.. . ..NB un <when> représente un instant, et non pas un empan. ... . . 44/55
  45. 45. Description des participantsPeut être purement documentaire et informelle :.<particDesc> . <listPerson> <person xml:id="P-1234" sex="2" age="mid"> <p>informateur, sexe féminin, bonne éducation, née à Shropshire UK, 12 Jan 1950, commerçante parle français couramment. Statut socio-économique (SSE) : commerçante.</p> </person> </listPerson></particDesc><!-- ... -->. who="#P-1234"> Et avec cela? </u><u.. . . 45/55
  46. 46. Ou bien ...Pour les entités nommés (personnes, lieux, organisations), ondispose dune large gamme déléments spécifiques etgénériques représentant les états, traits, évenements, etrelations entre ces entités.Toutes ces informations sont datables, exactement ouapproximativement, au moyen de leurs attributs.La liaison entre ces descriptions et les énoncés (typiquementlidentifiant du locuteur) permet de rechercher les énoncésregroupés par attributs du locuteur, par exemple : sexe, classesociale, etc. 46/55
  47. 47. Description des participants.<listPerson> . <person xml:id="jules" sex="1"> <persName>Jules</persName> <age value="4"/> <birth when="1970-02-12"/> <nationality key="FR">French</nationality> <residence notBefore="2000-10-01"> <country>France</country> <settlement>Lyon</settlement> </residence> <langKnowledge> <langKnown level="first" tag="fr">French mother tongue</langKnown> <langKnown level="other" tag="en">Fluent English</langKnown> </langKnowledge> <occupation ref="http://classement.fr/#xyz">cheminot</occupation> <education level="superior">DEA Ingenerie</education> </person>.</listPerson>.. . . 47/55
  48. 48. Description des enregistrements 1Plusieurs possibilités....<recordingStmt> . <recording type="audio" dur="P10M" corresp="fichier.wav"> <equipment> <p>Enregistreur numérique avec connexion USB et 512 Mo de mémoireintégrée</p> </equipment> </recording> <recording type="video" dur="P7M" corresp="http://youtube.com/fichier"/></recordingStmt>... . .Des éléments plus spécifiques, membres de la classemodel.recordingPart, sont également disponibles... 48/55
  49. 49. Description des enregistrements 2Par exemple....<recordingStmt> . <recording> <broadcast> <bibl> <title>Questions sur la souffrance et la santé au travail :pénibilité, stress, dépression, harcèlement, maladies etaccidents...</title> <author>France Inter</author> <respStmt> <resp>Présentateur</resp> <name>Alain Bédouet</name> </respStmt> <respStmt> <resp>Personne interrogée</resp> <name> Marie Pezé</name> </respStmt> <note>Marie Pesé est Docteur en psychologie, psychanalyste, expertjudiciaire ; dirige la consultation « souffrance et travail » à l’Hôpitalde Nanterre (92), auteure de <title>ils ne mourraient pas tous mais tousétaient frappés</title>, Editions Pearson.</note> <series> <title>Le Téléphone sonne</title> </series> <note>Première diffusion le <date when="2008-09-24">mercredi 24 49/55
  50. 50. ... et pour le contexte.<setting xml:id="KDFSE002" n="063505" who="#PS0M6"> . <name type="place">Lancashire: Morecambe </name> <locale> at home </locale> <activity> watching television </activity></setting>... . . 50/55
  51. 51. En résumé ...démarche La TEI met à disposition une gamme de propositions pour lencodage de la transcription de loral, sa structuration et sa descriptionavantages La TEI propose également des outils aisément accessibles et génériques, dans un cadre modifiable, souple, et complet ; de plus cest un standard pluridisciplinaire et issu de la communauté défis besoins très spécialisés requérant des outils spécialisés ; lacunes éventuelles dans le modèle TEI 51/55
  52. 52. Pourquoi sintéresser toujours à la TEI ?Deux raisons pour lesquelles les standards échouent : ils sont basés sur une théorie pas encore assez mûre "not invented here": la communauté envisagée est trop diverse ou fragmentée 52/55
  53. 53. Comment faire mûrir une théorie?Dans son TEI ODD, on peut : limiter les valeurs possibles dun attribut plus ou moins strictement proposer des règles "schematron" sur le contenu enlever quelques éléments facultatifs ajouter de nouveaux éléments, labellisés dans son propre espace de noms.Donc on peut évoluer et tester sa théorie, en restant toujours ."TEI-conforme".... . . 53/55
  54. 54. Lévolution darwinienne, ça marche...faites vos modifications dans votre espace de nomsdocumentez-les dans un ODDfaites discuter vos propositions sur la liste TEI-L, ou dans un SIGà lissue de cette discussion, proposez des modifications auConseil Scientifique de la TEI, en faisant un "feature request"sur sourceforgeil y a une nouvelle version de TEI P5 deux fois par an... 54/55
  55. 55. Pour en savoir plus http://www.tei-c.org http://tei.sf.net http://listserv.brown.edu/archives/cgi-bin/wa?SUBED1= tei-l&A=1Plus, quelques références francophones : tei-fr@cru.fr http://meet.tge-adonis.fr http://lespetitescases.net/index102/ http://www.culture.gouv.fr/culture/dglf/riofi/tei.htm http://artist.inist.fr/article.php3?id_article=122"/> 55/55

×