Mais enfin, pourquoi faire un “corpus    de référence” en 2012?                                     Lou Burnard           ...
On peut se servir dun corpus deplusieures manières • De manière exploratoire ou investigative   – par ex dans une domaine ...
Corpus ???             3
Comment retrouver le sens dunmot que lon ignore? 1.Appliquer un algorithme 2.Demander aux autorités 3.Regarder son usage  ...
1. Application dun algorithme • Corpus → “corpu” +s • Corpus → “corp” + “us” • “corpuses” • ...                           ...
2. Demande aux autorités 3. A body or complete collection of writings or the like; the whole body of literature on any sub...
2. Demande aux autorites                           7
3. Un survol des usages ...subject. 1727-51 Chambers Cycl. s.v., Corpus is also used in matters of learning, for sd, and b...
… et un autre ...                          FLY 49                          GT9 0                        • F98 104         ...
… et encore un                 10
Variétés denjeux • Une dictionnaire représente ce qui   est remarquable • Un corpus représente ce qui est   typique       ...
“language”                  abstractionLanguage In Use                  selection   texte
texte            encodagemodèleabstraite             corpus            numérique            analyses
Etapes de construction de corpus  • Conceptiono    – Séléction des textes    – Identification des traits signifiants  • Ex...
La question de taille                       There’s no data like more data                                          (Marcu...
Principes de moissonage • La langue est infini : le corpus en principe   est dune taille fixe • mais un corpus peut préten...
Principes de sélection • programme de recherche • traits structuraux • traits interprétatifs • traits contextuels         ...
Quest-ce quun texte? • une image • des mots • des informations structurées                    ou tous les trois ?         ...
Caractéristiques des textes • Un texte ou document est à la fois un objet   linguistique, donc abstrait, et un objet physi...
Tout texte ressort dun contexteparticulier ... • Quels agents de responsabilité intellectuel ? • Quel publique est visé ou...
Identification et sélection des traitstextuels • Une procédure iterative et scientifique • aka (également connu sous)   do...
Variétés dannotation  • Annotation de structure    – Textes, paragraphes, énoncés,      phrases, mots  • Annotation lingui...
En sommaire • Un corpus linguistique est un recueil de   textes non aléatoire • Issu dun procédure déchantillonage   effec...
Cas détude : le British NationalCorpus • Un “snapshot” (photo instantanée) de langlais   britannique à la fin du 20ème sie...
Doù est venu le BNC ?• Un consortium de scientifiques et  éditeurs lexicographiques  – OUP, Longman, Chambers  – OUCS, UCR...
Courants intellectuels des années1990  • Un monde sans web!  • Deux traditions de linguistique de corpus     – ICAME, Lanc...
Buts déclarés du projet• Un corpus synchronique (1990-4)  déchantillons à la fois oraux et écrits  de toute la variété de ...
Buts véritables (?) du projet • Amélioration des dictionnaires ELT   – Questions The BNC looks back to Brown and LOB in   ...
La machine à saucisses BNC   Written              Spoken                                               Sélection, droits, ...
Conception “Non-opportunistique”• But: le fair play envers toute la variete des voix  constitutives de langlais du RU c. 1...
Groupes de travail  •   Permissions (questions juridiques)  •   selection, design criteria  •   encoding and markup  •   e...
Through-put (million mots/trimestre)     35     30     25     20                                    Received              ...
Tensions  • desir de tester annotation scheme  • requirement to meet deliverables    – slipping goal posts    – quantity a...
That famous BNC balance BNC-W                                                     78731276             5997489            ...
Written Domains                                          16612770BNC-2   11630083                                         ...
Spoken domains                             1639159                                                   12859384214819       ...
Structure du BNC               bnc   teiHeader         bncdoc                      bncdoc            4054                 ...
BNC structure   text                                      stext   div 1                                     div div     di...
Annotation POS  • Approche classique CLAWS (Leech,    Garside et al)  • Quest-ce quun mot?    This isnt prima facie obviou...
Representation de lannotation<s n="00011"> Queen_NP0‘s_POS 00011 The_AT0 <w ana="AT0">The</w> horribilis_XX   real_AJ0 ann...
Pour BNC-XML, on a reclassifié lestextes                     Academic                     Literary                     Pre...
Textes orales : echantillonsdémographiques Enregistrés par 124 personnes recrutées • Nombres equivalents de males et de fe...
Observer effect?                   43
BNC XML structuration dedocument  <bncDoc>   <teiHeader>     Entete : toutes les métadonnées   </teiHeader>   <wtext> ou <...
<teiHeader> <fileDesc><titleStmt><title>[ACET factsheets & newsletters]. Sample containing about 6688 words of miscellanea...
<wtext type="NONAC"><div level="1" n="1" type="leaflet"> <head type="MAIN"><s n="1"><w c5="NN1" hw="factsheet" pos="SUBST"...
A quoi ça sert tous ces chevrons? • Ils vous permettent de faire des   distinctions très importantes    – aids=SUBST vs ai...
48
49
50
51
52
BNC est devenu malgré soi un bestseller • 1995 Version 1.0 : ~1500 exemplaires sur 4   CDs,uniquement pour serveur Unix • ...
Après-BNC • Phénoménon curieux dans plusieurs pays european :   construction des “national corpus” pareils • Les éditeurs ...
Langlais des années 90 restera-t-iltoujours dinterêt?     Evolution des média         e-mail         Pages web        ...
Le corpus littéraire : origines • Project Gutenberg et beacoup dautres pareils   ont demontre la possibilite et linteret d...
Le corpus littéraire : maintenant    Commercialisation devenue effective avec lexistence du  •    standard eBook standard,...
Lapplication des corpus enapprentissage de langues...  – complète (et corrige) les intuitions  – encourage lautonomie de l...
Lusage du Web comme corpus • En effet le web est un corpus   – “a corpus is a collection of texts when     considered as a...
Création des corpus à partir du web 1) Selectionner 500 termes qui sont typique du  langage ciblé 2) Générer 5,000-8,000 r...
http://sarcophagus.sslmit.unibo.it/                               61
Corpus distribués • La promesse de l “eScience”, “grid computing” etc.   – Séparation et distribution des ressources et de...
Visions of the future                        63
Prochain SlideShare
Chargement dans…5
×

Mais enfin, pourquoi faire un “corpus de référence” en 2012?

1 450 vues

Publié le

Invited presentation (in French) on the appropriateness or otherwise of producing a French reference corpus analogous to the British National Corpus

Publié dans : Technologie
0 commentaire
0 j’aime
Statistiques
Remarques
  • Soyez le premier à commenter

  • Soyez le premier à aimer ceci

Aucun téléchargement
Vues
Nombre de vues
1 450
Sur SlideShare
0
Issues des intégrations
0
Intégrations
2
Actions
Partages
0
Téléchargements
3
Commentaires
0
J’aime
0
Intégrations 0
Aucune incorporation

Aucune remarque pour cette diapositive
  • 21 21
  • Mais enfin, pourquoi faire un “corpus de référence” en 2012?

    1. 1. Mais enfin, pourquoi faire un “corpus de référence” en 2012? Lou Burnard lou.burnard@tge-adonis.frInitiative corpus de référencedu francais, Paris, 2012
    2. 2. On peut se servir dun corpus deplusieures manières • De manière exploratoire ou investigative – par ex dans une domaine médico-légale • De manière comparative – Comparaisons des langues, registres, etc. • De manière evaluative – Pour créer et/ou tester des hypothèses sur les normes linguistiques Ou tout bêtement pour retrouver des mots... 2
    3. 3. Corpus ??? 3
    4. 4. Comment retrouver le sens dunmot que lon ignore? 1.Appliquer un algorithme 2.Demander aux autorités 3.Regarder son usage 4
    5. 5. 1. Application dun algorithme • Corpus → “corpu” +s • Corpus → “corp” + “us” • “corpuses” • ... 5
    6. 6. 2. Demande aux autorités 3. A body or complete collection of writings or the like; the whole body of literature on any subject. ... 4.The body of written or spoken material upon which a linguistic analysis is based… (OED, 1993) “a collection of pieces of language, selected and ordered according to explicit linguistic criteria in order to be used as a sample of the language” (Sinclair, 1994) 6
    7. 7. 2. Demande aux autorites 7
    8. 8. 3. Un survol des usages ...subject. 1727-51 Chambers Cycl. s.v., Corpus is also used in matters of learning, for sd, and bound together.. We have also a corpus of the Greek poets.. The corpus of the cialso a corpus of the Greek poets.. The corpus of the civil law is composed of the diges16 Bound up inseparably with the whole corpus of Christian tradition. 4. The body of wre informant.. and in particular upon a corpus of material, of which a large proportial objection one may make against the `corpus method is that two investigators operatilore the possibilities and problems of corpus-based research by reference to first-h incurred they ought to be paid out of corpus and not out of income. phr. corpus delic of corpus and not out of income. phr. corpus delicti (see quot. 1832); also, in lay u , esp. the body of a murdered person. corpus juris: a body of law; esp. the body of Rom; esp. the body of Roman or civil law (corpus juris civilis). 1891 Fortn. Rev. Sept.ev. Sept. 338 The translation.. of the Corpus Juris into French. 1922 Joyce Ulysseso.) We have here damning evidence, the corpus delicti, my lord, a specimen of my maturer, dam and hollow log in search of the corpus delicti, found some important evidence important evidence in a fallen tree. corpus vile Pl. corpora vilia Orig. in phr. (se ugh who would submit to serve as the corpus vile for their charitable treatment. 1953 E 8
    9. 9. … et un autre ... FLY 49 GT9 0 • F98 104 • F98 135 • H47 6 • F98 56 • J2H 0 • F98 100 • KCN 22 • F98 54 • F98 112 • • • 9
    10. 10. … et encore un 10
    11. 11. Variétés denjeux • Une dictionnaire représente ce qui est remarquable • Un corpus représente ce qui est typique On ne peut rien dire sur le remarquable, sans connaissance du typique 11
    12. 12. “language” abstractionLanguage In Use selection texte
    13. 13. texte encodagemodèleabstraite corpus numérique analyses
    14. 14. Etapes de construction de corpus • Conceptiono – Séléction des textes – Identification des traits signifiants • Exécution – Saisie des données (représentation textuel) – Encodage (représentation conceptuel) • Validation ou modification du dessin 14
    15. 15. La question de taille There’s no data like more data (Marcus, 1994) • De point de vue lexicale un corpus ne peux jamais être trop petit • De point de vue littéraire la taille dun corpus est prédéfini 15
    16. 16. Principes de moissonage • La langue est infini : le corpus en principe est dune taille fixe • mais un corpus peut prétendre représenter / être représentatif – production vs. reception – stratified sampling • Nota : un corpus peut servir de référence sans forcément être représentatif 16
    17. 17. Principes de sélection • programme de recherche • traits structuraux • traits interprétatifs • traits contextuels 17
    18. 18. Quest-ce quun texte? • une image • des mots • des informations structurées ou tous les trois ? ou tous les trois ? 18
    19. 19. Caractéristiques des textes • Un texte ou document est à la fois un objet linguistique, donc abstrait, et un objet physique • On peut le structurer de plusieures manières (linéaires, hiérarchiques, intertextuelles) • Un texte est un objet culturel issu dun contexte spécifique dont on ne peut pas le séparer 19
    20. 20. Tout texte ressort dun contexteparticulier ... • Quels agents de responsabilité intellectuel ? • Quel publique est visé ou obtenu ? • Quel est lobjet de cette communication ? • Quels autres textes partagent ces attributs ? 20
    21. 21. Identification et sélection des traitstextuels • Une procédure iterative et scientifique • aka (également connu sous) document analysis • Il ny a pas de vérité unique … quand même on peut identifier des avis consensuels cf TEI 21
    22. 22. Variétés dannotation • Annotation de structure – Textes, paragraphes, énoncés, phrases, mots • Annotation linguistique – Morphosyntaxe, fonction syntactique • Metadonnées – Text-type, contexte ... 22
    23. 23. En sommaire • Un corpus linguistique est un recueil de textes non aléatoire • Issu dun procédure déchantillonage effectué selon des principes explicites • Il incarne ainsi un modèle théorique sur ce quest que le langage • ce modèle est explicité par lencodage ou balisage du corpus Nota : il y a dautres avis ... 23
    24. 24. Cas détude : le British NationalCorpus • Un “snapshot” (photo instantanée) de langlais britannique à la fin du 20ème siecle • 100 million mots en c. 4000 échantillons, y compris loral (10% par volume) • Dessin “non-opportunistic” (non aléatoire) • Toujours disponible – version dernière BNC-XML (13 mars 2007) • http://www.natcorp.ox.ac.uk 24
    25. 25. Doù est venu le BNC ?• Un consortium de scientifiques et éditeurs lexicographiques – OUP, Longman, Chambers – OUCS, UCREL, BL R&D• Avec un financement important du gouvernement britannique 1990-1994• Destiné aux communautés scientifiques – Chercheurs en lexicographie, TAL, etc. 25
    26. 26. Courants intellectuels des années1990 • Un monde sans web! • Deux traditions de linguistique de corpus – ICAME, Lancaster Oslo Bergen – COBUILD • Théorie naissante de text encoding • Naissance des industries de langue au niveau européen • AI -> NLP • Coopérations académiques et industrielles 26
    27. 27. Buts déclarés du projet• Un corpus synchronique (1990-4) déchantillons à la fois oraux et écrits de toute la variété de production de langlais britannique• Dune conception opportuniste et dapplication générale• Avec annotation POS• Et plein des métadonnées 27
    28. 28. Buts véritables (?) du projet • Amélioration des dictionnaires ELT – Questions The BNC looks back to Brown and LOB in dautorité – Respect pour loralemarkup, and forward to the its design and Web in its scope and indeterminacy • Un modèle nouveau pour la recherche au niveau européen – Conception et encodqge des corpus – Co-operation industriel-scientifique • Un REALLY BIG corpus – production de textes numeriques à léchelle industrielle 28
    29. 29. La machine à saucisses BNC Written Spoken Sélection, droits, saisie OUP(OUP/Chambers (Longman) ) Enrichissement et encodage Initial CDIF Conversion and Validation Word Class Annotation (OUCS) (UCREL) Header generation and final validation (OUCS) Documentation, distribution, maintenance 29
    30. 30. Conception “Non-opportunistique”• But: le fair play envers toute la variete des voix constitutives de langlais du RU c. 1995• 90% écrit, 10% oral (pour des raisons économiques)• Critères de sélection prédéfinis – Pour lécrit : domaine (topos); médium; time – Pour loral : demographic balance; context• Critères supplé,entaires de description pour maximer la variation 30
    31. 31. Groupes de travail • Permissions (questions juridiques) • selection, design criteria • encoding and markup • enrichment and annotation • retrieval software 31
    32. 32. Through-put (million mots/trimestre) 35 30 25 20 Received Validated 15 Annotated 10 5 0 6 7 8 9 10 11 12 13 14 32
    33. 33. Tensions • desir de tester annotation scheme • requirement to meet deliverables – slipping goal posts – quantity above quality • … an interesting learning experience for both sides! 33
    34. 34. That famous BNC balance BNC-W 78731276 5997489 8021274 8743604 Spoken Demographic Spoken Context Governed Books and Periodicals Other written 34
    35. 35. Written Domains 16612770BNC-2 11630083 3798318 3093407 7242024 13496137 7327671 7493077 16781393 Imaginative Scientific Social Science Applied Science World Affairs Commerce Arts Belief Leisure 35
    36. 36. Spoken domains 1639159 12859384214819 1652246 1565705 Educational Business Institutional Leisure Demographic 36
    37. 37. Structure du BNC bnc teiHeader bncdoc bncdoc 4054 bncDoc teiHeader text stext 910 37
    38. 38. BNC structure text stext div 1 div div div1 pp uu 784,981 pp uu ss ss ss s 6,052,202 wwwwwww 97,619,934 38
    39. 39. Annotation POS • Approche classique CLAWS (Leech, Garside et al) • Quest-ce quun mot? This isnt prima facie obvious, in spite of spelling conventions. • Quest-ce quun POS? NN1 NN2 NP1 NP2 TO0. . . 39
    40. 40. Representation de lannotation<s n="00011"> Queen_NP0‘s_POS 00011 The_AT0 <w ana="AT0">The</w> horribilis_XX real_AJ0 annus_NN1 <w ana="NP0">Queen</w> began_VVD on_PRP Sunday_NP0- <w ana="POS">‘s</w> NN1._PUN <w ana="AJ0">real</w> <s n=00011> <w ana="NN1">annus horribilis</w> <w AT0>The <w NP0>Queen<w POS>‘s <w ana="VVD">began</w> <w AJ0>real <w NN1>annus horribilis <w ana="PRP">on</w> <w VVD>began <w PRP> <w ana="NP0-NN1">Sunday</w> <w NP0-NN1>Sunday<c PUN>.</s> <c ana="PUN">.</c></s> 40
    41. 41. Pour BNC-XML, on a reclassifié lestextes Academic Literary Press Nonfiction Unpublished Conversation OtherSpolen ...sentences ...words 41
    42. 42. Textes orales : echantillonsdémographiques Enregistrés par 124 personnes recrutées • Nombres equivalents de males et de femelles sélectionnés pour age et classe sociale habitant 38 lieux differents è travers le RU • Charge denregistrer toutes leures conversations pendant trois journées • permissions obtenues après chaque conversation • age, sex, accent, occupation, relations notées si possible • Grand quantité dadolescents londoniens, later published as COLT 42
    43. 43. Observer effect? 43
    44. 44. BNC XML structuration dedocument <bncDoc> <teiHeader> Entete : toutes les métadonnées </teiHeader> <wtext> ou <stext> Texte </wtext> or </stext> </bncDoc> 44
    45. 45. <teiHeader> <fileDesc><titleStmt><title>[ACET factsheets & newsletters]. Sample containing about 6688 words of miscellanea (domain: social science)</title> <respStmt> <resp>Data capture and transcription</resp> <name>Oxford University Press</name> </respStmt> </titleStmt> <extent>6688 tokens; 6708 w­units; 423 s­units</extent> <publicationStmt><distributor>Distributed under licence by Oxford University Computing Services on behalf of the BNC Consortium.</distributor> <availability>This material is protected by international copyright laws and may not be copied or redistributed in any way. </availability> <idno type="bnc">A00</idno> </publicationStmt> <sourceDesc> <bibl> <title>[ACET factsheets & newsletters].</title>  <publisher>Aids Care Education & Training</publisher> <pubPlace>London </pubPlace><date value="1991­09">1991­09</date></bibl></sourceDesc></fileDesc><profileDesc><creation date="1991">1991­09</creation> <textClass> <catRef targets="WRI ALLTIM3 ALLAVA2 ALLTYP5 WRIAAG0 WRIAD0 WRIASE0 WRIATY2 WRIAUD3 WRIDOM4 WRILEV2 WRIMED3 WRIPP5 WRISAM5 WRISTA2 WRITAS3" /> <classCode scheme="DLEE">W nonAc: medicine</classCode> <keywords><term>Health</term> <term>Sex</term> </keywords> </textClass> </profileDesc> … </teiHeader> 45
    46. 46. <wtext type="NONAC"><div level="1" n="1" type="leaflet"> <head type="MAIN"><s n="1"><w c5="NN1" hw="factsheet" pos="SUBST">FACTSHEET</w> <w c5="DTQ" hw="what" pos="PRON">WHAT</w> <w c5="VBZ" hw="be" pos="VERB">IS</w> <w c5="NN1" hw="aids" pos="SUBST">AIDS</w><c c5="PUN">?</c> </s>  </head><p><s n="2"><hi rend="bo">  <w c5="NN1" hw="aids" pos="SUBST">AIDS</w> <c c5="PUL">(</c><w c5="VVN­AJ0" hw="acquire" pos="VERB">Acquired</w> <w c5="AJ0" hw="immune" pos="ADJ">Immune</w> <w c5="NN1" hw="deficiency" pos="SUBST">Deficiency</w> <w c5="NN1" hw="syndrome" pos="SUBST">Syndrome</w><c c5="PUR">)</c></hi> <w c5="VBZ" hw="be" pos="VERB">is</w> <w c5="AT0" hw="a" pos="ART">a</w>  <w c5="NN1" hw="condition" pos="SUBST">condition</w> <w c5="VVN" hw="cause" pos="VERB">caused</w> <w c5="PRP" hw="by" pos="PREP">by</w> <w c5="AT0" hw="a" pos="ART">a</w> <w c5="NN1" hw="virus" pos="SUBST">virus</w> <w c5="VVN" hw="call" pos="VERB">called</w> <w c5="NP0" hw="hiv" pos="SUBST">HIV</w> <c c5="PUL">(</c>   <w c5="AJ0­NN1" hw="human" pos="ADJ">Human</w> <w c5="NN1" hw="immuno" pos="SUBST">Immuno</w> <w c5="NN1" hw="deficiency" pos="SUBST">Deficiency</w> <w c5="NN1" hw="virus" pos="SUBST">Virus</w><c c5="PUR">)</c><c c5="PUN">.</c> </s> … </p>… </div></wtext> 46
    47. 47. A quoi ça sert tous ces chevrons? • Ils vous permettent de faire des distinctions très importantes – aids=SUBST vs aids=VERB – occurrences en lécrit vs occurrences en oral – occurrences au sein des titres vs occurrences au sein des paragraphes • Et didentifier des unités textuels à plusieurs niveaux  FACTSHEET WHAT IS AIDS? AIDS (Acquired Immune Deficiency Syndrome)  is a condition caused by a virus called HIV  (Human Immuno Deficiency Virus). 47
    48. 48. 48
    49. 49. 49
    50. 50. 50
    51. 51. 51
    52. 52. 52
    53. 53. BNC est devenu malgré soi un bestseller • 1995 Version 1.0 : ~1500 exemplaires sur 4 CDs,uniquement pour serveur Unix • 2000 Version “World” : ~5000 exemplaires sur 2 CDs, installable sur machine personnel • 2010 Version “BNC XML” : ~7000 copies (au moins) sur 2 DVD • Services OnLine plusieurs, toujours très utilisés 53
    54. 54. Après-BNC • Phénoménon curieux dans plusieurs pays european : construction des “national corpus” pareils • Les éditeurs de dictionnaires ont rapidement crée leurs propres corpus “in house” (monitor corpus) • Dans la societé, un évolution rapide de manières nouvelles dexpression linguistique • Application et évolution des “méthodes corpus” dans dautres disciplines – Notamment, dans lapprentissage des langues mais aussi aux humanités classiques • Les technologies dont les linguistes pensent se servir devient de plus en plus reconceptualisés dans une optique distribue. 54
    55. 55. Langlais des années 90 restera-t-iltoujours dinterêt?  Evolution des média  e-mail  Pages web  blogs  SMS  Twitter, facebook, personal networks  Lettres personalles  Evolution des topos  globalization  internet  Elvis  Word Perfect Le BNC devient un document historique; voire littéraire 55
    56. 56. Le corpus littéraire : origines • Project Gutenberg et beacoup dautres pareils ont demontre la possibilite et linteret de creer des corpus literaires pour le grand publique • Un modele economique base sur les efforts benevoles, en contraste avec – Les efforts de financement publiques tels Gallica – Les efforts des chercheurs scientifques tels TLG • Principes de conception : – Inclusion des “grands oeuvres” – Encodage minimale, principes editoriaux heterogenes 56
    57. 57. Le corpus littéraire : maintenant Commercialisation devenue effective avec lexistence du • standard eBook standard, et de tres lourdes investissements de la part de Apple et Amazon Google Books met a disposition du grand publique des • bibliotheques complete pas question (jusqua la) de numeriser les archives, les –manuscrits, les objets non imprimes Absence des outils de vulgarisation, ou de partage – Besoin de grand effort de correction, amelioration • Possibilités serieuses pour lapplication du crowd sourcing 57
    58. 58. Lapplication des corpus enapprentissage de langues... – complète (et corrige) les intuitions – encourage lautonomie de lappreneur – conteste le status du locuteur natif – transforme le role de lenseignant 58
    59. 59. Lusage du Web comme corpus • En effet le web est un corpus – “a corpus is a collection of texts when considered as an object of linguistic or literary study” (Kilgarrif & Grefenstette 2003) • Ou bien on peut le considérer comme une source de plusieurs corpus – http://wacky.sslmit.unibo.it/ 59
    60. 60. Création des corpus à partir du web 1) Selectionner 500 termes qui sont typique du langage ciblé 2) Générer 5,000-8,000 requêtes contenant chacune 4 mots choisis dans ces 500 termes 3) Envoyer ces requêtes à Google et retenir les 10 premiers URLS retournés 4) Post-traîtement non negligeable pour enlever les doublons le passepartout etc (Adapté de Sharoff, 2004) 60
    61. 61. http://sarcophagus.sslmit.unibo.it/ 61
    62. 62. Corpus distribués • La promesse de l “eScience”, “grid computing” etc. – Séparation et distribution des ressources et des outils • Procédure tres effective aux sciences dures mais ... • … nécessitant de grands efforts de cooperation et de standardisation • … donc implique lexistence dune infrastructure centralisé – CLARIN and DARIAH 62
    63. 63. Visions of the future 63

    ×