Mais enfin, pourquoi faire un “corpus    de référence” en 2012?                                     Lou Burnard           ...
On peut se servir dun corpus deplusieures manières De manière exploratoire ou investigative    par ex dans une domaine méd...
Corpus ???             3
Comment retrouver le sens dunmot que lon ignore? Appliquer un algorithme Demander aux autorités Regarder son usage        ...
1. Application dun algorithme Corpus → “corpu” +s Corpus → “corp” + “us” “corpuses” ...                                 5
2. Demande aux autorités dy of literature on any subject. ... 4.The body of written or spokeordered according to explicit ...
2. Demande aux autorites                           7
3. Un survol des usages ...subject. 1727-51 Chambers Cycl. s.v., Corpus is  also used in matters of learning, for sd, and ...
… et un autre ...                        FL                         t                         C                         l ...
… et encore un                 10
Variétés denjeux Une dictionnaire représente ce qui  est remarquable Un corpus représente ce qui est  typique       On ne ...
“language”                  abstractionLanguage In Use                  selection   texte
texte            encodagemodèleabstraite             corpus            numérique            analyses
Etapes de construction de corpus  Conceptiono  Séléction des textes  Identification des traits signifiants  Exécution  Sai...
La question de taille          There’s no data like more data                             (Marcus, 1994)   De point de vue...
Principes de moissonage La langue est infini : le corpus en principe est dune taille fixe mais un corpus peut prétendre re...
Principes de sélection programme de recherche traits structuraux traits interprétatifs traits contextuels                 ...
Quest-ce quun texte? une image des mots des informations structurées                   ou tous les trois ?                ...
Caractéristiques des textes Un texte ou document est à la fois un objet linguistique, donc abstrait, et un objet physique ...
Tout texte ressort dun contexteparticulier ... Quels agents de responsabilité intellectuel ? Quel publique est visé ou obt...
Identification et sélection des traitstextuels Une procédure iterative et scientifique aka (également connu sous) document...
Variétés dannotation  Annotation de structure  Textes, paragraphes, énoncés, phrases,  mots  Annotation linguistique  Morp...
En sommaire Un corpus linguistique est un recueil de textes non aléatoire Issu dun procédure déchantillonage effectué selo...
Cas détude : le British NationalCorpus Un “snapshot” (photo instantanée) de langlais britannique à la fin du 20ème siecle ...
Doù est venu le BNC ?Un consortium de scientifiques etéditeurs lexicographiquesOUP, Longman, ChambersOUCS, UCREL, BL R&DAv...
Courants intellectuels des années1990  Un monde sans web!  Deux traditions de linguistique de corpus   ICAME, Lancaster Os...
Buts déclarés du projetUn corpus synchronique (1990-4)déchantillons à la fois oraux et écrits detoute la variété de produc...
Buts véritables (?) du projet     Amélioration des dictionnaires ELT     Questions dautoritéoks back to Brown and LOB in i...
La machine à saucisses BNC                        Spoken                                         Sélection, droits, saisie...
Conception “Non-opportunistique”But: le fair play envers toute la variete des voixconstitutives de langlais du RU c. 19959...
Groupes de travail  Permissions (questions juridiques)  selection, design criteria  encoding and markup  enrichment and an...
Through-put (million mots/trimestre)     35     30     25     20                                    Received              ...
Tensions  desir de tester annotation scheme  requirement to meet deliverables  slipping goal posts  quantity above quality...
That famous BNC balance BNC-W                                                     78731276             5997489            ...
Written Domains                                       16612770BNC-211630083                                               ...
Spoken domains                             1639159                                                   12859384214819       ...
Structure du BNC           bnc   teiHeader      bncdoc                   bncdoc            4054                    bncDoc ...
BNC structure   text                              stext  div 1                               divdiv   div1          pp    ...
Annotation POS      Approche classique CLAWS (Leech,      Garside et al)      Quest-ce quun mot?snt prima facie obvious, i...
Representation de lannotation      <s n="00011">OS real_AJ0 annus_NN1 horribilis_XX began_VVD on_PR       <w ana="AT0">The...
Pour BNC-XML, on a reclassifié lestextes                     Academic                     Literary                     Pre...
Textes orales : echantillonsdémographiques  Enregistrés par 124 personnes recrutéesNombres equivalents de males et de feme...
Observer effect?                   43
BNC XML structuration dedocument  <bncDoc>   <teiHeader>     Entete : toutes les métadonnées   </teiHeader>   <wtext> ou <...
<teiHeader> <fileDesc><titleStmt><title>[ACET factsheets & newsletters]. Sample containing about 6688 words of miscellanea...
<wtext type="NONAC"><div level="1" n="1" type="leaflet"> <head type="MAIN"><s n="1"><w c5="NN1" hw="factsheet" pos="SUBST"...
A quoi ça sert tous ces chevrons? Ils vous permettent de faire des distinctions très importantes  aids=SUBST vs aids=VERB ...
48
49
50
51
52
BNC est devenu malgré soi un bestseller 1995 Version 1.0 : ~1500  exemplaires sur 4 CDs,uniquement  pour serveur Unix 2000...
Après-BNC Phénoménon curieux dans plusieurs  pays european : construction des  “national corpus” pareils Les éditeurs de d...
Langlais des années 90 restera-t-iltoujours dinterêt?  Evolution des média  e-mail  Pages web  blogs  SMS  Twitter, facebo...
Le corpus littéraire : origines Project Gutenberg et beacoup   dautres pareils ont demontre la   possibilite et linteret d...
Le corpus littéraire : maintenant  Commercialisation devenue   effective avec lexistence   du standard eBook   standard, e...
Lapplication des corpus enapprentissage de langues...complète (et corrige) les intuitionsencourage lautonomie de lappreneu...
Lusage du Web comme corpus En effet le web est un corpus   “a corpus is a collection of texts when     considered as an ob...
Création des corpus à partir du web  Selectionner 500 termes qui sont  typique du langage ciblé Générer 5,000-8,000 requêt...
http://sarcophagus.sslmit.unibo.it/                               61
Corpus distribués La promesse de l “eScience”, “grid  computing” etc.   Séparation et distribution des ressources    et de...
Visions of the future                        63
Prochain SlideShare
Chargement dans…5
×

Corpref

441 vues

Publié le

Does the world really need a French version of the BNC? and what would that mean exactly?

0 commentaire
0 j’aime
Statistiques
Remarques
  • Soyez le premier à commenter

  • Soyez le premier à aimer ceci

Aucun téléchargement
Vues
Nombre de vues
441
Sur SlideShare
0
Issues des intégrations
0
Intégrations
1
Actions
Partages
0
Téléchargements
4
Commentaires
0
J’aime
0
Intégrations 0
Aucune incorporation

Aucune remarque pour cette diapositive
  • 21 21
  • Corpref

    1. 1. Mais enfin, pourquoi faire un “corpus de référence” en 2012? Lou Burnard lou.burnard@tge-adonis.frInitiative corpus de référencedu francais, Paris, 2012
    2. 2. On peut se servir dun corpus deplusieures manières De manière exploratoire ou investigative par ex dans une domaine médico- légale De manière comparative Comparaisons des langues, registres, etc. De manière evaluative Ou tout bêtement pour retrouver des mots... 2
    3. 3. Corpus ??? 3
    4. 4. Comment retrouver le sens dunmot que lon ignore? Appliquer un algorithme Demander aux autorités Regarder son usage 4
    5. 5. 1. Application dun algorithme Corpus → “corpu” +s Corpus → “corp” + “us” “corpuses” ... 5
    6. 6. 2. Demande aux autorités dy of literature on any subject. ... 4.The body of written or spokeordered according to explicit linguistic criteria in order to be used 6
    7. 7. 2. Demande aux autorites 7
    8. 8. 3. Un survol des usages ...subject. 1727-51 Chambers Cycl. s.v., Corpus is also used in matters of learning, for sd, and bound together.. We have also a corpus of the Greek poets.. The corpus of the cialso a corpus of the Greek poets.. The corpus of the civil law is composed of the diges16 Bound up inseparably with the whole corpus of Christian tradition. 4. The body of wre informant.. and in particular upon a corpus of material, of which a large proporti 8
    9. 9. … et un autre ... FL t C l 9
    10. 10. … et encore un 10
    11. 11. Variétés denjeux Une dictionnaire représente ce qui est remarquable Un corpus représente ce qui est typique On ne peut rien dire sur le remarquable, sans connaissance du typique 11
    12. 12. “language” abstractionLanguage In Use selection texte
    13. 13. texte encodagemodèleabstraite corpus numérique analyses
    14. 14. Etapes de construction de corpus Conceptiono Séléction des textes Identification des traits signifiants Exécution Saisie des données (représentation textuel) Encodage (représentation conceptuel) 14
    15. 15. La question de taille There’s no data like more data (Marcus, 1994) De point de vue lexicale un corpus ne peux jamais être trop petit De point de vue littéraire la taille 15
    16. 16. Principes de moissonage La langue est infini : le corpus en principe est dune taille fixe mais un corpus peut prétendre représenter / être représentatif production vs. reception stratified sampling Nota : un corpus peut servir de référence sans forcément être 16
    17. 17. Principes de sélection programme de recherche traits structuraux traits interprétatifs traits contextuels 17
    18. 18. Quest-ce quun texte? une image des mots des informations structurées ou tous les trois ? 18
    19. 19. Caractéristiques des textes Un texte ou document est à la fois un objet linguistique, donc abstrait, et un objet physique On peut le structurer de plusieures manières (linéaires, hiérarchiques, intertextuelles) Un texte est un objet culturel issu 19
    20. 20. Tout texte ressort dun contexteparticulier ... Quels agents de responsabilité intellectuel ? Quel publique est visé ou obtenu ? Quel est lobjet de cette communication ? 20
    21. 21. Identification et sélection des traitstextuels Une procédure iterative et scientifique aka (également connu sous) document analysis Il ny a pas de vérité unique … quand même on peut identifier des avis consensuels cf TEI 21
    22. 22. Variétés dannotation Annotation de structure Textes, paragraphes, énoncés, phrases, mots Annotation linguistique Morphosyntaxe, fonction syntactique Metadonnées Text-type, contexte ... 22
    23. 23. En sommaire Un corpus linguistique est un recueil de textes non aléatoire Issu dun procédure déchantillonage effectué selon des principes explicites Il incarne ainsi un modèle théorique sur ce quest que le langage ce modèle est explicité par lencodage ou balisage du corpus Nota : il y a dautres avis ... 23
    24. 24. Cas détude : le British NationalCorpus Un “snapshot” (photo instantanée) de langlais britannique à la fin du 20ème siecle 100 million mots en c. 4000 échantillons, y compris loral (10% par volume) Dessin “non-opportunistic” (non aléatoire) 24
    25. 25. Doù est venu le BNC ?Un consortium de scientifiques etéditeurs lexicographiquesOUP, Longman, ChambersOUCS, UCREL, BL R&DAvec un financement important dugouvernement britannique 1990-1994Destiné aux communautés scientifiques Chercheurs en lexicographie, TAL, etc. 25
    26. 26. Courants intellectuels des années1990 Un monde sans web! Deux traditions de linguistique de corpus ICAME, Lancaster Oslo Bergen COBUILD Théorie naissante de text encoding Naissance des industries de langue au niveau européen AI -> NLP Coopérations académiques et industrielles 26
    27. 27. Buts déclarés du projetUn corpus synchronique (1990-4)déchantillons à la fois oraux et écrits detoute la variété de production delanglais britanniqueDune conception opportuniste etdapplication généraleAvec annotation POSEt plein des métadonnées 27
    28. 28. Buts véritables (?) du projet Amélioration des dictionnaires ELT Questions dautoritéoks back to Brown and LOB in its design and markup, and forward to the W Respect pour lorale Un modèle nouveau pour la recherche au niveau européen Conception et encodqge des corpus Co-operation industriel-scientifique Un REALLY BIG corpus production de textes numeriques à léchelle industrielle 28
    29. 29. La machine à saucisses BNC Spoken Sélection, droits, saisie Written OUP(OUP/Chambers) (Longman) Enrichissement et encodage Initial CDIF Conversion and Validation Word Class Annotation (OUCS) (UCREL) Header generation and final validation (OUCS) Documentation, distribution, maintenance 29
    30. 30. Conception “Non-opportunistique”But: le fair play envers toute la variete des voixconstitutives de langlais du RU c. 199590% écrit, 10% oral (pour des raisonséconomiques)Critères de sélection prédéfinis Pour lécrit : domaine (topos); médium; time Pour loral : demographic balance; contextCritères supplé,entaires de description pour maximer la variation 30
    31. 31. Groupes de travail Permissions (questions juridiques) selection, design criteria encoding and markup enrichment and annotation retrieval software 31
    32. 32. Through-put (million mots/trimestre) 35 30 25 20 Received Validated 15 Annotated 10 5 0 6 7 8 9 10 11 12 13 14 32
    33. 33. Tensions desir de tester annotation scheme requirement to meet deliverables slipping goal posts quantity above quality … an interesting learning experience for both sides! 33
    34. 34. That famous BNC balance BNC-W 78731276 5997489 8021274 8743604 Spoken Demographic Spoken Context Governed Books and Periodicals Other written 34
    35. 35. Written Domains 16612770BNC-211630083 3798318 3093407 7242024 13496137 7327671 7493077 16781393 Imaginative Scientific Social Science Applied Science World Affairs Commerce Arts Belief Leisure 35
    36. 36. Spoken domains 1639159 12859384214819 1652246 1565705 Educational Business Institutional Leisure Demographic 36
    37. 37. Structure du BNC bnc teiHeader bncdoc bncdoc 4054 bncDoc teiHeader text stext 910 37
    38. 38. BNC structure text stext div 1 divdiv div1 pp uu 784,981 pp uu ss ss ss s 6,052,202 wwwwww 97,619,934 w 38
    39. 39. Annotation POS Approche classique CLAWS (Leech, Garside et al) Quest-ce quun mot?snt prima facie obvious, in spite of spelling conv Quest-ce quun POS? NN1 NN2 NP1 NP2 TO0. . . 39
    40. 40. Representation de lannotation <s n="00011">OS real_AJ0 annus_NN1 horribilis_XX began_VVD on_PR <w ana="AT0">The</w> <w ana="NP0">Queen</w> <w ana="POS">‘s</w> <s <w ana="AJ0">real</w> n=00011> <w ana="NN1">annus horribilis</w> <w AT0>The <w NP0>Queen<w POS>‘s <w ana="VVD">began</w> <w AJ0>real <w NN1>annus horribilis <w ana="PRP">on</w> <w VVD>began <w PRP> <w ana="NP0-NN1">Sunday</w> <w NP0-NN1>Sunday<c PUN>.</s> <c ana="PUN">.</c> </s> 40
    41. 41. Pour BNC-XML, on a reclassifié lestextes Academic Literary Press Nonfiction Unpublished Conversation OtherSpolen ...sentences ...words 41
    42. 42. Textes orales : echantillonsdémographiques Enregistrés par 124 personnes recrutéesNombres equivalents de males et de femelles sélectionnéspour age et classe sociale habitant 38 lieux differents ètravers le RUCharge denregistrer toutes leures conversations pendanttrois journéespermissions obtenues après chaque conversationage, sex, accent, occupation, relations notées si possibleGrand quantité dadolescents londoniens, later publishedas COLT 42
    43. 43. Observer effect? 43
    44. 44. BNC XML structuration dedocument <bncDoc> <teiHeader> Entete : toutes les métadonnées </teiHeader> <wtext> ou <stext> Texte </wtext> or </stext> </bncDoc> 44
    45. 45. <teiHeader> <fileDesc><titleStmt><title>[ACET factsheets & newsletters]. Sample containing about 6688 words of miscellanea (domain: social science)</title> <respStmt> <resp>Data capture and transcription</resp> <name>Oxford University Press</name> </respStmt> </titleStmt> <extent>6688 tokens; 6708 w­units; 423 s­units</extent> <publicationStmt><distributor>Distributed under licence by Oxford University Computing Services on behalf of the BNC Consortium.</distributor> <availability>This material is protected by international copyright laws and may not be copied or redistributed in any way. </availability> <idno type="bnc">A00</idno> </publicationStmt> <sourceDesc> <bibl> <title>[ACET factsheets & newsletters].</title>  <publisher>Aids Care Education & Training</publisher> <pubPlace>London </pubPlace><date value="1991­09">1991­09</date></bibl></sourceDesc></fileDesc><profileDesc><creation date="1991">1991­09</creation> <textClass> <catRef targets="WRI ALLTIM3 ALLAVA2 ALLTYP5 WRIAAG0 WRIAD0 WRIASE0 WRIATY2 WRIAUD3 WRIDOM4 WRILEV2 WRIMED3 WRIPP5 WRISAM5 WRISTA2 WRITAS3" /> <classCode scheme="DLEE">W nonAc: medicine</classCode> <keywords><term>Health</term> <term>Sex</term> </keywords> </textClass> </profileDesc> … </teiHeader> 45
    46. 46. <wtext type="NONAC"><div level="1" n="1" type="leaflet"> <head type="MAIN"><s n="1"><w c5="NN1" hw="factsheet" pos="SUBST">FACTSHEET</w> <w c5="DTQ" hw="what" pos="PRON">WHAT</w> <w c5="VBZ" hw="be" pos="VERB">IS</w> <w c5="NN1" hw="aids" pos="SUBST">AIDS</w><c c5="PUN">?</c> </s>  </head><p><s n="2"><hi rend="bo">  <w c5="NN1" hw="aids" pos="SUBST">AIDS</w> <c c5="PUL">(</c><w c5="VVN­AJ0" hw="acquire" pos="VERB">Acquired</w> <w c5="AJ0" hw="immune" pos="ADJ">Immune</w> <w c5="NN1" hw="deficiency" pos="SUBST">Deficiency</w> <w c5="NN1" hw="syndrome" pos="SUBST">Syndrome</w><c c5="PUR">)</c></hi> <w c5="VBZ" hw="be" pos="VERB">is</w> <w c5="AT0" hw="a" pos="ART">a</w>  <w c5="NN1" hw="condition" pos="SUBST">condition</w> <w c5="VVN" hw="cause" pos="VERB">caused</w> <w c5="PRP" hw="by" pos="PREP">by</w> <w c5="AT0" hw="a" pos="ART">a</w> <w c5="NN1" hw="virus" pos="SUBST">virus</w> <w c5="VVN" hw="call" pos="VERB">called</w> <w c5="NP0" hw="hiv" pos="SUBST">HIV</w> <c c5="PUL">(</c>   <w c5="AJ0­NN1" hw="human" pos="ADJ">Human</w> <w c5="NN1" hw="immuno" pos="SUBST">Immuno</w> <w c5="NN1" hw="deficiency" pos="SUBST">Deficiency</w> <w c5="NN1" hw="virus" pos="SUBST">Virus</w><c c5="PUR">)</c><c c5="PUN">.</c> </s> … </p>… </div></wtext> 46
    47. 47. A quoi ça sert tous ces chevrons? Ils vous permettent de faire des distinctions très importantes aids=SUBST vs aids=VERB occurrences en lécrit vs occurrences en oral occurrences au sein des titres vs occurrences au sein des paragraphes Et didentifier des unités textuels à plusieurs niveaux FACTSHEET WHAT IS AIDS? AIDS (Acquired Immune Deficiency Syndrome)  is a condition caused by a virus called HIV  (Human Immuno Deficiency Virus). 47
    48. 48. 48
    49. 49. 49
    50. 50. 50
    51. 51. 51
    52. 52. 52
    53. 53. BNC est devenu malgré soi un bestseller 1995 Version 1.0 : ~1500 exemplaires sur 4 CDs,uniquement pour serveur Unix 2000 Version “World” : ~5000 exemplaires sur 2 CDs, installable sur machine personnel 2010 Version “BNC XML” : ~7000 copies (au moins) sur 2 DVD 53
    54. 54. Après-BNC Phénoménon curieux dans plusieurs pays european : construction des “national corpus” pareils Les éditeurs de dictionnaires ont rapidement crée leurs propres corpus “in house” (monitor corpus) Dans la societé, un évolution rapide de manières nouvelles 54
    55. 55. Langlais des années 90 restera-t-iltoujours dinterêt? Evolution des média e-mail Pages web blogs SMS Twitter, facebook, personal networks Lettres personalles Evolution des topos globalization internet Elvis Word Perfect Le BNC devient un document historique; voire littéraire 55
    56. 56. Le corpus littéraire : origines Project Gutenberg et beacoup dautres pareils ont demontre la possibilite et linteret de creer des corpus literaires pour le grand publique Un modele economique base sur les efforts benevoles, en contraste avec 56
    57. 57. Le corpus littéraire : maintenant Commercialisation devenue effective avec lexistence du standard eBook standard, et de tres lourdes investissements de la Possibilitésde Apple et du part serieuses pour lapplication Amazon sourcing crowd Google Books met a 57
    58. 58. Lapplication des corpus enapprentissage de langues...complète (et corrige) les intuitionsencourage lautonomie de lappreneurconteste le status du locuteur natiftransforme le role de lenseignant 58
    59. 59. Lusage du Web comme corpus En effet le web est un corpus “a corpus is a collection of texts when considered as an object of linguistic or literary study” (Kilgarrif & Grefenstette 2003) Ou bien on peut le considérer comme une source de plusieurs corpus http://wacky.sslmit.unibo.it/ 59
    60. 60. Création des corpus à partir du web Selectionner 500 termes qui sont typique du langage ciblé Générer 5,000-8,000 requêtes contenant chacune 4 mots choisis dans ces 500 termes Envoyer ces requêtes à Google et retenir les 10 premiers URLS retournés 60
    61. 61. http://sarcophagus.sslmit.unibo.it/ 61
    62. 62. Corpus distribués La promesse de l “eScience”, “grid computing” etc. Séparation et distribution des ressources et des outils Procédure tres effective aux sciences dures mais ... … nécessitant de grands efforts de cooperation et de standardisation 62
    63. 63. Visions of the future 63

    ×