SlideShare une entreprise Scribd logo

Languages lse

Languages lse

1  sur  23
Télécharger pour lire hors ligne
A corpus-based approach to the
categorization of minority languages




                      Giancarlo Luxardo

     EEE (Europe, Européanité, Européanisation) – CNRS
         Université Michel de Montaigne Bordeaux 3
        Maison des Sciences de l'Homme d'Aquitaine
                2012 LSE MI Conference on Text-Mining Methods
1 - A text corpus about categorization of minority
languages in Europe

2 - Classification in “lexical worlds”

3 - Corpus partition and authors specificities

4 - Correspondence analysis
                  2012 LSE MI Conference on Text-Mining Methods
2012 LSE MI Conference on Text-Mining Methods
2012 LSE MI Conference on Text-Mining Methods
“regional or minority languages” means languages that are:
i) traditionally used within a given territory of a State by nationals
of that State who form a group numerically smaller than the rest of
the State's population; and
ii) different from the official language(s) of that State; it does not
include either dialects of the official language(s) of the State or the
languages of migrants;


European Charter for Regional or Minority Languages, 1992




                          2012 LSE MI Conference on Text-Mining Methods
1 - A text corpus about categorization of minority
                   languages in Europe

➔   A corpus assembled with linguistic or legal texts
➔   Information Retrieval: keywords-based navigation
➔   Intertextuality: recognize the associations
➔   Different disciplinary approaches: linguistic, geographic,
    legal...
➔   Different languages: French, English, Russian...
➔   Objective: identify a typology of notions about languages
    based on their interrelationships (not: a classification
    scheme for the languages)

                      2012 LSE MI Conference on Text-Mining Methods
Publicité

Recommandé

L'IMPACT D'UNE STRATÉGIE LINGUISTIQUE.
L'IMPACT D'UNE STRATÉGIE LINGUISTIQUE.L'IMPACT D'UNE STRATÉGIE LINGUISTIQUE.
L'IMPACT D'UNE STRATÉGIE LINGUISTIQUE.SamuelNOEL7
 
Seminario taller para tutores
Seminario taller para tutoresSeminario taller para tutores
Seminario taller para tutoresSERCOMPFAST
 
Torres angelica aa3_esfero
Torres angelica aa3_esferoTorres angelica aa3_esfero
Torres angelica aa3_esferoAngelica Torres
 
Kinoblogeri piedāvā: Looper (27.09.2012)
Kinoblogeri piedāvā: Looper (27.09.2012)Kinoblogeri piedāvā: Looper (27.09.2012)
Kinoblogeri piedāvā: Looper (27.09.2012)Sergey Moosatov
 
Taller de comercio online día 4 Posicionamiento y redes sociales
Taller de comercio online día 4 Posicionamiento y redes sociales Taller de comercio online día 4 Posicionamiento y redes sociales
Taller de comercio online día 4 Posicionamiento y redes sociales Carlos Pérez Fernández
 

Contenu connexe

En vedette

Presentación1
Presentación1Presentación1
Presentación1josepinero
 
Actividad 3_ Liliana Romero
Actividad 3_ Liliana RomeroActividad 3_ Liliana Romero
Actividad 3_ Liliana Romerolilianaroav
 
Apresentacao alertas
Apresentacao alertasApresentacao alertas
Apresentacao alertasAna Tavares
 
Apresentação do mestrado em empreendedorismo
Apresentação do mestrado em empreendedorismoApresentação do mestrado em empreendedorismo
Apresentação do mestrado em empreendedorismoFernando Gaspar
 
Tarea 3
Tarea 3Tarea 3
Tarea 3emaut
 
ศิลปะการวาดภาพงานสวนพฤกษศาสตร์โรงเรียน
ศิลปะการวาดภาพงานสวนพฤกษศาสตร์โรงเรียนศิลปะการวาดภาพงานสวนพฤกษศาสตร์โรงเรียน
ศิลปะการวาดภาพงานสวนพฤกษศาสตร์โรงเรียนArrat Krupeach
 
Progeria
ProgeriaProgeria
Progeriakizz452
 
A Midia Que Mais Cresce
A Midia Que Mais CresceA Midia Que Mais Cresce
A Midia Que Mais CresceUOL
 
techos verdes
techos verdes techos verdes
techos verdes Alan Mora
 
Marketing no Mercado Imobiliário
Marketing no Mercado ImobiliárioMarketing no Mercado Imobiliário
Marketing no Mercado ImobiliárioMarketingImob
 
Talespraak lesson 8
Talespraak lesson 8Talespraak lesson 8
Talespraak lesson 8Haibiao Miao
 
Powerpoint til infoskaerm final
Powerpoint til infoskaerm finalPowerpoint til infoskaerm final
Powerpoint til infoskaerm finalpalving
 
Porfolio del curso Artes Gráficas Digitales. Primera edición
Porfolio del curso Artes Gráficas Digitales. Primera ediciónPorfolio del curso Artes Gráficas Digitales. Primera edición
Porfolio del curso Artes Gráficas Digitales. Primera ediciónnoeliacampos
 
IAB DIGITAL MORNING
IAB DIGITAL MORNINGIAB DIGITAL MORNING
IAB DIGITAL MORNINGEdvaldo Acir
 

En vedette (20)

Alho E Azeite
Alho E AzeiteAlho E Azeite
Alho E Azeite
 
India
IndiaIndia
India
 
Presentación1
Presentación1Presentación1
Presentación1
 
Internet segura
Internet seguraInternet segura
Internet segura
 
Actividad 3_ Liliana Romero
Actividad 3_ Liliana RomeroActividad 3_ Liliana Romero
Actividad 3_ Liliana Romero
 
Apresentacao alertas
Apresentacao alertasApresentacao alertas
Apresentacao alertas
 
Apresentação do mestrado em empreendedorismo
Apresentação do mestrado em empreendedorismoApresentação do mestrado em empreendedorismo
Apresentação do mestrado em empreendedorismo
 
Tarea 3
Tarea 3Tarea 3
Tarea 3
 
ศิลปะการวาดภาพงานสวนพฤกษศาสตร์โรงเรียน
ศิลปะการวาดภาพงานสวนพฤกษศาสตร์โรงเรียนศิลปะการวาดภาพงานสวนพฤกษศาสตร์โรงเรียน
ศิลปะการวาดภาพงานสวนพฤกษศาสตร์โรงเรียน
 
ApresentaçãO Aula 72
ApresentaçãO Aula 72ApresentaçãO Aula 72
ApresentaçãO Aula 72
 
Progeria
ProgeriaProgeria
Progeria
 
Ottaviocautilli
OttaviocautilliOttaviocautilli
Ottaviocautilli
 
A Midia Que Mais Cresce
A Midia Que Mais CresceA Midia Que Mais Cresce
A Midia Que Mais Cresce
 
techos verdes
techos verdes techos verdes
techos verdes
 
Marketing no Mercado Imobiliário
Marketing no Mercado ImobiliárioMarketing no Mercado Imobiliário
Marketing no Mercado Imobiliário
 
Talespraak lesson 8
Talespraak lesson 8Talespraak lesson 8
Talespraak lesson 8
 
Powerpoint til infoskaerm final
Powerpoint til infoskaerm finalPowerpoint til infoskaerm final
Powerpoint til infoskaerm final
 
Porfolio del curso Artes Gráficas Digitales. Primera edición
Porfolio del curso Artes Gráficas Digitales. Primera ediciónPorfolio del curso Artes Gráficas Digitales. Primera edición
Porfolio del curso Artes Gráficas Digitales. Primera edición
 
27dicas
27dicas27dicas
27dicas
 
IAB DIGITAL MORNING
IAB DIGITAL MORNINGIAB DIGITAL MORNING
IAB DIGITAL MORNING
 

Similaire à Languages lse

Lacommunautlinguistique 110206132613-phpapp02
Lacommunautlinguistique 110206132613-phpapp02Lacommunautlinguistique 110206132613-phpapp02
Lacommunautlinguistique 110206132613-phpapp02AGELLID Bucama
 
La communauté linguistique
La communauté linguistiqueLa communauté linguistique
La communauté linguistiqueNajlaa Zouaoui
 
Inuit tourisme langue
Inuit tourisme langueInuit tourisme langue
Inuit tourisme langueIoanaDolcos
 
Comment sauver les langues régionales de France ?
Comment sauver les langues régionales de France ?Comment sauver les langues régionales de France ?
Comment sauver les langues régionales de France ?MichelFeltinPalas
 
Insecurite 090416061237-phpapp02
Insecurite 090416061237-phpapp02Insecurite 090416061237-phpapp02
Insecurite 090416061237-phpapp02AGELLID Bucama
 
DALF C1 CIEP C
DALF C1 CIEP CDALF C1 CIEP C
DALF C1 CIEP Cmasperez
 
Journee Internationale De La Francophonie
Journee Internationale De La FrancophonieJournee Internationale De La Francophonie
Journee Internationale De La Francophonieguestab03e8
 
La Dialectologie Power
La Dialectologie PowerLa Dialectologie Power
La Dialectologie Powerguest4e68fd8
 
132613614 la-situation-linguistique-dans-le-massif-central-de-l’aures-these-d...
132613614 la-situation-linguistique-dans-le-massif-central-de-l’aures-these-d...132613614 la-situation-linguistique-dans-le-massif-central-de-l’aures-these-d...
132613614 la-situation-linguistique-dans-le-massif-central-de-l’aures-these-d...AGELLID Bucama
 
Dictionnaire des racines berberes communes Mohand Akli Haddadou
Dictionnaire des racines berberes communes Mohand Akli HaddadouDictionnaire des racines berberes communes Mohand Akli Haddadou
Dictionnaire des racines berberes communes Mohand Akli HaddadouAbdelhalim Benazzouz
 
Planification ling au maroc
Planification ling au marocPlanification ling au maroc
Planification ling au marocHafsa I'Hajar
 
Intercomprehension des langues romanes_ACampà
Intercomprehension des langues romanes_ACampàIntercomprehension des langues romanes_ACampà
Intercomprehension des langues romanes_ACampàclamuraller
 
L’évolution de la langue (Le Creole de Maurice)
L’évolution de la langue (Le Creole de Maurice)L’évolution de la langue (Le Creole de Maurice)
L’évolution de la langue (Le Creole de Maurice)Farah El Eshraky
 
Grammaire de l'amazigh : du mot à la phrase
Grammaire de l'amazigh : du mot à la phrase Grammaire de l'amazigh : du mot à la phrase
Grammaire de l'amazigh : du mot à la phrase ahmed bououd
 

Similaire à Languages lse (20)

Lacommunautlinguistique 110206132613-phpapp02
Lacommunautlinguistique 110206132613-phpapp02Lacommunautlinguistique 110206132613-phpapp02
Lacommunautlinguistique 110206132613-phpapp02
 
La communauté linguistique
La communauté linguistiqueLa communauté linguistique
La communauté linguistique
 
Inuit tourisme langue
Inuit tourisme langueInuit tourisme langue
Inuit tourisme langue
 
Géographie des langues
Géographie des languesGéographie des langues
Géographie des langues
 
Sociologie des langues
Sociologie des languesSociologie des langues
Sociologie des langues
 
Sociologie des langues
Sociologie des languesSociologie des langues
Sociologie des langues
 
Comment sauver les langues régionales de France ?
Comment sauver les langues régionales de France ?Comment sauver les langues régionales de France ?
Comment sauver les langues régionales de France ?
 
Insecurite 090416061237-phpapp02
Insecurite 090416061237-phpapp02Insecurite 090416061237-phpapp02
Insecurite 090416061237-phpapp02
 
DALF C1 CIEP C
DALF C1 CIEP CDALF C1 CIEP C
DALF C1 CIEP C
 
L'espagnol, fiche d'identité
L'espagnol, fiche d'identitéL'espagnol, fiche d'identité
L'espagnol, fiche d'identité
 
Journee Internationale De La Francophonie
Journee Internationale De La FrancophonieJournee Internationale De La Francophonie
Journee Internationale De La Francophonie
 
La Dialectologie Power
La Dialectologie PowerLa Dialectologie Power
La Dialectologie Power
 
132613614 la-situation-linguistique-dans-le-massif-central-de-l’aures-these-d...
132613614 la-situation-linguistique-dans-le-massif-central-de-l’aures-these-d...132613614 la-situation-linguistique-dans-le-massif-central-de-l’aures-these-d...
132613614 la-situation-linguistique-dans-le-massif-central-de-l’aures-these-d...
 
Dictionnaire des racines berberes communes Mohand Akli Haddadou
Dictionnaire des racines berberes communes Mohand Akli HaddadouDictionnaire des racines berberes communes Mohand Akli Haddadou
Dictionnaire des racines berberes communes Mohand Akli Haddadou
 
Jel2009
Jel2009Jel2009
Jel2009
 
Planification ling au maroc
Planification ling au marocPlanification ling au maroc
Planification ling au maroc
 
Intercomprehension des langues romanes_ACampà
Intercomprehension des langues romanes_ACampàIntercomprehension des langues romanes_ACampà
Intercomprehension des langues romanes_ACampà
 
L’évolution de la langue (Le Creole de Maurice)
L’évolution de la langue (Le Creole de Maurice)L’évolution de la langue (Le Creole de Maurice)
L’évolution de la langue (Le Creole de Maurice)
 
Grammaire de l'amazigh : du mot à la phrase
Grammaire de l'amazigh : du mot à la phrase Grammaire de l'amazigh : du mot à la phrase
Grammaire de l'amazigh : du mot à la phrase
 
Chapitre 4 gumperz
Chapitre 4 gumperzChapitre 4 gumperz
Chapitre 4 gumperz
 

Languages lse

  • 1. A corpus-based approach to the categorization of minority languages Giancarlo Luxardo EEE (Europe, Européanité, Européanisation) – CNRS Université Michel de Montaigne Bordeaux 3 Maison des Sciences de l'Homme d'Aquitaine 2012 LSE MI Conference on Text-Mining Methods
  • 2. 1 - A text corpus about categorization of minority languages in Europe 2 - Classification in “lexical worlds” 3 - Corpus partition and authors specificities 4 - Correspondence analysis 2012 LSE MI Conference on Text-Mining Methods
  • 3. 2012 LSE MI Conference on Text-Mining Methods
  • 4. 2012 LSE MI Conference on Text-Mining Methods
  • 5. “regional or minority languages” means languages that are: i) traditionally used within a given territory of a State by nationals of that State who form a group numerically smaller than the rest of the State's population; and ii) different from the official language(s) of that State; it does not include either dialects of the official language(s) of the State or the languages of migrants; European Charter for Regional or Minority Languages, 1992 2012 LSE MI Conference on Text-Mining Methods
  • 6. 1 - A text corpus about categorization of minority languages in Europe ➔ A corpus assembled with linguistic or legal texts ➔ Information Retrieval: keywords-based navigation ➔ Intertextuality: recognize the associations ➔ Different disciplinary approaches: linguistic, geographic, legal... ➔ Different languages: French, English, Russian... ➔ Objective: identify a typology of notions about languages based on their interrelationships (not: a classification scheme for the languages) 2012 LSE MI Conference on Text-Mining Methods
  • 7. Excerpt example « Un linguiste russe, Aleksandr Kibrik, a (…) établi une liste des langues "en voie de disparition" en ex-URSS : selon lui, prés de cent trente langues étaient alors parlées sur ce territoire, dont certaines comme le iough ou le kerek par deux ou trois personnes seulement. En même temps, elles ne servent pas exactement aux mêmes choses, ne véhiculent pas les mêmes contenus, ne régulent pas les mêmes rapports sociaux. Comment évaluer l’importance relative de ces langues ? Certains adjectifs mal définis servent parfois à en donner une idée : langues minoritaires, régionales, petites langues, langues moins parlées pour les unes, langues véhiculaires, grandes langues, langues internationales pour les autres... Mais ces classifications sont loin d’être univoques et relèvent plus de l’idéologie ou des rapports de force que de la science ». Calvet, Louis-Jean. – « La guerre des langues et les chances d’un véritable plurilinguisme » in : Langues : une guerre à mort, Panoramiques, n°48, 2000, pp.10-16 [p.12]. 2012 LSE MI Conference on Text-Mining Methods
  • 8. … another example Once again, the stress must be on the speech network and the speech community. We need to learn to keep our eyes on the ball and to more often study minority and other threatened languages in situ, where language behaviour actually and unselfconsciously lives. Of course, we need to study authority structures, reward systems and organisations too, as most of us have long been doing, but the balance is now too far in that direction and some redirection of emphasis would seem to be very much in order. Fishman, Joshua A.. -“Endangered Minority Languages: Prospects for Sociolinguistic Research”, In: Protecting Endangered Minority Languages: Sociolinguistic Perspectives, International Journal on Multicultural Societies (IJMS), Vol. 4, No. 2, 2002, UNESCO, 2002, pp. 275 [p. 274]. 2012 LSE MI Conference on Text-Mining Methods
  • 9. A sub-corpus in French: CLME (Catégories de Langues Minoritaires en Europe) ● Types of sources: single author monographs, collective publication, journal report, experts report (EU) ● Dimension: 207 excerpts 25 authors Occurrences: 23 000 Words: 4 200 Lemmas: 3 100 2012 LSE MI Conference on Text-Mining Methods
  • 10. 104 notions identified 1 créole 25 langue dominante minoritaire 2 dialecte 26 langue dominée 3 dialecte régional 27 langue dominée écrite 4 idiome 28 langue dominée non-écrite 5 langue ancestrale 29 langue d’origine 6 langue autochtone 30 langue du peuple 7 langue commune 31 langue en diaspora 8 langue de communication 32 langue en voie de disparition 9 langue de communication interethnique 33 langue et culture locales 10 langue de diaspora 34 langue grégaire 11 langue de la communauté 35 langue historique 12 langue de la diaspora 36 langue historique de l’Europe 13 langue de la dispersion 37 langue identitaire 14 langue de l’émigration et de la diaspora 38 langue identitaire ou grégaire 15 langue de migrants 39 langue locale 16 langue de minorité nationale 40 langue maternelle 17 langue dépourvue de territoire 41 langue menacée 18 langue des colonisés 42 langue migrante 19 langue des immigrants 43 langue minorée 20 langue des migrants 44 langue minoritaire 21 langue des pays colonisés 45 langue mixte 22 langue d’Etat 46 langue moins parlée 23 langue d’immigration 47 langue moins répandue 24 langue d’isolat
  • 11. 48 langue nationale 77 langue véhiculaire 49 langue native 78 langue de l’immigration 50 langue naturelle 79 langue de population migrante 51 langue non-écrite 80 langue de population nomade ou semi- 52 langue non-nationale nomade 53 langue officielle 81 langue locale historique 54 langue périphérique 82 langue traditionnelle 55 langue première 83 modalité insulaire 56 langue propre 84 parler 57 langue propre à un territoire 85 parler dialectal 58 langue régionale 86 parler périphérique 59 langue régionale minoritaire 87 parler vernaculaire 60 langue régionale et minoritaire 88 parler local 61 langue régionale ou minoritaire 89 parler régional 62 langue régionale ou minoritaire historique 90 patois 63 langue sans assise territoriale 91 patois local 64 langue sans Etat 92 petite langue 65 langue seconde 93 première langue 66 langue spécifique 94 sabir 67 langue allogène 95 variante dialectale 68 langue et culture régionale 96 variante locale 69 langue immigrée 97 variété 70 langue territoriale 98 variété îlienne 71 langue créole 99 variété insulaire 72 langue des minorités 100 variété linguistique 73 langue de famille 101 variété linguistique propre 74 langue frontalière 102 variété régionale 75 langue pidgin 103 variété dialectale 76 langue secondaire 104 vernaculaire
  • 12. Author variable S. AIROLDI S. AKIN P. BIDART P. BLAIR H. BOYER M. BRUNEAU L.-J. CALVET J.-F. COUROUAU G. DRETTAS O. DUCROT – T. TODOROV B. GIBLIN H. GUILLOREL A. HERDAM G. JETCHEV N. KOULAYAN J.-L. LEONARD Y. LESPOUX J.-B. MARCELLESI F. ROLLAN F. SCHANEN S. SINTAS A. VIAUT J.M.WOEHRLING Commission Européenne (Euromosaic) 2012 LSE MI Conference on Text-Mining Methods
  • 13. 2 - Classification in “lexical worlds” ● The CLME corpus is submitted to Alceste ● Hierarchical Descendant Classification ● 5 classes are identified ● 77 % of Elementary Context Units are classified 2012 LSE MI Conference on Text-Mining Methods
  • 14. 2012 LSE MI Conference on Text-Mining Methods
  • 15. Five emergent topics (1) catalan, enseignement, variété, propre, loi, castillan, insulaire → aménagement linguistique, Espagne (Sintas) (2) territoire, traditionnel, charte, dépourvu, pratiquer, aire, article, historique, lien, minoritaire, migrant, déclaration, géographie → Charte européenne des langues régionales et minoritaires (3) dominer, peuple, exclusif, conflit, analyse, diglossie, social, colonial, idéologie, contact, situation → colonisation (Boyer) (4) défense, francophone, anglais, périphérique, petit, mondial, supercentrale, hypercentrale, europe → défense de la francophonie (Calvet) (5) dialecte, français, parlers, nation, patois, état, culture → dialectes (français, allemand) 2012 LSE MI Conference on Text-Mining Methods
  • 16. CLME corpus imported with TXM 2012 LSE MI Conference on Text-Mining Methods
  • 17. 3 - Corpus partition and authors specificities ● AKIN : territoire, dépourvu, immigration, kurde ● BOYER : sociolinguistique, diglossique, conflit, représentation, résistance, dominer, occitan, résistance, faveur, partager, inscrire ● CALVET (articles) : droit, défense, France, francophonie, périphérique, défendre, PLC [politico-linguistiquement correct], central, réclamer, galicien, ratification, peur ● CALVET (ouvrages) : droit, exclusif, local, dialecte, colonial, pays, coloniser, choisir, superstructure, libération, endogène, oppression, exogène ● KOULAYAN : diaspora, maternel, origine, diasporique, natif ● MARCELLESI : régional, référer, classe, corse, hégémonique, étendue, ressort, oïl 2012 LSE MI Conference on Text-Mining Methods
  • 18. 4 - Correspondence Analysis (1) 2012 LSE MI Conference on Text-Mining Methods
  • 19. Identify “notion items” in the lexical tables dialecte 64 langue dominante 26 langue dépourvue de territoire 7 langue régionale 35 langue régionale ou minoritaire 25 langue commune 6 patois 35 langue nationale 23 langue d'origine 6 langue minoritaire 34 langue locale 15 langue de communication 5 langue officielle 32 langue d'Etat 13 langue de diaspora 5 parler 28 langue propre 12 langue en diaspora 5 langue dominée 26 langue de migrants 7 langue identitaire 5 langue maternelle 26 petite langue 5 2012 LSE MI Conference on Text-Mining Methods
  • 20. Correspondence Analysis (2) 2012 LSE MI Conference on Text-Mining Methods
  • 21. Categorisation attempt ●les « territorialistes » : SINTAS, COMMISSION, VIAUT (langue propre, langue d'Etat) ● les « identitaires » : DRETTAS, KOULAYAN, HERDAM, AKIN (langue d'origine, langue maternelle, langue dépourvue de territoire) ●les « politistes » : CALVET-ouvrage, BOYER, DUCROT (langue nationale, langue dominante, langue dominée, langue locale) ● les « historiques » : BLAIR, MARCELLESI, WOEHRLING, GUILLOREL (langue traditionnelle, langue commune, langue régionale, langue de migrants) 2012 LSE MI Conference on Text-Mining Methods
  • 22. “notion items” in English dialect 37 variety 8 national language 4 minority language 22 mixed language 8 fusion language 4 regional language 16 IM language 7 RM language 3 vernacular 14 creole 5 Jewish language 3 state language 11 patois 4 community language 3 official language 11 stateless language 4 endangered language 3 IM: immigration minority RM: regional minority 2012 LSE MI Conference on Text-Mining Methods
  • 23. Thanks for listening! 2012 LSE MI Conference on Text-Mining Methods