Modèles phylogéniques de la diversification              des languesRobin J. Ryder1,2 sous la direction de Geoff K. Nicholl...
Plan       Un peu de linguistique       Un modèle trop bien       Des tests synthétiques merveilleux       Des résultats r...
Carles li reis, nostre emper[er]e magnesSet anz tuz pleins ad estet en Espaigne :Tresqu’en la mer cunquist la tere altaign...
La plus commune façon d’amollir les coeurs de ceux qu’on aoffensez, lors qu’ayant la vengeance en main, ils nous tiennentà...
Tes yeux sont si profonds qu’en me penchant pour boireJ’ai vu tous les soleils y venir se mirerS’y jeter à mourir tous les...
Et la piaule swingue au son du ghetto, on tape à la porteChill c’est trop fort ! baisse le son merde ! j’connaisA chaque f...
Similarités entre les langues                        1          2                 3              9        Albanais       n...
Langues Indo-Européennes modernes      F IGURE: Carte effectuée avec WALS (Dryer et al., 2003)                          R....
Diversification des langues     Les langues évoluent d’une façon semblable aux espèces     biologiques     Des similarités ...
Exemple d’arbre                  R. Ryder   Modèles phylogéniques de la diversification des langues
Questions à résoudre     Structure de l’arbre     Âge des nœuds internes     Âge de la racine : 6000-6500 BP ou 8000-9500 ...
Vocabulaire de base     100 ou 200 mots, présents dans quasiment toutes les     langues : oiseau, main, manger, rouge...  ...
Donnée binaires : il meurt                      Vieil anglais                    stierfþ                  Vieux haut-allem...
Contraintes     Contraintes sur la structure de l’arbre     30 contraintes sur l’âge de certains nœuds ou langues     anci...
Contraintes              R. Ryder   Modèles phylogéniques de la diversification des langues
Description du modèle (1)                                           Les traits naissent à                                 ...
Description du modèle (2)                                     Des catastrophes se produisent                              ...
Description du modèle (3)                                     Processus d’observation :                                   ...
Processus d’observation   0   1   0   0   1   0   1      1       0   0   0   0   1   1   0   0      1       1   1   1   0 ...
Processus d’observation   ?   1   0   0   ?   0   1     1    0   0   0   ?   ?   1   0   0     1    1   ?   1   ?   ?   ? ...
Processus d’observation      1    0   ?   0   1     1    0      0    ?   1   0   0     1    1      1    ?   ?   1   ?     ...
Processus d’observation                L(g, θ) = P[D|g, θ, O(D)]                    ˜                    λ(t) = λP[O(t)]  ...
Distribution a posteriorip(g, µ, λ, κ, ρ, ξ|D = D)                                                                       ...
Calcul de vraisemblance         P[M = ω|Z = (ti , c), g, µ] =   (c)ω∈Ωa                                                   ...
Inférence bayésienneChaîne de Markov Monte-Carlo                   R. Ryder   Modèles phylogéniques de la diversification d...
Test sur des données synthétiques   F IGURE: Vrai arbre, environ 40   mots/langue                              F IGURE: Ar...
Test sur des données synthétiques (2)               F IGURE: Taux de disparition (µ)                       R. Ryder   Modè...
Influence des emprunts (1)   F IGURE: Vrai arbre, environ 40   mots/langue, 10% d’emprunts              F IGURE: Arbre cons...
Influence des emprunts (2)   F IGURE: Vrai arbre, environ 40                                            F IGURE: Arbre cons...
Influence des emprunts (3)     La structure est bien reconstruite     Les dates sont sous-estimées     F IGURE: Âge de la r...
Présence d’emprunts ?        1       0.9       0.8                                                                        ...
Validation croisée        100         10          5          2          0        −2        −5       −10       −100        ...
Données    Langues Indo-Européennes    Vocabulaire de base (Swadesh 100 ou 200)    Deux bases de données    Dyen et al. (1...
MCMC Logiciel TraitLab, codé en MatLab                         R. Ryder   Modèles phylogéniques de la diversification des l...
R. Ryder   Modèles phylogéniques de la diversification des langues
R. Ryder   Modèles phylogéniques de la diversification des langues
R. Ryder   Modèles phylogéniques de la diversification des langues
R. Ryder   Modèles phylogéniques de la diversification des langues
R. Ryder   Modèles phylogéniques de la diversification des langues
R. Ryder   Modèles phylogéniques de la diversification des langues
R. Ryder   Modèles phylogéniques de la diversification des langues
R. Ryder   Modèles phylogéniques de la diversification des langues
R. Ryder   Modèles phylogéniques de la diversification des langues
R. Ryder   Modèles phylogéniques de la diversification des langues
Arbre consensus : langues modernes (données Dyenet al., 1997)                                                             ...
Arbre consensus : langues anciennes (données Ringeet al., 2002)                                                           ...
Âge de la racine                   R. Ryder   Modèles phylogéniques de la diversification des langues
Questions               otázky                   kesses            spørgsmåler              cwestiwnau              pytani...
Références     R. J. Ryder & G. K. Nicholls, Missing data in a stochastic     Dollo model for cognate data, and its applic...
Prochain SlideShare
Chargement dans…5
×

Modèles phylogéniques de la diversification des langues

1 244 vues

Publié le

Séminaire des thésards du CREST, 15/12/2010

Publié dans : Formation
0 commentaire
0 j’aime
Statistiques
Remarques
  • Soyez le premier à commenter

  • Soyez le premier à aimer ceci

Aucun téléchargement
Vues
Nombre de vues
1 244
Sur SlideShare
0
Issues des intégrations
0
Intégrations
389
Actions
Partages
0
Téléchargements
6
Commentaires
0
J’aime
0
Intégrations 0
Aucune incorporation

Aucune remarque pour cette diapositive

Modèles phylogéniques de la diversification des langues

  1. 1. Modèles phylogéniques de la diversification des languesRobin J. Ryder1,2 sous la direction de Geoff K. Nicholls3 1 Centre de Recherche des Mathématiques de la Décision, Université Paris Dauphine 2 Centre de Recherche en Économie et Statistique, ENSAE 3 Department of Statistics, University of OxfordSéminaire des thésards du CREST, 15 décembre 2010 R. Ryder Modèles phylogéniques de la diversification des langues
  2. 2. Plan Un peu de linguistique Un modèle trop bien Des tests synthétiques merveilleux Des résultats révolutionnaires R. Ryder Modèles phylogéniques de la diversification des langues
  3. 3. Carles li reis, nostre emper[er]e magnesSet anz tuz pleins ad estet en Espaigne :Tresqu’en la mer cunquist la tere altaigne.N’i ad castel ki devant lui remaigne ;Mur ne citet n’i est remes a fraindre,Fors Sarraguce, ki est en une muntaigne.Chanson de Roland, 1r (XIe siècle) R. Ryder Modèles phylogéniques de la diversification des langues
  4. 4. La plus commune façon d’amollir les coeurs de ceux qu’on aoffensez, lors qu’ayant la vengeance en main, ils nous tiennentà leur mercy, c’est de les esmouvoir par submission àcommiseration et à pitié.Montaigne, Essais, I, 1 (1580) R. Ryder Modèles phylogéniques de la diversification des langues
  5. 5. Tes yeux sont si profonds qu’en me penchant pour boireJ’ai vu tous les soleils y venir se mirerS’y jeter à mourir tous les désespérésTes yeux sont si profonds que j’y perds la mémoireAragon, Les Yeux d’Elsa (1942) R. Ryder Modèles phylogéniques de la diversification des langues
  6. 6. Et la piaule swingue au son du ghetto, on tape à la porteChill c’est trop fort ! baisse le son merde ! j’connaisA chaque fois c’est pareil tant pis il faut qu’ça pèteEt profite en traître des nouveaux albums qu’Rod m’achèteAkhénaton, Juste une pression (2005) R. Ryder Modèles phylogéniques de la diversification des langues
  7. 7. Similarités entre les langues 1 2 3 9 Albanais një dy tre nëntë Anglais one two three nine Bengali ek dvi tri nay Grec hen duo treis ennea Irlandais aon do tri naoi Italien uno due tre nove Persan yak do se noh Russe odin dva tri devyat Suédois en tva tre nio Tocharien A sas wu tre nu Chinois yi er san jiu Hébreu ’ehad s(e)nayim selosa tis’a Turc bir iki üc dokuz R. Ryder Modèles phylogéniques de la diversification des langues
  8. 8. Langues Indo-Européennes modernes F IGURE: Carte effectuée avec WALS (Dryer et al., 2003) R. Ryder Modèles phylogéniques de la diversification des langues
  9. 9. Diversification des langues Les langues évoluent d’une façon semblable aux espèces biologiques Des similarités entre langues peuvent donner une indication qu’elles sont cousines Modèle le plus commun : arbre R. Ryder Modèles phylogéniques de la diversification des langues
  10. 10. Exemple d’arbre R. Ryder Modèles phylogéniques de la diversification des langues
  11. 11. Questions à résoudre Structure de l’arbre Âge des nœuds internes Âge de la racine : 6000-6500 BP ou 8000-9500 BP ? R. Ryder Modèles phylogéniques de la diversification des langues
  12. 12. Vocabulaire de base 100 ou 200 mots, présents dans quasiment toutes les langues : oiseau, main, manger, rouge... Possibilité d’emprunt (l’évolution ne suit pas un arbre), mais : “Facile” à détecter Rare Peu d’influence sur les résultats R. Ryder Modèles phylogéniques de la diversification des langues
  13. 13. Donnée binaires : il meurt Vieil anglais stierfþ Vieux haut-allemand stirbit, touwit Avestique miriiete Vieux-slave ı ˘ um˘retu Latin moritur Osque ? Classes de cognats (traits) : Vieil anglais 1 0 0 Vieux haut-allemand 1 1 0 1 {stierfþ, stirbit} Avestique 0 0 1 2 {touwit} Vieux-slave 0 0 1 3 ı ˘ {miriiete, um˘retu, Latin 0 0 1 moritur} Osque ? ? ? R. Ryder Modèles phylogéniques de la diversification des langues
  14. 14. Contraintes Contraintes sur la structure de l’arbre 30 contraintes sur l’âge de certains nœuds ou langues anciennes Ces contraintes sont nécessaires pour évaluer les taux et permettre de dater la racine. R. Ryder Modèles phylogéniques de la diversification des langues
  15. 15. Contraintes R. Ryder Modèles phylogéniques de la diversification des langues
  16. 16. Description du modèle (1) Les traits naissent à un taux λ Les traits disparaissent à un taux µ λ et µ sont constants 1 1 0 0 0 0 0 0 0 2 1 0 1 0 0 0 0 0 3 1 0 0 0 0 0 0 1 4 0 0 0 0 1 0 0 0 5 0 0 0 0 1 0 0 0 6 1 1 0 0 0 1 1 0 7 1 1 0 0 0 1 0 0 8 1 0 0 0 0 0 0 0 R. Ryder Modèles phylogéniques de la diversification des langues
  17. 17. Description du modèle (2) Des catastrophes se produisent à un taux ρ Lors d’une catastrophe, chaque trait disparaît avec une probabilité κ et Poiss(ν) traits naissent. λ/µ = ν/κ : le nombre de traits est constant en moyenne. 1 1 0 0 0 0 0 0 0 0 0 0 0 0 0 2 1 0 1 0 0 0 0 0 0 0 0 0 0 1 3 0 0 0 0 0 0 0 0 0 1 1 0 0 0 4 0 0 0 0 1 0 0 0 0 0 0 0 0 0 5 0 0 0 0 1 0 0 0 0 0 0 0 0 0 6 1 0 0 0 0 1 1 0 0 0 0 0 1 0 7 1 0 0 0 0 1 0 0 0 0 0 0 1 0 8 1 0 0 0 0 0 0 0 0 0 0 0 1 0 R. Ryder Modèles phylogéniques de la diversification des langues
  18. 18. Description du modèle (3) Processus d’observation : chaque point est manquant avec une probabilité ξi Certains traits ne sont pas observés et ne sont donc pas inclus dans les données 1 1 0 00 ? 0 0 0 00 ? 0 0 0 2 ? 0 10 0 0 ? 0 00 0 0 0 ? 3 0 ? 00 ? 0 0 0 01 1 0 0 0 4 0 0 00 ? 0 ? 0 00 0 ? 0 0 5 0 0 ?0 1 ? 0 0 00 0 0 0 0 6 1 0 00 0 ? ? 0 ?0 0 0 ? 0 7 ? 0 00 0 ? 0 ? 00 0 0 1 0 8 1 0 00 0 0 0 0 00 0 0 1 0 R. Ryder Modèles phylogéniques de la diversification des langues
  19. 19. Processus d’observation 0 1 0 0 1 0 1 1 0 0 0 0 1 1 0 0 1 1 1 1 0 1 1 1 1 1 1 1 0 0 1 0 1 1 1 0 0 0 1 1 1 1 0 0 1 R. Ryder Modèles phylogéniques de la diversification des langues
  20. 20. Processus d’observation ? 1 0 0 ? 0 1 1 0 0 0 ? ? 1 0 0 1 1 ? 1 ? ? ? 1 ? 1 1 1 0 0 1 0 1 1 1 0 0 ? 1 1 1 1 0 0 1 R. Ryder Modèles phylogéniques de la diversification des langues
  21. 21. Processus d’observation 1 0 ? 0 1 1 0 0 ? 1 0 0 1 1 1 ? ? 1 ? 1 1 0 1 0 1 1 1 0 ? 1 1 1 0 0 1 R. Ryder Modèles phylogéniques de la diversification des langues
  22. 22. Processus d’observation L(g, θ) = P[D|g, θ, O(D)] ˜ λ(t) = λP[O(t)] R. Ryder Modèles phylogéniques de la diversification des langues
  23. 23. Distribution a posteriorip(g, µ, λ, κ, ρ, ξ|D = D)   N 1 λ λ = exp − P[EZ |Z = (ti , i), g, µ, κ, ξ](1 − e−µ(tj −ti +ki TC ) ) N! µ µ i,j ∈E   N ×  P[M = ω|Z = (ti , i), g, µ](1 − e−µ(tj −ti +ki TC ) ) a=1 i,j ∈Ea ω∈Ωa L 1 e−ρ|g| (ρ|g|)kT × p(ρ)fG (g|T ) (1 − ξi )Qi ξiN−Qi µλ kT ! i=1 R. Ryder Modèles phylogéniques de la diversification des langues
  24. 24. Calcul de vraisemblance P[M = ω|Z = (ti , c), g, µ] = (c)ω∈Ωa (c)   δi,c ×  P[M = ω|Z = (tc , c), g, µ] si Y (Ωa ) ≥ 1  (c)  ω∈Ωa     (c) (c) (1−δi,c )+δi,c × P[M=ω|Z=(tc , c), g, µ] si Y (Ωa ) = 0 et Q(Ωa ) ≥ 1  (c)    ω∈Ωa  (1 − δ ) + δ v (0)  (c) (c) si Y (Ωa ) + Q(Ωa ) = 0   i,c i,c c (c)  (i.e. Ωa = {∅})  (c)  1  si Ωa = {{c}, ∅} ou {{c}} P[M = ω|Z = (tc , c), g, µ] = (i.e. Dc,a ∈ {?, 1}) (c) (c)  0 si Ωa = {∅} (i.e. Dc,a = 0)  ω∈Ωa R. Ryder Modèles phylogéniques de la diversification des langues
  25. 25. Inférence bayésienneChaîne de Markov Monte-Carlo R. Ryder Modèles phylogéniques de la diversification des langues
  26. 26. Test sur des données synthétiques F IGURE: Vrai arbre, environ 40 mots/langue F IGURE: Arbre consensus R. Ryder Modèles phylogéniques de la diversification des langues
  27. 27. Test sur des données synthétiques (2) F IGURE: Taux de disparition (µ) R. Ryder Modèles phylogéniques de la diversification des langues
  28. 28. Influence des emprunts (1) F IGURE: Vrai arbre, environ 40 mots/langue, 10% d’emprunts F IGURE: Arbre consensus R. Ryder Modèles phylogéniques de la diversification des langues
  29. 29. Influence des emprunts (2) F IGURE: Vrai arbre, environ 40 F IGURE: Arbre consensus mots/langue, 50% d’emprunts R. Ryder Modèles phylogéniques de la diversification des langues
  30. 30. Influence des emprunts (3) La structure est bien reconstruite Les dates sont sous-estimées F IGURE: Âge de la racine F IGURE: Taux de disparition (µ) R. Ryder Modèles phylogéniques de la diversification des langues
  31. 31. Présence d’emprunts ? 1 0.9 0.8 Ringe 100 b=0 b=0.1 0.7 b=0.5 b=1 0.6 0.5 0.4 2 4 6 8 10 12 14 16 18 20 22 24 R. Ryder Modèles phylogéniques de la diversification des langues
  32. 32. Validation croisée 100 10 5 2 0 −2 −5 −10 −100 HI TA TB LU LY OI UM OS LA GK AR GO ON OE OG OS PR AV PE VE CE IT GE WG NW BS BA IR II TG 0 2000 4000 6000 8000 R. Ryder Modèles phylogéniques de la diversification des langues
  33. 33. Données Langues Indo-Européennes Vocabulaire de base (Swadesh 100 ou 200) Deux bases de données Dyen et al. (1997) : 87 langues, surtout modernes Ringe et al. (2002) : 24 langues, surtout anciennes R. Ryder Modèles phylogéniques de la diversification des langues
  34. 34. MCMC Logiciel TraitLab, codé en MatLab R. Ryder Modèles phylogéniques de la diversification des langues
  35. 35. R. Ryder Modèles phylogéniques de la diversification des langues
  36. 36. R. Ryder Modèles phylogéniques de la diversification des langues
  37. 37. R. Ryder Modèles phylogéniques de la diversification des langues
  38. 38. R. Ryder Modèles phylogéniques de la diversification des langues
  39. 39. R. Ryder Modèles phylogéniques de la diversification des langues
  40. 40. R. Ryder Modèles phylogéniques de la diversification des langues
  41. 41. R. Ryder Modèles phylogéniques de la diversification des langues
  42. 42. R. Ryder Modèles phylogéniques de la diversification des langues
  43. 43. R. Ryder Modèles phylogéniques de la diversification des langues
  44. 44. R. Ryder Modèles phylogéniques de la diversification des langues
  45. 45. Arbre consensus : langues modernes (données Dyenet al., 1997) French_Creole_C French_Creole_D French Walloon Provencal Portuguese_ST Brazilian 95 Spanish Catalan Italian Ladin 67 Sardinian_N Sardinian_C 72 Sardinian_L Vlach 84 Romanian_List Flemish 72 Afrikaans Dutch_List Frisian German_ST Penn_Dutch Takitaki English_ST Swedish_VL Swedish_Up Swedish_List Danish Riksmal Icelandic_ST Faroese 93 Breton_ST Breton_SE Breton_List Welsh_N Welsh_C Irish_A Irish_B 94 Czech_E Czech Slovak 77 Lusatian_U Lusatian_L Polish Russian Ukrainian Byelorussian 77 Bulgarian Macedonian Serbocroatian Slovenian Lithuanian_O Lithuanian_ST Latvian Greek_MD Greek_ML Greek_Mod 61 Greek_D Greek_K Armenian_List Armenian_Mod TOCHARIAN_A TOCHARIAN_B HITTITE Albanian_T Albanian_Top Albanian_G 94 Albanian_C Albanian_K Lahnda Panjabi_ST 81 Hindi Gujarati Marathi Bengali Nepali_List Khaskura Singhalese 76 Gypsy_Gk Kashmiri Tadzik Persian_List Wakhi Baluchi Afghan Waziri Ossetic 8000 7000 6000 5000 4000 3000 2000 1000 0 R. Ryder Modèles phylogéniques de la diversification des langues
  46. 46. Arbre consensus : langues anciennes (données Ringeet al., 2002) oldhighgerman oldenglish oldnorse gothic oscan umbrian 66 latin welsh oldirish 85 oldpersian avestan vedic 58 lithuanian latvian oldprussian oldcslavonic greek 78 armenian lycian luvian hittite 62 tocharian_b tocharian_a albanian 8000 7000 6000 5000 4000 3000 2000 1000 0 R. Ryder Modèles phylogéniques de la diversification des langues
  47. 47. Âge de la racine R. Ryder Modèles phylogéniques de la diversification des langues
  48. 48. Questions otázky kesses spørgsmåler cwestiwnau pytania preguntes preguntas vrae kláusimai Fragen âîïðîñû quaestiones ˘ întrebari questions vragen ρωτ η σ ις ´ çàïèòàííi spurningar domande spørsmåler questões frågor vprašanja R. Ryder Modèles phylogéniques de la diversification des langues
  49. 49. Références R. J. Ryder & G. K. Nicholls, Missing data in a stochastic Dollo model for cognate data, and its application to the dating of Proto-Indo-European (2011), JRSS C G. K. Nicholls, Horses or farmers ? The tower of Babel and confidence in trees (2008), Significance (vulgarisation) R. J. Ryder, Phylogenetic Models of Language Diversification (2010), DPhil. thesis, University of Oxford R. Ryder Modèles phylogéniques de la diversification des langues

×