Modèles phylogénétiques de la diversification des langues Robin J. Ryder CEREMADE – Paris Dauphine / CREST - INSEE Travaux...
Carles li reis, nostre emper[er]e magnes Set anz tuz pleins ad estet en Espaigne : Tresqu’en la mer cunquist la tere altai...
La plus commune façon d'amollir les coeurs de ceux qu'on a offensez, lors qu'ayant la vengeance en main, ils nous tiennent...
Tes yeux sont si profonds qu'en me penchant pour boire J'ai vu tous les soleils y venir se mirer S'y jeter à mourir tous l...
Et la piaule swingue au son du ghetto, on tape à la porte Chill c'est trop fort ! baisse le son merde ! j'connais A chaque...
Similarités entre langues
Langues Indo-Européennes
Diversification des langues <ul><li>Les langues évoluent d'une façon semblable aux espèces biologiques
Des similarités entre langues peuvent donner une indication qu'elles sont cousines
Modèle le plus commun : arbre </li></ul>
 
Questions à résoudre <ul><li>Structure de l'arbre
Âge des nœuds internes
Âge de la racine : 6000-6500 BP ou 8000-9500 BP ? </li></ul>
Vocabulaire de base <ul><li>100 ou 200 ou mots, présents dans quasiment toutes les langues :  oiseau, main, manger, rouge...
Possibilité d'emprunt (l'évolution ne suit pas un arbre), mais :
&quot;Facile&quot; à détecter
Rare
Peu d'influence sur les résultats </li></ul>
Données binaires <ul><li>Anglais :  sea
Allemand  :  See ,  Meer
Français :  mer
Italien :  mare
Grec :  thalasa </li></ul>Classes de cognats : 1. {sea, See} 2. {Meer, mer, mare} 3. {thalasa}
Contraintes <ul><li>Contraintes sur la structure de l'arbre
30 contraintes sur l'âge de certains nœuds ou langues anciennes
Ces contraintes sont nécessaires pour évaluer les taux et permettre de dater la racine. </li></ul>
 
Description du modèle‏ <ul><li>Les traits naissent à un taux  λ
Les traits disparaissent à un taux μ
λ et μ sont constants </li></ul>
Description du modèle (2)‏ <ul><li>Des catastrophes se produisent à un taux  ρ
Lors d'une catastrophe, chaque trait disparaît avec une probabilité κ et Poiss(ν) traits naissent.
λ/μ=ν/κ : le nombre de traits est constant en moyenne. </li></ul>
Description du modèle (3)‏ <ul><li>Processus d'observation: chaque point est manquant avec une probabilité ξ i
Certains traits ne sont pas observés et ne sont donc pas inclus dans les données </li></ul>
Processus d'observation
Processus d'observation
Processus d'observation
Processus d'observation
Inférence bayésienne <ul><li>Distribution a priori des paramètres
La vraisemblance donne une distribution a posteriori. </li></ul>
Distribution a posteriori
Calcul de vraisemblance
Chaîne de Markov Monte Carlo <ul><li>L'estimation directe de cette distribution est difficile.
On construit une chaîne de Markov dont la distribution à l'équilibre est la distribution cherchée. </li></ul>
Chaîne de Markov Monte Carlo
Test sur des données synthétiques Vrai arbre, ~40 mots/langue Arbre consensus
Test sur des données synthétiques (2)‏ Taux de disparition (μ)
Prochain SlideShare
Chargement dans…5
×

Modèles phylogénétiques de la diversification des langues

1 624 vues

Publié le

Publié dans : Technologie, Formation
0 commentaire
0 j’aime
Statistiques
Remarques
  • Soyez le premier à commenter

  • Soyez le premier à aimer ceci

Aucun téléchargement
Vues
Nombre de vues
1 624
Sur SlideShare
0
Issues des intégrations
0
Intégrations
24
Actions
Partages
0
Téléchargements
14
Commentaires
0
J’aime
0
Intégrations 0
Aucune incorporation

Aucune remarque pour cette diapositive

Modèles phylogénétiques de la diversification des langues

  1. 1. Modèles phylogénétiques de la diversification des langues Robin J. Ryder CEREMADE – Paris Dauphine / CREST - INSEE Travaux effectués avec Geoff K. Nicholls au Département de Statistiques, Université d'Oxford www.slideshare.net/robinryder/nice
  2. 2. Carles li reis, nostre emper[er]e magnes Set anz tuz pleins ad estet en Espaigne : Tresqu’en la mer cunquist la tere altaigne. N’i ad castel ki devant lui remaigne ; Mur ne citet n’i est remes a fraindre, Fors Sarraguce, ki est en une muntaigne. Chanson de Roland , 1r (XIème siècle)
  3. 3. La plus commune façon d'amollir les coeurs de ceux qu'on a offensez, lors qu'ayant la vengeance en main, ils nous tiennent à leur mercy, c'est de les esmouvoir par submission à commiseration et à pitié. Montaigne, Essais , I, 1 (1580)
  4. 4. Tes yeux sont si profonds qu'en me penchant pour boire J'ai vu tous les soleils y venir se mirer S'y jeter à mourir tous les désespérés Tes yeux sont si profonds que j'y perds la mémoire Aragon, Les Yeux d'Elsa (1942)
  5. 5. Et la piaule swingue au son du ghetto, on tape à la porte Chill c'est trop fort ! baisse le son merde ! j'connais A chaque fois c'est pareil tant pis il faut qu'ça pète Et profite en traître des nouveaux albums qu'Rod m'achète Akhénaton, Juste une pression (2005)
  6. 6. Similarités entre langues
  7. 7. Langues Indo-Européennes
  8. 8. Diversification des langues <ul><li>Les langues évoluent d'une façon semblable aux espèces biologiques
  9. 9. Des similarités entre langues peuvent donner une indication qu'elles sont cousines
  10. 10. Modèle le plus commun : arbre </li></ul>
  11. 12. Questions à résoudre <ul><li>Structure de l'arbre
  12. 13. Âge des nœuds internes
  13. 14. Âge de la racine : 6000-6500 BP ou 8000-9500 BP ? </li></ul>
  14. 15. Vocabulaire de base <ul><li>100 ou 200 ou mots, présents dans quasiment toutes les langues : oiseau, main, manger, rouge...
  15. 16. Possibilité d'emprunt (l'évolution ne suit pas un arbre), mais :
  16. 17. &quot;Facile&quot; à détecter
  17. 18. Rare
  18. 19. Peu d'influence sur les résultats </li></ul>
  19. 20. Données binaires <ul><li>Anglais : sea
  20. 21. Allemand : See , Meer
  21. 22. Français : mer
  22. 23. Italien : mare
  23. 24. Grec : thalasa </li></ul>Classes de cognats : 1. {sea, See} 2. {Meer, mer, mare} 3. {thalasa}
  24. 25. Contraintes <ul><li>Contraintes sur la structure de l'arbre
  25. 26. 30 contraintes sur l'âge de certains nœuds ou langues anciennes
  26. 27. Ces contraintes sont nécessaires pour évaluer les taux et permettre de dater la racine. </li></ul>
  27. 29. Description du modèle‏ <ul><li>Les traits naissent à un taux λ
  28. 30. Les traits disparaissent à un taux μ
  29. 31. λ et μ sont constants </li></ul>
  30. 32. Description du modèle (2)‏ <ul><li>Des catastrophes se produisent à un taux ρ
  31. 33. Lors d'une catastrophe, chaque trait disparaît avec une probabilité κ et Poiss(ν) traits naissent.
  32. 34. λ/μ=ν/κ : le nombre de traits est constant en moyenne. </li></ul>
  33. 35. Description du modèle (3)‏ <ul><li>Processus d'observation: chaque point est manquant avec une probabilité ξ i
  34. 36. Certains traits ne sont pas observés et ne sont donc pas inclus dans les données </li></ul>
  35. 37. Processus d'observation
  36. 38. Processus d'observation
  37. 39. Processus d'observation
  38. 40. Processus d'observation
  39. 41. Inférence bayésienne <ul><li>Distribution a priori des paramètres
  40. 42. La vraisemblance donne une distribution a posteriori. </li></ul>
  41. 43. Distribution a posteriori
  42. 44. Calcul de vraisemblance
  43. 45. Chaîne de Markov Monte Carlo <ul><li>L'estimation directe de cette distribution est difficile.
  44. 46. On construit une chaîne de Markov dont la distribution à l'équilibre est la distribution cherchée. </li></ul>
  45. 47. Chaîne de Markov Monte Carlo
  46. 48. Test sur des données synthétiques Vrai arbre, ~40 mots/langue Arbre consensus
  47. 49. Test sur des données synthétiques (2)‏ Taux de disparition (μ)
  48. 50. Influence des emprunts Vrai arbre, ~40 mots/langue Emprunts : 10% Arbre consensus
  49. 51. Influence des emprunts (2) Arbre consensus Vrai arbre, ~40 mots/langue Emprunts : 50%
  50. 52. Influence des emprunts (3) <ul><li>La structure est bien reconstruite
  51. 53. Les dates sont sous-estimées </li></ul>Âge de la racine Taux de disparition ( μ) Emprunts : 50%
  52. 54. Présence d'emprunts ?
  53. 55. Validation croisée
  54. 56. Données <ul><li>Langues Indo-Européennes
  55. 57. Vocabulaire de base (Swadesh 100 ou 200)‏
  56. 58. Deux bases de données
  57. 59. Dyen et al. (1997): 87 langues, surtout modernes
  58. 60. Ringe et al. (2002): 17 langues, surtout anciennes </li></ul>
  59. 61. MCMC <ul><li>Catastrophes incluses
  60. 62. Données manquantes incluses
  61. 63. Logiciel TraitLab, codé en MatLab </li></ul>
  62. 76. Âge de la racine
  63. 77. Questions otázky spørgsmåler vragen questions Fragen domande pytania questões întrebări вопросы vprašanja preguntes preguntas frågor vrae spurningar quaestiones ερωτήσεις въпроси kesses spørsmåler kláusimai запитанні سوال प्रश्न cwestiwnau

×