Incidental findings throughout multigene panel testing in cancer genetics
Td phylogénie
1. Réalisés par
Mariem Khalfaoui (MRBI 2020-2021)
Construction et
interprétation d’un
arbre phylogénique
Travaux dirigés du cours
Evolution moléculaire et phylogénie
Assuré par
Dr Sondès Haddad-Boubaker
2. 1.Contexte
Un arbre phylogénétique est un arbre schématique dont le but est de comprendre les relations
de parenté, de retracer l’historique évolutif d’un gène, d’une famille de gènes ou d’une espèce. Les
arbres phylogénétiques sont, en effet, une très bonne manière de schématiser et d'appréhender ces
relations rapidement (Yoann, 2012). Dans les travaux dirigés réalisés dans le cadre du cours
intitulé « Evolution moléculaire et phylogénie », nous avons construit un arbre phylogénétique afin
de déterminer le génotype auquel correspondent nos séquences d’intérêt. Ce travail a été réalisé
selon le pipeline suivant
Figure 1 : Image extraite du cours Evolution moléculaire et phylogénie de Dr.Haddad
2.Méthodes
Les étapes sont plus détaillées dans le Tableau 1.
Nos séquences d’intérêt sont des séquences de souches Tunisiennes de l’espèce Rhinovirus.
En effet, les rhinovirus se caractérisent par une grande diversité génétique. Trois espèces sont
rapportées pour ces pathogènes strictement humains : RV-A, -B et –C regroupant plus d’une
centaine de types définis sur la base des analyses des séquences des régions capsidales VP1 et/ou
3. VP4-VP2 (VIRUS_RHINOVIRUS.pdf, s. d.). On s’intéresse à déterminer quels souches tunisiennes
pourraient s’avérer appartenir à l’espèce HRV-B et ce par la construction d’un arbre phylogénétique.
Afin d’obtenir un arbre enraciné, Nous avons utilisé le « coxsackievirus B5 » comme
Outergroup qui appartient au même genre que nos séquences : Enterovirus mais pas à la même
espèce (Taxonomy browser (Coxsackievirus B5), s. d.)
Tableau 1 : Etapes de construction d’un arbre phylogénétique
° Etapes Liens et captures d’écran
1
Créer un fichier local contenant les identifiants des
séquences à étudier (séquences de souches tunisiennes de
Rhinovirus) ainsi que ceux des séquences de références
préalablement sélectionnées.
2
En créer un fichier multi-Fasta via la plateforme batch de
NCBI
(https://www.ncbi.nlm.nih.gov/sites/b
atchentrez)
3 Charger le fichier généré sur ClustalX 2.1
4
Lancer l’alignement après avoir choisi le format « fasta »
pour le fichier qui sera généré en aval de cet étape
Ouvrir le fichier généré sur MEGA 7.0.26 puis
commencer l’analyse (Via soit l’onglet « File »)
4. 5
Préparer et nettoyer les données (sélectionner la première
position commune à toutes les séquences puis la position
initiale de l’alignement en gardant la première sélection
par le bouton « shift », de même pour la fin des séquences
afin de les supprimer.
Longueur finale des séquences dans notre cas 301
-Gap commun à la position 115
-Possibilité d’améliorer la visualisation en ordonnant les
séquences par espèces pas par abréviations
6
Refaire l’alignement par Muscle (align by musle-> align
DNA), une étape qui servira à la fois pour vérification et
pour l’amélioration de la qualité de l’alignement.
7
Construire un arbre
phylogénétique basé sur le
modèle NJ, avec 500
réplications : Cliquer sur le
bouton « Compute » après le
choix de paramètres
appropriés
5. 8
Choisir le type d’affichage
(View Tree Branch
Style) puis via le bouton
« Options », limiter
l’affichage des branches à
celles établies avec un
Bootstrap supérieur ou égale
à 70%
9
Sélectionner un nœud, une
branche et utiliser soit le
bouton (Options) soit la
barre de raccourcis à gauche
pour paramétrer l’arbre, sous-
arbre ou branche selon le
besoin de l’étude et surtout
pour une meilleure
visualisation des résultats.
6. 3.Résultats
Figure. Evolutionary relationships of taxa
The evolutionary history was inferred using the Neighbor-Joining method [1]. The optimal tree with the sum
of branch length = 6.50088234 is shown. The percentage of replicate trees in which the associated taxa
clustered together in the bootstrap test (500 replicates) are shown next to the branches [2]. The tree is drawn to
scale, with branch lengths in the same units as those of the evolutionary distances used to infer the phylogenetic
tree. The evolutionary distances were computed using the Maximum Composite Likelihood method [3] and
are in the units of the number of base substitutions per site. The analysis involved 87 nucleotide sequences.
Codon positions included were 1st+2nd+3rd+Noncoding. All positions containing gaps and missing data were
eliminated. There were a total of 291 positions in the final dataset. Evolutionary analyses were conducted in
MEGA7 [4].
1. Saitou N. and Nei M. (1987). The neighbor-joining method: A new method for reconstructing phylogenetic trees. Molecular Biology
and Evolution 4:406-425.
2. Felsenstein J. (1985). Confidence limits on phylogenies: An approach using the bootstrap. Evolution 39:783-791.
3. Tamura K., Nei M., and Kumar S. (2004). Prospects for inferring very large phylogenies by using the neighbor-joining method.
Proceedings of the National Academy of Sciences (USA) 101:11030-11035.
4. Kumar S., Stecher G., and Tamura K. (2016). MEGA7: Molecular Evolutionary Genetics Analysis version 7.0 for bigger
datasets.Molecular Biology and Evolution 33:1870-1874.
DQ473487.HRV-B35.164A
HRV-A/C
0,05
7. 4.Remarques et interprétations :
Lors de l’étape 6, un alignement par MUSCLE est considéré comme étape d’optimisation
car son algorithme construit un alignement progressivement, auquel un raffinement horizontal est
ensuite appliqué (Edgar, 2004). Ceci permet une ré-optimisation des colonnes pendant le processus
tandis que Clustal implémente un algorithme itératif de sorte que les erreurs produites à l’étape
suivante sont peu susceptibles d’être corrigées à l’étape ultérieure (What Is the Difference between
MUSCLE and CLUSTALW in Aligning Amino Acid Sequences?, s. d.)
Dans le cas de nos séquences, l’alignement après nettoyage des données est pratiquement le
même.
Pour l’étape de choix des paramètres pour la construction e l’arbre, nous avons choisi la
méthode Neighbour Joining (NJ) qui est une méthode basée sur la matrice de distance tout comme
la méthode Unweighted Pair Group Method with Arithmetic Mean (UPGMA) mais elle a
l'avantage d'être plus rapide. En général, elle est utilisée pour faire des arbres de plusieurs milliers
de séquences (Yoann, 2012). Dans le cadre de nos travaux dirigés, nous avons utilisé le NJ, question
de gestion de temps.
L’évaluation de robustesse de l’arbre généré est réalisée par le « bootsrap ». Cette
technique est un dérivé des simulations de Monte-Carlo consistant à échantillonner les positions de
l'alignement puis relancer la construction de l’arbre phylogénétique de façon itérative. Une
comparaison est réalisée, enfin, entre les résultats obtenus après plusieurs répétitions (500 dans notre
cas). Le résultat est représenté sous la forme d'un arbre consensus dans lequel figurent les
regroupements majoritairement apparus. Une valeur de « bootstrap » (pourcentage de 0 à 100%)
est associée à chaque branche de l'arbre indiquant le nombre de fois où cette branche a été
retrouvée au fil des répétitions et juger ainsi leur crédibilité. En d'autres termes, la valeur de
« bootstrap » indique une évaluation de la résistance d'un noeud à la perturbation des données
(L’analyse de la robustesse par «bootstrap», s. d.). Nous avons considéré des bootstrap supérieurs
à 70% pour s’assurer de n’avoir que des noeuds statistiquement solides donc des associations entre
souches plus fiables.
Pour une meilleure exploitation de l’arbre générée, on comprime les sous-arbres qui ne
contiennent pas de séquences de références correspondants au HRV-B. Selon les associations
observées sur l’arbre, on pourrait conclure que HRV 31, HRV 32 et HRV 49 correspondent
respectivement à un HRV-B42, HRV-B72 et HRV-B48. Pour HRV 31 et HRV 32, le bootstrap est
8. de 100% donc leurs associations aux groupes cités sont confirmées. L’association de HRV49 est de
95% ce qui demeure statistiquement très robuste. Alors, grâce à l’établissement de l’arbre on a pû
identifier nos souches d’intérêt. En effet, Les rhinovirus sont parmi les principales causes d'infection
respiratoire aiguë sévère (SARI). Leurs impacts ainsi que leur diversité génétique varient d'une
région à l'autre et on en sait peu sur les régions d'Afrique du Nord. Une meilleure connaissance des
HRV prélevés en Tunisie, permetterait la mise en évidence de la prévalence de chaque génotype.
D’autres études phylogénétiques plus spécifiques permettraient de retracer la propagation de ces
HRV ainsi que leurs origines épidémiologiques (Haddad-Boubaker et al., 2020).
Références bibliographiques
Edgar, R. C. (2004). MUSCLE : A multiple sequence alignment method with reduced time and space
complexity. BMC Bioinformatics, 5(1), 113. https://doi.org/10.1186/1471-2105-5-113
Haddad-Boubaker, S., Meftah, K., Bouafsoun, C., Boutiba, A., Mnif, K., Slim, A., Kechrid, A., &
Smaoui, H. (2020). High genotypic diversity of Rhinoviruses obtained from Tunisian
children with Severe Acute Respiratory Infection. The Journal of Infection in Developing
Countries.
L’analyse de la robustesse par «bootstrap». (s. d.). Consulté 16 mai 2021, à l’adresse
https://www.labunix.uqam.ca/~makarenkov_v/BIF7002/Rapport_Vo/BIO7002/la-
bioinformatique/la-construction-darbre-phylogenetique/lanalyse-de-la-robustesse-par-
bootstrap.html
Taxonomy browser (Coxsackievirus B5). (s. d.). Consulté 16 mai 2021, à l’adresse
https://www.ncbi.nlm.nih.gov/Taxonomy/Browser/wwwtax.cgi?mode=Info&id=12074&lv
l=3&lin=f&keep=1&srchmode=1&unlock
VIRUS_RHINOVIRUS.pdf. (s. d.). Consulté 17 mai 2021, à l’adresse https://www.sfm-
microbiologie.org/wp-content/uploads/2019/02/VIRUS_RHINOVIRUS.pdf
What is the difference between MUSCLE and CLUSTALW in aligning amino acid sequences? (s. d.).
ResearchGate. Consulté 16 mai 2021, à l’adresse https://www.researchgate.net/post/What-
is-the-difference-between-MUSCLE-and-CLUSTALW-in-aligning-amino-acid-sequences
Yoann, M. (2012, août 2). Les arbres phylogénétiques : Construction et interprétation. blog
bioinformatique communautaire scientifique. https://bioinfo-fr.net/les-arbres-
phylogeniques-construction-et-interpretation