1. Université Batna 2
Réaliser par:
Mr. Ghedadba N
République Algérienne Démocratique et populaire
Cours de Bioinformatique
(M1 Biotechnologie végétale +
M1 EDP)
Cours 2 : Alignement de
séquences biologiques
2. Alignement : opération de base en Bioinformatique
qui à pour but d’identifier des zones conservés entre
séquences
Alignement = comparaison entre
2 séquences ou plus
Nucléiques-Nucléiques
(ADN ou ARN)
¨Protéiques
3. Séq 1 = A T G G C T A A T
Séq 2 = A C - - G A T C T
Identité = Match
Substitution = Remplacement (Mismatch)
Gap = (insertion/Délétion) = Indel
Mutations
4. Score élevé = Bon correspondance entre 2 séquences = forte
ressemblance = Alignement optimal = relation évolutive entre les
séquences analysées (Homologie)
Alignement optimal : alignement des séquences qui produit le plus haut
score possible
Homologie : 2 séquences sont homologues si elles ont un ancêtre
commn = dérivent du même ancètre
Score faible (négatif) = divergence entre les 2 séquences = pas de
relation évolutive entre les 2 séquences.
17. Identité & Similarité ?
Identité = même résidu (même base azotée ou même acide
aminé)
Similarité = 2 résidus sont similaires si la substitution de l’un
par l’autre soit n’a aucun/ peu d’effet sur la fonctionnalité
Homologie = Basée sur la similarité entre 2 séquences =
dérivent du même ancêtre = partagent un ancêtre commun
Une Homologie peut indiquer une structure ou fonction
similaire
% d’identité ˃ 30% (pas toujours)!!!
18. Identité & Similarité (suite)
Attention comme même!
Protéines avec les mêmes fonctions mais qui ont des
séquences différentes
2 séquences similaires mais n’ont pas un ancêtre commun
Interprétation biologique nécessaire pour confirmer ou
infirmer l’homologie
Identité au niveau de la séquence ↔identité au niveau de
la structure ↔ identité au niveau de la fonction
19. Explication biologiques?
* Théorie de l’évolution →→ l’hypothèse la plus plausible
* Mutations au cours de l’évolution
→ Substitution (Remplacement)
→ Suppression (délétion)
→ Ajout (insertion)
→ Indel
20. A C G T
A 3 -1 1 -1
C -1 3 -1 1
G 1 -1 3 -1
T -1 1 -1 3
Version 2
Version 1
21.
22. Score de substitution
Certaines substitutions sont plus au moins acceptables → évolution
→Propriétés physicochimiques et biochimiques plus ou moins proche
Quantifier la probabilité d’une substitution →lui affecter un score
Substitution de a par b: deux possibilités
Aléatoire: a et b sont indépendants
P(a)×p(b)
Non aléatoire: a et b sont dépendants → relation évolutive
P(a→b)
Le modèle le plus probable?
M(a,b) = P(a→b)/P(a)×p(b)
M(a,b) ˃ 1 = modèle évolutive privilégié
M(a,b) ˂ 1 = modèle évolutive privilégié
23. Score de substitution (suite)
Seq (1) a1 a2 a3 ... ak … aL
Seq (2) b1 b2 b3 …. bk … bL
Scores M(a1, b1) M(a2,b2) M(a3,b3) M(…, …) M(ak, bk) … M(aL, bL)
P = ∏ M(ak, bk) → S = log (p) = ∑log(M(ak,bk))
S = ∑M’(ak,bk) ou M’(ak,bk) = log(M(ak,bk)).
24. Matrice PAM
* PAM = Point of accepted Mutation
* Travail de Margaret Dayhoff (1978)
* Matrice symétrique (20×20)= S(A,B) = S (B, A)
* 71 groupes de protéines avec 1572 mutations:
* l’hypothèse = les protéines d’une famille sont
homologues→ partagent le même ancêtre
Cytochromes C = très préservés par l’évolution (85%
d’identité (conservation) dans chaque groupe
Basées sur la construction d’arbres phylogénétiques
25. Famille de la Matrice PAM (suite)
PAM 1 = matrice de probabilité ou une seule mutation est
accepté dans chaque 100 résidus
PAM 0 = matrice de probabilité ou zéro mutation est accepté
dans chaque 100 résidus → matrice d’identité ou aucune
mutation n’est accepté
PAM 50 = matrice de probabilité ou 50 mutations sont
acceptés dans chaque 100 résidus
26.
27. Matrice BLOSUM
* BLOSUM = BlocKs Substitution Matrix
* Travail de Henikoff (1992)
* Matrice symétrique (20×20)= score de substitution entre
les acides aminés S(A,B) = S (B, A)
* Base de données utilisées (BLOCKS) =
http://blocks.fhcrc.org/
•504 groupes de protéines
•2205 blocs ou motifs contigus de séquences (sans trous)
→Motifs les plus conservés :
•Pourcentage d’identité %= garder uniquement les blocs qui
après un alignement possèdent un % d’identité ˃ à un seuil
donée
35. Alignement local = signification biologique???
Protéine (1) Protéine (2)
36.
37.
38.
39. À chaque type d’alignement est associé un programme informatique
permettant d’optimiser le traitement.
40.
41.
42. Comment trouver le meilleur alignement
• Meilleur alignement?
Alignement avec les moins de changement possible entre les 2
séquences
Alignement avec le plus grand score de similarité
Tester toutes les combinaisons possibles :
Nombre très grand → Exponentiel en fonction de la taille de
séquences (2e2n)
Séq avec n = 10 → plus d’un million de possibilités
Plusieurs familles d’algorithmes et de méthodes:
Exemples d’algorithmes:
* Programmation dynamique
* Diviser pour régner
* Méthodes heuristiques
43. Programmation dynamique
• Nom barbare = planification, ordonnancement ou optimisation
• Problèmes d’optimisation: Exemples
plus court chemin, sac à dos
Objectif: Chercher la solution optimale d’un problème donné ↔
trouver la solution qui maximise ou minimise une fonction objective.
Pour notre cas:
Maximiser le score de similarité
↔ minimiser les changements opérés sur une séquence
pour obtenir l’autre.
44. Programmation dynamique (suite)
• Elle donne le meilleur alignement global entre 2 séquences
nucléiques ou protéiques.
• Soit 2 séquences : S1 (n résidus) & S2(m résidus). La 1ère étape
consiste à construire la table T (matrice 2 D) : (m+1)× (n+1) cases ou
le remplissage se fera ligne par ligne suivant l’algorithme suivant:
∆: cte pénalisante; M: matrice de substitutions;
1. Algorithme de Needleman & Wunsch (1970)
∆
∆
∆
∆
1
2
3
45. S1(1) S1(2) …. …. …. S1(n)
T(0,0) … …. …. … … ….
S2(1) … …
S2(2) … …
…… … …
…… … …. ….
S2(m) … T(m, n)
1 2
3
Tableau 1. Illustration de l’algorithme Needleman & Wunsch
Dans l’étape d’initialisation,
l’élément T(0,0) est initialisé à 0
Pour chaque case de cette table, on doit indiquer d’où vient le
score attribué par un flèche. Cela va nous aider plus tard à
construire les alignements optimaux. Trois cas possible se
présentent pour une case T(i, j).
46. • La 2ème étape consiste à construire les alignements optimaux à partir
de T en considérant exclusivement que les chemins qui mènent du
dernier élément en bas à droite T(m,n) à l’élément T(0,0). Quelques
soit la composition des 2 séquences à comparer, il ya tjrs au moins un
alignement optimal global.
1. Algorithme de Needleman & Wunsch (1970) (suite)
S1(1) S1(2) …. …. …. S1(n)
T(0,0) … …. …. … … ….
S2(1) … …
S2(2) … …
…… … …
…… … …. ….
S2(m) … T(m, n)
54. • Il faut noter que le score final obtenu avec
l’algorithme Needleman & Wunsch dépend
fortement de la matrice de substitution choisie et
de la pénalité donnée aux Indels. De plus, ce score
est sévèrement pénalisé par la présence des « non
homologies » locales.
• Enfin, l’alignement avec cette méthode se fait sur
toute la longueur des 2 séquences, ce qui n’est pas
pratique pour trouver des ressemblances locales
notamment pour les séquences qui ont fortement
divergées dans le temps. C’est la raison pour
laquelle qu’un 2 ème algorithme semblable au
premier à été proposé. Il s’agit de l’algorithme de
Smith & Waterman.
55. 2. Algorithme de Smith & Waterman (1981)
• Il permet d’effectuer un alignement local entre 2
séquences dans le but de révéler des homologies
locales possibles. Il est écrit ci-dessous:
56.
57.
58.
59. Exemple pour les séquences protéiques
• Utilisez la méthode de programmation dynamique
pour déterminer l’alignement global optimal entre
les deux séquences suivantes :
• Séquence 1 : FKRLMA; Séquence 2 : FTKFRA
• ∆ = -6; Matrice Blosum 62
60. Etape 1: Remplissage de la table (T)
j 0 1 2 3 4 5 6
i F K R L M A
0 T(0,0)
1 F
2 T
3 K
4 F
5 R
6 A
61. 1. Initialisation
j 0 1 2 3 4 5 6
i F K R L M A
0 0 -6 -12 -18 -24 -30 -36
1 F -6
2 T -12
3 K -18
4 F -24
5 R -30
6 A -36
62. 2. Remplissage de la table ligne par ligne
j 0 1 2 3 4 5 6
i F K R L M A
0 0 -6 -12 -18 -24 -30 -36
1 F -6 6
2 T -12
3 K -18
4 F -24
5 R -30
6 A -36
T(1,1) = ???; i =1; j = 1
Max: = T(0,0) + M (F,F)= 0 + 6 = 6
= T(0,1)+ Delta = -6 + (-6) = - 12
=T(1,0)+ Delta = -6 + (-6) = -12
63. 2. Remplissage de la table ligne par ligne (suite)
j 0 1 2 3 4 5 6
i F K R L M A
0 0 -6 -12 -18 -24 -30 -36
1 F -6 6 0 -6 -12 -18 -24
2 T -12
3 K -18
4 F -24
5 R -30
6 A -36
T(1,2) = ???; i = 1; j = 2
Max: = T(0,1) + M (F,K)= -6 + -3 = -9
= T(0,2)+ Delta = -12 + (-6) = - 18
=T(1,1)+ Delta = 6 + (-6) = 0
64. 2. Remplissage de la table ligne par ligne (suite)
j 0 1 2 3 4 5 6
i F K R L M A
0 0 -6 -12 -18 -24 -30 -36
1 F -6 6 0 -6 -12 -18 -24
2 T -12 0 5 -1 -7 -13 -18
3 K -18 -6 5 7 1 -5 -11
4 F -24 -12 -1 2 7 1 -5
5 R -30 -18 -7 4 1 6 0
6 A -36 -24 -13 -2 3 0 10
65. 2. Remplissage de la table ligne par ligne (suite)
j 0 1 2 3 4 5 6
i F K R L M A
0 0 -6 -12 -18 -24 -30 -36
1 F -6 6 0 -6 -12 -18 -24
2 T -12 0 5 -1 -7 -13 -18
3 K -18 -6 5 7 1 -5 -11
4 F -24 -12 -1 2 7 1 -5
5 R -30 -18 -7 4 1 6 0
6 A -36 -24 -13 -2 3 0 10
L’alignement global optimal entre ces 2 séquences possède
le score = 10 (dernier élément de la table: T(6,6). Un seul
chemin mène de T(0,0) à T(6,6) ce qui veut dire qu’il ya un
seul alignement global optimal trouvé.
Séq (1) F K R L M A
Séq(2) F T K F F A
66. Exemple (2): pour les séquences protéiques
• Utilisez la méthode de programmation dynamique
pour déterminer l’alignement local optimal entre
les deux séquences suivantes :
• Séquence 1 : A G V S I L N Y A;
• Séquence 2 : V S I L Y A K R
• ∆ = -6; Matrice Blosum 62
67. Etape 1: Remplissage de la table (T)
j 0 1 2 3 4 5 6 7 8 9
i A G V S I L N Y A
0 0
1 V
2 S
3 I
4 L
5 Y
6 A
7 K
8 R
68. 1. Initialisation
j 0 1 2 3 4 5 6 7 8 9
i A G V S I L N Y A
0 0 0 0 0 0 0 0 0 0 0
1 V 0
2 S 0
3 I 0
4 L 0
5 Y 0
6 A 0
7 K 0
8 R 0
69. 2. Remplissage de la table ligne par ligne
j 0 1 2 3 4 5 6 7 8 9
i A G V S I L N Y A
0 0 0 0 0 0 0 0 0 0 0
1 V 0 0 0 4 0 3 1 0 0 0
2 S 0 1 0 0 8 2 1 2 0 1
3 I 0 0 0 3 2 12 6 0 1 0
4 L 0 0 0 1 1 6 16 10 4 0
5 Y 0 0 0 0 0 0 10 14 17 11
6 A 0 4 0 0 1 0 4 8 12 21
7 K 0 0 2 0 0 0 0 4 6 15
70. 3. Construction de l’alignement local optimal
j 0 1 2 3 4 5 6 7 8 9
i A G V S I L N Y A
0 0 0 0 0 0 0 0 0 0 0
1 V 0 0 0 4 0 3 1 0 0 0
2 S 0 1 0 0 8 2 1 2 0 1
3 I 0 0 0 3 2 12 6 0 1 0
4 L 0 0 0 1 1 6 16 10 4 0
5 Y 0 0 0 0 0 0 10 14 17 11
6 A 0 4 0 0 1 0 4 8 12 21
7 K 0 0 2 0 0 0 0 4 6 15
Séquence 1: A G V S I L N Y A - -
Séquence 2 - - V S I L - Y A K R