SlideShare une entreprise Scribd logo
1  sur  51
Télécharger pour lire hors ligne
La Génomique
Biologie, informatique, évolution
Hugues Roest Crollius
hrc@ens.fr
Dyogen Group
L3 – Introduction aux sciences du vivant – 03.12.2013
La « génomique fonctionnelle »
La « génomique évolutive » TAATGGTACCAGTTAGCAGAGT…
CCATGGTTCCCGTAGCCAGAGT…
TAATGGTACCGGTTAACAGAGT…
TTATGGTACCTGTTAACAGAGT…
CGATGGTGCCGGTCGACAGAGC…
CTATGGTCCCTGTTATCAGAGC…
GTATGGTCCCTGTCGTCAGAGC…
CCATGGTTCCCGTAGCCAGAGT…
human
baboon
mouse
dog
cat
cow
pig
chicken
human
mouse
rat
dog
Applied Biosystems 3730
(ici au Broad Institute (USA))
1 Mb / jour
1990 2008
La production des données de génomique
2013
Illumina MySeq2500
Capable de re-séquencer
1 génome humain / jour
(40X; 135 Gb)
Séquençage manuel
par radioactivité
100 b / jour
La production des données de séquençage
326 millions
686 milliards
1990 91 92 93 94 95 96 97 98 99 2000 01 02 03 04 05 06 07 08 09
Cartographie génétique
Cartographie physique
Human Genome Project (HGP)
Projet Celera
Projet HapMap
Séquençage très haut débit
J.C. Venter
Aujourdhui l’information issue du génome humain et du génome d’espèces modèles nous permet de
mieux comprendre certains processus biologiques
Bientôt, l’information issue de milliers de génomes humains, intégrée à des données épidémiologiques
et de structure de la population, seront la base d’une nouvelle médecine « personnalisée ».
Bactérie Levure Nématode Drosophile Humain Souris Poule Chimpanzee
Whole genome random sequencing and assembly of Haemophilus
influenza Rd
Fleischmann et al. (1995) Science 269:496-512!
• Preuve par l’exemple: assembler un
génome à partir d’un séquençage
aléatoire est possible (14 pages /17)!
• 1,830,137 bases!
• 38% GC!
• 6 opérons ARNr!
• Origine de réplication trouvée!
• 1743 gènes annotés!
• 736 gènes sans rôle assigné!
• ~50% des protéines connues de E.
coli n’ont pas de similarité !
• Quelques conclusions biologiques
générales: !
• voies métaboliques absentes
et présentes!
• gènes de pathogénicité!
Life with 6000 genes
• 1er génome eucaryote séquencé!
• 600 chercheurs, 100 laboratoires, le plus grand projet décentralisé de
la biologie moléculaire !
!
!
• Seules 43,3 % des protéines ont une fonction connue ou « suggérée »!
• Beaucoup de régions du génome sont dupliquées!
• Tous les gènes d’histones sont présents (dont H1)!
Science (1996) Vol. 274: 546 - 567
(Saccharomyces cerevisae)!
Conséquences politiques!
!
• Un génome eucaryote complexe peut-être séquencé. !
• le projet a révélé l’importance de la bioinformatique (AceDB, GeneFinder)!
• Un modèle de projet « ouvert »: accès libre au matériel et aux données!
Résultats scientifiques!
!
• 19099 gènes, trois fois plus que la levure!
• La densité en gène est plus importante près des centromères (sauf sur le X)!
• Les éléments répétés sont plus nombreux vers les télomères!
• Les extrémités des chromosomes seraient des régions à évolution plus rapide!
• 32 % des protéines de C. elegans sont similaires à des protéines humaines,
70% des protéines humaines sont similaires à celles de C. elegans !
Genome Sequence of the Nematode C.
elegans: A Platform for Investigating
Biology
Science (1998) vol. 282: 2012-2018.
Initial sequence of the chimpanzee genome
and comparison with the human genome
Nature (2005) vol 439:69-87!
• 1,23 % de divergence nucléotidique avec l’espèce humaine sous forme de SNPs, dont
1,06% fixé au cours de l’évolution (ce qui fait ~ 30 millions de bases). !
• 1,5 % de la séquence euchromatique de chaque espèce lui est spécifique (insertions ou
délétions; ~45 Mb)!
• 29% des protéines sont identiques entre les 2 espèces, la plupart des autres ne divergent
que par 2 acides aminés!
• Les protéines de la réponse immunitaire, de la reproduction et de l’olfaction divergent plus
vite que les autres!
• De nombreuses «pépites » sur les gènes spécifiques à l’espèce humaine (éliminé du
chimpanzé) ou vice-versa, parfois en liaison avec des maladies humaines. Certaines
mutations humaines causant des maladies sont en fait l’allèle sauvage « ancestral » (ex:
predisposition au diabète de type 2)!
Le génome
Humain
~
T
out un symbole
Un symbole de l’opposition « privé - public »!
!
• Celera (Craig Venter)!
!
• Human Genome Project (F. Collins, R. Waterston, J. Sulston, P. Green!
!
!Opposition !
! !- sur les finalités!
! !- l’accès aux données!
! !- la stratégie!
Un symbole de la médiatisation de la science!
!
• Course à la (aux) publication(s)!
• battage médiatique intense!
• Reconnaissance par le monde politique!
La variabilité génétique
« La » séquence du génome humain disponible dans les
bases de données représente en réalité un génome fictif: il
s’agit d’un assemblage de l’ADN obtenus de plusieurs
individus.
Cette séquence ne contient pas de variabilité (polymorphisme
allélique).
Cette séquence est conventionnellement utilisée comme
référence.
Mais la population humaine est composée de  6 milliards d’individus, chacun avec
un génome qui lui est unique.
En plus des influences de l’environnement, cette variabilité entre individus est l’un des
déterminants majeurs de la morphologie, des propriétés physiologique, du
comportement, de la santé des individus.
Comment se manifeste cette variabilité génétique?
A haplotype map of the human genome
Nature (2005) vol 437:1299-1320!
• Nous ignorons encore les causes génétiques de la plupart des maladies
humaines: troubles maniaco-depressifs, réponses aux anti-hypertensenseurs,
etc…!
• Nous savons que probabement la moitié des facteurs de risques à la racine
de ces maux sont d’origine génétique. !
• 1 007 329 SNPs ont été testés dans 269 individus appartenant à 4 groupes:!
• population des Yoruba (Ibadan) au Niger!
• familles du CEPH (Utah, USA)!
• population chinoise (Han) de Beijing!
• population japonaise de Tokyo !
A haplotype map of the human genome
Nature (2005) vol 437:1299-1320!
Quelques surprises:!
!
La plupart des variants dans la population sont rares: !
!- 46 % des SNPs ont une fréquence d’allèle minoritaire (FAM)  0.05!
!- 9% ne sont vus que dans un seul individu. !
!
La plupart des variants sont largement partagés!
!- 90% des variants observés dans un individu sont des SNPs !
« communs » !
Des confirmations:!
!
Les échantillons ne sont pas homogènes!
!- la population du Niger est plus riche en SNPs de faible fréquence!
!!
Mais nous sommes bien de la même espèce :-)!
!- seulement 16 SNPs sur 1 million sont « fixés » dans une population par !
rapport aux autres!
!
!
Séquençage par synthèse (SBS)
Le séquençage des génomes
Il	
  a	
  fallu	
  créer	
  une	
  nouvelle	
  division	
  dans	
  les	
  bases	
  de	
  données:	
  Short	
  Read	
  Archives	
  (SRA)	
  
4,5	
  trillions	
  
573	
  trillions	
  
Le séquençage des génomes
La	
  séquence	
  d’un	
  génome	
  est	
  donc	
  une	
  succession	
  de	
  conDgs	
  organisés	
  en	
  scaffolds.	
  Selon	
  
le	
  degré	
  de	
  finiDon,	
  les	
  scaffolds	
  peuvent	
  être	
  ancrés	
  sur	
  une	
  carte	
  généDque,	
  ordonnés	
  et	
  
orientés,	
  et	
  les	
  trous	
  de	
  séquence	
  entre	
  les	
  conDgs	
  et	
  scaffolds	
  peuvent	
  être	
  bouchés.	
  	
  
Les	
  génomes	
  eucaryotes	
  séquencé	
  à	
  très	
  haut	
  niveau	
  de	
  qualité	
  (	
  1.106	
  erreurs/base)	
  
	
  
Saccharomyces	
  cerevisiae	
   Levure	
  de	
  boulanger	
  
Caenorhabdi2s	
  elegans	
   Ver	
  nématode	
  
Drosophila	
  melanogaster	
   Mouche	
  à	
  vinaigre	
  
Arabidopsis	
  thaliana	
   ArabeTe	
  
Homo	
  sapiens	
   Humain	
  
Mus	
  musculus	
   Souris	
  
Danio	
  rerio	
   Poisson	
  zèbre	
  
Le séquençage des génomes
Le	
  «	
  N50	
  »,	
  une	
  mesure	
  devenue	
  classique	
  pour	
  évaluer	
  la	
  conDnuité	
  d’un	
  
assemblage.	
  	
  
	
  
Le	
  N50	
  est	
  la	
  taille	
  du	
  scaffold	
  (ou	
  conDg)	
  tel	
  que	
  50%	
  des	
  bases	
  de	
  l’assemblage	
  sont	
  
comprises	
  dans	
  des	
  scaffolds	
  de	
  taille	
  supérieures	
  à	
  ceTe	
  taille.	
  	
  
La taille du segment (scaffold) telle que la moitié de
la somme des bases de tous les segments
(assemblage) soit compris dans des segments de
taille supérieure.
N50
Scaffolds	
  de	
  l’assemblage	
  
Trier par taille
50%	
  des	
  bases	
  
50%	
  des	
  bases	
  
Le génome humain en 2013
Un génome à l’état de « brouillon »
Le	
  génome	
  du	
  cheval	
  (Equus	
  caballus)	
  
L’assemblage	
  actuel	
  (2013)	
  est	
  la	
  version	
  version	
  EquCab2,	
  obtenu	
  par	
  la	
  technique	
  Whole	
  
Genome	
  Shotgun	
  (WGS)	
  avec	
  une	
  couverture	
  de	
  6.79x	
  en	
  lecture	
  «	
  Sanger	
  ».	
  Une	
  jument	
  
appelée	
  Twilight	
  fut	
  sélecDonnée	
  pour	
  obtenir	
  le	
  génome	
  référence	
  de	
  l’espèce.	
  Le	
  projet	
  
fut	
  coordonné	
  et	
  le	
  génome	
  séquencé	
  par	
  Le	
  Broad	
  InsDtute	
  (USA).	
  
	
  
La	
  taille	
  N50	
  des	
  conDgs	
  est	
  de	
  112.38	
  kb,	
  et	
  la	
  somme	
  totale	
  des	
  conDgs	
  est	
  de	
  2.43	
  Gb.	
  En	
  
incluant	
  la	
  taille	
  esDmé	
  des	
  trou	
  entre	
  les	
  conDgs	
  dans	
  les	
  scaffolds,	
  l’assemblage	
  couvre	
  
2.68	
  Gb.	
  	
  
Un génome à l’état de « brouillon »
Platyfish	
  (Xiphophorus	
  maculatus)	
  
L’assemblage	
  (version	
  XipMac4.4.2)	
  a	
  été	
  produit	
  par	
  The	
  Genome	
  InsDtute,	
  
Washington	
  University	
  School	
  of	
  Medicine	
  (USA).	
  Cet	
  assemblage	
  a	
  été	
  réalisé	
  
par	
  whole	
  genome	
  shotgun	
  à	
  parDr	
  de	
  séquences	
  produites	
  par	
  la	
  technologie	
  
“454”	
  et	
  Illumina,	
  pour	
  une	
  couverture	
  totale	
  du	
  génome	
  de	
  ~19.6X.	
  
Le	
  séquençage	
  du	
  génome	
  humain	
  
Après	
  le	
  séquençage,	
  la	
  première	
  étape	
  de	
  «	
  valorisaDon	
  »	
  de	
  la	
  séquence	
  est	
  d’y	
  
idenDfier	
  (annoter)	
  les	
  régions	
  foncDonnelles,	
  principalement	
  les	
  gènes	
  codant	
  les	
  
protéines.	
  	
  
	
  
	
  
Chaque	
  génome	
  eucaryote	
  conDent	
  des	
  milliers	
  de	
  gènes.	
  On	
  ne	
  peut	
  pas	
  envisager	
  de	
  
faire	
  une	
  «	
  expérience	
  »	
  pour	
  idenDfier	
  chaque	
  gène:	
  il	
  faut	
  recourir	
  à	
  des	
  logiciels	
  pour	
  
réaliser	
  une	
  annotaDon	
  automaDque,	
  ou	
  à	
  des	
  ressources	
  génomiques.	
  	
  
	
  
	
  
Annoter	
  les	
  gènes	
  automaDquement	
  est	
  une	
  tâche	
  difficile	
  et	
  un	
  champs	
  encore	
  très	
  
«	
  ouvert	
  »	
  de	
  la	
  bioinformaDque.	
  Dans	
  les	
  génomes	
  eucaryotes,	
  les	
  gènes	
  ont	
  des	
  
structures	
  extrêmement	
  variables:	
  il	
  difficile	
  d’établir	
  des	
  «	
  règles	
  ».	
  	
  
Les	
  gènes	
  ….	
  
25	
  
Chr. 20 Chr. 21 Chr. 22
Taille chromosome 59,42 Mb 33,54 Mb 33,46 Mb
Gènes connus 335 127 270
Autres 392 98 298
Pseudogènes 168 (18,7%) 59 (20,7%) 134 (19,1%)
Densité en gènes 12,2 g./Mb 6,7 g./Mb 17,0 g./Mb
Tailles des gènes
Connus 51,3 kb 57,0 kb 1 ↔ 593 kb
Pseudogènes 1,9 kb
Taille des exons
Connus 294 bp 8 ↔ 7600 bp
Pseudogènes 499 bp
Nombre d’exons
Connus 10,3
Pseudogènes 1,4
Combien(y(a(t,il(de(gènes(dans(le(génome(humain?(
Premières(estimations((année(2000)(
(
(
40000	
   20000	
   50000	
  
EsDmaDons	
  du	
  nombre	
  de	
  gènes	
  dans	
  le	
  génome	
  
92	
   93	
   94	
   95	
   96	
   97	
   98	
   99	
   00	
   01	
   02	
   03	
   04	
   05	
   06	
  
20	
  000	
  
40	
  000	
  
160	
  000	
  
140	
  000	
  
120	
  000	
  
100	
  000	
  
80	
  000	
  
60	
  000	
  
(Antequera	
  and	
  Bird)	
  
(Fields	
  et	
  al.)	
  
(Roest	
  Crollius	
  et	
  al.)	
  
(Lander	
  et	
  al.)	
  
EsDmaDons	
  publiées	
  
(Ewing	
  and	
  Green	
  et	
  al.)	
  
(Liang	
  et	
  al.)	
  
27	
  
BLAST
Altschul et al. (1990) Basic Local Alignment Search Tool. J. Mol. Biol. 215:403-410
Nombre total de citations : 36103 (en novembre 2013)
L’article le plus cité en sciences du vivant	
  
28	
  
Query: SPWTFPS*FLMSSSMKVPSWSRISSPM*GIL*STVSSST
SPWTFPS* L+SSS+KV S S SSPM*GIL T SSST
Sbjct: SPWTFPS*LLISSSIKVSSSSFTSSPM*GILHKTXSSST
Query: LLFQLFLALSDLKQLRILHTDLKPDNVMLVD--EKELKIKLMDFGLALLTHEAKT--GTI
+L Q+ AL LK L ++H DLKP+N+MLVD + ++K++DFG A +H +KT T
Sbjct: ILQQVATALKKLKSLGLIHADLKPENIMLVDPVRQPYRVKVIDFGSA--SHVSKTVCSTY
Query: VNALAQYSHNEDEEEEEEHDFKVDKT-DLCDSKKHPE
VNAL QY+ ++D+++ ++ + + +K DL D + E
Sbjct: VNALGQYNDDDDDDDGDDPEEREEKQKDLEDHRDDKE
Query: RYKELTEQQMPGALPPECTPNMDGPHARSVRREQSLHSFHTLFCRRCFKYDRFLH
+YKELTEQQ+PGALPPECTPN+DGP+A+SV+REQSLHSFHTLFCRRCFKYD FLH
Sbjct: KYKELTEQQLPGALPPECTPNIDGPNAKSVQREQSLHSFHTLFCRRCFKYDCFLH
29	
  
BLAST	
  
A T T G C G T A T G C A G C G T A G C A A T T G C G A T A C!
T T A C G C G A T G T A G A C A G C G T A G C A A T G T T G C A!
Match	
  exact	
  
Query	
  
Subject	
  
“mot”	
  de	
  taille	
  W	
  =	
  11	
  bases	
  
30	
  
A T T G C G T A T G C A G C G T A G C A A T T G C G A T A C!
T T A C G C G A T G T A G A C A G C G T A G C A A T G T T G C
Blast:	
  
Query	
  
Subject	
  
T A T G C A G C G T A G C A A T!
Matrice de score NUC.4.4
A T G C N!
A 5 -4 -4 -4 -2!
T -4 5 -4 -4 -2!
G -4 -4 5 -4 -2!
C -4 -4 -4 5 -2!
N -2 -2 -2 -2 -1!
+5-4-4+5!
- 8  X!
	
  	
  	
  	
  	
  	
  	
  	
  	
  X 	
  =	
  seuil	
  maximal	
  de	
  mismatch	
  autorisé	
  
	
  	
  	
  	
   	
  =	
  21	
  par	
  défaut	
  
W
31	
  
Mot	
  “W”	
  =	
  3	
  a.	
  a.	
  	
  
(Seuil	
  	
  “X”)	
  
(Seuil	
  “T”)	
  
L E C N Q L I P I A H K T C P E G K N L
H K T!
H L T!
H V T!
H Y T!
Y K T!
N K T!
L K C H N T Q L P F I Y K T C P E G K N
Extension	
  
Automate	
  
TBLASTX,	
  BLASTP,	
  BLASTX	
  
32	
  
A R N D C Q E G H I L K M F P S T W Y V B Z X *
A 4 -1 -2 -2 0 -1 -1 0 -2 -1 -1 -1 -1 -2 -1 1 0 -3 -2 0 -2 -1 0 -4
R -1 5 0 -2 -3 1 0 -2 0 -3 -2 2 -1 -3 -2 -1 -1 -3 -2 -3 -1 0 -1 -4
N -2 0 6 1 -3 0 0 0 1 -3 -3 0 -2 -3 -2 1 0 -4 -2 -3 3 0 -1 -4
D -2 -2 1 6 -3 0 2 -1 -1 -3 -4 -1 -3 -3 -1 0 -1 -4 -3 -3 4 1 -1 -4
C 0 -3 -3 -3 9 -3 -4 -3 -3 -1 -1 -3 -1 -2 -3 -1 -1 -2 -2 -1 -3 -3 -2 -4
Q -1 1 0 0 -3 5 2 -2 0 -3 -2 1 0 -3 -1 0 -1 -2 -1 -2 0 3 -1 -4
E -1 0 0 2 -4 2 5 -2 0 -3 -3 1 -2 -3 -1 0 -1 -3 -2 -2 1 4 -1 -4
G 0 -2 0 -1 -3 -2 -2 6 -2 -4 -4 -2 -3 -3 -2 0 -2 -2 -3 -3 -1 -2 -1 -4
H -2 0 1 -1 -3 0 0 -2 8 -3 -3 -1 -2 -1 -2 -1 -2 -2 2 -3 0 0 -1 -4
I -1 -3 -3 -3 -1 -3 -3 -4 -3 4 2 -3 1 0 -3 -2 -1 -3 -1 3 -3 -3 -1 -4
L -1 -2 -3 -4 -1 -2 -3 -4 -3 2 4 -2 2 0 -3 -2 -1 -2 -1 1 -4 -3 -1 -4
K -1 2 0 -1 -3 1 1 -2 -1 -3 -2 5 -1 -3 -1 0 -1 -3 -2 -2 0 1 -1 -4
M -1 -1 -2 -3 -1 0 -2 -3 -2 1 2 -1 5 0 -2 -1 -1 -1 -1 1 -3 -1 -1 -4
F -2 -3 -3 -3 -2 -3 -3 -3 -1 0 0 -3 0 6 -4 -2 -2 1 3 -1 -3 -3 -1 -4
P -1 -2 -2 -1 -3 -1 -1 -2 -2 -3 -3 -1 -2 -4 7 -1 -1 -4 -3 -2 -2 -1 -2 -4
S 1 -1 1 0 -1 0 0 0 -1 -2 -2 0 -1 -2 -1 4 1 -3 -2 -2 0 0 0 -4
T 0 -1 0 -1 -1 -1 -1 -2 -2 -1 -1 -1 -1 -2 -1 1 5 -2 -2 0 -1 -1 0 -4
W -3 -3 -4 -4 -2 -2 -3 -2 -2 -3 -2 -3 -1 1 -4 -3 -2 11 2 -3 -4 -3 -2 -4
Y -2 -2 -2 -3 -2 -1 -2 -3 2 -1 -1 -2 -1 3 -3 -2 -2 2 7 -1 -3 -2 -1 -4
V 0 -3 -3 -3 -1 -2 -2 -3 -3 3 1 -2 1 -1 -2 -2 0 -3 -1 4 -3 -2 -1 -4
B -2 -1 3 4 -3 0 1 -1 0 -3 -4 0 -3 -3 -2 0 -1 -4 -3 -3 4 1 -1 -4
Z -1 0 0 1 -3 3 4 -2 0 -3 -3 1 -1 -3 -1 0 -1 -3 -2 -2 1 4 -1 -4
X 0 -1 -1 -1 -2 -1 -1 -1 -1 -1 -1 -1 -1 -1 -2 0 0 -2 -1 -1 -1 -1 -1 -4
* -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 1
Matrice de score BLOSUM62
33
Levure 6000
Drosophile 13600
Humain 25000
Nematode 19000
Arabidopsis 25000
Nombre de gènes dans les génomes eucaryotes
34
EVOLUTION	
  MOLECULAIRE	
  
	
  
Quelques	
  principes	
  
MutaDon	
  
Dérive	
  
généDque	
  
SélecDon	
  	
  
posiDve	
  
SélecDon	
  	
  
négaDve	
  
FixaDon	
  
100%	
  
Avantageuse	
  
Neutre	
  
Délétère	
  
DispariDon	
  
0%	
  
Fréquence	
  
Intermédiaire	
  
0-­‐100%	
  
Evolution moléculaire
Les fréquences des variations au sein d’une population fluctuent au cours du temps.
P
0
1
Générations (temps)
Pour estimer les fréquences dans une population, il faut échantillonner de nombreux
individus
Les variations AVANTAGEUSES sont sélectionnées et augmentent en fréquence
Les variations DELETERES sont éliminées et diminuent en fréquence
Les variations NEUTRES fluctuent de manière aléatoire
La sélection naturelle
Cys Ser Arg Cys Lys Gly His Cys Arg Ala Arg!
TGT TCG AGA TGT AAG GGC CAT TGT CGA GCA AGA!
!
!
!
Cys Leu Arg Cys Lys Arg His Cys Arg Ala Lys!
TGT TTG AGA TGT AAA CGC CAT TGT AGA GCT AAA!
!
!
!
Observé Attendu neutre
Substitutions synonymes 3
Substitutions non-synonymes 3 ~3 X 4 = 12 è 75% des
mutations sont
délétères
dS: taux de substitution synonyme (Ks)
dN: taux de substitution non-synonymes (Ka)
ω = dN / dS
ω ~ 1 è
ω  1 è evolution sous sélection négative
ω  1 è evolution sous sélection positive
Fréquence des valeurs de ω pour 835 paires de gènes orthologues rat-
souris (les valeurs indiquées en abscisse sont la moyenne de la classe)
Hurst DL (2002) TIGS 18:486-487
Génomique Comparative
L’alignement multiple entre génome est un outil fondamental pour identifier des
régions conservées au cours de l’évolution (par sélection négative)
UCSC Genome Browser : http://genome.ucsc.edu/
Une région de 100 pb sur Xq26:
Tous les mammifères possèdent à peu près le même nombre de gènes, et partagent
les mêmes grandes fonctions de la vie
- reproduction
- développement
- système nerveux central
- système digestif
- système musculaire
- ….
On estime que les gènes présents dans le génome de la souris ou du chien peuvent
être informatifs pour identifier les gènes humains (ou vice-versa) simplement par
alignement de séquence.
Généralisation: Toutes les informations importantes contenues dans le génome
(codage des protéines et autres…) sont susceptibles d’êtres partagées entre espèces
différentes et donc d’être découvertes par alignement de séquences.
Génomique	
  ComparaDve:	
  Annoter	
  les	
  Gènes	
  
Génomique Comparative (5)
Les séquences fonctionnelles les mieux connues dans le génome humain sont les
exons des gènes codant les protéines.
On peut les comparer par paires, mais les comparer toutes ensemble est plus
informatif, à l’aide d’un alignement multiple
Les exons codant sont particulièrement ben conservés, à travers l’ensemble
des vertébrés (sélection négative).
Les régions « UTRs » évoluent plus vite.
Les introns ne montrent pas de conservation particulière (évolution neutre)
Les espèces trop proches de l’homme sont peu informatives (ex: Macaque)
Migration, adaptation et selection naturelle
Les variations génétiques qui confèrent un avantage pour une meilleure
adaptation seront sélectionnés
Mutation avantageuse
Different types de sélection naturelle
Mutation neutre
Mutation délétère mutation “balancée”
SELECTION POSITIVE
Ex. G6PD, CD40 protection
contre la malaria en Afrique
SELECTION BALANCEE
Ex. MHC worldwide, HbS en
Afrique (malaria)
SELECTION PURIFICATRICE
Ex. Beaucoup de gènes humain
La cas de la lactase
La plupart des adultes ne peuvent métaboliser le lactose, sucre principal du lait, car
la fonction de l’enzyme lactase-phlorizin hydrolase diminue après le sevrage.
Mais certaines population, principalement celles descendantes de population ayant
pratiqué la domestication du bétail, maintiennent cette possibilité à l’âge adulte.
Fréquences de la « persistance de la lactase »
 90% chez les suédois et les danois
~ 50% chez les français et les espagnols
5% - 20% chez les africains de l’ouest « non-pastoraux »
1 % chez les chinois
Mais 90% chez les Tutsis, Fulani, … populations africaines « pastorales ».
Certains SNPs ont été retrouvés dans les introns d’un gènes voisin de la lactase, et
sont associé au phénotype « persistance de la lactase »
Distribution du phénotype « persistance de la lactase » dans le monde
La cas de la lactase
La cas de la lactase
Intron 13
Danois et Suédois
Europe du sud
S. A. Tishkoff et al., Convergent adaptation of human lactase persistence in Africa and Europe. Nature genetics 39, 31 (2007).
La cas de la lactase
Danois et Suédois
Europe du sud
Afrique
S. A. Tishkoff et al., Convergent adaptation of human lactase persistence in Africa and Europe. Nature genetics 39, 31 (2007).
La cas de la lactase
Conclusions:
Les mutations de la lactase sont un cas classique d’évolution convergente:
le même phénotype est sélectionné de manière indépendante dans
des populations différentes, mais pas par le biais du même génotype.
Les mutations favorables sont dans les introns d’un gènes voisin du gène dont
la protéine confère l’avantage
Les mutations augmentent la production de lactase au cours de la vie adulte
(modification de l’expression du gène)

Contenu connexe

Similaire à Introduction la science Genomique, slides

La biologie à l'ère du big data
La biologie à l'ère du big dataLa biologie à l'ère du big data
La biologie à l'ère du big datatuxette
 
Genetique et heredite correction travail en classe + allèles... suite
Genetique et heredite correction travail en classe + allèles... suiteGenetique et heredite correction travail en classe + allèles... suite
Genetique et heredite correction travail en classe + allèles... suitesciencesalannoy
 
Les anomalies bovines, Ce n’est pas toujours récessif…
Les anomalies bovines, Ce n’est pas toujours récessif…Les anomalies bovines, Ce n’est pas toujours récessif…
Les anomalies bovines, Ce n’est pas toujours récessif…Institut de l'Elevage - Idele
 
3. Détecter l'émergence d'anomalies génétiques: exemple en bovins
3. Détecter l'émergence d'anomalies génétiques: exemple en bovins3. Détecter l'émergence d'anomalies génétiques: exemple en bovins
3. Détecter l'émergence d'anomalies génétiques: exemple en bovinsInstitut de l'Elevage - Idele
 
Le séquençage haut débit: NGS, une révolution de la biologie moléculaire au s...
Le séquençage haut débit: NGS, une révolution de la biologie moléculaire au s...Le séquençage haut débit: NGS, une révolution de la biologie moléculaire au s...
Le séquençage haut débit: NGS, une révolution de la biologie moléculaire au s...Pasteur_Tunis
 
souris transgéniques10000000000000000000
souris transgéniques10000000000000000000souris transgéniques10000000000000000000
souris transgéniques10000000000000000000hibasadiki377
 
Nc univers vivant chap 3
Nc univers vivant chap 3Nc univers vivant chap 3
Nc univers vivant chap 3ameliani
 
Anomalies-genetiques-webinaire-UMT_STAR_02-SFabre.pdf
Anomalies-genetiques-webinaire-UMT_STAR_02-SFabre.pdfAnomalies-genetiques-webinaire-UMT_STAR_02-SFabre.pdf
Anomalies-genetiques-webinaire-UMT_STAR_02-SFabre.pdfInstitut de l'Elevage - Idele
 
ConfEvolutionPrecoceGouy
ConfEvolutionPrecoceGouyConfEvolutionPrecoceGouy
ConfEvolutionPrecoceGouyvguili
 
02.bases_de_donnes_FR.ppt
02.bases_de_donnes_FR.ppt02.bases_de_donnes_FR.ppt
02.bases_de_donnes_FR.pptYACINE MESSAOUI
 
Exposeeeeeeeeeeeeeeeeeeeeeeeeeeeee
ExposeeeeeeeeeeeeeeeeeeeeeeeeeeeeeExposeeeeeeeeeeeeeeeeeeeeeeeeeeeee
ExposeeeeeeeeeeeeeeeeeeeeeeeeeeeeeMiraj Microbio
 
Hérédité
HéréditéHérédité
Héréditécorpin0172
 
Esposé de Elisée le Jeune Informaticien sur La Transgénèse.pdf
Esposé de Elisée le Jeune Informaticien sur La Transgénèse.pdfEsposé de Elisée le Jeune Informaticien sur La Transgénèse.pdf
Esposé de Elisée le Jeune Informaticien sur La Transgénèse.pdfElisée Samuel SOHOUNGBLE
 

Similaire à Introduction la science Genomique, slides (20)

La biologie à l'ère du big data
La biologie à l'ère du big dataLa biologie à l'ère du big data
La biologie à l'ère du big data
 
Genetique et heredite correction travail en classe + allèles... suite
Genetique et heredite correction travail en classe + allèles... suiteGenetique et heredite correction travail en classe + allèles... suite
Genetique et heredite correction travail en classe + allèles... suite
 
Le clonage
Le clonageLe clonage
Le clonage
 
Les anomalies bovines, Ce n’est pas toujours récessif…
Les anomalies bovines, Ce n’est pas toujours récessif…Les anomalies bovines, Ce n’est pas toujours récessif…
Les anomalies bovines, Ce n’est pas toujours récessif…
 
3. Détecter l'émergence d'anomalies génétiques: exemple en bovins
3. Détecter l'émergence d'anomalies génétiques: exemple en bovins3. Détecter l'émergence d'anomalies génétiques: exemple en bovins
3. Détecter l'émergence d'anomalies génétiques: exemple en bovins
 
UMTeBIS_conf - 20221013 - 2_Genomes.pptx
UMTeBIS_conf - 20221013 - 2_Genomes.pptxUMTeBIS_conf - 20221013 - 2_Genomes.pptx
UMTeBIS_conf - 20221013 - 2_Genomes.pptx
 
eBIS Actu - 20220616 - 1 pôle genome
eBIS Actu - 20220616 - 1 pôle genomeeBIS Actu - 20220616 - 1 pôle genome
eBIS Actu - 20220616 - 1 pôle genome
 
Le séquençage haut débit: NGS, une révolution de la biologie moléculaire au s...
Le séquençage haut débit: NGS, une révolution de la biologie moléculaire au s...Le séquençage haut débit: NGS, une révolution de la biologie moléculaire au s...
Le séquençage haut débit: NGS, une révolution de la biologie moléculaire au s...
 
souris transgéniques10000000000000000000
souris transgéniques10000000000000000000souris transgéniques10000000000000000000
souris transgéniques10000000000000000000
 
Nc univers vivant chap 3
Nc univers vivant chap 3Nc univers vivant chap 3
Nc univers vivant chap 3
 
Anomalies-genetiques-webinaire-UMT_STAR_02-SFabre.pdf
Anomalies-genetiques-webinaire-UMT_STAR_02-SFabre.pdfAnomalies-genetiques-webinaire-UMT_STAR_02-SFabre.pdf
Anomalies-genetiques-webinaire-UMT_STAR_02-SFabre.pdf
 
ConfEvolutionPrecoceGouy
ConfEvolutionPrecoceGouyConfEvolutionPrecoceGouy
ConfEvolutionPrecoceGouy
 
Ts t2 ap5serpents
Ts t2 ap5serpentsTs t2 ap5serpents
Ts t2 ap5serpents
 
02.bases_de_donnes_FR.ppt
02.bases_de_donnes_FR.ppt02.bases_de_donnes_FR.ppt
02.bases_de_donnes_FR.ppt
 
Exposeeeeeeeeeeeeeeeeeeeeeeeeeeeee
ExposeeeeeeeeeeeeeeeeeeeeeeeeeeeeeExposeeeeeeeeeeeeeeeeeeeeeeeeeeeee
Exposeeeeeeeeeeeeeeeeeeeeeeeeeeeee
 
Hérédité
HéréditéHérédité
Hérédité
 
Hérédité
HéréditéHérédité
Hérédité
 
puce à adn
puce à adnpuce à adn
puce à adn
 
Esposé de Elisée le Jeune Informaticien sur La Transgénèse.pdf
Esposé de Elisée le Jeune Informaticien sur La Transgénèse.pdfEsposé de Elisée le Jeune Informaticien sur La Transgénèse.pdf
Esposé de Elisée le Jeune Informaticien sur La Transgénèse.pdf
 
Esposé samuel sur la transgénèse.pdf
Esposé samuel sur la transgénèse.pdfEsposé samuel sur la transgénèse.pdf
Esposé samuel sur la transgénèse.pdf
 

Introduction la science Genomique, slides

  • 1. La Génomique Biologie, informatique, évolution Hugues Roest Crollius hrc@ens.fr Dyogen Group L3 – Introduction aux sciences du vivant – 03.12.2013
  • 2. La « génomique fonctionnelle »
  • 3. La « génomique évolutive » TAATGGTACCAGTTAGCAGAGT… CCATGGTTCCCGTAGCCAGAGT… TAATGGTACCGGTTAACAGAGT… TTATGGTACCTGTTAACAGAGT… CGATGGTGCCGGTCGACAGAGC… CTATGGTCCCTGTTATCAGAGC… GTATGGTCCCTGTCGTCAGAGC… CCATGGTTCCCGTAGCCAGAGT… human baboon mouse dog cat cow pig chicken human mouse rat dog
  • 4. Applied Biosystems 3730 (ici au Broad Institute (USA)) 1 Mb / jour 1990 2008 La production des données de génomique 2013 Illumina MySeq2500 Capable de re-séquencer 1 génome humain / jour (40X; 135 Gb) Séquençage manuel par radioactivité 100 b / jour
  • 5. La production des données de séquençage 326 millions 686 milliards
  • 6. 1990 91 92 93 94 95 96 97 98 99 2000 01 02 03 04 05 06 07 08 09 Cartographie génétique Cartographie physique Human Genome Project (HGP) Projet Celera Projet HapMap Séquençage très haut débit J.C. Venter Aujourdhui l’information issue du génome humain et du génome d’espèces modèles nous permet de mieux comprendre certains processus biologiques Bientôt, l’information issue de milliers de génomes humains, intégrée à des données épidémiologiques et de structure de la population, seront la base d’une nouvelle médecine « personnalisée ». Bactérie Levure Nématode Drosophile Humain Souris Poule Chimpanzee
  • 7. Whole genome random sequencing and assembly of Haemophilus influenza Rd Fleischmann et al. (1995) Science 269:496-512! • Preuve par l’exemple: assembler un génome à partir d’un séquençage aléatoire est possible (14 pages /17)! • 1,830,137 bases! • 38% GC! • 6 opérons ARNr! • Origine de réplication trouvée! • 1743 gènes annotés! • 736 gènes sans rôle assigné! • ~50% des protéines connues de E. coli n’ont pas de similarité ! • Quelques conclusions biologiques générales: ! • voies métaboliques absentes et présentes! • gènes de pathogénicité!
  • 8. Life with 6000 genes • 1er génome eucaryote séquencé! • 600 chercheurs, 100 laboratoires, le plus grand projet décentralisé de la biologie moléculaire ! ! ! • Seules 43,3 % des protéines ont une fonction connue ou « suggérée »! • Beaucoup de régions du génome sont dupliquées! • Tous les gènes d’histones sont présents (dont H1)! Science (1996) Vol. 274: 546 - 567 (Saccharomyces cerevisae)!
  • 9. Conséquences politiques! ! • Un génome eucaryote complexe peut-être séquencé. ! • le projet a révélé l’importance de la bioinformatique (AceDB, GeneFinder)! • Un modèle de projet « ouvert »: accès libre au matériel et aux données! Résultats scientifiques! ! • 19099 gènes, trois fois plus que la levure! • La densité en gène est plus importante près des centromères (sauf sur le X)! • Les éléments répétés sont plus nombreux vers les télomères! • Les extrémités des chromosomes seraient des régions à évolution plus rapide! • 32 % des protéines de C. elegans sont similaires à des protéines humaines, 70% des protéines humaines sont similaires à celles de C. elegans ! Genome Sequence of the Nematode C. elegans: A Platform for Investigating Biology Science (1998) vol. 282: 2012-2018.
  • 10.
  • 11. Initial sequence of the chimpanzee genome and comparison with the human genome Nature (2005) vol 439:69-87! • 1,23 % de divergence nucléotidique avec l’espèce humaine sous forme de SNPs, dont 1,06% fixé au cours de l’évolution (ce qui fait ~ 30 millions de bases). ! • 1,5 % de la séquence euchromatique de chaque espèce lui est spécifique (insertions ou délétions; ~45 Mb)! • 29% des protéines sont identiques entre les 2 espèces, la plupart des autres ne divergent que par 2 acides aminés! • Les protéines de la réponse immunitaire, de la reproduction et de l’olfaction divergent plus vite que les autres! • De nombreuses «pépites » sur les gènes spécifiques à l’espèce humaine (éliminé du chimpanzé) ou vice-versa, parfois en liaison avec des maladies humaines. Certaines mutations humaines causant des maladies sont en fait l’allèle sauvage « ancestral » (ex: predisposition au diabète de type 2)!
  • 13. Un symbole de l’opposition « privé - public »! ! • Celera (Craig Venter)! ! • Human Genome Project (F. Collins, R. Waterston, J. Sulston, P. Green! ! !Opposition ! ! !- sur les finalités! ! !- l’accès aux données! ! !- la stratégie! Un symbole de la médiatisation de la science! ! • Course à la (aux) publication(s)! • battage médiatique intense! • Reconnaissance par le monde politique!
  • 14. La variabilité génétique « La » séquence du génome humain disponible dans les bases de données représente en réalité un génome fictif: il s’agit d’un assemblage de l’ADN obtenus de plusieurs individus. Cette séquence ne contient pas de variabilité (polymorphisme allélique). Cette séquence est conventionnellement utilisée comme référence. Mais la population humaine est composée de 6 milliards d’individus, chacun avec un génome qui lui est unique. En plus des influences de l’environnement, cette variabilité entre individus est l’un des déterminants majeurs de la morphologie, des propriétés physiologique, du comportement, de la santé des individus. Comment se manifeste cette variabilité génétique?
  • 15. A haplotype map of the human genome Nature (2005) vol 437:1299-1320! • Nous ignorons encore les causes génétiques de la plupart des maladies humaines: troubles maniaco-depressifs, réponses aux anti-hypertensenseurs, etc…! • Nous savons que probabement la moitié des facteurs de risques à la racine de ces maux sont d’origine génétique. ! • 1 007 329 SNPs ont été testés dans 269 individus appartenant à 4 groupes:! • population des Yoruba (Ibadan) au Niger! • familles du CEPH (Utah, USA)! • population chinoise (Han) de Beijing! • population japonaise de Tokyo !
  • 16. A haplotype map of the human genome Nature (2005) vol 437:1299-1320! Quelques surprises:! ! La plupart des variants dans la population sont rares: ! !- 46 % des SNPs ont une fréquence d’allèle minoritaire (FAM) 0.05! !- 9% ne sont vus que dans un seul individu. ! ! La plupart des variants sont largement partagés! !- 90% des variants observés dans un individu sont des SNPs ! « communs » ! Des confirmations:! ! Les échantillons ne sont pas homogènes! !- la population du Niger est plus riche en SNPs de faible fréquence! !! Mais nous sommes bien de la même espèce :-)! !- seulement 16 SNPs sur 1 million sont « fixés » dans une population par ! rapport aux autres! ! !
  • 18. Le séquençage des génomes Il  a  fallu  créer  une  nouvelle  division  dans  les  bases  de  données:  Short  Read  Archives  (SRA)   4,5  trillions   573  trillions  
  • 19. Le séquençage des génomes La  séquence  d’un  génome  est  donc  une  succession  de  conDgs  organisés  en  scaffolds.  Selon   le  degré  de  finiDon,  les  scaffolds  peuvent  être  ancrés  sur  une  carte  généDque,  ordonnés  et   orientés,  et  les  trous  de  séquence  entre  les  conDgs  et  scaffolds  peuvent  être  bouchés.     Les  génomes  eucaryotes  séquencé  à  très  haut  niveau  de  qualité  (  1.106  erreurs/base)     Saccharomyces  cerevisiae   Levure  de  boulanger   Caenorhabdi2s  elegans   Ver  nématode   Drosophila  melanogaster   Mouche  à  vinaigre   Arabidopsis  thaliana   ArabeTe   Homo  sapiens   Humain   Mus  musculus   Souris   Danio  rerio   Poisson  zèbre  
  • 20. Le séquençage des génomes Le  «  N50  »,  une  mesure  devenue  classique  pour  évaluer  la  conDnuité  d’un   assemblage.       Le  N50  est  la  taille  du  scaffold  (ou  conDg)  tel  que  50%  des  bases  de  l’assemblage  sont   comprises  dans  des  scaffolds  de  taille  supérieures  à  ceTe  taille.     La taille du segment (scaffold) telle que la moitié de la somme des bases de tous les segments (assemblage) soit compris dans des segments de taille supérieure. N50 Scaffolds  de  l’assemblage   Trier par taille 50%  des  bases   50%  des  bases  
  • 21. Le génome humain en 2013
  • 22. Un génome à l’état de « brouillon » Le  génome  du  cheval  (Equus  caballus)   L’assemblage  actuel  (2013)  est  la  version  version  EquCab2,  obtenu  par  la  technique  Whole   Genome  Shotgun  (WGS)  avec  une  couverture  de  6.79x  en  lecture  «  Sanger  ».  Une  jument   appelée  Twilight  fut  sélecDonnée  pour  obtenir  le  génome  référence  de  l’espèce.  Le  projet   fut  coordonné  et  le  génome  séquencé  par  Le  Broad  InsDtute  (USA).     La  taille  N50  des  conDgs  est  de  112.38  kb,  et  la  somme  totale  des  conDgs  est  de  2.43  Gb.  En   incluant  la  taille  esDmé  des  trou  entre  les  conDgs  dans  les  scaffolds,  l’assemblage  couvre   2.68  Gb.    
  • 23. Un génome à l’état de « brouillon » Platyfish  (Xiphophorus  maculatus)   L’assemblage  (version  XipMac4.4.2)  a  été  produit  par  The  Genome  InsDtute,   Washington  University  School  of  Medicine  (USA).  Cet  assemblage  a  été  réalisé   par  whole  genome  shotgun  à  parDr  de  séquences  produites  par  la  technologie   “454”  et  Illumina,  pour  une  couverture  totale  du  génome  de  ~19.6X.  
  • 24. Le  séquençage  du  génome  humain   Après  le  séquençage,  la  première  étape  de  «  valorisaDon  »  de  la  séquence  est  d’y   idenDfier  (annoter)  les  régions  foncDonnelles,  principalement  les  gènes  codant  les   protéines.         Chaque  génome  eucaryote  conDent  des  milliers  de  gènes.  On  ne  peut  pas  envisager  de   faire  une  «  expérience  »  pour  idenDfier  chaque  gène:  il  faut  recourir  à  des  logiciels  pour   réaliser  une  annotaDon  automaDque,  ou  à  des  ressources  génomiques.         Annoter  les  gènes  automaDquement  est  une  tâche  difficile  et  un  champs  encore  très   «  ouvert  »  de  la  bioinformaDque.  Dans  les  génomes  eucaryotes,  les  gènes  ont  des   structures  extrêmement  variables:  il  difficile  d’établir  des  «  règles  ».     Les  gènes  ….  
  • 25. 25   Chr. 20 Chr. 21 Chr. 22 Taille chromosome 59,42 Mb 33,54 Mb 33,46 Mb Gènes connus 335 127 270 Autres 392 98 298 Pseudogènes 168 (18,7%) 59 (20,7%) 134 (19,1%) Densité en gènes 12,2 g./Mb 6,7 g./Mb 17,0 g./Mb Tailles des gènes Connus 51,3 kb 57,0 kb 1 ↔ 593 kb Pseudogènes 1,9 kb Taille des exons Connus 294 bp 8 ↔ 7600 bp Pseudogènes 499 bp Nombre d’exons Connus 10,3 Pseudogènes 1,4 Combien(y(a(t,il(de(gènes(dans(le(génome(humain?( Premières(estimations((année(2000)( ( ( 40000   20000   50000  
  • 26. EsDmaDons  du  nombre  de  gènes  dans  le  génome   92   93   94   95   96   97   98   99   00   01   02   03   04   05   06   20  000   40  000   160  000   140  000   120  000   100  000   80  000   60  000   (Antequera  and  Bird)   (Fields  et  al.)   (Roest  Crollius  et  al.)   (Lander  et  al.)   EsDmaDons  publiées   (Ewing  and  Green  et  al.)   (Liang  et  al.)  
  • 27. 27   BLAST Altschul et al. (1990) Basic Local Alignment Search Tool. J. Mol. Biol. 215:403-410 Nombre total de citations : 36103 (en novembre 2013) L’article le plus cité en sciences du vivant  
  • 28. 28   Query: SPWTFPS*FLMSSSMKVPSWSRISSPM*GIL*STVSSST SPWTFPS* L+SSS+KV S S SSPM*GIL T SSST Sbjct: SPWTFPS*LLISSSIKVSSSSFTSSPM*GILHKTXSSST Query: LLFQLFLALSDLKQLRILHTDLKPDNVMLVD--EKELKIKLMDFGLALLTHEAKT--GTI +L Q+ AL LK L ++H DLKP+N+MLVD + ++K++DFG A +H +KT T Sbjct: ILQQVATALKKLKSLGLIHADLKPENIMLVDPVRQPYRVKVIDFGSA--SHVSKTVCSTY Query: VNALAQYSHNEDEEEEEEHDFKVDKT-DLCDSKKHPE VNAL QY+ ++D+++ ++ + + +K DL D + E Sbjct: VNALGQYNDDDDDDDGDDPEEREEKQKDLEDHRDDKE Query: RYKELTEQQMPGALPPECTPNMDGPHARSVRREQSLHSFHTLFCRRCFKYDRFLH +YKELTEQQ+PGALPPECTPN+DGP+A+SV+REQSLHSFHTLFCRRCFKYD FLH Sbjct: KYKELTEQQLPGALPPECTPNIDGPNAKSVQREQSLHSFHTLFCRRCFKYDCFLH
  • 29. 29   BLAST   A T T G C G T A T G C A G C G T A G C A A T T G C G A T A C! T T A C G C G A T G T A G A C A G C G T A G C A A T G T T G C A! Match  exact   Query   Subject   “mot”  de  taille  W  =  11  bases  
  • 30. 30   A T T G C G T A T G C A G C G T A G C A A T T G C G A T A C! T T A C G C G A T G T A G A C A G C G T A G C A A T G T T G C Blast:   Query   Subject   T A T G C A G C G T A G C A A T! Matrice de score NUC.4.4 A T G C N! A 5 -4 -4 -4 -2! T -4 5 -4 -4 -2! G -4 -4 5 -4 -2! C -4 -4 -4 5 -2! N -2 -2 -2 -2 -1! +5-4-4+5! - 8 X!                  X  =  seuil  maximal  de  mismatch  autorisé            =  21  par  défaut   W
  • 31. 31   Mot  “W”  =  3  a.  a.     (Seuil    “X”)   (Seuil  “T”)   L E C N Q L I P I A H K T C P E G K N L H K T! H L T! H V T! H Y T! Y K T! N K T! L K C H N T Q L P F I Y K T C P E G K N Extension   Automate   TBLASTX,  BLASTP,  BLASTX  
  • 32. 32   A R N D C Q E G H I L K M F P S T W Y V B Z X * A 4 -1 -2 -2 0 -1 -1 0 -2 -1 -1 -1 -1 -2 -1 1 0 -3 -2 0 -2 -1 0 -4 R -1 5 0 -2 -3 1 0 -2 0 -3 -2 2 -1 -3 -2 -1 -1 -3 -2 -3 -1 0 -1 -4 N -2 0 6 1 -3 0 0 0 1 -3 -3 0 -2 -3 -2 1 0 -4 -2 -3 3 0 -1 -4 D -2 -2 1 6 -3 0 2 -1 -1 -3 -4 -1 -3 -3 -1 0 -1 -4 -3 -3 4 1 -1 -4 C 0 -3 -3 -3 9 -3 -4 -3 -3 -1 -1 -3 -1 -2 -3 -1 -1 -2 -2 -1 -3 -3 -2 -4 Q -1 1 0 0 -3 5 2 -2 0 -3 -2 1 0 -3 -1 0 -1 -2 -1 -2 0 3 -1 -4 E -1 0 0 2 -4 2 5 -2 0 -3 -3 1 -2 -3 -1 0 -1 -3 -2 -2 1 4 -1 -4 G 0 -2 0 -1 -3 -2 -2 6 -2 -4 -4 -2 -3 -3 -2 0 -2 -2 -3 -3 -1 -2 -1 -4 H -2 0 1 -1 -3 0 0 -2 8 -3 -3 -1 -2 -1 -2 -1 -2 -2 2 -3 0 0 -1 -4 I -1 -3 -3 -3 -1 -3 -3 -4 -3 4 2 -3 1 0 -3 -2 -1 -3 -1 3 -3 -3 -1 -4 L -1 -2 -3 -4 -1 -2 -3 -4 -3 2 4 -2 2 0 -3 -2 -1 -2 -1 1 -4 -3 -1 -4 K -1 2 0 -1 -3 1 1 -2 -1 -3 -2 5 -1 -3 -1 0 -1 -3 -2 -2 0 1 -1 -4 M -1 -1 -2 -3 -1 0 -2 -3 -2 1 2 -1 5 0 -2 -1 -1 -1 -1 1 -3 -1 -1 -4 F -2 -3 -3 -3 -2 -3 -3 -3 -1 0 0 -3 0 6 -4 -2 -2 1 3 -1 -3 -3 -1 -4 P -1 -2 -2 -1 -3 -1 -1 -2 -2 -3 -3 -1 -2 -4 7 -1 -1 -4 -3 -2 -2 -1 -2 -4 S 1 -1 1 0 -1 0 0 0 -1 -2 -2 0 -1 -2 -1 4 1 -3 -2 -2 0 0 0 -4 T 0 -1 0 -1 -1 -1 -1 -2 -2 -1 -1 -1 -1 -2 -1 1 5 -2 -2 0 -1 -1 0 -4 W -3 -3 -4 -4 -2 -2 -3 -2 -2 -3 -2 -3 -1 1 -4 -3 -2 11 2 -3 -4 -3 -2 -4 Y -2 -2 -2 -3 -2 -1 -2 -3 2 -1 -1 -2 -1 3 -3 -2 -2 2 7 -1 -3 -2 -1 -4 V 0 -3 -3 -3 -1 -2 -2 -3 -3 3 1 -2 1 -1 -2 -2 0 -3 -1 4 -3 -2 -1 -4 B -2 -1 3 4 -3 0 1 -1 0 -3 -4 0 -3 -3 -2 0 -1 -4 -3 -3 4 1 -1 -4 Z -1 0 0 1 -3 3 4 -2 0 -3 -3 1 -1 -3 -1 0 -1 -3 -2 -2 1 4 -1 -4 X 0 -1 -1 -1 -2 -1 -1 -1 -1 -1 -1 -1 -1 -1 -2 0 0 -2 -1 -1 -1 -1 -1 -4 * -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 1 Matrice de score BLOSUM62
  • 33. 33 Levure 6000 Drosophile 13600 Humain 25000 Nematode 19000 Arabidopsis 25000 Nombre de gènes dans les génomes eucaryotes
  • 34. 34 EVOLUTION  MOLECULAIRE     Quelques  principes  
  • 35. MutaDon   Dérive   généDque   SélecDon     posiDve   SélecDon     négaDve   FixaDon   100%   Avantageuse   Neutre   Délétère   DispariDon   0%   Fréquence   Intermédiaire   0-­‐100%  
  • 36. Evolution moléculaire Les fréquences des variations au sein d’une population fluctuent au cours du temps. P 0 1 Générations (temps) Pour estimer les fréquences dans une population, il faut échantillonner de nombreux individus Les variations AVANTAGEUSES sont sélectionnées et augmentent en fréquence Les variations DELETERES sont éliminées et diminuent en fréquence Les variations NEUTRES fluctuent de manière aléatoire
  • 38.
  • 39. Cys Ser Arg Cys Lys Gly His Cys Arg Ala Arg! TGT TCG AGA TGT AAG GGC CAT TGT CGA GCA AGA! ! ! ! Cys Leu Arg Cys Lys Arg His Cys Arg Ala Lys! TGT TTG AGA TGT AAA CGC CAT TGT AGA GCT AAA! ! ! ! Observé Attendu neutre Substitutions synonymes 3 Substitutions non-synonymes 3 ~3 X 4 = 12 è 75% des mutations sont délétères
  • 40. dS: taux de substitution synonyme (Ks) dN: taux de substitution non-synonymes (Ka) ω = dN / dS ω ~ 1 è ω 1 è evolution sous sélection négative ω 1 è evolution sous sélection positive
  • 41. Fréquence des valeurs de ω pour 835 paires de gènes orthologues rat- souris (les valeurs indiquées en abscisse sont la moyenne de la classe) Hurst DL (2002) TIGS 18:486-487
  • 42. Génomique Comparative L’alignement multiple entre génome est un outil fondamental pour identifier des régions conservées au cours de l’évolution (par sélection négative) UCSC Genome Browser : http://genome.ucsc.edu/ Une région de 100 pb sur Xq26:
  • 43. Tous les mammifères possèdent à peu près le même nombre de gènes, et partagent les mêmes grandes fonctions de la vie - reproduction - développement - système nerveux central - système digestif - système musculaire - …. On estime que les gènes présents dans le génome de la souris ou du chien peuvent être informatifs pour identifier les gènes humains (ou vice-versa) simplement par alignement de séquence. Généralisation: Toutes les informations importantes contenues dans le génome (codage des protéines et autres…) sont susceptibles d’êtres partagées entre espèces différentes et donc d’être découvertes par alignement de séquences. Génomique  ComparaDve:  Annoter  les  Gènes  
  • 44. Génomique Comparative (5) Les séquences fonctionnelles les mieux connues dans le génome humain sont les exons des gènes codant les protéines. On peut les comparer par paires, mais les comparer toutes ensemble est plus informatif, à l’aide d’un alignement multiple Les exons codant sont particulièrement ben conservés, à travers l’ensemble des vertébrés (sélection négative). Les régions « UTRs » évoluent plus vite. Les introns ne montrent pas de conservation particulière (évolution neutre) Les espèces trop proches de l’homme sont peu informatives (ex: Macaque)
  • 45. Migration, adaptation et selection naturelle Les variations génétiques qui confèrent un avantage pour une meilleure adaptation seront sélectionnés
  • 46. Mutation avantageuse Different types de sélection naturelle Mutation neutre Mutation délétère mutation “balancée” SELECTION POSITIVE Ex. G6PD, CD40 protection contre la malaria en Afrique SELECTION BALANCEE Ex. MHC worldwide, HbS en Afrique (malaria) SELECTION PURIFICATRICE Ex. Beaucoup de gènes humain
  • 47. La cas de la lactase La plupart des adultes ne peuvent métaboliser le lactose, sucre principal du lait, car la fonction de l’enzyme lactase-phlorizin hydrolase diminue après le sevrage. Mais certaines population, principalement celles descendantes de population ayant pratiqué la domestication du bétail, maintiennent cette possibilité à l’âge adulte. Fréquences de la « persistance de la lactase » 90% chez les suédois et les danois ~ 50% chez les français et les espagnols 5% - 20% chez les africains de l’ouest « non-pastoraux » 1 % chez les chinois Mais 90% chez les Tutsis, Fulani, … populations africaines « pastorales ». Certains SNPs ont été retrouvés dans les introns d’un gènes voisin de la lactase, et sont associé au phénotype « persistance de la lactase »
  • 48. Distribution du phénotype « persistance de la lactase » dans le monde La cas de la lactase
  • 49. La cas de la lactase Intron 13 Danois et Suédois Europe du sud S. A. Tishkoff et al., Convergent adaptation of human lactase persistence in Africa and Europe. Nature genetics 39, 31 (2007).
  • 50. La cas de la lactase Danois et Suédois Europe du sud Afrique S. A. Tishkoff et al., Convergent adaptation of human lactase persistence in Africa and Europe. Nature genetics 39, 31 (2007).
  • 51. La cas de la lactase Conclusions: Les mutations de la lactase sont un cas classique d’évolution convergente: le même phénotype est sélectionné de manière indépendante dans des populations différentes, mais pas par le biais du même génotype. Les mutations favorables sont dans les introns d’un gènes voisin du gène dont la protéine confère l’avantage Les mutations augmentent la production de lactase au cours de la vie adulte (modification de l’expression du gène)