Quelles	
  sont	
  les	
  probléma0ques	
  en	
  bio-­‐
informa0que	
  du	
  séquençage	
  haut	
  débit	
  
pour	
  le	
 ...
La solution technologique : le séquençage nouvelle génération
= NGS
Approche « shotgun », on séquence la cible en une seul...
• La technologie existe (exomes & genomes)
• Des logiciels sont développés activement pour annoter, trier, classifier les ...
INTERET DE L’EXOME : GENES CANDIDATS TROP
NOMBREUX
217 genes
25% de mutations délétères identifiées
VO3 : 438 gènes dont 2...
5
	
  
Family	
  1:	
  Iranian	
  origin	
  
(Küry S et al, article en cours)
INTERET DE L’EXOME : GENE RESPONSABLE INCONNU
Séquençage Haut-Débit: 2 technologies
(aujourd’hui)
Illumina MiSeq, NextSeq and HiSeq series:
séquençage par synthèse, lec...
- Détermination du mode de transmission +++ (pas toujours aisé)
- recherche encadrée sur le plan éthique
- ANONYMISATION D...
LA PIPELINE BIOINFORMATIQUE, ENJEU MAJEUR
Des solutions pour le NGS ciblé, plus difficile à maîtriser pour l’exome
SOLUTIO...
Séquence	
  de	
  référence	
  
1	
  read	
  
=	
  1	
  fragment	
  lu	
  
=	
  ~200pb	
  
Séquence	
  consensus	
  lue	
 ...
10
NGS ciblé
Mutation SLC39A4
c.192+19G>A
Validation Sanger
indispensable
en exome ou en
ciblé
Notion indispensable en NGS...
Exemple de défaut de couverture : MLH1 exon 16
Séquençage Sanger obligatoire car région non couverte
Les 2 amplicons du haut chevauchant la jonction des autres amplicons ne
sont pas capturés, entrainant une perte de couvert...
La profondeur et la couverture en exome
if	
  86%	
  of	
  the	
  exome	
  is	
  covered	
  at	
  20X,	
  	
  
	
  
-­‐	
 ...
DDDCCC?<CCCCDE>DACD;DBDCDC>;C>D?@C9C7@CCDACCADDDAB,=C@
@IL31_4368:1:1:1001:20031/2
AGCAATTAATAGAGTGAAGAGAAAACCTACAAAATGGGA...
$ gunzip -c data.vcf.gz |
grep -v "##" |
normalizechrom |
dnacontext -f hg19.fa |
awk '($8=".")'
#CHROM POS ID REF ALT QUA...
http://vcftools.sourceforge.net/specs.html
VCF format
Par	
  AS	
  Denommé,	
  P	
  Lindenbaum,	
  Equipe	
  R	
  Redon	
  Ins0tut	
  du	
  Thorax	
  
Contrôle qualité : 24 laboratoires européens participants
Test du pipeline bioinformatique seul : 60 % de concordance parf...
L’ANALYSE BIOINFORMATIQUE SE POURSUIT :
AIDE A L’INTERPRETATION BIOLOGIQUE
RING BRCTs
NES1
NES2
NLS1
NLS2
1 1863
http://ww...
CLINICIENS
MALHEUREUX !UV
Données base UMD BRCA
Données INCa 2013 : BRCA1 et BRCA2
9,9 % de mutations délétères (avec réar...
A	
  l’échelle	
  de	
  l’exome,	
  
more…..	
  
Exome
40 639 variants
80 000 avec les
artefacts
Localisation des mutations
Tissu Somatique Tissu Germinal
Pas de transmission
à la descendance
Transmission à
la descendan...
Ovaire sain / tumeur
APRES	
  L’EXOME,	
  LE	
  GENOME	
  !	
  
-­‐  INTERPRETATION	
  PLUS	
  COMPLEXE	
  
-­‐  MAIS	
  AVANTAGE	
  TECHNOLOGI...
Quelles sont les problématiques en bio‐informatique du séquençage haut débit pour le diagnostic des maladies génétiques
Quelles sont les problématiques en bio‐informatique du séquençage haut débit pour le diagnostic des maladies génétiques
Quelles sont les problématiques en bio‐informatique du séquençage haut débit pour le diagnostic des maladies génétiques
Quelles sont les problématiques en bio‐informatique du séquençage haut débit pour le diagnostic des maladies génétiques
Quelles sont les problématiques en bio‐informatique du séquençage haut débit pour le diagnostic des maladies génétiques
Quelles sont les problématiques en bio‐informatique du séquençage haut débit pour le diagnostic des maladies génétiques
Prochain SlideShare
Chargement dans…5
×

Quelles sont les problématiques en bio‐informatique du séquençage haut débit pour le diagnostic des maladies génétiques

1 502 vues

Publié le

Présentation réalisée lors de la journée Numérique & Santé organisée par les pôles Images & Réseaux et Atlanpole Biotherapies le 28 mai 2015 à Nantes.

Plus d'informations :
http://www.digitalforlife.fr/28-mai-journee-valorisation-des-donnees-de-sante/

Publié dans : Santé & Médecine
0 commentaire
0 j’aime
Statistiques
Remarques
  • Soyez le premier à commenter

  • Soyez le premier à aimer ceci

Aucun téléchargement
Vues
Nombre de vues
1 502
Sur SlideShare
0
Issues des intégrations
0
Intégrations
356
Actions
Partages
0
Téléchargements
20
Commentaires
0
J’aime
0
Intégrations 0
Aucune incorporation

Aucune remarque pour cette diapositive

Quelles sont les problématiques en bio‐informatique du séquençage haut débit pour le diagnostic des maladies génétiques

  1. 1. Quelles  sont  les  probléma0ques  en  bio-­‐ informa0que  du  séquençage  haut  débit   pour  le  diagnos0c  des  maladies   géné0ques Pr.  Stéphane  BEZIEAU,  service  de  Géné0que,  CHU  Nantes  et   Université  de  Nantes  
  2. 2. La solution technologique : le séquençage nouvelle génération = NGS Approche « shotgun », on séquence la cible en une seule étape, par petits fragments, puis on assemble par bioinformatique (alignement) puis on compare par rapport à la séquence de référence, encore par bioinformatique. ADN génomique Fragmentation puis enrichissement Séquençage de l’ensemble des fragments en un seul temps (séquençage massif parallèle) Analyse bioinformatique Assemblage par alignement sur la séquence de référence, puis analyse
  3. 3. • La technologie existe (exomes & genomes) • Des logiciels sont développés activement pour annoter, trier, classifier les variants UN GENOME : 3 Milliards 200 millions de paires de bases EXOME : 1,5 % DU GENOME (23 000 Gènes) 48 MILLIONS DE PAIRES DE BASES VARIATIONS INTER-INDIVIDUELLES APPELEES POLYMORPHISMES 3 millions par Génome QU’EST CE QUE L’ON ATTEND POUR L’EXOME EN ROUTINE ? panel exome génome …AGCTTTAGGCTAGGGCCCCTTAGTATATATATTATATATGGGTGTGTGTAAGTCCCCAAA….   …AGCTTTAGGCTAGGGCCCCTTAGTATATATA/GTTATATATGGGTGTGTGTAAGTCCCCAAA….  
  4. 4. INTERET DE L’EXOME : GENES CANDIDATS TROP NOMBREUX 217 genes 25% de mutations délétères identifiées VO3 : 438 gènes dont 250 gènes “qualité diagnostic” A ou B 96 suspectés par d’autres équipes mais non retenus dans VO3 Redin  C,  et  al.  J  Med  Genet  2014;51:724–736.     Nécessité de faire des choix devant le nombre de gènes candidats mais qualité optimisée pour 238 gènes !
  5. 5. 5   Family  1:  Iranian  origin   (Küry S et al, article en cours) INTERET DE L’EXOME : GENE RESPONSABLE INCONNU
  6. 6. Séquençage Haut-Débit: 2 technologies (aujourd’hui) Illumina MiSeq, NextSeq and HiSeq series: séquençage par synthèse, lectures 36- 250 pb 2 à 11 jours de run env.; plusieurs déclinaisons de débit: 1Gb > 3 Tb et plus Life Ion Torrent technology: PGM and Proton Séquençage par semi-conducteur, lectures 100-400pb, ->1 Gb/run, 3h de run (PGM) ; exome (Proton) Le taux d’erreur élevé de cette technologie peut être traité en constitutionnel (on attend des hétérozygotes donc un taux de mutation de 50%) mais plus délicat en somatique.
  7. 7. - Détermination du mode de transmission +++ (pas toujours aisé) - recherche encadrée sur le plan éthique - ANONYMISATION DES DONNEES
  8. 8. LA PIPELINE BIOINFORMATIQUE, ENJEU MAJEUR Des solutions pour le NGS ciblé, plus difficile à maîtriser pour l’exome SOLUTION INTERNE : - Ressource bioinformatique indispensable - Support du département informatique obligatoire - Logiciels commerciaux développées : SeqNext (JSI), Sure Call SOLUTION EXTERNE - Transfert de données brutes (BAM, FASTQ,…) - traitement de données externalisé - Traitement bioinformatique de panel CE-IVD - Ex : Sophia Genetics (avantage : base inter-communicante) Coût : 30 à 60 euros par patient ! STOCKAGE DES DONNEES (10 ans?)
  9. 9. Séquence  de  référence   1  read   =  1  fragment  lu   =  ~200pb   Séquence  consensus  lue   Couverture   (taille  de  la  séquence  cible)   Profondeur   (moyenne  du  nombre  de  lectures   pour  chaque  base  ;     exprimée  en  X)   Analyse bioinformatique
  10. 10. 10 NGS ciblé Mutation SLC39A4 c.192+19G>A Validation Sanger indispensable en exome ou en ciblé Notion indispensable en NGS : couverture et profondeur de couverture (ex : 50 X) Seuil diagnostic minimum 30 X Exome 50X, 100 X de moyenne
  11. 11. Exemple de défaut de couverture : MLH1 exon 16 Séquençage Sanger obligatoire car région non couverte
  12. 12. Les 2 amplicons du haut chevauchant la jonction des autres amplicons ne sont pas capturés, entrainant une perte de couverture sur 3 bases Exemple de défaut de profondeur de couverture : SCN5a exon 18
  13. 13. La profondeur et la couverture en exome if  86%  of  the  exome  is  covered  at  20X,       -­‐  2  compound  heterozygous  variants  in  1  gene  will  be  found  in  72.5%  of  the  cases;     -­‐  in  25.3%  of  the  cases,  only  one  variant  will  be  found;     -­‐  in  2.2%  of  the  cases  both  variants  will  be  missed.     Highly optimized design for deep coverage of targets in HGMD, OMIM, and ClinVar, 98% at 20x, for highly sensitive variant detection. L’exome en routine diagnostic impose comme le NGS ciblé de connaître la couverture de ses gènes cibles et de les indiquer au clinicien SureSelect Clinical Research Exome (AgilentR)
  14. 14. DDDCCC?<CCCCDE>DACD;DBDCDC>;C>D?@C9C7@CCDACCADDDAB,=C@ @IL31_4368:1:1:1001:20031/2 AGCAATTAATAGAGTGAAGAGAAAACCTACAAAATGGGAGAAAATATTTGTAAA + ?@FBEFECFCE8EC<>C@AE>CDDEEFCEEE@@+ED=CDDE4EE<@CDD+C?CC @IL31_4368:1:1:1001:7078/2 TGGGTGTGTGTGTGTTTGCGTGCGCGCTTCTGGGTGTAGTTATGTGTGTGTCTG + ??>D7DD?AD?EDECEAB@<@,7@A9'>7><BC;=A31?A.;<>>B)A708>>4 @IL31_4368:1:1:1001:11670/2 AGGATGATGACAGCAACTTTCATATGGATTTCATCGTGGCTGCATCCAACCTCC + ;EEE,FEAEFEFFFECEFCEFA>FCEEC@@ECEBCDFFAFD9E;9E@E?BD@?C @IL31_4368:1:1:1001:15110/2 GGAGTACAAGAAGGAAGGCATTGAGTGGACGTTCATTGACTTTGGGATGGACCT + FCEFCGGEGFECEEGCGCAAFEC=EAFGFEE?8BAA<C=DA=4:EE>9@6;4B> @IL31_4368:1:1:1002:6807/2 AGTCTTTGGACTTGCAAGAGAAGCCCAGCATTAAGAAAGAGACCCTCCTCAAAA FASTQ LES  FORMATS  DE  FICHIER  EN  NGS  
  15. 15. $ gunzip -c data.vcf.gz | grep -v "##" | normalizechrom | dnacontext -f hg19.fa | awk '($8=".")' #CHROM POS ID REF ALT QUAL FILTER . FORMAT CALL LEFT(DNA) CONTEXT(DNA) RIGHT(DNA) chr1 879317 rs7523549 C T 71 0 . GT:GQ:DP:FLT 0/1:34:8:0 GAGTTTTCTA C GTGGCCAGCT chr1 880238 rs3748592 A G 51 0 . GT:GQ:DP:FLT 1/1:51:8:0 AGCCAGCCTT A GAGGTTACTC chr1 880390 rs3748593 C A 99 0 . GT:GQ:DP:FLT 1/0:99:30:0 TGCCCTCCCG C CAGATGGGCT chr1 881627 rs2272757 G A 99 0 . GT:GQ:DP:FLT 1/0:59:20:0 TACAAGGTCA G GGGTGTCCCC chr1 883625 rs4970378 A G 39 0 . GT:GQ:DP:FLT 1/1:39:4:0 GAAGAGCAGG A GAGAGGGCCG chr1 887560 rs3748595 A C 99 0 . GT:GQ:DP:FLT 1/1:99:40:0 CCAGGCTGAC A AGTCAGGCTG (...)
  16. 16. http://vcftools.sourceforge.net/specs.html VCF format
  17. 17. Par  AS  Denommé,  P  Lindenbaum,  Equipe  R  Redon  Ins0tut  du  Thorax  
  18. 18. Contrôle qualité : 24 laboratoires européens participants Test du pipeline bioinformatique seul : 60 % de concordance parfaite Dr Simon Patton, EMQN, 7 novembre 2014
  19. 19. L’ANALYSE BIOINFORMATIQUE SE POURSUIT : AIDE A L’INTERPRETATION BIOLOGIQUE RING BRCTs NES1 NES2 NLS1 NLS2 1 1863 http://www.umd.be/BRCA1/
  20. 20. CLINICIENS MALHEUREUX !UV Données base UMD BRCA Données INCa 2013 : BRCA1 et BRCA2 9,9 % de mutations délétères (avec réarrangements) 7 % d’UV !
  21. 21. A  l’échelle  de  l’exome,   more…..   Exome 40 639 variants 80 000 avec les artefacts
  22. 22. Localisation des mutations Tissu Somatique Tissu Germinal Pas de transmission à la descendance Transmission à la descendance Cancer héréditaireCancer spontané non héréditaire Autre  challenge  :  Analyse  de  tumeurs  pour  les  thérapies  ciblées     Autre  challenge  bioinforma0que  aussi  !     UN  DEGRE  DE  COMPLEXITE  SUPERIEUR  
  23. 23. Ovaire sain / tumeur
  24. 24. APRES  L’EXOME,  LE  GENOME  !   -­‐  INTERPRETATION  PLUS  COMPLEXE   -­‐  MAIS  AVANTAGE  TECHNOLOGIQUE  :  PAS  DE  CAPTURE  DES  EXONS   -­‐  AUTRE  VARIATIONS  VISIBLES  :  COPY  NUMBER  VARIATION  (CNV)   -­‐  INTERPRETATION  DES  VARIATIONS  HORS  DES  SEQUENECS  CODANTES  !     Extrait de « comprendre la génétique et ses enjeux » par G. Matthijs et J. Vermeesch, avec l’aimable autorisation des auteurs

×