Séquençage rapide du génome : progrès et défis | LIEGE CREATIVE, 17.05.2022
Découverte de biomarqueurs prédictifs en cancer du sein par Intégration Transcriptome-Interactome
1. Centre de Recherche en Cancérologie de Marseille
CRCM's Bioinformatics Integrative
Découverte de biomarqueurs prédictifs
en cancer du sein par
Intégration Transcriptome-Interactome
Directeur
Pr. François Bertucci
Oncologie Médicale
Co-directeur
Dr. Ghislain Bidaut
Bioinformatique Intégrative
Maxime U Garcia
Soutenance de thèse - 20 décembre 2013
2. Plan
2/60
Introduction
Le cancer, le cancer du sein, les signatures prédictives
L'Intégration Transcriptome-Interactome
Avantages et principes, données utilisées
Résultats
Analyse non-supervisée, analyse supervisée, performance
Conclusion
Discussion, perspectives
Introduction
3. Principe général de l'expression des gènes
3/60
ADN
Transcription
ARN
Traduction
Protéine
Introduction
5. L'importance du contrôle hormonal
5/60
Prolifération des cellules
Apoptose (Mort cellulaire)
Système immunitaire
Métabolisme
Puberté
Grossesse
Cycle reproductif
Développement des caractères sexuels secondaires
Introduction
6. Une multitude de causes à l'origine du cancer
6/60
Physique
UV, Radioactivité
Chimique
Perturbateurs endocriniens, Radicaux libres
Biologique
Virus, Bactéries, Parasites
Hérédité
BRCA1, RB1, APC
Introduction
7. Les catégories de gènes à l'origine des cancers
7/60
Les oncogènes
Favorisent les cancers
Les gènes suppresseurs de tumeurs
Inhibent la prolifération cellulaire
Les gènes de réparation de l'ADN
Protègent l'ADN
Introduction
11. L'apport des technologies à haut débit
11/60
Médecine prédictive
Prédire l'évolution de la maladie
Prévenir la maladie ou en amoindrir ses effets
Médecine personnalisée
Établir un traitement personnalisé suivant le patient et/ou la
maladie
Introduction
12. Les statistiques des cancers
12/60
Organe
Homme
Femme
Poumon
42,3
9,9
Prostate
12,6
-
Côlon-rectum
14,4
8,3
Foie
9,9
2,2
Pancréas
7,9
4,7
-
17,2
158,6
79,1
Sein
Tous cancers
Taux observé standardisé (pour 100 000 personnes) à la population mondiale
de mortalité des cancers pour 2004-2008
Introduction
13. Les caractéristiques du cancer du sein
13/60
1 an
3 ans 5 ans
Taux de survie 97 % 90 %
Stade
85 %
Local
Taux de survie à 5 ans
Régional
Métastatique
98.3 %
83.5 %
23.3 %
Il est souvent hormono-dépendant
Le cancer le plus fréquent et le plus mortel chez la femme
Introduction
14. Traitements
14/60
Chirurgie
Ablation chirurgicale de la tumeur
Chimiothérapie
Substance chimique ciblant les cellules cancéreuses
Radiothérapie
Irradiation des cellules
Hormonothérapie
Pour les cancers hormono-dépendants
Introduction
15. Les classifications des cancers
15/60
Tumeur-Ganglion-Métastase (TNM)
(0 – I – II – III – IV)
Scarff-Bloom-Richardson (SBR)
( 1 – 2 – 3)
Biomarqueurs
(ESR1 (ER), PGR (PR), ERBB2 (HER2))
Sous-typage moléculaire
Introduction
18. Les signatures prédictives
18/60
(2002) Van't veer et al.
117 patients → signature à 70 gènes
essai clinique (MINDACT)
(2005) Wang et al.
286 patients → signature à 76 gènes (ER)
seulement 3 gènes en commun
(2005) Michiels et al.
Plusieurs signatures à 70 gènes possibles
Forte dépendance au jeu de données d'apprentissage
(2007) Ein-Dor et al.
Des milliers d'échantillons seraient nécessaires
pour générer une liste robuste
Introduction
19. Des limitations inhérentes à la technologie utilisée et
à l'hétérogénéité de la maladie étudiée
19/60
Variabilité expérimentale
Biologie du cancer
Fléaux de la dimensionnalité et de la parcimonie
Solutions :
Augmenter le nombre d'échantillons (Dobbin et al. 2008)
Ajouter des informations biologiques supplémentaires
(Chuang et al. 2007)
Introduction
20. L'ajout de données d'interactions protéiques
améliore la performance de la classification 20/60
(2008) Chuang et al.
Ajout de données d'interactions protéiques
→ biomarqueurs robustes
→ augmentation de la performance
Un seul jeu de données d'apprentissage utilisé
Introduction
21. Plan
21/60
Introduction
Le cancer, le cancer du sein, les signatures prédictives
L'Intégration Transcriptome-Interactome
Avantages et principes, données utilisées
Résultats
Analyse non-supervisée, analyse supervisée, performance
Conclusions
Discussion, perspectives
L'Intégration Transcriptome-Interactome
22. Question biologique posée et données utilisées
22/60
Signature pronostique de la rechute métastatique à 5
ans dans le cancer du sein
Données d'expression (Transcriptome)
Données d'interactions protéine-protéine (Interactome)
Algorithme Intégration Transcriptome-Interactome
(ITI)
L'Intégration Transcriptome-Interactome
23. Élaboration d'un Compendium
de données d'expression
Exploration des dépôts de données publiques (GEO,
ArrayExpress, Stanford Microarray Database)
26 jeux de données considérés
12 jeux de données avec données cliniques
Statuts DMFS (Distant Metastasis-Free Survival)
Suivi minimal de 5 ans
Statuts ER
Nature du traitement éventuel
L'Intégration Transcriptome-Interactome
23/60
24. Douze jeux de données assemblés
pour réunir 2103 tumeurs du sein
Jeu de données
Échantillons
DMFS +
DMFS -
Desmedt
198
62
136
Ivshina
249
89
160
Loi
117
26
91
Parker
199
45
154
Pawitan
159
40
119
31
9
22
Schmidt
200
46
154
Sotiriou
179
40
139
Van de Vijver
295
88
207
Wang
286
107
179
Zhang
136
20
116
Zhou
54
9
45
Total
2103
581
1522
Sabatier (IPC)
L'Intégration Transcriptome-Interactome
24/60
25. Assemblage de l'Interactome
25/60
Base de données
Protéines
Interactions
HPRD
9 386
36 577
INTact
7 471
25 616
918
810
MINT
5 559
12 143
Cocite
5 568
31 533
13 202
70 530
DIP
Total
L'Intégration Transcriptome-Interactome
26. Principes de l'Intégration Transcriptome-Interactome
26/60
Changement
d'expression
+
Exemple d'un réseau d'interactions
L'Intégration Transcriptome-Interactome
27. Principes de l'Intégration Transcriptome-Interactome
27/60
Jeu de données 1
Changement
d'expression
+
L'Intégration Transcriptome-Interactome
28. Principes de l'Intégration Transcriptome-Interactome
28/60
Jeu de données 2
Changement
d'expression
+
L'Intégration Transcriptome-Interactome
29. Principes de l'Intégration Transcriptome-Interactome
29/60
Changement
d'expression
+
Le gène à l'origine de la dérégulation est peu différentiellement exprimé
L'Intégration Transcriptome-Interactome
30. Principe de l'algorithme ITI
30/60
2 types de données
+ annotations cliniques
(Statuts DMFS, ER)
Garcia et al. 2012
L'Intégration Transcriptome-Interactome
31. Principe de l'algorithme ITI
31/60
2 types de données
+ annotations cliniques
(Statuts DMFS, ER)
Mesure de corrélation
entre les profils
d'expression des gènes et
les conditions cliniques
Garcia et al. 2012
L'Intégration Transcriptome-Interactome
32. Principe de l'algorithme ITI
32/60
2 types de données
+ annotations cliniques
(Statuts DMFS, ER)
Mesure de corrélation
entre les profils
d'expression des gènes et
les conditions cliniques
Détection de
sous-réseaux
discriminants
Garcia et al. 2012
L'Intégration Transcriptome-Interactome
33. Calcul du score des sous-réseaux
33/60
S s ,d =
Ss =
1
NS
nd
1
corr ∑
max nd ( DS )
n
∑
d ∈ DS
e( g , d ), cc( d )
g∈ s
S s ,d
Garcia et al. 2012
- Corrélation Profils d'expression des gènes – Conditions cliniques (DMFS)
- Normalisation par la taille du jeu de données
- Somme sur tous les jeux de données
34. Validation statistique
34/60
Mélange des conditions cliniques
●
Utilisation d'un interactome aléatoire
●
Décision aléatoire de l'ajout d'un nœud
Sélection de sous-réseaux
score
Sous-réseaux
●
Sous-réseaux
Génération de sous-réseaux aléatoires
score
L'Intégration Transcriptome-Interactome
36. Plan
36/60
Introduction
Le cancer, le cancer du sein, les signatures prédictives
L'Intégration Transcriptome-Interactome
Avantages et principes, données utilisées
Résultats
Analyse non-supervisée, analyse supervisée, performance
Conclusion
Discussion, perspectives
Résultats
37. Analyse non-supervisée
37/60
Jeu de données
Échantillons
DMFS +
DMFS -
Desmedt
198
62
136
Ivshina
249
89
160
Loi
117
26
91
Parker
199
45
154
Pawitan
159
40
119
31
9
22
Schmidt
200
46
154
Sotiriou
179
40
139
Van de Vijver
295
88
207
Wang
286
107
179
Zhang
136
20
116
Zhou
54
9
45
Total
2103
581
1522
Sabatier (IPC)
Résultats
38. Quatre études dans l'analyse non-supervisée
38/60
Tous les jeux de données sauf van de Vijver
119 sous-réseaux
Tous les jeux de données sauf Wang
103 sous-réseaux
Tous les jeux de données profilés sous Affymetrix
127 sous-réseaux
Tous les jeux de données profilés sous Affymetrix sauf
Wang
100 sous-réseaux
Résultats
40. Les sous-réseaux possèdent
les caractéristiques du cancer (Hallmarks)
40/60
Sous-réseaux
Enrichissement terme GO
55971-32
1942-10
57167-34, 4291-24
3987-23
163786-8
23759-14
59349-35
7398-41
Apoptose
Angiogénèse
Régulation des kinases
Vieillissement cellulaire
Voie de signalisation de Wnt *
Cycle cellulaire, réplication ADN
Adhésion cellulaire *
Différentiation cellulaire
* Sous-réseaux reliés à la rechute métastatique
Résultats
45. Analyse supervisée
45/60
Jeu de données
Échantillons DMFS +/- ER +/-
Desmedt
190/198
62/127
61/129
Loi
101/327
27/74
29/72
Sabatier
31/255
9/22
11/20
Schmidt
182/200
46/136
37/145
Van de Vijver
150/295
56/94
36/114
Wang
276/286
107/169
72/204
Total
930/1561
307/623 246/684
Critères:
- DMFS (Distant Metastasis Free Survival)
- Patients sans chimiothérapie adjuvante
- 5 ans de suivis
Résultats
Sélection
- 6 jeux de données
- 930 ćhantillons
46. Quatre études explorant la spécificité
biologique des cancers du sein ER+ et ERTous ER+, validation sur Desmedt
6 sous-réseaux
Tous ER-, validation sur Desmedt
165 sous-réseaux
Tous ER+, validation sur Wang
14 sous-réseaux
Tous ER-, validation sur Wang
122 sous-réseaux
Résultats
46/60
48. Validation des sous-réseaux
48/60
Validation croisée à 10 couches
Préservation des proportions en statuts cliniques
et moléculaires dans les jeux d'apprentissage et
de validation
Détection des sous-réseaux et validation
statistique :
- mélange des conditions cliniques
- mélange des interactions
- ajout aléatoire
Génération de 10 listes de sous-réseaux
Combinaison des listes
Sous-réseaux gardés pour classification sur des données indépendantes
Résultats
50. L'exploration fonctionnelle des sous-réseaux reflète
la spécificité biologique du cancer
50/60
Gene Ontology
GO:0006379
125E-08
Régulation de la
secrétion d'hormone
de croissance
GO:0060123
218E-07
Régulation positive
de l'organisation du
cytosquelette
GO:0051495
206E-04
Regulation de la
secrétion d'insuline
GO:0050796
155E-05
Régulation du
chimiotactisme
GO:0050920
429E-07
Immunité à la
médiation cellulaire
des cellules NK
GO:0002228
293E-06
Régulation positive
des activités MAP
kinases
GO:0043406
476E-10
Développement des
cellules musculaires
GO:0055001
106E-11
Interphase du cycle
cellulaire mitotique
GO:0051329
408E-11
Voie de signalisation
de Wnt par
l'intermédiaire de la
ER−
Corrected
Clivage des ARNm
ER+
GO
GO:0060070
622E-10
β-catenin
Résultats
P-value
51. Classification plus performante
51/60
Statuts
ER-
Jeux de
données
ER+
Desmedt
van de Vijver
Desmedt
van de Vijver
Signature
70 g
76 g
ITI(165)
70 g
76 g
ITI(122)
70 g
76 g
ITI(6)
70 g
76 g
ITI(14)
N
61
61
61
36
36
36
129
129
129
114
114
114
ACC
0.442
0.377
0.541
0.528
0.556
0.528
0.411
0.604
0.736
0.623
0.632
0.518
Signature plus stable (de 11.5 à 32.8 % de gènes en commun) entre différents
jeux de données d'apprentissage
Résultats
52. Amélioration de la prédiction
par rapport aux signatures existantes
Résultats
52/60
53. Plan
53/60
Introduction
Le cancer, le cancer du sein, les signatures prédictives
L'Intégration Transcriptome-Interactome
Avantages et principes, données utilisées
Résultats
Analyse non-supervisée, analyse supervisée, performance
Conclusion
Discussion, perspectives
Conclusion
54. Conclusion
54/60
Construction d'un compendium de jeux de données
d'expression en cancer du sein
Assemblage d'un Interactome humain
Détection de sous-réseaux
Validation des sous-réseaux (3 méthodes)
Classification plus performante que les précédentes
signatures
Ressource bioinformatique disponible en ligne
Conclusion
55. Publications
55/60
Linking Interactome to Disease: A Network-Based Analysis of Metastatic
Relapse in Breast Cancer, IGI Global 2011
Interactome–transcriptome integration for predicting distant metastasis
in breast cancer, Bioinformatics 2012
Detection of driver protein complexes in breast cancer metastasis by
large scale transcriptome-interactome integration, Methods in Molecular
Biology 2013
CNV-Interactome-Transcriptome Integration to detect driver genes in
cancerology, Microarray Image and Data Analysis, Accepted
Conferences : Cancer Bioinformatics Workshop 2010 (Cambridge),
Mathematical and Statistical Aspects of Molecular Biology 2011 (Vienne)
Posters : JOBIM 2011 (Paris), JOBIM 2012 (Rennes), ECCB 2012 (Bâle)...
Conclusion
56. Perspectives
56/60
Ajout d'autres types de données (CGH)
Refonte de l'algorithme de détection des sous-réseaux
(linéaire → concentrique)
Intégration dans Mobyle
Applications à d'autres types de cancers, d'autres
maladies
Conclusion
57. Remerciements
57/60
Ghislain, François, Daniel, Pascal, Arnaud, Renaud, Sabrina, Max,
Samuel, Claire, Guillaume, Quentin, Olivier, Alexandre
Jean-Paul, Françoise, Secrétariat, Service Informatique
Mes parents, ma famille
Célia
Conclusion