SlideShare une entreprise Scribd logo
1  sur  61
Télécharger pour lire hors ligne
Soutenance de thèse de Thomas Denecker
La soutenance va bientôt commencer
La présentation est disponible en ligne
https://thomasdenecker.github.io/thesisWebsite/ https://fr.slideshare.net/ThomasDENECKER
1
Bioinformatique et
analyse de données multiomiques :
Principes et applications chez les levures pathogènes
Candida glabrata et Candida albicans
Thomas DENECKER
Sous la direction de Gaëlle LELANDAIS
Thèse de doctorat de l'université Paris-Saclay présentée et soutenue à Orsay, le 16/09/2020
École doctorale n°577
Structure et dynamique des systèmes vivants (SDSV)
Spécialité de doctorat : sciences de la vie et de la santé
Unité de recherche : Institut de Biologie Intégrative de la Cellule
Référent : Faculté des sciences
Thèsededoctorat
INTRODUCTION
Évolution des objets d’étude en Bioinformatique
Période 2000 – 2005
(Thèse G. Lelandais)
Période 2015 – 2020
(Thèse T. Denecker)
Bioinformatics - BMC Bioinformatics - Brefings in Bioinformatics - Journal of bioinformatics and computational biology
INTRODUCTION
4
Vous avez dit « Data / Donnée » ?
« Un élément brut qui n’a pas encore été interprété, mis en contexte » (Chaudet 2009)
« Collectée par observations » (Glossary of statistical terms)
Données structurées
Généralement organisées dans une base de données
(GEO, SRA, Pride,…)
Données non structurées
Plus complexes et à traiter pour les organiser
Exemple : description du gène FET3 dans la SGD
“Ferro-O2-oxidoreductase; multicopper oxidase that
oxidizes ferrous (Fe2+) to ferric iron (Fe3+) for subsequent
cellular uptake by transmembrane permease Ftr1p; […]”
logFC 1 … logFC m
Gène 1 2.05 … 1.85
Gène 2 1.85 … 0.57
Gène 3 0.02 … -0.06
… … … …
Gène n -3.59 … -2.46
FET3 FTR1
Une observation sans interprétation
INTRODUCTION
5
La différence entre donnée et information
Une information est une donnée associée à une interprétation
Replicat 1 Replicat 2 Replicat 3
Gène 1
Gène 2
… … … …
Gène n
Condition A
Condition B
Replicat 1 Replicat 2 Replicat 3
Gène 1
Gène 2
… … … …
Gène n
logFC Valeur P
Gène 1 2.05 …
Gène 2 0.35 …
… … …
Gène n -3.59 …
Analyse
différentielle
Données Informations
INTRODUCTION
6
L’objectif final : la connaissance
« Information comprise, c’est-à-dire assimilée et utilisée qui permet d’aboutir à
une action » (Chaudet 2009).
Connaissance tacite
Non formalisée et difficilement transmissible
« Pourquoi utilises-tu cette méthode de clustering ? »
« Parce que c’est celle qui donne les meilleurs résultats »
Connaissance explicite
Formalisée et transmissible sous forme de documents
réutilisables
FT
G1
G2
INTRODUCTION
7
Données, informations, connaissances
Donnée(s)
Donnée(s)
Donnée(s)
Donnée(s)
Donnée(s)
Donnée(s)
Donnée(s)
Donnée(s)
Donnée(s)
Donnée(s)
Donnée(s)
Information(s)
Information(s)
Information(s)
Information(s)
Information(s)
Information(s)
Connaissance(s)
Collecter Organiser Résumer Analyser Synthétiser Décider
Modèle DIC
INTRODUCTION
8
Analyse de données ?
Transition entre données, informations et connaissances
« Processus d'inspection, de nettoyage, de transformation et de modélisation des données,
dans le but de découvrir des informations utiles, d'éclairer la conclusion et d'appuyer la prise
de décision » (Wikipédia)
Processus cyclique en 6 grandes étapes
(Peck et al, 2016)
INTRODUCTION
9
1. Formulation de la question
scientifique
2. Recherche et collecte des
données
3. Préparation des données
4. Exploration et analyses
préliminaires
5. Formulation d’hypothèses
statistiques
6. Interprétation et conclusion
INTRODUCTION
10
Formulation de la question
scientifique
Étape clé pour le déroulement complet
du cycle d’analyse
Poser une question précise et explicite
pour créer un type d’information
(Ne pas viser immédiatement la connaissance)
Exemple : « Quels sont les gènes
différentiellement exprimés entre les
conditions A et B ? »
(≠ « Comment la cellule s’adapte au changement de
condition A vers B ? »)
INTRODUCTION
11
Recherche et collecte des
jeux de données
Nombreuses données disponibles
librement ou disponibles dans les
équipes expérimentales
Utiliser seulement les données
nécessaires pour répondre à la question
(d’autant plus facile qu’elle est précise et explicite)
Problématique des données
structurées ou non
INTRODUCTION
12
Préparation des données
Plus ou moins importante
Fastidieuse mais essentielle
En moyenne, 60 % du temps d’une
analyse de données
(CrowdFlower 2016)
INTRODUCTION
13
Exploration et analyses
préliminaires
Faire connaissance avec les données
« Quick and dirty »
(R. Peng)
Réalisation de nombreux graphiques,
de calculs descriptifs, … le plus
facilement possible
INTRODUCTION
14
Formulation d’hypothèses
statistiques
Mise en place d’un plan d’analyse
(méthodes, tests, …)
Rigoureuse et bien documentée
Par exemple « La fonction F est-elle
plus représentée dans la liste de gènes
qu’attendue par le hasard ? »
INTRODUCTION
15
Interprétation et conclusion
Mise en forme des résultats,
rédaction de rapports et réalisation
d’infographies
Importance d’une expertise dans le
domaine scientifique
De nouveaux questionnements
scientifiques ?
INTRODUCTION
16
Problématiques liées à l’analyse de données
3 problématiques principales rencontrées lors de la thèse
Choix des données Reproductibilité
Représentations
des données
Face à un déluge de données
Big Data
Faut-il toujours plus de
données ? Oui mais …
Hétérogénéité des données,
de la qualité des données,
de l’annotation, etc.
Nouvelles problématiques
(informatique, bioinformatique,
biologie)
Nouvelles pratiques
Visualisation
Procédure exploratoire
Infographie
Objectif de synthèse et
vulgarisation des
connaissances
INTRODUCTION
17
En résumé
Données
Visualisations
de données
Analyses de
données
Informations Connaissances
Partage
(Infographies,
publications, …)
Étude de l’homéostasie du fer chez la levure pathogène
Candida glabrata
Étude de l’impact de la prise en compte systématique des
modifications post-traductionnelles lors de l’identification de
protéines chez la levure pathogène Candida albicans
Projet 1
Projet 2
INTRODUCTION
18
En pratique
ÉTUDE DE L’HOMÉOSTASIE DU FER CHEZ LA
LEVURE PATHOGÈNE CANDIDA GLABRATA
Le fer est un élément indispensable aux organismes vivants
Le fer est un composé essentiel de
la relation
hôte / micro-organismes
Mécanisme de défense de l’hôte
privation du fer
Stratégies originales pour adapter
leur métabolisme à des conditions
de vie dans des environnements
pauvres en fer
Microbiote intestinale
FER
FER
FER
Macrophage avec des C. glabrata
Crédit : A. Angoulvant
L’HOMÉOSTASIE DU FER CHEZ LA LEVURE PATHOGÈNE CANDIDA GLABRATA
20
Un équilibre complexe à trouver
- + - +
Anémie Hémochromatose Faible disponibilité
(sang)
Forte disponibilité
(tube digestif)
Mécanismes
génomiques
Processus de
régulation
Homéostasie du fer
Maintien d'un environnement interne dans un état d'équilibre constant, malgré les changements externes
L’HOMÉOSTASIE DU FER CHEZ LA LEVURE PATHOGÈNE CANDIDA GLABRATA
21
Carte d’identité de Candida glabrata
13 chromosomes - 5293 ORFs - Haploïde
(CGD Genome Snapshot CBS138, Février 2020)
Présent dans la flore commensale
Cavité buccale ou des tractus gastrointestinal et urogénital
(Underhill et al. 2014; Cho et al. 2012; Cui et al. 2013)
Pathogène opportuniste
Cause majeure de morbidité et de mortalité dans les structures de soins
(Pfaller et al, 2012)
Touche principalement des patients immunodéprimés (cancer, transplantation,…)
(Pfaller et al, 2007 ; Goemaere et al, 2018)
2ème cause la plus fréquente d’infection à Candida
(Horn et al, 2009)
Levures adhérentes à un
entérocyte Caco2
Crédit : Adela Angoulvant
Culture sur milieu Sabouraud
Crédit : Adela Angoulvant
L’HOMÉOSTASIE DU FER CHEZ LA LEVURE PATHOGÈNE CANDIDA GLABRATA
22
Deux types d’infections
Candidose
Au niveau de la peau, de la cavité buccale et du tractus uro-génital
Taux de guérison très élevé
Candidémie
Elévation anormale de la température du corps, accélération du
rythme cardiaque et respiratoire, rigidité musculaire, etc.
Infection sanguine très difficile à diagnostiquer
(pas d’état fébrile dans 50% des cas (O Leroy et al. 2008; Olivier Leroy et al. 2016))
Taux de mortalité proche de 50%
(Jaillette et al. 2016)
(Brunke et al. 2013)
(Galocha et al. 2019)
Candidose vaginale
75% des femmes au cours de leur vie,
récidive de 50%
Candidose oropharyngée
Muguet chez les jeunes enfants,
Infection la plus courante chez les
patients atteints par le VIH (Fidel 2006)
L’HOMÉOSTASIE DU FER CHEZ LA LEVURE PATHOGÈNE CANDIDA GLABRATA
23
Une annotation très inégale et une homéostasie peu décrite
Peu de publications
Données ARTEMIS DISK - Guinea et al. - 2014
Annotation fonctionnelle pauvre
2ème levure pathogène
50% de mortalité (candidémie)
Pas de régression
Et pourtant
L’HOMÉOSTASIE DU FER CHEZ LA LEVURE PATHOGÈNE CANDIDA GLABRATA
24
L’homéostasie du fer encore peu décrite
Beaucoup de transferts d’annotation
C. glabrata conserve des régulateurs « classiques » par
rapport à S. cerevisiae…
(Gerwien et al. 2018)
Quelques gènes ont été décrits dans la littérature
… et a remodelé ses propres réseaux fonctionnels pour
maintenir l'homéostasie du fer.
(Devaux et al. 2019)
L’HOMÉOSTASIE DU FER CHEZ LA LEVURE PATHOGÈNE CANDIDA GLABRATA
25
Constitution d’un jeu de données original
Plan expérimental combinant des
milieux pauvres et riches en fer
Souche ATCC 2001 (CBS 138)
(Denecker et al, 2020)
Données qualitatives
A content management platform for quantitative omics data
(Denecker et al, 2019)
26
L’HOMÉOSTASIE DU FER CHEZ LA LEVURE PATHOGÈNE CANDIDA GLABRATA
Définitions et hypothèse de travail
Hypothèse
Gènes ayant des fonctions cellulaires importantes pour
contrebalancer les fluctuations externes de la disponibilité du fer
(en carence et en surcharge)
iHKG classés en deux sous-groupes : Type I et Type II
214 gènes sélectionnés
Tous les gènes
Gènes des données transcriptomiques
Gènes réagissant à la disponibilité du fer
Gènes différentiellement exprimés
iHKG
Iron Homeostasis Key Genes
1
2
3
Type I
IHKG avec une dérégulation en
opposition dans les conditions
faible et haute en fer
Type II
IHKG avec la même dérégulation
dans les conditions faible et haute
en fer
27
UP
DOWN UP
DOWN
UP
DOWN
UP
DOWN
L’HOMÉOSTASIE DU FER CHEZ LA LEVURE PATHOGÈNE CANDIDA GLABRATA
Pertinence biologique des iHKGs
Des gènes connus chez S. cerevisiae (environ 50-100 gènes)
- Fonctions cellulaires dépendantes du fer (respiration,…) : QCR2, QCR6, QCR7,
QCR10, COX4, COX5B, COX6, COX7, COX9, COX12, COX15, ACO1, COX23
- Des gènes codant des métalloprotéines : SDH2, CCP1, RIP1, CYT1, LIA1, CYC1, GLT1,
YHB1, RLI1, ILV3
- Des gènes impliqués dans l’autophagie : ATG19, ATG32, ATG41
- Dans les clusters Fe-S : ISA1, CGD1, GRX4, HEM4, HEM15
- Dans le transport du fer : FTR1, FET3
- …
Mais qu’en est-il des autres gènes ?
28
L’HOMÉOSTASIE DU FER CHEZ LA LEVURE PATHOGÈNE CANDIDA GLABRATA
Réseaux de co-expression des gènes réagissant au fer
637 gènes en surcharge en fer637 gènes en carence en fer
C1 C2 C3 C4
Z-score
Gène A
Gène B
Gène C
Gène D
Gène E
Gène E
Gène D
Gène C
Gène A Gène B
L’HOMÉOSTASIE DU FER CHEZ LA LEVURE PATHOGÈNE CANDIDA GLABRATA
29
Pour aller plus loin
Séparation en sous-réseaux fonctionnels de
gènes co-exprimés
Comment créer des sous-réseaux fonctionnels de gènes ?
Contraintes fortes
Un gène
=
Une fonction
(un seul sous-réseau)
Nombre limité de
sous-réseaux fonctionnels
Méthode semi automatique avec
curation manuelle
2
1
L’HOMÉOSTASIE DU FER CHEZ LA LEVURE PATHOGÈNE CANDIDA GLABRATA
30
Exploration des sous-réseaux fonctionnels de gènes
Redox signaling
118 gènes
?
Comment exploiter au maximum ces réseaux,
résultat d’une intégration de données hétérogènes ?
L’HOMÉOSTASIE DU FER CHEZ LA LEVURE PATHOGÈNE CANDIDA GLABRATA
31
637 gènes
Exploration simplifiée par une interface web
https://thomasdenecker.github.io/iHKG/
(A) Possibilité de zoomer sur le graphique
(B) Possibilité de cliquer sur un nœud avec la souris pour obtenir
le nom du gène, sa description et des liens web directs vers
les bases de données CGD et GRYC
(C) Possibilité de passer d'une condition de fer faible à une
condition de fer élevé
(D)Possibilité de rechercher un gène particulier dans le réseau
L’HOMÉOSTASIE DU FER CHEZ LA LEVURE PATHOGÈNE CANDIDA GLABRATA
32
Réseaux fonctionnels de gènes co-exprimés
HAP1
L’HOMÉOSTASIE DU FER CHEZ LA LEVURE PATHOGÈNE CANDIDA GLABRATA
33
Enrichissement fonctionnel
Contrôle des interactions
de la cellule avec son
environnement
Transport / trafficking
Type I
membrane part
cell periphery
transporter activity
MetaGO
L’HOMÉOSTASIE DU FER CHEZ LA LEVURE PATHOGÈNE CANDIDA GLABRATA
34
UP
DOWN UP
DOWN
Enrichissement fonctionnel
Réponse au stress et
stabilisation des processus
clés impliquant du fer
Metabolism
Type II
ribonucleoprotein complex
cytosol
ribosome
MetaGO
heme binding
L’HOMÉOSTASIE DU FER CHEZ LA LEVURE PATHOGÈNE CANDIDA GLABRATA
35
UP
DOWN
UP
DOWN
WT 4h vs WT 0h
aft1Δ 4h vs WT 4h
sef1Δ 4h vs WT 4h
ftr1Δ 4h vs WT 4h
Gerwien et al.
(2016)
Nouvelles annotations fonctionnelles de gènes
637 gènes
réagissant au
fer
Devaux et al.
(2019)
51 gènes
110 gènes non commentés
dans la littérature (17%)
10
gènes
Type I
17
gènes
Type II
Cohérence biologique
Membrane plasmique et
organisation de la paroi
cellulaire, Activité Redox, …
L’HOMÉOSTASIE DU FER CHEZ LA LEVURE PATHOGÈNE CANDIDA GLABRATA
36
Nouvelles annotations fonctionnelles de gènes
Site de fixation
de l’ADN AFT1
Principal régulateur de
l’homéostasie du fer
73
gènes
Type I
CAGL0A01199g
DIP5
CAGL0K06259g
TSA1
"Régulateur du fer" – Premières descriptions fonctionnelles pour ces gènes
sur la base d'expériences menées directement chez C. glabrata sans transfert d’informations
des levures modèles S. cerevisiae et C. albicans
Des pistes à explorer expérimentalement
37
L’HOMÉOSTASIE DU FER CHEZ LA LEVURE PATHOGÈNE CANDIDA GLABRATA
Conclusion et perspectives
COLLABORATION
Méthodologie originale d’intégration et d’exploration des données
637 gènes réagissent aux changements de concentration en fer
214 gènes étant de très bons candidats dans l’homéostasie du fer :
− Peuvent être une aide dans l’amélioration de l’annotation de la
CGD (seulement 5% des ORFs sont vérifiées)
− Peuvent constituer un point de départ pour une étude
comparative avec des espèces proches phylogénétiquement
(clade des Nakaseomyces) dont la pathogénie
− Peuvent permettre de mieux comprendre l’évolution des réseaux
de régulation de l’homéostasie du fer chez les levures
(Gabaldón et al, 2016)
L’HOMÉOSTASIE DU FER CHEZ LA LEVURE PATHOGÈNE CANDIDA GLABRATA
38
Résultats préliminaires
Mise en évidence de gènes très bien décrits chez C. glabrata dont les orthologues au sein du clade sont
différentiellement exprimés de façon similaire en condition de carence en fer
L’HOMÉOSTASIE DU FER CHEZ LA LEVURE PATHOGÈNE CANDIDA GLABRATA
39
Résultats préliminaires
73 gènes partagés
Entre C. glabrata et C. bracarensis et C. nivariensis dont les fonctions générales
sont dominées par des fonctions clés dans l’homéostasie du fer
L’HOMÉOSTASIE DU FER CHEZ LA LEVURE PATHOGÈNE CANDIDA GLABRATA
40
ÉTUDE DE L’IMPACT DE LA PRISE EN COMPTE SYSTÉMATIQUE
DES MODIFICATIONS POST-TRADUCTIONNELLES LORS DE
L’IDENTIFICATION DE PROTÉINES CHEZ LA LEVURE PATHOGÈNE
CANDIDA ALBICANS
Constat sur la plateforme de protéomique de l’IJM
50 %
des spectres de masse ne conduisent pas à l’identification d’une protéine par
spectrométrie de masse MS/MS en approche Bottom Up sur la plateforme
Perte considérable !
Hypothèse : Les modifications post-traductionnelles
Pourquoi ?
MODIFICATIONS POST-TRADUCTIONNELLES – CANDIDA ALBICANS
42
Spectrométrie de masse LC-MS/MS - Approche Bottom up
MODIFICATIONS POST-TRADUCTIONNELLES – CANDIDA ALBICANS
43
Digestion
trypsique
Chromatographie
liquide
Spectrométrie
de masse
Bioinformatique :
Identification des peptides
Protéine
identifiée
Protéine inconnue Peptides
Identification des peptides à partir des spectres de masse
Approche 1
Comparaison des spectres
Spectre
expérimental
Séquences
théoriques
Approche 2
Comparaison des séquences
Spectre
expérimental
Séquences
théoriques
Déduction de la
séquence
expérimentale
FIAVGYK
Approche 3
Comparaison hybride
Spectre
expérimental
Séquences
théoriques
Déduction de la
séquence
expérimentale
FIAVGYK
Création d’une
banque spectrale
théorique
Création d’une
banque spectrale
théorique
Filtrage de
la banque
MODIFICATIONS POST-TRADUCTIONNELLES – CANDIDA ALBICANS
44
Création d’une banque spectrale théorique
> Protéine TOTO
MYELNNEEVLRKRKERFSKFGKEAIINDPLRDVALLSRSGESNTIIDLKINHDKRSEMVS
MLKLLFYDEKQLTTVEHGLRKLREVFMSIRQDHRDEDESFWKQASEVYKLSYDFLLRHGQ
YNKLGGLVLNAIHEWFPLQYRKPYAKIYALYLSHIEKDVPKCVDFLQYSSVSQSESLDII
NMANIYVLKSESPRIWFHYCKNLKDDELNFLELSSVMQVMINRTDNLLQLCYNQLSVKVA
QQLWFGDHFTSNLETRIKDKYDMRAGTDIILFKKRQIKG
MYELNNEEVLR
K
R
K
ER
FSK
FGK
EAIINDPL
…
Simulation
d’une
digestion
trypsique
Création des
spectres
théoriques
…
Spectres
théoriques pour
la protéine
TOTO
< 3000 DA and ≤ 30 AA
Si aucune modification post-traductionnelle n’est indiquée lors de la
construction de la banque spectrale théorique, alors aucun spectre ne
contiendra de modification post-traductionnelle
MODIFICATIONS POST-TRADUCTIONNELLES – CANDIDA ALBICANS
45
Avec / sans modifications post-traductionnelles
(Xu et al. 2019)
Si la banque ne contient pas de
spectres avec des modifications
post-traductionnelles
Absence d’identification
MODIFICATIONS POST-TRADUCTIONNELLES – CANDIDA ALBICANS
46
Questionnement scientifique
Est-il possible d’améliorer le taux d’identification des
protéines en prenant en compte de façon systématique les
modifications post-traductionnelles ?
Aujourd’hui, cette recherche est trop longue par les approches classiques
d’identification
(Mascot : 1-3 heures pour seulement 3 modifications post-traductionnelles / 1500 possibles)
MODIFICATIONS POST-TRADUCTIONNELLES – CANDIDA ALBICANS
47
Collecte des données : Candida albicans
8 chromosomes -12 405 ORFs (diploïde)
Organisme commensal
des muqueuses humaines
Cause majeure de mortalité dans
les structures de santé
1ère cause d’infection à Candida
Sudbery et al, 2011 – DOI : 10.1038/nrmicro2636
15 fichiers dans la
forme hyphe
15 fichiers dans la
forme levure
30fichiers RAW
MODIFICATIONS POST-TRADUCTIONNELLES – CANDIDA ALBICANS
48
Défi informatique
Mise en place d’une nouvelle approche systématique utilisant le logiciel RAId
pour prendre en compte un maximum de modifications post-traductionnelles
Rapide
En seulement 14h
Reproductible
MODIFICATIONS POST-TRADUCTIONNELLES – CANDIDA ALBICANS
49
Résultats de la prise en compte des PTMs
Nombre de protéines identifiées avec ou
sans modifications post-traductionnelles
Nombre de protéines identifiées en fonction du nombre de
modifications post-traductionnelles détectées
Importance de la prise en compte des modifications post-traductionnelles
MODIFICATIONS POST-TRADUCTIONNELLES – CANDIDA ALBICANS
50
Une première liste pour C. albicans
Modifications post-traductionnelles recherchées actuellement en routine
Modifications post-traductionnelles permettant d’identifier de nouvelles protéines uniquement
grâce à elles
Glutathionylation (Modification post-traductionnelle très étudiée au laboratoire)
Une liste spécifique à explorer pour C. albicans
MODIFICATIONS POST-TRADUCTIONNELLES – CANDIDA ALBICANS
51
Conclusion
Perspectives
MODIFICATIONS POST-TRADUCTIONNELLES – CANDIDA ALBICANS
Proposition d’un nouveau protocole d’identification des protéines plus rapide et plus efficace
Confirmation de l’impact de l’étude des modifications post-traductionnelles dans le taux
d’identification des protéines
1
2
Augmenter la liste des modifications post-traductionnelles recherchées systématiquement
Réaliser la même étude sur d’autres organismes (données disponibles chez C. glabrata)
1
2
52
BILAN
2017 2018 2019 2020
Projet START-R Projet
Nakaseomyces
Projet PodoGOProjet MONet
Projet homéostasie du fer chez Candida glabrata Projet PTMs
BILAN
54
Une thèse variée en projets de recherche et collaborations
Une thèse variée en développement informatique
2017 2018 2019 2020
BILAN
55
Une thèse variée en formations
2017 2018 2019 2020
BILAN
56
Des travaux de thèse communiqués
BILAN
2017 2018 2019 2020
Réseaux fonctionnels de gènes co-exprimés
pour explorer l’homéostasie du fer chez la
levure pathogène Candida glabrata
FAIR_Bioinfo : La reproductibilité au
service de la biologie computationnelle
Multi-Omics Data Integration to Model
Iron homeostasis in pathogenic yeast
Candida glabrata
Systematic Analysis of Protein Post-
translational Modifications at a Proteomic
Scale in the pathogenic yeast Candida albicans
-
Functional networks of co-expressed genes to
explore iron homeostasis processes in the
pathogenic yeast Candida glabrata
-
FAIR-bioinfo : disseminate the tools
accompanying the reproducibility of analyses
Multi-Omics Data Integration to Model Iron
homeostasis in pathogenic yeast
Candida glabrata
Transcriptomics data explorations to
decipher iron homeostasis in the
pathogenesis yeast Candida glabrata
Pixel: an open source solution for
annotation, storage, mining and
integration of multi-omics data in biology
Study of the adaptation to iron
deficiency of the pathogenic yeast
Candida glabrata : bioinformatics
analyses of multi-omics data
OralesAffichées
57
Des travaux de thèse publiés
2017 2018 2019 2020
A hypothesis-driven approach
identifies CDK4 and CDK6 inhibitors
as candidate drugs for treatments of
adrenocortical carcinomas.
Hadjadj et al. - Aging
Empowering the detection of ChIP-seq "basic
peaks" (bPeaks) in small eukaryotic genomes
with a web user-interactive interface.
Denecker et al. - BMC Data Note
Pixel: a content management platform for
quantitative omics data.
Denecker et al. - PeerJ
Label-free quantitative proteomics in Candida
yeast species: technical and biological
replicates to assess data reproducibility.
Lelandais, Denecker et al. - BMC Data Note
Efficient, quick and easy-to-use, DNA replication timing
analysis with START-R suite.
Hadjadj, Denecker et al.
NAR Genomics and Bioinformatics
Functional networks of co-expressed genes to explore iron
homeostasis processes in the pathogenic yeast Candida glabrata
Denecker et al. - NAR Genomics and Bioinformatics
Rendre ses projets R plus accessibles grâce à Shiny
Denecker - Bioinfo-fr.net
FAIR_Bioinfo: a turnkey
training course and protocol
for reproducible
computational biology
Denecker et Toffano-Nioche
HAL
BILAN
58
Characterization of the
replication timing program
of 6 human model cell lines
Hadjadj D, Denecker T et al.
Genomic Data
Merci pour ces belles collaborations !
BILAN
Equipe Malagnac
Pierre Grognet
Fabienne Malagnac
Damien Remy
Equipe Fairhead
Adela Angoulvant
Monique Bolotin-Fukuhara
Cécile Fairhead
Laetitia Maroc
Youfang Zhou-Li
Equipe Camadro
Jean-Michel Camadro
Véronique Legros
Laurent Lignières
Pierre Poulain
Nicolas Senecaut
Samuel Terrier
Equipe Cadoret
Giuseppe Baldacci
Jean-Charles Cadoret
Anne-Lise Haenni
Fabien Fauchereau
Su-Jung Kim
Chrystelle Maric-Antoinat
Projet PTMs
I2BC / IFB
Claire Toffano-Nioche
Céline Hernandez
Hélène Chiapello
Jacques van Helden
Et nos testeurs
Stéphane Demais et Pauline François
Task force
Gildas Le Corguillé
Julien Seiler
59
Projet Nakaseomyces
Entreprises TailorDev et
Biorosetics
Merci aussi
Aux personnes qui ont rendu l’administratif facile
Marie-Hélène Sarda, Jeanne Triki et Sandrine Le Bihan
Aux membres du jury
Sarah Cohen Boulakia, Bertrand Cosson, Marie-Agnès Dillies, Stéphane Le Crom,
Hélène Chiapello, Jean-Michel Camadro et Pierre Poulain
À ma directrice de thèse Gaëlle Lelandais
À mes proches
60
BILAN
Informations importantes
N’hésitez pas à poser des questions dans le chat, Pierre Poulain se
chargera de me les poser à la fin.
Merci pour votre écoute !
61

Contenu connexe

Tendances

Single-cell RNA-seq tutorial
Single-cell RNA-seq tutorialSingle-cell RNA-seq tutorial
Single-cell RNA-seq tutorialAaron Diaz
 
Pathways and genomes databases in bioinformatics
Pathways and genomes databases in bioinformaticsPathways and genomes databases in bioinformatics
Pathways and genomes databases in bioinformaticssarwat bashir
 
Comparative genomics presentation
Comparative genomics presentationComparative genomics presentation
Comparative genomics presentationEmmanuel Aguon
 
Microarray (DNA and SNP microarray)
Microarray (DNA and SNP microarray)Microarray (DNA and SNP microarray)
Microarray (DNA and SNP microarray)Hamza Khan
 
Whole genome shotgun sequencing
Whole genome shotgun sequencingWhole genome shotgun sequencing
Whole genome shotgun sequencingGoutham Sarovar
 
BIOINFORMATICS Applications And Challenges
BIOINFORMATICS Applications And ChallengesBIOINFORMATICS Applications And Challenges
BIOINFORMATICS Applications And ChallengesAmos Watentena
 
Introduction to Next Generation Sequencing
Introduction to Next Generation SequencingIntroduction to Next Generation Sequencing
Introduction to Next Generation SequencingFarid MUSA
 
Characterization of cell line by Cell morphology, Chromosome analysis and DNA...
Characterization of cell line by Cell morphology, Chromosome analysis and DNA...Characterization of cell line by Cell morphology, Chromosome analysis and DNA...
Characterization of cell line by Cell morphology, Chromosome analysis and DNA...Aditya Kumar Sharma
 
Introduction to 16S Analysis with NGS - BMR Genomics
Introduction to 16S Analysis with NGS - BMR GenomicsIntroduction to 16S Analysis with NGS - BMR Genomics
Introduction to 16S Analysis with NGS - BMR GenomicsAndrea Telatin
 
Small Molecule Real Time Sequencing
Small Molecule Real Time SequencingSmall Molecule Real Time Sequencing
Small Molecule Real Time SequencingUSD Bioinformatics
 
Clinical proteomics in diseases lecture, 2014
Clinical proteomics in diseases lecture, 2014Clinical proteomics in diseases lecture, 2014
Clinical proteomics in diseases lecture, 2014Mohammad Hessam Rafiee
 
protein engineering and site directed mutagenesis
  protein engineering and site directed mutagenesis  protein engineering and site directed mutagenesis
protein engineering and site directed mutagenesisNawfal Aldujaily
 
Zinc finger technology
Zinc finger technologyZinc finger technology
Zinc finger technologyMunish Chhabra
 

Tendances (20)

Innovation in life sciences
Innovation in life sciencesInnovation in life sciences
Innovation in life sciences
 
Single-cell RNA-seq tutorial
Single-cell RNA-seq tutorialSingle-cell RNA-seq tutorial
Single-cell RNA-seq tutorial
 
Metatranscriptomics
MetatranscriptomicsMetatranscriptomics
Metatranscriptomics
 
Pathways and genomes databases in bioinformatics
Pathways and genomes databases in bioinformaticsPathways and genomes databases in bioinformatics
Pathways and genomes databases in bioinformatics
 
Comparative genomics presentation
Comparative genomics presentationComparative genomics presentation
Comparative genomics presentation
 
222397 lecture 16 17
222397 lecture 16 17222397 lecture 16 17
222397 lecture 16 17
 
Microarray (DNA and SNP microarray)
Microarray (DNA and SNP microarray)Microarray (DNA and SNP microarray)
Microarray (DNA and SNP microarray)
 
Whole genome shotgun sequencing
Whole genome shotgun sequencingWhole genome shotgun sequencing
Whole genome shotgun sequencing
 
BIOINFORMATICS Applications And Challenges
BIOINFORMATICS Applications And ChallengesBIOINFORMATICS Applications And Challenges
BIOINFORMATICS Applications And Challenges
 
Sequence assembly
Sequence assemblySequence assembly
Sequence assembly
 
Introduction to Next Generation Sequencing
Introduction to Next Generation SequencingIntroduction to Next Generation Sequencing
Introduction to Next Generation Sequencing
 
BLAST
BLASTBLAST
BLAST
 
Characterization of cell line by Cell morphology, Chromosome analysis and DNA...
Characterization of cell line by Cell morphology, Chromosome analysis and DNA...Characterization of cell line by Cell morphology, Chromosome analysis and DNA...
Characterization of cell line by Cell morphology, Chromosome analysis and DNA...
 
Introduction to 16S Analysis with NGS - BMR Genomics
Introduction to 16S Analysis with NGS - BMR GenomicsIntroduction to 16S Analysis with NGS - BMR Genomics
Introduction to 16S Analysis with NGS - BMR Genomics
 
Small Molecule Real Time Sequencing
Small Molecule Real Time SequencingSmall Molecule Real Time Sequencing
Small Molecule Real Time Sequencing
 
demonstration lecture on Homology modeling
demonstration lecture on Homology modelingdemonstration lecture on Homology modeling
demonstration lecture on Homology modeling
 
PROTEIN MICROARRAYS
PROTEIN MICROARRAYSPROTEIN MICROARRAYS
PROTEIN MICROARRAYS
 
Clinical proteomics in diseases lecture, 2014
Clinical proteomics in diseases lecture, 2014Clinical proteomics in diseases lecture, 2014
Clinical proteomics in diseases lecture, 2014
 
protein engineering and site directed mutagenesis
  protein engineering and site directed mutagenesis  protein engineering and site directed mutagenesis
protein engineering and site directed mutagenesis
 
Zinc finger technology
Zinc finger technologyZinc finger technology
Zinc finger technology
 

Similaire à Bioinformatique et analyse de données multiomiques : Principes et applications chez les levures pathogènes Candida glabrata et Candida albicans

Incidental findings throughout multigene panel testing in cancer genetics
Incidental findings throughout multigene panel testing in cancer geneticsIncidental findings throughout multigene panel testing in cancer genetics
Incidental findings throughout multigene panel testing in cancer geneticsPasteur_Tunis
 
La biologie à l'ère du big data
La biologie à l'ère du big dataLa biologie à l'ère du big data
La biologie à l'ère du big datatuxette
 
Introduction to the cours of bioinformatics
Introduction to the cours of bioinformaticsIntroduction to the cours of bioinformatics
Introduction to the cours of bioinformaticsKarim Mezhoud
 
FAIRisation d’analyses bioinformatiques.pdf
FAIRisation d’analyses bioinformatiques.pdfFAIRisation d’analyses bioinformatiques.pdf
FAIRisation d’analyses bioinformatiques.pdfThomas DENECKER
 
Anophèles transgéniques dans la lutte contre le paludisme: est-ce réaliste?
Anophèles transgéniques dans la lutte contre le paludisme: est-ce réaliste?Anophèles transgéniques dans la lutte contre le paludisme: est-ce réaliste?
Anophèles transgéniques dans la lutte contre le paludisme: est-ce réaliste?Institut Pasteur de Madagascar
 
Appréciation moléculaire du risque lié à la présence d’E. coli O26:H11 dans l...
Appréciation moléculaire du risque lié à la présence d’E. coli O26:H11 dans l...Appréciation moléculaire du risque lié à la présence d’E. coli O26:H11 dans l...
Appréciation moléculaire du risque lié à la présence d’E. coli O26:H11 dans l...pmasson02
 
Cours1-Totipotence_chez_le_vegetal2011-2012.ppt
Cours1-Totipotence_chez_le_vegetal2011-2012.pptCours1-Totipotence_chez_le_vegetal2011-2012.ppt
Cours1-Totipotence_chez_le_vegetal2011-2012.pptMounirSaggai1
 
Cours1-Totipotence_chez_le_vegetal2011-2012.ppt
Cours1-Totipotence_chez_le_vegetal2011-2012.pptCours1-Totipotence_chez_le_vegetal2011-2012.ppt
Cours1-Totipotence_chez_le_vegetal2011-2012.pptMounirSaggai1
 
Introduction la science Genomique, slides
Introduction la science Genomique, slidesIntroduction la science Genomique, slides
Introduction la science Genomique, slidesssuserbc9423
 
Découverte de biomarqueurs prédictifs en cancer du sein par Intégration Trans...
Découverte de biomarqueurs prédictifs en cancer du sein par Intégration Trans...Découverte de biomarqueurs prédictifs en cancer du sein par Intégration Trans...
Découverte de biomarqueurs prédictifs en cancer du sein par Intégration Trans...Maxime Garcia
 
Portée de la négation : détection par apprentissage supervisé en français et ...
Portée de la négation : détection par apprentissage supervisé en français et ...Portée de la négation : détection par apprentissage supervisé en français et ...
Portée de la négation : détection par apprentissage supervisé en français et ...CORIA-TALN 2018
 
Pkd News Mai 2009
Pkd News Mai 2009Pkd News Mai 2009
Pkd News Mai 2009kyste
 
Revue des recommandations éthiques dans le contexte des études génomiques
Revue des recommandations éthiques dans le contexte des études génomiquesRevue des recommandations éthiques dans le contexte des études génomiques
Revue des recommandations éthiques dans le contexte des études génomiquesGeneviève David
 
François Brial Biologiste cv
François Brial Biologiste cvFrançois Brial Biologiste cv
François Brial Biologiste cvFrançois Brial
 
Les différentes hypothèses physiopathologiques du paludisme grave cérébral : ...
Les différentes hypothèses physiopathologiques du paludisme grave cérébral : ...Les différentes hypothèses physiopathologiques du paludisme grave cérébral : ...
Les différentes hypothèses physiopathologiques du paludisme grave cérébral : ...Institut Pasteur de Madagascar
 

Similaire à Bioinformatique et analyse de données multiomiques : Principes et applications chez les levures pathogènes Candida glabrata et Candida albicans (20)

UMTeBIS_conf - 20221013 - 2_Genomes.pptx
UMTeBIS_conf - 20221013 - 2_Genomes.pptxUMTeBIS_conf - 20221013 - 2_Genomes.pptx
UMTeBIS_conf - 20221013 - 2_Genomes.pptx
 
De l'ADN à la protéine
De l'ADN à la protéineDe l'ADN à la protéine
De l'ADN à la protéine
 
Incidental findings throughout multigene panel testing in cancer genetics
Incidental findings throughout multigene panel testing in cancer geneticsIncidental findings throughout multigene panel testing in cancer genetics
Incidental findings throughout multigene panel testing in cancer genetics
 
La biologie à l'ère du big data
La biologie à l'ère du big dataLa biologie à l'ère du big data
La biologie à l'ère du big data
 
Introduction to the cours of bioinformatics
Introduction to the cours of bioinformaticsIntroduction to the cours of bioinformatics
Introduction to the cours of bioinformatics
 
FAIRisation d’analyses bioinformatiques.pdf
FAIRisation d’analyses bioinformatiques.pdfFAIRisation d’analyses bioinformatiques.pdf
FAIRisation d’analyses bioinformatiques.pdf
 
Anophèles transgéniques dans la lutte contre le paludisme: est-ce réaliste?
Anophèles transgéniques dans la lutte contre le paludisme: est-ce réaliste?Anophèles transgéniques dans la lutte contre le paludisme: est-ce réaliste?
Anophèles transgéniques dans la lutte contre le paludisme: est-ce réaliste?
 
Appréciation moléculaire du risque lié à la présence d’E. coli O26:H11 dans l...
Appréciation moléculaire du risque lié à la présence d’E. coli O26:H11 dans l...Appréciation moléculaire du risque lié à la présence d’E. coli O26:H11 dans l...
Appréciation moléculaire du risque lié à la présence d’E. coli O26:H11 dans l...
 
Cours1-Totipotence_chez_le_vegetal2011-2012.ppt
Cours1-Totipotence_chez_le_vegetal2011-2012.pptCours1-Totipotence_chez_le_vegetal2011-2012.ppt
Cours1-Totipotence_chez_le_vegetal2011-2012.ppt
 
Cours1-Totipotence_chez_le_vegetal2011-2012.ppt
Cours1-Totipotence_chez_le_vegetal2011-2012.pptCours1-Totipotence_chez_le_vegetal2011-2012.ppt
Cours1-Totipotence_chez_le_vegetal2011-2012.ppt
 
Introduction la science Genomique, slides
Introduction la science Genomique, slidesIntroduction la science Genomique, slides
Introduction la science Genomique, slides
 
Découverte de biomarqueurs prédictifs en cancer du sein par Intégration Trans...
Découverte de biomarqueurs prédictifs en cancer du sein par Intégration Trans...Découverte de biomarqueurs prédictifs en cancer du sein par Intégration Trans...
Découverte de biomarqueurs prédictifs en cancer du sein par Intégration Trans...
 
eBIS Actu - 20220616 - 2 pangenome
eBIS Actu - 20220616 - 2 pangenomeeBIS Actu - 20220616 - 2 pangenome
eBIS Actu - 20220616 - 2 pangenome
 
Génétique humaine et susceptibilité au paludisme
Génétique humaine et susceptibilité au paludismeGénétique humaine et susceptibilité au paludisme
Génétique humaine et susceptibilité au paludisme
 
Portée de la négation : détection par apprentissage supervisé en français et ...
Portée de la négation : détection par apprentissage supervisé en français et ...Portée de la négation : détection par apprentissage supervisé en français et ...
Portée de la négation : détection par apprentissage supervisé en français et ...
 
Pkd News Mai 2009
Pkd News Mai 2009Pkd News Mai 2009
Pkd News Mai 2009
 
Revue des recommandations éthiques dans le contexte des études génomiques
Revue des recommandations éthiques dans le contexte des études génomiquesRevue des recommandations éthiques dans le contexte des études génomiques
Revue des recommandations éthiques dans le contexte des études génomiques
 
François Brial Biologiste cv
François Brial Biologiste cvFrançois Brial Biologiste cv
François Brial Biologiste cv
 
Signature ADNmt
Signature ADNmtSignature ADNmt
Signature ADNmt
 
Les différentes hypothèses physiopathologiques du paludisme grave cérébral : ...
Les différentes hypothèses physiopathologiques du paludisme grave cérébral : ...Les différentes hypothèses physiopathologiques du paludisme grave cérébral : ...
Les différentes hypothèses physiopathologiques du paludisme grave cérébral : ...
 

Bioinformatique et analyse de données multiomiques : Principes et applications chez les levures pathogènes Candida glabrata et Candida albicans

  • 1. Soutenance de thèse de Thomas Denecker La soutenance va bientôt commencer La présentation est disponible en ligne https://thomasdenecker.github.io/thesisWebsite/ https://fr.slideshare.net/ThomasDENECKER 1
  • 2. Bioinformatique et analyse de données multiomiques : Principes et applications chez les levures pathogènes Candida glabrata et Candida albicans Thomas DENECKER Sous la direction de Gaëlle LELANDAIS Thèse de doctorat de l'université Paris-Saclay présentée et soutenue à Orsay, le 16/09/2020 École doctorale n°577 Structure et dynamique des systèmes vivants (SDSV) Spécialité de doctorat : sciences de la vie et de la santé Unité de recherche : Institut de Biologie Intégrative de la Cellule Référent : Faculté des sciences Thèsededoctorat
  • 4. Évolution des objets d’étude en Bioinformatique Période 2000 – 2005 (Thèse G. Lelandais) Période 2015 – 2020 (Thèse T. Denecker) Bioinformatics - BMC Bioinformatics - Brefings in Bioinformatics - Journal of bioinformatics and computational biology INTRODUCTION 4
  • 5. Vous avez dit « Data / Donnée » ? « Un élément brut qui n’a pas encore été interprété, mis en contexte » (Chaudet 2009) « Collectée par observations » (Glossary of statistical terms) Données structurées Généralement organisées dans une base de données (GEO, SRA, Pride,…) Données non structurées Plus complexes et à traiter pour les organiser Exemple : description du gène FET3 dans la SGD “Ferro-O2-oxidoreductase; multicopper oxidase that oxidizes ferrous (Fe2+) to ferric iron (Fe3+) for subsequent cellular uptake by transmembrane permease Ftr1p; […]” logFC 1 … logFC m Gène 1 2.05 … 1.85 Gène 2 1.85 … 0.57 Gène 3 0.02 … -0.06 … … … … Gène n -3.59 … -2.46 FET3 FTR1 Une observation sans interprétation INTRODUCTION 5
  • 6. La différence entre donnée et information Une information est une donnée associée à une interprétation Replicat 1 Replicat 2 Replicat 3 Gène 1 Gène 2 … … … … Gène n Condition A Condition B Replicat 1 Replicat 2 Replicat 3 Gène 1 Gène 2 … … … … Gène n logFC Valeur P Gène 1 2.05 … Gène 2 0.35 … … … … Gène n -3.59 … Analyse différentielle Données Informations INTRODUCTION 6
  • 7. L’objectif final : la connaissance « Information comprise, c’est-à-dire assimilée et utilisée qui permet d’aboutir à une action » (Chaudet 2009). Connaissance tacite Non formalisée et difficilement transmissible « Pourquoi utilises-tu cette méthode de clustering ? » « Parce que c’est celle qui donne les meilleurs résultats » Connaissance explicite Formalisée et transmissible sous forme de documents réutilisables FT G1 G2 INTRODUCTION 7
  • 9. Analyse de données ? Transition entre données, informations et connaissances « Processus d'inspection, de nettoyage, de transformation et de modélisation des données, dans le but de découvrir des informations utiles, d'éclairer la conclusion et d'appuyer la prise de décision » (Wikipédia) Processus cyclique en 6 grandes étapes (Peck et al, 2016) INTRODUCTION 9
  • 10. 1. Formulation de la question scientifique 2. Recherche et collecte des données 3. Préparation des données 4. Exploration et analyses préliminaires 5. Formulation d’hypothèses statistiques 6. Interprétation et conclusion INTRODUCTION 10
  • 11. Formulation de la question scientifique Étape clé pour le déroulement complet du cycle d’analyse Poser une question précise et explicite pour créer un type d’information (Ne pas viser immédiatement la connaissance) Exemple : « Quels sont les gènes différentiellement exprimés entre les conditions A et B ? » (≠ « Comment la cellule s’adapte au changement de condition A vers B ? ») INTRODUCTION 11
  • 12. Recherche et collecte des jeux de données Nombreuses données disponibles librement ou disponibles dans les équipes expérimentales Utiliser seulement les données nécessaires pour répondre à la question (d’autant plus facile qu’elle est précise et explicite) Problématique des données structurées ou non INTRODUCTION 12
  • 13. Préparation des données Plus ou moins importante Fastidieuse mais essentielle En moyenne, 60 % du temps d’une analyse de données (CrowdFlower 2016) INTRODUCTION 13
  • 14. Exploration et analyses préliminaires Faire connaissance avec les données « Quick and dirty » (R. Peng) Réalisation de nombreux graphiques, de calculs descriptifs, … le plus facilement possible INTRODUCTION 14
  • 15. Formulation d’hypothèses statistiques Mise en place d’un plan d’analyse (méthodes, tests, …) Rigoureuse et bien documentée Par exemple « La fonction F est-elle plus représentée dans la liste de gènes qu’attendue par le hasard ? » INTRODUCTION 15
  • 16. Interprétation et conclusion Mise en forme des résultats, rédaction de rapports et réalisation d’infographies Importance d’une expertise dans le domaine scientifique De nouveaux questionnements scientifiques ? INTRODUCTION 16
  • 17. Problématiques liées à l’analyse de données 3 problématiques principales rencontrées lors de la thèse Choix des données Reproductibilité Représentations des données Face à un déluge de données Big Data Faut-il toujours plus de données ? Oui mais … Hétérogénéité des données, de la qualité des données, de l’annotation, etc. Nouvelles problématiques (informatique, bioinformatique, biologie) Nouvelles pratiques Visualisation Procédure exploratoire Infographie Objectif de synthèse et vulgarisation des connaissances INTRODUCTION 17
  • 18. En résumé Données Visualisations de données Analyses de données Informations Connaissances Partage (Infographies, publications, …) Étude de l’homéostasie du fer chez la levure pathogène Candida glabrata Étude de l’impact de la prise en compte systématique des modifications post-traductionnelles lors de l’identification de protéines chez la levure pathogène Candida albicans Projet 1 Projet 2 INTRODUCTION 18 En pratique
  • 19. ÉTUDE DE L’HOMÉOSTASIE DU FER CHEZ LA LEVURE PATHOGÈNE CANDIDA GLABRATA
  • 20. Le fer est un élément indispensable aux organismes vivants Le fer est un composé essentiel de la relation hôte / micro-organismes Mécanisme de défense de l’hôte privation du fer Stratégies originales pour adapter leur métabolisme à des conditions de vie dans des environnements pauvres en fer Microbiote intestinale FER FER FER Macrophage avec des C. glabrata Crédit : A. Angoulvant L’HOMÉOSTASIE DU FER CHEZ LA LEVURE PATHOGÈNE CANDIDA GLABRATA 20
  • 21. Un équilibre complexe à trouver - + - + Anémie Hémochromatose Faible disponibilité (sang) Forte disponibilité (tube digestif) Mécanismes génomiques Processus de régulation Homéostasie du fer Maintien d'un environnement interne dans un état d'équilibre constant, malgré les changements externes L’HOMÉOSTASIE DU FER CHEZ LA LEVURE PATHOGÈNE CANDIDA GLABRATA 21
  • 22. Carte d’identité de Candida glabrata 13 chromosomes - 5293 ORFs - Haploïde (CGD Genome Snapshot CBS138, Février 2020) Présent dans la flore commensale Cavité buccale ou des tractus gastrointestinal et urogénital (Underhill et al. 2014; Cho et al. 2012; Cui et al. 2013) Pathogène opportuniste Cause majeure de morbidité et de mortalité dans les structures de soins (Pfaller et al, 2012) Touche principalement des patients immunodéprimés (cancer, transplantation,…) (Pfaller et al, 2007 ; Goemaere et al, 2018) 2ème cause la plus fréquente d’infection à Candida (Horn et al, 2009) Levures adhérentes à un entérocyte Caco2 Crédit : Adela Angoulvant Culture sur milieu Sabouraud Crédit : Adela Angoulvant L’HOMÉOSTASIE DU FER CHEZ LA LEVURE PATHOGÈNE CANDIDA GLABRATA 22
  • 23. Deux types d’infections Candidose Au niveau de la peau, de la cavité buccale et du tractus uro-génital Taux de guérison très élevé Candidémie Elévation anormale de la température du corps, accélération du rythme cardiaque et respiratoire, rigidité musculaire, etc. Infection sanguine très difficile à diagnostiquer (pas d’état fébrile dans 50% des cas (O Leroy et al. 2008; Olivier Leroy et al. 2016)) Taux de mortalité proche de 50% (Jaillette et al. 2016) (Brunke et al. 2013) (Galocha et al. 2019) Candidose vaginale 75% des femmes au cours de leur vie, récidive de 50% Candidose oropharyngée Muguet chez les jeunes enfants, Infection la plus courante chez les patients atteints par le VIH (Fidel 2006) L’HOMÉOSTASIE DU FER CHEZ LA LEVURE PATHOGÈNE CANDIDA GLABRATA 23
  • 24. Une annotation très inégale et une homéostasie peu décrite Peu de publications Données ARTEMIS DISK - Guinea et al. - 2014 Annotation fonctionnelle pauvre 2ème levure pathogène 50% de mortalité (candidémie) Pas de régression Et pourtant L’HOMÉOSTASIE DU FER CHEZ LA LEVURE PATHOGÈNE CANDIDA GLABRATA 24
  • 25. L’homéostasie du fer encore peu décrite Beaucoup de transferts d’annotation C. glabrata conserve des régulateurs « classiques » par rapport à S. cerevisiae… (Gerwien et al. 2018) Quelques gènes ont été décrits dans la littérature … et a remodelé ses propres réseaux fonctionnels pour maintenir l'homéostasie du fer. (Devaux et al. 2019) L’HOMÉOSTASIE DU FER CHEZ LA LEVURE PATHOGÈNE CANDIDA GLABRATA 25
  • 26. Constitution d’un jeu de données original Plan expérimental combinant des milieux pauvres et riches en fer Souche ATCC 2001 (CBS 138) (Denecker et al, 2020) Données qualitatives A content management platform for quantitative omics data (Denecker et al, 2019) 26 L’HOMÉOSTASIE DU FER CHEZ LA LEVURE PATHOGÈNE CANDIDA GLABRATA
  • 27. Définitions et hypothèse de travail Hypothèse Gènes ayant des fonctions cellulaires importantes pour contrebalancer les fluctuations externes de la disponibilité du fer (en carence et en surcharge) iHKG classés en deux sous-groupes : Type I et Type II 214 gènes sélectionnés Tous les gènes Gènes des données transcriptomiques Gènes réagissant à la disponibilité du fer Gènes différentiellement exprimés iHKG Iron Homeostasis Key Genes 1 2 3 Type I IHKG avec une dérégulation en opposition dans les conditions faible et haute en fer Type II IHKG avec la même dérégulation dans les conditions faible et haute en fer 27 UP DOWN UP DOWN UP DOWN UP DOWN L’HOMÉOSTASIE DU FER CHEZ LA LEVURE PATHOGÈNE CANDIDA GLABRATA
  • 28. Pertinence biologique des iHKGs Des gènes connus chez S. cerevisiae (environ 50-100 gènes) - Fonctions cellulaires dépendantes du fer (respiration,…) : QCR2, QCR6, QCR7, QCR10, COX4, COX5B, COX6, COX7, COX9, COX12, COX15, ACO1, COX23 - Des gènes codant des métalloprotéines : SDH2, CCP1, RIP1, CYT1, LIA1, CYC1, GLT1, YHB1, RLI1, ILV3 - Des gènes impliqués dans l’autophagie : ATG19, ATG32, ATG41 - Dans les clusters Fe-S : ISA1, CGD1, GRX4, HEM4, HEM15 - Dans le transport du fer : FTR1, FET3 - … Mais qu’en est-il des autres gènes ? 28 L’HOMÉOSTASIE DU FER CHEZ LA LEVURE PATHOGÈNE CANDIDA GLABRATA
  • 29. Réseaux de co-expression des gènes réagissant au fer 637 gènes en surcharge en fer637 gènes en carence en fer C1 C2 C3 C4 Z-score Gène A Gène B Gène C Gène D Gène E Gène E Gène D Gène C Gène A Gène B L’HOMÉOSTASIE DU FER CHEZ LA LEVURE PATHOGÈNE CANDIDA GLABRATA 29 Pour aller plus loin Séparation en sous-réseaux fonctionnels de gènes co-exprimés
  • 30. Comment créer des sous-réseaux fonctionnels de gènes ? Contraintes fortes Un gène = Une fonction (un seul sous-réseau) Nombre limité de sous-réseaux fonctionnels Méthode semi automatique avec curation manuelle 2 1 L’HOMÉOSTASIE DU FER CHEZ LA LEVURE PATHOGÈNE CANDIDA GLABRATA 30
  • 31. Exploration des sous-réseaux fonctionnels de gènes Redox signaling 118 gènes ? Comment exploiter au maximum ces réseaux, résultat d’une intégration de données hétérogènes ? L’HOMÉOSTASIE DU FER CHEZ LA LEVURE PATHOGÈNE CANDIDA GLABRATA 31 637 gènes
  • 32. Exploration simplifiée par une interface web https://thomasdenecker.github.io/iHKG/ (A) Possibilité de zoomer sur le graphique (B) Possibilité de cliquer sur un nœud avec la souris pour obtenir le nom du gène, sa description et des liens web directs vers les bases de données CGD et GRYC (C) Possibilité de passer d'une condition de fer faible à une condition de fer élevé (D)Possibilité de rechercher un gène particulier dans le réseau L’HOMÉOSTASIE DU FER CHEZ LA LEVURE PATHOGÈNE CANDIDA GLABRATA 32
  • 33. Réseaux fonctionnels de gènes co-exprimés HAP1 L’HOMÉOSTASIE DU FER CHEZ LA LEVURE PATHOGÈNE CANDIDA GLABRATA 33
  • 34. Enrichissement fonctionnel Contrôle des interactions de la cellule avec son environnement Transport / trafficking Type I membrane part cell periphery transporter activity MetaGO L’HOMÉOSTASIE DU FER CHEZ LA LEVURE PATHOGÈNE CANDIDA GLABRATA 34 UP DOWN UP DOWN
  • 35. Enrichissement fonctionnel Réponse au stress et stabilisation des processus clés impliquant du fer Metabolism Type II ribonucleoprotein complex cytosol ribosome MetaGO heme binding L’HOMÉOSTASIE DU FER CHEZ LA LEVURE PATHOGÈNE CANDIDA GLABRATA 35 UP DOWN UP DOWN
  • 36. WT 4h vs WT 0h aft1Δ 4h vs WT 4h sef1Δ 4h vs WT 4h ftr1Δ 4h vs WT 4h Gerwien et al. (2016) Nouvelles annotations fonctionnelles de gènes 637 gènes réagissant au fer Devaux et al. (2019) 51 gènes 110 gènes non commentés dans la littérature (17%) 10 gènes Type I 17 gènes Type II Cohérence biologique Membrane plasmique et organisation de la paroi cellulaire, Activité Redox, … L’HOMÉOSTASIE DU FER CHEZ LA LEVURE PATHOGÈNE CANDIDA GLABRATA 36
  • 37. Nouvelles annotations fonctionnelles de gènes Site de fixation de l’ADN AFT1 Principal régulateur de l’homéostasie du fer 73 gènes Type I CAGL0A01199g DIP5 CAGL0K06259g TSA1 "Régulateur du fer" – Premières descriptions fonctionnelles pour ces gènes sur la base d'expériences menées directement chez C. glabrata sans transfert d’informations des levures modèles S. cerevisiae et C. albicans Des pistes à explorer expérimentalement 37 L’HOMÉOSTASIE DU FER CHEZ LA LEVURE PATHOGÈNE CANDIDA GLABRATA
  • 38. Conclusion et perspectives COLLABORATION Méthodologie originale d’intégration et d’exploration des données 637 gènes réagissent aux changements de concentration en fer 214 gènes étant de très bons candidats dans l’homéostasie du fer : − Peuvent être une aide dans l’amélioration de l’annotation de la CGD (seulement 5% des ORFs sont vérifiées) − Peuvent constituer un point de départ pour une étude comparative avec des espèces proches phylogénétiquement (clade des Nakaseomyces) dont la pathogénie − Peuvent permettre de mieux comprendre l’évolution des réseaux de régulation de l’homéostasie du fer chez les levures (Gabaldón et al, 2016) L’HOMÉOSTASIE DU FER CHEZ LA LEVURE PATHOGÈNE CANDIDA GLABRATA 38
  • 39. Résultats préliminaires Mise en évidence de gènes très bien décrits chez C. glabrata dont les orthologues au sein du clade sont différentiellement exprimés de façon similaire en condition de carence en fer L’HOMÉOSTASIE DU FER CHEZ LA LEVURE PATHOGÈNE CANDIDA GLABRATA 39
  • 40. Résultats préliminaires 73 gènes partagés Entre C. glabrata et C. bracarensis et C. nivariensis dont les fonctions générales sont dominées par des fonctions clés dans l’homéostasie du fer L’HOMÉOSTASIE DU FER CHEZ LA LEVURE PATHOGÈNE CANDIDA GLABRATA 40
  • 41. ÉTUDE DE L’IMPACT DE LA PRISE EN COMPTE SYSTÉMATIQUE DES MODIFICATIONS POST-TRADUCTIONNELLES LORS DE L’IDENTIFICATION DE PROTÉINES CHEZ LA LEVURE PATHOGÈNE CANDIDA ALBICANS
  • 42. Constat sur la plateforme de protéomique de l’IJM 50 % des spectres de masse ne conduisent pas à l’identification d’une protéine par spectrométrie de masse MS/MS en approche Bottom Up sur la plateforme Perte considérable ! Hypothèse : Les modifications post-traductionnelles Pourquoi ? MODIFICATIONS POST-TRADUCTIONNELLES – CANDIDA ALBICANS 42
  • 43. Spectrométrie de masse LC-MS/MS - Approche Bottom up MODIFICATIONS POST-TRADUCTIONNELLES – CANDIDA ALBICANS 43 Digestion trypsique Chromatographie liquide Spectrométrie de masse Bioinformatique : Identification des peptides Protéine identifiée Protéine inconnue Peptides
  • 44. Identification des peptides à partir des spectres de masse Approche 1 Comparaison des spectres Spectre expérimental Séquences théoriques Approche 2 Comparaison des séquences Spectre expérimental Séquences théoriques Déduction de la séquence expérimentale FIAVGYK Approche 3 Comparaison hybride Spectre expérimental Séquences théoriques Déduction de la séquence expérimentale FIAVGYK Création d’une banque spectrale théorique Création d’une banque spectrale théorique Filtrage de la banque MODIFICATIONS POST-TRADUCTIONNELLES – CANDIDA ALBICANS 44
  • 45. Création d’une banque spectrale théorique > Protéine TOTO MYELNNEEVLRKRKERFSKFGKEAIINDPLRDVALLSRSGESNTIIDLKINHDKRSEMVS MLKLLFYDEKQLTTVEHGLRKLREVFMSIRQDHRDEDESFWKQASEVYKLSYDFLLRHGQ YNKLGGLVLNAIHEWFPLQYRKPYAKIYALYLSHIEKDVPKCVDFLQYSSVSQSESLDII NMANIYVLKSESPRIWFHYCKNLKDDELNFLELSSVMQVMINRTDNLLQLCYNQLSVKVA QQLWFGDHFTSNLETRIKDKYDMRAGTDIILFKKRQIKG MYELNNEEVLR K R K ER FSK FGK EAIINDPL … Simulation d’une digestion trypsique Création des spectres théoriques … Spectres théoriques pour la protéine TOTO < 3000 DA and ≤ 30 AA Si aucune modification post-traductionnelle n’est indiquée lors de la construction de la banque spectrale théorique, alors aucun spectre ne contiendra de modification post-traductionnelle MODIFICATIONS POST-TRADUCTIONNELLES – CANDIDA ALBICANS 45
  • 46. Avec / sans modifications post-traductionnelles (Xu et al. 2019) Si la banque ne contient pas de spectres avec des modifications post-traductionnelles Absence d’identification MODIFICATIONS POST-TRADUCTIONNELLES – CANDIDA ALBICANS 46
  • 47. Questionnement scientifique Est-il possible d’améliorer le taux d’identification des protéines en prenant en compte de façon systématique les modifications post-traductionnelles ? Aujourd’hui, cette recherche est trop longue par les approches classiques d’identification (Mascot : 1-3 heures pour seulement 3 modifications post-traductionnelles / 1500 possibles) MODIFICATIONS POST-TRADUCTIONNELLES – CANDIDA ALBICANS 47
  • 48. Collecte des données : Candida albicans 8 chromosomes -12 405 ORFs (diploïde) Organisme commensal des muqueuses humaines Cause majeure de mortalité dans les structures de santé 1ère cause d’infection à Candida Sudbery et al, 2011 – DOI : 10.1038/nrmicro2636 15 fichiers dans la forme hyphe 15 fichiers dans la forme levure 30fichiers RAW MODIFICATIONS POST-TRADUCTIONNELLES – CANDIDA ALBICANS 48
  • 49. Défi informatique Mise en place d’une nouvelle approche systématique utilisant le logiciel RAId pour prendre en compte un maximum de modifications post-traductionnelles Rapide En seulement 14h Reproductible MODIFICATIONS POST-TRADUCTIONNELLES – CANDIDA ALBICANS 49
  • 50. Résultats de la prise en compte des PTMs Nombre de protéines identifiées avec ou sans modifications post-traductionnelles Nombre de protéines identifiées en fonction du nombre de modifications post-traductionnelles détectées Importance de la prise en compte des modifications post-traductionnelles MODIFICATIONS POST-TRADUCTIONNELLES – CANDIDA ALBICANS 50
  • 51. Une première liste pour C. albicans Modifications post-traductionnelles recherchées actuellement en routine Modifications post-traductionnelles permettant d’identifier de nouvelles protéines uniquement grâce à elles Glutathionylation (Modification post-traductionnelle très étudiée au laboratoire) Une liste spécifique à explorer pour C. albicans MODIFICATIONS POST-TRADUCTIONNELLES – CANDIDA ALBICANS 51
  • 52. Conclusion Perspectives MODIFICATIONS POST-TRADUCTIONNELLES – CANDIDA ALBICANS Proposition d’un nouveau protocole d’identification des protéines plus rapide et plus efficace Confirmation de l’impact de l’étude des modifications post-traductionnelles dans le taux d’identification des protéines 1 2 Augmenter la liste des modifications post-traductionnelles recherchées systématiquement Réaliser la même étude sur d’autres organismes (données disponibles chez C. glabrata) 1 2 52
  • 53. BILAN
  • 54. 2017 2018 2019 2020 Projet START-R Projet Nakaseomyces Projet PodoGOProjet MONet Projet homéostasie du fer chez Candida glabrata Projet PTMs BILAN 54 Une thèse variée en projets de recherche et collaborations
  • 55. Une thèse variée en développement informatique 2017 2018 2019 2020 BILAN 55
  • 56. Une thèse variée en formations 2017 2018 2019 2020 BILAN 56
  • 57. Des travaux de thèse communiqués BILAN 2017 2018 2019 2020 Réseaux fonctionnels de gènes co-exprimés pour explorer l’homéostasie du fer chez la levure pathogène Candida glabrata FAIR_Bioinfo : La reproductibilité au service de la biologie computationnelle Multi-Omics Data Integration to Model Iron homeostasis in pathogenic yeast Candida glabrata Systematic Analysis of Protein Post- translational Modifications at a Proteomic Scale in the pathogenic yeast Candida albicans - Functional networks of co-expressed genes to explore iron homeostasis processes in the pathogenic yeast Candida glabrata - FAIR-bioinfo : disseminate the tools accompanying the reproducibility of analyses Multi-Omics Data Integration to Model Iron homeostasis in pathogenic yeast Candida glabrata Transcriptomics data explorations to decipher iron homeostasis in the pathogenesis yeast Candida glabrata Pixel: an open source solution for annotation, storage, mining and integration of multi-omics data in biology Study of the adaptation to iron deficiency of the pathogenic yeast Candida glabrata : bioinformatics analyses of multi-omics data OralesAffichées 57
  • 58. Des travaux de thèse publiés 2017 2018 2019 2020 A hypothesis-driven approach identifies CDK4 and CDK6 inhibitors as candidate drugs for treatments of adrenocortical carcinomas. Hadjadj et al. - Aging Empowering the detection of ChIP-seq "basic peaks" (bPeaks) in small eukaryotic genomes with a web user-interactive interface. Denecker et al. - BMC Data Note Pixel: a content management platform for quantitative omics data. Denecker et al. - PeerJ Label-free quantitative proteomics in Candida yeast species: technical and biological replicates to assess data reproducibility. Lelandais, Denecker et al. - BMC Data Note Efficient, quick and easy-to-use, DNA replication timing analysis with START-R suite. Hadjadj, Denecker et al. NAR Genomics and Bioinformatics Functional networks of co-expressed genes to explore iron homeostasis processes in the pathogenic yeast Candida glabrata Denecker et al. - NAR Genomics and Bioinformatics Rendre ses projets R plus accessibles grâce à Shiny Denecker - Bioinfo-fr.net FAIR_Bioinfo: a turnkey training course and protocol for reproducible computational biology Denecker et Toffano-Nioche HAL BILAN 58 Characterization of the replication timing program of 6 human model cell lines Hadjadj D, Denecker T et al. Genomic Data
  • 59. Merci pour ces belles collaborations ! BILAN Equipe Malagnac Pierre Grognet Fabienne Malagnac Damien Remy Equipe Fairhead Adela Angoulvant Monique Bolotin-Fukuhara Cécile Fairhead Laetitia Maroc Youfang Zhou-Li Equipe Camadro Jean-Michel Camadro Véronique Legros Laurent Lignières Pierre Poulain Nicolas Senecaut Samuel Terrier Equipe Cadoret Giuseppe Baldacci Jean-Charles Cadoret Anne-Lise Haenni Fabien Fauchereau Su-Jung Kim Chrystelle Maric-Antoinat Projet PTMs I2BC / IFB Claire Toffano-Nioche Céline Hernandez Hélène Chiapello Jacques van Helden Et nos testeurs Stéphane Demais et Pauline François Task force Gildas Le Corguillé Julien Seiler 59 Projet Nakaseomyces Entreprises TailorDev et Biorosetics
  • 60. Merci aussi Aux personnes qui ont rendu l’administratif facile Marie-Hélène Sarda, Jeanne Triki et Sandrine Le Bihan Aux membres du jury Sarah Cohen Boulakia, Bertrand Cosson, Marie-Agnès Dillies, Stéphane Le Crom, Hélène Chiapello, Jean-Michel Camadro et Pierre Poulain À ma directrice de thèse Gaëlle Lelandais À mes proches 60 BILAN
  • 61. Informations importantes N’hésitez pas à poser des questions dans le chat, Pierre Poulain se chargera de me les poser à la fin. Merci pour votre écoute ! 61