Bio-informatique et applications

Widad BENCHAIB
Sara SI-MOUSSI
3CSSIQ – G04
Master ESI 2016/2017
Introduction à la Méthodologie de Recherche
“Computers are to biology what
mathematics is to physics.”
— Harold Morowitz

Sommair
e
Introduction
I. Bio-informatique
II. Historique de la bio-informatique
III. Etat de l’art sur la bio-informatique
IV. Problématiques d’actualité
V. Challenges de recherche
VI. Solutions proposées
Conclusion et perspectives
Bibliographie, Crédits Photos
Annexes
2

3
Introductio
n
100 Milliard
cellules
ADN à base de
4 lettres
(nucléotides) :
A C G T
ADN
(gènes) 
fonctions
cellulaires
Exemple
motivant

4
D’après (Hogeweg, Hesper, 1978),
« la bio-informatique est l’étude des
processus informatiques (acquisition,
traitement et restitution) dans les
systèmes biotiques. »
1. Qu’est ce que la bio-informatique ?
(1)
Utilisation des ordinateurs dans
la biologie.
De l’informatique appliquée
aux processus biologiques
L’informatique réduite à l’outil ordinateur
« Champs multidisciplinaire impliquant la biologie,
l’informatique, les mathématiques, les statistiques dont
l’objectif est d’analyser les séquences biologiques et de
prédire la structure et la fonction des
macromolécules. »(4)
I. Bio-
informatique

5
2. Une transformation de la biologie(3)
I. Bio-
informatique
• Biologie : science basée sur l’observation  une science déductive.
• Données de masse et qui continue d’exploser en taille; d’après A.Lesk (3)
o La taille approximative d’un génome humain est de 3.2 x 109 lettres  unité HUman Genom
Equivalents (HUGE).
o 1 huge équivaut au nombre de caractères en 6 ans de publications du New York Times.
o La banque de données des séquences de nucléotide contient 16 * 109 bases (16 Gbp) = 5 huges.
o La base de données des structures macromoléculaires contient 16000 entrées=coordonnées
tridimensionnelles complètes des protéines de longueur moyenne=400
• Combine le raisonnement top-down de l’informatique à l’approche
bottom-up de la biologie.

6
3. Biologie computationnelle(4)
I. Bio-
informatique
« Approche formelle de développement d’algorithmes efficaces permettant
de résoudre un problème biologique donné. »(4)
Objectif:
Maintenir un certain
niveau de précision
tout en gardant le
problème solvable.
Question
biologique
Problème
informatique
(modèle)
Algorithme
Résultats
expérimentaux
Formalisation
Résolution
Exécution
Interprétation
Modélisation
fidèle au
problème ?
Solution
existante ?
Est-ce
efficace ?
Ont-ils du
sens ? Information manipulée
ADN (Génome)
• Séquences de nucleotides
• Séquence de genes
• Banques de données
ARN (Transcriptome)
• Séquence
• Structure
Protéines (Protéome)
• Séquence
• Structure
• Réseaux d’intéraction

7
II.
Historique
1950-1970
1971-
1980
1981-
1990
1991-2000 2001-2016
1971: Premier travaux sur le
repliement des ARNs (J.
Ninio).
1973: "Génie Génétique"
1974: "Prediction of Protein
Conformation"
1977: Séquençage d'ADN
(Sanger, Maxam, Gilbert).
1977: Premier "package"
Bioinformatique
1978: Bases de données:
ACNUC, PIR, EMBL,
GenBank.
1951: Première séquence
protéique
1960: Lien entre séquence &
structure
1965: La divergence et la
convergence évolutionnaire
dans les protéines
1967: La construction des
arbres phylogénétiques Fitch &
Margoliash.
1970:programme d'alignement
global de deux sequences
1981: Los Alamos-GenBank:
270 séquences, 370.000
nucléotides.
1981: Programme
d'alignement local
1985:Programme "Fasta"
1990: Programme "Blast"
1990: Clonage positionnel et
séquençage de NF-1.
2000 : Séquençage du
1er génome de plante,
Arabidopsis thaliana.
2001: Séquençage
("premier jet")
complète du génome
humain.
2006-2012 :
reprogrammation
génétique (cellule IPS)
1991: "Grail", programme performant pour
localiser les gènes
1991: Étiquettes d'ADNc "EST"
1992: Séquençage complet du chromosome III de
levure.
1995: Première séquence complète d'un micro-
organisme
1996: Séquence complète de la levure
1997: Programme "Gapped Blast"
1997: 11 génomes bactériens disponibles. 1998:
Séquençage du 1er organisme pluricellulaire,
Caenorhabditis elegans (100 Mb).

8
3. Etat de l’art sur la bio-
informatique
Technologies et méthodes utilisées
• Traitement d’une grande masse de données pour l’identification de
l'organisation des gènes
• La théorie des langages et l'algorithmique
• Les réseaux de neurones
• l’analyse discriminante
• Méthode d’analyse des données Monte-Carlo , chaînes de Markov
• Application :
GENSCAN : un programme général de prédiction de séquences
codantes à partir de séquences d’A.D.N. génomique ;
 FASTA (Lipman, Pearson, 1985 ; Pearson, Lipman, 1988), servant à
trouver des séquences dans des bases de données et à identifier des
structures périodiques basées sur des similarités de séquences
locales ;
 BLAST (Altschul, Gish et al., 1990), as permet de comparer des
séquences
données à des séquences connues.
Bio-
informatique
de
séquences

9
informatique
• La prédiction des structures tridimensionnelles des (macro-)molécules
biologiques, comme par exemple l’A.D.N., l’A.R.N., les protéines ou
encore les morphogènes ou hormones
• La géométrie « computationnelle » , l’algorithmique afin de développer
les protocoles efficaces pour l’analyse des données
• Application et études :
 Développement parallèle des méthodes de géométrie des
distances (Moré, Wu, 1999 ; Liberti, Lavor et al., 2008) et
d’optimisation (Cutello, Narzisi, 2006).
Etude de repliement de l’ARN d’une structure primaire vers une
structure secondaire.
Visualisation et la manipulation des séquences issues des bases de
données, la prédiction des caractéristiques de repliement des
structures primaires menant à la compréhension de leurs structures
secondaires et tertiaires.
 Application du aspects de la combinatoire analytique.
Bio-
informatique
de structure

10
informatique
• Interactions des régulations génétiques
• Application et étude :
• Régulations génétiques fonctionnelles :
l’opéron lactose de la bactérie Escherichia Coli par Jacob et
Monod, qui permet notamment de comprendre les
échanges de gènes entre bactéries.
• Représentions formelle sous forme de réseau, permettant
d’expliquer le « système lactose » ( JACOB & MONOD ,prix
de Nobel 1965 )
Bio-
informatique
des réseaux

11
informatique
• La masse de données accumulée en biologie depuis des
décennies
• Stockage & organisation
• Aspect syntaxique du traitement des données et aspect
sémantique du traitement
• Technologies et concepts :
Base de données
Datamining
Algorithmique, l’apprentissage automatique et statistique, la
représentation (visualisation) des connaissances...
Traitement
de
l’information
biologique

12
IV. Problématiques résolues,
d’actualité
 L'analyse, la compréhension et l'organisation d'une masse de données biologiques
 Décodage l’information contenue dans les séquences d’ADN et de protéine
 Génomique structurale et fonctionnelle
 L’acquisition et le stockage des données
 Traitements systématiques des séquences
 Elaboration de stratégies
 Evaluation des différentes approches existantes dans le but de les valider

13
V. Challenges de la recherche
Biologie
• Dépendance
vs
contingence
historique
• Problèmes
complexes à
modéliser et à
résoudre
• Ethique
Nature des
données
• Fragmentée
• Incomplète
• Bruitée
• Redondante
(structure de
l’ADN
• Insignifiance
Exigences générales
des programmes
informatiques
• Efficacité
• Sécurité
• Fiabilité
• Mise à
l’échelle
• IHM
• Réseau pour
le partage

14
VI. Solutions envisagées
Outils du Big Data Web sémantique & ontologies Data mining
Principes Evolutionnaires Intelligence Artificielle

15
Conclusion et perspectives
Transdisciplinarité
Révolution biologique
Approches différentes,
réflexion/modélisation
commune
Capitalisation de
connaissances
informatiques
Reprogrammation génétique vs clonage
Implication de la
médecine publique,
écologie …etc.

Est-ce juste une question de performances ?
Manipule-t-on les bonnes données ?
Toutes les réponses se trouvent-elles ici ?
Vers une plus grande pluridisciplinarité

17
Bibliographie
1. Barlovatz-meimon, G., & Sené, S. (2012). Méthodes informatiques en biologie, 2018.
2. Cohen, J. (2004). Bioinformatics---an introduction for computer scientists. ACM
Computing Surveys, 36(2), 122–158. https://doi.org/10.1145/1031120.1031122
3. Lesk, A. (2013). Introduction to bioinformatics. BOOK, Oxford University Press.
4. El-mabrouk, N. (n.d.). Introduction à la Bio-Informatique IFT3295/IFT6291/BIN6000.
5. Ohn C. Wooley and Herbert S. Lin Computing and biology ISBN: 0-309-54937-X, 468
pages, 8 1/2 x 11, (2005) .

18
Crédits photos
1. Slide 7 : « Modifier l'ADN : une réalité possible, pour le meilleur... et pour le pire ? » - TOP-
Santé.COM (22/04/2015)
2. Slide 4, 13 : freepik
3. Slide 3 : El-mabrouk, N. (n.d.). Introduction à la Bio-Informatique IFT3295/IFT6291/BIN6000

19
Annexe (1) : taille des données
Croissance exponentielle des séquences de nucléotides et d’AA dans les
banques de données biologiques :
• 10.640.515 protéines
• Présentement dans RefSeq (NCBI):
o Plus de 1200 génomes de procaryotes et 460 génomes
o 10.728 espèces d’eucaryotes complètement séquencés.

20
Annexe (2) : banques de
données
• RefSeq (NCBI),
• NAR (Nucleids Acid Research),
• ACNUC,
• PIR,
• EMBL,
• GenBank.

21
Technologies et méthodes utilisées(2)
Techniques de conception d’algorithmes
• Brute force
• Branch & Bound
• Greedy Rules
• Dynamic Programming
• Divide & conquer
• Machine learning
Comparer
des
séquences
Suppression
Insertion
Remplacement
DAG
Dynamic
Programming
Phylogénétique
Arbres
Groupement par
similarité
Raisonnement sur
évolution
Détection de
patterns
(schémas)
Recherche de
gènes dans l’ADN
ML
Réseaux de
neurones
Grammaire
probabilistique
HMM
THL, Chomsky
grammars
Déterminer les
structures 3D des
protéines depuis les
séquences d’AA
Algorithmes à
complexité
cubique, non
résolu
Inférer le modèle
de régulation des
cellules
Données
expérimentales
Microarrays
Reverse
engineering
Autre
Scripting
langages
Déterminer
fonctions des
protéines et
chemins
métaboliques
Assemblage
d’ADN
Annexe (3)

22
4. De plus grandes ambitions (3)
Annexe (4): Bio-
informatique
• Comprendre la biologie des
organismes dans toute sa
complexité.
• Relier les séquences et structures
complexes des protéines et acides
nucléiques à leur fonction
• Expliquer des phénomènes
passés et prédire l’évolution
future des espèces
• Supporter des applications en
médecine, agriculture et autres
champs de recherche.

Bio-informatique et applications

Contenu connexe

Tendances

En vedette

Similaire à Bio-informatique et applications

Bio-informatique et applications

Notes de l'éditeur