Widad BENCHAIB
Sara SI-MOUSSI
3CSSIQ – G04
Master ESI 2016/2017
Introduction à la Méthodologie de Recherche
“Computers are to biology what
mathematics is to physics.”
— Harold Morowitz
Sommair
e
Introduction
I. Bio-informatique
II. Historique de la bio-informatique
III. Etat de l’art sur la bio-informatique
IV. Problématiques d’actualité
V. Challenges de recherche
VI. Solutions proposées
Conclusion et perspectives
Bibliographie, Crédits Photos
Annexes
2
3
Introductio
n
100 Milliard
cellules
ADN à base de
4 lettres
(nucléotides) :
A C G T
ADN
(gènes) 
fonctions
cellulaires
Exemple
motivant
4
D’après (Hogeweg, Hesper, 1978),
« la bio-informatique est l’étude des
processus informatiques (acquisition,
traitement et restitution) dans les
systèmes biotiques. »
1. Qu’est ce que la bio-informatique ?
(1)
Utilisation des ordinateurs dans
la biologie.
De l’informatique appliquée
aux processus biologiques
L’informatique réduite à l’outil ordinateur
« Champs multidisciplinaire impliquant la biologie,
l’informatique, les mathématiques, les statistiques dont
l’objectif est d’analyser les séquences biologiques et de
prédire la structure et la fonction des
macromolécules. »(4)
I. Bio-
informatique
5
2. Une transformation de la biologie(3)
I. Bio-
informatique
• Biologie : science basée sur l’observation  une science déductive.
• Données de masse et qui continue d’exploser en taille; d’après A.Lesk (3)
o La taille approximative d’un génome humain est de 3.2 x 109 lettres  unité HUman Genom
Equivalents (HUGE).
o 1 huge équivaut au nombre de caractères en 6 ans de publications du New York Times.
o La banque de données des séquences de nucléotide contient 16 * 109 bases (16 Gbp) = 5 huges.
o La base de données des structures macromoléculaires contient 16000 entrées=coordonnées
tridimensionnelles complètes des protéines de longueur moyenne=400
• Combine le raisonnement top-down de l’informatique à l’approche
bottom-up de la biologie.
6
3. Biologie computationnelle(4)
I. Bio-
informatique
« Approche formelle de développement d’algorithmes efficaces permettant
de résoudre un problème biologique donné. »(4)
Objectif:
Maintenir un certain
niveau de précision
tout en gardant le
problème solvable.
Question
biologique
Problème
informatique
(modèle)
Algorithme
Résultats
expérimentaux
Formalisation
Résolution
Exécution
Interprétation
Modélisation
fidèle au
problème ?
Solution
existante ?
Est-ce
efficace ?
Ont-ils du
sens ? Information manipulée
ADN (Génome)
• Séquences de nucleotides
• Séquence de genes
• Banques de données
ARN (Transcriptome)
• Séquence
• Structure
Protéines (Protéome)
• Séquence
• Structure
• Réseaux d’intéraction
7
II.
Historique
1950-1970
1971-
1980
1981-
1990
1991-2000 2001-2016
1971: Premier travaux sur le
repliement des ARNs (J.
Ninio).
1973: "Génie Génétique"
1974: "Prediction of Protein
Conformation"
1977: Séquençage d'ADN
(Sanger, Maxam, Gilbert).
1977: Premier "package"
Bioinformatique
1978: Bases de données:
ACNUC, PIR, EMBL,
GenBank.
1951: Première séquence
protéique
1960: Lien entre séquence &
structure
1965: La divergence et la
convergence évolutionnaire
dans les protéines
1967: La construction des
arbres phylogénétiques Fitch &
Margoliash.
1970:programme d'alignement
global de deux sequences
1981: Los Alamos-GenBank:
270 séquences, 370.000
nucléotides.
1981: Programme
d'alignement local
1985:Programme "Fasta"
1990: Programme "Blast"
1990: Clonage positionnel et
séquençage de NF-1.
2000 : Séquençage du
1er génome de plante,
Arabidopsis thaliana.
2001: Séquençage
("premier jet")
complète du génome
humain.
2006-2012 :
reprogrammation
génétique (cellule IPS)
1991: "Grail", programme performant pour
localiser les gènes
1991: Étiquettes d'ADNc "EST"
1992: Séquençage complet du chromosome III de
levure.
1995: Première séquence complète d'un micro-
organisme
1996: Séquence complète de la levure
1997: Programme "Gapped Blast"
1997: 11 génomes bactériens disponibles. 1998:
Séquençage du 1er organisme pluricellulaire,
Caenorhabditis elegans (100 Mb).
8
3. Etat de l’art sur la bio-
informatique
Technologies et méthodes utilisées
• Traitement d’une grande masse de données pour l’identification de
l'organisation des gènes
• La théorie des langages et l'algorithmique
• Les réseaux de neurones
• l’analyse discriminante
• Méthode d’analyse des données Monte-Carlo , chaînes de Markov
• Application :
GENSCAN : un programme général de prédiction de séquences
codantes à partir de séquences d’A.D.N. génomique ;
 FASTA (Lipman, Pearson, 1985 ; Pearson, Lipman, 1988), servant à
trouver des séquences dans des bases de données et à identifier des
structures périodiques basées sur des similarités de séquences
locales ;
 BLAST (Altschul, Gish et al., 1990), as permet de comparer des
séquences
données à des séquences connues.
Bio-
informatique
de
séquences
9
3. Etat de l’art sur la bio-
informatique
Technologies et méthodes utilisées
• La prédiction des structures tridimensionnelles des (macro-)molécules
biologiques, comme par exemple l’A.D.N., l’A.R.N., les protéines ou
encore les morphogènes ou hormones
• La géométrie « computationnelle » , l’algorithmique afin de développer
les protocoles efficaces pour l’analyse des données
• Application et études :
 Développement parallèle des méthodes de géométrie des
distances (Moré, Wu, 1999 ; Liberti, Lavor et al., 2008) et
d’optimisation (Cutello, Narzisi, 2006).
Etude de repliement de l’ARN d’une structure primaire vers une
structure secondaire.
Visualisation et la manipulation des séquences issues des bases de
données, la prédiction des caractéristiques de repliement des
structures primaires menant à la compréhension de leurs structures
secondaires et tertiaires.
 Application du aspects de la combinatoire analytique.
Bio-
informatique
de structure
10
3. Etat de l’art sur la bio-
informatique
Technologies et méthodes utilisées
• Interactions des régulations génétiques
• Application et étude :
• Régulations génétiques fonctionnelles :
l’opéron lactose de la bactérie Escherichia Coli par Jacob et
Monod, qui permet notamment de comprendre les
échanges de gènes entre bactéries.
• Représentions formelle sous forme de réseau, permettant
d’expliquer le « système lactose » ( JACOB & MONOD ,prix
de Nobel 1965 )
Bio-
informatique
des réseaux
11
3. Etat de l’art sur la bio-
informatique
Technologies et méthodes utilisées
• La masse de données accumulée en biologie depuis des
décennies
• Stockage & organisation
• Aspect syntaxique du traitement des données et aspect
sémantique du traitement
• Technologies et concepts :
Base de données
Datamining
Algorithmique, l’apprentissage automatique et statistique, la
représentation (visualisation) des connaissances...
Traitement
de
l’information
biologique
12
IV. Problématiques résolues,
d’actualité
 L'analyse, la compréhension et l'organisation d'une masse de données biologiques
 Décodage l’information contenue dans les séquences d’ADN et de protéine
 Génomique structurale et fonctionnelle
 L’acquisition et le stockage des données
 Traitements systématiques des séquences
 Elaboration de stratégies
 Evaluation des différentes approches existantes dans le but de les valider
13
V. Challenges de la recherche
Biologie
• Dépendance
vs
contingence
historique
• Problèmes
complexes à
modéliser et à
résoudre
• Ethique
Nature des
données
• Fragmentée
• Incomplète
• Bruitée
• Redondante
(structure de
l’ADN
• Insignifiance
Exigences générales
des programmes
informatiques
• Efficacité
• Sécurité
• Fiabilité
• Mise à
l’échelle
• IHM
• Réseau pour
le partage
14
VI. Solutions envisagées
Outils du Big Data Web sémantique & ontologies Data mining
Principes Evolutionnaires Intelligence Artificielle
15
Conclusion et perspectives
Transdisciplinarité
Révolution biologique
Approches différentes,
réflexion/modélisation
commune
Capitalisation de
connaissances
informatiques
Reprogrammation génétique vs clonage
Implication de la
médecine publique,
écologie …etc.
Est-ce juste une question de performances ?
Manipule-t-on les bonnes données ?
Toutes les réponses se trouvent-elles ici ?
Vers une plus grande pluridisciplinarité
17
Bibliographie
1. Barlovatz-meimon, G., & Sené, S. (2012). Méthodes informatiques en biologie, 2018.
2. Cohen, J. (2004). Bioinformatics---an introduction for computer scientists. ACM
Computing Surveys, 36(2), 122–158. https://doi.org/10.1145/1031120.1031122
3. Lesk, A. (2013). Introduction to bioinformatics. BOOK, Oxford University Press.
4. El-mabrouk, N. (n.d.). Introduction à la Bio-Informatique IFT3295/IFT6291/BIN6000.
5. Ohn C. Wooley and Herbert S. Lin Computing and biology ISBN: 0-309-54937-X, 468
pages, 8 1/2 x 11, (2005) .
18
Crédits photos
1. Slide 7 : « Modifier l'ADN : une réalité possible, pour le meilleur... et pour le pire ? » - TOP-
Santé.COM (22/04/2015)
2. Slide 4, 13 : freepik
3. Slide 3 : El-mabrouk, N. (n.d.). Introduction à la Bio-Informatique IFT3295/IFT6291/BIN6000
19
Annexe (1) : taille des données
Croissance exponentielle des séquences de nucléotides et d’AA dans les
banques de données biologiques :
• 10.640.515 protéines
• Présentement dans RefSeq (NCBI):
o Plus de 1200 génomes de procaryotes et 460 génomes
o 10.728 espèces d’eucaryotes complètement séquencés.
20
Annexe (2) : banques de
données
• RefSeq (NCBI),
• NAR (Nucleids Acid Research),
• ACNUC,
• PIR,
• EMBL,
• GenBank.
21
Technologies et méthodes utilisées(2)
Techniques de conception d’algorithmes
• Brute force
• Branch & Bound
• Greedy Rules
• Dynamic Programming
• Divide & conquer
• Machine learning
Comparer
des
séquences
Suppression
Insertion
Remplacement
DAG
Dynamic
Programming
Phylogénétique
Arbres
Groupement par
similarité
Raisonnement sur
évolution
Détection de
patterns
(schémas)
Recherche de
gènes dans l’ADN
ML
Réseaux de
neurones
Grammaire
probabilistique
HMM
THL, Chomsky
grammars
Déterminer les
structures 3D des
protéines depuis les
séquences d’AA
Algorithmes à
complexité
cubique, non
résolu
Inférer le modèle
de régulation des
cellules
Données
expérimentales
Microarrays
Reverse
engineering
Autre
Scripting
langages
Déterminer
fonctions des
protéines et
chemins
métaboliques
Assemblage
d’ADN
Annexe (3)
22
4. De plus grandes ambitions (3)
Annexe (4): Bio-
informatique
• Comprendre la biologie des
organismes dans toute sa
complexité.
• Relier les séquences et structures
complexes des protéines et acides
nucléiques à leur fonction
• Expliquer des phénomènes
passés et prédire l’évolution
future des espèces
• Supporter des applications en
médecine, agriculture et autres
champs de recherche.

Bio-informatique et applications

  • 1.
    Widad BENCHAIB Sara SI-MOUSSI 3CSSIQ– G04 Master ESI 2016/2017 Introduction à la Méthodologie de Recherche “Computers are to biology what mathematics is to physics.” — Harold Morowitz
  • 2.
    Sommair e Introduction I. Bio-informatique II. Historiquede la bio-informatique III. Etat de l’art sur la bio-informatique IV. Problématiques d’actualité V. Challenges de recherche VI. Solutions proposées Conclusion et perspectives Bibliographie, Crédits Photos Annexes 2
  • 3.
    3 Introductio n 100 Milliard cellules ADN àbase de 4 lettres (nucléotides) : A C G T ADN (gènes)  fonctions cellulaires Exemple motivant
  • 4.
    4 D’après (Hogeweg, Hesper,1978), « la bio-informatique est l’étude des processus informatiques (acquisition, traitement et restitution) dans les systèmes biotiques. » 1. Qu’est ce que la bio-informatique ? (1) Utilisation des ordinateurs dans la biologie. De l’informatique appliquée aux processus biologiques L’informatique réduite à l’outil ordinateur « Champs multidisciplinaire impliquant la biologie, l’informatique, les mathématiques, les statistiques dont l’objectif est d’analyser les séquences biologiques et de prédire la structure et la fonction des macromolécules. »(4) I. Bio- informatique
  • 5.
    5 2. Une transformationde la biologie(3) I. Bio- informatique • Biologie : science basée sur l’observation  une science déductive. • Données de masse et qui continue d’exploser en taille; d’après A.Lesk (3) o La taille approximative d’un génome humain est de 3.2 x 109 lettres  unité HUman Genom Equivalents (HUGE). o 1 huge équivaut au nombre de caractères en 6 ans de publications du New York Times. o La banque de données des séquences de nucléotide contient 16 * 109 bases (16 Gbp) = 5 huges. o La base de données des structures macromoléculaires contient 16000 entrées=coordonnées tridimensionnelles complètes des protéines de longueur moyenne=400 • Combine le raisonnement top-down de l’informatique à l’approche bottom-up de la biologie.
  • 6.
    6 3. Biologie computationnelle(4) I.Bio- informatique « Approche formelle de développement d’algorithmes efficaces permettant de résoudre un problème biologique donné. »(4) Objectif: Maintenir un certain niveau de précision tout en gardant le problème solvable. Question biologique Problème informatique (modèle) Algorithme Résultats expérimentaux Formalisation Résolution Exécution Interprétation Modélisation fidèle au problème ? Solution existante ? Est-ce efficace ? Ont-ils du sens ? Information manipulée ADN (Génome) • Séquences de nucleotides • Séquence de genes • Banques de données ARN (Transcriptome) • Séquence • Structure Protéines (Protéome) • Séquence • Structure • Réseaux d’intéraction
  • 7.
    7 II. Historique 1950-1970 1971- 1980 1981- 1990 1991-2000 2001-2016 1971: Premiertravaux sur le repliement des ARNs (J. Ninio). 1973: "Génie Génétique" 1974: "Prediction of Protein Conformation" 1977: Séquençage d'ADN (Sanger, Maxam, Gilbert). 1977: Premier "package" Bioinformatique 1978: Bases de données: ACNUC, PIR, EMBL, GenBank. 1951: Première séquence protéique 1960: Lien entre séquence & structure 1965: La divergence et la convergence évolutionnaire dans les protéines 1967: La construction des arbres phylogénétiques Fitch & Margoliash. 1970:programme d'alignement global de deux sequences 1981: Los Alamos-GenBank: 270 séquences, 370.000 nucléotides. 1981: Programme d'alignement local 1985:Programme "Fasta" 1990: Programme "Blast" 1990: Clonage positionnel et séquençage de NF-1. 2000 : Séquençage du 1er génome de plante, Arabidopsis thaliana. 2001: Séquençage ("premier jet") complète du génome humain. 2006-2012 : reprogrammation génétique (cellule IPS) 1991: "Grail", programme performant pour localiser les gènes 1991: Étiquettes d'ADNc "EST" 1992: Séquençage complet du chromosome III de levure. 1995: Première séquence complète d'un micro- organisme 1996: Séquence complète de la levure 1997: Programme "Gapped Blast" 1997: 11 génomes bactériens disponibles. 1998: Séquençage du 1er organisme pluricellulaire, Caenorhabditis elegans (100 Mb).
  • 8.
    8 3. Etat del’art sur la bio- informatique Technologies et méthodes utilisées • Traitement d’une grande masse de données pour l’identification de l'organisation des gènes • La théorie des langages et l'algorithmique • Les réseaux de neurones • l’analyse discriminante • Méthode d’analyse des données Monte-Carlo , chaînes de Markov • Application : GENSCAN : un programme général de prédiction de séquences codantes à partir de séquences d’A.D.N. génomique ;  FASTA (Lipman, Pearson, 1985 ; Pearson, Lipman, 1988), servant à trouver des séquences dans des bases de données et à identifier des structures périodiques basées sur des similarités de séquences locales ;  BLAST (Altschul, Gish et al., 1990), as permet de comparer des séquences données à des séquences connues. Bio- informatique de séquences
  • 9.
    9 3. Etat del’art sur la bio- informatique Technologies et méthodes utilisées • La prédiction des structures tridimensionnelles des (macro-)molécules biologiques, comme par exemple l’A.D.N., l’A.R.N., les protéines ou encore les morphogènes ou hormones • La géométrie « computationnelle » , l’algorithmique afin de développer les protocoles efficaces pour l’analyse des données • Application et études :  Développement parallèle des méthodes de géométrie des distances (Moré, Wu, 1999 ; Liberti, Lavor et al., 2008) et d’optimisation (Cutello, Narzisi, 2006). Etude de repliement de l’ARN d’une structure primaire vers une structure secondaire. Visualisation et la manipulation des séquences issues des bases de données, la prédiction des caractéristiques de repliement des structures primaires menant à la compréhension de leurs structures secondaires et tertiaires.  Application du aspects de la combinatoire analytique. Bio- informatique de structure
  • 10.
    10 3. Etat del’art sur la bio- informatique Technologies et méthodes utilisées • Interactions des régulations génétiques • Application et étude : • Régulations génétiques fonctionnelles : l’opéron lactose de la bactérie Escherichia Coli par Jacob et Monod, qui permet notamment de comprendre les échanges de gènes entre bactéries. • Représentions formelle sous forme de réseau, permettant d’expliquer le « système lactose » ( JACOB & MONOD ,prix de Nobel 1965 ) Bio- informatique des réseaux
  • 11.
    11 3. Etat del’art sur la bio- informatique Technologies et méthodes utilisées • La masse de données accumulée en biologie depuis des décennies • Stockage & organisation • Aspect syntaxique du traitement des données et aspect sémantique du traitement • Technologies et concepts : Base de données Datamining Algorithmique, l’apprentissage automatique et statistique, la représentation (visualisation) des connaissances... Traitement de l’information biologique
  • 12.
    12 IV. Problématiques résolues, d’actualité L'analyse, la compréhension et l'organisation d'une masse de données biologiques  Décodage l’information contenue dans les séquences d’ADN et de protéine  Génomique structurale et fonctionnelle  L’acquisition et le stockage des données  Traitements systématiques des séquences  Elaboration de stratégies  Evaluation des différentes approches existantes dans le but de les valider
  • 13.
    13 V. Challenges dela recherche Biologie • Dépendance vs contingence historique • Problèmes complexes à modéliser et à résoudre • Ethique Nature des données • Fragmentée • Incomplète • Bruitée • Redondante (structure de l’ADN • Insignifiance Exigences générales des programmes informatiques • Efficacité • Sécurité • Fiabilité • Mise à l’échelle • IHM • Réseau pour le partage
  • 14.
    14 VI. Solutions envisagées Outilsdu Big Data Web sémantique & ontologies Data mining Principes Evolutionnaires Intelligence Artificielle
  • 15.
    15 Conclusion et perspectives Transdisciplinarité Révolutionbiologique Approches différentes, réflexion/modélisation commune Capitalisation de connaissances informatiques Reprogrammation génétique vs clonage Implication de la médecine publique, écologie …etc.
  • 16.
    Est-ce juste unequestion de performances ? Manipule-t-on les bonnes données ? Toutes les réponses se trouvent-elles ici ? Vers une plus grande pluridisciplinarité
  • 17.
    17 Bibliographie 1. Barlovatz-meimon, G.,& Sené, S. (2012). Méthodes informatiques en biologie, 2018. 2. Cohen, J. (2004). Bioinformatics---an introduction for computer scientists. ACM Computing Surveys, 36(2), 122–158. https://doi.org/10.1145/1031120.1031122 3. Lesk, A. (2013). Introduction to bioinformatics. BOOK, Oxford University Press. 4. El-mabrouk, N. (n.d.). Introduction à la Bio-Informatique IFT3295/IFT6291/BIN6000. 5. Ohn C. Wooley and Herbert S. Lin Computing and biology ISBN: 0-309-54937-X, 468 pages, 8 1/2 x 11, (2005) .
  • 18.
    18 Crédits photos 1. Slide7 : « Modifier l'ADN : une réalité possible, pour le meilleur... et pour le pire ? » - TOP- Santé.COM (22/04/2015) 2. Slide 4, 13 : freepik 3. Slide 3 : El-mabrouk, N. (n.d.). Introduction à la Bio-Informatique IFT3295/IFT6291/BIN6000
  • 19.
    19 Annexe (1) :taille des données Croissance exponentielle des séquences de nucléotides et d’AA dans les banques de données biologiques : • 10.640.515 protéines • Présentement dans RefSeq (NCBI): o Plus de 1200 génomes de procaryotes et 460 génomes o 10.728 espèces d’eucaryotes complètement séquencés.
  • 20.
    20 Annexe (2) :banques de données • RefSeq (NCBI), • NAR (Nucleids Acid Research), • ACNUC, • PIR, • EMBL, • GenBank.
  • 21.
    21 Technologies et méthodesutilisées(2) Techniques de conception d’algorithmes • Brute force • Branch & Bound • Greedy Rules • Dynamic Programming • Divide & conquer • Machine learning Comparer des séquences Suppression Insertion Remplacement DAG Dynamic Programming Phylogénétique Arbres Groupement par similarité Raisonnement sur évolution Détection de patterns (schémas) Recherche de gènes dans l’ADN ML Réseaux de neurones Grammaire probabilistique HMM THL, Chomsky grammars Déterminer les structures 3D des protéines depuis les séquences d’AA Algorithmes à complexité cubique, non résolu Inférer le modèle de régulation des cellules Données expérimentales Microarrays Reverse engineering Autre Scripting langages Déterminer fonctions des protéines et chemins métaboliques Assemblage d’ADN Annexe (3)
  • 22.
    22 4. De plusgrandes ambitions (3) Annexe (4): Bio- informatique • Comprendre la biologie des organismes dans toute sa complexité. • Relier les séquences et structures complexes des protéines et acides nucléiques à leur fonction • Expliquer des phénomènes passés et prédire l’évolution future des espèces • Supporter des applications en médecine, agriculture et autres champs de recherche.

Notes de l'éditeur

  • #2 Bonjour à tous, Dans le cadre du module d’IMR ma binome et moi nous ferons un plaisir de partager avec vous la synthèse de notre recherche sur le thème de la bio-inforamtique et ses applications
  • #3 Pour commencer, nous présenterons le contexte puis la discipline de quoi il s’agit, comment ça a évolué, les thématiques résolues et ouvertes ainsi que les challenges rencontrées avec leurs solutions. Nous terminerons par une conclusion et des perspectives.
  • #4 L’être humain est constitué de tissus à base de cellules, qui sont de véritables usines métaboliques. 100 Milliard cellules contenant dans leur noyaux l’ADN. (600 fois vers le soleil aller-retour) L’ADN représente une suite de gènes dont certains servent à coder des séquences d’AA qui vont ensuite se replier en protéines ayant une structure 3D et responsables d’une fonction particulière. L’ADN humain peut etre codé avec 4 symboles ACGT (qui sont les nucléotides)  livre de 1000 volumes => difficile à comprendre et à décoder Ce qui suscite une manne de problèmes mathématiques, statistiques, algorithmiques, combinatoires au carrefour desquelles se retrouve la bio-informatique Exemple motivant: La bio-informatique est utilisée en plusieurs contextes: suspect mais pas de preuves (comparaison d’ADN) , global database, comprendre le génome du mammouth
  • #7 Computa- tional biologists take justified pride in the formal aspects of their work. Those often involve proofs of algorithmic correctness, complexity estimates, and other themes that are central to theoretical computer science. Définir un modèle d’évolution; ( séquence) Formaliser le problème; Étudier la complexité théorique du problème; Développer des algorithmes permettant de le résoudre; S’il y a lieu, prouver l’exactitude de l’algorithme Tester l’efficacité de l’algorithme sur des données simulées; L’appliquer à des données biologiques
  • #9 es suites de nucléotides sont perçues comme des mots appartenant au « langage génétique » défini sur l'alphabet {A., C., G., T.} dont il faut décider s'ils correspondent ou non à des gènes (Hopcroft, Ullman, 1979). Pour déterminer si une séquence est codante, on peut utiliser des outils informatiques de prédiction capables d'identifier un gène selon plusieurs critères
  • #11  Ces réseaux sont alors des objets mathématiques complexes, à savoir des graphes d’interaction, qui permettent d’approximer la réalité biologique en se libérant d’un certain nombre de paramètres (dont la prise en compte entraînerait une complexité qui rendrait toute analyse irréalisable) tout en en conservant l’essence. Les graphes d’interaction résultant modélisent alors l’aspect statique des régulations qui peut être étudié pour lui-même et qui possède généralement un caractère dynamique qui, luimême, peut également être analysé par des méthodes largement développées depuis longtemps aussi bien en informatique qu’en mathématiques. L’utilité pour la biologie vient de cette modélisation, à l’origine de la simplification analytique des lois du vivant permettant d’acquérir les conditions nécessaires (mais généralement non suffisantes) pour en comprendre le fonctionnement.
  • #12 Nous ne pouvons pas raisonnablement parler de bio-informatique sans évoquer le traitement de l’information Ce défi est d’autant plus important que l’accroissement des données se poursuit exponentiellement. Heureusement, indépendamment de la biologie et de la bio-informatique, la science informatique s’intéresse depuis longtemps aux différentes questions liées au traitement de l’information. En particulier, de nombreuses recherches ont vu le jour autour de questions ayant trait au bases de données et du data mining. Ici, nous n’allons pas insister sur les bases de données car les méthodes mises en œuvre sont purement informatiques et ne dépendent aucunement de la nature des données à traiter. À titre d’information cependant, les bases de données couramment utilisées à ce jour sont des bases de données relationnelles dont les fondements ont été introduits par Codd (Codd, 1970). l’algorithmique, l’apprentissage automatique et statistique, la représentation (visualisation) des connaissances..., il représente le processus qui vise à extraire de la connaissance, ou plus précisément des motifs intéressants (non triviaux et généralement implicites), à partir de grands volumes de données « brutes ». Le processus de data mining peut être séparé en deux phases : la première concerne la préparation des données et vise à collecter, nettoyer, intégrer, transformer et filtrer les données pertinentes pour le problème posé, la seconde consiste quant à elle à explorer les données ainsi préparées en vue de leur analyse, qui s’oriente a posteriori vers la prédiction de modèles spécifiques de systèmes biologiques réels (Chen, Lonardi, 2009 ; Hall, Frank et al., 2009), qui peuvent être des modèles de structures d’A.R.N., de réseaux... Bien sûr, comme nous l’avons dit, le développement des méthodes de traitement des données est sans aucun doute essentiel à celui de la bio-informatique moderne, que cette dernière soit vue dans n’importe laquelle des formes qu’elle peut revêtir et qui ont été développées plus haut. Toutefois, le traitement des données est un thème de recherche à part entière, qui ne dépend pas dans ses aspects fondamentaux de la nature des données elles-mêmes mais de leur forme. C’est pourquoi nous n’allons pas le détailler plus avant dans ce chap
  • #13 1. Given a sequence, or fragment of a sequence, find sequences in the database that are similar to it. This is a central problem in bioinformatics. We share such string-matching problems with many fields of computer science. For instance, word processing and editing programs support string-search functions. 2. Given a protein structure, or fragment, find protein structures in the database that are similar to it. This is the generalization of the string matching problem to three dimensions. 3. Given a sequence of a protein of unknown structure, find structures in the database that adopt similar three-dimensional structures. One is tempted to cheat - to look in the sequence data banks for proteins with sequences similar to the probe sequence: For if two proteins have sufficiently similar sequences, they will have similar structures. However, the converse is not true, and one can hope to create more powerful search techniques that will find proteins of similar structure even though their sequences have diverged beyond the point where they can be recognized as similar by sequence comparison. 4. Given a protein structure, find sequences in the data bank that correspond to similar structures. Again, one can cheat by using the structure to probe a structure data bank, but this can give only limited success because there are so many more sequences known than structures. It is, therefore, desirable to have a method that can pick out the structure from the sequence. (1) and (2) are solved problems; such searches are carried out thousands of times a day. (3) and (4) are active fields of research.
  • #14 Nombre de cellules/genes/protéines gaspillées pour arriver au bon résultat
  • #15 Pro- viding ancillary tools allowing researchers to compare carefully the relationship be- tween new data and data that has been validated by experiments. With the help of evolutionary principles, that informa- tion can be extrapolated to other species La nécessité en bioinformatique de recourir à un nombre toujours croissant (plusieurs milliers aujourd'hui)d'outilsdisponiblessurleWebetdebanquesdedonnéesgénomiques-elles-mêmestoujours plus volumineuses-, rend urgent le besoin d'aider l'utilisateur par des procédures automatiques ; ontologies
  • #16 Trasdisciplinarité = Ne pas attendre ni proposer la « solution à tout », mais plutôt, valider une hypothèse, mieux comprendre les règles de base et l'essence des systèmes, aboutir à une simulation qui fait apparaître un comportement inédit, une courbe de comportement, ou encore, inscrire dans une logique inattendue, les résultats expérimentaux
  • #17 Les gènes contiennent des enregistrements de l’histoire de la vie sur Terre. On ignore si l’humain arrivera un jour à cette vérité absolue sur l’histoire de la vie sur Terre. Mais une chose est sure si cela venait à arriver l’informatique aura sa part de mérite.
  • #22 Other2 : e. The objective here is to interpret human annotations for protein function and also to develop databases representing graphs that can be queried for the existence of nodes (speci- fying reactions) and paths (specifying se- quences Other3 : The tricky part of that assemblage is thatDNA has many repetitive regions and the same fragment may belong to different regions. Other 1! Many of the above applications are already avail- able in websites. Their usage requires scripting that provides data for an appli- cation, receives it back, and then analyzes it.