SlideShare une entreprise Scribd logo
1  sur  20
Qu’est-ce que la Bio-Informatique?
Champs multi-disciplinaire qui utilise des méthodes informatiques
(mathématiques, statistiques, combinatoires…) pour résoudre un
problème biologique :
 Formaliser des problèmes de biologie moléculaire;
 Développer des outils formels;
 Analyser les données;
 Prédire des résultats biologiques;
 Organiser les données.
Discipline relativement nouvelle, qui évolue en fonction des
nouveaux problèmes posés par la biologie moléculaire.
Distinguer deux termes:
« Bioinformatics »
Analyse "in silico" de l'information biologique contenue
dans les séquences nucléiques et protéiques
Biologie
Informatique Mathématiques Statistiques
« Computational biology »
Ensemble de méthodes et de logiciels qui permettent de
gérer, manipuler, traiter et analyser les données
biologiques:
 La bioinformatique met en jeu plusieurs champs
disciplinaires :
La Bio-Informatique s’applique à tout type de données biologiques, en
particulier moléculaires :
 Les séquences d’ADN et de protéines
 Les structures d’ARN et de protéines
 Les contenus en gènes des génomes
 Les puces à ADN (microarrays)
 Les réseaux d’interactions entre protéines
 Les réseaux métaboliques
 Les arbres de phylogénie
Utilités :
 Faire avancer les connaissances en biologie, en génétique humaine, en
théorie de l’évolution…
 Aider à la conception de médicaments
 Comprendre les maladies complexes..
Une évolution
Activité
biologique
Études
biochimiques
Séquence
protéique
Gène GATTACA
Une évolution
Activité
biologique
Études
biochimiques
Séquence
protéique
Gène
ANALYSES DE SEQUENCES
GATTACA
Défis de la biologie moléculaire
Analyser, comprendre et organiser une masse de
données biologiques:
 Plus de 200 génomes complètement séquencés et
publiés, dont l’homme (23 paires de chros.) et la souris
(20 paires de chro.)
 Projet HapMap du génome humain: Construction de
la carte des haplotypes
 Projets de séquençage de plus de 500 procaryotes et
400 eucaryotes
Défis de la biologie moléculaire
 Décoder l’information contenue dans les séquences d’ADN et de
protéines
 Trouver les gènes
 Différencier entre introns et exons
 Analyser les répétitions dans l’ADN
 Identifier les sites des facteurs de transcription
 Étudier l’évolution des génomes
 Génomique structurale:
 Modéliser les structures 3D des protéines et des ARN structurels
 Déterminer la relation entre structure et fonction
 Génomique fonctionnelle
 Étudier la régulation des gènes
 Déterminer les réseaux d’interaction entre les protéines
Une histoire
Début de la micro-informatique
Banques de données (EMBL, GENBANK)
~1980
Apparition des logiciels d’alignement (FASTA et BLAST)
Développement de l’Internet et des réseaux
~1990
Projets de séquençage de génomes complets
Séquençage du génome humain (Première ébauche)
~2000
Algorithme de comparaison de séquences (Needleman)
Première banque de séquences protéiques (PIR)
< 1980
Qu’est-ce qu’une banque de données ?
 Ensemble de données relatives à un domaine,
organisées par traitement informatique, accessibles en
ligne et à distance
 Souvent, les données sont stockées sous la forme d’un
fichier texte formaté (respectant une disposition
particulière)
 Besoin de développer des logiciels spécifiques pour
interroger les données contenues dans ces banques
Les banques de données généralistes
 Ces banques contiennent des données hétérogènes
 Collecte la plus exhaustive possible
 Banques de séquences nucléiques
 Banques de séquences protéiques
 Banques de structure 3D de macromolécules
 Banques d’articles scientifiques
 Avantage : tout est consultable en une fois
 Inconvénients : difficiles à maintenir, difficiles à
interroger
Les banques de données spécialisées
 Ces banques contiennent des données homogènes
 Collecte établie autour d’une thématique particulière
 Avantages : facilité pour mettre à jour les données,
vérifier leur intégrité, offrir une interface adaptée, …
 Inconvénients : ne cible pas toujours ce que l’on veut;
toutes les banques possibles n’existent pas
 Exemples : banques spécialisées pour un génome,
banques de séquences d'immunologies, banques sur
des séquences validées, …
Les banques de séquences nucléiques
 Origine des données :
 Séquençage d’ADN et d’ARN
 Les données stockées : séquences + annotations
 Fragments de génomes
 Un ou plusieurs gènes, un bout de gène, séquence intergénique, …
 Génomes complets
 ARNm, ARNt, ARNr, … (fragments ou entiers)
 [ Note 1] : toutes les séquences (ADN ou ARN) sont écrites
avec des T
 [ Note 2] : les séquences sont toujours orientées 5’ vers 3’.
Les banques de séquences protéiques
 Origine des données
 Traduction de séquences d’ADN
 Séquençage de protéines
 Rare car long et coûteux
 Protéines dont la structure 3D est connue
 Les données stockées : séquences + annotations
 Protéines entières
 Fragments de protéines
 Contient
 Journaux concernant la biologie et la médecine
 Articles indexés par des experts à l’aide des termes MeSH
 Termes MeSH : vocabulaire contrôlé de termes biomédicaux et de
molécules chimiques
 Hiérarchisé
 Dictionnaire de synonymes
 19.000 termes médicaux, 103.500 termes chimiques
 Subheadings : sous-titres qui décrivent un aspect particulier des
termes MeSH
 Mis à jour régulièrement
Une Banque bibliographique, PubMed
Les bases de données bioinformatiques les plus
utilisées
 NCBI, National Center for Biotechnology Information
 GenBank: Séquences d’ADN (3 billion de paires de bases)
 Site officiel de BLAST
 PubMed: Permet la recherche de références
 COGs: Familles de gènes orthologues …
 EMBL, The European Molecular Biology Laboratory
 ExPASy, Expert Protein Analysis System, Protéomique
 Swiss-Prot: Séquences de protéines
 PROSITE: Domaines et familles de protéines
 SWISS-MODEL: Outil de prédiction 3D de protéines
 Différents outils de recherche
 PDB, Protein Data Bank
 Base de données de structures 3D de protéines
 Visualisation et manipulation de structures
 SCOP, Structural Classification of Proteins
Entrez au NCBI
Entrez
PopSet
Structure
PubMed
Books
3D Domains
Taxonomy
GEO/GDS
UniGene
Nucleotide
Protein Genome
OMIM
CDD/CDART
Journals
SNP
UniSTS
PubMed Central
Gene
HomoloGene
BioAssays
Compounds
Substances

Contenu connexe

Plus de Ammr2 (9)

bioinfo_00-introduction.ppt
bioinfo_00-introduction.pptbioinfo_00-introduction.ppt
bioinfo_00-introduction.ppt
 
176539.ppt
176539.ppt176539.ppt
176539.ppt
 
cours_2_alignement_2022.pptx
cours_2_alignement_2022.pptxcours_2_alignement_2022.pptx
cours_2_alignement_2022.pptx
 
Session_B2_Fillion.ppt
Session_B2_Fillion.pptSession_B2_Fillion.ppt
Session_B2_Fillion.ppt
 
SDPV31306.ppt
SDPV31306.pptSDPV31306.ppt
SDPV31306.ppt
 
12_pv.ppt
12_pv.ppt12_pv.ppt
12_pv.ppt
 
911200007162525.ppt
911200007162525.ppt911200007162525.ppt
911200007162525.ppt
 
algèbre de boole.pdf
algèbre de boole.pdfalgèbre de boole.pdf
algèbre de boole.pdf
 
Structure Machine 2-2020.pdf
Structure Machine 2-2020.pdfStructure Machine 2-2020.pdf
Structure Machine 2-2020.pdf
 

Dernier

Copie de Engineering Software Marketing Plan by Slidesgo.pptx.pptx
Copie de Engineering Software Marketing Plan by Slidesgo.pptx.pptxCopie de Engineering Software Marketing Plan by Slidesgo.pptx.pptx
Copie de Engineering Software Marketing Plan by Slidesgo.pptx.pptx
ikospam0
 
L'ÉVOLUTION DE L'ÉDUCATION AU BRÉSIL À TRAVERS L'HISTOIRE ET LES EXIGENCES DE...
L'ÉVOLUTION DE L'ÉDUCATION AU BRÉSIL À TRAVERS L'HISTOIRE ET LES EXIGENCES DE...L'ÉVOLUTION DE L'ÉDUCATION AU BRÉSIL À TRAVERS L'HISTOIRE ET LES EXIGENCES DE...
L'ÉVOLUTION DE L'ÉDUCATION AU BRÉSIL À TRAVERS L'HISTOIRE ET LES EXIGENCES DE...
Faga1939
 
Cours Préparation à l’ISO 27001 version 2022.pdf
Cours Préparation à l’ISO 27001 version 2022.pdfCours Préparation à l’ISO 27001 version 2022.pdf
Cours Préparation à l’ISO 27001 version 2022.pdf
ssuserc72852
 
Bilan énergétique des chambres froides.pdf
Bilan énergétique des chambres froides.pdfBilan énergétique des chambres froides.pdf
Bilan énergétique des chambres froides.pdf
AmgdoulHatim
 

Dernier (18)

Computer Parts in French - Les parties de l'ordinateur.pptx
Computer Parts in French - Les parties de l'ordinateur.pptxComputer Parts in French - Les parties de l'ordinateur.pptx
Computer Parts in French - Les parties de l'ordinateur.pptx
 
La nouvelle femme . pptx Film français
La   nouvelle   femme  . pptx  Film françaisLa   nouvelle   femme  . pptx  Film français
La nouvelle femme . pptx Film français
 
Conférence Sommet de la formation 2024 : Développer des compétences pour la m...
Conférence Sommet de la formation 2024 : Développer des compétences pour la m...Conférence Sommet de la formation 2024 : Développer des compétences pour la m...
Conférence Sommet de la formation 2024 : Développer des compétences pour la m...
 
Sidonie au Japon . pptx Un film français
Sidonie    au   Japon  .  pptx  Un film françaisSidonie    au   Japon  .  pptx  Un film français
Sidonie au Japon . pptx Un film français
 
Les roches magmatique géodynamique interne.pptx
Les roches magmatique géodynamique interne.pptxLes roches magmatique géodynamique interne.pptx
Les roches magmatique géodynamique interne.pptx
 
Copie de Engineering Software Marketing Plan by Slidesgo.pptx.pptx
Copie de Engineering Software Marketing Plan by Slidesgo.pptx.pptxCopie de Engineering Software Marketing Plan by Slidesgo.pptx.pptx
Copie de Engineering Software Marketing Plan by Slidesgo.pptx.pptx
 
Formation qhse - GIASE saqit_105135.pptx
Formation qhse - GIASE saqit_105135.pptxFormation qhse - GIASE saqit_105135.pptx
Formation qhse - GIASE saqit_105135.pptx
 
GIÁO ÁN DẠY THÊM (KẾ HOẠCH BÀI DẠY BUỔI 2) - TIẾNG ANH 6, 7 GLOBAL SUCCESS (2...
GIÁO ÁN DẠY THÊM (KẾ HOẠCH BÀI DẠY BUỔI 2) - TIẾNG ANH 6, 7 GLOBAL SUCCESS (2...GIÁO ÁN DẠY THÊM (KẾ HOẠCH BÀI DẠY BUỔI 2) - TIẾNG ANH 6, 7 GLOBAL SUCCESS (2...
GIÁO ÁN DẠY THÊM (KẾ HOẠCH BÀI DẠY BUỔI 2) - TIẾNG ANH 6, 7 GLOBAL SUCCESS (2...
 
L'ÉVOLUTION DE L'ÉDUCATION AU BRÉSIL À TRAVERS L'HISTOIRE ET LES EXIGENCES DE...
L'ÉVOLUTION DE L'ÉDUCATION AU BRÉSIL À TRAVERS L'HISTOIRE ET LES EXIGENCES DE...L'ÉVOLUTION DE L'ÉDUCATION AU BRÉSIL À TRAVERS L'HISTOIRE ET LES EXIGENCES DE...
L'ÉVOLUTION DE L'ÉDUCATION AU BRÉSIL À TRAVERS L'HISTOIRE ET LES EXIGENCES DE...
 
Cours Préparation à l’ISO 27001 version 2022.pdf
Cours Préparation à l’ISO 27001 version 2022.pdfCours Préparation à l’ISO 27001 version 2022.pdf
Cours Préparation à l’ISO 27001 version 2022.pdf
 
Boléro. pptx Film français réalisé par une femme.
Boléro.  pptx   Film   français   réalisé  par une  femme.Boléro.  pptx   Film   français   réalisé  par une  femme.
Boléro. pptx Film français réalisé par une femme.
 
Apolonia, Apolonia.pptx Film documentaire
Apolonia, Apolonia.pptx         Film documentaireApolonia, Apolonia.pptx         Film documentaire
Apolonia, Apolonia.pptx Film documentaire
 
Chapitre 2 du cours de JavaScript. Bon Cours
Chapitre 2 du cours de JavaScript. Bon CoursChapitre 2 du cours de JavaScript. Bon Cours
Chapitre 2 du cours de JavaScript. Bon Cours
 
COURS SVT 3 EME ANNEE COLLEGE 2EME SEM.pdf
COURS SVT 3 EME ANNEE COLLEGE 2EME SEM.pdfCOURS SVT 3 EME ANNEE COLLEGE 2EME SEM.pdf
COURS SVT 3 EME ANNEE COLLEGE 2EME SEM.pdf
 
Formation échiquéenne jwhyCHESS, parallèle avec la planification de projet
Formation échiquéenne jwhyCHESS, parallèle avec la planification de projetFormation échiquéenne jwhyCHESS, parallèle avec la planification de projet
Formation échiquéenne jwhyCHESS, parallèle avec la planification de projet
 
Cours ofppt du Trade-Marketing-Présentation.pdf
Cours ofppt du Trade-Marketing-Présentation.pdfCours ofppt du Trade-Marketing-Présentation.pdf
Cours ofppt du Trade-Marketing-Présentation.pdf
 
Bilan énergétique des chambres froides.pdf
Bilan énergétique des chambres froides.pdfBilan énergétique des chambres froides.pdf
Bilan énergétique des chambres froides.pdf
 
L application de la physique classique dans le golf.pptx
L application de la physique classique dans le golf.pptxL application de la physique classique dans le golf.pptx
L application de la physique classique dans le golf.pptx
 

Cour1 BioInfo(Ait-Ali).pptx

  • 1.
  • 2. Qu’est-ce que la Bio-Informatique? Champs multi-disciplinaire qui utilise des méthodes informatiques (mathématiques, statistiques, combinatoires…) pour résoudre un problème biologique :  Formaliser des problèmes de biologie moléculaire;  Développer des outils formels;  Analyser les données;  Prédire des résultats biologiques;  Organiser les données. Discipline relativement nouvelle, qui évolue en fonction des nouveaux problèmes posés par la biologie moléculaire.
  • 3.
  • 4. Distinguer deux termes: « Bioinformatics » Analyse "in silico" de l'information biologique contenue dans les séquences nucléiques et protéiques Biologie Informatique Mathématiques Statistiques « Computational biology » Ensemble de méthodes et de logiciels qui permettent de gérer, manipuler, traiter et analyser les données biologiques:  La bioinformatique met en jeu plusieurs champs disciplinaires :
  • 5.
  • 6.
  • 7. La Bio-Informatique s’applique à tout type de données biologiques, en particulier moléculaires :  Les séquences d’ADN et de protéines  Les structures d’ARN et de protéines  Les contenus en gènes des génomes  Les puces à ADN (microarrays)  Les réseaux d’interactions entre protéines  Les réseaux métaboliques  Les arbres de phylogénie Utilités :  Faire avancer les connaissances en biologie, en génétique humaine, en théorie de l’évolution…  Aider à la conception de médicaments  Comprendre les maladies complexes..
  • 10. Défis de la biologie moléculaire Analyser, comprendre et organiser une masse de données biologiques:  Plus de 200 génomes complètement séquencés et publiés, dont l’homme (23 paires de chros.) et la souris (20 paires de chro.)  Projet HapMap du génome humain: Construction de la carte des haplotypes  Projets de séquençage de plus de 500 procaryotes et 400 eucaryotes
  • 11. Défis de la biologie moléculaire  Décoder l’information contenue dans les séquences d’ADN et de protéines  Trouver les gènes  Différencier entre introns et exons  Analyser les répétitions dans l’ADN  Identifier les sites des facteurs de transcription  Étudier l’évolution des génomes  Génomique structurale:  Modéliser les structures 3D des protéines et des ARN structurels  Déterminer la relation entre structure et fonction  Génomique fonctionnelle  Étudier la régulation des gènes  Déterminer les réseaux d’interaction entre les protéines
  • 12. Une histoire Début de la micro-informatique Banques de données (EMBL, GENBANK) ~1980 Apparition des logiciels d’alignement (FASTA et BLAST) Développement de l’Internet et des réseaux ~1990 Projets de séquençage de génomes complets Séquençage du génome humain (Première ébauche) ~2000 Algorithme de comparaison de séquences (Needleman) Première banque de séquences protéiques (PIR) < 1980
  • 13. Qu’est-ce qu’une banque de données ?  Ensemble de données relatives à un domaine, organisées par traitement informatique, accessibles en ligne et à distance  Souvent, les données sont stockées sous la forme d’un fichier texte formaté (respectant une disposition particulière)  Besoin de développer des logiciels spécifiques pour interroger les données contenues dans ces banques
  • 14. Les banques de données généralistes  Ces banques contiennent des données hétérogènes  Collecte la plus exhaustive possible  Banques de séquences nucléiques  Banques de séquences protéiques  Banques de structure 3D de macromolécules  Banques d’articles scientifiques  Avantage : tout est consultable en une fois  Inconvénients : difficiles à maintenir, difficiles à interroger
  • 15. Les banques de données spécialisées  Ces banques contiennent des données homogènes  Collecte établie autour d’une thématique particulière  Avantages : facilité pour mettre à jour les données, vérifier leur intégrité, offrir une interface adaptée, …  Inconvénients : ne cible pas toujours ce que l’on veut; toutes les banques possibles n’existent pas  Exemples : banques spécialisées pour un génome, banques de séquences d'immunologies, banques sur des séquences validées, …
  • 16. Les banques de séquences nucléiques  Origine des données :  Séquençage d’ADN et d’ARN  Les données stockées : séquences + annotations  Fragments de génomes  Un ou plusieurs gènes, un bout de gène, séquence intergénique, …  Génomes complets  ARNm, ARNt, ARNr, … (fragments ou entiers)  [ Note 1] : toutes les séquences (ADN ou ARN) sont écrites avec des T  [ Note 2] : les séquences sont toujours orientées 5’ vers 3’.
  • 17. Les banques de séquences protéiques  Origine des données  Traduction de séquences d’ADN  Séquençage de protéines  Rare car long et coûteux  Protéines dont la structure 3D est connue  Les données stockées : séquences + annotations  Protéines entières  Fragments de protéines
  • 18.  Contient  Journaux concernant la biologie et la médecine  Articles indexés par des experts à l’aide des termes MeSH  Termes MeSH : vocabulaire contrôlé de termes biomédicaux et de molécules chimiques  Hiérarchisé  Dictionnaire de synonymes  19.000 termes médicaux, 103.500 termes chimiques  Subheadings : sous-titres qui décrivent un aspect particulier des termes MeSH  Mis à jour régulièrement Une Banque bibliographique, PubMed
  • 19. Les bases de données bioinformatiques les plus utilisées  NCBI, National Center for Biotechnology Information  GenBank: Séquences d’ADN (3 billion de paires de bases)  Site officiel de BLAST  PubMed: Permet la recherche de références  COGs: Familles de gènes orthologues …  EMBL, The European Molecular Biology Laboratory  ExPASy, Expert Protein Analysis System, Protéomique  Swiss-Prot: Séquences de protéines  PROSITE: Domaines et familles de protéines  SWISS-MODEL: Outil de prédiction 3D de protéines  Différents outils de recherche  PDB, Protein Data Bank  Base de données de structures 3D de protéines  Visualisation et manipulation de structures  SCOP, Structural Classification of Proteins
  • 20. Entrez au NCBI Entrez PopSet Structure PubMed Books 3D Domains Taxonomy GEO/GDS UniGene Nucleotide Protein Genome OMIM CDD/CDART Journals SNP UniSTS PubMed Central Gene HomoloGene BioAssays Compounds Substances

Notes de l'éditeur

  1. Deux séquences génétiques homologues de deux espèces différentes sont orthologues si elles descendent d'une séquence unique présente dans le dernier ancêtre commun aux deux espèces