Ce diaporama a bien été signalé.
Le téléchargement de votre SlideShare est en cours. ×

Databases for Bioinformatics

Publicité
Publicité
Publicité
Publicité
Publicité
Publicité
Publicité
Publicité
Publicité
Publicité
Publicité
Publicité
Chargement dans…3
×

Consultez-les par la suite

1 sur 47 Publicité

Plus De Contenu Connexe

Similaire à Databases for Bioinformatics (20)

Plus récents (20)

Publicité

Databases for Bioinformatics

  1. 1. Base de Données en Bioinformatique Karim Mezhoud kmezhoud@gmail.com Centre National des Sciences et Technologies Nucléaires CNTSN 1
  2. 2. Historique: Bases de données en Bioinformatique • La première fonction qu’a eu la Bioinformatique au cours des années 80 est la gestion des données générer à partir des expérimentations en biologie, médecine et en pharmacie. • Les année 80 sont aussi la période où les technologies et les appareillages en biologie ont commencé leurs développement comme la cristallographie, résonance magnétique nucléaire, spectrométrie de mass… • A un moment donnée, il a fallu trouver les moyens pour stocker, traiter, organiser et même pour la suite offrir les outils pour consulter, analyser et interpréter les données. 2Expérimentation Stockage
  3. 3. Avant le web • Avant la technologie du WEB (world Wide Web), la communication entre les ordinateurs était locale. • C.à.d. il y avait un clavier et consol (écran) reliés par câble au serveur (disque dur) • Le serveur devrait être équipé de tous les hardwares et softwares nécessaires. • Les banques de données ne pouvaient pas être consultées à distance. • Manque de disponibilité des données à la communauté scientifique pour participer au traitement des données. • La photo à droite montre un ordinateur des années 80. Il n'y avait pas ni interface graphique, ni souris. • Cette photo montre un serveur de capacité 2.5 GB des années 80. • Aujourd’hui un simple clé USB peut contenir 64 GB. 3 Réseau local Ordinateur des années 80 Disque dure des années 80 3
  4. 4. Architecture d’un réseau Internet • L’arrivée des interfaces graphiques des systèmes d'exploita<on et des logiciels (WYSIWYG : What You See Is What You Get), et du réseau ont profondément modifié la communica<on dans le monde. • La Bioinforma<que été l’un des domaines qui a profité de ces technologies pour se développer. • En Tunisie, on commence, à peine, à voir conscience de cela. • Le réseau local est composé de plusieurs ordinateurs reliés par des câbles, • Ou bien sans fils (wifi, Bluetooth, Infrarouge). • Aujourd’hui on peut configurer une imprimante sans fil. • Entre le réseau et le réseau externe il y a ce qu’on appelle le PROXY. • C’est matériel informa<que qui permet de gérer les flux d’entrée et de sor<e. • C’est un moyen de sécurité, contrôler, filtrer les informa<ons transmises. 4
  5. 5. Architecture Clients - Serveur • La navigation sur le web est un système de communication basé sur l’architecture "client-serveur". • Un internaute connecté avec son ordinateur et un navigateur web (Firefox, chrome) joue le rôle d'un « Client » . Alors que les pages demandées sont fournies par des programmes installés sur un ordinateur lointain jouera le rôle d'une « Serveur ». • Le navigateur web est l’application installé chez le client et qui exploite les services fournis par le serveur. • La communication entre l'ordinateur "client" et l'ordinateur "serveur" se fait en général avec le protocole "HTTP" (HyperText Transfer Protocol). C’est la dernière génération d’échange d’information sous le format HTML (HyperText Markup Langage), contenant du texte, des images et des liens URL (Uniform Resource Locator) vers d’autres serveur/services URL = protocole://adresse IP : port/référence locale Exemple : HTTP://192.156.43.1:8080/répertoire Indiquer le port est une option 5
  6. 6. Architecture Clients - Serveur • Le client émet une requête vers le serveur grâce à son adresse et le port, qui désigne un service par9culier du serveur. • C'est toujours le client qui déclenche une demande de service. • Le serveur reçoit la demande et répond à l'aide de l'adresse de la machine client et son port. • Le serveur a@end passivement les requetés des clients (port d’écoute) et peut traiter plusieurs requêtes en même temps. • Par exemple, le numéro de port des services: • FTP : 21, • SMTP (email) : 25, • Web : 80 (défaut). 6
  7. 7. Format de fichier Fichier Texte structuré par des champs spécifiques avec une seule clé index comme entrée. 7
  8. 8. Format plat: simple texte structuré (.txt) 8
  9. 9. Format plat: ASN.1 9
  10. 10. Format plat: XML 10 PPBP GNAZ
  11. 11. Format plat: TAB (Tabulation, Tableau) 11
  12. 12. Format plat: TAB (Tabulation, Tableau) 90% 12 Une base de donnée est une collec1on de un ou plusieurs TABLEAUX Un tableau est une collec1on d'une ou plusieurs COLONNES Une colonne est une collec1on d'une ou plusieurs LIGNES Tableau 2Tableau 1 Tableau 3 Tableaux interconnectés = Format Relationnel = Format Structure
  13. 13. Ce Tableau a une structure à deux colonnes : • La première contient des DATE • La seconde contient des NOM de personne La première colonne est nommé : Discovery_Date La seconde colonne est nommé : Scientist Format plat: TAB (Tabula1on, Tableau) 90%
  14. 14. La colonne 1 n'accepte que des dates : type de donnée numérique La colonne 2 n'accepte que des nom : type de donnée alphabétique Format plat: TAB (Tabulation, Tableau) 90%
  15. 15. Supposons le tableau Discovery qui contient les détails des découvertes L'ajout d'une nouvelle colonne nécessite la mise à jour de la structure du tableau Tableau nommé Discovery
  16. 16. Supposons le tableau Discovery qui contient les détails des découvertes L'ajout de la nouvelle colonne nécessite la mise à jour de la structure du tableau Tableau nommé Discovery
  17. 17. Nous avons ajouté deux colonnes : date de naissance et N° Téléphone Remarques : Il y a des scientifiques qui ont le même nom de famille : Moorhouse Il y a un scientifique qui a deux découvertes : Moorhouse 1970-3-24 Mais si le tableau est plus grand !!
  18. 18. Nous avons ajouté deux colonnes : date de naissance et N° Téléphone Remarques : Il y a des scientifiques qui ont le même nom de famille : Moorhouse Il y a un scientifique qui a deux découvertes : Moorhouse 1970-3-24 Problèmes : 1. Si un scientifique fait plusieurs découvertes, ces informations personnelles seront introduites plusieurs fois : Cela en informatique consommes du temps et de mémoire 2. Pour faire la différence entre de scientifique de même nom il faut aller voir leurs dates de naissances ou bien leurs N° de tél : Cela n'est pas pratique 3. Si un scientifique change de N° de Tél il faut changer cela dans tous les lignes : Corvée Mais si le tableau est plus grand !!
  19. 19. Il faut que l'iden.fiant d'un scien.fique se trouve dans un seul endroit Tableau : Discovery Tableau : Scientists Résoudre les problèmes d'un seul Tableau
  20. 20. Il faut que l'identifiant d'un scientifique se trouve dans un seul endroit Tableau : Scientists Résoudre les problèmes d'un seul Tableau Cette technique qui relie des données d'un tableau 1 aux données d'un tableau 2 est la forme moderne des bases de données qui s'appelle : Relation Database Management Systems (RDBMS)
  21. 21. ● Personnel : Access, paradox, FileMaker, dBase ● Entreprise : InterBase, Ongres, DB2, Oracle ● Open source : PostgreSQL, MySQL Il est distribué sous une double licence GPL et propriétaire. Il fait par8e des logiciels de ges8on de base de données les plus u8lisés au monde1, autant par le grand public (applica8ons web principalement) que par des professionnels, en concurrence avec Oracle, Informix et MicrosoE SQL Server. Structured Query Language Les systèmes de base de données
  22. 22. Base de Donnée des Interactions physiques des protéines The International Molecular Exchange Consortium PSI-MI XML 2.5 Proteomics Standards Initiative Molecular Interaction XML/TAB Format PSI-MI TAB (MITAB25) http://www.imexconsortium.org/
  23. 23. PSI-MI XML 2.5 Exemple Make file with cytoscape !
  24. 24. PSI-MI TAB (MITAB25) • Unique identifier for interactor A : unique Accession from own database • Unique identifier for interactor B : unique Accession from own database • Alternative identifier for interactor A : Gene Symbol • Alternative identifier for interactor B. : Gene Symbol • Aliases for A : Multiple identifiers separated by "|" • Aliases for B : Multiple identifiers separated by "|" • Interaction detection methods • First author • Identifier of the publication • NCBI Taxonomy identifier for interactor A. • NCBI Taxonomy identifier for interactor B • Interaction types • Source databases • Interaction identifier(s) in the corresponding source database, represented by databaseName:identifier • Confidence score. https://code.google.com/archive/p/psimi/wikis/PsimiTabFormat.wiki
  25. 25. 25 Base de Donnée des Interac/ons physiques des protéines
  26. 26. http://www.pathguide.org/
  27. 27. KEGG: Kyoto Encyclopedia of Genes and Genomes
  28. 28. KEGG: Kyoto Encyclopedia of Genes and Genomes
  29. 29. h"p://www.wikipathways.org
  30. 30. h"ps://reactome.org
  31. 31. 31 Format de Fichier (XML) TAB GPML (.gpml) Graphical Pathway Markup Language KPML (KEGG Markup Language) BioPAX (.owl) Web Ontology Language SBML (.smbl) System Biology Markup language SBGL (.sbgl) Systems Biology Graphical Notation PSI-MITAB KEGG X wikipathway X Reactome X X X • GPML est basé sur le format XML. GPML est le format native utilisé par PathVisio et WikiPathways. • KEGG Markup Language (KGML) est basé sur le format XML. Il est utilisé par KEGG • Biological Pathway Exchange (BioPAX) est un langage standard pour la représentation graphique des voies de signalisations • BioPax est qualitative et statique: Il décrit les interactions sans annotation spécifique au type d’interaction • SBML est quantitative et dynamique: il détaille le type d’interaction avec des annotations spécifique
  32. 32. Chemical-Protein Interaction Networks 32
  33. 33. Chemical-Protein pathways 33 http://smpdb.ca/
  34. 34. 34 Diseasome: Disease Gene Toxique Association Format Tableau The Comparative Toxicogenomics Database: update 2019
  35. 35. 35 Diseasome: Disease Gene Associa.on eDGAR GAD Format Tableau
  36. 36. ● Chimique - y compris les polluants industriels ● Médicament ● Toxines ● Structure de protéine 36 Base de données des molécules
  37. 37. 37 http://pubchem.ncbi.nlm.nih.gov/ Format de fichier ASN.1 XML SDF MOL SMILE Chimioinformatique
  38. 38. 38 Source: http://link.fyicenter.com/out.php?ID=571 Structure Data Format
  39. 39. 39 SMILE FORMAT : C(=O)C1=CC=C(C=C1)S(=O)(=O)NC(=O)NC1CCCCC1 414 Mrv0541 02231214402D 22 23 0 0 0 0 999 V2000 2.4751 0.0000 0.0000 S 0 0 0 0 0 0 0 0 0 0 0 0 3.9041 0.8250 0.0000 O 0 0 0 0 0 0 0 0 0 0 0 0 1.6500 0.0000 0.0000 O 0 0 0 0 0 0 0 0 0 0 0 0 3.3001 0.0000 0.0000 O 0 0 0 0 0 0 0 0 0 0 0 0 3.1895 -3.7126 0.0000 O 0 0 0 0 0 0 0 0 0 0 0 0 3.1895 2.0625 0.0000 N 0 0 0 0 0 0 0 0 0 0 0 0 2.4751 0.8250 0.0000 N 0 0 0 0 0 0 0 0 0 0 0 0 3.9041 2.4751 0.0000 C 0 0 0 0 0 0 0 0 0 0 0 0 3.9041 3.3001 0.0000 C 0 0 0 0 0 0 0 0 0 0 0 0 4.6185 2.0625 0.0000 C 0 0 0 0 0 0 0 0 0 0 0 0 4.6185 3.7126 0.0000 C 0 0 0 0 0 0 0 0 0 0 0 0 5.3330 2.4751 0.0000 C 0 0 0 0 0 0 0 0 0 0 0 0 5.3330 3.3001 0.0000 C 0 0 0 0 0 0 0 0 0 0 0 0 3.1895 1.2375 0.0000 C 0 0 0 0 0 0 0 0 0 0 0 0 2.4751 -0.8250 0.0000 C 0 0 0 0 0 0 0 0 0 0 0 0 1.7606 -1.2375 0.0000 C 0 0 0 0 0 0 0 0 0 0 0 0 3.1895 -1.2375 0.0000 C 0 0 0 0 0 0 0 0 0 0 0 0 2.4751 -2.4751 0.0000 C 0 0 0 0 0 0 0 0 0 0 0 0 1.7606 -2.0625 0.0000 C 0 0 0 0 0 0 0 0 0 0 0 0 3.1895 -2.0625 0.0000 C 0 0 0 0 0 0 0 0 0 0 0 0 2.4751 -3.3001 0.0000 C 0 0 0 0 0 0 0 0 0 0 0 0 1.7606 -3.7126 0.0000 C 0 0 0 0 0 0 0 0 0 0 0 0 1 3 2 0 0 0 0 1 4 2 0 0 0 0 1 7 1 0 0 0 0 1 15 1 0 0 0 0 2 14 2 0 0 0 0 5 21 2 0 0 0 0 6 8 1 0 0 0 0 6 14 1 0 0 0 0 7 14 1 0 0 0 0 8 9 1 0 0 0 0 8 10 1 0 0 0 0 9 11 1 0 0 0 0 10 12 1 0 0 0 0 11 13 1 0 0 0 0 12 13 1 0 0 0 0 15 16 2 0 0 0 0 15 17 1 0 0 0 0 16 19 1 0 0 0 0 17 20 2 0 0 0 0 18 19 2 0 0 0 0 18 20 1 0 0 0 0 18 21 1 0 0 0 0 21 22 1 0 0 0 0 MOL Format Acetohexamide
  40. 40. 40
  41. 41. 41
  42. 42. 42 Seulement médicament SDF Structure Data Format Séquence Protéine FASTA Toutes les informations XML
  43. 43. 43 Base de données de toxines animales
  44. 44. 44 Essais : Hépatotoxine Cardiotoxine Rénal toxine ….
  45. 45. 45 Format : PDB
  46. 46. 46
  47. 47. 47

×