LES BASES DE DONNÉES DU

Natalie Clairoux, M. Sc., M.S.I.
Bibliothécaire
Hiver 2014
PAR OÙ COMMENCER?

Le labyrinthe de bases de données en bioinformatique

L’INTÉGRATION DES BASES DU
NCBI
Permet la navigat...
Bio-informatique in silico: citer ses
sources

Source: Fritz-Laylin LK, Prochnik SE, Ginger ML, Dacks JB, Carpenter ML, Fi...
Ressources en bio-informatique
Lien

Natalie Clairoux
Bases du NCBI I
Hiver 2014
Croissance exponentielle des données

Source: NLM

Natalie Clairoux
Bases du NCBI I
Hiver 2014
Traitement des données au NCBI: permet
de trouver de l’information de qualité
Données brutes:
•Nucleotide
•Protein
•GEO

V...
PAR OÙ COMMENCER?

Le labyrinthe de bases de données en bioinformatique

L’INTÉGRATION DES BASES DU
NCBI
Permet la navigat...
Bases de données du NCBI: page
d’accueil

Natalie Clairoux
Bases du NCBI I
Hiver 2014
Obtenir de l’aide
 Section générale : NCBI Educational Resources
 Document de référence: The NCBI Handbook

 Modes d’em...
Il y a beaucoup plus que des références
d’articles dans PubMed…

Natalie Clairoux
Bases du NCBI I
Hiver 2014
Bases de données du NCBI:
classification
Génomes
Nucléotides

Expression

Protéines
Structure

Chimie
Taxonomie

Natalie C...
Taxonomy
Browser
 Classification qui
gouverne toutes les
autres bases au
NCBI

Natalie Clairoux
Bases du NCBI I
Hiver 201...
Liens entre
les bases

(Schéma date de 2008)

Natalie Clairoux
Bases du NCBI I
Hiver 2014
Les liens entre les bdd du NCBI
 Hard links: liens directs entre deux notices provenant de
deux bdd distinctes (figure pé...
L’interface commune aux bases du NCBI
 Fonctions: Limits, Advanced search, Clipboard
• Exemple: recherche de séquences de...
PAR OÙ COMMENCER?

Le labyrinthe de bases de données en bioinformatique

L’INTÉGRATION DES BASES DU
NCBI
Permet la navigat...
Séquences de nucléotides

Exemple

 Nucleotide contient :
 Séquences en nt (avec annotations bibliographiques et
biologi...
Séquences de protéines

Exemple

 Protein contient:
 Traductions des séquences codantes de GenBank (GenPept)

 Séquence...
Séquences de référence (RefSeq)
 Collection exhaustive, intégrée et non-redondante de
séquences d’ADN, d’ARN et de protéi...
Nomenclature des nos d’accession des
Exemple
séquences de référence (RefSeq)

Natalie Clairoux
Bases du NCBI
Hiver 2014
Données brutes d’expression

Exemple

 GEO (Gene Expression Omnibus) contient des données
génomiques fonctionnelles génér...
PAR OÙ COMMENCER?

Le labyrinthe de bases de données en bioinformatique

L’INTÉGRATION DES BASES DU
NCBI
Permet la navigat...
BLAST
 Basic Local Alignment Search Tool – algorithme développé par
Altschul et al. en 1990, révisé en 2007 (citez l’arti...
BLAST - Définitions
Et.alors,.de.jour.en.jour,.j’apprends.des.choses.
|||
|||||||||||||||||||| | | ||||||||||||||
Et.puis-...
BLAST – Fonctionnement
1. Séquence de la requête coupée en “mots” de 11nt ou 3 aa, sur 3
positions consécutives (puisque c...
BLAST – interprétation des résultats
 La “probabilité” que l’appariement ne soit pas dû au hasard

 Utiliser les e-value...
Basic BLAST: 5 façons de chercher

Natalie Clairoux
Bases du NCBI I
Hiver 2014
Bases de données interrogées par
BLAST

Natalie Clairoux
Bases du NCBI I
Hiver 2014
Étapes d’utilisation de BLAST
1. Entrer la séquence à rechercher


Exemple 2

Copier/coller, fichier texte, sélection de ...
BLAST autres que Basic BLAST
 Génomes complets (séquences connues vs séquences
inconnues)
 BLAST spécialisés: design d’a...
Formatage des résultats
 Options d’alignement
 Reformater les résultats originaux pour filtrer selon des
organismes préc...
Recherche de séquences homologues

Ai-je vraiment
besoin de faire
un BLAST??
Related
sequences et
BLink
Natalie Clairoux
B...
Lien Related sequences
 Liste de séquences similaires, déjà
identifiées par le NCBI en utilisant le
programme BLAST.
 Li...
Lien BLink (BLAST Link)

Exemple

 Comparaison de séquences de protéines, déjà effectuée
par le NCBI avec BLAST, pour tou...
Prochain SlideShare
Chargement dans…5
×

Bases du NCBI partie I - Sources de données brutes et BLAST

1 600 vues

Publié le

Survol des sources de données brutes au NCBI: Nucleotide, Protein, Geo. Recherche de séquences homologues avec BLAST. Séquences de référence RefSeq

Publié dans : Formation
0 commentaire
3 j’aime
Statistiques
Remarques
  • Soyez le premier à commenter

Aucun téléchargement
Vues
Nombre de vues
1 600
Sur SlideShare
0
Issues des intégrations
0
Intégrations
12
Actions
Partages
0
Téléchargements
33
Commentaires
0
J’aime
3
Intégrations 0
Aucune incorporation

Aucune remarque pour cette diapositive

Bases du NCBI partie I - Sources de données brutes et BLAST

  1. 1. LES BASES DE DONNÉES DU Natalie Clairoux, M. Sc., M.S.I. Bibliothécaire Hiver 2014
  2. 2. PAR OÙ COMMENCER? Le labyrinthe de bases de données en bioinformatique L’INTÉGRATION DES BASES DU NCBI Permet la navigation entre les bases SOURCES DE DONNÉES BRUTES Nucleotide, Protein, RefSeq, GEO… RECHERCHE DE SÉQUENCES HOMOLOGUES BLAST, Blink, Related sequences Natalie Clairoux Bases du NCBI I Hiver 2014
  3. 3. Bio-informatique in silico: citer ses sources Source: Fritz-Laylin LK, Prochnik SE, Ginger ML, Dacks JB, Carpenter ML, Field MC, et al. The Genome of Naegleria gruberi Illuminates Early Eukaryotic Versatility. Cell. 2010;140(5):631-42. Natalie Clairoux Bases du NCBI I Hiver 2014
  4. 4. Ressources en bio-informatique Lien Natalie Clairoux Bases du NCBI I Hiver 2014
  5. 5. Croissance exponentielle des données Source: NLM Natalie Clairoux Bases du NCBI I Hiver 2014
  6. 6. Traitement des données au NCBI: permet de trouver de l’information de qualité Données brutes: •Nucleotide •Protein •GEO Valeur ajoutée: •RefSeq •Entrez Gene •OMIM Alignement déjà calculé au NCBI: •BLink •Related sequences Alignement de séquences par l’usager: •BLAST Natalie Clairoux Bases du NCBI I Hiver 2014
  7. 7. PAR OÙ COMMENCER? Le labyrinthe de bases de données en bioinformatique L’INTÉGRATION DES BASES DU NCBI Permet la navigation entre les bases SOURCES DE DONNÉES BRUTES Nucleotide, Protein, RefSeq, GEO… RECHERCHE DE SÉQUENCES HOMOLOGUES BLAST, Blink, Related sequences Natalie Clairoux Bases du NCBI I Hiver 2014
  8. 8. Bases de données du NCBI: page d’accueil Natalie Clairoux Bases du NCBI I Hiver 2014
  9. 9. Obtenir de l’aide  Section générale : NCBI Educational Resources  Document de référence: The NCBI Handbook  Modes d’emploi: How-To's  Résumés: NCBI Fact Sheets  Vidéos sur YouTube: NCBINLM Channel  Votre bibliothécaire Natalie Clairoux Bases du NCBI I Hiver 2014
  10. 10. Il y a beaucoup plus que des références d’articles dans PubMed… Natalie Clairoux Bases du NCBI I Hiver 2014
  11. 11. Bases de données du NCBI: classification Génomes Nucléotides Expression Protéines Structure Chimie Taxonomie Natalie Clairoux Bases du NCBI I Hiver 2014 Littérature
  12. 12. Taxonomy Browser  Classification qui gouverne toutes les autres bases au NCBI Natalie Clairoux Bases du NCBI I Hiver 2014
  13. 13. Liens entre les bases (Schéma date de 2008) Natalie Clairoux Bases du NCBI I Hiver 2014
  14. 14. Les liens entre les bdd du NCBI  Hard links: liens directs entre deux notices provenant de deux bdd distinctes (figure pécédente). • Exemples: lien entre l’article qui décrit une nouvelle séquence (PubMed) et sa notice dans GenBank (Nucleotide); lien entre la séquence d’une protéine (Protein) et une structure en 3D (Structure). • Tous les liens directs possibles ne sont pas nécessairement présents.  Neighbouring links: liens calculés par ordinateur entre deux notices d’une même bdd. • Critères de définition de la similarité varient d’une bdd à l’autre. • Exemples: similarité de structure 3D entre protéines, déterminée avec VAST; Related sequences et Blink. Natalie Clairoux Bases du NCBI I Hiver 2014
  15. 15. L’interface commune aux bases du NCBI  Fonctions: Limits, Advanced search, Clipboard • Exemple: recherche de séquences de gènes impliqués dans le cancer du côlon dans Nucleotide.  LinkOut: liens vers des ressources externes au NCBI (près de 3000), pertinentes à la notice affichée. Ex.: Medline Plus, Flybase, REBASE…  MyNCBI: espace personnel de stockage et d’organisation de l’information repêchée. • Possibilité de partage entre collègues. • Garde en mémoire les actions des 6 derniers mois. Natalie Clairoux Bases du NCBI I Hiver 2014
  16. 16. PAR OÙ COMMENCER? Le labyrinthe de bases de données en bioinformatique L’INTÉGRATION DES BASES DU NCBI Permet la navigation entre les bases SOURCES DE DONNÉES BRUTES Nucleotide, Protein, RefSeq, GEO… RECHERCHE DE SÉQUENCES HOMOLOGUES BLAST, Blink, Related sequences Natalie Clairoux Bases du NCBI I Hiver 2014
  17. 17. Séquences de nucléotides Exemple  Nucleotide contient :  Séquences en nt (avec annotations bibliographiques et biologiques) provenant de GenBank (Etats-Unis), EMBL (Europe) et DDBJ (Japon).  Sources de données: soumissions individuelles par les auteurs et soumissions en lot (EST, GSS, centres de séquençage, brevets)  No. d’accession: identificateur unique; demeure constant même si des changements sont apportés à la notice (no. de version peut changer). Il y a aussi un no. d’identification au NCBI (GI) pour chaque version.  Description des composantes d’une notice Natalie Clairoux Bases du NCBI I Hiver 2014
  18. 18. Séquences de protéines Exemple  Protein contient:  Traductions des séquences codantes de GenBank (GenPept)  Séquences en aa (avec annotations bibliographiques et biologiques) provenant de TPA, SwissProt, PIR, PRF et PDB.  Il peut y avoir plus d’une protéine associée à une notice de Nucleotide.  Les symboles <> indiquent qu’une partie de la séquence est manquante. Natalie Clairoux Bases du NCBI I Hiver 2014
  19. 19. Séquences de référence (RefSeq)  Collection exhaustive, intégrée et non-redondante de séquences d’ADN, d’ARN et de protéines.  Référence pour l’identification et la caractérisation de gènes, de mutations et l’analyse de polymorphismes.  UNE notice par molécule chez les principaux organismes.  >42 millions de séquences, représentant >33,000 organismes. Je veux toutes les séquences  BLAST, Nucleotide, Protein… Je veux la meilleure séquence  RefSeq Natalie Clairoux Bases du NCBI Hiver 2014
  20. 20. Nomenclature des nos d’accession des Exemple séquences de référence (RefSeq) Natalie Clairoux Bases du NCBI Hiver 2014
  21. 21. Données brutes d’expression Exemple  GEO (Gene Expression Omnibus) contient des données génomiques fonctionnelles générées par les technologies à puces (microarray) et de séquençage de nouvelle génération:  Données d’expression  Variation du nombre de copies de génome  Interactions génome-protéines  Études de profilage de méthylation  GEO Profile: mesures quantitatives d’expression pour un gène dans une expérience.  GEO Datasets: données complètes d’expériences.  Voir aussi: ArrayExpress (EBI) Natalie Clairoux Bases du NCBI I Hiver 2014
  22. 22. PAR OÙ COMMENCER? Le labyrinthe de bases de données en bioinformatique L’INTÉGRATION DES BASES DU NCBI Permet la navigation entre les bases SOURCES DE DONNÉES BRUTES Nucleotide, Protein, GEO… RECHERCHE DE SÉQUENCES HOMOLOGUES BLAST, Blink, Related sequences Natalie Clairoux Bases du NCBI I Hiver 2014
  23. 23. BLAST  Basic Local Alignment Search Tool – algorithme développé par Altschul et al. en 1990, révisé en 2007 (citez l’article si vous utilisez BLAST!)  Compare des séquences de nucléotides ou de protéines avec les séquences de bases de données et calcule la signification statistique des appariements obtenus.  Tient compte des substitutions possibles nt/aa qui ne modifient pas les fonctions du gène/protéine.  Utilisé (entre autres) pour:  Identifier les membres d’une famille de gènes;  Déduire des relations fonctionnelles et évolutives entre des séquences. Natalie Clairoux Bases du NCBI I Hiver 2014
  24. 24. BLAST - Définitions Et.alors,.de.jour.en.jour,.j’apprends.des.choses. ||| |||||||||||||||||||| | | |||||||||||||| Et.puis-,.de.jour.en.jour,.je.p--erds.des choses.  Alignement global: apparie deux séquences l’une avec l’autre. L’exemple illustre les non-appariements, les insertions et les délétions. The.cat.in.the.hat.----meowed--. The.cot.in.the.hut.----stank---. The.bat.in.the.cavern.flew.fast.  Alignement multiple: appariement de plusieurs séquences. Natalie Clairoux Bases du NCBI I Hiver 2014
  25. 25. BLAST – Fonctionnement 1. Séquence de la requête coupée en “mots” de 11nt ou 3 aa, sur 3 positions consécutives (puisque cadre de lecture inconnu) 2. Mots sont comparés avec les séquences des bases de données 3. Nucléotides: les paires (match) sont utilisées comme graines (seed) pour étendre l’alignement dans les deux directions. Si aucun “match” n’est trouvé sur 40 nt, le résultat est rejeté. Si un autre “match” est trouvé, assigne un pointage basé sur le degré de similarité. 4. Acides aminés: besoin d’une matrice de pointage pour tenir compte des substitutions fonctionnelles possibles. Par défaut: BLOSUM 62 5. Pointages compilés et normalisés. 6. Calcul de la probabilité que chaque résultat est aléatoire= e-value; plus petit le nombre, moins de chance que la similarité soit due au hasard. Natalie Clairoux Bases du NCBI I Hiver 2014
  26. 26. BLAST – interprétation des résultats  La “probabilité” que l’appariement ne soit pas dû au hasard  Utiliser les e-values pour comparer les résultats d’une MÊME requête  Résultats sont en log2 (binaire) PAS log10  Le plus près de 0.0, le moins probable que ce soit dû au hasard  E-value de 1e-32 est considérée non-aléatoire  Valeur >1.0 peut être aléatoire  Valeur >10 est probablement aléatoire (mais attention si les organismes sont très divergents, i.e. humain vs Tetrahymena) Natalie Clairoux Bases du NCBI I Hiver 2014
  27. 27. Basic BLAST: 5 façons de chercher Natalie Clairoux Bases du NCBI I Hiver 2014
  28. 28. Bases de données interrogées par BLAST Natalie Clairoux Bases du NCBI I Hiver 2014
  29. 29. Étapes d’utilisation de BLAST 1. Entrer la séquence à rechercher  Exemple 2 Copier/coller, fichier texte, sélection de l’intervalle  Exemple 1 Possibilité de comparer avec une autre séquence 2. Choisir l’ensemble de données à interroger  Ensemble des bdd, sous-ensembles, ou organismes précis 3. Sélectionner le programme (algorithme) 4. Ajuster les paramètres si désiré  Sensibilité de la recherche, longueur de mot, etc. 5. Envoi de la requête au serveur BLAST Natalie Clairoux Bases du NCBI I Hiver 2014
  30. 30. BLAST autres que Basic BLAST  Génomes complets (séquences connues vs séquences inconnues)  BLAST spécialisés: design d’amorces, recherche de mutations, immunoglobulines, alignement de séquences multiples, etc.  Disponibles sur la page d’accueil de BLAST Natalie Clairoux Bases du NCBI I Hiver 2014
  31. 31. Formatage des résultats  Options d’alignement  Reformater les résultats originaux pour filtrer selon des organismes précis –PLUS EFFICACE Natalie Clairoux Bases du NCBI I Hiver 2014
  32. 32. Recherche de séquences homologues Ai-je vraiment besoin de faire un BLAST?? Related sequences et BLink Natalie Clairoux Bases du NCBI I Hiver 2014
  33. 33. Lien Related sequences  Liste de séquences similaires, déjà identifiées par le NCBI en utilisant le programme BLAST.  Lien disponible pour toutes les séquences de Nucleotide et Protein.  Conditions plus stringentes que les paramètres par défaut de l’outil = moins de résultats qu’un BLAST conventionnel, mais souvent plus pertinents.  Permet de sauver du temps!  Conseil : utiliser la séquence fonctionnelle en acides aminés (si applicable) plutôt que la séquence en nucléotides pour identifier des séquences homologues. Natalie Clairoux Bases du NCBI I Hiver 2014 Exemple
  34. 34. Lien BLink (BLAST Link) Exemple  Comparaison de séquences de protéines, déjà effectuée par le NCBI avec BLAST, pour toutes les notices de Proteins.  Résultats non-redondants.  Présentation graphique des résultats, avec différentes options d’affichage et de tri.  Affiche plus de résultats que le BLAST par défaut (=100) Hum… à considérer! Natalie Clairoux Bases du NCBI I Hiver 2014

×