État d’avancement 
Petasky 2013 
Workshop Petasky, BDA 2013 
E. Medernach (IN2P3, CNRS) Petasky 2013 BDA 2013 1 / 18
Plan 
1 Qserv 
Gestion de Données Astrophysiques 
Architecture et Principe de Fonctionnement 
Résultats sur 300 Noeuds 
2 ...
Plan 
1 Qserv 
Gestion de Données Astrophysiques 
Architecture et Principe de Fonctionnement 
Résultats sur 300 Noeuds 
2 ...
LSST: Gestion de Données Astrophysiques 
I LSST: Acquisition de données astrophysiques 
I Explosion de la taille des donné...
Plan 
1 Qserv 
Gestion de Données Astrophysiques 
Architecture et Principe de Fonctionnement 
Résultats sur 300 Noeuds 
2 ...
Architecture de Qserv 
Orchestration de bases de données. 
E. Medernach (IN2P3, CNRS) Petasky 2013 BDA 2013 6 / 18
Principe de Fonctionnement 
Découpage géometrique en “chunks” (ou “shards”). 
E. Medernach (IN2P3, CNRS) Petasky 2013 BDA ...
Plan 
1 Qserv 
Gestion de Données Astrophysiques 
Architecture et Principe de Fonctionnement 
Résultats sur 300 Noeuds 
2 ...
Contexte 
I Test sur 300 noeuds au CC-IN2P3 pendant l’été 2013 
I Par machine: 120G disque, 16G de RAM 
I 15 TB de données...
Résultats 
I SELECT * FROM Object WHERE objectId = id 
Temps: 1.1s 
I SELECT s.ra, s.decl 
FROM Object o 
JOIN Source s US...
Résultats (suite) 
SELECT COUNT(*) FROM Object WHERE gFlux_PS1e-25 ; 
Passage à l’échelle. 
E. Medernach (IN2P3, CNRS) Pet...
Plan 
1 Qserv 
Gestion de Données Astrophysiques 
Architecture et Principe de Fonctionnement 
Résultats sur 300 Noeuds 
2 ...
Objectifs 
Module réutilisable dans plusieurs projets (QServ, Petasky, . . .) 
SQL AST 
Représentation intermédiaire de re...
Plan 
1 Qserv 
Gestion de Données Astrophysiques 
Architecture et Principe de Fonctionnement 
Résultats sur 300 Noeuds 
2 ...
Avantages 
Avantages 
I Utiliser d’autres bases de données 
I Exemple: traduction des requêtes pour NoSQL 
I Utiliser d’au...
Plan 
1 Qserv 
Gestion de Données Astrophysiques 
Architecture et Principe de Fonctionnement 
Résultats sur 300 Noeuds 
2 ...
État actuel 
I Déclaration de la BNF comme une extension de Scheme 
(define SQL 
(BNF-sequence 
SELECT 
(BNF-optional FROM...
Merci 
E. Medernach (IN2P3, CNRS) Petasky 2013 BDA 2013 18 / 18
Prochain SlideShare
Chargement dans…5
×

Petasky bda-2013-medernach

119 vues

Publié le

BDA 2013 Presentation (Petasky workshop)

Publié dans : Sciences
0 commentaire
0 j’aime
Statistiques
Remarques
  • Soyez le premier à commenter

  • Soyez le premier à aimer ceci

Aucun téléchargement
Vues
Nombre de vues
119
Sur SlideShare
0
Issues des intégrations
0
Intégrations
3
Actions
Partages
0
Téléchargements
1
Commentaires
0
J’aime
0
Intégrations 0
Aucune incorporation

Aucune remarque pour cette diapositive

Petasky bda-2013-medernach

  1. 1. État d’avancement Petasky 2013 Workshop Petasky, BDA 2013 E. Medernach (IN2P3, CNRS) Petasky 2013 BDA 2013 1 / 18
  2. 2. Plan 1 Qserv Gestion de Données Astrophysiques Architecture et Principe de Fonctionnement Résultats sur 300 Noeuds 2 Réécriture de requêtes SQL Objectifs Avantages État actuel E. Medernach (IN2P3, CNRS) Petasky 2013 BDA 2013 2 / 18
  3. 3. Plan 1 Qserv Gestion de Données Astrophysiques Architecture et Principe de Fonctionnement Résultats sur 300 Noeuds 2 Réécriture de requêtes SQL Objectifs Avantages État actuel E. Medernach (IN2P3, CNRS) Petasky 2013 BDA 2013 3 / 18
  4. 4. LSST: Gestion de Données Astrophysiques I LSST: Acquisition de données astrophysiques I Explosion de la taille des données I ~ 100 Pb d’images I ~ 6 Pb de catalogues I ~ 100 tables Taille des tables. Table Taille Lignes Colonnes Object 109 TB 3:8 1010 470 Source 3.6 PB 5:0 1012 125 ForcedSource 1.1 PB 3:2 1013 7 CCDExposure 0.6 TB 1:7 1010 45 I Comment interroger efficacement ces données ? E. Medernach (IN2P3, CNRS) Petasky 2013 BDA 2013 4 / 18
  5. 5. Plan 1 Qserv Gestion de Données Astrophysiques Architecture et Principe de Fonctionnement Résultats sur 300 Noeuds 2 Réécriture de requêtes SQL Objectifs Avantages État actuel E. Medernach (IN2P3, CNRS) Petasky 2013 BDA 2013 5 / 18
  6. 6. Architecture de Qserv Orchestration de bases de données. E. Medernach (IN2P3, CNRS) Petasky 2013 BDA 2013 6 / 18
  7. 7. Principe de Fonctionnement Découpage géometrique en “chunks” (ou “shards”). E. Medernach (IN2P3, CNRS) Petasky 2013 BDA 2013 7 / 18
  8. 8. Plan 1 Qserv Gestion de Données Astrophysiques Architecture et Principe de Fonctionnement Résultats sur 300 Noeuds 2 Réécriture de requêtes SQL Objectifs Avantages État actuel E. Medernach (IN2P3, CNRS) Petasky 2013 BDA 2013 8 / 18
  9. 9. Contexte I Test sur 300 noeuds au CC-IN2P3 pendant l’été 2013 I Par machine: 120G disque, 16G de RAM I 15 TB de données au total, ~50G de données par noeud I Partitionnement : 3000 chunks, de 9 à 11 chunks par noeud I Nombre d’objets: 0.4 milliards I Nombre de sources: 14 milliards E. Medernach (IN2P3, CNRS) Petasky 2013 BDA 2013 9 / 18
  10. 10. Résultats I SELECT * FROM Object WHERE objectId = id Temps: 1.1s I SELECT s.ra, s.decl FROM Object o JOIN Source s USING (objectId) WHERE o.objectId = id AND o.latestObsTime = s.taiMidPoint Temps: 11.2s I SELECT objectId FROM Source JOIN Object USING(objectId) WHERE qserv_areaspec_box(1,3,2,4) Temps: 9 min 42.9 sec I SELECT COUNT(*) FROM Object o1, Object o2 WHERE qserv_areaspec_box(-5,-5,5,5) AND scisql_angSep(o1.ra_PS, o1.decl_PS, o2.ra_PS, o2.decl_PS) 0.1 Temps: 4 min 50 sec E. Medernach (IN2P3, CNRS) Petasky 2013 BDA 2013 10 / 18
  11. 11. Résultats (suite) SELECT COUNT(*) FROM Object WHERE gFlux_PS1e-25 ; Passage à l’échelle. E. Medernach (IN2P3, CNRS) Petasky 2013 BDA 2013 11 / 18
  12. 12. Plan 1 Qserv Gestion de Données Astrophysiques Architecture et Principe de Fonctionnement Résultats sur 300 Noeuds 2 Réécriture de requêtes SQL Objectifs Avantages État actuel E. Medernach (IN2P3, CNRS) Petasky 2013 BDA 2013 12 / 18
  13. 13. Objectifs Module réutilisable dans plusieurs projets (QServ, Petasky, . . .) SQL AST Représentation intermédiaire de requêtes SQL (texte brut) en une structure “Abstract Syntax Tree” (AST) AST Traduction de l’AST E. Medernach (IN2P3, CNRS) Petasky 2013 BDA 2013 13 / 18
  14. 14. Plan 1 Qserv Gestion de Données Astrophysiques Architecture et Principe de Fonctionnement Résultats sur 300 Noeuds 2 Réécriture de requêtes SQL Objectifs Avantages État actuel E. Medernach (IN2P3, CNRS) Petasky 2013 BDA 2013 14 / 18
  15. 15. Avantages Avantages I Utiliser d’autres bases de données I Exemple: traduction des requêtes pour NoSQL I Utiliser d’autres librairies de géométrie (avec différentes API) I Transformer ou adapter les requêtes I Exemple: modification du schéma I Possibilité d’extension de SQL comme ADQL http://www.ivoa.net/documents/latest/ADQL.html E. Medernach (IN2P3, CNRS) Petasky 2013 BDA 2013 15 / 18
  16. 16. Plan 1 Qserv Gestion de Données Astrophysiques Architecture et Principe de Fonctionnement Résultats sur 300 Noeuds 2 Réécriture de requêtes SQL Objectifs Avantages État actuel E. Medernach (IN2P3, CNRS) Petasky 2013 BDA 2013 16 / 18
  17. 17. État actuel I Déclaration de la BNF comme une extension de Scheme (define SQL (BNF-sequence SELECT (BNF-optional FROM) (BNF-optional WHERE) (BNF-optional GROUP-BY) (BNF-optional ORDER-BY) (BNF-optional LIMIT) (BNF-optional (BNF-string ;)))) I Parser SQL terminé (Ok sur les requêtes standards LSST) SELECT DISTINCT o1.objectId, o1.ra, o1.decl, o2.iauId FROM Object o1, Object o2 WHERE ABS(o2.ra - o1.ra ) o2.raRange/(2*COS(RADIANS(o1.decl))) AND ABS(o2.decl - o1.decl) o2.declRange/2 AND ( SELECT COUNT(o3.objectId) FROM Object o3 WHERE o1.objectId o3.objectId AND ABS(o1.ra - o3.ra ) 0.1/COS(RADIANS(o3.decl)) AND ABS(o1.decl - o3.decl) 0.1 ) 10000; 16 ms real time I Définition de la structure de l’AST en cours I Besoin de références sur la réécriture de requêtes E. Medernach (IN2P3, CNRS) Petasky 2013 BDA 2013 17 / 18
  18. 18. Merci E. Medernach (IN2P3, CNRS) Petasky 2013 BDA 2013 18 / 18

×