ASAIM
Traitement “Big Data” en Biologie
Bérénice Batut
Post-doctorante - EA CIDAM
Yuta Onada
Génomique
2


Génomique
3




Génomique
4





Génomique
5








Métagénomique
6








Métagénomique
7






















Métagénomique
8


























Outils de métagénomique
9
Outils de métagénomique
10




Solution idéale
Facilité d’utilisation par les biologistes
11
Solution idéale
Facilité d’utilisation par les biologistes
Gestion de données massives et complexes
12
Solution idéale
Facilité d’utilisation par les biologistes
Gestion de données massives et complexes
Traitement rapide et complet des données
13
Solution idéale
Facilité d’utilisation par les biologistes
Gestion de données massives et complexes
Traitement rapide et complet des données
Modularité
14
Solution proposée
Connection
Raw read upload
Pipeline, parameters
and metadata
definitions
File and data
saving
Pipeline job
submission
Computer
cluster
Waiting job
interrogation and
execution
Result sending
and formating
Email sending with
a link toward result
webpage
Users
Web interface Pipeline
interface
15
Pipeline














16
Pipeline


































 17
Principaux verrous
Gestion du workflow modulaire
Gestion et stockage des données massives
Durée des traitements et des analyses
Choix outils à utiliser pour chaque étape
Gestion des mises à jours des outils et bases de
données utilisés
Tests automatiques des sorties
Nombreuses librairies à installer
Gestion du flux d’utilisateurs
18
Projet CPER Auvergne
19




Principaux verrous
Gestion du workflow modulaire
Gestion et stockage des données massives
Durée des traitements et des analyses
Choix outils à utiliser pour chaque étape
Gestion des mises à jours des outils et bases de
données utilisés
Tests automatiques des sorties
Nombreuses librairies à installer
Gestion du flux d’utilisateurs
20

Clermont'ech API Hour #15 - ASAIM : Traitement "Big Data" en Biologie