4. Date clés Pachyderm,Docker & Git)
Premier post sur le blog Pachyderm.io Janvier 2015
V0.5 Mars 2015 et V1.0 le 5 Mai 2016
2008 : LXC
2013 Mars : Première version en Open Source
Avril 2005 : Première version de GIT, en remplacement de BitKeeper.
(en capitalisant sur les leçons apprises à l’usage de BK)
Joe
Doliner
(RethinkDb,
Airbnb)
Joseph
Zwicker
(RethinkDb,
Airbnb)
5. Qu’est ce que Pachyderm
Big Data + Containers Docker
►Versionning pour les données stockées
►Stockage sur des systèmes de stockage Objet
(S3,GCS, Ceph)…
►Containers pour le traitement de données
►Batch ET Streaming
Pachyderm File System
Pachyderm Pipeline System
7. Le manifeste de la Data Science
par Pachyderm
Points essentiels d’un outil de Datascience selon Pachyderm sont :
►Reproductibilité
-Des données
-De l’exécution
►Traçabilité des données
►Collaboration
►Incrémentation
►Autonomie
►Agnostique de l’Infrastructure
8. Gouvernance de l’écosystème
HADOOP
Créé par Doug Cutting, Projet sous la bannière d’Apache – avec de nombreux
projets associés
Supporté par de nombreuses sociétés, développant de nombreux outils satellites
Pachyderm : 1 société qui a le lead sur le projet.
Lié à
l’écosystème
9. Pachyderm File System
►Système de fichier distribué Commit Based
►En Copy On Write
(Paradigme important de Docker, et de Spark)
►Stockage de base de Pachyderm
►Versionning des données = Un GIT pour de Volumineux jeux
de données
12. Pachyderm Pipeline System
►Utilise l’écosystème Docker
►Agnostique d’un language
►Synergie avec le FS en Copy-on-Write (PFS)
►Resilient
►Job pipeline enregistré dans un Direct Acyclic Graph (même
structure que Git )
it’s just a container! you
can use any language or
libraries you want !
13. Gestion du cluster
►Hadoop
YARN – Planification des travaux et gestion des ressources
des nœuds
Zookeeper – Synchronisation de la configuration
►Pachyderm “batteries included, but removable.”
outil de gestion de cluster : Kubernetes,
Format de containerisation Docker
Etcd(CoreOs)à Gestion de la configuration
Kubernetes & Etcd de Coreos pour les tâches dévolues
à Yarn & Zookeeper sur Hadoop
18. Prérequis à l’installation & Plateformes
Go >= 1.6
FUSE (optionel) >= 2.8.2 (pour monter PFS en local)
Kubectl (kubernetes CLI) >= 1.2.2
Pachyderm Repository
pachctl and pach-deploy
Pachyderm peut être executé sur toute plateforme que Kubernetes
supporte.
Par exemple :
►Local,
►Google Cloud Platform
►AWS
it’s just a container, you
can use any language or
libraries you want.