CERTYOU, 37 rue des Mathurins, 75008 PARIS - SAS au capital de 10 000 Euros
Tél : 01 42 93 52 72 - Fax : 01 70 72 02 72 - contact@certyou.com - www.certyou.com
RCS de Paris n° 804 509 461- TVA intracommunautaire FR03 804509461 - APE 8559A
Déclaration d’activité enregistrée sous le N° 11 75 52524 75 auprès du préfet de région d’Ile-de-France
Cloudera Developer Training for Apache Hadoop
Formation Informatique / Virtualisation et Cloud / Cloudera
Cette formation officielle Cloudera Developer Training for Apache Hadoop permet d'acquérir les concepts clés et l'expertise
pour créer des applications de traitement de données solides avec Apache Hadoop.
De la mise en œuvre du Workflow au travail avec les APIs via l'écriture du code MapReduce et de l'exécution des jointures,
la formation Cloudera est la meilleure préparation pour aborder les cas concrets rencontrés par les développeurs Hadoop.
Cette formation prépare en partie à la certification CCDH (Cloudera Certified Developer for Apache Hadoop).
OBJECTIFS
• MapReduce et HDFS. Comment écrire le code mapReduce
• Meilleures pratiques pour le développement et le débogage de Hadoop et la mise en œuvre des Workflows et des
algorithmes courants
• Comment utiliser efficacement les autres projets tels que Hive, Pig, Sqoop, Flume, Oozie, Mahout et les autres projets
Hadoop
• Configuration matérielle optimale et besoins réseaux pour l'intégration d'un cluster Hadoop dans le data center
• Ecrire et exécuter les jointures pour lier les sets de données dans MapReduce
• Problèmes à prendre en compte dans le développement de travaux Mapreduce
• Sujets avancés Hadoop nécessaires pour l'analyse des données en temps réel
PUBLIC
Cette formation s'adresse aux développeurs et ingénieurs ayant une expérience en programmation. Des connaissances en
Java sont fortement recommandées et sont nécessaires pour compléter les exercices pratiques.
PRE-REQUIS
Une expérience en programmation est souhaitable (Java de préférence).
PROGRAMME
Pourquoi choisir Hadoop ?
Problèmes avec les systèmes traditionnels à grande échelle
Introduction à Hadoop
Problèmes liés à Hadoop
Hadoop : Concepts de base et HDFS
Projet Hadoop
Composants Hadoop
HDFS (Hadoop Distributed File System)
Introduction à MapReduce
Vue d'ensemble de MapReduce
Exemple: Wordcount
«Mappers»
«Reducers»
Clusters Hadoop et Ecosystème Hadoop
Vue d'ensemble du cluster Hadoop
Jobs Hadoop et tâches
Autres composants de l'écosystème Hadoop
Ecriture d'un programme MapReduce dans java
Concepts de base API MapReduce
Ecrire des drivers, des «mappers» et des «reducers» dans Java
Accélérer le développement Hadoop avec Eclipse
Différences entre les nouveaux et les anciens APIs MapReduce
Ecriture d'un programme MapReduce dans Streaming
Ecrire des «Mappers» et des «Reducers» avec le streaming API
Tests des programmes MapReduce
Test
Frameworks de tests JUnit et MRUnit
Ecrire des tests avec MRUnit
Activer les tests
Approfondir les APIs Hadoop
A retenir
Durée : 4 jours soit 28h.
Réf. CY3902
Dates des sessions
Paris
07/04/2015
12/10/2015
Cette
formation est
également
proposée en
formule
INTRA-ENTREPRISE.
Inclus dans cette formation
EXAMEN Cloudera COMPRIS
DANS LE TARIF
Pour toutes nos formations
certifiantes, nous incluons les frais de
certification dans le tarif de la
formation. Comparez bien les offres
de formation du marché : notre offre
étant la plus complète, vous serez
alors plus serein dans la préparation
de vos certifications.
Coaching Après-COURS
Pendant 30 jours, votre formateur
CERTYOU, 37 rue des Mathurins, 75008 PARIS - SAS au capital de 10 000 Euros
Tél : 01 42 93 52 72 - Fax : 01 70 72 02 72 - contact@certyou.com - www.certyou.com
RCS de Paris n° 804 509 461- TVA intracommunautaire FR03 804509461 - APE 8559A
Déclaration d’activité enregistrée sous le N° 11 75 52524 75 auprès du préfet de région d’Ile-de-France
Cloudera Developer Training for Apache Hadoop
Formation Informatique / Virtualisation et Cloud / Cloudera
Utiliser la classe ToolRunner
Installer et «démonter» les «Mappers» et les «Reducers»
Diminution de la quantité de données intermédiaires avec les multiplexeurs
Accès à la programmation HDFS
Utiliser le cache distribué
Utiliser la bibliothèque de «Mappers», des «Reducers» et des «Partitioners» des APIs Hadoop
Sujets pratiques de développement et techniques
Stratégies de débugging du code MapRecuce
Tester le code MapReduce localement avec LocalJobRunner
Récupérer les informations avec les compteurs
Réutiliser des objets
Travaux de Map-only MapReduce
Partitionneurs et «Reducers»
Comment les partitionneurs et les «Reducers» travaillent ensemble
Déterminer le nombre optimal de «Reducers» pour un job
Ecrire les partitionneurs clients
Données en entrée et en sortie
Créer des mises en œuvre personnalisées «writable» et «writable-comparable»
Sauvegarder des données binaires avec SequenceFile et les fichiers de données Avro
Quand savoir qu'il faut utiliser la compression des fichiers?
Mettre en œuvre les formats d'entrée et les formats de sortie personnalisés
Algorithmes courants MapReduce
Trier et rechercher un ensemble de données important
Indexer les données
Fréquence des termes
Fréquence de documents inverses
Co-occurrence Word
Améliorer le tri secondaire
Jointure de de données dans les jobs MapReduce
Ecrire une une jointure «Map-Side»
Réduire les jointures
Intégration de Hadoop dans le Workflow de l'entreprise
Intégrer Hadoop dans une entreprise existante
Charger des données d'un RDBMS dans HDFS avec Sqoop
Gérer les données en temps rééel avec Flume
Accéder à HDFS à partir des systèmes légaux avec FuseDFS et HttpFS
Introduction à Hive, Imapala et Pig
Pourquoi Hive, Impala et Pig?
Vue d'ensemble de Hive
Vue d'ensemble de Impala
Vue d'ensemble de Pig
Choisir entre Hive, Impala et Pig
Introduction à Oozie
Introduction à Oozie
Créer des Workflows Oozie
sera disponible pour vous aider.
CERTyou s'engage dans la réalisation
de vos objectifs.
Votre garantie 100%
SATISFACTION
Notre engagement 100% satisfaction
vous garantit la plus grande qualité
de formation.