Hadoop est un framework 100% open source,écrit en Java et géré par la fondation Apache
Hadoop est capable de stocker et traiter de manière efficace un grand nombre de donnés, en reliant plusieurs serveurs banalisés entre eux pour travailler en parallèle
Pour accéder aux fichiers nécessaires pour faire ce TP, visitez: https://drive.google.com/folderview?id=0Bz7DokLRQvx7M2JWZEt1VHdwSE0&usp=sharing
Pour plus de contenu, Visitez http://liliasfaxi.wix.com/liliasfaxi !
CNES - CCT SIL - Traitement et Manipulation de la donnée à l‘aide des technologies Big Data
Présentation du 30 Juin 2017
Les CCT sont des espaces d'échanges techniques mis en place par le CNES il y a 20 ans, dans le but de réunir différents acteurs industriels et public pour s'enrichir mutuellement.
Big Data : Hadoop
- Généralité
- Architecture HDFS
- Algorithme MapRduce
- Architecture YARN
- Hadoop v3.x vs Hadoopv2.x
Cours Big Data - Chap2 - GI3 - ENIS
Bases de Données non relationnelles, NoSQL (Introduction) 1er coursHatim CHAHDI
Ce premier cours introduit les systèmes de stockages NoSQL. L'objectif est d'introduire les alternatives de stockages disponibles et de sensibiliser sur les spécificités de chacun des paradigmes de stockage.
Les BD orientées graphes sont aussi présentées dans la deuxième partie du cours avec une étude du système Neo4j.
Ce support explique les concepts de base de Big Data Processing. Elle aborde les parties suivantes :
Série de vidéos : https://www.youtube.com/watch?v=1JAljjxpm-Q
- Introduction au Big Data
- Système de stockage en Big Data
- Batch Processing et Stream Processing en Big Data
- Aperçu bref de l’écosystème de Hadoop
- Aperçu de l’écosystème des outils du Bid Gata
- Big data stream processing avec Kafka écosystème
- Architecture de Kafka (Brokers, Zookeeper, Procuder, Consumer, Kafka Streams, Connecteurs)
- Comment démarrer un cluster de brokers KAFKA
- Création et configuration des Topics
- Création d’un Java Kafka consumer
- Création d’un Java Kafka Produder
- Kafka Producer et Kafka Consumer dans une application basée sur Spring
- Kafka Streams
- Intégration de Kafka dans Spring Cloud.
Mot clés : Big data, Big Data Processing, Stream Processing, Kafka, Kafka Streams, Java, Spring
Bon apprentissage
Today enterprises desire to move more and more of their data lakes to the cloud to help them execute faster, increase productivity, drive innovation while leveraging the scale and flexibility of the cloud. However, such gains come with risks and challenges in the areas of data security, privacy, and governance. In this talk we cover how enterprises can overcome governance and security obstacles to leverage these new advances that the cloud can provide to ease the management of their data lakes in the cloud. We will also show how the enterprise can have consistent governance and security controls in the cloud for their ephemeral analytic workloads in a multi-cluster cloud environment without sacrificing any of the data security and privacy/compliance needs that their business context demands. Additionally, we will outline some use cases and patterns as well as best practices to rationally manage such a multi-cluster data lake infrastructure in the cloud.
Speaker:
Jeff Sposetti, Product Management, Hortonworks
Hadoop est un framework 100% open source,écrit en Java et géré par la fondation Apache
Hadoop est capable de stocker et traiter de manière efficace un grand nombre de donnés, en reliant plusieurs serveurs banalisés entre eux pour travailler en parallèle
Pour accéder aux fichiers nécessaires pour faire ce TP, visitez: https://drive.google.com/folderview?id=0Bz7DokLRQvx7M2JWZEt1VHdwSE0&usp=sharing
Pour plus de contenu, Visitez http://liliasfaxi.wix.com/liliasfaxi !
CNES - CCT SIL - Traitement et Manipulation de la donnée à l‘aide des technologies Big Data
Présentation du 30 Juin 2017
Les CCT sont des espaces d'échanges techniques mis en place par le CNES il y a 20 ans, dans le but de réunir différents acteurs industriels et public pour s'enrichir mutuellement.
Big Data : Hadoop
- Généralité
- Architecture HDFS
- Algorithme MapRduce
- Architecture YARN
- Hadoop v3.x vs Hadoopv2.x
Cours Big Data - Chap2 - GI3 - ENIS
Bases de Données non relationnelles, NoSQL (Introduction) 1er coursHatim CHAHDI
Ce premier cours introduit les systèmes de stockages NoSQL. L'objectif est d'introduire les alternatives de stockages disponibles et de sensibiliser sur les spécificités de chacun des paradigmes de stockage.
Les BD orientées graphes sont aussi présentées dans la deuxième partie du cours avec une étude du système Neo4j.
Ce support explique les concepts de base de Big Data Processing. Elle aborde les parties suivantes :
Série de vidéos : https://www.youtube.com/watch?v=1JAljjxpm-Q
- Introduction au Big Data
- Système de stockage en Big Data
- Batch Processing et Stream Processing en Big Data
- Aperçu bref de l’écosystème de Hadoop
- Aperçu de l’écosystème des outils du Bid Gata
- Big data stream processing avec Kafka écosystème
- Architecture de Kafka (Brokers, Zookeeper, Procuder, Consumer, Kafka Streams, Connecteurs)
- Comment démarrer un cluster de brokers KAFKA
- Création et configuration des Topics
- Création d’un Java Kafka consumer
- Création d’un Java Kafka Produder
- Kafka Producer et Kafka Consumer dans une application basée sur Spring
- Kafka Streams
- Intégration de Kafka dans Spring Cloud.
Mot clés : Big data, Big Data Processing, Stream Processing, Kafka, Kafka Streams, Java, Spring
Bon apprentissage
Today enterprises desire to move more and more of their data lakes to the cloud to help them execute faster, increase productivity, drive innovation while leveraging the scale and flexibility of the cloud. However, such gains come with risks and challenges in the areas of data security, privacy, and governance. In this talk we cover how enterprises can overcome governance and security obstacles to leverage these new advances that the cloud can provide to ease the management of their data lakes in the cloud. We will also show how the enterprise can have consistent governance and security controls in the cloud for their ephemeral analytic workloads in a multi-cluster cloud environment without sacrificing any of the data security and privacy/compliance needs that their business context demands. Additionally, we will outline some use cases and patterns as well as best practices to rationally manage such a multi-cluster data lake infrastructure in the cloud.
Speaker:
Jeff Sposetti, Product Management, Hortonworks
Treat your enterprise data lake indigestion: Enterprise ready security and go...DataWorks Summit
Most enterprises with large data lakes today are flying blind when it comes to the extent to which they can understand how the data in their data lakes is organized, accessed, and utilized to create real business value. Couple this with the need to democratize data, enterprises often realize they have created a data swamp loaded with all kinds of data assets without any curation and without appropriate security controls hoping that developers and analysts can responsibly collaborate to generate insights. In this talk we will provide a broad overview of how organizations can use open source frameworks such as Apache Ranger and Apache Knox to secure their data lakes and Apache Atlas to effectively provide open metadata and governance services for Hadoop ecosystem. We will provide an overview of the new features that have been added in each of these Apache projects recently and how enterprises can leverage these new features to build a robust security and governance model for their data lakes.
Speaker
Owen O'Malley, Co-Founder & Technical Fellow, Hortonworks
Big Data and Security - Where are we now? (2015)Peter Wood
Peter Wood started looking at Big Data as a solution for Advanced Threat Protection in 2013. This presentation examines how Big Data is being used for security in 2015, how this market is developing and how realistic vendor offerings are.
Securing Hadoop's REST APIs with Apache Knox Gateway Hadoop Summit June 6th, ...Kevin Minder
Securing Hadoop's REST APIs with Apache Knox Gateway
Presented at Hadoop Summit on June 6th, 2014
Describes the overall roles the Apache Knox Gateway plays in Hadoop security and briefly covers its primary features.
Apache Knox Gateway "Single Sign On" expands the reach of the Enterprise UsersDataWorks Summit
Apache Knox Gateway is a proxy for interacting with Apache Hadoop clusters in a secure way providing authentication, service level authorization, and many other extensions to secure any HTTP interactions in your cluster. One main feature of Apache Knox Gateway is the ability to extend the reach of your REST APIs to the internet while still securing your cluster and working with Kerberos. Recent contributions to the Apache Knox community have added support for Single Sign On (SSO) based on Pac4j 1.8.9 which is a very powerful security engine which provides SSO support through SAML2, OAuth, OpenID, and CAS. In addition, through recent community contributions Apache Ambari, and Apache Ranger can now also provide SSO authentication through Knox. This paper will discuss the architecture of Knox SSO, it will explain how enterprise user could benefit by this feature and will present enterprise use cases for Knox SSO, and integration with open source Shibboleth, ADFS Windows server Idp support, and Okta cloud Idp.
Troubleshooting Kerberos in Hadoop: Taming the BeastDataWorks Summit
Kerberos is the ubiquitous authentication mechanism when it comes to secure any Hadoop Services. With recent updates in Hadoop core and various Apache Hadoop components, inherent Kerberos support has matured and has come a long way.
Understanding & configuring Kerberos is still a challenge but even more painful & frustrating is troubleshooting a Kerberos issue. There are lot of things (small & big) that can go wrong (and will go wrong!). This talk covers the Kerberos debugging part in detail and discusses the tools & tricks that can be used to narrow down any Kerberos issue.
Rather than discussing the issues and their resolution, we will focus on how to approach a Kerberos problem and do's / dont's in Kerberos scene. This talk will provide a step by step guide that will equip the audience for troubleshooting future Kerberos problems.
Agenda is to discuss:
- Systematic approach to Kerberos troubleshooting
- Kerberos Tools available in Hadoop arsenal
- Tips & Tricks to narrow down Kerberos issues quickly
- Some nasty Kerberos issues from Support trenches
Some prior knowledge on Kerberos basics will be appreciated but is not a prerequisite.
Speaker:
Vipin Rathor, Sr. Product Specialist (HDP Security), Hortonworks
Abstract:
As organizations start to roll out or migrate data driven applications to Apache Hadoop, there are times when they have conflicting needs to leverage their full co-mingled data sets in Hadoop
while providing isolation of sections of such co-mingled data to a specific customer. Serving multiple customers in this manner is a typical multi-tenant usecase and one that can be challenging in Apache Hadoop.
This presentation walks through a number of patterns that can be leveraged for providing isolation of tenants based on the composability of Apache Knox for:
* Authentication/Federation Providers
* KnoxSSO
* Identity Assertion
* Tenant specific topologies
With these patterns, Knox can provide an infrastructure for robust tenant isolation and access control for application UIs and REST APIs for your data landscape, when suitably coupled with a cluster that has carefully considered infrastructure including:
* Kerberos
* Tenant specific user accounts, OUs and Groups within LDAP
* Authorization Policy that is aware of the tenant specific groups,
Summary:
We will walk through some of the patterns that have been used to enable such a multi-tenant environment as well as the specific considerations for topology, access control and user accounts involved with creating such an environment.
A comprehensive overview of the security concepts in the open source Hadoop stack in mid 2015 with a look back into the "old days" and an outlook into future developments.
As Hadoop becomes a critical part of Enterprise data infrastructure, securing Hadoop has become critically important. Enterprises want assurance that all their data is protected and that only authorized users have access to the relevant bits of information. In this session we will cover all aspects of Hadoop security including authentication, authorization, audit and data protection. We will also provide demonstration and detailed instructions for implementing comprehensive Hadoop security.
Apache Hadoop: design and implementation. Lecture in the Big data computing course (http://twiki.di.uniroma1.it/twiki/view/BDC/WebHome), Department of Computer Science, Sapienza University of Rome.
The fundamentals and best practices of securing your Hadoop cluster are top of mind today. In this session, we will examine and explain the components, tools, and frameworks used in Hadoop for authentication, authorization, audit, and encryption of data and processes. See how the latest innovations can let you securely connect more data to more users within your organization.
http://www.justin.tv/hackertv/49975/Tech_Talk_1_Leah_Culver_on_OAuth
Tech talk about OAuth, and open standard for API authentication. Originally broadcast on Justin.tv.
Rapide introduction à Hadoop lors du lancement du Casablanca Hadoop & Big Data Meetup.
En partenariat avec Hortonworks
http://www.meetup.com/Casablanca-Hadoop-et-Big-Data-Meetup
Petit-déjeuner OCTO : Hadoop, plateforme multi-tenant, à tout d'une grande !OCTO Technology
Hadoop, initialement conçu pour traiter les (très) gros batchs, a été victime de son succès : il s'affirme de plus en plus comme la plateforme à tout faire du Big Data. On lui demande désormais de supporter plusieurs utilisateurs, les traitements interactifs, la ségrégation ou le partage de données entre entité, et, évidemment... la sécurité qui va avec ces nouveaux usages !
D'une solution de geeks, Hadoop est devenu une plateforme business stratégique pour les entreprises.
Pour aller chatouiller des Oracle ou des Teradata sur leur terrain, Hadoop a dû muscler son jeu avec de nouvelles fonctionnalités.
Ce petit déjeuner est l'occasion de faire un point sur les dernières évolutions d'Hadoop, l'état de l'art de sa mise en oeuvre chez nos clients, et sur les éléments clés de la roadmap des principales distributions.
Annexe du cours Big Data
- Annexe A : Etapes d’un projet Big Data
- Annexe B : Schéma général de l’Algorithme MapReduce
- Annexe C : OpenStack & Hadoop
- Annexe D : Mahout
Alphorm.com Formation Big Data & Hadoop : Le Guide CompletAlphorm
Une bonne analyse et synthèse sur le domaine Big Data
Beaucoup de pratique sur Hadoop avec différentes méthodes : HDFS, Map Reduce, YARN, Spark, Hive, NoSQL, HDFS, HBase, zookeeper, MESOS et plusieurs autres outils
Les points forts de la formation
Une analyse globale sur le domaine Big Data et sur les outils liés à Hadoop avec beaucoup de pratique
Contenu de la formation
• Une bonne analyse de chaque concept illustré par de la pratique
• Les outils à installer sont à disposition
• Toutes les ressources sont à disposition
Résultats attendus
• Découvrir les formidables possibilités du Big Data avec Hadoop
• Comprendre parfaitement le périmètre de chaque outil de l'écosystème Hadoop
• Etre au fait de pouvoir utiliser Azure, AWS, et Google pour faire de l'Hadoop dans le Cloud
• Utiliser directement Hadoop sur de très nombreux exemples
• Découvrir le périmètre des bases NoSQL
• Comprendre comment faire du traitement temps réel avec Spark
Big Data: Hadoop Map / Reduce sur Windows et Windows AzureMicrosoft
L'algorithme Map/Reduce et sa mise en oeuvre avec Apache Hadoop permettent de gérer de très grands volumes de données non structurées. Microsoft adopte Haddop sur Windows et Windows Azure. Venez voir comment.
2. Introduction
Composants de base du système
HDFS
Map Reduce
Implémentations et outils bases sur Hadoop
Relation entre le frame work Hadoop et le
concept BigData
IBM lance son mobile, de stockage et Hadoop
offres pour les mainframes
Conclusion
17/05/2014M1MPDAM 2
4. Hadoop est un framework Java libre destiné à
faciliter la création d'applications distribuées et
scalables.
Il permet aux applications de travailler avec des
milliers de nœuds et des pétaoctets de données.
Hadoop a été inspiré par les
publications MapReduce, GoogleFS et BigTable de
Google.
Hadoop a été créé par Doug Cutting et fait partie
des projets de la fondation logicielle Apache depuis
2009.
17/05/2014 4M1MPDAM
5. Nécessité de traiter beaucoup de données
Nécessité de paralléliser le traitement sur
multitude de processeurs
Donne évolutivité avec du matériel de base à
faible coût
17/05/2014 5M1MPDAM
6. Fonctionne sur du matériel de base pas cher
Gère automatiquement la réplication des données
et l'échec de nœud
Il fait le travail dur - vous pouvez vous concentrer
sur le traitement des données
Enregistrement des coûts et le traitement de
données efficace et fiable
17/05/2014 6M1MPDAM
8. Au commencement, deux publications Google :
Google File System (GFS) : une solution évolutive
système de fichiers distribué pour les applications
de données intensives réparties
MapReduce: Traitement des données simplifiée
sur les grands clusters
Ces systèmes décrivent la nouvelle infrastructure
Google, et restent propriétaires.
17/05/2014 8M1MPDAM
9. Pendant ce temps là, Doug Cutting, créateur de
Lucene et Nutch, cherche un framework pour
distribuer les calculs de graphes Nutch
Il implémente les principes de GFS et MapReduce
dans Nutch
Il est embauché par Yahoo! pour poursuivre ces
développements
Yahoo donne Hadoop à la fondation Apache
17/05/2014 9M1MPDAM
11. Hadoop se compose de deux systèmes : HDFS
et MapReduce
Cinq types de process vont gouverner ces
systèmes
17/05/2014 11M1MPDAM
12. Le Namenode est le process qui pilote HDFS :
il sait où sont stockées les données
C'est lui qui orchestre les DataNodes
Nécessite beaucoup de RAM
17/05/2014 12M1MPDAM
13. Le SecondaryNamenode prends des
snapshots des logs du Namenode à
intervalles réguliers
Ce n'est pas un backup du NameNode : il
peut aider à récupérer des données et
relancer un cluster, mais ça n'a rien
d'automatique
17/05/2014 13M1MPDAM
14. Les Datanodes sont les noeuds sur lesquels
résident les données
Ce sont eux qui traduisent les blocks HDFS en
fichiers sur disque
En communication constante avec le
Namenode
17/05/2014 14M1MPDAM
15. Le JobTracker pilote l'exécution des jobs sur
le cluster
C'est lui qui assigne les tâches aux
TaskTrackers, et gèrent leur cycle de vie
Il est également responsable de la gestion
des erreurs, et de la relance des jobs
17/05/2014 15M1MPDAM
16. Les TaskTrackers exécute les jobs (Map et
Reduce)
Ils communiquent au JobTracker l'état des
jobs
17/05/2014 16M1MPDAM
18. L'unité de stockage de base est le Block
(64Mb par défaut)
Chaque block est répliqué sur plusieurs
nœuds
HDFS est fault-tolerant : si un noeud tombe,
les autres noeuds peuvent continuer à servir
les fichiers
17/05/2014 18M1MPDAM
19. HDFS est orienté batchs : pas adapté aux
traitements online
HDFS est orienté « write once, read many
times » : pas de modifications arbitraires au
milieu d'un fichier
HDFS n'est pas fait pour stocker beaucoup de
petits fichiers : trop de metadata à maintenir
17/05/2014 19M1MPDAM
20. Supporte différents types de compressions :
GZIP,BZ, LZO
Filesystem manipulable via Java, C…
Hadoop supporte également d'autres types
de file systems : local, FTP…
17/05/2014 20M1MPDAM
22. On peut stocker des données sous forme de
fichier texte standard
Ou sous forme de fichier binaire optimisé
pour MapReduce, compressable, splittable : le
SequenceFile
Existe aussi en version permettant des
lookups : le MapFile
17/05/2014 22M1MPDAM
24. MapReduce n'est pas un langage, c'est un
paradigme de programmation. L'idée est de
découper un traitement de données en deux
phases.
La première phase est le Map : c'est là que
l'on va transformer les données en entrée
La seconde phase est le reduce : on va y
aggréger les résultats du Map
17/05/2014 24M1MPDAM
25. Le format de base des échanges entre map et
reduce est la paire clé / valeur
La sérialisation des objets est gérée par
Hadoop, sous forme de Writable : pas de
sérialisation Java native
Hadoop fournit des types primitifs
sérializables, mais on peut bien sûr fournir
ses propres types complexes
La phase de shuffle, entre map et reduce, va
partitionner les données par clé
17/05/2014 25M1MPDAM
28. Tout commence par la définition d'un Job,
basé sur une Configuration, et sur des
paramètres utilisateurs:
17/05/2014 28M1MPDAM
29. On donne à ce job des implémentations de
Mapper, Reducer, types des fichiers d'entrée
et sortie , types des paramètres.
17/05/2014 29M1MPDAM
30. Le Mapper est très simple : on extrait l'url, et
on « émet » un compteur de 1
17/05/2014 30M1MPDAM
31. Le Reducer additionne les valeurs obtenue
pour une même clé.
Hadoop propose pour ce type de Reducer le
LongSumReducer.
17/05/2014 31M1MPDAM
32. Si on veut travailler sur des types non
primitifs, on peut créer un
WritableComparable
17/05/2014 32M1MPDAM
33. On utilise la commande hadoop pour lancer
et paramétrer son job
17/05/2014 33M1MPDAM
34. L'utilisation d'Hadoop n'est pas réservée aux
jobs Java. Tout langage lisant STDIN /
STDOUT peut se brancher sur la Streaming
API : PHP, Ruby, Python...
On va spécifier en paramètre les scripts à
exécuter lors des phases de map et reduce
17/05/2014 34M1MPDAM
36. Le système de base de données non-
relationnelles distribué HBase utilise le système
de fichiers HDFS pour le stockage de données.
Sa particularité d‘étre structuré pour pouvoir
gérer de grandes tables de données. Inspirée
également des publications de Google sur sa
base de données Big Table, elle a pour
caractéristique d‘étre une base de données
orientée colonnes.
HBase est aujourd'hui largement utilisé par de
nombreuses grandes entreprises, comme
Facebook qui l'utilise depuis 2010 en
remplacement de Cassandra.
17/05/2014 36M1MPDAM
37. Hive est un projet visant à assurer
l'indexation, l'accés et l'analyse de gros
volumes de données. Il permet de fournir une
infrastructure de datawarehouse, construite
sur la base du framework Hadoop.
Cette implémentation dispose d'un langage
de requête particulier, HiveQL, utilisant des
tâches MapReduce pour accéder à des
données de manière distribuée.
Initialement développé par Facebook, il fait
partie aujourd'hui de la fondation Apache et
est maintenu par des entreprises comme
Netflix et Amazon.
17/05/2014 37M1MPDAM
38. Un autre projet de la fondation
Apache, Mahout, a pour objectif
de fournir une bibliothèque
permettant le développement
d'applications distribuées de
machine-learning. Cette
bibliothèque peut s'interfacer avec
des applications Hadoop et fournit
de nombreux algorithmes pouvant
s'exécuter sur des clusters de
machines.
17/05/2014 38M1MPDAM
39. Dans le cadre de l'administration de
clusters et d'applications distribuées,
ZooKeeper, permet de configurer les
machines physiques et services
entrant dans le contexte
d'applications construites sur
Hadoop. Il s'agit également d'un
projet de la fondation Apache,
largement utilisé par les entreprises
gérant de gros volumes de données.
17/05/2014 39M1MPDAM
40. Le projet Chukwa, construit également sur
Hadoop, permet l'analyse et le monitoring
des taches MapReduce. Celui-ci est
principalement utilisé pour l'analyse de logs
collectés via des plate-formes Web.
17/05/2014 40M1MPDAM
41. Cloudera est une start-up de la Silicon
Valley, fondée par Jeff Hammerbach, ancien
de chez Facebook ainsi que des ingénieurs
de chez Yahoo ayant travaillé dans le
domaine du distribué sur les projets Nutch
et Hadoop.
Depuis 2011, elle fournit une distribution
basée sur Unix, Cloudera CDH, embarquant
la version 1.0 de la bibliothèque Hadoop.
Les intérêts de cette distribution sont de
pouvoir déployer rapidement Hadoop sur
des machines (via le réseau), de manière
homogène, ce qui simplifie et accélére la
configuration et la mise en place de clusters
de machines dans les entreprises.
17/05/2014 41M1MPDAM
42. Hadoop a été solution très efficace pour les
entreprises qui traitent des données à
perabytes.
Il a résolu de nombreux problèmes dans
l'industrie liés à la grande gestion de données
et système distribué Comme il est open
source, il est adopté par les entreprises à
grande échelle..
17/05/2014 42M1MPDAM