Rapide introduction à Hadoop lors du lancement du Casablanca Hadoop & Big Data Meetup.
En partenariat avec Hortonworks
http://www.meetup.com/Casablanca-Hadoop-et-Big-Data-Meetup
Petit-déjeuner MapReduce-La révolution dans l’analyse des BigDataMarc Bojoly
Big Data, MapReduce, calculs distribués, sont autant de buzz words et de concepts cantonnés jusqu’à maintenant à quelques acteurs spécifiques. Pourtant, il est un état de fait : nous sommes assis sur une quantité gigantesque de données dont il est difficile d’extraire l’information… D’autre part MapReduce est une solution éprouvée pour analyser d’énormes quantités de données (ou Big Data). Elle a, par exemple, été mise en œuvre par Google pour indexer le web, par LinkedIn pour calculer ses campagnes d’email… Dans ces conditions, ces concepts ont-ils un intérêt dans nos SI ? Quel est le niveau de maturité de ces solutions ? Cet atelier, co-organisé par OCTO Technology (www.octo.com) et Plaform (www.platform.com), démontrera que de telles solutions font sens dans nos projets SI. - See more at: http://blog.octo.com/petit-dejeuner-mapreduce-la-revolution-dans-lanalyse-des-bigdata-le-27-septembre/#sthash.GvRo8gOQ.dpuf
Petit-déjeuner MapReduce-La révolution dans l’analyse des BigDataMarc Bojoly
Big Data, MapReduce, calculs distribués, sont autant de buzz words et de concepts cantonnés jusqu’à maintenant à quelques acteurs spécifiques. Pourtant, il est un état de fait : nous sommes assis sur une quantité gigantesque de données dont il est difficile d’extraire l’information… D’autre part MapReduce est une solution éprouvée pour analyser d’énormes quantités de données (ou Big Data). Elle a, par exemple, été mise en œuvre par Google pour indexer le web, par LinkedIn pour calculer ses campagnes d’email… Dans ces conditions, ces concepts ont-ils un intérêt dans nos SI ? Quel est le niveau de maturité de ces solutions ? Cet atelier, co-organisé par OCTO Technology (www.octo.com) et Plaform (www.platform.com), démontrera que de telles solutions font sens dans nos projets SI. - See more at: http://blog.octo.com/petit-dejeuner-mapreduce-la-revolution-dans-lanalyse-des-bigdata-le-27-septembre/#sthash.GvRo8gOQ.dpuf
MapReduce: Traitement de données distribué à grande échelle simplifiéMathieu Dumoulin
Présentation qui reprend les éléments principaux de l'article fondamental sur MapReduce de Dean et Ghemawat de 2004: MapReduce: simplified data processing on large clusters
Présentation de l'architecture de calcul de statistique web chez Scoop.it, basé sur Hadoop+Hive, présentation faite lors de la session du 13 Décembre 2012 du Jug Toulouse
Big Data: Hadoop Map / Reduce sur Windows et Windows AzureMicrosoft
L'algorithme Map/Reduce et sa mise en oeuvre avec Apache Hadoop permettent de gérer de très grands volumes de données non structurées. Microsoft adopte Haddop sur Windows et Windows Azure. Venez voir comment.
CNES - CCT SIL - Traitement et Manipulation de la donnée à l‘aide des technologies Big Data
Présentation du 30 Juin 2017
Les CCT sont des espaces d'échanges techniques mis en place par le CNES il y a 20 ans, dans le but de réunir différents acteurs industriels et public pour s'enrichir mutuellement.
BigData_TP1: Initiation à Hadoop et Map-ReduceLilia Sfaxi
Pour accéder aux fichiers nécessaires pour faire ce TP, visitez: https://drive.google.com/folderview?id=0Bz7DokLRQvx7M2JWZEt1VHdwSE0&usp=sharing
Pour plus de contenu, Visitez http://liliasfaxi.wix.com/liliasfaxi !
Pour accéder aux fichiers nécessaires pour faire ce TP, visitez: https://drive.google.com/folderview?id=0Bz7DokLRQvx7M2JWZEt1VHdwSE0&usp=sharing
Pour plus de contenu, Visitez http://liliasfaxi.wix.com/liliasfaxi !
Annexe du cours Big Data
- Annexe A : Etapes d’un projet Big Data
- Annexe B : Schéma général de l’Algorithme MapReduce
- Annexe C : OpenStack & Hadoop
- Annexe D : Mahout
Big Data : Hadoop
- Généralité
- Architecture HDFS
- Algorithme MapRduce
- Architecture YARN
- Hadoop v3.x vs Hadoopv2.x
Cours Big Data - Chap2 - GI3 - ENIS
Hadoop est un framework 100% open source,écrit en Java et géré par la fondation Apache
Hadoop est capable de stocker et traiter de manière efficace un grand nombre de donnés, en reliant plusieurs serveurs banalisés entre eux pour travailler en parallèle
Hortonworks est l'éditeur d'Hortonworks Data Platform (HDP), une plate-forme de données basée sur Hadoop qui comprend entre autres les systèmes Hadoop Distributed File System (HDFS), Hadoop MapReduce, Apache Pig, Apache Hive, Apache HBase et Apache ZooKeeper.
MapReduce: Traitement de données distribué à grande échelle simplifiéMathieu Dumoulin
Présentation qui reprend les éléments principaux de l'article fondamental sur MapReduce de Dean et Ghemawat de 2004: MapReduce: simplified data processing on large clusters
Présentation de l'architecture de calcul de statistique web chez Scoop.it, basé sur Hadoop+Hive, présentation faite lors de la session du 13 Décembre 2012 du Jug Toulouse
Big Data: Hadoop Map / Reduce sur Windows et Windows AzureMicrosoft
L'algorithme Map/Reduce et sa mise en oeuvre avec Apache Hadoop permettent de gérer de très grands volumes de données non structurées. Microsoft adopte Haddop sur Windows et Windows Azure. Venez voir comment.
CNES - CCT SIL - Traitement et Manipulation de la donnée à l‘aide des technologies Big Data
Présentation du 30 Juin 2017
Les CCT sont des espaces d'échanges techniques mis en place par le CNES il y a 20 ans, dans le but de réunir différents acteurs industriels et public pour s'enrichir mutuellement.
BigData_TP1: Initiation à Hadoop et Map-ReduceLilia Sfaxi
Pour accéder aux fichiers nécessaires pour faire ce TP, visitez: https://drive.google.com/folderview?id=0Bz7DokLRQvx7M2JWZEt1VHdwSE0&usp=sharing
Pour plus de contenu, Visitez http://liliasfaxi.wix.com/liliasfaxi !
Pour accéder aux fichiers nécessaires pour faire ce TP, visitez: https://drive.google.com/folderview?id=0Bz7DokLRQvx7M2JWZEt1VHdwSE0&usp=sharing
Pour plus de contenu, Visitez http://liliasfaxi.wix.com/liliasfaxi !
Annexe du cours Big Data
- Annexe A : Etapes d’un projet Big Data
- Annexe B : Schéma général de l’Algorithme MapReduce
- Annexe C : OpenStack & Hadoop
- Annexe D : Mahout
Big Data : Hadoop
- Généralité
- Architecture HDFS
- Algorithme MapRduce
- Architecture YARN
- Hadoop v3.x vs Hadoopv2.x
Cours Big Data - Chap2 - GI3 - ENIS
Hadoop est un framework 100% open source,écrit en Java et géré par la fondation Apache
Hadoop est capable de stocker et traiter de manière efficace un grand nombre de donnés, en reliant plusieurs serveurs banalisés entre eux pour travailler en parallèle
Hortonworks est l'éditeur d'Hortonworks Data Platform (HDP), une plate-forme de données basée sur Hadoop qui comprend entre autres les systèmes Hadoop Distributed File System (HDFS), Hadoop MapReduce, Apache Pig, Apache Hive, Apache HBase et Apache ZooKeeper.
Big Data Analytics for connected home: a few usecases, some important messages and a little example. Presentation given at CEA Cadarache - Cité des Nouvelles Energies at the strategic comittee of ARCSIS (http://www.arcsis.org/missions.html)
Les modes de licences de nos principaux produits ont considérablement évolué ces derniers mois. Cette session permettra de revenir rapidement sur les changements intervenus sur SQL Server 2012, System Center 2012, Windows Server 2012, Windows 8… L'arrivée du Nouvel Office s'accompagnant également de changements profonds sur la façon d’acheter, mixant références on-premise et services en ligne, venez découvrir les solutions qui accompagnent cette évolution.
Cours HBase et Base de Données Orientées Colonnes (HBase, Column Oriented Dat...Hatim CHAHDI
Ce cours introduit les bases de données orientées colonnes et leurs spécificités. Il détaille par la suite l'architecture d'HBase et explique les moyens nécessaires à sa mise en place et à son exploitation.
Valtech - Du BI au Big Data, une révolution dans l’entrepriseValtech
La Business Intelligence, dans l’entreprise, est actuellement en train de se métamorphoser.
Le Big Data permet d’explorer de nouvelles possibilités qui révolutionnent l’informatique décisionnelle.
Hervé Desaunois - Directeur technique, Valtech Toulouse
herve.desaunois@valtech.fr
Lionel Molas - Consultant Senior - Coach Agile, Valtech Toulouse
Présentation générales du Big Data et zoom sur des cas d'usage dans l'industrie et les services.
Présentation réalisée à l'occasion de l'événement Big data de Niort du 20 mars 2014
Support Complet sur la technologie EJB 3.1. Ce cours Traite l'architecture JEE. Les différents types EJB (Session, Entity, MDB). Des exemple complets sont aussi présentés.
Hadoop est devenu la plateforme de référence dans le monde Big Data.
Dans cette session, nous proposons un tour d’horizon de cet écosystème.
Nous vous présenterons les principaux composants de la plateforme, leurs fonctionnalités, leur maturité et les limites qu’ils permettent de dépasser.
Nous nous appuierons pour cela sur différents exemples de mise en œuvre afin d’illustrer la manière dont ils s’interconnectent pour former des solutions complètes de traitement des données.
Petit-déjeuner OCTO : Hadoop, plateforme multi-tenant, à tout d'une grande !OCTO Technology
Hadoop, initialement conçu pour traiter les (très) gros batchs, a été victime de son succès : il s'affirme de plus en plus comme la plateforme à tout faire du Big Data. On lui demande désormais de supporter plusieurs utilisateurs, les traitements interactifs, la ségrégation ou le partage de données entre entité, et, évidemment... la sécurité qui va avec ces nouveaux usages !
D'une solution de geeks, Hadoop est devenu une plateforme business stratégique pour les entreprises.
Pour aller chatouiller des Oracle ou des Teradata sur leur terrain, Hadoop a dû muscler son jeu avec de nouvelles fonctionnalités.
Ce petit déjeuner est l'occasion de faire un point sur les dernières évolutions d'Hadoop, l'état de l'art de sa mise en oeuvre chez nos clients, et sur les éléments clés de la roadmap des principales distributions.
Solr + Hadoop - Fouillez facilement dans votre système Big Datafrancelabs
Un système Hadoop a pour but de facilement gérer le Big Data, que ce soit en termes de stockage comme en termes de calculs. Il ne se focalise pas sur l’exploration des données qu’il héberge. Le moteur de recherche Apache Solr devient l’outil de recherche de référence dans l’écosystème Hadoop, adopté par Cloudera et HortonWorks. Dans cette intervention, ils présentent d’abord un historique des 2 projets, pour bien comprendre leurs liens. Ils expliquent ensuite les différents niveaux d’intégrations possibles, et ils terminent par une démonstration d’intégration, afin de comprendre les avantages d’utiliser Solr pour explorer le big data d’un Hadoop.
Bluestone - Panorama des solutions analytiques existantesBluestoneServices
La Société Française de Statistique (SFdS) nous a fait le plaisir de convier Bluestone, le 16 janvier 2014, à son Rendez-Vous Méthodes et Logiciels consacré au Big Data.
Bluestone y a présenté un “Panorama des solutions analytiques existantes”.
Techday Arrow Group: Hadoop & le Big DataArrow Group
retrouvez notre techday sur Hadoop & le Big Data.
La Technologie Hadoop au coeur des
projets "Big Data".
Pour en savoir plus sur notre projet Square Predict:
http://www.square-solutions.com/accueil/square-predict-big-data-assurance/
2. 2
L’histoire d’Hadoop
Le principe et l’architecture d’Hadoop
Un filesystem: HDFS
Un framework (historique) de traitements distribués: MapReduce
Quelques composants de l’écosystème
Démo MapReduce
Démo Hive
Présentation Ambari
De quoi allons nous parler ?
3. 3
Démos sur Hortonworks Data Platform
VM pré-cablée pour tester Hadoop
http://hortonworks.com/products/hortonworks-sandbox/
4. 4
Présentation d’Hadoop – Qu’est ce que c’est ?
Solution Open Source Big Data fournissant un socle
Distribué
Stockage
Traitement
Scalable
Scalabilité linéaire
Stockage local Rapide et peu cher
SAN 2-10$ / Go
NAS 1-5$/ Go
Local 0.05$ / Go
Clusters de « commodity hardware »
Open Source pour éviter le « vendor lock-in »
6. 6
Pour les systèmes décisionnels, Hadoop s’impose
comme l’architecture de référence sur la marché
Open •Apache Hadoop
Source
•Cloudera
•Hortonworks
•MapR
Pure
Players
•Greenplum (Pivotal)
•IBM InfoSphere BigInsights (CDH)
•Oracle Big data appliance (CDH)
•NetApp Analytics (CDH)
•…
Editeurs
•Amazon Elastic MapReduce
•Microsoft Azure HDInsight (HW)
•Hadoop on Google GCP
Cloud
publique
De nombreuses
solutions d’entreprise
souvent construites autour d’Hadoop
9. 9
Les composants d’Hadoop – HDFS
Système de fichiers distribué
Scalable horizontalement (ajout de noeuds)
Tolérant aux pannes grâce à la réplication intelligente des blocs (128Mo)
Un noeud HDFS sur chaque DataNode du cluster
HDFS est optimisé
Pour le stockage de gros fichiers en nombre réduit (< 1M de fichiers)
Pour la lecture en bloc de ces fichiers (« full scan ») Pas de Random Access
Déposer, naviguer, télécharger, supprimer des fichiers
CLI ou interface web
Le NameNode maintient la liste des fichiers et de ses blocs
Analogue à la FAT d’un système de fichiers classique
10. 10
Les composants d’Hadoop – Un cluster HDFS
RÉSEAU LOCAL
Name node Data node
file1 #1
file2 #2
Client
HDFS
Data node
file1 #1
file1 #2
file2 #1
Data node
file2 #2
file1 #2
file2 #1
/file1
1 2
/file2
1 2
RACK 1 RACK 2
Console web
12. 12
Framework de programmation
MapReduce
Parallélisation automatique des jobs Hadoop.
Gestion transparente du mode distribué agréable pour le développeur !
MapReduce = 2 fonctions
map()
convertir une donnée en entrée en une série de paires clé/valeur
et reduce()
appliquer un traitement à l'ensemble des valeurs trouvées pour une clé
Ie: consolider les données issues du Mapper
Map Reduce est un framework
Structurant en terme de développement / conception
Il faut rentrer dans le paradigme
13. 13
Data node
Task tracker Task tracker Task tracker
file1 #1
Data node
file1 #2
Data node
file1 #3
Client
MR
Data node
Job tracker
Name node
Présentation d’Hadoop – Map Reduce
15. 15
Data node
Task tracker Task tracker Task tracker
file1 #1
Data node
file1 #2
Data node
file1 #3
Mapper
Reducer
Mapper
Reducer
Mapper
Data node
Job tracker
Name node
Shuffle & sort
Client
MR
Présentation d’Hadoop – Map Reduce
16. 16
Exemple de MapReduce
Les Mapper
-lisent leur bloc ligne par ligne
-découpent les lignes en mot
-envoient ces mots aux Reducers
La phase de Shuffle & Sort
-combine les paires qui ont la même clé
-trie
Les Reducers
-somment les 1
-envoient vers la sortie (HDFS) la liste des
mots et le compte associé
17. 17
API native en Java
Bas niveau
Comment créer un job Map Reduce ?
Rapide
Beaucoup de contrôle
Parfois complexe à utiliser pour des tâches complexes (ex: joins)
Trois éléments essentiels
Mapper : classe contenant la méthode map()
Reducer : classe contenant la méthode reduce()
Driver : classe contenant la méthode main() et configurant le job
Il est aussi possible d’écrire des jobs Map Reduce
indépendamment du langage (Shell, Python, Ruby…) grâce à
l’API Streaming Hadoop
31. 31
Requêtage SQL sur Hadoop (HiveQL)
Apache Hive
Permet d’accéder simplement aux données
Ouvre Hadoop aux habitués du SQL
Propose des drivers ODBC pour brancher des outils externes (Tableau, etc.)
Origine:
Facebook (90%+ des job Hadoop de Facebook sont générés avec Hive)
Les requêtes HiveQL sont compilés en jobs MapReduce
Lenteur importante (aujourd’hui: pas interactif mais batch)
Faibles performances + Marché très important des BD SQL
Forte concurrence
Impala (Cloudera)
Spark SQL
Hortonworks de son côté pousse la communauté vers l’optimisation (Stinger)
39. 39
Continuer à explorer l’écosystème
HBase
Streaming (Storm, …)
…
Optimisation Hadoop (jobs MapReduce, etc.)
Industrialiser le déploiement de son cluster
Chef/Puppet
Capistrano
…
Pour aller plus loin
Notes de l'éditeur
Merci Nabil pour cette intro aux BD Graph
A mon tour, je vais vous faire une intro à Hadoop
L’idée n’est pas de vous présenter en détail cette plateforme assez complexe mais de comprendre le principe et l’archi et coder ensemble un job
Commodity => Boites à Pizza au lieu de gros serveur IBM Power System
Vendor LockIn => enorme customisation Hadoop chez les géants du web
En 2002, Doug Cutting - créateur de Lucene - veut créer un moteur de recherche web open-source sur la base de Lucene. Projet Nutch
En 2003, Google publie le WP « GFS », en 2004 Doug porte Nutch sur NDFS
En 2004: Google publie le papier « MapReduce », en 2005, Doug migre complètement Nutch sur MR
En 2006, Doug sort le projet de Lucene et invente le nom (éléphant de son fils)
Même année, recruté par Yahoo! (en 2008, Yahoo! = cluster Hadoop de 10.000 nœuds)
Maintenant Cutting est chez Cloudera et président de Apache SF
+ histoire HW
Les alliances
Intel-Cloudera-MongoDB
Intel a investi 740 millions $ dans Cloudera et souhaite en faire la plateforme de facto de l’IoT
Intel a aussi investi dans MongoDB
Hortonworks-Teradata-Microsoft-SAP
Partenariats « revendeurs » et « techniques »
Cavaliers seuls:
Pivotal mais fait partie de la fédération EMC avec VMWare, etc.
IBM
Core Hadoop = HDFS, YARN, MR, Console web & Cli
Slide = HDP mais alternatives
Scheduling = Azkaban
Au dessus de HDFS = Hbase
HDP inclus Ambari Cloudera propose Cloudera Manager (plus mature et complet mais propriétaire)
Déploiement sur Linux/Windows (beau partenariat MS/HW: HDP sur Windows – MS contribue en OSS avec son background BI, etc.)
HA dispo sans techno externe depuis la 2.0
======================
Zookeeper: Gère tout ce qui demande unesynchronisation dans le cluster
Verrous : dans la base de données Hbase par exemple
Notification d’évènement
Haute dispo HDFS
On a 2 fichiers (le orange et le vert) qui sont divisés en blocs (de 128 Mo)
Chaque bloc est déployé (intelligemment) sur un le cluster et répliqué (indice de réplication = 3 par défaut. Dans cet exemple = 2)
=> Dans cet exemple, on peut perdre 1/3 des nœuds du cluster sans perdre de données
/*
NameNode = SPOF
Hadoop 1 : Linux HA / Wmware Vsphere
Hadoop 2 : Actif/Passif – NameMode en hot standby + service de journal
*/
On en parle car:
MapReduce a été l’unique moyen de faire de processing sur Hadoop jusqu’à YARN
Une grande partie des BD NoSQL intègre une implem MR (ex: MongoDB…)
Switch de mindset (procédural objet)
Avec un peu d’astuce on peut traiter énormément de pb en MR (mais il faut apprendre à penser MR)
Ex: Choses faciles en SGBDR mais Faire des jointures en Map Reduce n’est pas trivial
On a notre Cluster: nameNode + DataNode et donnée distribuée
Le client soumet un job au JobTracker
Le jobTracker distribue le job sur les différents nœuds du cluster ou se trouve la donnée
Vous vous souvenez de l’intro au Big Data ?
Le goulet c’est le I/O
Les mappers prennent la donnée en entrée, la convertisse au format clé/valeur (+traitement additionnel si besoin)
S&S: Se charge de trier les données en sortie des Mapper (en fonction de leur clé) + distribuer vers les Reducer
Ils vont diriger tous les enregistrements qui ont la même clé (en provenance de tous les mapper) vers le même reducer
Ex: je compte les mots d’un énorme fichier
Le fichier est découpé en bloc et les Mapper ont chacun un bloc.
Ils le traitent ligne par ligne
A chaque fois q’un des mapper verra le mot A, il l’enverra vers le Reducer 1
A chaque fois q’un des mapper verra le mot B, il l’enverra vers le Reducer 2
A la fin de la phase de Map, Le Reducer 1 aura reçu toutes les instances du mot A remontées par tous les Mappers
Le Reducer applique le traitement (somme, statistique, etc.) Il consolide les données issues du Mapper
Remarque:
Exemple avec 2 reducers. On peut en avoir 1 seul ou même 0 (les Mapper écrivent directement la sortie)
Le wordCount, c’est le Hello World du MapReduce !
MR découpe le fichier en splits et passe les splits au mapper
Les mappers lisent leur split ligne par ligne, découpent les mots et passent la sortie au Reducer
La phase de S&S combine les paires qui ont la même clé et trie
Les reducers font la somme des 1
YARN, en tant que Fwk, leur a ouvert l’accès à la plateforme
Un OS au dessus d’HDFS
YARN permet d’aller au-delà du batch et ne plus passer par MR pour attaquer HDFS
mapreduce comme paradigme de développement / pattern d'accès à la data (scripts à deux phases, Map et reduce). en dessous tu as le moteur d'exécution qui peut être mapreduce, ou tez