Hadoop est un framework 100% open source,écrit en Java et géré par la fondation Apache
Hadoop est capable de stocker et traiter de manière efficace un grand nombre de donnés, en reliant plusieurs serveurs banalisés entre eux pour travailler en parallèle
Hadoop est un framework 100% open source,écrit en Java et géré par la fondation Apache
Hadoop est capable de stocker et traiter de manière efficace un grand nombre de donnés, en reliant plusieurs serveurs banalisés entre eux pour travailler en parallèle
Big Data : Hadoop
- Généralité
- Architecture HDFS
- Algorithme MapRduce
- Architecture YARN
- Hadoop v3.x vs Hadoopv2.x
Cours Big Data - Chap2 - GI3 - ENIS
Bases de Données non relationnelles, NoSQL (Introduction) 1er coursHatim CHAHDI
Ce premier cours introduit les systèmes de stockages NoSQL. L'objectif est d'introduire les alternatives de stockages disponibles et de sensibiliser sur les spécificités de chacun des paradigmes de stockage.
Les BD orientées graphes sont aussi présentées dans la deuxième partie du cours avec une étude du système Neo4j.
BigData_TP2: Design Patterns dans HadoopLilia Sfaxi
Pour accéder aux fichiers nécessaires pour faire ce TP, visitez: https://drive.google.com/folderview?id=0Bz7DokLRQvx7M2JWZEt1VHdwSE0&usp=sharing
Pour plus de contenu, Visitez http://liliasfaxi.wix.com/liliasfaxi !
CNES - CCT SIL - Traitement et Manipulation de la donnée à l‘aide des technologies Big Data
Présentation du 30 Juin 2017
Les CCT sont des espaces d'échanges techniques mis en place par le CNES il y a 20 ans, dans le but de réunir différents acteurs industriels et public pour s'enrichir mutuellement.
BigData_TP1: Initiation à Hadoop et Map-ReduceLilia Sfaxi
Pour accéder aux fichiers nécessaires pour faire ce TP, visitez: https://drive.google.com/folderview?id=0Bz7DokLRQvx7M2JWZEt1VHdwSE0&usp=sharing
Pour plus de contenu, Visitez http://liliasfaxi.wix.com/liliasfaxi !
Vous êtes responsable MOA ou MOE et vous vous interrogez sur les possibilités du Machine Learning ?
Vous avez déjà rapidement entendu parler de classification supervisée, de prédiction, de recommandation … mais vous n’en comprenez pas réellement les tenants et les aboutissants ?
Cette présentation est faite pour vous!
Vous trouverez :
- une définition concise
- les grands principes du ML
- les problématiques auxquelles répond le ML
- les étapes à suivre
- les prémices d’un projet
- les indicateurs à prendre en compte lors du choix de l’algorithme à utiliser
Aujourd’hui, tous les métiers sont concernés par le Machine Learning, alors n’ayez pas peur de vous lancer! C’est à vous!
Si vous avez des questions, les commentaires sont les bienvenus.
Pour accéder aux fichiers nécessaires pour faire ce TP, visitez: https://drive.google.com/folderview?id=0Bz7DokLRQvx7M2JWZEt1VHdwSE0&usp=sharing
Pour plus de contenu, Visitez http://liliasfaxi.wix.com/liliasfaxi !
Big Data : Hadoop
- Généralité
- Architecture HDFS
- Algorithme MapRduce
- Architecture YARN
- Hadoop v3.x vs Hadoopv2.x
Cours Big Data - Chap2 - GI3 - ENIS
Bases de Données non relationnelles, NoSQL (Introduction) 1er coursHatim CHAHDI
Ce premier cours introduit les systèmes de stockages NoSQL. L'objectif est d'introduire les alternatives de stockages disponibles et de sensibiliser sur les spécificités de chacun des paradigmes de stockage.
Les BD orientées graphes sont aussi présentées dans la deuxième partie du cours avec une étude du système Neo4j.
BigData_TP2: Design Patterns dans HadoopLilia Sfaxi
Pour accéder aux fichiers nécessaires pour faire ce TP, visitez: https://drive.google.com/folderview?id=0Bz7DokLRQvx7M2JWZEt1VHdwSE0&usp=sharing
Pour plus de contenu, Visitez http://liliasfaxi.wix.com/liliasfaxi !
CNES - CCT SIL - Traitement et Manipulation de la donnée à l‘aide des technologies Big Data
Présentation du 30 Juin 2017
Les CCT sont des espaces d'échanges techniques mis en place par le CNES il y a 20 ans, dans le but de réunir différents acteurs industriels et public pour s'enrichir mutuellement.
BigData_TP1: Initiation à Hadoop et Map-ReduceLilia Sfaxi
Pour accéder aux fichiers nécessaires pour faire ce TP, visitez: https://drive.google.com/folderview?id=0Bz7DokLRQvx7M2JWZEt1VHdwSE0&usp=sharing
Pour plus de contenu, Visitez http://liliasfaxi.wix.com/liliasfaxi !
Vous êtes responsable MOA ou MOE et vous vous interrogez sur les possibilités du Machine Learning ?
Vous avez déjà rapidement entendu parler de classification supervisée, de prédiction, de recommandation … mais vous n’en comprenez pas réellement les tenants et les aboutissants ?
Cette présentation est faite pour vous!
Vous trouverez :
- une définition concise
- les grands principes du ML
- les problématiques auxquelles répond le ML
- les étapes à suivre
- les prémices d’un projet
- les indicateurs à prendre en compte lors du choix de l’algorithme à utiliser
Aujourd’hui, tous les métiers sont concernés par le Machine Learning, alors n’ayez pas peur de vous lancer! C’est à vous!
Si vous avez des questions, les commentaires sont les bienvenus.
Pour accéder aux fichiers nécessaires pour faire ce TP, visitez: https://drive.google.com/folderview?id=0Bz7DokLRQvx7M2JWZEt1VHdwSE0&usp=sharing
Pour plus de contenu, Visitez http://liliasfaxi.wix.com/liliasfaxi !
Rapide introduction à Hadoop lors du lancement du Casablanca Hadoop & Big Data Meetup.
En partenariat avec Hortonworks
http://www.meetup.com/Casablanca-Hadoop-et-Big-Data-Meetup
Petit-déjeuner OCTO : Hadoop, plateforme multi-tenant, à tout d'une grande !OCTO Technology
Hadoop, initialement conçu pour traiter les (très) gros batchs, a été victime de son succès : il s'affirme de plus en plus comme la plateforme à tout faire du Big Data. On lui demande désormais de supporter plusieurs utilisateurs, les traitements interactifs, la ségrégation ou le partage de données entre entité, et, évidemment... la sécurité qui va avec ces nouveaux usages !
D'une solution de geeks, Hadoop est devenu une plateforme business stratégique pour les entreprises.
Pour aller chatouiller des Oracle ou des Teradata sur leur terrain, Hadoop a dû muscler son jeu avec de nouvelles fonctionnalités.
Ce petit déjeuner est l'occasion de faire un point sur les dernières évolutions d'Hadoop, l'état de l'art de sa mise en oeuvre chez nos clients, et sur les éléments clés de la roadmap des principales distributions.
Alphorm.com Formation Big Data & Hadoop : Le Guide CompletAlphorm
Une bonne analyse et synthèse sur le domaine Big Data
Beaucoup de pratique sur Hadoop avec différentes méthodes : HDFS, Map Reduce, YARN, Spark, Hive, NoSQL, HDFS, HBase, zookeeper, MESOS et plusieurs autres outils
Les points forts de la formation
Une analyse globale sur le domaine Big Data et sur les outils liés à Hadoop avec beaucoup de pratique
Contenu de la formation
• Une bonne analyse de chaque concept illustré par de la pratique
• Les outils à installer sont à disposition
• Toutes les ressources sont à disposition
Résultats attendus
• Découvrir les formidables possibilités du Big Data avec Hadoop
• Comprendre parfaitement le périmètre de chaque outil de l'écosystème Hadoop
• Etre au fait de pouvoir utiliser Azure, AWS, et Google pour faire de l'Hadoop dans le Cloud
• Utiliser directement Hadoop sur de très nombreux exemples
• Découvrir le périmètre des bases NoSQL
• Comprendre comment faire du traitement temps réel avec Spark
Big Data: Hadoop Map / Reduce sur Windows et Windows AzureMicrosoft
L'algorithme Map/Reduce et sa mise en oeuvre avec Apache Hadoop permettent de gérer de très grands volumes de données non structurées. Microsoft adopte Haddop sur Windows et Windows Azure. Venez voir comment.
Ce support explique les concepts de base de Big Data Processing. Elle aborde les parties suivantes :
Série de vidéos : https://www.youtube.com/watch?v=1JAljjxpm-Q
- Introduction au Big Data
- Système de stockage en Big Data
- Batch Processing et Stream Processing en Big Data
- Aperçu bref de l’écosystème de Hadoop
- Aperçu de l’écosystème des outils du Bid Gata
- Big data stream processing avec Kafka écosystème
- Architecture de Kafka (Brokers, Zookeeper, Procuder, Consumer, Kafka Streams, Connecteurs)
- Comment démarrer un cluster de brokers KAFKA
- Création et configuration des Topics
- Création d’un Java Kafka consumer
- Création d’un Java Kafka Produder
- Kafka Producer et Kafka Consumer dans une application basée sur Spring
- Kafka Streams
- Intégration de Kafka dans Spring Cloud.
Mot clés : Big data, Big Data Processing, Stream Processing, Kafka, Kafka Streams, Java, Spring
Bon apprentissage
Hadoop est devenu la plateforme de référence dans le monde Big Data.
Dans cette session, nous proposons un tour d’horizon de cet écosystème.
Nous vous présenterons les principaux composants de la plateforme, leurs fonctionnalités, leur maturité et les limites qu’ils permettent de dépasser.
Nous nous appuierons pour cela sur différents exemples de mise en œuvre afin d’illustrer la manière dont ils s’interconnectent pour former des solutions complètes de traitement des données.
Le stockage des données a toujours été une des problématiques les plus difficiles à maitriser. L’augmentation massive de la quantités de données disponibles, le phénomène Big Data, incite les sociétés à moderniser leur environnement décisionnel. Dès lors, beaucoup se posent la question du choix entre SQL et NoSQL. Microsoft, avec son offre SQL Server Parallel Data Warehouse 2012 réconcilie le meilleur des technologies actuelles. Un seul moto ‘Insights on Any Data of Any Size’
1. République Algérienne démocratique et populaire.
Université Dr. Tahar Moulay – Saïda
Département d’informatique
Matière :
Master1 RISR
HADOOP
2018/2019
Présenté par : Enseigné par :
• Abderrahmane KAFI
• Kamar MEDDAH
• Mr. Houacine
7. II. INTRODUCTION
Le problème
Depuis maintenant plusieurs années, le monde de l'informatique est entré
dans une ère dans laquelle la principale problématique n'est plus de
comment acquérir des données mais plutôt de comment gérer l'énorme
quantité de données que nous sommes capables d'acquérir.
Gérer de telles quantités de données pose deux problèmes principaux
comment stocker ces informations
aucun disque dur seul n'est capable de stocker plusieurs milliers de téraoctets
de données
comment organiser et rechercher dans ces informations
une machine seule n'a pas la puissance nécessaire pour effectuer des
recherches suffisamment rapides sur les données .
Hadoop 7
8. II. INTRODUCTION
La solution
La solution à ces deux problèmes est d'utiliser plusieurs machines : en partageant
leur disque dur, les machines forment un groupe de stockage bien plus grand
en partageant leur processeur (et/ou leur carte graphique), les machines forment
un groupe de calcul bien plus performant
Cependant, utiliser plusieurs machines comme si elles n'en formaient qu'une
aux yeux de l'extérieur implique une synchronisation entre ces machines. Il
faut être capable de les faire dialoguer pour qu'elles puissent se répartir la
charge et le stockage intelligemment. Cette organisation de machines
dialoguant pour partager stockage et puissance de calcul est appelée un
cluster de machine (et les machines de ce cluster sont alors appelées des
nœuds).
Hadoop 8
9. II. INTRODUCTION
C'est là qu'intervient Hadoop, pour apporter un contexte, des outils et des
conventions afin de rapidement pouvoir mettre en place un tel cluster, y
stocker des données et y exécuter des programmes de manière distribuée.
À l’heure actuelle, Hadoop est la principale plateforme du Big Data.
Utilisé pour le stockage et le traitement d’immenses volumes de données,
ce framework logiciel et ses différents composants sont utilisés par de
très nombreuses entreprises pour leurs projets Big Data. En parcourant ce
dossier, vous saurez tout sur Hadoop et son fonctionnement.
Hadoop 9
11. III. HADOOP
Apache Hadoop est un framework logiciel open source écrit en Java et géré
par la fondation Apache.
Apache Hadoop est un framework conçu pour le traitement d'ensembles de
données volumineuses répartis sur de grands ensembles de machines.
Hadoop est capable de stocker et traiter de manière efficace un grand
nombre de donnés, en reliant plusieurs serveurs banalisés entre eux pour
travailler en parallèle.
Tous les modules de Hadoop sont conçus avec l’hypothèse de base selon
laquelle les défaillances matérielles sont courantes et doivent être gérées
automatiquement par la structure.
Hadoop est devenu l’outil de facto utilisé pour l’informatique distribuée.
Hadoop 11
12. III. HADOOP
Hadoop est utilisé par des entreprises ayant de très fortes volumétries de
données à traiter. Parmi elles, des géants du web comme Facebook, Twitter,
LinkedIn, ou encore les géants de l’e-commerce à l’instar de eBay et Amazon.
Un système de fichier distribué (HDFS).
Un ordonnanceur du programmes MapReduce .
Hadoop 12
14. 1. Fonctionnement de Hadoop
Hadoop est principalement constitué de deux composants :
Stockage des données : HDFS (Hadoop Distributed File System)
Traitement des données : MapReduce / Yarn
Principe :
Diviser les données
Les sauvegarder sur une collection de machines, appelées cluster.
Traiter les données directement là où elles sont stockées , plutôt que de
les copier à partir d’un serveur distribué.
Hadoop 14
15. 1. Fonctionnement de Hadoop
Il est possible d’ajouter des machines à votre cluster, au fur et à
mesure que les données augmentent.
En plus des briques de base Yarn Map Reduce/HDFS, plusieurs outils
existent pour permettre:
L’extraction et le stockage des données de/sur HDFS.
La simplification des opérations de traitement sur ces données.
La gestion et coordination de la plateforme.
Le monitoring du cluster.
Hadoop 15
19. IV. Map Reduce
Patron d’architecture de développement permettant de traiter des
données volumineuses de manière parallèle et distribuée.
MapReduce consiste en deux fonctions map() et reduce().
Au lieu de parcourir le fichier séquentiellement (bcp de temps), il est
divisé en morceaux qui sont parcourus en parallèle.
Hadoop 19
20. IV. Map Reduce
MapReduce implémente les fonctionnalités suivantes :
Parallélisassions automatique des programmes Hadoop.
HDFS se charge de la répartition et de la réplication des données
Le maître divise le travail en jobs parallèles et les répartit
Le maître collecte les résultats et gère les pannes des nœuds.
Gestion transparente du mode distribué.
Tolérance aux pannes.
Hadoop 20
23. V. HDFS
Optimisé pour stocker de très gros fichiers.
Les fichiers sont divisés en blocs(taille 128 Mo).
Une architecture maitre-esclave
Le maitre HDFS: le Namenode.
Les esclaves de HDFS: les DataNoeuds.
Les blocks sont stockées sur datanodes.
Chaque block est répliqué sur différents datanodes(3 par défaut) Conçu pour
un mode 1 écriture pour plusieurs lectures.
Hadoop 23
24. V. HDFS
HDFS est un système de fichiers distribué. C’est à dire :
les fichiers et dossiers sont organisés en arbre (comme Unix)
ces fichiers sont stockés sur un grand nombre de machines de manière à rendre
invisible la position exacte d’un fichier. L’accès est transparent, quelle que soient
les machines qui contiennent les fichiers.
les fichiers sont copiés en plusieurs exemplaires pour la fiabilité et permettre des
accès simultanés multiples
HDFS permet de voir tous les dossiers et fichiers de ces milliers de machines
comme un seul arbre, contenant des Po de données, comme s’ils étaient sur
le disque dur local.
Hadoop 24
26. V. HDFS : Namenode
Responsable de la distribution et de la réplication des blocs .
Serveurs d’information du HDFS pour le client HDFS .
Stockage et gère les métadonnées.
Liste des blocs pour chaque bloc.
Liste des fichiers.
Liste des datanodes pour chaque bloc.
Attributs des fichiers(ex: Nom, date de création, facteur de réplication).
Log toute métadonnées et toutes transaction sur un support persistant.
Lecture/écritures
Création/suppression
Hadoop 26
27. V. HDFS : Namenode
La capacité mémoire du Namenode décidera du nombre de blocs que l on
peut avoir dans le HDFS.
Hadoop 27
28. V. HDFS : Datanodes
Stocke des blocks de données dans le systèmes de fichier local
Maintient des métadonnées sur blocks
Serveurs de bloc de données et de métadonnées pour le client HDFS
communication avec le Namenode
– Message aller vers le Namenode indiquant
Son identité
Sa capacité totale, son espace restant
Message-retour depuis le Namenode
Des commandes(copie de blocs vers d d’autres Datanodes, invalidation, de blocs, etc.)
Hadoop 28
32. VII. Avantages
Hadoop 32
La gestion des défaillances
que ce soit au niveau du stockage ou traitement, les nœuds responsables de ces
opérations sont automatiquement gérés en cas de défaillance. Nous avons donc une
forte tolérance aux pannes.
La sécurité et persistance des données
Grâce au concept « Rack Awarness », il n’y a plus de soucis de perte de données.
La montée en charge
garantie d’une montée en charge maximale.
La complexité réduite
capacité d'analyse et de traitement des données à grande échelle.
Le coût réduit
Hadoop est open source, et malgré leur massivité et complexité, les données sont
traitées efficacement et à très faible coût
34. VIII.Limite
Hadoop 34
Difficulté d’intégration avec d’autres systèmes informatiques
Le transfert de données d’une structure Hadoop vers des bases de données
traditionnelles est loin d’être trivial
Administration complexe
Hadoop utilise son propre langage.
L’entreprise doit donc développer une expertise spécifique Hadoop ou faire appel à
des prestataires extérieurs
Traitement de données différé et temps de latence important
Hadoop n’est pas fait pour l’analyse temps réel des données.
Produit en développement continu
manque de maturité
35. VIII.Références
Hadoop 35
Big Data Analytics – Lesson 1: What is Big Data, IBM, Big Data University.
Intro to Hadoop and MapReduce, Coursera, Udacity.
https://www.tutorialspoint.com/hadoop/