Hadoop est devenu la plateforme de référence dans le monde Big Data.
Dans cette session, nous proposons un tour d’horizon de cet écosystème.
Nous vous présenterons les principaux composants de la plateforme, leurs fonctionnalités, leur maturité et les limites qu’ils permettent de dépasser.
Nous nous appuierons pour cela sur différents exemples de mise en œuvre afin d’illustrer la manière dont ils s’interconnectent pour former des solutions complètes de traitement des données.
Rapide introduction à Hadoop lors du lancement du Casablanca Hadoop & Big Data Meetup.
En partenariat avec Hortonworks
http://www.meetup.com/Casablanca-Hadoop-et-Big-Data-Meetup
Pour accéder aux fichiers nécessaires pour faire ce TP, visitez: https://drive.google.com/folderview?id=0Bz7DokLRQvx7M2JWZEt1VHdwSE0&usp=sharing
Pour plus de contenu, Visitez http://liliasfaxi.wix.com/liliasfaxi !
Spark, ou comment traiter des données à la vitesse de l'éclairAlexis Seigneurin
Spark fait partie de la nouvelle génération de frameworks de manipulation de données basés sur Hadoop. L’outil utilise agressivement la mémoire pour offrir des temps de traitement jusqu’à 100 fois plus rapides qu'Hadoop. Dans cette session, nous découvrirons les principes de traitement de données (notamment MapReduce) et les options mises à disposition pour monter un cluster (Zookeper, Mesos…). Nous ferons un point sur les différents modules proposés par le framework, et notamment sur Spark Streaming pour le traitement de données en flux continu.
Présentation jouée chez Ippon le 11 décembre 2014.
Rapide introduction à Hadoop lors du lancement du Casablanca Hadoop & Big Data Meetup.
En partenariat avec Hortonworks
http://www.meetup.com/Casablanca-Hadoop-et-Big-Data-Meetup
Pour accéder aux fichiers nécessaires pour faire ce TP, visitez: https://drive.google.com/folderview?id=0Bz7DokLRQvx7M2JWZEt1VHdwSE0&usp=sharing
Pour plus de contenu, Visitez http://liliasfaxi.wix.com/liliasfaxi !
Spark, ou comment traiter des données à la vitesse de l'éclairAlexis Seigneurin
Spark fait partie de la nouvelle génération de frameworks de manipulation de données basés sur Hadoop. L’outil utilise agressivement la mémoire pour offrir des temps de traitement jusqu’à 100 fois plus rapides qu'Hadoop. Dans cette session, nous découvrirons les principes de traitement de données (notamment MapReduce) et les options mises à disposition pour monter un cluster (Zookeper, Mesos…). Nous ferons un point sur les différents modules proposés par le framework, et notamment sur Spark Streaming pour le traitement de données en flux continu.
Présentation jouée chez Ippon le 11 décembre 2014.
CNES - CCT SIL - Traitement et Manipulation de la donnée à l‘aide des technologies Big Data
Présentation du 30 Juin 2017
Les CCT sont des espaces d'échanges techniques mis en place par le CNES il y a 20 ans, dans le but de réunir différents acteurs industriels et public pour s'enrichir mutuellement.
MapReduce: Traitement de données distribué à grande échelle simplifiéMathieu Dumoulin
Présentation qui reprend les éléments principaux de l'article fondamental sur MapReduce de Dean et Ghemawat de 2004: MapReduce: simplified data processing on large clusters
Petit-déjeuner MapReduce-La révolution dans l’analyse des BigDataMarc Bojoly
Big Data, MapReduce, calculs distribués, sont autant de buzz words et de concepts cantonnés jusqu’à maintenant à quelques acteurs spécifiques. Pourtant, il est un état de fait : nous sommes assis sur une quantité gigantesque de données dont il est difficile d’extraire l’information… D’autre part MapReduce est une solution éprouvée pour analyser d’énormes quantités de données (ou Big Data). Elle a, par exemple, été mise en œuvre par Google pour indexer le web, par LinkedIn pour calculer ses campagnes d’email… Dans ces conditions, ces concepts ont-ils un intérêt dans nos SI ? Quel est le niveau de maturité de ces solutions ? Cet atelier, co-organisé par OCTO Technology (www.octo.com) et Plaform (www.platform.com), démontrera que de telles solutions font sens dans nos projets SI. - See more at: http://blog.octo.com/petit-dejeuner-mapreduce-la-revolution-dans-lanalyse-des-bigdata-le-27-septembre/#sthash.GvRo8gOQ.dpuf
BigData_TP1: Initiation à Hadoop et Map-ReduceLilia Sfaxi
Pour accéder aux fichiers nécessaires pour faire ce TP, visitez: https://drive.google.com/folderview?id=0Bz7DokLRQvx7M2JWZEt1VHdwSE0&usp=sharing
Pour plus de contenu, Visitez http://liliasfaxi.wix.com/liliasfaxi !
Hadoop est un framework 100% open source,écrit en Java et géré par la fondation Apache
Hadoop est capable de stocker et traiter de manière efficace un grand nombre de donnés, en reliant plusieurs serveurs banalisés entre eux pour travailler en parallèle
Annexe du cours Big Data
- Annexe A : Etapes d’un projet Big Data
- Annexe B : Schéma général de l’Algorithme MapReduce
- Annexe C : OpenStack & Hadoop
- Annexe D : Mahout
Actuellement, on parle beaucoup de traitement en lots (batch) dans le monde du Big Data. Mais qu’en est-il du Streaming et du temps réel ? Beaucoup de frameworks Big Data tentent de répondre à cette problématique. En tête de liste figure Spark : grâce à son composant Spark Streaming, il permet un traitement en continu des flux de données et une disponibilité 24/7.
Au programme :
- Streaming et Architecture Big Data
- Hello world Spark Streaming
- Intégration de Flume à Spark Streaming
- Use case “métriques sur des logs applicatifs”
- Architecture physique : driver / workers / receivers
- Monitoring de Spark Streaming
- Fail over : reliable / unreliable sources, checkpoint, recover
- Tuning et performance.
Speakers :
- Nadhem LAMTI, Architecte Technique chez PALO IT
Depuis 10 ans, Nadhem intervient principalement sur des projets JAVA JEE de grande envergure dans différents secteurs (Télécommunication, Banque, Finance, Transports, Tourisme, etc.), développant ainsi une expertise polyvalente en abordant multiples technologies et architectures. Fort d’une expérience concluante en tant qu’Ingénieur Performance & Support, Nadhem est capable d’intervenir sur des problématiques de production liées à des systèmes d’informations complexes. Actuellement en mission chez Voyages SNCF, il contribue à un grand chantier Big Data de centralisation de logs et s’intéresse tout particulièrement au nouveau produit phare de traitement de données Apache Spark.
- Saâd-Eddine MALTI, Expert BDD chez Voyages SNCF
En poste depuis 10 ans chez Voyages SNCF, Saâd-Eddine intervient en tant qu’Expert BDD sur toutes les applications de manière transverse. L’orientation affichée de Voyages SNCF vers le Big Data pousse Saâd-Eddine à s’investir pleinement dans ce domaine, également sur le nouveau produit phare de traitement de données Apache Spark.
Base de données graphe, Noe4j concepts et mise en oeuvreMICHRAFY MUSTAFA
Cette étude vise à présenter les concepts clés d’une base de données orientée graphe. La modélisation et la mise en œuvre des cas d’utilisation seront réalisées avec la base de données NEO4J, version 3.1.
Hortonworks est l'éditeur d'Hortonworks Data Platform (HDP), une plate-forme de données basée sur Hadoop qui comprend entre autres les systèmes Hadoop Distributed File System (HDFS), Hadoop MapReduce, Apache Pig, Apache Hive, Apache HBase et Apache ZooKeeper.
Big Data: Hadoop Map / Reduce sur Windows et Windows AzureMicrosoft
L'algorithme Map/Reduce et sa mise en oeuvre avec Apache Hadoop permettent de gérer de très grands volumes de données non structurées. Microsoft adopte Haddop sur Windows et Windows Azure. Venez voir comment.
CNES - CCT SIL - Traitement et Manipulation de la donnée à l‘aide des technologies Big Data
Présentation du 30 Juin 2017
Les CCT sont des espaces d'échanges techniques mis en place par le CNES il y a 20 ans, dans le but de réunir différents acteurs industriels et public pour s'enrichir mutuellement.
MapReduce: Traitement de données distribué à grande échelle simplifiéMathieu Dumoulin
Présentation qui reprend les éléments principaux de l'article fondamental sur MapReduce de Dean et Ghemawat de 2004: MapReduce: simplified data processing on large clusters
Petit-déjeuner MapReduce-La révolution dans l’analyse des BigDataMarc Bojoly
Big Data, MapReduce, calculs distribués, sont autant de buzz words et de concepts cantonnés jusqu’à maintenant à quelques acteurs spécifiques. Pourtant, il est un état de fait : nous sommes assis sur une quantité gigantesque de données dont il est difficile d’extraire l’information… D’autre part MapReduce est une solution éprouvée pour analyser d’énormes quantités de données (ou Big Data). Elle a, par exemple, été mise en œuvre par Google pour indexer le web, par LinkedIn pour calculer ses campagnes d’email… Dans ces conditions, ces concepts ont-ils un intérêt dans nos SI ? Quel est le niveau de maturité de ces solutions ? Cet atelier, co-organisé par OCTO Technology (www.octo.com) et Plaform (www.platform.com), démontrera que de telles solutions font sens dans nos projets SI. - See more at: http://blog.octo.com/petit-dejeuner-mapreduce-la-revolution-dans-lanalyse-des-bigdata-le-27-septembre/#sthash.GvRo8gOQ.dpuf
BigData_TP1: Initiation à Hadoop et Map-ReduceLilia Sfaxi
Pour accéder aux fichiers nécessaires pour faire ce TP, visitez: https://drive.google.com/folderview?id=0Bz7DokLRQvx7M2JWZEt1VHdwSE0&usp=sharing
Pour plus de contenu, Visitez http://liliasfaxi.wix.com/liliasfaxi !
Hadoop est un framework 100% open source,écrit en Java et géré par la fondation Apache
Hadoop est capable de stocker et traiter de manière efficace un grand nombre de donnés, en reliant plusieurs serveurs banalisés entre eux pour travailler en parallèle
Annexe du cours Big Data
- Annexe A : Etapes d’un projet Big Data
- Annexe B : Schéma général de l’Algorithme MapReduce
- Annexe C : OpenStack & Hadoop
- Annexe D : Mahout
Actuellement, on parle beaucoup de traitement en lots (batch) dans le monde du Big Data. Mais qu’en est-il du Streaming et du temps réel ? Beaucoup de frameworks Big Data tentent de répondre à cette problématique. En tête de liste figure Spark : grâce à son composant Spark Streaming, il permet un traitement en continu des flux de données et une disponibilité 24/7.
Au programme :
- Streaming et Architecture Big Data
- Hello world Spark Streaming
- Intégration de Flume à Spark Streaming
- Use case “métriques sur des logs applicatifs”
- Architecture physique : driver / workers / receivers
- Monitoring de Spark Streaming
- Fail over : reliable / unreliable sources, checkpoint, recover
- Tuning et performance.
Speakers :
- Nadhem LAMTI, Architecte Technique chez PALO IT
Depuis 10 ans, Nadhem intervient principalement sur des projets JAVA JEE de grande envergure dans différents secteurs (Télécommunication, Banque, Finance, Transports, Tourisme, etc.), développant ainsi une expertise polyvalente en abordant multiples technologies et architectures. Fort d’une expérience concluante en tant qu’Ingénieur Performance & Support, Nadhem est capable d’intervenir sur des problématiques de production liées à des systèmes d’informations complexes. Actuellement en mission chez Voyages SNCF, il contribue à un grand chantier Big Data de centralisation de logs et s’intéresse tout particulièrement au nouveau produit phare de traitement de données Apache Spark.
- Saâd-Eddine MALTI, Expert BDD chez Voyages SNCF
En poste depuis 10 ans chez Voyages SNCF, Saâd-Eddine intervient en tant qu’Expert BDD sur toutes les applications de manière transverse. L’orientation affichée de Voyages SNCF vers le Big Data pousse Saâd-Eddine à s’investir pleinement dans ce domaine, également sur le nouveau produit phare de traitement de données Apache Spark.
Base de données graphe, Noe4j concepts et mise en oeuvreMICHRAFY MUSTAFA
Cette étude vise à présenter les concepts clés d’une base de données orientée graphe. La modélisation et la mise en œuvre des cas d’utilisation seront réalisées avec la base de données NEO4J, version 3.1.
Hortonworks est l'éditeur d'Hortonworks Data Platform (HDP), une plate-forme de données basée sur Hadoop qui comprend entre autres les systèmes Hadoop Distributed File System (HDFS), Hadoop MapReduce, Apache Pig, Apache Hive, Apache HBase et Apache ZooKeeper.
Big Data: Hadoop Map / Reduce sur Windows et Windows AzureMicrosoft
L'algorithme Map/Reduce et sa mise en oeuvre avec Apache Hadoop permettent de gérer de très grands volumes de données non structurées. Microsoft adopte Haddop sur Windows et Windows Azure. Venez voir comment.
Le stockage des données a toujours été une des problématiques les plus difficiles à maitriser. L’augmentation massive de la quantités de données disponibles, le phénomène Big Data, incite les sociétés à moderniser leur environnement décisionnel. Dès lors, beaucoup se posent la question du choix entre SQL et NoSQL. Microsoft, avec son offre SQL Server Parallel Data Warehouse 2012 réconcilie le meilleur des technologies actuelles. Un seul moto ‘Insights on Any Data of Any Size’
Techday Arrow Group: Hadoop & le Big DataArrow Group
retrouvez notre techday sur Hadoop & le Big Data.
La Technologie Hadoop au coeur des
projets "Big Data".
Pour en savoir plus sur notre projet Square Predict:
http://www.square-solutions.com/accueil/square-predict-big-data-assurance/
Hug france - Administration Hadoop et retour d’expérience BI avec Impala, lim...Modern Data Stack France
Hadoop User Group du lundi 6 oct 2014:
Talk #3: Administration Hadoop et retour d’expérience BI avec Impala, limites et recommandations par Abed Ajraou et Cherif Tifrani de Solocal (Pages Jaunes).
Big Data ou comment retrouver une aiguille dans une botte de foinPALO IT
Un parc informatique d’un millier de machines génère de nombreux Terra Octets de logs. Comment parvenir à y retrouver une information pertinente et comment valoriser les informations contenues dans ces logs ?
Au programme :
- La centralisation des logs : back to basics;
- Cas pratiques : détection d’attaques DoS et refacturation sur plateforme mutualisée;
- Une grille Hadoop : en quoi ça consiste ?
Social Network Analysis Utilizing Big Data TechnologyImad ALILAT
Collecting, collating and carrying out complex data analysis(weblogs & KPI). Also involved in reporting statistical findings to work colleagues and senior managers.
Softshake 2015 - test driven map reduce development with crunchpkernevez
Slides de la présentation faite à Softshake 2015 ( http://soft-shake.ch )
L’écriture de job Map/Reduce s’appuie fréquemment sur des outils de plus haut niveau comme Hive ou Pig. Si ces outils sont très utiles en phase d’investigation ou pour certains profils (data analysts), les développeurs sont rapidement confrontés à une difficulté majeure lors du développement de pipelines conséquents : il est très difficile d’industrialiser le développement des scripts Pig ou les requêtes Hive (debbuging et tests automatiques).
Nous verrons dans cette présentation comment le framework Crunch ( https://crunch.apache.org/ ) répond à cette problématique lors de l’utilisation d’un cluster Hadoop ou Spark.
Softshake 2015 Comment ne plus rajouter de ram a vos jvm sans savoir pourquoipkernevez
Slides de la présentation faite à Softshake 2015 ( http://soft-shake.ch )
"Les applications Java (et les autres langages de la JVM) consomment de plus en plus de mémoire, dans le même temps les algorithmes de GC (Garbage Collection) ont amélioré leur efficacité et permettent d’allouer toujours plus de mémoire.
Malheureusement augmenter la RAM pour éviter une OutOfMemoryError sans plus d’investigation conduit souvent à masquer/repousser une fuite mémoire ou un bug applicatif et à générer une nouvelle source d’instabilité pour l’application et la JVM.
Durant cette session nous verrons comment analyser la consommation mémoire d’une application afin de ne pas systématiquement lui accorder plus de mémoire sans savoir quel usage qui en est fait.
Pour cela, nous commencerons par une rapide présentation du fonctionnement de la mémoire de la JVM puis nous verrons comment analyser la mémoire de vos applications en production. Cette deuxième partie sera faite de façon interactive sur une JVM issue d’un retour d’experience à l’aide de l’outil Eclipse Memory Analyzer.
Nous terminerons avec quelques astuces pour vous aider lors de vos futures investigations."
L’université de la performance vous fera découvrir comment concevoir la plus grosse fonctionnalité implicite d’une application: Sa performance.
Pour cela nous vous proposerons une démarche en trois étapes: - Connaître les différents types de tests de charge et savoir quand les utiliser - Mettre en place un test de charge et des outils nécessaires pour le monitoring - Savoir identifier et optimiser les différents goulets d’étranglement de l’application
Le tout mis en pratique sur une application réelle.
7. « Vanilla » IT
Relational DB,
Application server,
ETL, ESB,
BPM
Distributed
Storage
Extreme
Transaction
Processing
Parallel
Programming
Event Stream
Processing
10 To online 3,000 TPS
10 threads/core3,000 events/sec
Events
intensive
Transaction
intensive
Storage
intensive
Computation
intensive
LES LIMITES DES OUTILS TRADITIONNELS*
* Il ne s’agit pas de limites absolues, mais d’ordres de grandeur à partir desquels les coûts de mise en œuvre explosent
(hardware spécialisé, expertise, etc.)
7
9. HADOOP : VOLUME, VÉLOCITÉ MAIS AUSSI VARIÉTÉ
9
VVolume
V Variety
VVelocity Structured Data
Unstructured Data
Semi-Structured
Data
10. HADOOP : DES DISTRIBUTIONS [1/2]
¤ Pourquoi une distribution ?
> Une installation pour avoir la plupart des outils d’Hadoop
> Combinaison de versions compatibles
10
12. MATURITÉ
12
¤ Hadoop est un écosystème en pleine évolution :
> Les principaux composants sont matures
> D’autres sont encore jeunes
13. HADOOP : DES DISTRIBUTIONS [1/2]
¤ Pourquoi une distribution ?
> Une installation pour avoir la plupart des outils d’Hadoop
> Combinaison de versions compatibles
> Upgrade
> Support éditeur
¤ Trois distributeurs majeurs :
> HortonWorks
> Cloudera
> MapR
¤ Les éditeurs traditionnels sont des suiveurs sur Hadoop
> Teradata, Oracle, Microsoft, IBM, etc.
> Certains s’appuient sur une des 3 distributions majeures
13
23. UNIX “LIKE”
¤ HDFS supporte des commandes similaires aux systèmes de fichiers sur Linux :
> Ajout, lecture et suppression de fichiers
> Créer, lister et supprimer des répertoires
> Gérer les permissions et propriétés des fichiers et des répertoires
23
24. HDFS
A
Fichier
B
C
D
E
F
G
Le fichier est
découpé en blocs
NameNodes
DataNodes
Rogatus ad ultimum admissusque in consistorium ambage nulla praegressa inconsiderate et leviter proficiscere inquit ut praeceptum est, Caesar sciens quod si cessaveris, et tuas
epalatii tui auferri
iubebo prope diem
annonas. hocque
solo contumaciter
dicto subiratus
abscessit nec in
conspectum eius
postea venit
saepius arcessitus.
puis réparti sur les
nœuds
24
25. DISTRIBUTION DES DONNÉES ET FAILOVER
A B C
D E F
G
A
G
B C
D E F
Et répliqué
(par default x3, ici x2)
DataNodes
25
26. DISTRIBUTION DES DONNÉES ET FAILOVER
A B C
D E F
G
AG
B
C
D
E
F
!
AG
E
Les blocks A, E, G
sont maintenant
sous-répliqués
Il sont alors
répliqués sur
d’autres nœuds
DataNodes
26
34. FONCTIONNEMENT DE MAPREDUCE
Hive – MR
SELECT a.state
JOIN (a, c)
SELECT c.price
SELECT b.id
JOIN(a, b)
GROUP BY a.state
COUNT(*)
AVERAGE(c.price)
M M M
R R
M M
R
M M
R
M M
R
HDFS
HDFS
HDFS
SELECT a.state, COUNT(*), AVERAGE(c.price)
FROM a
JOIN b ON (a.id = b.id)
JOIN c ON (a.itemId = c.itemId)
GROUP BY a.state
34
35. DÉPASSER MAPREDUCE [1/4]
¤ MapReduce, le modèle de programmation à l’origine d’Hadoop, s’avère
contraignant et sous-optimisé pour certains types de traitements
Map Reduce
Map Reduce
Map Reduce
Traitement unique
4 phases d’I/O
Traitement itératif
N x 4 phases d’I/O
35
39. DÉPASSER MAPREDUCE [4/4]
Fonctionnement de TEZ
Hive – MR
SELECT a.state
JOIN (a, c)
SELECT c.price
SELECT b.id
JOIN(a, b)
GROUP BY a.state
COUNT(*)
AVERAGE(c.price)
M M M
R R
M M
R
M M
R
M M
R
HDFS
HDFS
HDFS
SELECT a.state, COUNT(*), AVERAGE(c.price)
FROM a
JOIN b ON (a.id = b.id)
JOIN c ON (a.itemId = c.itemId)
GROUP BY a.state
M MM
R R
R
M M
R
R
SELECT a.state,
c.itemId
JOIN (a, c)
JOIN(a, b)
GROUP BY a.state
COUNT(*)
AVERAGE(c.price)
SELECT b.id
Tez avoids
unnecessary writing to
HDFS
Hive – Tez
39
40. CARTOGRAPHIE HADOOP
40
YARN : Data Operating System
DATA MANAGEMENT
DATA ACCESS
1 ° ° ° ° ° ° ° ° °
° ° ° ° ° ° ° ° ° °
° ° ° ° ° ° ° ° ° °
°
°
N
HDFS
(Hadoop Distributed File System)
Flume Sqoop
Map
Reduce
Spark
Tez
DATA WORKFLOW MANAGEMENT
Oozie
MapReduceMapReduce
49. CARTOGRAPHIE HADOOP
49
YARN : Data Operating System
DATA MANAGEMENT
DATA ACCESS
1 ° ° ° ° ° ° ° ° °
° ° ° ° ° ° ° ° ° °
° ° ° ° ° ° ° ° ° °
°
°
N
HDFS
(Hadoop Distributed File System)
Flume Sqoop
Map
Reduce
Spark
MLlib
GraphX
Pig Hive
Tez Tez
DATA WORKFLOW MANAGEMENT
Oozie
MapReduce MapReduce
50. RETOUR D’EXPÉRIENCE
¤ Publigroupe
¤ Génération d’arbre de décision
50
¤ Hive : avg, min, max, etc.
¤ R : Analyse de données, sortie PDF
¤ Création d’un arbre de décision pour optimiser les
enchères sur les espaces publicitaires
51. ANALYSE DES STRATEGIES D’UNE CAMPAGNE
List of (strategies & exchange)
Low click-rate
High click-rate
Limited incertitude interval
Big incertitude interval
51
53. AUTRE CAS D’USAGE
¤ Banque d’investissement
¤ Contrôle de prises de positions hors normes
¤ ~ 100 millions de lignes à vérifier par jour
53
¤ Spark MLlib :
> Calculs : régressions linéaire, statistiques
> Classification : hors normes ou pas ?
¤ Réduire le nombre de contrôles non automatisés à 10 000
lignes par jours en première étape
58. CARTOGRAPHIE HADOOP
58
YARN : Data Operating System
DATA MANAGEMENT
DATA ACCESS
1 ° ° ° ° ° ° ° ° °
° ° ° ° ° ° ° ° ° °
° ° ° ° ° ° ° ° ° °
°
°
N
HDFS
(Hadoop Distributed File System)
Flume Sqoop
Map
Reduce
Spark
Streaming
Pig Hive Storm
Tez SliderTez
DATA WORKFLOW MANAGEMENT
Oozie
MapReduceMapReduce Slider
59. RETOUR D’EXPÉRIENCE
¤ Transporteur
¤ Evénements de suivi de colis
¤ 20 millions de messages par jour (180 Go / jour)
¤ 200 à 4000 événements par seconde
59
¤ Génération d’alertes
¤ Statistiques « fil de l’eau »
¤ Et bien d’autres (analyses, simulations, etc.)
¤ Spark Streaming (entre autre) :
> Calcul de l’état du colis
> Détection d’anomalies / alertes
> Filtrage / routage / enrichissement
> Génération d’événements manquants
64. INDUSTRIALISATION ?
Stockage élastique distribué
☆☆☆☆☆☆
Support de plusieurs workloads
☆☆☆☆☆☆
Partage des ressources
☆☆☆☆☆☆
Gouvernance des données
☆☆☆☆☆☆
Interopérabilité logicielle
☆☆☆☆☆☆
Exploitabilité
☆☆☆☆☆☆
Accumulation de grandes profondeurs
d’historique, données structurées, semi-
structurées et non structurées
TP, batch, interactif, analytique/machine
learning, temps réel (fast data)
Sécurité des données, gestion des
ressources de stockage et de calcul,
reporting analytique de l’usage
Catalogage des données,
traçabilité de la production des
datasets, gestion du cycle de vie
Support de SQL, connecteurs
xDBC, support natif par les
produits tiers (ETL, etc.)
Monitoring, outillage de la
configuration et des déploiements,
production de KPI, haute
disponibilité, PRA
64
65. LA MATURITÉ D’HADOOP (1/2)
Stockage élastique distribué
★★★★★★
Support de plusieurs workloads
★★★★★★
Partage des ressources
★★★★★★
Gouvernance des données
★★★★★★
Interopérabilité logicielle
★★★★★★
Exploitabilité
★★★★★★
Hadoop début 2013 …
65
66. LA MATURITÉ D’HADOOP (2/2)
Stockage élastique distribué
★★★★★★
Support de plusieurs workloads
★★★★★★
Partage des ressources
★★★★★★
Gouvernance des données
★★★★★★
Interopérabilité logicielle
★★★★★★
Exploitabilité
★★★★★★
… et Hadoop en 2016
Améliorations sur tous les fronts !
66
67. GOUVERNANCE : DES DONNÉES MIEUX MAÎTRISÉES
¤ Traçabilité de la production des datasets
¤ Gestion du cycle de vie des données
¤ Réplication de datasets sur site distant
67
69. SÉCURITÉ
Authentification forte des utilisateurs et services,
Intégration annuaire d’entreprise
Habilitations étendues (ACL) sur HDFS,
modèle de sécurité RBAC
Extension partielle des ACL aux
couches SQL et NoSQL
Chiffrement des flux
69
Sécuriser une plateforme Hadoop nécessite une forte expertise
Partage des ressources
70. EXPLOITATION
¤ La plupart des services sont aujourd’hui en haute disponibilité, et les rolling
upgrades permettent de migrer des gros clusters sans interruption
¤ La nécessité de reposer sur des standards d’exploitation (API REST, socles de
déploiement) a été bien comprise et la richesse des API augmente
¤ Les API de récupération de métriques, essentielles pour le reporting d’usage,
la refacturation ou le capacity planning apparaissent
70
76. YARN : Data Operating System
DATA MANAGEMENT
DATA ACCESS
1 ° ° ° ° ° ° ° ° °
° ° ° ° ° ° ° ° ° °
° ° ° ° ° ° ° ° ° °
°
°
N
HDFS
(Hadoop Distributed File System)
Flume Sqoop
Map
Reduce
Spark
Pig Hive Storm
Tez SliderTez
HBase
DATA WORKFLOW MANAGEMENT
Oozie
Ambari
Cloudera
Manager
Falcon
Navigator
Sentry
Ranger
MapReduce SliderMapReduce
UNE ARCHITECTURE ÉVOLUTIVE
76
Outils
Exécution
Stockage
API
API
77. EN SYNTHÈSE…
77
L’écosystème Hadoop a
rapidement évolué pour proposer
aujourd’hui une solution mature
Hadoop propose une solution
industrialisée : intégration au SI,
sécurité, gouvernance, déploiement,
etc.
Hadoop est prêt à répondre à vos
besoins. C’est une composante
inévitable de votre SI !
78. pkernevez@octo.com
Nov 8th 7 pm, Genève
“Banknote Recognition System”
(Machine Learning)
Nov 10th 6 pm, Genève
“Data Science & Machine Learning:
Explorer, Comprendre Et Prédire”
Demo on OCTO stand
Free Download
bit.ly/1KJVsD1