2. Comment HDInsight peut nous aider à
manipuler du Big Data?
01
À quel moment utiliser Azure HDInsight
02
Types des clusters dans HDInsight
04
Comparaison entre les différents
distributeurs de Hadoop
05
Plan :
Comment les composants interagissent-
ils ? (Architecture)
03
3. Introduction
De nombreuses organisations travaillent aujourd’hui avec le Big Data. L’énorme volume et
la diversité des données, ainsi que la vitesse de génération des données, demandent des
systèmes qui permettent de les gérer et de les contrôler. Avant, les organisations
utilisaient des systèmes de gestion de bases de données relationnelles pour contrôler les
données. Maintenant, les organisations veulent les fonctionnalités des logiciels open
source combinées aux avantages des plateformes hébergées. Azure HDInsight est
l’exemple parfait de ce partenariat. HDInsight vous permet de traiter du Big Data dans de
nombreux scénarios, en utilisant des données historiques ou en temps réel.
4.
5. Comment HDInsight peut nous aider à manipuler du
Big Data ?
Nous pouvons utiliser HDInsight pour de nombreux scénarios faisant appel au
traitement de Big Data. Nos données peuvent être :
Des données historiques. Ces données sont déjà collectées et stockées.
Des données en temps réel. Ces données sont transmises directementen streaming à partir
de la source.
6. Les catégories suivantes récapitulent les scénarios de traitement pour les données
Entrepôt de données
Science des données
Traitement par lots
IoT
Hybride
7. Les catégories suivantes récapitulent les scénarios de traitement pour les données
Traitement par lots
Les organisations utilisent des tâches de traitement par
lots pour préparer le Big Data à une analyse plus
poussée.
En général, ce processus implique trois étapes :
1. Lecture des fichiers de données sources à partir de
sources de données hétérogènes.
2. Traitement des données.
3. Écriture des données dans un stockage scalable.
8. Les catégories suivantes récapitulent les scénarios de traitement pour les données
Entrepôt de données
Unentrepôtdedonnéespermetàuneorganisation
destockerduBigData quelquepartenattendant de
lesanalyser.L’entreposagededonnéesnouspermet
d’effectuerlesopérations suivantes :
• Stockernosdonnées.
• Préparernosdonnéesenvued’uneanalyse.
• Fournissezlesdonnéespréparéesdans un
formatstructuré.
Nouspouvons ensuiteinterrogerlesdonnéesavec
desoutils analytiques.
9. Les catégories suivantes récapitulent les scénarios de traitement pour les données
IoT
Commelemontrelediagrammesuivant, HDInsighttraite lesdonnéesdestreamingreçuesentempsréelà partir dedifférents
appareils etcapteurs. Danscetexemple,plusieurs frameworksopensourcefournissentletraitementdeflux,notamment:
ApacheSpark, ApacheKafkaetApacheStorm.
10. Les catégories suivantes récapitulent les scénarios de traitement pour les données
Science des données
Nouspouvons utiliser HDInsightpour effectuerdestâchescourantesdesciencedesdonnées,
tellesque:
•Ingestiondedonnées
•Ingénieriedescaractéristiques
•Modélisation
11. Les catégories suivantes récapitulent les scénarios de traitement pour les données
Hybride
LesservicesdepasserelleAzure etleshubs IoTdirigent les
donnéesdedifférentessourcesverscesframeworks.Les
frameworkstraitent ensuitelesdonnéesetlespassentaux
élémentssuivants :StockageàlongtermeApplications en
tempsréelTableaux debordentempsréel
12. À quel moment utiliser Azure HDInsight
Nous allons découvrir le fonctionnement d’Azure HDInsight. Vous y trouverez des informations
sur les composants suivants et sur la façon dont ils se combinent pour fournir un contrôle et
une gestion des données :
•Apache Hadoop
•Stockage HDInsight
•Traitement HDInsight
16. Que fait le composant YARN ?
LecomposantYARN assurelagestiondesressourcesauseind’unclusterHDInsight.Quandvoustraitez
desdonnées, ceservicegèrelesressourcesetlaplanificationdestravaux.
LecomposantYARN sesitueentreleHDFSetlesystèmedecalculduclusterHDInsight.Ilfonctionneavec
lenœudprincipalpour aideràdistribueruntravailsurlesnœuds Workerducluster.Ainsi,lestâchesde
traitementdesdonnéesseproduisentenparallèle.
Lafaçondontlenœudprincipalalloueletravail.
17. Types de cluster dans HDInsight
Le cluster Interactive Query
Apache HBase
Apache Kafka
Apache Spark
Apache Hadoop
Apache Storm
18. Types de cluster dans HDInsight
Le cluster Interactive Query
(égalementappeléApacheHiveLLAP ou LowLatency
Analytical Processing)estuntypedeclusterAzure
HDInsight.InteractiveQueryprendenchargelamiseen
mémoirecache,cequi accélèrelesrequêtesApache Hiveet
lesrendbeaucoup plusinteractives.
19. Types de cluster dans HDInsight
Apache Spark
ApacheSparkdans Azure HDInsightfacilitela
créationetlaconfiguration declustersSpark,
cequi vous permetdepersonnaliseret
d’utiliserunenvironnementSparkcomplet
dansAzure.
20. Types de cluster dans HDInsight
Apache Kafka
estuneplateformedediffusionencontinudistribuée open
sourcequi permetdegénérerdespipelinesdedonnéeset
desapplications dediffusionencontinuentempsréel.
Kafkafournit égalementdesfonctionnalitésdecourtierde
messagessemblablesà unefiled’attente, oùvous pouvez
publieretvous abonneraux fluxdedonnéesnommés.
21. Types de cluster dans HDInsight
Apache Storm
ApacheStormestunsystèmedecalculentemps
réel,évolutif,distribué, à tolérancedepanne,qui
permetdetraiter desfluxdedonnées.
22. Types de cluster dans HDInsight
Apache Hadoop
Letype declusterApacheHadoop dans Azure
HDInsightvous permetd’utiliserApacheHadoop
Distributed FileSystem(HDFS),lagestion des
ressourcesApacheHadoop YARNainsiqu’un modèle
deprogrammation MapReducesimplepour traiter et
analyserdeslotsdedonnéesenparallèle.
23. Types de cluster dans HDInsight
Apache HBase
L’implémentationHDInsightutilisel’architecturedescale-out
deHBasepour fournirunpartitionnementautomatique des
tables,unecohérencefortepour leslecturesetlesécritures,
etlebasculementautomatique. Lesperformancessont
optimiséespar lamiseencacheenmémoiredeslectureset
par desécrituresendiffusionà débitélevé.
24. Comparaison entre les
différents distributeurs
de Hadoop :
«Lemeilleurdistributeur
commercialn’existepas..”
Dans ce comparatif Hadoop, on constate
plutôt une grappe de vendeurs aux
spécificités différentes. Parmi les
distributeurs les plus compétents, on compte
Cloudera, Hortonworkss MapR, IBM et
Pivotal. Il s’agit du top 5 des distributeurs du
comparatif Hadoop de Forrester.
25.
26. 01 Cloudera
03 Points positifs
• La plus rapide des solutions de ce comparatif Hadoop
• Prend en charge les opérations en temps réel
• Intégration aisée et fiabilité
Points négatifs
• Interface console moins facile à utiliser que Cloudera
• Plus cher que HortonWorks et Cloudera
MapR
02
Points positifs
• La seule distribution du comparatif Hadoop à supporter Windows
• N’enferme pas ses utilisateurs dans un silo distributif
• Système de partenariats et de certifications
Points négatifs
• Manque de certaines fonctionnalités
• Interface basique
Hortonworks
Points positifs:
• Des améliorations de la sécurité par changement propriétaire
•Plusieurs outils premium disponibles
•Une interface « simplifié»
Points négatifs
•Plus lent que les solutions MapR
•Cloudera n’est pas adapté à tous les cas d’usages
27. 06
Microsoft Hadoop
05
Points positifs
• Accès aux données stockées sur Amazon S3
• Coût bien moins important
• Gestion automatique des Clusters
Points négatifs
• Pas de console de gestion
Amazon Hadoop Vendor
04
Points positifs
• Intégration parfaite avec les autres outils
• IBM Distribution de la version Hadoop standard de HortonWorks
Points négatifs
• Plus cher que ses concurrents
IBM
Points positifs:
• L’écosystème Microsoft Azure
•Distribution de la version Hadoop standard de HortonWorks
• 100% compatible avec Apache Hadoop.
Points négatifs
• Plus cher que AWS EMR