SlideShare une entreprise Scribd logo
1  sur  31
Télécharger pour lire hors ligne
HADOOP ET SON
                                 ÉCOSYSTÈME

                                              Mars 2013


   © 2012 Affini-Tech - Diffusion restreinte               1

mardi 2 avril 13
AFFINI-TECH
                    Méthodes projets
                                                  Business
                   Outils de reporting
                                                     &
                   & Data-visualisation
                                                  Analyses


                       BigData                                     Modélisation
                       Hadoop                 Technos   Sciences   Statistiques (R)
                       NoSQL                                       Machine Learning
                        Cloud

                     Intégration, Mise en Oeuvre, Conseil et Formation
                     Une démarche intégrée de bout en bout

   © 2013 Affini-Tech - Diffusion restreinte                                       2

mardi 2 avril 13
Collecter                Analyser       Présenter
                     Stocker                  Valoriser      Organiser
                      Traiter


                                               Data-
                      BigData                                Décisionnel
                                              Science


                   Votre infrastructure                   Notre Cloud




   © 2012 Affini-Tech - Diffusion restreinte                                3

mardi 2 avril 13
AGENDA
         BigData
         Hadoop & Datawarehouses
         Evolutions
         Performances
         Cas d’utilisation
   © 2013 Affini-Tech - Diffusion restreinte            4

mardi 2 avril 13
© 2013 Affini-Tech - Diffusion restreinte   5

mardi 2 avril 13
© 2013 Affini-Tech - Diffusion restreinte   6

mardi 2 avril 13
LES 4 V DU BIGDATA
    •    Volume : les technologies actuelles
         sont inadaptées à cette croissance
         effrénée.

    •    Variété : l’entreprise est confrontée
         à des données non structurées :
         emails, web, réseau sociaux, son, image,
         video...

    •    Vélocité : L’accès et le partage des
         données doit se faire en temps réel.

    •    Variabilité : On ne sait pas prévoir
         l’évolution des types de données
   © 2013 Affini-Tech - Diffusion restreinte         7

mardi 2 avril 13
BIGDATA VS ANALYTICS
                             Analytics & Business Intelligence

                   Question                   KPI   Collecter   Intégrer   Reporting



                                                    BigData

                   Collecter           Explorer     Modéliser   Analyser   Partager




   © 2013 Affini-Tech - Diffusion restreinte                                            8

mardi 2 avril 13
Transactionnelles

            Historisées : B.I.
                                                        Valeur unitaire
                                               Valeur
                     Big Data                   des
                                              données

                                               Volume

                                                                      9

   © 2013 Affini-Tech - Diffusion restreinte

mardi 2 avril 13
Transactionnelles
                                                        Cout
            Historisées : B.I.
                                               Valeur
                     Big Data                   des
                                              données

                                               Volume

                                                               9

   © 2013 Affini-Tech - Diffusion restreinte

mardi 2 avril 13
Performance

                                    SQL




                                              MPP


                                                    Volume

                                                    Variété
   © 2013 Affini-Tech - Diffusion restreinte                   10

mardi 2 avril 13
Hive                 Pig     Cascading            Flume
                     HCatalog                 Mahout    Crunch              Sqoop
         Ambari




                                        Map / Reduce                     HBase

                                                       HDFS
                     NameNode                   DataNode      DataNode    DataNode



   © 2013 Affini-Tech - Diffusion restreinte                                          11

mardi 2 avril 13
ET LES
                       DATAWAREHOUSES



   © 2013 Affini-Tech - Diffusion restreinte   12

mardi 2 avril 13
B.I. TRADITIONNELLE

                                                                               7%
                                                                          8%
                                                                       10%           35%

                                                                       11%
                                                                 200
                                                                               29%
                                                                 150
                                                                 100
                                                                  50
                                                                   0
                                                                       2007 2008 2009 2010



    Transactionnel                            DataWarehouse   BI Applications




   © 2013 Affini-Tech - Diffusion restreinte                                                  13

mardi 2 avril 13
B.I. TRADITIONNELLE

                                                                               7%
                                                                          8%
                                                                       10%           35%

                                                                       11%
                                                                 200
                                                                               29%
                                                                 150
                                                                 100
                                                                  50
                                                                   0
                                                                       2007 2008 2009 2010

                                              DataWarehouse
    Transactionnel                                            BI Applications
                                               & DataMarts




   © 2013 Affini-Tech - Diffusion restreinte                                                  13

mardi 2 avril 13
: ETL++
                                                                              7%
                                                                         8%
                                                                      10%           35%


    Non-Structuré                                               200
                                                                      11%

                                                                              29%
                                                                150
                                                                100
                                                                 50
                                                                  0
                                                                      2007 2008 2009 2010

                                              DataWarehouse
                                                              BI Applications
     Transactionnel                            & DataMarts




   © 2013 Affini-Tech - Diffusion restreinte                                                 14

mardi 2 avril 13
: ETL & DW
                                                                                      7%
                                                                                 8%
                                                                              10%           35%


    Non-Structuré                                                       200
                                                                              11%

                                                                                      29%
                                                                        150
                                                                        100
                                                                         50
                                                                          0
                                                                              2007 2008 2009 2010



                                              ETL & DW    DataMarts   BI Applications
     Transactionnel




   © 2013 Affini-Tech - Diffusion restreinte                                                         15

mardi 2 avril 13
: EDW
                                                                                     7%
                                                                                8%
                                                                             10%           35%


    Non-Structuré                                                      200
                                                                             11%

                                                                                     29%
                                                                       150
                                                                       100
                                                                        50
                                                                         0
                                                                             2007 2008 2009 2010



                                              ETL & DW & DataMarts   BI Applications
     Transactionnel




   © 2013 Affini-Tech - Diffusion restreinte                                                        16

mardi 2 avril 13
EVOLUTIONS
                   Différentes Workloads

                   Map / Reduce ne suffit plus

                   Productivité du développeur

                   Ouverture de l’écosystème

                   Performances

   © 2013 Affini-Tech - Diffusion restreinte         17

mardi 2 avril 13
TYPES DE WORKLOADS
                                               Batch        Stream        Interactif

                                              Minutes à                  Millisecondes à
             Latence                                        Continu
                                               Heures                        Minutes

              Volume                          To à Po     Flux continu      Go à Po

                                                                           Requêtes
              Modèle                    Map / Reduce         DAG
                                                                             SQL

       Utilisateurs Développeurs                          Développeurs     Analystes


   © 2013 Affini-Tech - Diffusion restreinte                                                18

mardi 2 avril 13
HADOOP 1 : MAP / REDUCE
                                                           Task
                                                          Tracker
                                                        Task   Task
                   Client
                                                Job        Task
                                              Tracker     Tracker
                   Client                               Task   Task

                                                           Task
                                                          Tracker
                                                        Task   Task


   © 2013 Affini-Tech - Diffusion restreinte                           19

mardi 2 avril 13
HADOOP 2 : YARN
                                                        Node        Container
                                                        Manager

                                                        Master      Container
                   Client
                                               Ress     Node        Container
                                              Manager   Manager

                   Client                               Master      Container

                                                        Node        Container
                                                        Manager
                                                                    Container
                                                        Container



   © 2013 Affini-Tech - Diffusion restreinte                                     20

mardi 2 avril 13
YARN
                   Scalabilité (de 4K nodes à 10K+)
                   Containers : unités de processing
                   Utilisation optimale des ressources
                   Compatibilité avec M/R v1
                   Autres modèles de programmation (MPI...)
                   Haute-Disponibilité

   © 2013 Affini-Tech - Diffusion restreinte                   21

mardi 2 avril 13
PRODUCTIVITÉ DU
                          DEVELOPPEUR
             Map/Reduce est contraignant !
             Alternatives masquant Map/Reduce :
              • HIVE       : SQL (+ interfaces JDBC)

              • PIG     : Séquences simples de transformation

              • CASCADING         : modèle de programmation simplifié
                   pour tous les langages de la JVM

   © 2013 Affini-Tech - Diffusion restreinte                            22

mardi 2 avril 13
OUVERTURE DE
                                L’ÉCOSYSTEME

         Possibilité de substituer des parties
         d’Hadoop par des codes extérieurs.
                    remplace le tri natif de Hadoop pour
         améliorer les performances.
         Remplacement des connecteurs Hadoop par
         ceux d’ETL classiques du marché

   © 2013 Affini-Tech - Diffusion restreinte                23

mardi 2 avril 13
PERFORMANCES

         Hybridation Hadoop/RDBMS
         Impala : I/O directes & Bypass HDFS
         Tez : Réduction de la latence
         Spark : Map/Reduce in-memory
         ...
   © 2013 Affini-Tech - Diffusion restreinte    24

mardi 2 avril 13
HADOOP + RDBMS

         Exporter les résultats de requêtes Hadoop vers
         un SGBD ou un appliance MPP
         Mixer un SGBD classique et un stockage Hadoop
         Le SGBD cache les données...
         Hadapt, CitusDB, PivotalHD, Microsoft Polybase



   © 2013 Affini-Tech - Diffusion restreinte               25

mardi 2 avril 13
CLOUDERA IMPALA
         Projet propriétaire de Cloudera
         Fonctionnement proche des moteurs MPP
         & conserve un socle Hadoop
         Lecture directe des blocs sur disques
         Format colonne
         Etend les interfaces de Hive/SQL

   © 2013 Affini-Tech - Diffusion restreinte      26

mardi 2 avril 13
APACHE TEZ & STINGER

         Supprimer
           les I/O
       intermédiaires
       Performances
            x45
             Générique
               M/R

   © 2013 Affini-Tech - Diffusion restreinte   27

mardi 2 avril 13
SPARK & SHARK

         Spark : Implémentation de M/R en mémoire.
         Structures de données distribuées.
         Performances sur les
         iterations : Machine-Learning
         Shark offre une
         compatibilité Hive/SQL
         Un projet de
   © 2013 Affini-Tech - Diffusion restreinte          28

mardi 2 avril 13
MERCI !


                                              Vincent Heuschling
                                              Gsm : 06 61 88 76 71
                                     Email : vhe@affini-tech.com
                             Web : http://www.affini-tech.com
                                 Twitter : @affinitech & @vhe74




   © 2013 Affini-Tech - Diffusion restreinte                          30

mardi 2 avril 13

Contenu connexe

Tendances

Softshake 2015 - Des small data aux big data - Méthodes et Technologies
Softshake 2015 - Des small data aux big data - Méthodes et TechnologiesSoftshake 2015 - Des small data aux big data - Méthodes et Technologies
Softshake 2015 - Des small data aux big data - Méthodes et TechnologiesOCTO Technology Suisse
 
#NSD14 - La sécurité autour du Big Data
#NSD14 - La sécurité autour du Big Data#NSD14 - La sécurité autour du Big Data
#NSD14 - La sécurité autour du Big DataNetSecure Day
 
HUB REPORT - L'indispensable à savoir sur la Data & le CRM
HUB REPORT - L'indispensable à savoir sur la Data & le CRM HUB REPORT - L'indispensable à savoir sur la Data & le CRM
HUB REPORT - L'indispensable à savoir sur la Data & le CRM HUB INSTITUTE
 
Soirée de lancement du blog et du livre blanc big data - Business & Decision
Soirée de lancement du blog et du livre blanc big data - Business & DecisionSoirée de lancement du blog et du livre blanc big data - Business & Decision
Soirée de lancement du blog et du livre blanc big data - Business & DecisionBusiness & Decision
 
Cours Big Data Chap1
Cours Big Data Chap1Cours Big Data Chap1
Cours Big Data Chap1Amal Abid
 
Connected Event - Du Big Data au Smart Data 7Oct2015 - EPFL
Connected Event - Du Big Data au Smart Data 7Oct2015 - EPFLConnected Event - Du Big Data au Smart Data 7Oct2015 - EPFL
Connected Event - Du Big Data au Smart Data 7Oct2015 - EPFLRaphael Rollier
 

Tendances (7)

Softshake 2015 - Des small data aux big data - Méthodes et Technologies
Softshake 2015 - Des small data aux big data - Méthodes et TechnologiesSoftshake 2015 - Des small data aux big data - Méthodes et Technologies
Softshake 2015 - Des small data aux big data - Méthodes et Technologies
 
#NSD14 - La sécurité autour du Big Data
#NSD14 - La sécurité autour du Big Data#NSD14 - La sécurité autour du Big Data
#NSD14 - La sécurité autour du Big Data
 
HUB REPORT - L'indispensable à savoir sur la Data & le CRM
HUB REPORT - L'indispensable à savoir sur la Data & le CRM HUB REPORT - L'indispensable à savoir sur la Data & le CRM
HUB REPORT - L'indispensable à savoir sur la Data & le CRM
 
Big Data, kesako ?
Big Data, kesako ?Big Data, kesako ?
Big Data, kesako ?
 
Soirée de lancement du blog et du livre blanc big data - Business & Decision
Soirée de lancement du blog et du livre blanc big data - Business & DecisionSoirée de lancement du blog et du livre blanc big data - Business & Decision
Soirée de lancement du blog et du livre blanc big data - Business & Decision
 
Cours Big Data Chap1
Cours Big Data Chap1Cours Big Data Chap1
Cours Big Data Chap1
 
Connected Event - Du Big Data au Smart Data 7Oct2015 - EPFL
Connected Event - Du Big Data au Smart Data 7Oct2015 - EPFLConnected Event - Du Big Data au Smart Data 7Oct2015 - EPFL
Connected Event - Du Big Data au Smart Data 7Oct2015 - EPFL
 

En vedette

Intro à la librairie R GGPLOT2
Intro à la librairie R GGPLOT2Intro à la librairie R GGPLOT2
Intro à la librairie R GGPLOT2Vincent Heuschling
 
Feedback du EMEA Hadoop Summit 2013
Feedback du EMEA Hadoop Summit 2013Feedback du EMEA Hadoop Summit 2013
Feedback du EMEA Hadoop Summit 2013Vincent Heuschling
 
Altaide les métiers du numérique, le grand capharnaüm 0316
Altaide les métiers du numérique, le grand capharnaüm 0316Altaide les métiers du numérique, le grand capharnaüm 0316
Altaide les métiers du numérique, le grand capharnaüm 0316ALTAIDE
 
Altaide : Les nouveaux métiers du Big Data et Cloud Computing
Altaide : Les nouveaux métiers du Big Data et Cloud ComputingAltaide : Les nouveaux métiers du Big Data et Cloud Computing
Altaide : Les nouveaux métiers du Big Data et Cloud ComputingALTAIDE
 
Hadoop meetup : HUGFR Construire le cluster le plus rapide pour l'analyse des...
Hadoop meetup : HUGFR Construire le cluster le plus rapide pour l'analyse des...Hadoop meetup : HUGFR Construire le cluster le plus rapide pour l'analyse des...
Hadoop meetup : HUGFR Construire le cluster le plus rapide pour l'analyse des...Modern Data Stack France
 
Le Big Data : Une Révolution Numérique
Le Big Data : Une Révolution NumériqueLe Big Data : Une Révolution Numérique
Le Big Data : Une Révolution NumériqueRoland Coma
 
15 tendances et actualités de l’emailing ces 15 derniers mois
15 tendances et actualités de l’emailing ces 15 derniers mois15 tendances et actualités de l’emailing ces 15 derniers mois
15 tendances et actualités de l’emailing ces 15 derniers moisJonathan Loriaux
 
EXL Group - Offre Data Science
EXL Group - Offre Data ScienceEXL Group - Offre Data Science
EXL Group - Offre Data ScienceAshraf Grioute
 

En vedette (9)

Big Data et SEO, par Vincent Heuschling
Big Data et SEO, par Vincent HeuschlingBig Data et SEO, par Vincent Heuschling
Big Data et SEO, par Vincent Heuschling
 
Intro à la librairie R GGPLOT2
Intro à la librairie R GGPLOT2Intro à la librairie R GGPLOT2
Intro à la librairie R GGPLOT2
 
Feedback du EMEA Hadoop Summit 2013
Feedback du EMEA Hadoop Summit 2013Feedback du EMEA Hadoop Summit 2013
Feedback du EMEA Hadoop Summit 2013
 
Altaide les métiers du numérique, le grand capharnaüm 0316
Altaide les métiers du numérique, le grand capharnaüm 0316Altaide les métiers du numérique, le grand capharnaüm 0316
Altaide les métiers du numérique, le grand capharnaüm 0316
 
Altaide : Les nouveaux métiers du Big Data et Cloud Computing
Altaide : Les nouveaux métiers du Big Data et Cloud ComputingAltaide : Les nouveaux métiers du Big Data et Cloud Computing
Altaide : Les nouveaux métiers du Big Data et Cloud Computing
 
Hadoop meetup : HUGFR Construire le cluster le plus rapide pour l'analyse des...
Hadoop meetup : HUGFR Construire le cluster le plus rapide pour l'analyse des...Hadoop meetup : HUGFR Construire le cluster le plus rapide pour l'analyse des...
Hadoop meetup : HUGFR Construire le cluster le plus rapide pour l'analyse des...
 
Le Big Data : Une Révolution Numérique
Le Big Data : Une Révolution NumériqueLe Big Data : Une Révolution Numérique
Le Big Data : Une Révolution Numérique
 
15 tendances et actualités de l’emailing ces 15 derniers mois
15 tendances et actualités de l’emailing ces 15 derniers mois15 tendances et actualités de l’emailing ces 15 derniers mois
15 tendances et actualités de l’emailing ces 15 derniers mois
 
EXL Group - Offre Data Science
EXL Group - Offre Data ScienceEXL Group - Offre Data Science
EXL Group - Offre Data Science
 

Similaire à Hadoop Ecosystème (2013-03) par Affini-Tech

Splunk live paris_overview_02_07_2013 v2.1
Splunk live paris_overview_02_07_2013 v2.1Splunk live paris_overview_02_07_2013 v2.1
Splunk live paris_overview_02_07_2013 v2.1jenny_splunk
 
Présentation générale Novulys
Présentation générale NovulysPrésentation générale Novulys
Présentation générale NovulysNovulys SAS
 
Mobilité @ SAP Innovation NOW Paris
Mobilité @ SAP Innovation NOW ParisMobilité @ SAP Innovation NOW Paris
Mobilité @ SAP Innovation NOW ParisJean-François Caenen
 
Big Analytics : les usages avant tout
Big Analytics : les usages avant toutBig Analytics : les usages avant tout
Big Analytics : les usages avant toutSAS FRANCE
 
Présentation offre SmartBigData 2012
Présentation offre SmartBigData 2012Présentation offre SmartBigData 2012
Présentation offre SmartBigData 2012Novulys SAS
 
Redeploiement d’une plateforme eZpublish multisites internationale
Redeploiement d’une plateforme eZpublish multisites internationaleRedeploiement d’une plateforme eZpublish multisites internationale
Redeploiement d’une plateforme eZpublish multisites internationaleKaliop-slide
 
Mise en œuvre d'une stratégie Workplace As A Service dans un contexte de tran...
Mise en œuvre d'une stratégie Workplace As A Service dans un contexte de tran...Mise en œuvre d'une stratégie Workplace As A Service dans un contexte de tran...
Mise en œuvre d'une stratégie Workplace As A Service dans un contexte de tran...Microsoft Ideas
 
Programme du salon UseIT
Programme du salon UseITProgramme du salon UseIT
Programme du salon UseITSalon useIT
 
Présentation Club Alliances 5 FéVrier 2010
Présentation Club Alliances 5 FéVrier 2010Présentation Club Alliances 5 FéVrier 2010
Présentation Club Alliances 5 FéVrier 2010Revevol
 
OW2 BI Initiative: Prenez de l'avance avec la nouvelle génération du décision...
OW2 BI Initiative: Prenez de l'avance avec la nouvelle génération du décision...OW2 BI Initiative: Prenez de l'avance avec la nouvelle génération du décision...
OW2 BI Initiative: Prenez de l'avance avec la nouvelle génération du décision...SpagoWorld
 
1_Accélération pour Transfer CFT en 2012_3 G!
1_Accélération pour Transfer CFT en 2012_3 G!1_Accélération pour Transfer CFT en 2012_3 G!
1_Accélération pour Transfer CFT en 2012_3 G!Jean-Claude Bellando
 
Innover sans contrainte, intégrer sans rupture
Innover sans contrainte, intégrer sans ruptureInnover sans contrainte, intégrer sans rupture
Innover sans contrainte, intégrer sans ruptureGuillaume Laforge
 
TECHDAYS 2013 : SharePoint 2013 en situation de mobilité
TECHDAYS 2013 : SharePoint 2013 en situation de mobilitéTECHDAYS 2013 : SharePoint 2013 en situation de mobilité
TECHDAYS 2013 : SharePoint 2013 en situation de mobilitéInetum
 
Session USI 2012 : les SI composites
Session USI 2012 : les SI compositesSession USI 2012 : les SI composites
Session USI 2012 : les SI compositesJoseph Glorieux
 
Big data analytics focus technique et nouvelles perspectives pour les actuaires
Big data analytics focus technique et nouvelles perspectives pour les actuairesBig data analytics focus technique et nouvelles perspectives pour les actuaires
Big data analytics focus technique et nouvelles perspectives pour les actuairesKezhan SHI
 
Talend Petals Link Solutions Linux Ow2
Talend Petals Link Solutions Linux Ow2Talend Petals Link Solutions Linux Ow2
Talend Petals Link Solutions Linux Ow2OW2
 
Talend Petals Link Solutions Linux Ow2
Talend Petals Link Solutions Linux Ow2Talend Petals Link Solutions Linux Ow2
Talend Petals Link Solutions Linux Ow2Catherine Nuel
 

Similaire à Hadoop Ecosystème (2013-03) par Affini-Tech (20)

Splunk live paris_overview_02_07_2013 v2.1
Splunk live paris_overview_02_07_2013 v2.1Splunk live paris_overview_02_07_2013 v2.1
Splunk live paris_overview_02_07_2013 v2.1
 
Présentation générale Novulys
Présentation générale NovulysPrésentation générale Novulys
Présentation générale Novulys
 
Mobilité @ SAP Innovation NOW Paris
Mobilité @ SAP Innovation NOW ParisMobilité @ SAP Innovation NOW Paris
Mobilité @ SAP Innovation NOW Paris
 
Big Analytics : les usages avant tout
Big Analytics : les usages avant toutBig Analytics : les usages avant tout
Big Analytics : les usages avant tout
 
Présentation offre SmartBigData 2012
Présentation offre SmartBigData 2012Présentation offre SmartBigData 2012
Présentation offre SmartBigData 2012
 
Redeploiement d’une plateforme eZpublish multisites internationale
Redeploiement d’une plateforme eZpublish multisites internationaleRedeploiement d’une plateforme eZpublish multisites internationale
Redeploiement d’une plateforme eZpublish multisites internationale
 
Mobilite pdj 20110127
Mobilite pdj 20110127Mobilite pdj 20110127
Mobilite pdj 20110127
 
Mobilite pdj 20110127
Mobilite pdj 20110127Mobilite pdj 20110127
Mobilite pdj 20110127
 
Mise en œuvre d'une stratégie Workplace As A Service dans un contexte de tran...
Mise en œuvre d'une stratégie Workplace As A Service dans un contexte de tran...Mise en œuvre d'une stratégie Workplace As A Service dans un contexte de tran...
Mise en œuvre d'une stratégie Workplace As A Service dans un contexte de tran...
 
Programme du salon UseIT
Programme du salon UseITProgramme du salon UseIT
Programme du salon UseIT
 
Présentation Club Alliances 5 FéVrier 2010
Présentation Club Alliances 5 FéVrier 2010Présentation Club Alliances 5 FéVrier 2010
Présentation Club Alliances 5 FéVrier 2010
 
OW2 BI Initiative: Prenez de l'avance avec la nouvelle génération du décision...
OW2 BI Initiative: Prenez de l'avance avec la nouvelle génération du décision...OW2 BI Initiative: Prenez de l'avance avec la nouvelle génération du décision...
OW2 BI Initiative: Prenez de l'avance avec la nouvelle génération du décision...
 
1_Accélération pour Transfer CFT en 2012_3 G!
1_Accélération pour Transfer CFT en 2012_3 G!1_Accélération pour Transfer CFT en 2012_3 G!
1_Accélération pour Transfer CFT en 2012_3 G!
 
Innover sans contrainte, intégrer sans rupture
Innover sans contrainte, intégrer sans ruptureInnover sans contrainte, intégrer sans rupture
Innover sans contrainte, intégrer sans rupture
 
TECHDAYS 2013 : SharePoint 2013 en situation de mobilité
TECHDAYS 2013 : SharePoint 2013 en situation de mobilitéTECHDAYS 2013 : SharePoint 2013 en situation de mobilité
TECHDAYS 2013 : SharePoint 2013 en situation de mobilité
 
SQLI - Réduire vos coûts et augmenter la productivité de vos équipes au trav...
SQLI -  Réduire vos coûts et augmenter la productivité de vos équipes au trav...SQLI -  Réduire vos coûts et augmenter la productivité de vos équipes au trav...
SQLI - Réduire vos coûts et augmenter la productivité de vos équipes au trav...
 
Session USI 2012 : les SI composites
Session USI 2012 : les SI compositesSession USI 2012 : les SI composites
Session USI 2012 : les SI composites
 
Big data analytics focus technique et nouvelles perspectives pour les actuaires
Big data analytics focus technique et nouvelles perspectives pour les actuairesBig data analytics focus technique et nouvelles perspectives pour les actuaires
Big data analytics focus technique et nouvelles perspectives pour les actuaires
 
Talend Petals Link Solutions Linux Ow2
Talend Petals Link Solutions Linux Ow2Talend Petals Link Solutions Linux Ow2
Talend Petals Link Solutions Linux Ow2
 
Talend Petals Link Solutions Linux Ow2
Talend Petals Link Solutions Linux Ow2Talend Petals Link Solutions Linux Ow2
Talend Petals Link Solutions Linux Ow2
 

Hadoop Ecosystème (2013-03) par Affini-Tech

  • 1. HADOOP ET SON ÉCOSYSTÈME Mars 2013 © 2012 Affini-Tech - Diffusion restreinte 1 mardi 2 avril 13
  • 2. AFFINI-TECH Méthodes projets Business Outils de reporting & & Data-visualisation Analyses BigData Modélisation Hadoop Technos Sciences Statistiques (R) NoSQL Machine Learning Cloud Intégration, Mise en Oeuvre, Conseil et Formation Une démarche intégrée de bout en bout © 2013 Affini-Tech - Diffusion restreinte 2 mardi 2 avril 13
  • 3. Collecter Analyser Présenter Stocker Valoriser Organiser Traiter Data- BigData Décisionnel Science Votre infrastructure Notre Cloud © 2012 Affini-Tech - Diffusion restreinte 3 mardi 2 avril 13
  • 4. AGENDA BigData Hadoop & Datawarehouses Evolutions Performances Cas d’utilisation © 2013 Affini-Tech - Diffusion restreinte 4 mardi 2 avril 13
  • 5. © 2013 Affini-Tech - Diffusion restreinte 5 mardi 2 avril 13
  • 6. © 2013 Affini-Tech - Diffusion restreinte 6 mardi 2 avril 13
  • 7. LES 4 V DU BIGDATA • Volume : les technologies actuelles sont inadaptées à cette croissance effrénée. • Variété : l’entreprise est confrontée à des données non structurées : emails, web, réseau sociaux, son, image, video... • Vélocité : L’accès et le partage des données doit se faire en temps réel. • Variabilité : On ne sait pas prévoir l’évolution des types de données © 2013 Affini-Tech - Diffusion restreinte 7 mardi 2 avril 13
  • 8. BIGDATA VS ANALYTICS Analytics & Business Intelligence Question KPI Collecter Intégrer Reporting BigData Collecter Explorer Modéliser Analyser Partager © 2013 Affini-Tech - Diffusion restreinte 8 mardi 2 avril 13
  • 9. Transactionnelles Historisées : B.I. Valeur unitaire Valeur Big Data des données Volume 9 © 2013 Affini-Tech - Diffusion restreinte mardi 2 avril 13
  • 10. Transactionnelles Cout Historisées : B.I. Valeur Big Data des données Volume 9 © 2013 Affini-Tech - Diffusion restreinte mardi 2 avril 13
  • 11. Performance SQL MPP Volume Variété © 2013 Affini-Tech - Diffusion restreinte 10 mardi 2 avril 13
  • 12. Hive Pig Cascading Flume HCatalog Mahout Crunch Sqoop Ambari Map / Reduce HBase HDFS NameNode DataNode DataNode DataNode © 2013 Affini-Tech - Diffusion restreinte 11 mardi 2 avril 13
  • 13. ET LES DATAWAREHOUSES © 2013 Affini-Tech - Diffusion restreinte 12 mardi 2 avril 13
  • 14. B.I. TRADITIONNELLE 7% 8% 10% 35% 11% 200 29% 150 100 50 0 2007 2008 2009 2010 Transactionnel DataWarehouse BI Applications © 2013 Affini-Tech - Diffusion restreinte 13 mardi 2 avril 13
  • 15. B.I. TRADITIONNELLE 7% 8% 10% 35% 11% 200 29% 150 100 50 0 2007 2008 2009 2010 DataWarehouse Transactionnel BI Applications & DataMarts © 2013 Affini-Tech - Diffusion restreinte 13 mardi 2 avril 13
  • 16. : ETL++ 7% 8% 10% 35% Non-Structuré 200 11% 29% 150 100 50 0 2007 2008 2009 2010 DataWarehouse BI Applications Transactionnel & DataMarts © 2013 Affini-Tech - Diffusion restreinte 14 mardi 2 avril 13
  • 17. : ETL & DW 7% 8% 10% 35% Non-Structuré 200 11% 29% 150 100 50 0 2007 2008 2009 2010 ETL & DW DataMarts BI Applications Transactionnel © 2013 Affini-Tech - Diffusion restreinte 15 mardi 2 avril 13
  • 18. : EDW 7% 8% 10% 35% Non-Structuré 200 11% 29% 150 100 50 0 2007 2008 2009 2010 ETL & DW & DataMarts BI Applications Transactionnel © 2013 Affini-Tech - Diffusion restreinte 16 mardi 2 avril 13
  • 19. EVOLUTIONS Différentes Workloads Map / Reduce ne suffit plus Productivité du développeur Ouverture de l’écosystème Performances © 2013 Affini-Tech - Diffusion restreinte 17 mardi 2 avril 13
  • 20. TYPES DE WORKLOADS Batch Stream Interactif Minutes à Millisecondes à Latence Continu Heures Minutes Volume To à Po Flux continu Go à Po Requêtes Modèle Map / Reduce DAG SQL Utilisateurs Développeurs Développeurs Analystes © 2013 Affini-Tech - Diffusion restreinte 18 mardi 2 avril 13
  • 21. HADOOP 1 : MAP / REDUCE Task Tracker Task Task Client Job Task Tracker Tracker Client Task Task Task Tracker Task Task © 2013 Affini-Tech - Diffusion restreinte 19 mardi 2 avril 13
  • 22. HADOOP 2 : YARN Node Container Manager Master Container Client Ress Node Container Manager Manager Client Master Container Node Container Manager Container Container © 2013 Affini-Tech - Diffusion restreinte 20 mardi 2 avril 13
  • 23. YARN Scalabilité (de 4K nodes à 10K+) Containers : unités de processing Utilisation optimale des ressources Compatibilité avec M/R v1 Autres modèles de programmation (MPI...) Haute-Disponibilité © 2013 Affini-Tech - Diffusion restreinte 21 mardi 2 avril 13
  • 24. PRODUCTIVITÉ DU DEVELOPPEUR Map/Reduce est contraignant ! Alternatives masquant Map/Reduce : • HIVE : SQL (+ interfaces JDBC) • PIG : Séquences simples de transformation • CASCADING : modèle de programmation simplifié pour tous les langages de la JVM © 2013 Affini-Tech - Diffusion restreinte 22 mardi 2 avril 13
  • 25. OUVERTURE DE L’ÉCOSYSTEME Possibilité de substituer des parties d’Hadoop par des codes extérieurs. remplace le tri natif de Hadoop pour améliorer les performances. Remplacement des connecteurs Hadoop par ceux d’ETL classiques du marché © 2013 Affini-Tech - Diffusion restreinte 23 mardi 2 avril 13
  • 26. PERFORMANCES Hybridation Hadoop/RDBMS Impala : I/O directes & Bypass HDFS Tez : Réduction de la latence Spark : Map/Reduce in-memory ... © 2013 Affini-Tech - Diffusion restreinte 24 mardi 2 avril 13
  • 27. HADOOP + RDBMS Exporter les résultats de requêtes Hadoop vers un SGBD ou un appliance MPP Mixer un SGBD classique et un stockage Hadoop Le SGBD cache les données... Hadapt, CitusDB, PivotalHD, Microsoft Polybase © 2013 Affini-Tech - Diffusion restreinte 25 mardi 2 avril 13
  • 28. CLOUDERA IMPALA Projet propriétaire de Cloudera Fonctionnement proche des moteurs MPP & conserve un socle Hadoop Lecture directe des blocs sur disques Format colonne Etend les interfaces de Hive/SQL © 2013 Affini-Tech - Diffusion restreinte 26 mardi 2 avril 13
  • 29. APACHE TEZ & STINGER Supprimer les I/O intermédiaires Performances x45 Générique M/R © 2013 Affini-Tech - Diffusion restreinte 27 mardi 2 avril 13
  • 30. SPARK & SHARK Spark : Implémentation de M/R en mémoire. Structures de données distribuées. Performances sur les iterations : Machine-Learning Shark offre une compatibilité Hive/SQL Un projet de © 2013 Affini-Tech - Diffusion restreinte 28 mardi 2 avril 13
  • 31. MERCI ! Vincent Heuschling Gsm : 06 61 88 76 71 Email : vhe@affini-tech.com Web : http://www.affini-tech.com Twitter : @affinitech & @vhe74 © 2013 Affini-Tech - Diffusion restreinte 30 mardi 2 avril 13