Big Data, kesako ?

Christophe Aran
Christophe AranIngénieur Décisionnel à Astek
Big Data, Kesako ?




Christophe Aran, Consultant décisionnel                              Référence : ASO-XXX
                                                                              Version : 1.0
                                                                           Du : 06/11/2012




 www.groupeastek.com
                                 Modèle : ASO-2007-M_PPT-0012 v2.1
Sommaire


                      •   Contexte actuel
                      •   Définition du Big Data
                      •   L’écosystème Hadoop
                      •   Les intérêts business du Big Data
                      •   Un cas concret : Karma chez Air France
                      •   Conclusion
www.groupeastek.com




                                                        Modèle : ASO-2007-M_PPT-0012 v2.1
Un déluge de données


                      YouTube reçoit 24h de vidéo toutes les minutes
                      500 téraoctets de données transitent chaque jour sur
                      Facebook
                      140 millions de tweets par jour
                      6 milliards de téléphones mobiles en activité en 2012
                      Des pics de 22 commandes à la seconde chez
                      Spartoo pendant les soldes
www.groupeastek.com




                      90% des données créées dans le monde l’ont été
                             au cours des 2 dernières années

                                                                 Modèle : ASO-2007-M_PPT-0012 v2.1
Et une collecte de données incessantes
                      Données commerciales
                       • Transactions
                      Informations Client
                       • CRM
                       • Dossiers médicaux
                      Informations Produits
                       • Codes barres
                       • RFID
                      Web
                       • Pages
www.groupeastek.com




                       • Journaux d’accès
                      Informations non structurées
                       • Réseaux sociaux
                       • GPS
                       • Mobile                          Modèle : ASO-2007-M_PPT-0012 v2.1
Les limites des SGBD actuels


                      Coût du stockage
                      Scalabilité
                      Performance
                      Format des données
                      Schémas figés
www.groupeastek.com




                                                     Modèle : ASO-2007-M_PPT-0012 v2.1
Le besoin


                      Système qui peut gérer de gros volumes de
                      données
                      Scalable
                      Robuste
                      Haute disponibilité
                      Economique
www.groupeastek.com




                              Nouvelle approche

                                                        Modèle : ASO-2007-M_PPT-0012 v2.1
Définition du Big Data

                      « Le Big Data fait référence à l'explosion du volume
                      des données dans l'entreprise et des nouveaux
                      moyens technologiques proposés par les éditeurs
                      pour y répondre »
                                                                          Gartner
www.groupeastek.com




                                                                Modèle : ASO-2007-M_PPT-0012 v2.1
Le concept des 3 V


                      Volume
                      Les entreprises sont submergées de
                                                                                             Vitesse
                                                                                             Parfois, 2 minutes c'est trop. Pour la
                      volumes de données croissants de                                       détection de fraudes par exemple, le
                      tous types, qui se comptent en                                         Big Data doit être utilisé au fil de l'eau,
                      téraoctets, voire en pétaoctets.                                       à mesure que les données sont
                                                                                             collectées par l’entreprise afin d'en
                                                                                             tirer le maximum de valeur.



                                                            Valeur
www.groupeastek.com




                                                           Variété
                                                           Le Big Data se présente sous la forme
                                                           de données structurées ou non
                                                           structurées   (texte,    données     de
                                                           capteurs, son, vidéo, fichiers journaux,
                                                           etc.).

                                                                                                              Modèle : ASO-2007-M_PPT-0012 v2.1
Hadoop, kesako ?


                      Inspiré de publications Google (2004)
                        Google Filesystem
                        Google Map Reduce
                      Créé par Doug Cutting, salarié chez Yahoo
                      Framework Open Source écrit en Java
                      Géré sous l'égide de la fondation Apache
                      Communauté très active, développement rapide
                      Un périmètre qui s’élargit constamment
www.groupeastek.com




                      Orienté « batch »



                                                              Modèle : ASO-2007-M_PPT-0012 v2.1
L’écosystème Hadoop
www.groupeastek.com




                                            Modèle : ASO-2007-M_PPT-0012 v2.1
HDFS


                      Système de fichiers distribué
                      Traitement de volumes de
                      données considérables
                      Découpage des fichiers par blocs
                      Fonctionne sur des serveurs “low
                      cost” (au minimum 3)
                      Fault Tolerant
                      Scalable
                      NameNode : gestion des
                      métadonnées
www.groupeastek.com




                      DataNode : stockage des
                      données



                                                         Modèle : ASO-2007-M_PPT-0012 v2.1
Map Reduce


                      Calcul distribué
                      Input | Map() | Sort | Reduce() | Output
                      JobTracker : gestion des jobs
                      TaskTracker : exécution des tâches
                      Map() et Reduce() sur chaque noeud
www.groupeastek.com




                                                                 Modèle : ASO-2007-M_PPT-0012 v2.1
Cas pratique (1/2) : stockage dans le HDFS

                      Notre fichier sera réparti en
                      un ensemble de blocs
                      répliqués dans les nœuds
                      du HDFS.
                      La réplication des blocs est
                      configurable, dans notre
                      exemple elle est de 3.
www.groupeastek.com




                                                         Modèle : ASO-2007-M_PPT-0012 v2.1
Cas pratique (2/2) : comptage des mots
www.groupeastek.com




                      Parallélisation des traitements
                      sur l’ensemble des nœuds du
                      HDFS grâce à Map Reduce
                                                         Modèle : ASO-2007-M_PPT-0012 v2.1
Pig vs Hive

                      Objectif commun : s’abstraire de la complexité de Map/Reduce

                      PIG                              HIVE
                      • Langage de script              • Pseudo-SQL
                      • Né chez Yahoo                  • Né chez Facebook
                      • Flexible / simple              • Rigide / Connu
                      • ETL                            • Interrogation
                      • Mise en œuvre UDF              • JDBC / ODBC
www.groupeastek.com




                                                                       Modèle : ASO-2007-M_PPT-0012 v2.1
Hbase et le NoSQL


                      Montée en puissance du mouvement NoSQL
                        Pour contourner les contraintes du modèle relationnel
                        Pas de jointures, très flexible
                        Forte scalabilité horizontale
                        Une éclosion de différents paradigmes
                      HBase
                        Implémentation open source de Google BigTable
                        Basé sur HDFS (non obligatoire)
                        Base de données orientée colonnes
www.groupeastek.com




                        En concurrence avec Cassandra




                                                                       Modèle : ASO-2007-M_PPT-0012 v2.1
Exemple : modélisation d’un fichier Achat
                      Format : (Table, RowKey, Family, Column, Timestamp) -> Value


                                                       Création d’une table :
                                                       create ‘achat’, {NAME => ‘acheteur’}, {NAME =>
                                                       ‘produit’, {NAME => ‘achat’}

                                                       Insertion d’une ligne :
                                                       put ‘achat’, ‘1’, ‘acheteur:nom’, ‘MARIE’
                                                       put ‘achat’, ‘1’, ‘acheteur:type’, ‘particulier’

                                                       Suppression d’une ligne :
                                                       delete 'achat', 1, 'achat:date‘
                                                       deleteall 'achat', 1

                                                       Lecture d’un enregistrement :
www.groupeastek.com




                                                       get 'achat', 1
                                                       get 'achat', 1, {COLUMN => 'produit:marque'}




                                                                                          Modèle : ASO-2007-M_PPT-0012 v2.1
Et pour l’intégration au SI existant


                      Sqoop
                       • Import / Export de données
                       • Import automatique
                       • Prise en charge de nombreuses
                         bases relationnelles
                      Flume
                       • Collecte de logs
                       • Data streaming
www.groupeastek.com




                                                             Modèle : ASO-2007-M_PPT-0012 v2.1
La solution Big Data de Talend


                      Lancement de Talend Open Studio for Big Data
                      Simplification des développements Big Data
                       • Environnement de développement graphique
                       • Connecteurs Big Data prêts à l’emploi



                      Depuis Octobre 2012, support des bases de
                      données NoSQL et connecteurs disponibles pour :
                       • HBase
www.groupeastek.com




                       • Cassandra
                       • MongoDB



                                                                    Modèle : ASO-2007-M_PPT-0012 v2.1
Les intérêts business du Big Data


                      Enfin un supercalculateur à la disposition de tous
                      De nouveaux horizons jusque-là inexplorés
                       • CRM : segmentation en exploitant les goûts et sentiments des
                         clients/prospects récoltés sur les réseaux sociaux
                       • Finance : contrôle en temps réel des transactions
                         frauduleuses ou à risques
                       • RH : exploitation des données LinkedIn (par exemple) pour
                         anticiper la volonté de départ d’un collaborateur clé
                       • Logistique : optimisation des flux de transport en temps réel
                         en fonction du trafic routier
www.groupeastek.com




                       • …




                                                                        Modèle : ASO-2007-M_PPT-0012 v2.1
Un cas concret : Karma chez Air France


                      Karma : Revenue Management AF/KLM
                      Composants Hadoop utilisées
                       • HDFS / Map Reduce / Sqoop / Pig
                       • Développement en interne : scheduler + interface web
                      Mise en Production courant 2013
                      Quelques chiffres :
                       • Un cluster de 90 serveurs pour déployer Hadoop
                       • 80 développeurs à Valbonne pour l’écriture des jobs MR
www.groupeastek.com




                       • 130 jobs déjà développés, 400 d’ici 2 ans
                       • 7h de traitement batch quotidien pour lancer les jobs MR et
                         mettre à jour les bases Oracle
                       • 300 analystes à Roissy pour analyser les données

                                                                         Modèle : ASO-2007-M_PPT-0012 v2.1
Conclusion


                      Un bol d’oxygène pour le traitement des données
                      volumineuses et pour la BI en particulier
                      Limites
                      • Un écosystème évoluant très rapidement, nécessite
                        encore du temps pour stabiliser les différents modules
                      • Si les volumes sont faibles (inférieur à 10To), un SGBD
                        classique suffira la plupart du temps
                      A suivre
                      •   Google Dremel / Cloudera Impala / Apache Drill
www.groupeastek.com




                      •   Positionnement des éditeurs « traditionnels »
                      •   Google, futur acteur majeur de la BI ?
                      •   Un nouveau métier : Data Scientist


                                                                           Modèle : ASO-2007-M_PPT-0012 v2.1
Pour plus d’informations


                      http://hadoop.apache.org/
                      http://pig.apache.org/
                      http://hive.apache.org/

                      https://developers.google.com/bigquery/
                      http://code.google.com/edu/parallel/mapreduce-
                      tutorial.html
www.groupeastek.com




                      http://www.kimballgroup.com/html/articles.html : The
                      Evolving Role of the Enterprise Data Warehouse in
                      the Era of Big Data Analytics (Ralph Kimball)

                                                                Modèle : ASO-2007-M_PPT-0012 v2.1
Merci. Des questions ?
www.groupeastek.com




                                               Modèle : ASO-2007-M_PPT-0012 v2.1
Annexe 1 : un autre exemple Map Reduce
                      Jeu de données :




                      Algorithme MapReduce afin de sortir le nombre d’occurrences des mots
                      constituant le texte :
www.groupeastek.com




                                                                                     Modèle : ASO-2007-M_PPT-0012 v2.1
Annexe 2 : une architecture BI transformée
www.groupeastek.com




                                                          Modèle : ASO-2007-M_PPT-0012 v2.1
1 sur 26

Recommandé

Big data - Cours d'introduction l Data-business par
Big data - Cours d'introduction l Data-businessBig data - Cours d'introduction l Data-business
Big data - Cours d'introduction l Data-businessVincent de Stoecklin
23.7K vues26 diapositives
Matinée 01 Big Data par
Matinée 01 Big DataMatinée 01 Big Data
Matinée 01 Big DataEvenements01
3.5K vues128 diapositives
Chapitre1 introduction par
Chapitre1 introductionChapitre1 introduction
Chapitre1 introductionMouna Torjmen
645 vues33 diapositives
I love BIG DATA par
I love BIG DATAI love BIG DATA
I love BIG DATAReseau'Nable
684 vues19 diapositives
Introduction au big data par
Introduction au big dataIntroduction au big data
Introduction au big dataAbdelghani Azri
1.5K vues24 diapositives
Introduction au BIG DATA par
Introduction au BIG DATAIntroduction au BIG DATA
Introduction au BIG DATAZakariyaa AIT ELMOUDEN
5.4K vues26 diapositives

Contenu connexe

Tendances

Valtech - Big Data : Détails d’une mise en œuvre par
Valtech - Big Data : Détails d’une mise en œuvreValtech - Big Data : Détails d’une mise en œuvre
Valtech - Big Data : Détails d’une mise en œuvreValtech
2.8K vues37 diapositives
Valtech - Du BI au Big Data, une révolution dans l’entreprise par
Valtech - Du BI au Big Data, une révolution dans l’entrepriseValtech - Du BI au Big Data, une révolution dans l’entreprise
Valtech - Du BI au Big Data, une révolution dans l’entrepriseValtech
8.9K vues50 diapositives
Big data analytics focus technique et nouvelles perspectives pour les actuaires par
Big data analytics focus technique et nouvelles perspectives pour les actuairesBig data analytics focus technique et nouvelles perspectives pour les actuaires
Big data analytics focus technique et nouvelles perspectives pour les actuairesKezhan SHI
4K vues29 diapositives
Big data par
Big dataBig data
Big dataMarwoua Ben Salem
2.2K vues33 diapositives
Big Data... Big Analytics à travers les âges, les industries et les technologies par
Big Data... Big Analytics à travers les âges, les industries et les technologiesBig Data... Big Analytics à travers les âges, les industries et les technologies
Big Data... Big Analytics à travers les âges, les industries et les technologiesHassan Lâasri
4.4K vues56 diapositives
La valeur des Big Data sera dans leurs usages par
La valeur des Big Data sera dans leurs usagesLa valeur des Big Data sera dans leurs usages
La valeur des Big Data sera dans leurs usagesSAS FRANCE
1.1K vues41 diapositives

Tendances(20)

Valtech - Big Data : Détails d’une mise en œuvre par Valtech
Valtech - Big Data : Détails d’une mise en œuvreValtech - Big Data : Détails d’une mise en œuvre
Valtech - Big Data : Détails d’une mise en œuvre
Valtech2.8K vues
Valtech - Du BI au Big Data, une révolution dans l’entreprise par Valtech
Valtech - Du BI au Big Data, une révolution dans l’entrepriseValtech - Du BI au Big Data, une révolution dans l’entreprise
Valtech - Du BI au Big Data, une révolution dans l’entreprise
Valtech8.9K vues
Big data analytics focus technique et nouvelles perspectives pour les actuaires par Kezhan SHI
Big data analytics focus technique et nouvelles perspectives pour les actuairesBig data analytics focus technique et nouvelles perspectives pour les actuaires
Big data analytics focus technique et nouvelles perspectives pour les actuaires
Kezhan SHI4K vues
Big Data... Big Analytics à travers les âges, les industries et les technologies par Hassan Lâasri
Big Data... Big Analytics à travers les âges, les industries et les technologiesBig Data... Big Analytics à travers les âges, les industries et les technologies
Big Data... Big Analytics à travers les âges, les industries et les technologies
Hassan Lâasri4.4K vues
La valeur des Big Data sera dans leurs usages par SAS FRANCE
La valeur des Big Data sera dans leurs usagesLa valeur des Big Data sera dans leurs usages
La valeur des Big Data sera dans leurs usages
SAS FRANCE1.1K vues
Cours Big Data Chap1 par Amal Abid
Cours Big Data Chap1Cours Big Data Chap1
Cours Big Data Chap1
Amal Abid15.6K vues
Big Data, Charles Huot, Aproged,février 2013 par ADBS
Big Data, Charles Huot, Aproged,février 2013Big Data, Charles Huot, Aproged,février 2013
Big Data, Charles Huot, Aproged,février 2013
ADBS4.6K vues
Formation professionnelle "Big data : concepts et enjeux" par Philippe METAYER
Formation professionnelle "Big data : concepts et enjeux"Formation professionnelle "Big data : concepts et enjeux"
Formation professionnelle "Big data : concepts et enjeux"
BIG DATA - Cloud Computing par senejug
BIG DATA - Cloud ComputingBIG DATA - Cloud Computing
BIG DATA - Cloud Computing
senejug4K vues
Présentation pfe Big Data Hachem SELMI et Ahmed DRIDI par HaShem Selmi
Présentation pfe Big Data Hachem SELMI et Ahmed DRIDIPrésentation pfe Big Data Hachem SELMI et Ahmed DRIDI
Présentation pfe Big Data Hachem SELMI et Ahmed DRIDI
HaShem Selmi9.9K vues
Du Big Data vers le SMART Data : Scénario d'un processus par CHAKER ALLAOUI
Du Big Data vers le SMART Data : Scénario d'un processusDu Big Data vers le SMART Data : Scénario d'un processus
Du Big Data vers le SMART Data : Scénario d'un processus
CHAKER ALLAOUI5.9K vues
Big Data Des méandres des outils au potentiel business par Mouhsine LAKHDISSI
Big Data   Des méandres des outils au potentiel businessBig Data   Des méandres des outils au potentiel business
Big Data Des méandres des outils au potentiel business
Mouhsine LAKHDISSI1.8K vues
BIG DATA - Les données au service de la business intelligence par Julien DEMAUGÉ-BOST
BIG DATA - Les données au service de la business intelligenceBIG DATA - Les données au service de la business intelligence
BIG DATA - Les données au service de la business intelligence
Point de Vue Sopra Consulting sur le Big Data par Nicolas Peene
Point de Vue Sopra Consulting sur le Big DataPoint de Vue Sopra Consulting sur le Big Data
Point de Vue Sopra Consulting sur le Big Data
Nicolas Peene1.2K vues

En vedette

Découvrez les nouvelles fonctionnalités de Talend 6 par
Découvrez les nouvelles fonctionnalités de Talend 6Découvrez les nouvelles fonctionnalités de Talend 6
Découvrez les nouvelles fonctionnalités de Talend 6Jean-Michel Franco
1.7K vues32 diapositives
Altaide les métiers du numérique, le grand capharnaüm 0316 par
Altaide les métiers du numérique, le grand capharnaüm 0316Altaide les métiers du numérique, le grand capharnaüm 0316
Altaide les métiers du numérique, le grand capharnaüm 0316ALTAIDE
2.1K vues18 diapositives
Altaide : Les nouveaux métiers du Big Data et Cloud Computing par
Altaide : Les nouveaux métiers du Big Data et Cloud ComputingAltaide : Les nouveaux métiers du Big Data et Cloud Computing
Altaide : Les nouveaux métiers du Big Data et Cloud ComputingALTAIDE
7.4K vues9 diapositives
Hadoop Ecosystème (2013-03) par Affini-Tech par
Hadoop Ecosystème (2013-03) par Affini-TechHadoop Ecosystème (2013-03) par Affini-Tech
Hadoop Ecosystème (2013-03) par Affini-TechVincent Heuschling
1.8K vues31 diapositives
Hadoop Hbase - Introduction par
Hadoop Hbase - IntroductionHadoop Hbase - Introduction
Hadoop Hbase - IntroductionBlandine Larbret
15.5K vues62 diapositives
Comment fidéliser et générer du trafic via SMS ? par
Comment fidéliser et générer du trafic via SMS ? Comment fidéliser et générer du trafic via SMS ?
Comment fidéliser et générer du trafic via SMS ? Fayçal Boulkout
1.1K vues94 diapositives

En vedette(20)

Découvrez les nouvelles fonctionnalités de Talend 6 par Jean-Michel Franco
Découvrez les nouvelles fonctionnalités de Talend 6Découvrez les nouvelles fonctionnalités de Talend 6
Découvrez les nouvelles fonctionnalités de Talend 6
Jean-Michel Franco1.7K vues
Altaide les métiers du numérique, le grand capharnaüm 0316 par ALTAIDE
Altaide les métiers du numérique, le grand capharnaüm 0316Altaide les métiers du numérique, le grand capharnaüm 0316
Altaide les métiers du numérique, le grand capharnaüm 0316
ALTAIDE2.1K vues
Altaide : Les nouveaux métiers du Big Data et Cloud Computing par ALTAIDE
Altaide : Les nouveaux métiers du Big Data et Cloud ComputingAltaide : Les nouveaux métiers du Big Data et Cloud Computing
Altaide : Les nouveaux métiers du Big Data et Cloud Computing
ALTAIDE7.4K vues
Comment fidéliser et générer du trafic via SMS ? par Fayçal Boulkout
Comment fidéliser et générer du trafic via SMS ? Comment fidéliser et générer du trafic via SMS ?
Comment fidéliser et générer du trafic via SMS ?
Fayçal Boulkout1.1K vues
Recursos hídricos del perú par Bigbaí Rupp
Recursos hídricos del perú Recursos hídricos del perú
Recursos hídricos del perú
Bigbaí Rupp169 vues
Fpi formación por proyectos par 32130
Fpi formación por proyectosFpi formación por proyectos
Fpi formación por proyectos
32130346 vues
Consejos para Declarar en el Formulario Virtual 683 par Renta2013
Consejos para Declarar en el Formulario Virtual 683Consejos para Declarar en el Formulario Virtual 683
Consejos para Declarar en el Formulario Virtual 683
Renta20132.8K vues
Forum 3 trading media comment ça marche par Matiro
Forum 3   trading media comment ça marcheForum 3   trading media comment ça marche
Forum 3 trading media comment ça marche
Matiro857 vues
Web analytics : suivre le trafic issu des moteurs de recherche par Nicolas Guillard
Web analytics : suivre le trafic issu des moteurs de rechercheWeb analytics : suivre le trafic issu des moteurs de recherche
Web analytics : suivre le trafic issu des moteurs de recherche
Nicolas Guillard760 vues
Paris Bluetooth MobiGuide explorcamp (20080516) par Mairie de Paris
Paris Bluetooth MobiGuide explorcamp (20080516)Paris Bluetooth MobiGuide explorcamp (20080516)
Paris Bluetooth MobiGuide explorcamp (20080516)
Mairie de Paris916 vues
El planeta marte 8D par Fila1
El planeta marte 8DEl planeta marte 8D
El planeta marte 8D
Fila1587 vues

Similaire à Big Data, kesako ?

Big Data, Kesako ? par
Big Data, Kesako ?Big Data, Kesako ?
Big Data, Kesako ?Christophe Aran
2K vues26 diapositives
Ecosystème Big Data par
Ecosystème Big DataEcosystème Big Data
Ecosystème Big DataIdriss22
6 vues201 diapositives
Quel est l'avenir des stratégies de données? par
Quel est l'avenir des stratégies de données?Quel est l'avenir des stratégies de données?
Quel est l'avenir des stratégies de données?Denodo
202 vues31 diapositives
La Logical Data Fabric au secours de la connaissance client par
La Logical Data Fabric au secours de la connaissance clientLa Logical Data Fabric au secours de la connaissance client
La Logical Data Fabric au secours de la connaissance clientDenodo
18 vues38 diapositives
Petit-déjeuner OCTO Technology : Calculez vos indicateurs en temps réel ave... par
Petit-déjeuner OCTO Technology :  Calculez vos indicateurs en temps réel ave...Petit-déjeuner OCTO Technology :  Calculez vos indicateurs en temps réel ave...
Petit-déjeuner OCTO Technology : Calculez vos indicateurs en temps réel ave...OCTO Technology
3.9K vues69 diapositives
Big data par
Big dataBig data
Big dataIbn Tofail University
179 vues25 diapositives

Similaire à Big Data, kesako ?(20)

Ecosystème Big Data par Idriss22
Ecosystème Big DataEcosystème Big Data
Ecosystème Big Data
Idriss226 vues
Quel est l'avenir des stratégies de données? par Denodo
Quel est l'avenir des stratégies de données?Quel est l'avenir des stratégies de données?
Quel est l'avenir des stratégies de données?
Denodo 202 vues
La Logical Data Fabric au secours de la connaissance client par Denodo
La Logical Data Fabric au secours de la connaissance clientLa Logical Data Fabric au secours de la connaissance client
La Logical Data Fabric au secours de la connaissance client
Denodo 18 vues
Petit-déjeuner OCTO Technology : Calculez vos indicateurs en temps réel ave... par OCTO Technology
Petit-déjeuner OCTO Technology :  Calculez vos indicateurs en temps réel ave...Petit-déjeuner OCTO Technology :  Calculez vos indicateurs en temps réel ave...
Petit-déjeuner OCTO Technology : Calculez vos indicateurs en temps réel ave...
OCTO Technology3.9K vues
Océane consulting - Intégration de Luxid TEMIS dans Nuxeo Platform - Nuxeo ... par Nuxeo
Océane consulting - Intégration de Luxid TEMIS dans Nuxeo Platform - Nuxeo ...Océane consulting - Intégration de Luxid TEMIS dans Nuxeo Platform - Nuxeo ...
Océane consulting - Intégration de Luxid TEMIS dans Nuxeo Platform - Nuxeo ...
Nuxeo1.1K vues
3 minutes pour comprendre ... le Big Data par Alain KHEMILI
3 minutes pour comprendre ... le Big Data3 minutes pour comprendre ... le Big Data
3 minutes pour comprendre ... le Big Data
Alain KHEMILI62 vues
Session découverte de la Data Virtualization par Denodo
Session découverte de la Data VirtualizationSession découverte de la Data Virtualization
Session découverte de la Data Virtualization
Denodo 399 vues
Big data Paris Presentation Solocal 20150310 par Abed Ajraou
Big data Paris Presentation Solocal 20150310Big data Paris Presentation Solocal 20150310
Big data Paris Presentation Solocal 20150310
Abed Ajraou1.2K vues
Session découverte de la Data Virtualization par Denodo
Session découverte de la Data VirtualizationSession découverte de la Data Virtualization
Session découverte de la Data Virtualization
Denodo 209 vues
Bluemix Paris Meetup : Big data et Analytics - 15 avril 2015 par IBM France Lab
Bluemix Paris Meetup :  Big data et Analytics - 15 avril 2015Bluemix Paris Meetup :  Big data et Analytics - 15 avril 2015
Bluemix Paris Meetup : Big data et Analytics - 15 avril 2015
IBM France Lab1.9K vues
Démo des nouvelles versions Dynamics CRM, L'utilisateur au centre des innovat... par Microsoft Décideurs IT
Démo des nouvelles versions Dynamics CRM, L'utilisateur au centre des innovat...Démo des nouvelles versions Dynamics CRM, L'utilisateur au centre des innovat...
Démo des nouvelles versions Dynamics CRM, L'utilisateur au centre des innovat...

Big Data, kesako ?

  • 1. Big Data, Kesako ? Christophe Aran, Consultant décisionnel Référence : ASO-XXX Version : 1.0 Du : 06/11/2012 www.groupeastek.com Modèle : ASO-2007-M_PPT-0012 v2.1
  • 2. Sommaire • Contexte actuel • Définition du Big Data • L’écosystème Hadoop • Les intérêts business du Big Data • Un cas concret : Karma chez Air France • Conclusion www.groupeastek.com Modèle : ASO-2007-M_PPT-0012 v2.1
  • 3. Un déluge de données YouTube reçoit 24h de vidéo toutes les minutes 500 téraoctets de données transitent chaque jour sur Facebook 140 millions de tweets par jour 6 milliards de téléphones mobiles en activité en 2012 Des pics de 22 commandes à la seconde chez Spartoo pendant les soldes www.groupeastek.com 90% des données créées dans le monde l’ont été au cours des 2 dernières années Modèle : ASO-2007-M_PPT-0012 v2.1
  • 4. Et une collecte de données incessantes Données commerciales • Transactions Informations Client • CRM • Dossiers médicaux Informations Produits • Codes barres • RFID Web • Pages www.groupeastek.com • Journaux d’accès Informations non structurées • Réseaux sociaux • GPS • Mobile Modèle : ASO-2007-M_PPT-0012 v2.1
  • 5. Les limites des SGBD actuels Coût du stockage Scalabilité Performance Format des données Schémas figés www.groupeastek.com Modèle : ASO-2007-M_PPT-0012 v2.1
  • 6. Le besoin Système qui peut gérer de gros volumes de données Scalable Robuste Haute disponibilité Economique www.groupeastek.com Nouvelle approche Modèle : ASO-2007-M_PPT-0012 v2.1
  • 7. Définition du Big Data « Le Big Data fait référence à l'explosion du volume des données dans l'entreprise et des nouveaux moyens technologiques proposés par les éditeurs pour y répondre » Gartner www.groupeastek.com Modèle : ASO-2007-M_PPT-0012 v2.1
  • 8. Le concept des 3 V Volume Les entreprises sont submergées de Vitesse Parfois, 2 minutes c'est trop. Pour la volumes de données croissants de détection de fraudes par exemple, le tous types, qui se comptent en Big Data doit être utilisé au fil de l'eau, téraoctets, voire en pétaoctets. à mesure que les données sont collectées par l’entreprise afin d'en tirer le maximum de valeur. Valeur www.groupeastek.com Variété Le Big Data se présente sous la forme de données structurées ou non structurées (texte, données de capteurs, son, vidéo, fichiers journaux, etc.). Modèle : ASO-2007-M_PPT-0012 v2.1
  • 9. Hadoop, kesako ? Inspiré de publications Google (2004) Google Filesystem Google Map Reduce Créé par Doug Cutting, salarié chez Yahoo Framework Open Source écrit en Java Géré sous l'égide de la fondation Apache Communauté très active, développement rapide Un périmètre qui s’élargit constamment www.groupeastek.com Orienté « batch » Modèle : ASO-2007-M_PPT-0012 v2.1
  • 10. L’écosystème Hadoop www.groupeastek.com Modèle : ASO-2007-M_PPT-0012 v2.1
  • 11. HDFS Système de fichiers distribué Traitement de volumes de données considérables Découpage des fichiers par blocs Fonctionne sur des serveurs “low cost” (au minimum 3) Fault Tolerant Scalable NameNode : gestion des métadonnées www.groupeastek.com DataNode : stockage des données Modèle : ASO-2007-M_PPT-0012 v2.1
  • 12. Map Reduce Calcul distribué Input | Map() | Sort | Reduce() | Output JobTracker : gestion des jobs TaskTracker : exécution des tâches Map() et Reduce() sur chaque noeud www.groupeastek.com Modèle : ASO-2007-M_PPT-0012 v2.1
  • 13. Cas pratique (1/2) : stockage dans le HDFS Notre fichier sera réparti en un ensemble de blocs répliqués dans les nœuds du HDFS. La réplication des blocs est configurable, dans notre exemple elle est de 3. www.groupeastek.com Modèle : ASO-2007-M_PPT-0012 v2.1
  • 14. Cas pratique (2/2) : comptage des mots www.groupeastek.com Parallélisation des traitements sur l’ensemble des nœuds du HDFS grâce à Map Reduce Modèle : ASO-2007-M_PPT-0012 v2.1
  • 15. Pig vs Hive Objectif commun : s’abstraire de la complexité de Map/Reduce PIG HIVE • Langage de script • Pseudo-SQL • Né chez Yahoo • Né chez Facebook • Flexible / simple • Rigide / Connu • ETL • Interrogation • Mise en œuvre UDF • JDBC / ODBC www.groupeastek.com Modèle : ASO-2007-M_PPT-0012 v2.1
  • 16. Hbase et le NoSQL Montée en puissance du mouvement NoSQL Pour contourner les contraintes du modèle relationnel Pas de jointures, très flexible Forte scalabilité horizontale Une éclosion de différents paradigmes HBase Implémentation open source de Google BigTable Basé sur HDFS (non obligatoire) Base de données orientée colonnes www.groupeastek.com En concurrence avec Cassandra Modèle : ASO-2007-M_PPT-0012 v2.1
  • 17. Exemple : modélisation d’un fichier Achat Format : (Table, RowKey, Family, Column, Timestamp) -> Value Création d’une table : create ‘achat’, {NAME => ‘acheteur’}, {NAME => ‘produit’, {NAME => ‘achat’} Insertion d’une ligne : put ‘achat’, ‘1’, ‘acheteur:nom’, ‘MARIE’ put ‘achat’, ‘1’, ‘acheteur:type’, ‘particulier’ Suppression d’une ligne : delete 'achat', 1, 'achat:date‘ deleteall 'achat', 1 Lecture d’un enregistrement : www.groupeastek.com get 'achat', 1 get 'achat', 1, {COLUMN => 'produit:marque'} Modèle : ASO-2007-M_PPT-0012 v2.1
  • 18. Et pour l’intégration au SI existant Sqoop • Import / Export de données • Import automatique • Prise en charge de nombreuses bases relationnelles Flume • Collecte de logs • Data streaming www.groupeastek.com Modèle : ASO-2007-M_PPT-0012 v2.1
  • 19. La solution Big Data de Talend Lancement de Talend Open Studio for Big Data Simplification des développements Big Data • Environnement de développement graphique • Connecteurs Big Data prêts à l’emploi Depuis Octobre 2012, support des bases de données NoSQL et connecteurs disponibles pour : • HBase www.groupeastek.com • Cassandra • MongoDB Modèle : ASO-2007-M_PPT-0012 v2.1
  • 20. Les intérêts business du Big Data Enfin un supercalculateur à la disposition de tous De nouveaux horizons jusque-là inexplorés • CRM : segmentation en exploitant les goûts et sentiments des clients/prospects récoltés sur les réseaux sociaux • Finance : contrôle en temps réel des transactions frauduleuses ou à risques • RH : exploitation des données LinkedIn (par exemple) pour anticiper la volonté de départ d’un collaborateur clé • Logistique : optimisation des flux de transport en temps réel en fonction du trafic routier www.groupeastek.com • … Modèle : ASO-2007-M_PPT-0012 v2.1
  • 21. Un cas concret : Karma chez Air France Karma : Revenue Management AF/KLM Composants Hadoop utilisées • HDFS / Map Reduce / Sqoop / Pig • Développement en interne : scheduler + interface web Mise en Production courant 2013 Quelques chiffres : • Un cluster de 90 serveurs pour déployer Hadoop • 80 développeurs à Valbonne pour l’écriture des jobs MR www.groupeastek.com • 130 jobs déjà développés, 400 d’ici 2 ans • 7h de traitement batch quotidien pour lancer les jobs MR et mettre à jour les bases Oracle • 300 analystes à Roissy pour analyser les données Modèle : ASO-2007-M_PPT-0012 v2.1
  • 22. Conclusion Un bol d’oxygène pour le traitement des données volumineuses et pour la BI en particulier Limites • Un écosystème évoluant très rapidement, nécessite encore du temps pour stabiliser les différents modules • Si les volumes sont faibles (inférieur à 10To), un SGBD classique suffira la plupart du temps A suivre • Google Dremel / Cloudera Impala / Apache Drill www.groupeastek.com • Positionnement des éditeurs « traditionnels » • Google, futur acteur majeur de la BI ? • Un nouveau métier : Data Scientist Modèle : ASO-2007-M_PPT-0012 v2.1
  • 23. Pour plus d’informations http://hadoop.apache.org/ http://pig.apache.org/ http://hive.apache.org/ https://developers.google.com/bigquery/ http://code.google.com/edu/parallel/mapreduce- tutorial.html www.groupeastek.com http://www.kimballgroup.com/html/articles.html : The Evolving Role of the Enterprise Data Warehouse in the Era of Big Data Analytics (Ralph Kimball) Modèle : ASO-2007-M_PPT-0012 v2.1
  • 24. Merci. Des questions ? www.groupeastek.com Modèle : ASO-2007-M_PPT-0012 v2.1
  • 25. Annexe 1 : un autre exemple Map Reduce Jeu de données : Algorithme MapReduce afin de sortir le nombre d’occurrences des mots constituant le texte : www.groupeastek.com Modèle : ASO-2007-M_PPT-0012 v2.1
  • 26. Annexe 2 : une architecture BI transformée www.groupeastek.com Modèle : ASO-2007-M_PPT-0012 v2.1

Notes de l'éditeur

  1. Présentation : Du premier jour de l'humanité jusqu'à l'an 2003, les hommes ont produit quelque 5 millions de téraoctets de données. En 2012, deux jours suffisent pour produire la même quantité. Ces données proviennent de partout : de messages sur les médias sociaux, d'images et de vidéos publiées en ligne, d'enregistrements transactionnels d'achats en ligne, de signaux GPS de téléphones mobiles… pour ne citer que quelques sources. Ces données sont appelées Big Data ou volumes massifs de données. Les sociétés du Web tels que Google, Facebook et Amazon ont investi massivement afin de gérer ces Big Data. En effet, leur survie en dépend. C’est ainsi qu’un ensemble de technologies open source et de concepts est né : MapReduce, Apache Hadoop, bases de données NoSQL,… Qu’est-ce que le big Data et quels en sont les différents concepts ? Comment utiliser ces technologies dans des applications opérationnelles ou décisionnelles ? Pourquoi le Big Data ouvre-t-il de nouvelles perspectives ? Est-ce une révolution technologique ou un effet de mode ?
  2. http://www-01.ibm.com/software/fr/data/bigdata/ http://fr.slideshare.net/PhilippeJulio/big-data-architecture Définition du Big Data Chaque jour, nous générons 2,5 trillions d’octets de données. A tel point que 90% des données dans le monde ont été créées au cours des deux dernières années seulement. Ces données proviennent de partout : de capteurs utilisés pour collecter les informations climatiques, de messages sur les sites de médias sociaux, d'images numériques et de vidéos publiées en ligne, d'enregistrements transactionnels d'achats en ligne et de signaux GPS de téléphones mobiles, pour ne citer que quelques sources. Ces données sont appelées  Big Data ou volumes massifs de données. Le Big Data couvre trois dimensions : volume, vélocité et variété. Volume :  les entreprises sont submergées de volumes de données croissants de tous types, qui se comptent en téraoctets, voire en pétaoctets. Transformer les 12 téraoctets de Tweets créés quotidiennement en analyse poussée des opinions sur un produit Convertir les 350 milliards de relevés annuels de compteurs afin de mieux prédire la consommation d'énergie Vélocité :  parfois, 2 minutes c'est trop. Pour les processus chronosensibles tels que la détection de fraudes, le Big Data doit être utilisé au fil de l'eau, à mesure que les données sont collectées par votre entreprise afin d'en tirer le maximum de valeur. Scruter 5 millions d'événements commerciaux par jour afin d'identifier les fraudes potentielles Analyser en temps réel 500 millions d’enregistrements détaillés d’appels quotidiens Variété :  le Big Data se présente sous la forme de données structurées ou non structurées (texte, données de capteurs, son, vidéo, données sur le parcours, fichiers journaux, etc.). De nouvelles connaissances sont issues de l’analyse collective de ces données. Utiliser les centaines de flux vidéo des caméras de surveillance pour contrôler les points d'intérêt Tirer parti de la croissance de 80 % du volume de données image, vidéo et documentaires pour améliorer la satisfaction client Le Big Data va bien au-delà de la seule notion de volume : il constitue une opportunité d'obtenir des connaissances sur des types de données et de contenus nouveaux, afin de rendre votre entreprise plus agile et de trouver enfin une réponse aux questions laissées en suspens. Jusqu'à présent, il n'y avait aucun moyen d'exploiter cette opportunité. Aujourd'hui, la plateforme Big Data d'IBM a recours aux technologies les plus pointues et à des solutions d'analyse brevetées, afin d'ouvrir la porte à de nouvelles possibilités.
  3. http://blog.inovia-conseil.fr/?p=46