SlideShare une entreprise Scribd logo
1  sur  26
Télécharger pour lire hors ligne
Big Data, Kesako ?




Christophe Aran, Consultant décisionnel                              Référence : ASO-XXX
                                                                              Version : 1.0
                                                                           Du : 06/11/2012




 www.groupeastek.com
                                 Modèle : ASO-2007-M_PPT-0012 v2.1
Sommaire


                      Contexte actuel
                      Définition du Big Data
                      L’écosystème Hadoop
                      Les intérêts business du Big Data
                      Un cas concret : Karma chez Air France
                      Conclusion
www.groupeastek.com




                                                    Modèle : ASO-2007-M_PPT-0012 v2.1
Un déluge de données


                      YouTube reçoit 24h de vidéo toutes les minutes
                      500 téraoctets de données transitent chaque jour sur
                      Facebook
                      140 millions de tweets par jour
                      6 milliards de téléphones mobiles en activité en 2012
                      Des pics de 22 commandes à la seconde chez
                      Spartoo pendant les soldes
www.groupeastek.com




                      90% des données créées dans le monde l’ont été
                             au cours des 2 dernières années

                                                                 Modèle : ASO-2007-M_PPT-0012 v2.1
Et une collecte de données incessantes
                      Données commerciales
                       • Transactions
                      Informations Client
                       • CRM
                       • Dossiers médicaux
                      Informations Produits
                       • Codes barres
                       • RFID
                      Web
                       • Pages
www.groupeastek.com




                       • Journaux d’accès
                      Informations non structurées
                       • Réseaux sociaux
                       • GPS
                       • Mobile                          Modèle : ASO-2007-M_PPT-0012 v2.1
Les limites des SGBD actuels


                      Coût du stockage
                      Scalabilité
                      Performance
                      Format des données
                      Schémas figés
www.groupeastek.com




                                                     Modèle : ASO-2007-M_PPT-0012 v2.1
Le besoin


                      Système qui peut gérer de gros volumes de
                      données
                      Scalable
                      Robuste
                      Haute disponibilité
                      Economique
www.groupeastek.com




                              Nouvelle approche

                                                        Modèle : ASO-2007-M_PPT-0012 v2.1
Définition du Big Data

                      « Le Big Data fait référence à l'explosion du volume
                      des données dans l'entreprise et des nouveaux
                      moyens technologiques proposés par les éditeurs
                      pour y répondre »
                                                                          Gartner
www.groupeastek.com




                                                                Modèle : ASO-2007-M_PPT-0012 v2.1
Le concept des 3 V


                      Volume
                      Les entreprises sont submergées de
                                                                                             Vitesse
                                                                                             Parfois, 2 minutes c'est trop. Pour la
                      volumes de données croissants de                                       détection de fraudes par exemple, le
                      tous types, qui se comptent en                                         Big Data doit être utilisé au fil de l'eau,
                      téraoctets, voire en pétaoctets.                                       à mesure que les données sont
                                                                                             collectées par l’entreprise afin d'en
                                                                                             tirer le maximum de valeur.



                                                            Valeur
www.groupeastek.com




                                                           Variété
                                                           Le Big Data se présente sous la forme
                                                           de données structurées ou non
                                                           structurées   (texte,    données     de
                                                           capteurs, son, vidéo, fichiers journaux,
                                                           etc.).

                                                                                                              Modèle : ASO-2007-M_PPT-0012 v2.1
Hadoop, kesako ?


                      Inspiré de publications Google (2004)
                        Google Filesystem
                        Google Map Reduce
                      Créé par Doug Cutting, salarié chez Yahoo
                      Framework Open Source écrit en Java
                      Géré sous l'égide de la fondation Apache
                      Communauté très active, développement rapide
                      Un périmètre qui s’élargit constamment
www.groupeastek.com




                      Orienté « batch »




                                                              Modèle : ASO-2007-M_PPT-0012 v2.1
L’écosystème Hadoop
www.groupeastek.com




                                            Modèle : ASO-2007-M_PPT-0012 v2.1
HDFS


                      Système de fichiers distribué
                      Traitement de volumes de
                      données considérables
                      Découpage des fichiers par blocs
                      Fonctionne sur des serveurs “low
                      cost” (au minimum 3)
                      Fault Tolerant
                      Scalable
                      NameNode : gestion des
                      métadonnées
www.groupeastek.com




                      DataNode : stockage des
                      données



                                                         Modèle : ASO-2007-M_PPT-0012 v2.1
Map Reduce


                      Calcul distribué
                      Input | Map() | Sort | Reduce() | Output
                      JobTracker : gestion des jobs
                      TaskTracker : exécution des tâches
                      Map() et Reduce() sur chaque noeud
www.groupeastek.com




                                                                 Modèle : ASO-2007-M_PPT-0012 v2.1
Cas pratique (1/2) : stockage dans le HDFS

                      Notre fichier sera réparti en
                      un ensemble de blocs
                      répliqués dans les nœuds
                      du HDFS.
                      La réplication des blocs est
                      configurable, dans notre
                      exemple elle est de 3.
www.groupeastek.com




                                                         Modèle : ASO-2007-M_PPT-0012 v2.1
Cas pratique (2/2) : comptage des mots
www.groupeastek.com




                      Parallélisation des traitements
                      sur l’ensemble des nœuds du
                      HDFS grâce à Map Reduce
                                                         Modèle : ASO-2007-M_PPT-0012 v2.1
Pig vs Hive

                      Objectif commun : s’abstraire de la complexité de Map/Reduce

                      PIG                              HIVE
                      • Langage de script              • Pseudo-SQL
                      • Né chez Yahoo                  • Né chez Facebook
                      • Flexible / simple              • Rigide / Connu
                      • ETL                            • Interrogation
                      • Mise en œuvre UDF              • JDBC / ODBC
www.groupeastek.com




                                                                       Modèle : ASO-2007-M_PPT-0012 v2.1
Hbase et le NoSQL


                      Montée en puissance du mouvement NoSQL
                        Pour contourner les contraintes du modèle relationnel
                        Pas de jointures, très flexible
                        Forte scalabilité horizontale
                        Une éclosion de différents paradigmes
                      HBase
                        Implémentation open source de Google BigTable
                        Basé sur HDFS (non obligatoire)
                        Base de données orientée colonnes
www.groupeastek.com




                        En concurrence avec Cassandra




                                                                       Modèle : ASO-2007-M_PPT-0012 v2.1
Exemple : modélisation d’un fichier Achat
                      Format : (Table, RowKey, Family, Column, Timestamp) -> Value


                                                       Création d’une table :
                                                       create ‘achat’, {NAME => ‘acheteur’}, {NAME =>
                                                       ‘produit’, {NAME => ‘achat’}

                                                       Insertion d’une ligne :
                                                       put ‘achat’, ‘1’, ‘acheteur:nom’, ‘MARIE’
                                                       put ‘achat’, ‘1’, ‘acheteur:type’, ‘particulier’

                                                       Suppression d’une ligne :
                                                       delete 'achat', 1, 'achat:date‘
                                                       deleteall 'achat', 1

                                                       Lecture d’un enregistrement :
www.groupeastek.com




                                                       get 'achat', 1
                                                       get 'achat', 1, {COLUMN => 'produit:marque'}




                                                                                          Modèle : ASO-2007-M_PPT-0012 v2.1
Et pour l’intégration au SI existant


                      Sqoop
                       • Import / Export de données
                       • Import automatique
                       • Prise en charge de nombreuses
                         bases relationnelles
                      Flume
                       • Collecte de logs
                       • Data streaming
www.groupeastek.com




                                                             Modèle : ASO-2007-M_PPT-0012 v2.1
La solution Big Data de Talend


                      Lancement de Talend Open Studio for Big Data
                      Simplification des développements Big Data
                       • Environnement de développement graphique
                       • Connecteurs Big Data prêts à l’emploi



                      Depuis Octobre 2012, support des bases de
                      données NoSQL et connecteurs disponibles pour :
                       • HBase
www.groupeastek.com




                       • Cassandra
                       • MongoDB



                                                                    Modèle : ASO-2007-M_PPT-0012 v2.1
Les intérêts business du Big Data


                      Enfin un supercalculateur à la disposition de tous
                      De nouveaux horizons jusque-là inexplorés
                       • CRM : segmentation en exploitant les goûts et sentiments des
                         clients/prospects récoltés sur les réseaux sociaux
                       • Finance : contrôle en temps réel des transactions
                         frauduleuses ou à risques
                       • RH : exploitation des données LinkedIn (par exemple) pour
                         anticiper la volonté de départ d’un collaborateur clé
                       • Logistique : optimisation des flux de transport en temps réel
www.groupeastek.com




                         en fonction du trafic routier
                       • …




                                                                        Modèle : ASO-2007-M_PPT-0012 v2.1
Un cas concret : Karma chez Air France


                      Karma : Revenue Management AF/KLM
                      Composants Hadoop utilisées
                       • HDFS / Map Reduce / Sqoop / Pig
                       • Développement en interne : scheduler + interface web
                      Mise en Production courant 2013
                      Quelques chiffres :
                       • Un cluster de 90 serveurs pour déployer Hadoop
                       • 80 développeurs à Valbonne pour l’écriture des jobs MR
                       • 130 jobs déjà développés, 400 d’ici 2 ans
www.groupeastek.com




                       • 7h de traitement batch quotidien pour lancer les jobs MR et
                         mettre à jour les bases Oracle
                       • 300 analystes à Roissy pour analyser les données

                                                                         Modèle : ASO-2007-M_PPT-0012 v2.1
Conclusion


                      Un bol d’oxygène pour le traitement des données
                      volumineuses et pour la BI en particulier
                      Limites
                      • Un écosystème évoluant très rapidement, nécessite
                        encore du temps pour stabiliser les différents modules
                      • Si les volumes sont faibles (inférieur à 10To), un SGBD
                        classique suffira la plupart du temps
                      A suivre
                      •   Google Dremel / Cloudera Impala / Apache Drill
www.groupeastek.com




                      •   Positionnement des éditeurs « traditionnels »
                      •   Google, futur acteur majeur de la BI ?
                      •   Un nouveau métier : Data Scientist


                                                                           Modèle : ASO-2007-M_PPT-0012 v2.1
Pour plus d’informations


                      http://hadoop.apache.org/
                      http://pig.apache.org/
                      http://hive.apache.org/

                      https://developers.google.com/bigquery/
                      http://code.google.com/edu/parallel/mapreduce-
                      tutorial.html
www.groupeastek.com




                      http://www.kimballgroup.com/html/articles.html : The
                      Evolving Role of the Enterprise Data Warehouse in
                      the Era of Big Data Analytics (Ralph Kimball)

                                                                 Modèle : ASO-2007-M_PPT-0012 v2.1
Merci. Des questions ?
www.groupeastek.com




                                               Modèle : ASO-2007-M_PPT-0012 v2.1
Annexe 1 : un autre exemple Map Reduce
                      Jeu de données :




                      Algorithme MapReduce afin de sortir le nombre d’occurrences des mots
                      constituant le texte :
www.groupeastek.com




                                                                                     Modèle : ASO-2007-M_PPT-0012 v2.1
Annexe 2 : une architecture BI transformée
www.groupeastek.com




                                                          Modèle : ASO-2007-M_PPT-0012 v2.1

Contenu connexe

Tendances

Le "Lac de données" de l'Ina, un projet pour placer la donnée au cœur de l'or...
Le "Lac de données" de l'Ina, un projet pour placer la donnée au cœur de l'or...Le "Lac de données" de l'Ina, un projet pour placer la donnée au cœur de l'or...
Le "Lac de données" de l'Ina, un projet pour placer la donnée au cœur de l'or...Gautier Poupeau
 
Visite guidée au pays de la donnée - Traitement automatique des données
Visite guidée au pays de la donnée - Traitement automatique des donnéesVisite guidée au pays de la donnée - Traitement automatique des données
Visite guidée au pays de la donnée - Traitement automatique des donnéesGautier Poupeau
 
Formation professionnelle "Big data : concepts et enjeux"
Formation professionnelle "Big data : concepts et enjeux"Formation professionnelle "Big data : concepts et enjeux"
Formation professionnelle "Big data : concepts et enjeux"Philippe METAYER
 
Antidot Information Factory - AIF
Antidot Information Factory - AIFAntidot Information Factory - AIF
Antidot Information Factory - AIFAntidot
 
Distributed programing (hadoop && java) version finale.pptx
Distributed programing  (hadoop && java) version finale.pptxDistributed programing  (hadoop && java) version finale.pptx
Distributed programing (hadoop && java) version finale.pptxAhmed rebai
 
Océane consulting - Intégration de Luxid TEMIS dans Nuxeo Platform - Nuxeo ...
Océane consulting - Intégration de Luxid TEMIS dans Nuxeo Platform - Nuxeo ...Océane consulting - Intégration de Luxid TEMIS dans Nuxeo Platform - Nuxeo ...
Océane consulting - Intégration de Luxid TEMIS dans Nuxeo Platform - Nuxeo ...Nuxeo
 
Benchmarking NoSQL DataBase dans le cadre d'un projet IoT
Benchmarking NoSQL DataBase dans le cadre d'un projet IoTBenchmarking NoSQL DataBase dans le cadre d'un projet IoT
Benchmarking NoSQL DataBase dans le cadre d'un projet IoTCHAKER ALLAOUI
 
Documation 2011 : de la recherche fédérée à l'accès unifié
Documation 2011 : de la recherche fédérée à l'accès unifiéDocumation 2011 : de la recherche fédérée à l'accès unifié
Documation 2011 : de la recherche fédérée à l'accès unifiéAntidot
 
Data Science & Big Data, réalités et perspectives.
Data Science & Big Data, réalités et perspectives.Data Science & Big Data, réalités et perspectives.
Data Science & Big Data, réalités et perspectives.Aleph Technologies
 
Présentation Big Data et REX Hadoop
Présentation Big Data et REX HadoopPrésentation Big Data et REX Hadoop
Présentation Big Data et REX HadoopJoseph Glorieux
 
Introduction à la BIG DATA et l'Intelligence Artificielle
Introduction à la BIG DATA et l'Intelligence ArtificielleIntroduction à la BIG DATA et l'Intelligence Artificielle
Introduction à la BIG DATA et l'Intelligence ArtificielleMedhi Corneille Famibelle*
 
La qualité des Données et Métadonnées Ouvertes
La qualité des Données et Métadonnées OuvertesLa qualité des Données et Métadonnées Ouvertes
La qualité des Données et Métadonnées OuvertesOpen Data Support
 
Livre blanc big data et data lake le duo gagnant extrait_itelligence
Livre blanc big data et data lake le duo gagnant extrait_itelligenceLivre blanc big data et data lake le duo gagnant extrait_itelligence
Livre blanc big data et data lake le duo gagnant extrait_itelligenceHélène Etienne
 
Introduction à la big data V2
Introduction à la big data V2Introduction à la big data V2
Introduction à la big data V2Mehdi TAZI
 
La "Data science" au service des entreprises
La "Data science" au service des entreprisesLa "Data science" au service des entreprises
La "Data science" au service des entreprisesAymen ZAAFOURI
 

Tendances (20)

Le "Lac de données" de l'Ina, un projet pour placer la donnée au cœur de l'or...
Le "Lac de données" de l'Ina, un projet pour placer la donnée au cœur de l'or...Le "Lac de données" de l'Ina, un projet pour placer la donnée au cœur de l'or...
Le "Lac de données" de l'Ina, un projet pour placer la donnée au cœur de l'or...
 
Visite guidée au pays de la donnée - Traitement automatique des données
Visite guidée au pays de la donnée - Traitement automatique des donnéesVisite guidée au pays de la donnée - Traitement automatique des données
Visite guidée au pays de la donnée - Traitement automatique des données
 
Data warehouse
Data warehouseData warehouse
Data warehouse
 
Formation professionnelle "Big data : concepts et enjeux"
Formation professionnelle "Big data : concepts et enjeux"Formation professionnelle "Big data : concepts et enjeux"
Formation professionnelle "Big data : concepts et enjeux"
 
Conférence big data
Conférence big dataConférence big data
Conférence big data
 
Big data
Big dataBig data
Big data
 
Antidot Information Factory - AIF
Antidot Information Factory - AIFAntidot Information Factory - AIF
Antidot Information Factory - AIF
 
Distributed programing (hadoop && java) version finale.pptx
Distributed programing  (hadoop && java) version finale.pptxDistributed programing  (hadoop && java) version finale.pptx
Distributed programing (hadoop && java) version finale.pptx
 
Océane consulting - Intégration de Luxid TEMIS dans Nuxeo Platform - Nuxeo ...
Océane consulting - Intégration de Luxid TEMIS dans Nuxeo Platform - Nuxeo ...Océane consulting - Intégration de Luxid TEMIS dans Nuxeo Platform - Nuxeo ...
Océane consulting - Intégration de Luxid TEMIS dans Nuxeo Platform - Nuxeo ...
 
Bigdata opensource
Bigdata opensourceBigdata opensource
Bigdata opensource
 
Benchmarking NoSQL DataBase dans le cadre d'un projet IoT
Benchmarking NoSQL DataBase dans le cadre d'un projet IoTBenchmarking NoSQL DataBase dans le cadre d'un projet IoT
Benchmarking NoSQL DataBase dans le cadre d'un projet IoT
 
Documation 2011 : de la recherche fédérée à l'accès unifié
Documation 2011 : de la recherche fédérée à l'accès unifiéDocumation 2011 : de la recherche fédérée à l'accès unifié
Documation 2011 : de la recherche fédérée à l'accès unifié
 
Data Science & Big Data, réalités et perspectives.
Data Science & Big Data, réalités et perspectives.Data Science & Big Data, réalités et perspectives.
Data Science & Big Data, réalités et perspectives.
 
Présentation Big Data et REX Hadoop
Présentation Big Data et REX HadoopPrésentation Big Data et REX Hadoop
Présentation Big Data et REX Hadoop
 
Introduction à la BIG DATA et l'Intelligence Artificielle
Introduction à la BIG DATA et l'Intelligence ArtificielleIntroduction à la BIG DATA et l'Intelligence Artificielle
Introduction à la BIG DATA et l'Intelligence Artificielle
 
La qualité des Données et Métadonnées Ouvertes
La qualité des Données et Métadonnées OuvertesLa qualité des Données et Métadonnées Ouvertes
La qualité des Données et Métadonnées Ouvertes
 
Livre blanc big data et data lake le duo gagnant extrait_itelligence
Livre blanc big data et data lake le duo gagnant extrait_itelligenceLivre blanc big data et data lake le duo gagnant extrait_itelligence
Livre blanc big data et data lake le duo gagnant extrait_itelligence
 
Introduction à la big data V2
Introduction à la big data V2Introduction à la big data V2
Introduction à la big data V2
 
Chapitre i-intro
Chapitre i-introChapitre i-intro
Chapitre i-intro
 
La "Data science" au service des entreprises
La "Data science" au service des entreprisesLa "Data science" au service des entreprises
La "Data science" au service des entreprises
 

En vedette

Monde tourvirtuel
Monde tourvirtuelMonde tourvirtuel
Monde tourvirtuelfilipj2000
 
MitologiaGriega.
MitologiaGriega.MitologiaGriega.
MitologiaGriega.Marlyn Rios
 
Guacho sagñay maría de los ángeles. Manejo de word
Guacho sagñay maría de los ángeles. Manejo de wordGuacho sagñay maría de los ángeles. Manejo de word
Guacho sagñay maría de los ángeles. Manejo de wordmary_gs19
 
Cominfo10
Cominfo10Cominfo10
Cominfo10ATD13
 
31 41 negligencia o descuido
31 41 negligencia o descuido31 41 negligencia o descuido
31 41 negligencia o descuidoSandra Vargas
 
Tutorial de power point
Tutorial de power pointTutorial de power point
Tutorial de power pointalcy18
 
1.1.diedricopuntos
1.1.diedricopuntos1.1.diedricopuntos
1.1.diedricopuntosarq______
 
NEGOCIO QUE QUISIERA TENER
NEGOCIO QUE QUISIERA TENERNEGOCIO QUE QUISIERA TENER
NEGOCIO QUE QUISIERA TENERJuan Collazos
 
Desventajas del Uso de las tics
 Desventajas del Uso de las tics Desventajas del Uso de las tics
Desventajas del Uso de las ticsfiovita
 
El oso y su amigo
El oso y su amigoEl oso y su amigo
El oso y su amigoalfcoltrane
 
Exam seiia2gl20111
Exam seiia2gl20111Exam seiia2gl20111
Exam seiia2gl20111Amel Morchdi
 
Java uik-chap6-poo heritage v2 java
Java uik-chap6-poo heritage v2 javaJava uik-chap6-poo heritage v2 java
Java uik-chap6-poo heritage v2 javaAmel Morchdi
 
quien era picasso?
quien era picasso?quien era picasso?
quien era picasso?abigaichu
 

En vedette (20)

C4}
C4}C4}
C4}
 
Daniel2
Daniel2Daniel2
Daniel2
 
Monde tourvirtuel
Monde tourvirtuelMonde tourvirtuel
Monde tourvirtuel
 
MitologiaGriega.
MitologiaGriega.MitologiaGriega.
MitologiaGriega.
 
Guacho sagñay maría de los ángeles. Manejo de word
Guacho sagñay maría de los ángeles. Manejo de wordGuacho sagñay maría de los ángeles. Manejo de word
Guacho sagñay maría de los ángeles. Manejo de word
 
Economia
EconomiaEconomia
Economia
 
Situación didáctica
Situación didácticaSituación didáctica
Situación didáctica
 
Encuadre
EncuadreEncuadre
Encuadre
 
Cominfo10
Cominfo10Cominfo10
Cominfo10
 
31 41 negligencia o descuido
31 41 negligencia o descuido31 41 negligencia o descuido
31 41 negligencia o descuido
 
Prueba
PruebaPrueba
Prueba
 
El arte contemporaneo
El arte contemporaneoEl arte contemporaneo
El arte contemporaneo
 
Tutorial de power point
Tutorial de power pointTutorial de power point
Tutorial de power point
 
1.1.diedricopuntos
1.1.diedricopuntos1.1.diedricopuntos
1.1.diedricopuntos
 
NEGOCIO QUE QUISIERA TENER
NEGOCIO QUE QUISIERA TENERNEGOCIO QUE QUISIERA TENER
NEGOCIO QUE QUISIERA TENER
 
Desventajas del Uso de las tics
 Desventajas del Uso de las tics Desventajas del Uso de las tics
Desventajas del Uso de las tics
 
El oso y su amigo
El oso y su amigoEl oso y su amigo
El oso y su amigo
 
Exam seiia2gl20111
Exam seiia2gl20111Exam seiia2gl20111
Exam seiia2gl20111
 
Java uik-chap6-poo heritage v2 java
Java uik-chap6-poo heritage v2 javaJava uik-chap6-poo heritage v2 java
Java uik-chap6-poo heritage v2 java
 
quien era picasso?
quien era picasso?quien era picasso?
quien era picasso?
 

Similaire à Big Data, Kesako ?

Petit-déjeuner OCTO Technology : Calculez vos indicateurs en temps réel ave...
Petit-déjeuner OCTO Technology :  Calculez vos indicateurs en temps réel ave...Petit-déjeuner OCTO Technology :  Calculez vos indicateurs en temps réel ave...
Petit-déjeuner OCTO Technology : Calculez vos indicateurs en temps réel ave...OCTO Technology
 
Ecosystème Big Data
Ecosystème Big DataEcosystème Big Data
Ecosystème Big DataIdriss22
 
Quel est l'avenir des stratégies de données?
Quel est l'avenir des stratégies de données?Quel est l'avenir des stratégies de données?
Quel est l'avenir des stratégies de données?Denodo
 
EXL Group - Offre Data Science
EXL Group - Offre Data ScienceEXL Group - Offre Data Science
EXL Group - Offre Data ScienceAshraf Grioute
 
La Logical Data Fabric au secours de la connaissance client
La Logical Data Fabric au secours de la connaissance clientLa Logical Data Fabric au secours de la connaissance client
La Logical Data Fabric au secours de la connaissance clientDenodo
 
Big data analytics focus technique et nouvelles perspectives pour les actuaires
Big data analytics focus technique et nouvelles perspectives pour les actuairesBig data analytics focus technique et nouvelles perspectives pour les actuaires
Big data analytics focus technique et nouvelles perspectives pour les actuairesKezhan SHI
 
Big data Paris Presentation Solocal 20150310
Big data Paris Presentation Solocal 20150310Big data Paris Presentation Solocal 20150310
Big data Paris Presentation Solocal 20150310Abed Ajraou
 
Démo des nouvelles versions Dynamics CRM, L'utilisateur au centre des innovat...
Démo des nouvelles versions Dynamics CRM, L'utilisateur au centre des innovat...Démo des nouvelles versions Dynamics CRM, L'utilisateur au centre des innovat...
Démo des nouvelles versions Dynamics CRM, L'utilisateur au centre des innovat...Microsoft Décideurs IT
 
Démo des nouvelles versions Dynamics CRM, L'utilisateur au centre des innovat...
Démo des nouvelles versions Dynamics CRM, L'utilisateur au centre des innovat...Démo des nouvelles versions Dynamics CRM, L'utilisateur au centre des innovat...
Démo des nouvelles versions Dynamics CRM, L'utilisateur au centre des innovat...Microsoft Décideurs IT
 
AIRBUS DOTE SES EQUIPES COMMERCIALES D’UNE SOLUTION BIG DATA
AIRBUS DOTE SES EQUIPES COMMERCIALES D’UNE SOLUTION BIG DATAAIRBUS DOTE SES EQUIPES COMMERCIALES D’UNE SOLUTION BIG DATA
AIRBUS DOTE SES EQUIPES COMMERCIALES D’UNE SOLUTION BIG DATASQLI DIGITAL EXPERIENCE
 
EuraTech Trends : Big Data
EuraTech Trends : Big DataEuraTech Trends : Big Data
EuraTech Trends : Big DataEuraTechnologies
 
Session découverte de la Data Virtualization
Session découverte de la Data VirtualizationSession découverte de la Data Virtualization
Session découverte de la Data VirtualizationDenodo
 
SAS Forum Soft Computing Théâtre
SAS Forum Soft Computing ThéâtreSAS Forum Soft Computing Théâtre
SAS Forum Soft Computing ThéâtreSoft Computing
 
3 minutes pour comprendre ... le Big Data
3 minutes pour comprendre ... le Big Data3 minutes pour comprendre ... le Big Data
3 minutes pour comprendre ... le Big DataAlain KHEMILI
 
Vision et poc EDFsur les enjeux big data
Vision et poc EDFsur les enjeux big dataVision et poc EDFsur les enjeux big data
Vision et poc EDFsur les enjeux big dataBruno Patin
 
Session découverte de la Data Virtualization
Session découverte de la Data VirtualizationSession découverte de la Data Virtualization
Session découverte de la Data VirtualizationDenodo
 
Chap1-Centre-de-donnees - -Une-introduction (1).pdf
Chap1-Centre-de-donnees - -Une-introduction (1).pdfChap1-Centre-de-donnees - -Une-introduction (1).pdf
Chap1-Centre-de-donnees - -Une-introduction (1).pdfKhalo3
 

Similaire à Big Data, Kesako ? (20)

Petit-déjeuner OCTO Technology : Calculez vos indicateurs en temps réel ave...
Petit-déjeuner OCTO Technology :  Calculez vos indicateurs en temps réel ave...Petit-déjeuner OCTO Technology :  Calculez vos indicateurs en temps réel ave...
Petit-déjeuner OCTO Technology : Calculez vos indicateurs en temps réel ave...
 
Ecosystème Big Data
Ecosystème Big DataEcosystème Big Data
Ecosystème Big Data
 
Quel est l'avenir des stratégies de données?
Quel est l'avenir des stratégies de données?Quel est l'avenir des stratégies de données?
Quel est l'avenir des stratégies de données?
 
EXL Group - Offre Data Science
EXL Group - Offre Data ScienceEXL Group - Offre Data Science
EXL Group - Offre Data Science
 
Big data
Big dataBig data
Big data
 
La Logical Data Fabric au secours de la connaissance client
La Logical Data Fabric au secours de la connaissance clientLa Logical Data Fabric au secours de la connaissance client
La Logical Data Fabric au secours de la connaissance client
 
Big data analytics focus technique et nouvelles perspectives pour les actuaires
Big data analytics focus technique et nouvelles perspectives pour les actuairesBig data analytics focus technique et nouvelles perspectives pour les actuaires
Big data analytics focus technique et nouvelles perspectives pour les actuaires
 
Big data Paris Presentation Solocal 20150310
Big data Paris Presentation Solocal 20150310Big data Paris Presentation Solocal 20150310
Big data Paris Presentation Solocal 20150310
 
Démo des nouvelles versions Dynamics CRM, L'utilisateur au centre des innovat...
Démo des nouvelles versions Dynamics CRM, L'utilisateur au centre des innovat...Démo des nouvelles versions Dynamics CRM, L'utilisateur au centre des innovat...
Démo des nouvelles versions Dynamics CRM, L'utilisateur au centre des innovat...
 
Démo des nouvelles versions Dynamics CRM, L'utilisateur au centre des innovat...
Démo des nouvelles versions Dynamics CRM, L'utilisateur au centre des innovat...Démo des nouvelles versions Dynamics CRM, L'utilisateur au centre des innovat...
Démo des nouvelles versions Dynamics CRM, L'utilisateur au centre des innovat...
 
AIRBUS DOTE SES EQUIPES COMMERCIALES D’UNE SOLUTION BIG DATA
AIRBUS DOTE SES EQUIPES COMMERCIALES D’UNE SOLUTION BIG DATAAIRBUS DOTE SES EQUIPES COMMERCIALES D’UNE SOLUTION BIG DATA
AIRBUS DOTE SES EQUIPES COMMERCIALES D’UNE SOLUTION BIG DATA
 
EuraTech Trends : Big Data
EuraTech Trends : Big DataEuraTech Trends : Big Data
EuraTech Trends : Big Data
 
Session découverte de la Data Virtualization
Session découverte de la Data VirtualizationSession découverte de la Data Virtualization
Session découverte de la Data Virtualization
 
SAS Forum Soft Computing Théâtre
SAS Forum Soft Computing ThéâtreSAS Forum Soft Computing Théâtre
SAS Forum Soft Computing Théâtre
 
3 minutes pour comprendre ... le Big Data
3 minutes pour comprendre ... le Big Data3 minutes pour comprendre ... le Big Data
3 minutes pour comprendre ... le Big Data
 
Seminaire Google Apps 02 2010
Seminaire Google Apps 02 2010Seminaire Google Apps 02 2010
Seminaire Google Apps 02 2010
 
Vision et poc EDFsur les enjeux big data
Vision et poc EDFsur les enjeux big dataVision et poc EDFsur les enjeux big data
Vision et poc EDFsur les enjeux big data
 
Session découverte de la Data Virtualization
Session découverte de la Data VirtualizationSession découverte de la Data Virtualization
Session découverte de la Data Virtualization
 
Présentation OCARA
Présentation OCARAPrésentation OCARA
Présentation OCARA
 
Chap1-Centre-de-donnees - -Une-introduction (1).pdf
Chap1-Centre-de-donnees - -Une-introduction (1).pdfChap1-Centre-de-donnees - -Une-introduction (1).pdf
Chap1-Centre-de-donnees - -Une-introduction (1).pdf
 

Big Data, Kesako ?

  • 1. Big Data, Kesako ? Christophe Aran, Consultant décisionnel Référence : ASO-XXX Version : 1.0 Du : 06/11/2012 www.groupeastek.com Modèle : ASO-2007-M_PPT-0012 v2.1
  • 2. Sommaire Contexte actuel Définition du Big Data L’écosystème Hadoop Les intérêts business du Big Data Un cas concret : Karma chez Air France Conclusion www.groupeastek.com Modèle : ASO-2007-M_PPT-0012 v2.1
  • 3. Un déluge de données YouTube reçoit 24h de vidéo toutes les minutes 500 téraoctets de données transitent chaque jour sur Facebook 140 millions de tweets par jour 6 milliards de téléphones mobiles en activité en 2012 Des pics de 22 commandes à la seconde chez Spartoo pendant les soldes www.groupeastek.com 90% des données créées dans le monde l’ont été au cours des 2 dernières années Modèle : ASO-2007-M_PPT-0012 v2.1
  • 4. Et une collecte de données incessantes Données commerciales • Transactions Informations Client • CRM • Dossiers médicaux Informations Produits • Codes barres • RFID Web • Pages www.groupeastek.com • Journaux d’accès Informations non structurées • Réseaux sociaux • GPS • Mobile Modèle : ASO-2007-M_PPT-0012 v2.1
  • 5. Les limites des SGBD actuels Coût du stockage Scalabilité Performance Format des données Schémas figés www.groupeastek.com Modèle : ASO-2007-M_PPT-0012 v2.1
  • 6. Le besoin Système qui peut gérer de gros volumes de données Scalable Robuste Haute disponibilité Economique www.groupeastek.com Nouvelle approche Modèle : ASO-2007-M_PPT-0012 v2.1
  • 7. Définition du Big Data « Le Big Data fait référence à l'explosion du volume des données dans l'entreprise et des nouveaux moyens technologiques proposés par les éditeurs pour y répondre » Gartner www.groupeastek.com Modèle : ASO-2007-M_PPT-0012 v2.1
  • 8. Le concept des 3 V Volume Les entreprises sont submergées de Vitesse Parfois, 2 minutes c'est trop. Pour la volumes de données croissants de détection de fraudes par exemple, le tous types, qui se comptent en Big Data doit être utilisé au fil de l'eau, téraoctets, voire en pétaoctets. à mesure que les données sont collectées par l’entreprise afin d'en tirer le maximum de valeur. Valeur www.groupeastek.com Variété Le Big Data se présente sous la forme de données structurées ou non structurées (texte, données de capteurs, son, vidéo, fichiers journaux, etc.). Modèle : ASO-2007-M_PPT-0012 v2.1
  • 9. Hadoop, kesako ? Inspiré de publications Google (2004) Google Filesystem Google Map Reduce Créé par Doug Cutting, salarié chez Yahoo Framework Open Source écrit en Java Géré sous l'égide de la fondation Apache Communauté très active, développement rapide Un périmètre qui s’élargit constamment www.groupeastek.com Orienté « batch » Modèle : ASO-2007-M_PPT-0012 v2.1
  • 10. L’écosystème Hadoop www.groupeastek.com Modèle : ASO-2007-M_PPT-0012 v2.1
  • 11. HDFS Système de fichiers distribué Traitement de volumes de données considérables Découpage des fichiers par blocs Fonctionne sur des serveurs “low cost” (au minimum 3) Fault Tolerant Scalable NameNode : gestion des métadonnées www.groupeastek.com DataNode : stockage des données Modèle : ASO-2007-M_PPT-0012 v2.1
  • 12. Map Reduce Calcul distribué Input | Map() | Sort | Reduce() | Output JobTracker : gestion des jobs TaskTracker : exécution des tâches Map() et Reduce() sur chaque noeud www.groupeastek.com Modèle : ASO-2007-M_PPT-0012 v2.1
  • 13. Cas pratique (1/2) : stockage dans le HDFS Notre fichier sera réparti en un ensemble de blocs répliqués dans les nœuds du HDFS. La réplication des blocs est configurable, dans notre exemple elle est de 3. www.groupeastek.com Modèle : ASO-2007-M_PPT-0012 v2.1
  • 14. Cas pratique (2/2) : comptage des mots www.groupeastek.com Parallélisation des traitements sur l’ensemble des nœuds du HDFS grâce à Map Reduce Modèle : ASO-2007-M_PPT-0012 v2.1
  • 15. Pig vs Hive Objectif commun : s’abstraire de la complexité de Map/Reduce PIG HIVE • Langage de script • Pseudo-SQL • Né chez Yahoo • Né chez Facebook • Flexible / simple • Rigide / Connu • ETL • Interrogation • Mise en œuvre UDF • JDBC / ODBC www.groupeastek.com Modèle : ASO-2007-M_PPT-0012 v2.1
  • 16. Hbase et le NoSQL Montée en puissance du mouvement NoSQL Pour contourner les contraintes du modèle relationnel Pas de jointures, très flexible Forte scalabilité horizontale Une éclosion de différents paradigmes HBase Implémentation open source de Google BigTable Basé sur HDFS (non obligatoire) Base de données orientée colonnes www.groupeastek.com En concurrence avec Cassandra Modèle : ASO-2007-M_PPT-0012 v2.1
  • 17. Exemple : modélisation d’un fichier Achat Format : (Table, RowKey, Family, Column, Timestamp) -> Value Création d’une table : create ‘achat’, {NAME => ‘acheteur’}, {NAME => ‘produit’, {NAME => ‘achat’} Insertion d’une ligne : put ‘achat’, ‘1’, ‘acheteur:nom’, ‘MARIE’ put ‘achat’, ‘1’, ‘acheteur:type’, ‘particulier’ Suppression d’une ligne : delete 'achat', 1, 'achat:date‘ deleteall 'achat', 1 Lecture d’un enregistrement : www.groupeastek.com get 'achat', 1 get 'achat', 1, {COLUMN => 'produit:marque'} Modèle : ASO-2007-M_PPT-0012 v2.1
  • 18. Et pour l’intégration au SI existant Sqoop • Import / Export de données • Import automatique • Prise en charge de nombreuses bases relationnelles Flume • Collecte de logs • Data streaming www.groupeastek.com Modèle : ASO-2007-M_PPT-0012 v2.1
  • 19. La solution Big Data de Talend Lancement de Talend Open Studio for Big Data Simplification des développements Big Data • Environnement de développement graphique • Connecteurs Big Data prêts à l’emploi Depuis Octobre 2012, support des bases de données NoSQL et connecteurs disponibles pour : • HBase www.groupeastek.com • Cassandra • MongoDB Modèle : ASO-2007-M_PPT-0012 v2.1
  • 20. Les intérêts business du Big Data Enfin un supercalculateur à la disposition de tous De nouveaux horizons jusque-là inexplorés • CRM : segmentation en exploitant les goûts et sentiments des clients/prospects récoltés sur les réseaux sociaux • Finance : contrôle en temps réel des transactions frauduleuses ou à risques • RH : exploitation des données LinkedIn (par exemple) pour anticiper la volonté de départ d’un collaborateur clé • Logistique : optimisation des flux de transport en temps réel www.groupeastek.com en fonction du trafic routier • … Modèle : ASO-2007-M_PPT-0012 v2.1
  • 21. Un cas concret : Karma chez Air France Karma : Revenue Management AF/KLM Composants Hadoop utilisées • HDFS / Map Reduce / Sqoop / Pig • Développement en interne : scheduler + interface web Mise en Production courant 2013 Quelques chiffres : • Un cluster de 90 serveurs pour déployer Hadoop • 80 développeurs à Valbonne pour l’écriture des jobs MR • 130 jobs déjà développés, 400 d’ici 2 ans www.groupeastek.com • 7h de traitement batch quotidien pour lancer les jobs MR et mettre à jour les bases Oracle • 300 analystes à Roissy pour analyser les données Modèle : ASO-2007-M_PPT-0012 v2.1
  • 22. Conclusion Un bol d’oxygène pour le traitement des données volumineuses et pour la BI en particulier Limites • Un écosystème évoluant très rapidement, nécessite encore du temps pour stabiliser les différents modules • Si les volumes sont faibles (inférieur à 10To), un SGBD classique suffira la plupart du temps A suivre • Google Dremel / Cloudera Impala / Apache Drill www.groupeastek.com • Positionnement des éditeurs « traditionnels » • Google, futur acteur majeur de la BI ? • Un nouveau métier : Data Scientist Modèle : ASO-2007-M_PPT-0012 v2.1
  • 23. Pour plus d’informations http://hadoop.apache.org/ http://pig.apache.org/ http://hive.apache.org/ https://developers.google.com/bigquery/ http://code.google.com/edu/parallel/mapreduce- tutorial.html www.groupeastek.com http://www.kimballgroup.com/html/articles.html : The Evolving Role of the Enterprise Data Warehouse in the Era of Big Data Analytics (Ralph Kimball) Modèle : ASO-2007-M_PPT-0012 v2.1
  • 24. Merci. Des questions ? www.groupeastek.com Modèle : ASO-2007-M_PPT-0012 v2.1
  • 25. Annexe 1 : un autre exemple Map Reduce Jeu de données : Algorithme MapReduce afin de sortir le nombre d’occurrences des mots constituant le texte : www.groupeastek.com Modèle : ASO-2007-M_PPT-0012 v2.1
  • 26. Annexe 2 : une architecture BI transformée www.groupeastek.com Modèle : ASO-2007-M_PPT-0012 v2.1