SlideShare une entreprise Scribd logo
1  sur  128
le Mardi 14 février 2012




Matinée 01
BIG DATA
9h00 – 09h15 - OUVERTURE




Qu’entend-on réellement par Big
Data ?
Par

Olivier Rafal, directeur de recherche chez Pierre Audoin Consultants
Big Data
Concept et perspectives :
la réalité derrière le ‘buzz’
Sommaire




I.   Perspectives marché
      Définition du Big Data
      Exemple concret



II. Perspectives technologiques
      Pourquoi le NoSQL et Hadoop
      L‟après Big Data
PAC en bref:
    l’analyse du marché informatique depuis 35 ans !


       De la stratégie à l’exécution, PAC offre des réponses objectives aux défis de croissance
                                          des acteurs des TIC


      PAC est une société de conseil et d’études
      de marché spécialisée dans le domaine du
      logiciel et des services informatiques

      Plus de 35 ans d’expérience

      PAC aide:

-     Les fournisseurs de services informatiques
      à optimiser leurs stratégies en offrant des
      analyses quantitatives et qualitatives ainsi
      que des prestations de conseil opérationnel
      et stratégique.

-     Nous conseillons les DSI et les investisseurs                   Plus de 30 pays couverts
      dans l‟évaluation des fournisseurs TIC et leurs                      6 bureaux PAC
      projets d‟investissements.

-     Les organisations et les institutions
      publiques se réfèrent également à nos études
      ciblées pour développer et mettre en place leurs
      politiques informatiques.

    Dernières actualités PAC sur notre blog : http://blog.pac-online.com/
PAC en bref:
suivi particulier de la Business Intelligence
PERSPECTIVES MARCHÉ
Le Big Data, c’est au choix…



          « Un buzz orchestré par les
       fournisseurs de technologies, les               « On verra quand on aura des
           analystes et les médias »                  Pétaoctets de données à gérer »



                                                                                « L’avenir de la BI, la
                                                                                 réponse à tous les
                                       « Une évolution                               problèmes »

                                         naturelle »

     « Seulement utile aux
                                                                     « Réservé aux grands comptes »
   quelques grands acteurs du
             Web »


                                             « Uniquement lié à la
                                             technologie Hadoop »
Big Data : une évolution naturelle



                        Nouvelles sources de données         Importance des
  Explosion du          (M2M, Open Data, Science…)            conversations
     ‘UGC’




                             Big Data : intégrer ces
                         évolutions et contraintes pour
 Métriques                                                         Accélération
applicatives
                          transformer les données en               des cycles de
 orientées              information exploitable dans le              décision
 business                    cadre de son business


                                                       Démocratisation de la BI
Patrimoine informationnel non structuré                    / Découverte
Big Data : les problématiques de M. Jourdain



 Volumétrie : gestion de stocks, gestion de commandes,
transport/logistique/RFID, transactions financières, services grand
public…


 Variété : CRM / Marketing / SAV, communication financière…


 Vélocité : Mode, Jeu, Electronique grand public, gestion des
stocks, gestion des commandes…




    Mieux connaître son client
    Améliorer son offre
    Agir avant la compétition
Exemple concret de Big Data


   Kobojo, PME française

 Jeux pour les réseaux sociaux
 Evolutions quotidiennes
 Indicateurs techniques : 300 à 400
millions de données par jour et par jeu




                                           Au-delà ? Facebook,
                                          Twitter…
PERSPECTIVES TECHNOLOGIQUES
Le point de départ




Base OLTP                             Datamart




                      Datawarehouse



                        ?
                  Contenu
                     non
                  structuré
Big Data : perspectives technologiques


  Des systèmes traditionnels au NoSQL

 Problématique apparue il y a      data

une dizaine d’années chez les
                                                          Applications
gros « producteurs » de
                                   data                   analytiques
données : Finance, Retail,
Services online…
                                 data          Hadoop /
 Besoin de solutions plus
                                                 Map
performantes que les SGBDR
                                                Reduce
standards pour ce besoin          data
particulier de volumétrie                                 Base d’analyse

 Not Only SQL                          data


 Consensus sur Hadoop /
MapReduce
Big Data : perspectives technologiques


  Du NoSQL au futur SQL ?

 Maturité du marché Hadoop
    IBM : InfoSphere BigInsights
    Oracle : Big Data Appliance (avec Cloudera)
    Microsoft : exit Dryad, bonjour Hadoop
    Informatica : Data Integration Platform for Hadoop
   …

 Besoins non couverts par Hadoop
     transactions ACID
     SQL comme langage d’interaction
     Mécanismes de verrouillage non bloquants
    …
Big Data : perspectives technologiques


   Quand le Big Data deviendra la norme…

 Emergence de nouvelles solutions
     In-Memory
     SSD
     CEP (CloudScale…)
     Moteurs de stockage (Xeround, GenieDB…)
     SQL nouvelle génération (VoltDB, Clustrix…)
    …

 Qui préfigure une assimilation progressive !
L’évolution possible



                  Contenu Web

   Data as
      a                                      Moteur de
   service                                recherches / BI
                                           visuelle / text
 Data
                                              analytics
 flux
             C        NoSQL /
 Data                 NewSQL
 flux        E
             P
 Data
                                                                      Applications
                                           ETL/                       analytiques
 flux
                                           Data
                                          Quality
                                     ?
                                                             Datawarehouse

                                Contenu
                 DB
Olivier Rafal
            Directeur de recherches,
                   Marchés logiciels
          Information Management
              o.rafal@pac-online.com
                       @olivierrafal



MERCI !
09h15 – 09h50 - TABLE RONDE



Big Data : juste un concept ou une réponse à
de réels besoins ?
    Attentes et Usages
    Pour quels types d’entreprise et de besoins ?
    Remplaçant du datawarehouse traditionnel ?
    Quid du temps réel et du transactionnel ?

Avec Jacques Milman, expert avant-vente Big Data et analytique chez IBM
Dominique Girardot, directeur d’Anteo, Groupe Sodifrance
François Guérin, directeur technique chez Sybase
09h50 – 10h10 - Avis d’expert



Pourquoi et comment intégrer les volumineuses
données du Web (réseaux sociaux, e-commerce…)
dans son système d‘information décisionnel ?
 Quels services de l’entreprise sont concernés ?
 Le triptyque “Big Transaction Data- Big Interaction Data- Big Data Processing
  (Hadoop)”
 Le MDM, pierre angulaire d’un SI destiné aux utilisateurs métier

Avec Bruno Labidoire, directeur technique Europe du Sud chez Informatica
#BigData, au-delà du concept marketing




                                          Bruno Labidoire
                         Directeur Technique, Europe du Sud




21
     21                                                       21
Big Data
Une convergence de 3 domaines


      BIG TRANSACTION DATA                    BIG INTERACTION DATA


       Online      Online Analytical       Données des
     Transaction     Processing            média sociaux
     Processing       (OLAP) &                             Tickets d’appels,
       (OLTP)       DW Appliances                          Click stream, etc




                                                              Données scientifiques


                                                             Capteurs




                                BIG DATA PROCESSING


                                                                                      22
                                                                                      22
Big Transaction Data
Bases relationnelles et analytiques

                  BIG TRANSACTION DATA


                Online      Online Analytical
              Transaction     Processing
              Processing        (OLAP) &
                (OLTP)       DW Appliances

              Oracle         EMC Greenplum
              DB2            Teradata
              Britton-Lee    Redbrick
              Ingres         EssBase
              Informix       Sybase IQ
              Sybase         Netezza
              SQLServer      DataAllegro
                             Asterdata
                             Vertica
                             Paraccel
                             Hana




                                                23
                                                23
Le décisionnel proactif

• On peut par exemple définir de nouvelles
  campagnes potentielles associées à ces média
  sociaux !

American Express a aidé les PME à augmenter
leurs revenus d„années en années de 28%
pendant le week-end suivant Thanksgiving avec
“Small Business Saturday” une campagne
impliquant 1,5 million de fans Facebook




                                                 24
                                                 24
Les challenges
Les données issues des média sociaux peuvent être
colossales!




                                                                                                              Interactions



                                                                                                              Transactions




  Source: An IDC White Paper - sponsored by EMC. As the Economy Contracts, the Digital Universe Expands. May 2009.
  .

                                                                                                                             25
                                                                                                                             25
Réseaux sociaux
        Un potentiel en pleine croissance

                 Consommateur                                        Entreprise

        Consommateurs utilisant les principaux Réseaux
                    Sociaux 2004-2011
1,000
 900
 800
 700
 600
 500
 400
 300
 200
 100
   0
          2004   2005   2006   2007   2008      2009   2010   2011

                    Facebook   LinkedIn      Twitter




                                                                                  26
                                                                                  26
Réseaux sociaux
Des formes multiples




                       27
                       27
Réseaux sociaux
 Comment profiter de ces grands volumes d’informations ?




Curriculum
  Extraire    Curriculum
               Analyser     Curriculum
                              Gérer       Curriculum
                                           Associer




                                                           28
                                                           28
Réseaux sociaux
 Comment profiter de ces grands volumes d’informations ?


        T_Young Tony Y.
        iDroidBerry 9800 challenged meeting our enterprise security requirements and
        battery life is also area of concern.




Curriculum
  Extraire      Curriculum
                 Analyser           Curriculum
                                      Gérer            Curriculum
                                                        Associer




                                                                                       29
                                                                                       29
Réseaux sociaux
 Comment profiter de ces grands volumes d’informations ?

                 Entity Extraction & Identity Resolution
                         T_Young = Tony Young
                        Relationship Resolution
                     Tony Young works @ Informatica
                         Relationship Analysis
                 Tony‟s Sphere of Influence, CIO @ INFA
                           Sentiment Scoring
                 Enterprise Security -3.5, Battery Life -3.2




Curriculum
  Extraire    Curriculum
               Analyser            Curriculum
                                     Gérer                     Curriculum
                                                                Associer




                                                                            30
                                                                            30
Réseaux sociaux
 Comment profiter de ces grands volumes d’informations ?

                                              Databases



                                               Informatica
                                                  MDM
                                                                  External Data
                           Applications   Client    Produit   …     Providers




                                                                       Data
Curriculum
  Extraire    Curriculum
               Analyser      Curriculum
                               Gérer               Curriculum
                                                    Associer        Warehouses




                                                                    Operational
                                                                    Applications


                                                                                   31
                                                                                   31
Big Transaction Data
Comment profiter des données transactionnelles ?


    Cloud Computing                    Enterprise                  Partner Trading Network
                                                                            (B2B)



                                      Warehouses                                                …
                                                                        SWIFT   NACHA   HIPAA



 Cloud Computing                                                                Partner Data



                       Application     Database     Unstructured




Curriculum
  Extraire         Curriculum
                    Découvrir        Curriculum
                                      Nettoyer      Curriculum
                                                      Intégrer                  Curriculum
                                                                                 Analyser




                                                                                                    32
                                                                                                    32
Big Transaction Data
Comment profiter des données transactionnelles ?


   Cloud Computing              Enterprise           Partner Trading Network
                                                              (B2B)




Curriculum
  Extraire       Curriculum
                  Découvrir   Curriculum
                               Nettoyer      Curriculum
                                               Intégrer       Curriculum
                                                               Analyser




                                                                               33
                                                                               33
Big Transaction Data
Comment profiter des données transactionnelles ?


   Cloud Computing                      Enterprise                     Partner Trading Network
                                                                                (B2B)




                          COMPLETENESS      CONFORMITY   CONSISTENCY
                          DUPLICATION       INTEGRITY    ACCURACY




Curriculum
  Extraire       Curriculum
                  Découvrir      Curriculum
                                  Nettoyer               Curriculum
                                                           Intégrer             Curriculum
                                                                                 Analyser




                                                                                                 34
                                                                                                 34
Big Transaction Data
Comment profiter des données transactionnelles ?


   Cloud Computing              Enterprise           Partner Trading Network
                                                              (B2B)




Curriculum
  Extraire       Curriculum
                  Découvrir   Curriculum
                               Nettoyer      Curriculum
                                               Intégrer       Curriculum
                                                               Analyser




                                                                               35
                                                                               35
Big Transaction Data
Comment profiter des données transactionnelles?


   Cloud Computing              Enterprise           Partner Trading Network
                                                              (B2B)




Curriculum
  Extraire       Curriculum
                  Découvrir   Curriculum
                               Nettoyer      Curriculum
                                               Intégrer       Curriculum
                                                               Analyser




                                                                               36
                                                                               36
Big Data Processing
Qu’apporte Hadoop ?


• Une montée en puissance économique
   • Fonctionne sur des fermes de serveurs banalisés

• Supporte tous les types de données
   • Structuré, Semi-structuré et non structuré

• Extensible
   • Interfaces (APIs) ouvertes permettant d‟implémenter une logique
     spécifique




                                                                       37
                                                                       37
Big Data Processing
Connectivité Hadoop par Informatica
Analyse de               Détection des           Analyses               Analyses des
                                                                                                  Smart Devices
Sentiment                   fraudes             Predictives               risques




                                             Hadoop Cluster




                       Connectivité
                      Hadoop (HDFS)




• Load data to Hadoop from any source
• Extract data from Hadoop to any target

  Weblogs, Mobile         Databases,   Dat      Semi-structured                             Cloud Applications,
  Data, Sensor Data       a Warehouses          Unstructured      Enterprise Applications
                                                                                            Social Data

                                                                                                                  38
                                                                                                                  38
Un exemple de mise en œuvre dans
                              le décisionnel




39
     39                                        39
Le décisionnel « classique »

 • La qualité des données est globalement égale à
   celle des systèmes opérationnels
 • Les indicateurs sont disponibles à J+1
 • Les données clients/prospects peuvent être
   périmées et induire des tendances incorrectes dans
   les indicateurs

Il peine à répondre aux demandes métiers de fraîcheur
de l‟information, rapidité de décision, et gestion proactive
des clients !

                                                               40
                                                               40
Le décisionnel avancé
  • Une solution de qualité des données a été mise en œuvre
    pour détecter (et corriger quand cela est possible) les erreurs
    dans les données. Ces erreurs sont notifiées aux systèmes
    opérationnels amonts pour correction.
  • Une partie des indicateurs est mise à jour au fil de l‟eau
    (intervalle d‟une minute à une heure en fonction du besoin
    fonctionnel). Les solutions de CDC (Changed Data Capture),
    bus messages et WebServices supportent cette mise en
    œuvre.
  • Des solutions de vérification d‟adresses postales et de
    croisement avec des bases externes entreprises (D&B)
    permettent d‟améliorer les données clients/prospects.
Le métier accorde une plus grande confiance aux
informations du décisionnel et peut réagir plus rapidement,
mais il supporte mal une approche proactive !
                                                                      41
                                                                      41
Le décisionnel proactif
  • Des « DB Appliances » sont mises en places pour supporter les
    volumes de données croissants (WebLog, etc)
  • Des solutions de connectivité aux médias sociaux sont mises en
    place pour enrichir la connaissance du client
  • Les clients peuvent être évalués non seulement sur les produits
    qu‟ils ont acquis mais aussi sur leur capacité d‟influence (nombre de
    leurs contacts dans les réseaux sociaux) et sur leur comportement
    (weblog)
  • Les marques concurrentes citées par ces clients peuvent être
    analysées pour compléter l‟analyse concurrentielle
  • Etc…

Le métier découvre de nouvelles informations lui
permettant une approche proactive et une anticipation
des besoins/tendances du marché !
                                                                            42
                                                                            42
La plate-forme Informatica




43
     43                                43
Informatica 9.1: Plate-forme de services de données
                                                     Data Integration Projects



 Big Data               Ultra             Data           Big Data          Data          Social Master         Cloud            Complex            Big Data
Warehousing           Messaging          Services        Archiving      Consolidation        Data              Data              Event            Collection &
                                                                                         Management         Integration        Processing          Exchange
        ODBC/                             Web            SUPPORT TOUS PROJETS                                SQL                                 Batch
        JDBC                             Services

   Accès               Qualité              Retention                                   Confidentialité              Fraicheur
                                                                    GESTION DE
                                                                   TOUTES REGLES


   Data Integration          Master Data            Data Quality     Test Data Management          B2B                  SOA/                     Business
                             Management                                    & Archiving                              Composite Apps              Intelligence


              Client              Commande                Réclamation              Support                 Produit                   Facture


                                                                   ACCES A TOUTES
                                                                    LES DONNEES

                                  Transactions                                                           Interactions


                                                                                                                                        SWIFT    NACHA   HIPAA   …



Cloud Computing           Applications       Databases         Unstructured     Warehouses           NoSQL                Social            Partner Data

                                                                                                                                                                     44
                                                                                                                                                                     44
45
45
10h10 – 10h30 - Avis d’expert




Intégrer les solutions Big Data à l’existant.
 Apporter une réelle valeur ajoutée, en lien avec un existant
  multiforme, décisionnel comme transactionnel

Par

Isabelle Claverie-Berge, expert technique Database Big Data chez IBM
Information Management – Big Data




        Intégrer les solutions Big Data à l'existant




   Isabelle Claverie-Bergé, IBM Software, Information Management Architecte
   Isabelle_claverie@fr.ibm.com




                                                                              © 2012 IBM Corporation
Information Management – Big Data

Big Data : Une opportunité

  Acquerir/Observer                 Explorer/Gerer               Analyser/Optimiser

                                                                        Customer
                                                                        Experience
                                                                        Customer
      Un Structuredcomment Intégrer les solutions Big Data à l'existant ?
            Mais Data                                                   Insight
                                    Transactional
                                        Data                            Profitability
                                                                        Optimization
                                                    Historical
                                                      Data              Network
         Structured Data             Referential
                                                                        Analytics
                                     Data Sets
                                                                        Audience
                                                                        Management
                                                                        Asset
                                                                        Optimization
         Streaming Data

48                                                                         © 2012 IBM Corporation
Information Management – Big Data


Big Data: Un complément à l‟approche traditionnelle
                       Approche Traditionelle                             Nouvelle Approche
                         Structuré, analytique, logique                 Creative, Vue holistic , intuition




                                        Data                                 Hadoop
                                                                             Streams
                                     Warehouse
           Transaction Data                                                                           Web Logs


        Internal App Data                                                                                Social Data
                      Structured                                                  Unstructured
                           Structuré                      Enterprise       Exploratoire
                                                                                  Exploratory
                    Repeatable
       Mainframe Data      Repetable
                          Linear                          Integration        Iterative
                                                                                  Iterative Text Data: emails
                                    Lineaire
                 Monthly sales reports                                                  Brand sentiment
                  Profitability analysis                                                Product strategy
           OLTP System Datasurveys                                                              Sensor data: images
                                                                                        Maximum asset utilization
                   Customer


                ERP data               Sources                              Nouvelles                  RFID
                                                                            Sources
                                    traditionnelles




                                                                                                             © 2012 IBM Corporation
Information Management – Big Data

Big Data : Les points d‟intégration                                                                                                             Rules / BPM

               IBM Big Data Solutions                                   Client and Partner Solutions                                            iLog & Lombardi


                                                                                                                                              Data Warehouse
                                                                                                                                                  InfoSphere
                                                                                                                                                  Warehouse


                                      Big Data Analytics                                                                                    Warehouse Appliances




                                                                                                    Applications
            Text         Statistics              Financial           Geospatial          Acoustic                                                IBM & non-IBM


             Image/Video              Mining           Times Series             Mathematical                                                  Master Data Mgmt




                                                                                                                    INTEGRATION
                                                                                                                                                InfoSphere MDM




                                                                                                    Data
                            Big Data Enterprise Engines                                                                                           Database

                                                                                                                                                 DB2 & non-IBM


                                                                                                                                              Content Analytics




                                                                                                    Processes
                    InfoSphere Streams                          InfoSphere BigInsights
                                                                                                                                                     ECM

                       Productivity Tools & Optimization                                                                                     Business Analytics
       Workload                                            Job                         Data
                       Provisioning                                        Job
       Management &                      Workflow                                    Ingestion




                                                                                                                       Information Server
                                                        Scheduling       Tracking                                                               Cognos & SPSS
       Optimization

                                                                                                    Manageability
       Management        Admin         Configuration     Activity       Identity &      Data                                                     Marketing
                         Tools           Manager         Monitor       Access Mgmt   Protection
                                                                                                                                                     Unica

            Connectors                     Applications                    Blue Prints                                                          Data Growth
                                                                                                                                                Management
                                                                                                                                                InfoSphere Optim
                                                                                                                                                       © 2012 IBM Corporation
Information Management – Big Data


 Exemple: Vision client 360
                                                                                             Guardium



                                                              Customer Identification                                     Privacy
                                                              Master Data Management                                    Data Privacy

                                          InfoSphere
                                                                         InfoSphere                                Optim for Test
                                            Quality                                        DB2                   Data, Redaction, +++
                                                                            MDM
                                             Stage




                                     Data
                                                                         Customer Intelligence Appliance
                                    Quality
                                                                                             Data Models         Out-of-the-box analytics
                                      Information Server




                                                                                                                         Cognos


                                                                                           Pre-built
                                                                    Customer Integration   behavioral                  IBM Global Business
                                                                         Appliance         attributes                       Services




                                                           IBM Retail Data Model                  Core Metrics                Unica


                                    Enterprise Data Warehouse                                 Applications and Operational Analytics


                                                            Online Archive                          OLTP and Big Data Integration
                                                           Managing Growth                         Built-in Integration into Big Data

                                                Optim Data Archive                                                                  Informix
                                                                                                 DB2 SAP                 solidDB
                                                                                                                 DB2
                                                                                                                                               © 2012 IBM Corporation
Information Management – Big Data



      Exemple: exploration et surveillance pétrolière
                                 Volumes of raw structured and
                                      unstructured data                                           Reservoir and Process
     Staging Platform                                                                       Modeling and Simulation Applications
     Cleansing and Transformation of
     many types of data with
     different formats




                                                                                                        Operational BI and Statistical
                                         InfoSphere                                      Subject-area
                                                                                            source              Applications
                                         BigInsights
                                                                                           systems
                                                                               ODS

 Real-time streaming
 data (structured and
 unstructured)
                                                                                     Netezza
                                                                                       DW
                                                                                                                      Cognos and
                                                                  Real-time                                             SPSS
                                                                dashboards
                                           InfoSphere          and analytics
                                             Streams
                                                                               Traditional data sources
                                   Event detection and                         (ERP, CRM, databases)
                                   capture of real-time data
52                                                                                                                    © 2012 IBM Corporation
Information Management – Big Data




     THINK

https://www.ibm.com/services/forms/signup.do?source=sw-infomgt&S_PKG=bdebook1

53                                                               © 2012 IBM Corporation
Information Management – Big Data




                                    © 2012 IBM Corporation
10h30 – 10h50 - Avis d’expert


Pourquoi et comment préparer le SI à l’avènement
du BIG DATA ?
 Quel est l’enjeu métier de cette approche ?
 Pourquoi l’urbanisation, le management des données et la création de
  référentiel sont incontournables dans un tel contexte ?
 Pourquoi la qualité des données est-elle au centre du débat ?

Par Stéphane Lextreyt, Sodifrance
Comment préparer le SI à l’avènement du BIG DATA ?

  Maîtrisez votre capital Données
BIG DATA : POURQUOI S’Y PRÉPARER ?
Déluge informationnel …
                            Où sont les données
                            « métiers » ?
                            Exploiter les tendances qui se
        Cloud               dégagent de l’écosystème
                            environnant



                               OUI MAIS …
                            Quel crédit accorder à ces données ?
                            Comment en faire un élément de
                            décision ?


                          Alors les données doivent être :
                            Fiables
                            Cohérentes
                            Centralisées   Source d’agilité
                            Partagées          du SI
                            ….
UNE APPROCHE GLOBALE ET STRUCTURÉE
Accroître l’efficacité du
SI…


  Maitriser les données internes
  au SI
  Transformer les données en
  informations fiables
  Partager des informations à
  forte valeur ajoutée
  Capitaliser sur les données
  Métiers
  Maintenir un niveau de qualité
  élevé
  Diminuer significativement le
  coût de gestion des données
DATA MANAGEMENT, UNE FORTE EXPÉRIENCE
SODIFRANCE, SSII innovante
  25 ans d‟expérience
  Un CA de 68,2 M€ en 2011 (+8,2%)
  930 collaborateurs sur 12 implantations en France
  Une approche projet : 53 % du CA en engagement
  de résultats
  Un Centre R&D dédié au développement de nos
  solutions outillées


  Une clientèle de grands comptes fidèles

                                                        170 projets
ALCARA            CREDIT MUTUEL   MALAKOFF-MEDERIC
CREDIT AGRICOLE   STE GENERALE    CNP-ASSURANCES

GMF               BPCE            YVES ROCHER
MAAF              ADP-GSI         DIAC
                                                     en Data Management
MMA               RSI             AXA
BNP-PARIBAS       AIR France      MERIAL
EUROPCAR          STACI           AREAS
DATA MANAGEMENT : DÉFINIR SA TRAJECTOIRE




         Définir la stratégie et la gouvernance
         Concevoir l’architecture cible et la trajectoire
         Recommander les choix technologiques
         Cadrer le projet et la démarche
         Sécuriser l’atteinte des objectifs
         Conduire le changement
LE CYCLE DE VIE DE A à Z …




 Industrialiser la maîtrise et l’évolution du SI
 Accélérer l’adaptation de l’entreprise
 Ouvrir le SI aux nouvelles applications
 Réduire les coûts de maintenance
COMPRENDRE ET MAITRISER L’EXISTANT
 Cartographie applicative outillée
                                                            Références
                  Analyse exhaustive                     • AXA
                      Références croisées                • CNP-Assurances
                      Flot de données                    • CIMUT
                      Algorithmes                        • CRÉDIT MUTUEL
                                                         • EDF
                                                         • ING
                                                         • I-BP
                                                         • MAAF
                                                         • RSI, …

                  Un référentiel vivant
                      Rafraichissement permanent                CIMUT
                      Système de requêtage utilisateur    «   Nous avons
                                                         choisi Mia-Insight
                                                         pour la pertinence
                                                            des analyses
                                                         fines et précises,
                                                         irréalisables sans
                                                              outillage »
Utiliser les données Métiers,
Analyser les impacts au niveau applicatif
LA QUALITÉ AU CENTRE DES PRÉOCCUPATIONS

  Automatiser la qualité des données                              Références

                    Faire un état des lieux                   • ARKEA
                        Listes de valeurs                     • APICIL / UPESE
                        Volume de données erronées            • CAISSES
                        Taux de doublons                        D’EPARGNE
                                                              • CREDIT AGRICOLE
                                                              • GROUPAMA
                                                              • NOVALIS-TAITBOUT
                                                              • MERIAL, …
                    Impliquer tous les acteurs
                        MOA
                        Gestion                               MALAKOFF-MÉDÉRIC
                        MOE
                        Projets                               « Grâce à ses outils
                                                                    d'analyse
                                                                  performants,
                    Pérenniser la démarche                    SODIFRANCE nous
                        Planifier les actions dans le temps   garantissait un audit
                        Auditer de façon récurrente                   et des
                                                               recommandations
                        Engager de nouvelles actions              factuelles et
                                                                   rapides »


Toujours être vigilant et proactif
ORGANISER LE SI AUTOUR DES DONNÉES MÉTIER
 Du référentiel métier à l’agilité du SI                            Références

                    Création de référentiels de                 • CDC
                    données partagées                           • CNP-Assurances
                       Référentiels « Maitre » / « Esclaves »   • CIMUT
                       Fiabilité et cohérence des données       • ENERGY POOL
                       Accessibilité des données par toutes     • MALAKOFF-
                       les applications                           MÉDÉRIC
                                                                • SI2M
                    Démarche d’urbanisation                     • MMA,…
                       Approche par les processus Métiers
                       Identification du meilleur découpage
                       applicatif
                                                                       SI2M

                    Recherche de la modularité                  « Les résultats de
                    optimale                                    l’audit et le conseil
                       Transformation des applications en         de SODIFRANCE
                       service Métier                           nous ont permis de
                       Ouverture multicanal                     faire avancer notre
                                                                      vision sur
                    Bénéfices Métier attendus                     l'urbanisation de
                       Efficacité opérationnelle                      notre SI »
                       Rester Time To Market

Faites de votre référentiel un Référentiel
LES DONNÉES DANS TOUS LEURS ÉTATS
                                                      Références
Démarche = Méthodologie et Solutions
                                                   • AGF
                                                   • AIR FRANCE
              Capitaliser sur les données          • BNP-PARIBAS
              Métiers de référence                 • CHU DE NICE
                 Fiabiliser                        • GROUPAMA
                 Dédoublonner                      • MALAKOFF-
                 Normaliser                          MÉDÉRIC
                                                   • MORNAY
                                                   • VILLE DE LYON
                                                   • RATP, …


                                              MALAKOFF-MÉDÉRIC
                                              « Grâce à l’usine de
                                              migration TRANSMIG,
                                                  les données du
                                               Référentiel Personne
                                                   sont fiables et
                                                    cohérentes.
                 Engagements sur la qualité
                                              Aujourd’hui, les coûts
                 Sécurisation du Projet
                                                d’exploitation sont
                 Gouvernance améliorée
                                              réduits et les actes de
Augmentez votre capital données                 gestion bien plus
                                                    rapides »
GARDER LA MÉMOIRE… À PORTÉE DE WEB
 Diminuer les coûts de possession                      Références

                                                  • DCNS
                                                  • MALAKOFF-
                                                    MEDERIC
                                                  • MERIAL
                          en place de PRA – PCA   • AEROPORT NANTES
                                                  • CH LE MANS,….

                                                  •…
                                                           MERIAL
                        stifications CAC
                                                       «  La fonction
                                                  d’archivage Web de
                                                  TRANSMIG a permis
                                                     de restituer une
                                                  vision des données
                                                     historiques que
                                                   nous n’avions plus
                                                    suite à l’arrêt du
                                                    Mainframe et à la
                                                      disparition de
                                                       l’application
                                                           métier »

Réduire les coûts et améliorer le service
APPROCHE GLOBALE DU CYCLE DE VIE DES DONNÉES
Efficacité et rigueur                                  Diagnostic
                                             Audit
                                             Cartographie


                                                             Cible
                                             Cible et stratégie
         Diagnostic                          Recueil des besoins
                                             Alignement MOA /MOE

                                                       Trajectoire
                                             Référentiel maitre / esclaves
Cible                         Trajectoire    Méthodologie projet éprouvée
                      Indicateurs            Solutions outillées

                                                        Maintenir
                        Qualité
                        couts
                                             Accompagnement
                                             Formation
             Maintenir
RETOUR D’EXPÉRIENCE
  Périmètre                    Création du Référentiel Personne

               Conseil &
Conseil
              Urbanisation



                    Audit            Migrer           Dédoublonner     Synchroniser    Audit      Audit
 Projet        Cartographie        Fiabiliser          Charger          Archiver     régulier   régulier



Solutions
 outillées



Expertise
                               Experts en urbanisation et Data Management


                                                 Formation – Conduite du changement


             2009                                                                         2012
                                                  Temps
Stéphane LEXTREYT
Consultant Data Management
slextreyt@sodifrance.fr
+33 6 86 89 23 20
10h50 – 11h20 - PAUSE




                Pause / Networking
11h20 – 12h00 - Table Ronde


Cloud et Stockage, supports incontournables du
Big Data
 Les acteurs du cloud et les éditeurs/constructeurs se positionnent déjà
 Actuellement, y a-t-il un intérêt à installer sa propre solution Big Data ?
 En quoi le cloud incarne-t-il un moyen intéressant ?

Avec Jean-Pascal Ancelin, directeur général, MicroStrategy France
& Said Boukhizou, responsable technique chez Datacore
12h00 – 12h10 - Avis d’expert


Témoignage utilisateur : Malakoff-Mederic
Ré-urbaniser le SI autour des données métiers, un
enjeu concurrentiel
 Les enjeux de la mise en œuvre de référentiel de données Métiers,
  vecteur d’agilité de l’entreprise
 Comment alimenter un référentiel de données tout en synchronisant les
  applications périphériques contributrices ?

Par Romaric Hatit de Malakoff-Mederic
12h10 – 12h30 - Avis d’expert




Le stockage : innovation et nouvelles réponses
Part 1
Par


Said Boukhizou, responsable technique chez Datacore
How Big Data Influences
     Storage Innovations
     Impact on policies, scale, clouds and
     data management




74
Not Just Big
    Fast

 Real-time
     ►   Event-driven

    Shared




75                      Copyright © 2012 DataCore Software Corp. – All Rights Reserved.
Motivation

     Greater Situational Awareness



                  Better Decision Making



                         Competitive Advantage



76                                   Copyright © 2012 DataCore Software Corp. – All Rights Reserved.
Where does Big Data come from?
                   Enterprise
        Office          Apps
         Apps
                                       Web
                                       Apps


Device explosion




                                             Social Media Data
Machine Data
   77                             Copyright © 2012 DataCore Software Corp. – All Rights Reserved.
Applications that are driving Storage
Growth
                           Archiving
                 Data Protection/DR
                               Email
                               CRM
                         File sharing
                        Content Mgt
               Regulatory mandates
                                                                                                                   DE
     Convert analog - digital records
               Data warehousing/BI
                                                                                                                   WE
                        eCommerce
                     Digital Imaging
                                ERP
                      Social Platfom
                               SCM

                                        0%   20%              40%                            60%
                                              Source: IDC‟s European Storage Survey 2011 – N=509
78                                                             Copyright © 2012 DataCore Software Corp. – All Rights Reserved.
Challenging Storage Characteristics
    Never at rest                  Different formats
     ► In-demand

     ► Less relevant

     ► Outdated                     All shapes & sizes

 Multiple, linked sources
     ► Intelligent devices
     ► Outside of IT‟s control

     ► Housed separately

     ► No time to pre-stage




79                                           Copyright © 2012 DataCore Software Corp. – All Rights Reserved.
Renovation Opportunity
    Modernize

 Align

    Architect

    Adapt



                         Not that difficult

80                                 Copyright © 2012 DataCore Software Corp. – All Rights Reserved.
81   Copyright © 2012 DataCore Software Corp. – All Rights Reserved.
Technology Innovations on Your Side
 Storage hypervisor layer
     ► Insulates data management from hardware variables
     ► Comprehensive set of advanced functions

     ► Device-dependent



    Broad span
      ► Infrastructure-wide

      ► From on-premises to the Cloud

      ► Virtual & physical domains



    Accelerates data access
82                                       Copyright © 2012 DataCore Software Corp. – All Rights Reserved.
Virtualize Storage for Sharing & Speed

    Pool resources

 Direct traffic automatically

    Cache near apps

    Manage centrally




83                               Copyright © 2012 DataCore Software Corp. – All Rights Reserved.
Pooling
    Combine overall capacity

 Make disks shareable

    Recover inaccessible or isolated disk space
     ► No longer isolated



    Hide equipment incompatibilities
     ► Standard server / app connections bridged to
        device-specific interfaces


84                                         Copyright © 2012 DataCore Software Corp. – All Rights Reserved.
Adaptive Layer


     Server
     Cluster




               Caching                                  Caching




                                     Shared
                                  Virtual Disks
          Storage Hypervisor



                         Variable sources / destinations
85                                                   Copyright © 2012 DataCore Software Corp. – All Rights Reserved.
3-Dimensional Virtualization Strategy
                                         DESKTOP HYPERVISOR




                    USERS


                                           SERVER HYPERVISOR




             APPS


                              STORAGE HYPERVISOR




     DISKS


86                                Copyright © 2012 DataCore Software Corp. – All Rights Reserved.
Automation
                Allocate space just-in-time
                  ► Thin provision small groups of
                    disk blocks
                  ► No waste



                Dynamically direct workloads to most
                 appropriate resource
                  ► Auto-tiering

                  ► Determined by access frequency &
                    business rules (high priority override)



87                                        Copyright © 2012 DataCore Software Corp. – All Rights Reserved.
Hottest Data Gets Most Attention
    Auto-Tiering



          Tier 1    Tier 2   Tier 3              Tier n



Chuns




          Hot       Warm     Cold                  Stale




88                                    Copyright © 2012 DataCore Software Corp. – All Rights Reserved.
Dynamic Optimization of Assets

        Mail    Database         File     Web       Apps


                      Storage Hypervisor




                           Price / TB
Speed


                 On-Premises                        Public Cloud
           5%      35%             60%

                 Private Cloud

                                        Price/ Capacity

89                                                        Copyright © 2012 DataCore Software Corp. – All Rights Reserved.
Caching
 Rapid retrieval
 Fast updates
 Memory-access speeds
     ► Read (anticipate)
     ► Write (coalesce)

     ► Bypass disk latencies



    Turbo-charge native disk array performance

 Self-tuning

90                                       Copyright © 2012 DataCore Software Corp. – All Rights Reserved.
Off-premises storage appears to be local
    Users and apps can‟t tell
     ► Storage hypervisor makes it transparent



    Same principles merely extended
      ► Pooling

      ► Automation

      ► Central management




91                                         Copyright © 2012 DataCore Software Corp. – All Rights Reserved.
Central Management

    Common menus & commands
     ► Across diverse equipment



    Single console
      ► Status dashboard

      ► Performance view

      ► Consolidated notifications & alerts



    External integration point
      ► Virtualization




92                                            Copyright © 2012 DataCore Software Corp. – All Rights Reserved.
Lots of Standardization Talk
    One interpretation
     ► Buy more of the same hardware

     ► Always buy it from me and my club



    Really about interchangeability
     ► Stick to established interfaces

     ► Add or swap out equipment as needed

     ► Shop for best value among hardware suppliers

     ► Treat storage as interchangeable chunks
       of disk space


93                                         Copyright © 2012 DataCore Software Corp. – All Rights Reserved.
Stage 2 – Beyond Your Walls
    Leverage nearby branch or colocation facility



    Rent capacity from public cloud




94                                         Copyright © 2012 DataCore Software Corp. – All Rights Reserved.
Under a Different Roof
    Continue operations despite facility problems
     ► Equipment upgrades / maintenance

     ► Air conditioning / ventilation

     ► Construction

     ► Water leaks

     ► Etc.,




    Mirror or replicate critical volumes to a secondary site
     ► Auto-failover within metropolitan area

     ► Take advantage of different storage devices


95                                           Copyright © 2012 DataCore Software Corp. – All Rights Reserved.
Expected Outcomes


    Higher levels of service
     ► Rapidly provision space

     ► Remove storage-related disruptions

     ► Speed up app response



    Optimal use of available resources
     ► Take full advantage of existing capacity

     ► Defer acquisition of more disks




96                                          Copyright © 2012 DataCore Software Corp. – All Rights Reserved.
Get ready,
      Big Data is
     almost here!


97       Copyright © 2012 DataCore Software Corp. – All Rights Reserved.
QUESTIONS




     www.datacore.com
98
www.datacore.com




                   Copyright © 2012 DataCore Software Corp. – All Rights Reserved.
12h30 – 12h50 - Avis d’expert




Le stockage : innovation et nouvelles réponses
Part 2
Par


Jean-François Ruppé, Solution Architect EMEA chez Quantum
Les solutions Big Data

Jean-François RUPPÉ
Architecte Solution
Caractéristiques de nos clients

                    30%-60%                                                      Volumétrie




                                                                                 Non-structurée
      DB




                                                                                 Sources multiples



                                                                                 Performance


                                                                                 Protection

                     © 2011 Quantum Corporation. Company Confidential. Forward-looking information is
102                  based upon multiple assumptions and uncertainties, does not necessarily represent the
                     company‟s outlook and is for planning purposes only.
Principaux Secteurs d‟Activité

              Média
              • Post production (effet spéciaux, correction des couleurs, …)
              • Passage à la HD, 3D




               Sécurité / Imaging / Défense
               •       Vidéosurveillance
               •       Capture & traitement des données satellites




               Recherche scientifique
               •       Calculs
               •       Séquençage de génome (décryptage d‟informations)




                   Pétrole et gaz
                   •    Exploration sismique
                   •    Modélisation 3D




103
Les défis
  Gérer efficacement la croissance des données
      – +100 Millions de fichiers, >100 To de données par environnement
      – Transfert des données entre différentes chaînes de traitement
      – Protéger & Archiver à long terme
  Adapter les performances aux besoins
      – De 100 Mo/s à > 600 Mo/s


  Séquenceur/calcul sismique : 2 To par « run »/millions de
  fichiers
  Traitement d‟images satellite :
      – 600 Mo/s (FC 4Gb = 512 Mo/s)
      – 37 millions de fichiers, 1 Po de données avec gestion de Tiers (5%
        rapide, 63% lent, 32% bandes)
  Gourvernement : 4 milliards de fichiers + PRA


                                     © 2011 Quantum Corporation. Company Confidential. Forward-looking information is
104                                  based upon multiple assumptions and uncertainties, does not necessarily represent the
                                     company‟s outlook and is for planning purposes only.
1.   Créer un espace de stockage partagé haute performance
      – SAN ou LAN en fonction des besoins en performance
      – Hétérogène Linux, Unix, Windows, MAC
 2.   Optimiser les ressource stockage
      – Gestion de différents Tiers : SSD, SAS, SATA, Bandes
      – Déplacement automatique des données (HSM)
 3.   Protection des données
      – Sauvegarde
      – Externalisation
      – Réplication



                                  © 2011 Quantum Corporation. Company Confidential. Forward-looking information is
105                               based upon multiple assumptions and uncertainties, does not necessarily represent the
                                  company‟s outlook and is for planning purposes only.
© 2011 Quantum Corporation. Company Confidential. Forward-looking information is
106   based upon multiple assumptions and uncertainties, does not necessarily represent the
      company‟s outlook and is for planning purposes only.
Accélération des processus




 Stockage local ou disparate
 Mouvement des données fastidieux
 Besoin d‟une grande quantité de stockage
                                    © 2010 Quantum Corporation. Company Confidential. Forward-looking information is
                                    based upon multiple assumptions and uncertainties, does not necessarily represent the
                                    company‟s outlook and is for planning purposes only.
Evolution des processus




 Stockage partagé
 Accès concurrents
 Depuis plusieurs types de client
                                     © 2010 Quantum Corporation. Company Confidential. Forward-looking information is
                                     based upon multiple assumptions and uncertainties, does not necessarily represent the
                                     company‟s outlook and is for planning purposes only.
Différents type d‟accès


                               LAN
          CIFS / NFS                      Storage Area
                                          Network
                                          (SAN)
                                Gateway
                                Servers
          WIN LAN Clients




           LINUX LAN Clients




 Haute performances                                           Load Balancing
 Milliers de clients                                          CIFS/NFS support

                                             © 2010 Quantum Corporation. Company Confidential. Forward-looking information is
                                             based upon multiple assumptions and uncertainties, does not necessarily represent the
                                             company‟s outlook and is for planning purposes only.
Gestion des données


                                                                                          TIERS 2



    Storage Area
    Network
    (SAN)
                                                                                          SAUVEGARDE       VAULT




                                                                                         DEDUPLICATION     REPLICATION




                   © 2010 Quantum Corporation. Company Confidential. Forward-looking information is
                   based upon multiple assumptions and uncertainties, does not necessarily represent the
                   company‟s outlook and is for planning purposes only.
Architecture StorNext
                                          Solution “End-to-End”

                                StorNext File System                                                                                 Gestion des données
                                 Stockage partagé



                                         StorNext                                                                                                   StorNext
                                         SAN Clients                                                                                                Replication



                                             PRIMARY TIER
                               Gateway
                               Servers
StorNext DLC




                 CIFS/NFS
                                                                                                                                         SECONDARY TIER
                                                                                               HA
                                                                                                                                                            StorNext Storage
               GigE TCP/IP
               Infiniband IP
                                                                                               Metadata
                                                                                               Controllers
                                                                                                                                                            Manager


                                                                                                                                         TAPE LIBRARY
                                                                                                                                         ARCHIVE                  VAULT




                                            Version « Logicielle »
                                                            © 2010 Quantum Corporation. Company Confidential. Forward-looking information is
                                                            based upon multiple assumptions and uncertainties, does not necessarily represent the
                                                            company‟s outlook and is for planning purposes only.
Appliances StorNext
                                          Solution “End-to-End”

                                StorNext File System                                                                                  Gestion des données
                                 Stockage partagé



                                         StorNext                                                                                                      StorNext
                                         SAN Clients                                                                                                   Replication



                                             PRIMARY TIER
                               Gateway
                               G300
StorNext DLC




                 CIFS/NFS
                                                                                                                                          SECONDARY TIER
                                                  Q-Series                                                                                                      StorNext Storage
               GigE TCP/IP
               Infiniband IP
                                                                                                                                                                Manager
                                                                                                                                                     Q-Series

                                                                                                     M330
                                                                                                    Metadata
                                                                                                   Controllers                                        Scalar
                                                                                                                                                                     VAULT




                                                             © 2010 Quantum Corporation. Company Confidential. Forward-looking information is
                                                             based upon multiple assumptions and uncertainties, does not necessarily represent the
                                                             company‟s outlook and is for planning purposes only.
Cas client : Recherche ADN
                                                                                      PRIMARY TIER




                                                                                     80-100TB FC Disk
                                                                     FC/iSCSI
DISTRIBUTED LAN CLIENTS




                                              StorNext DLC             StorNext
                                              Gateway Servers          Policy
                                                                       Engine
                                                                FC
                          GigE TCP/IP

                                                       DDM
                                                       Server
                                                                FC                TAPE LIBRARY ARCHIVE




                                 Metadata
                                                  HA MDC
 Séquencement                    Controller



                                                                                          PB of Tape




• Chaque serveur de séquencement lance des analyses (ADN). Chaque expérimentation génère 1 To de
  données
• Les résultats sont copiés ou déplacés vers l‟archive (rétention à long terme + externalisation)
• Temps de traitement global réduit par 3
Questions/Réponses




                     © 2010 Quantum Corporation. Company Confidential. Forward-looking information is
                     based upon multiple assumptions and uncertainties, does not necessarily represent the
                     company‟s outlook and is for planning purposes only.
12h50 – 13h00 - Conclusion



Une révolution informatique en douceur
 Distribution et parallélisation des traitements, autre forme de
  virtualisation du stockage, système de gestion de fichiers plus universel…
 Le phénomène Big Data n’annonce-t-il pas une évolution majeure ?

Par José Diz, Journaliste, Evénements 01
BIG DATA

détour par la „SILICON Valley‟

                           José DIZ
Hadoop : kesako?

   Google et fortes contributions Yahoo!
   Framework open source Java
       HDFS : système de gestion de
        fichiers distribué avec stockage
        en cluster de serveurs

       MapReduce : distribue de façon
        parallèle les traitements sur
        chaque nœud au plus près des
        données.
Hadoop : kesako?
   tout type de données
     structurées
     non structurées
     Web, et autres


   Croissance linéaire sur du matériel standard
    (commodité)
   Appliquer rapidement des algorithmes simples à
    de très gros volumes de données
   Batch ? Ou plus ?
Des pionniers : Cloudera (CDH)
                                                      l‟interface graphique pour
                                                      accès via un navigateur
             workflow
                                                       langage de type SQL
Intégrer Hadoop et SGBD
                                                      SGDB distribué non
                                                      relationnel orienté colonnes
  Service distribué de
  collecte et d‟agrégation
                                                      gestion de configuration pour
  pour stockage HDFS
                                                      systèmes distribués
                             langage de haut niveau
Cloudera : un écosystème
Hortonworks Data Platform (HDP)

          Core Apache Hadoop                                                              Related Hadoop Projects                Open APIs for:
                                                                                                                                  • Data Integration
                                                                                                                                  • Data Movement
                                                                                                                                  • App Job Management
                                                             (Columnar NoSQL Store)
                                                                                            Pig                          Hive     • System Management
                                                                                         (Data Flow)                     (SQL)
                                                     HBase



                                                                                                  MapReduce
                        Zookeeper
                                    (Coordination)
          (Manaement)
 Ambari




                                                                                          (Distributed Programing Framework)



                                                                                                       HCatalog
                                                                                             (Table & Schema Management)



                                                                                                 HDFS
                                                                                      (Hadoop Distributed File System)
Hortonworks – la cohabitation
                                                                Traditional Data Warehouses,
                                                                        BI & Analytics
      Serving Applications


  NoSQL      RDMS      …             Traditional ETL                       Data      BI /
                                                                   EDW
                                                                           Marts   Analytics




                                      Apache Hadoop
                                      EsTsL (s = Store)


 Gartner predicts                                                              80-90% of data
800% data growth                                                               produced today
 over next 5 years                                                             is unstructured


                          Call    Social   Senso       Server
                                                                 …
                         Center   Media    r Data       Logs
MapR : affinage, spécifique ?
  Big data s‟avère lourd et coûteux à déplacer.

                                              Pig            Hive
                 Web Services




                           Sequential File    Map/
OLAP           OLTP                                          Hbase
                            Processing       Reduce


       RDBMS                    NAS                   HDFS




                                                                                                           Pig       Hive
                                                                     Web Services




                                                                                Sequential File            Map/
                                                OLAP            OLTP                                                Hbase
                                                                                 Processing               Reduce


                                                        RDBMS                        NAS

                                                                                                                   HDFS
                                                                           Next Generation Distribution
MapR : affinage, spécifique ?

 MapR Distribution for Apache Hadoop

  Hive       Pig        Oozie         Sqoop       HBase     Plume

                        Nagios        Ganglia               Vaidya      Haute disponibilité et continuité :
 Mahout   Cascading                               Flume
                      Integration   Integration           Integration
                                                                        - snapshots,
                                                                        - mirroring,
                       MapReduce                                        - namecode de stockage distribué
                                                                        - …
                                        Distributed
    JobTracker HA
                                      NameNode HA™


    MapR’s Lockless Storage Services ™
Big Data : batch pour BI, et après ?

   Complément au-delà du batch
     Streaming
     « Temps réel »



   Stockage primaire ? Environnement de
    production principal ?
     Deux      écoles :
         Pas pour Cloudera et Hortonworks
         Certainement pour MapR
Un fourmillement de projets
13h00 – 13h05 - JEU



TIRAGE AU SORT iPad


                      Et le gagnant est……?
13h05– 14h00 - COCKTAIL DEJEUNATOIRE




              Cocktail / Networking

         MERCI DE VOTRE PARTICIPATION
                BON APPETIT!!

Contenu connexe

Tendances

Big Data, Charles Huot, Aproged,février 2013
Big Data, Charles Huot, Aproged,février 2013Big Data, Charles Huot, Aproged,février 2013
Big Data, Charles Huot, Aproged,février 2013
ADBS
 
La valeur des Big Data sera dans leurs usages
La valeur des Big Data sera dans leurs usagesLa valeur des Big Data sera dans leurs usages
La valeur des Big Data sera dans leurs usages
SAS FRANCE
 

Tendances (20)

Valtech - Du BI au Big Data, une révolution dans l’entreprise
Valtech - Du BI au Big Data, une révolution dans l’entrepriseValtech - Du BI au Big Data, une révolution dans l’entreprise
Valtech - Du BI au Big Data, une révolution dans l’entreprise
 
Big Data Des méandres des outils au potentiel business
Big Data   Des méandres des outils au potentiel businessBig Data   Des méandres des outils au potentiel business
Big Data Des méandres des outils au potentiel business
 
Big Data... Big Analytics à travers les âges, les industries et les technologies
Big Data... Big Analytics à travers les âges, les industries et les technologiesBig Data... Big Analytics à travers les âges, les industries et les technologies
Big Data... Big Analytics à travers les âges, les industries et les technologies
 
Etude sur le Big Data
Etude sur le Big DataEtude sur le Big Data
Etude sur le Big Data
 
Technologies pour le Big Data
Technologies pour le Big DataTechnologies pour le Big Data
Technologies pour le Big Data
 
Big Data, kesako ?
Big Data, kesako ?Big Data, kesako ?
Big Data, kesako ?
 
Cours Big Data Chap1
Cours Big Data Chap1Cours Big Data Chap1
Cours Big Data Chap1
 
Le Big Data transforme en profondeur le monde de la Banque et de l’Assurance
Le Big Data transforme en profondeur le monde de la Banque et de l’AssuranceLe Big Data transforme en profondeur le monde de la Banque et de l’Assurance
Le Big Data transforme en profondeur le monde de la Banque et de l’Assurance
 
Formation professionnelle "Big data : concepts et enjeux"
Formation professionnelle "Big data : concepts et enjeux"Formation professionnelle "Big data : concepts et enjeux"
Formation professionnelle "Big data : concepts et enjeux"
 
I love BIG DATA
I love BIG DATAI love BIG DATA
I love BIG DATA
 
Big Data, Charles Huot, Aproged,février 2013
Big Data, Charles Huot, Aproged,février 2013Big Data, Charles Huot, Aproged,février 2013
Big Data, Charles Huot, Aproged,février 2013
 
Valtech - Big Data : Détails d’une mise en œuvre
Valtech - Big Data : Détails d’une mise en œuvreValtech - Big Data : Détails d’une mise en œuvre
Valtech - Big Data : Détails d’une mise en œuvre
 
BIG DATA - Cloud Computing
BIG DATA - Cloud ComputingBIG DATA - Cloud Computing
BIG DATA - Cloud Computing
 
Point de Vue Sopra Consulting sur le Big Data
Point de Vue Sopra Consulting sur le Big DataPoint de Vue Sopra Consulting sur le Big Data
Point de Vue Sopra Consulting sur le Big Data
 
Introduction au big data
Introduction au big dataIntroduction au big data
Introduction au big data
 
#NSD14 - La sécurité autour du Big Data
#NSD14 - La sécurité autour du Big Data#NSD14 - La sécurité autour du Big Data
#NSD14 - La sécurité autour du Big Data
 
La Big Data et ses applications
La Big Data et ses applicationsLa Big Data et ses applications
La Big Data et ses applications
 
La valeur des Big Data sera dans leurs usages
La valeur des Big Data sera dans leurs usagesLa valeur des Big Data sera dans leurs usages
La valeur des Big Data sera dans leurs usages
 
Analyse spatiale en Big data
Analyse spatiale en Big dataAnalyse spatiale en Big data
Analyse spatiale en Big data
 
Les enjeux du Big Data pour l'Entreprise - These professionnelle -Touria Engo...
Les enjeux du Big Data pour l'Entreprise - These professionnelle -Touria Engo...Les enjeux du Big Data pour l'Entreprise - These professionnelle -Touria Engo...
Les enjeux du Big Data pour l'Entreprise - These professionnelle -Touria Engo...
 

En vedette

Soft Computing & IBM : Digital, Big Data & DMP
Soft Computing & IBM : Digital, Big Data & DMPSoft Computing & IBM : Digital, Big Data & DMP
Soft Computing & IBM : Digital, Big Data & DMP
Soft Computing
 

En vedette (14)

Big Data : concepts, cas d'usage et tendances
Big Data : concepts, cas d'usage et tendancesBig Data : concepts, cas d'usage et tendances
Big Data : concepts, cas d'usage et tendances
 
BigData_Chp1: Introduction à la Big Data
BigData_Chp1: Introduction à la Big DataBigData_Chp1: Introduction à la Big Data
BigData_Chp1: Introduction à la Big Data
 
BigData_Chp4: NOSQL
BigData_Chp4: NOSQLBigData_Chp4: NOSQL
BigData_Chp4: NOSQL
 
Programme Big Data
Programme Big DataProgramme Big Data
Programme Big Data
 
Big data et marketing :Vers une analyse prédictif de d'acte d'achat
Big data et marketing :Vers une analyse prédictif de d'acte d'achatBig data et marketing :Vers une analyse prédictif de d'acte d'achat
Big data et marketing :Vers une analyse prédictif de d'acte d'achat
 
BigData_Chp5: Putting it all together
BigData_Chp5: Putting it all togetherBigData_Chp5: Putting it all together
BigData_Chp5: Putting it all together
 
BigData_Chp3: Data Processing
BigData_Chp3: Data ProcessingBigData_Chp3: Data Processing
BigData_Chp3: Data Processing
 
BigData_Chp2: Hadoop & Map-Reduce
BigData_Chp2: Hadoop & Map-ReduceBigData_Chp2: Hadoop & Map-Reduce
BigData_Chp2: Hadoop & Map-Reduce
 
Azure Data Lake, le Big Data 2.0 - SQL Saturday Montreal 2017
Azure Data Lake, le Big Data 2.0 - SQL Saturday Montreal 2017Azure Data Lake, le Big Data 2.0 - SQL Saturday Montreal 2017
Azure Data Lake, le Big Data 2.0 - SQL Saturday Montreal 2017
 
Business & Decision - Atteignez le ROI2 sur vos projets Data - Congrès Big Da...
Business & Decision - Atteignez le ROI2 sur vos projets Data - Congrès Big Da...Business & Decision - Atteignez le ROI2 sur vos projets Data - Congrès Big Da...
Business & Decision - Atteignez le ROI2 sur vos projets Data - Congrès Big Da...
 
Big Data: Concepts, techniques et démonstration de Apache Hadoop
Big Data: Concepts, techniques et démonstration de Apache HadoopBig Data: Concepts, techniques et démonstration de Apache Hadoop
Big Data: Concepts, techniques et démonstration de Apache Hadoop
 
Soft Computing & IBM : Digital, Big Data & DMP
Soft Computing & IBM : Digital, Big Data & DMPSoft Computing & IBM : Digital, Big Data & DMP
Soft Computing & IBM : Digital, Big Data & DMP
 
Présentation pfe Big Data Hachem SELMI et Ahmed DRIDI
Présentation pfe Big Data Hachem SELMI et Ahmed DRIDIPrésentation pfe Big Data Hachem SELMI et Ahmed DRIDI
Présentation pfe Big Data Hachem SELMI et Ahmed DRIDI
 
Big data ppt
Big  data pptBig  data ppt
Big data ppt
 

Similaire à Matinée 01 Big Data

Bluemix Paris Meetup : Big data et Analytics - 15 avril 2015
Bluemix Paris Meetup :  Big data et Analytics - 15 avril 2015Bluemix Paris Meetup :  Big data et Analytics - 15 avril 2015
Bluemix Paris Meetup : Big data et Analytics - 15 avril 2015
IBM France Lab
 
Big data-2-170220212621
Big data-2-170220212621Big data-2-170220212621
Big data-2-170220212621
Haifa Akermi
 

Similaire à Matinée 01 Big Data (20)

Big data Paris Presentation Solocal 20150310
Big data Paris Presentation Solocal 20150310Big data Paris Presentation Solocal 20150310
Big data Paris Presentation Solocal 20150310
 
Quel est l'avenir des stratégies de données?
Quel est l'avenir des stratégies de données?Quel est l'avenir des stratégies de données?
Quel est l'avenir des stratégies de données?
 
BI en libre-service et maîtrise de l’IT, pourquoi choisir ?
BI en libre-service et maîtrise de l’IT, pourquoi choisir ?BI en libre-service et maîtrise de l’IT, pourquoi choisir ?
BI en libre-service et maîtrise de l’IT, pourquoi choisir ?
 
Offre onepoint - Data science et big data
Offre onepoint  - Data science et big data Offre onepoint  - Data science et big data
Offre onepoint - Data science et big data
 
La Logical Data Fabric au secours de la connaissance client
La Logical Data Fabric au secours de la connaissance clientLa Logical Data Fabric au secours de la connaissance client
La Logical Data Fabric au secours de la connaissance client
 
BigData & Cloud @ Excelerate Systems France
BigData & Cloud @ Excelerate Systems FranceBigData & Cloud @ Excelerate Systems France
BigData & Cloud @ Excelerate Systems France
 
Bluemix Paris Meetup : Big data et Analytics - 15 avril 2015
Bluemix Paris Meetup :  Big data et Analytics - 15 avril 2015Bluemix Paris Meetup :  Big data et Analytics - 15 avril 2015
Bluemix Paris Meetup : Big data et Analytics - 15 avril 2015
 
BigData BigBuzz @ Le Node
BigData BigBuzz @ Le Node BigData BigBuzz @ Le Node
BigData BigBuzz @ Le Node
 
Réinventez votre stratégie de données en 2021 avec la Data Virtualization
Réinventez votre stratégie de données en 2021 avec la Data VirtualizationRéinventez votre stratégie de données en 2021 avec la Data Virtualization
Réinventez votre stratégie de données en 2021 avec la Data Virtualization
 
EuraTech Trends : Big Data
EuraTech Trends : Big DataEuraTech Trends : Big Data
EuraTech Trends : Big Data
 
Valtech - Big Data pour le marketing
Valtech - Big Data pour le marketingValtech - Big Data pour le marketing
Valtech - Big Data pour le marketing
 
DataGalaxy et Denodo : le guichet unique de gouvernance et d’accès aux données !
DataGalaxy et Denodo : le guichet unique de gouvernance et d’accès aux données !DataGalaxy et Denodo : le guichet unique de gouvernance et d’accès aux données !
DataGalaxy et Denodo : le guichet unique de gouvernance et d’accès aux données !
 
De la BI au Big Data
De la BI au Big DataDe la BI au Big Data
De la BI au Big Data
 
#BigDataBx 1 - Présentation de la BI au BigData - Solocal Group
#BigDataBx 1 - Présentation de la BI au BigData - Solocal Group#BigDataBx 1 - Présentation de la BI au BigData - Solocal Group
#BigDataBx 1 - Présentation de la BI au BigData - Solocal Group
 
BigDataBx #1 - Journée BigData à la CCI de Bordeaux
BigDataBx #1 - Journée BigData à la CCI de BordeauxBigDataBx #1 - Journée BigData à la CCI de Bordeaux
BigDataBx #1 - Journée BigData à la CCI de Bordeaux
 
Big data en (ré)assurance régis delayet
Big data en (ré)assurance   régis delayetBig data en (ré)assurance   régis delayet
Big data en (ré)assurance régis delayet
 
Dep 2015 projets big data & dq 20151126 v1.3
Dep 2015 projets big data & dq 20151126 v1.3Dep 2015 projets big data & dq 20151126 v1.3
Dep 2015 projets big data & dq 20151126 v1.3
 
Microsoft - La Transformation Big Data
Microsoft - La Transformation Big DataMicrosoft - La Transformation Big Data
Microsoft - La Transformation Big Data
 
Big data-2-170220212621
Big data-2-170220212621Big data-2-170220212621
Big data-2-170220212621
 
Analytics et Big Data : accélérer la génération de valeur par la convergence ...
Analytics et Big Data : accélérer la génération de valeur par la convergence ...Analytics et Big Data : accélérer la génération de valeur par la convergence ...
Analytics et Big Data : accélérer la génération de valeur par la convergence ...
 

Plus de Evenements01

Matinée 01 Innovation 2013
Matinée 01 Innovation 2013Matinée 01 Innovation 2013
Matinée 01 Innovation 2013
Evenements01
 
Bonus projet de déploiement de tablettes numériques aux agents généraux
Bonus  projet de déploiement de tablettes numériques aux agents générauxBonus  projet de déploiement de tablettes numériques aux agents généraux
Bonus projet de déploiement de tablettes numériques aux agents généraux
Evenements01
 
Matinée 01 workstation 2012
Matinée 01 workstation 2012Matinée 01 workstation 2012
Matinée 01 workstation 2012
Evenements01
 
Matinée 01 entreprise collaborative
Matinée 01 entreprise collaborativeMatinée 01 entreprise collaborative
Matinée 01 entreprise collaborative
Evenements01
 
Matinée01 e commerce
Matinée01 e commerceMatinée01 e commerce
Matinée01 e commerce
Evenements01
 
Evénements 01 BYOD
Evénements 01 BYODEvénements 01 BYOD
Evénements 01 BYOD
Evenements01
 
Appréhender tous les enjeux de la qualité
Appréhender tous les enjeux de la qualitéAppréhender tous les enjeux de la qualité
Appréhender tous les enjeux de la qualité
Evenements01
 
Matinée Prospective 2015
Matinée Prospective 2015Matinée Prospective 2015
Matinée Prospective 2015
Evenements01
 
Matinée Cybercriminalité
Matinée CybercriminalitéMatinée Cybercriminalité
Matinée Cybercriminalité
Evenements01
 
Poste de Travail : le voyage vers une informatique centrée sur l'utilisateur
Poste de Travail : le voyage vers une informatique centrée sur l'utilisateurPoste de Travail : le voyage vers une informatique centrée sur l'utilisateur
Poste de Travail : le voyage vers une informatique centrée sur l'utilisateur
Evenements01
 
Poste de Travail : Consumérisation et virtualisation
Poste de Travail : Consumérisation et virtualisationPoste de Travail : Consumérisation et virtualisation
Poste de Travail : Consumérisation et virtualisation
Evenements01
 

Plus de Evenements01 (16)

Matinée 01 Innovation 2013
Matinée 01 Innovation 2013Matinée 01 Innovation 2013
Matinée 01 Innovation 2013
 
Cloud computing
Cloud computing Cloud computing
Cloud computing
 
Bonus projet de déploiement de tablettes numériques aux agents généraux
Bonus  projet de déploiement de tablettes numériques aux agents générauxBonus  projet de déploiement de tablettes numériques aux agents généraux
Bonus projet de déploiement de tablettes numériques aux agents généraux
 
Matinée 01 workstation 2012
Matinée 01 workstation 2012Matinée 01 workstation 2012
Matinée 01 workstation 2012
 
Matinée 01 entreprise collaborative
Matinée 01 entreprise collaborativeMatinée 01 entreprise collaborative
Matinée 01 entreprise collaborative
 
Matinée 01 SIRH
Matinée 01 SIRHMatinée 01 SIRH
Matinée 01 SIRH
 
Matinée01 e commerce
Matinée01 e commerceMatinée01 e commerce
Matinée01 e commerce
 
Evénements 01 BYOD
Evénements 01 BYODEvénements 01 BYOD
Evénements 01 BYOD
 
Appréhender tous les enjeux de la qualité
Appréhender tous les enjeux de la qualitéAppréhender tous les enjeux de la qualité
Appréhender tous les enjeux de la qualité
 
Matinée 01 SaaS
Matinée 01 SaaS Matinée 01 SaaS
Matinée 01 SaaS
 
Matinée Prospective 2015
Matinée Prospective 2015Matinée Prospective 2015
Matinée Prospective 2015
 
Matinée Cybercriminalité
Matinée CybercriminalitéMatinée Cybercriminalité
Matinée Cybercriminalité
 
Poste de Travail : Workplace
Poste de Travail : Workplace Poste de Travail : Workplace
Poste de Travail : Workplace
 
Poste de Travail : le voyage vers une informatique centrée sur l'utilisateur
Poste de Travail : le voyage vers une informatique centrée sur l'utilisateurPoste de Travail : le voyage vers une informatique centrée sur l'utilisateur
Poste de Travail : le voyage vers une informatique centrée sur l'utilisateur
 
Poste de Travail : 01 informatique
Poste de Travail : 01 informatiquePoste de Travail : 01 informatique
Poste de Travail : 01 informatique
 
Poste de Travail : Consumérisation et virtualisation
Poste de Travail : Consumérisation et virtualisationPoste de Travail : Consumérisation et virtualisation
Poste de Travail : Consumérisation et virtualisation
 

Matinée 01 Big Data

  • 1. le Mardi 14 février 2012 Matinée 01 BIG DATA
  • 2. 9h00 – 09h15 - OUVERTURE Qu’entend-on réellement par Big Data ? Par Olivier Rafal, directeur de recherche chez Pierre Audoin Consultants
  • 3. Big Data Concept et perspectives : la réalité derrière le ‘buzz’
  • 4. Sommaire I. Perspectives marché Définition du Big Data Exemple concret II. Perspectives technologiques Pourquoi le NoSQL et Hadoop L‟après Big Data
  • 5. PAC en bref: l’analyse du marché informatique depuis 35 ans ! De la stratégie à l’exécution, PAC offre des réponses objectives aux défis de croissance des acteurs des TIC PAC est une société de conseil et d’études de marché spécialisée dans le domaine du logiciel et des services informatiques Plus de 35 ans d’expérience PAC aide: - Les fournisseurs de services informatiques à optimiser leurs stratégies en offrant des analyses quantitatives et qualitatives ainsi que des prestations de conseil opérationnel et stratégique. - Nous conseillons les DSI et les investisseurs Plus de 30 pays couverts dans l‟évaluation des fournisseurs TIC et leurs 6 bureaux PAC projets d‟investissements. - Les organisations et les institutions publiques se réfèrent également à nos études ciblées pour développer et mettre en place leurs politiques informatiques. Dernières actualités PAC sur notre blog : http://blog.pac-online.com/
  • 6. PAC en bref: suivi particulier de la Business Intelligence
  • 8. Le Big Data, c’est au choix… « Un buzz orchestré par les fournisseurs de technologies, les « On verra quand on aura des analystes et les médias » Pétaoctets de données à gérer » « L’avenir de la BI, la réponse à tous les « Une évolution problèmes » naturelle » « Seulement utile aux « Réservé aux grands comptes » quelques grands acteurs du Web » « Uniquement lié à la technologie Hadoop »
  • 9. Big Data : une évolution naturelle Nouvelles sources de données Importance des Explosion du (M2M, Open Data, Science…) conversations ‘UGC’ Big Data : intégrer ces évolutions et contraintes pour Métriques Accélération applicatives transformer les données en des cycles de orientées information exploitable dans le décision business cadre de son business Démocratisation de la BI Patrimoine informationnel non structuré / Découverte
  • 10. Big Data : les problématiques de M. Jourdain  Volumétrie : gestion de stocks, gestion de commandes, transport/logistique/RFID, transactions financières, services grand public…  Variété : CRM / Marketing / SAV, communication financière…  Vélocité : Mode, Jeu, Electronique grand public, gestion des stocks, gestion des commandes… Mieux connaître son client Améliorer son offre Agir avant la compétition
  • 11. Exemple concret de Big Data Kobojo, PME française  Jeux pour les réseaux sociaux  Evolutions quotidiennes  Indicateurs techniques : 300 à 400 millions de données par jour et par jeu  Au-delà ? Facebook, Twitter…
  • 13. Le point de départ Base OLTP Datamart Datawarehouse ? Contenu non structuré
  • 14. Big Data : perspectives technologiques Des systèmes traditionnels au NoSQL  Problématique apparue il y a data une dizaine d’années chez les Applications gros « producteurs » de data analytiques données : Finance, Retail, Services online… data Hadoop /  Besoin de solutions plus Map performantes que les SGBDR Reduce standards pour ce besoin data particulier de volumétrie Base d’analyse  Not Only SQL data  Consensus sur Hadoop / MapReduce
  • 15. Big Data : perspectives technologiques Du NoSQL au futur SQL ?  Maturité du marché Hadoop  IBM : InfoSphere BigInsights  Oracle : Big Data Appliance (avec Cloudera)  Microsoft : exit Dryad, bonjour Hadoop  Informatica : Data Integration Platform for Hadoop …  Besoins non couverts par Hadoop  transactions ACID  SQL comme langage d’interaction  Mécanismes de verrouillage non bloquants …
  • 16. Big Data : perspectives technologiques Quand le Big Data deviendra la norme…  Emergence de nouvelles solutions  In-Memory  SSD  CEP (CloudScale…)  Moteurs de stockage (Xeround, GenieDB…)  SQL nouvelle génération (VoltDB, Clustrix…) …  Qui préfigure une assimilation progressive !
  • 17. L’évolution possible Contenu Web Data as a Moteur de service recherches / BI visuelle / text Data analytics flux C NoSQL / Data NewSQL flux E P Data Applications ETL/ analytiques flux Data Quality ? Datawarehouse Contenu DB
  • 18. Olivier Rafal Directeur de recherches, Marchés logiciels Information Management o.rafal@pac-online.com @olivierrafal MERCI !
  • 19. 09h15 – 09h50 - TABLE RONDE Big Data : juste un concept ou une réponse à de réels besoins ?  Attentes et Usages  Pour quels types d’entreprise et de besoins ?  Remplaçant du datawarehouse traditionnel ?  Quid du temps réel et du transactionnel ? Avec Jacques Milman, expert avant-vente Big Data et analytique chez IBM Dominique Girardot, directeur d’Anteo, Groupe Sodifrance François Guérin, directeur technique chez Sybase
  • 20. 09h50 – 10h10 - Avis d’expert Pourquoi et comment intégrer les volumineuses données du Web (réseaux sociaux, e-commerce…) dans son système d‘information décisionnel ?  Quels services de l’entreprise sont concernés ?  Le triptyque “Big Transaction Data- Big Interaction Data- Big Data Processing (Hadoop)”  Le MDM, pierre angulaire d’un SI destiné aux utilisateurs métier Avec Bruno Labidoire, directeur technique Europe du Sud chez Informatica
  • 21. #BigData, au-delà du concept marketing Bruno Labidoire Directeur Technique, Europe du Sud 21 21 21
  • 22. Big Data Une convergence de 3 domaines BIG TRANSACTION DATA BIG INTERACTION DATA Online Online Analytical Données des Transaction Processing média sociaux Processing (OLAP) & Tickets d’appels, (OLTP) DW Appliances Click stream, etc Données scientifiques Capteurs BIG DATA PROCESSING 22 22
  • 23. Big Transaction Data Bases relationnelles et analytiques BIG TRANSACTION DATA Online Online Analytical Transaction Processing Processing (OLAP) & (OLTP) DW Appliances Oracle EMC Greenplum DB2 Teradata Britton-Lee Redbrick Ingres EssBase Informix Sybase IQ Sybase Netezza SQLServer DataAllegro Asterdata Vertica Paraccel Hana 23 23
  • 24. Le décisionnel proactif • On peut par exemple définir de nouvelles campagnes potentielles associées à ces média sociaux ! American Express a aidé les PME à augmenter leurs revenus d„années en années de 28% pendant le week-end suivant Thanksgiving avec “Small Business Saturday” une campagne impliquant 1,5 million de fans Facebook 24 24
  • 25. Les challenges Les données issues des média sociaux peuvent être colossales! Interactions Transactions Source: An IDC White Paper - sponsored by EMC. As the Economy Contracts, the Digital Universe Expands. May 2009. . 25 25
  • 26. Réseaux sociaux Un potentiel en pleine croissance Consommateur Entreprise Consommateurs utilisant les principaux Réseaux Sociaux 2004-2011 1,000 900 800 700 600 500 400 300 200 100 0 2004 2005 2006 2007 2008 2009 2010 2011 Facebook LinkedIn Twitter 26 26
  • 27. Réseaux sociaux Des formes multiples 27 27
  • 28. Réseaux sociaux Comment profiter de ces grands volumes d’informations ? Curriculum Extraire Curriculum Analyser Curriculum Gérer Curriculum Associer 28 28
  • 29. Réseaux sociaux Comment profiter de ces grands volumes d’informations ? T_Young Tony Y. iDroidBerry 9800 challenged meeting our enterprise security requirements and battery life is also area of concern. Curriculum Extraire Curriculum Analyser Curriculum Gérer Curriculum Associer 29 29
  • 30. Réseaux sociaux Comment profiter de ces grands volumes d’informations ? Entity Extraction & Identity Resolution T_Young = Tony Young Relationship Resolution Tony Young works @ Informatica Relationship Analysis Tony‟s Sphere of Influence, CIO @ INFA Sentiment Scoring Enterprise Security -3.5, Battery Life -3.2 Curriculum Extraire Curriculum Analyser Curriculum Gérer Curriculum Associer 30 30
  • 31. Réseaux sociaux Comment profiter de ces grands volumes d’informations ? Databases Informatica MDM External Data Applications Client Produit … Providers Data Curriculum Extraire Curriculum Analyser Curriculum Gérer Curriculum Associer Warehouses Operational Applications 31 31
  • 32. Big Transaction Data Comment profiter des données transactionnelles ? Cloud Computing Enterprise Partner Trading Network (B2B) Warehouses … SWIFT NACHA HIPAA Cloud Computing Partner Data Application Database Unstructured Curriculum Extraire Curriculum Découvrir Curriculum Nettoyer Curriculum Intégrer Curriculum Analyser 32 32
  • 33. Big Transaction Data Comment profiter des données transactionnelles ? Cloud Computing Enterprise Partner Trading Network (B2B) Curriculum Extraire Curriculum Découvrir Curriculum Nettoyer Curriculum Intégrer Curriculum Analyser 33 33
  • 34. Big Transaction Data Comment profiter des données transactionnelles ? Cloud Computing Enterprise Partner Trading Network (B2B) COMPLETENESS CONFORMITY CONSISTENCY DUPLICATION INTEGRITY ACCURACY Curriculum Extraire Curriculum Découvrir Curriculum Nettoyer Curriculum Intégrer Curriculum Analyser 34 34
  • 35. Big Transaction Data Comment profiter des données transactionnelles ? Cloud Computing Enterprise Partner Trading Network (B2B) Curriculum Extraire Curriculum Découvrir Curriculum Nettoyer Curriculum Intégrer Curriculum Analyser 35 35
  • 36. Big Transaction Data Comment profiter des données transactionnelles? Cloud Computing Enterprise Partner Trading Network (B2B) Curriculum Extraire Curriculum Découvrir Curriculum Nettoyer Curriculum Intégrer Curriculum Analyser 36 36
  • 37. Big Data Processing Qu’apporte Hadoop ? • Une montée en puissance économique • Fonctionne sur des fermes de serveurs banalisés • Supporte tous les types de données • Structuré, Semi-structuré et non structuré • Extensible • Interfaces (APIs) ouvertes permettant d‟implémenter une logique spécifique 37 37
  • 38. Big Data Processing Connectivité Hadoop par Informatica Analyse de Détection des Analyses Analyses des Smart Devices Sentiment fraudes Predictives risques Hadoop Cluster Connectivité Hadoop (HDFS) • Load data to Hadoop from any source • Extract data from Hadoop to any target Weblogs, Mobile Databases, Dat Semi-structured Cloud Applications, Data, Sensor Data a Warehouses Unstructured Enterprise Applications Social Data 38 38
  • 39. Un exemple de mise en œuvre dans le décisionnel 39 39 39
  • 40. Le décisionnel « classique » • La qualité des données est globalement égale à celle des systèmes opérationnels • Les indicateurs sont disponibles à J+1 • Les données clients/prospects peuvent être périmées et induire des tendances incorrectes dans les indicateurs Il peine à répondre aux demandes métiers de fraîcheur de l‟information, rapidité de décision, et gestion proactive des clients ! 40 40
  • 41. Le décisionnel avancé • Une solution de qualité des données a été mise en œuvre pour détecter (et corriger quand cela est possible) les erreurs dans les données. Ces erreurs sont notifiées aux systèmes opérationnels amonts pour correction. • Une partie des indicateurs est mise à jour au fil de l‟eau (intervalle d‟une minute à une heure en fonction du besoin fonctionnel). Les solutions de CDC (Changed Data Capture), bus messages et WebServices supportent cette mise en œuvre. • Des solutions de vérification d‟adresses postales et de croisement avec des bases externes entreprises (D&B) permettent d‟améliorer les données clients/prospects. Le métier accorde une plus grande confiance aux informations du décisionnel et peut réagir plus rapidement, mais il supporte mal une approche proactive ! 41 41
  • 42. Le décisionnel proactif • Des « DB Appliances » sont mises en places pour supporter les volumes de données croissants (WebLog, etc) • Des solutions de connectivité aux médias sociaux sont mises en place pour enrichir la connaissance du client • Les clients peuvent être évalués non seulement sur les produits qu‟ils ont acquis mais aussi sur leur capacité d‟influence (nombre de leurs contacts dans les réseaux sociaux) et sur leur comportement (weblog) • Les marques concurrentes citées par ces clients peuvent être analysées pour compléter l‟analyse concurrentielle • Etc… Le métier découvre de nouvelles informations lui permettant une approche proactive et une anticipation des besoins/tendances du marché ! 42 42
  • 44. Informatica 9.1: Plate-forme de services de données Data Integration Projects Big Data Ultra Data Big Data Data Social Master Cloud Complex Big Data Warehousing Messaging Services Archiving Consolidation Data Data Event Collection & Management Integration Processing Exchange ODBC/ Web SUPPORT TOUS PROJETS SQL Batch JDBC Services Accès Qualité Retention Confidentialité Fraicheur GESTION DE TOUTES REGLES Data Integration Master Data Data Quality Test Data Management B2B SOA/ Business Management & Archiving Composite Apps Intelligence Client Commande Réclamation Support Produit Facture ACCES A TOUTES LES DONNEES Transactions Interactions SWIFT NACHA HIPAA … Cloud Computing Applications Databases Unstructured Warehouses NoSQL Social Partner Data 44 44
  • 45. 45 45
  • 46. 10h10 – 10h30 - Avis d’expert Intégrer les solutions Big Data à l’existant.  Apporter une réelle valeur ajoutée, en lien avec un existant multiforme, décisionnel comme transactionnel Par Isabelle Claverie-Berge, expert technique Database Big Data chez IBM
  • 47. Information Management – Big Data Intégrer les solutions Big Data à l'existant Isabelle Claverie-Bergé, IBM Software, Information Management Architecte Isabelle_claverie@fr.ibm.com © 2012 IBM Corporation
  • 48. Information Management – Big Data Big Data : Une opportunité Acquerir/Observer Explorer/Gerer Analyser/Optimiser Customer Experience Customer Un Structuredcomment Intégrer les solutions Big Data à l'existant ? Mais Data Insight Transactional Data Profitability Optimization Historical Data Network Structured Data Referential Analytics Data Sets Audience Management Asset Optimization Streaming Data 48 © 2012 IBM Corporation
  • 49. Information Management – Big Data Big Data: Un complément à l‟approche traditionnelle Approche Traditionelle Nouvelle Approche Structuré, analytique, logique Creative, Vue holistic , intuition Data Hadoop Streams Warehouse Transaction Data Web Logs Internal App Data Social Data Structured Unstructured Structuré Enterprise Exploratoire Exploratory Repeatable Mainframe Data Repetable Linear Integration Iterative Iterative Text Data: emails Lineaire Monthly sales reports Brand sentiment Profitability analysis Product strategy OLTP System Datasurveys Sensor data: images Maximum asset utilization Customer ERP data Sources Nouvelles RFID Sources traditionnelles © 2012 IBM Corporation
  • 50. Information Management – Big Data Big Data : Les points d‟intégration Rules / BPM IBM Big Data Solutions Client and Partner Solutions iLog & Lombardi Data Warehouse InfoSphere Warehouse Big Data Analytics Warehouse Appliances Applications Text Statistics Financial Geospatial Acoustic IBM & non-IBM Image/Video Mining Times Series Mathematical Master Data Mgmt INTEGRATION InfoSphere MDM Data Big Data Enterprise Engines Database DB2 & non-IBM Content Analytics Processes InfoSphere Streams InfoSphere BigInsights ECM Productivity Tools & Optimization Business Analytics Workload Job Data Provisioning Job Management & Workflow Ingestion Information Server Scheduling Tracking Cognos & SPSS Optimization Manageability Management Admin Configuration Activity Identity & Data Marketing Tools Manager Monitor Access Mgmt Protection Unica Connectors Applications Blue Prints Data Growth Management InfoSphere Optim © 2012 IBM Corporation
  • 51. Information Management – Big Data Exemple: Vision client 360 Guardium Customer Identification Privacy Master Data Management Data Privacy InfoSphere InfoSphere Optim for Test Quality DB2 Data, Redaction, +++ MDM Stage Data Customer Intelligence Appliance Quality Data Models Out-of-the-box analytics Information Server Cognos Pre-built Customer Integration behavioral IBM Global Business Appliance attributes Services IBM Retail Data Model Core Metrics Unica Enterprise Data Warehouse Applications and Operational Analytics Online Archive OLTP and Big Data Integration Managing Growth Built-in Integration into Big Data Optim Data Archive Informix DB2 SAP solidDB DB2 © 2012 IBM Corporation
  • 52. Information Management – Big Data Exemple: exploration et surveillance pétrolière Volumes of raw structured and unstructured data Reservoir and Process Staging Platform Modeling and Simulation Applications Cleansing and Transformation of many types of data with different formats Operational BI and Statistical InfoSphere Subject-area source Applications BigInsights systems ODS Real-time streaming data (structured and unstructured) Netezza DW Cognos and Real-time SPSS dashboards InfoSphere and analytics Streams Traditional data sources Event detection and (ERP, CRM, databases) capture of real-time data 52 © 2012 IBM Corporation
  • 53. Information Management – Big Data THINK https://www.ibm.com/services/forms/signup.do?source=sw-infomgt&S_PKG=bdebook1 53 © 2012 IBM Corporation
  • 54. Information Management – Big Data © 2012 IBM Corporation
  • 55. 10h30 – 10h50 - Avis d’expert Pourquoi et comment préparer le SI à l’avènement du BIG DATA ?  Quel est l’enjeu métier de cette approche ?  Pourquoi l’urbanisation, le management des données et la création de référentiel sont incontournables dans un tel contexte ?  Pourquoi la qualité des données est-elle au centre du débat ? Par Stéphane Lextreyt, Sodifrance
  • 56. Comment préparer le SI à l’avènement du BIG DATA ? Maîtrisez votre capital Données
  • 57. BIG DATA : POURQUOI S’Y PRÉPARER ? Déluge informationnel … Où sont les données « métiers » ? Exploiter les tendances qui se Cloud dégagent de l’écosystème environnant OUI MAIS … Quel crédit accorder à ces données ? Comment en faire un élément de décision ? Alors les données doivent être : Fiables Cohérentes Centralisées Source d’agilité Partagées du SI ….
  • 58. UNE APPROCHE GLOBALE ET STRUCTURÉE Accroître l’efficacité du SI… Maitriser les données internes au SI Transformer les données en informations fiables Partager des informations à forte valeur ajoutée Capitaliser sur les données Métiers Maintenir un niveau de qualité élevé Diminuer significativement le coût de gestion des données
  • 59. DATA MANAGEMENT, UNE FORTE EXPÉRIENCE SODIFRANCE, SSII innovante 25 ans d‟expérience Un CA de 68,2 M€ en 2011 (+8,2%) 930 collaborateurs sur 12 implantations en France Une approche projet : 53 % du CA en engagement de résultats Un Centre R&D dédié au développement de nos solutions outillées Une clientèle de grands comptes fidèles  170 projets ALCARA CREDIT MUTUEL MALAKOFF-MEDERIC CREDIT AGRICOLE STE GENERALE CNP-ASSURANCES GMF BPCE YVES ROCHER MAAF ADP-GSI DIAC en Data Management MMA RSI AXA BNP-PARIBAS AIR France MERIAL EUROPCAR STACI AREAS
  • 60. DATA MANAGEMENT : DÉFINIR SA TRAJECTOIRE Définir la stratégie et la gouvernance Concevoir l’architecture cible et la trajectoire Recommander les choix technologiques Cadrer le projet et la démarche Sécuriser l’atteinte des objectifs Conduire le changement
  • 61. LE CYCLE DE VIE DE A à Z … Industrialiser la maîtrise et l’évolution du SI Accélérer l’adaptation de l’entreprise Ouvrir le SI aux nouvelles applications Réduire les coûts de maintenance
  • 62. COMPRENDRE ET MAITRISER L’EXISTANT Cartographie applicative outillée Références Analyse exhaustive • AXA Références croisées • CNP-Assurances Flot de données • CIMUT Algorithmes • CRÉDIT MUTUEL • EDF • ING • I-BP • MAAF • RSI, … Un référentiel vivant Rafraichissement permanent CIMUT Système de requêtage utilisateur « Nous avons choisi Mia-Insight pour la pertinence des analyses fines et précises, irréalisables sans outillage » Utiliser les données Métiers, Analyser les impacts au niveau applicatif
  • 63. LA QUALITÉ AU CENTRE DES PRÉOCCUPATIONS Automatiser la qualité des données Références Faire un état des lieux • ARKEA Listes de valeurs • APICIL / UPESE Volume de données erronées • CAISSES Taux de doublons D’EPARGNE • CREDIT AGRICOLE • GROUPAMA • NOVALIS-TAITBOUT • MERIAL, … Impliquer tous les acteurs MOA Gestion MALAKOFF-MÉDÉRIC MOE Projets « Grâce à ses outils d'analyse performants, Pérenniser la démarche SODIFRANCE nous Planifier les actions dans le temps garantissait un audit Auditer de façon récurrente et des recommandations Engager de nouvelles actions factuelles et rapides » Toujours être vigilant et proactif
  • 64. ORGANISER LE SI AUTOUR DES DONNÉES MÉTIER Du référentiel métier à l’agilité du SI Références Création de référentiels de • CDC données partagées • CNP-Assurances Référentiels « Maitre » / « Esclaves » • CIMUT Fiabilité et cohérence des données • ENERGY POOL Accessibilité des données par toutes • MALAKOFF- les applications MÉDÉRIC • SI2M Démarche d’urbanisation • MMA,… Approche par les processus Métiers Identification du meilleur découpage applicatif SI2M Recherche de la modularité « Les résultats de optimale l’audit et le conseil Transformation des applications en de SODIFRANCE service Métier nous ont permis de Ouverture multicanal faire avancer notre vision sur Bénéfices Métier attendus l'urbanisation de Efficacité opérationnelle notre SI » Rester Time To Market Faites de votre référentiel un Référentiel
  • 65. LES DONNÉES DANS TOUS LEURS ÉTATS Références Démarche = Méthodologie et Solutions • AGF • AIR FRANCE Capitaliser sur les données • BNP-PARIBAS Métiers de référence • CHU DE NICE Fiabiliser • GROUPAMA Dédoublonner • MALAKOFF- Normaliser MÉDÉRIC • MORNAY • VILLE DE LYON • RATP, … MALAKOFF-MÉDÉRIC « Grâce à l’usine de migration TRANSMIG, les données du Référentiel Personne sont fiables et cohérentes. Engagements sur la qualité Aujourd’hui, les coûts Sécurisation du Projet d’exploitation sont Gouvernance améliorée réduits et les actes de Augmentez votre capital données gestion bien plus rapides »
  • 66. GARDER LA MÉMOIRE… À PORTÉE DE WEB Diminuer les coûts de possession Références • DCNS • MALAKOFF- MEDERIC • MERIAL en place de PRA – PCA • AEROPORT NANTES • CH LE MANS,…. •… MERIAL stifications CAC « La fonction d’archivage Web de TRANSMIG a permis de restituer une vision des données historiques que nous n’avions plus suite à l’arrêt du Mainframe et à la disparition de l’application métier » Réduire les coûts et améliorer le service
  • 67. APPROCHE GLOBALE DU CYCLE DE VIE DES DONNÉES Efficacité et rigueur Diagnostic  Audit  Cartographie Cible  Cible et stratégie Diagnostic  Recueil des besoins  Alignement MOA /MOE Trajectoire  Référentiel maitre / esclaves Cible Trajectoire  Méthodologie projet éprouvée Indicateurs  Solutions outillées Maintenir Qualité couts  Accompagnement  Formation Maintenir
  • 68. RETOUR D’EXPÉRIENCE Périmètre Création du Référentiel Personne Conseil & Conseil Urbanisation Audit Migrer Dédoublonner Synchroniser Audit Audit Projet Cartographie Fiabiliser Charger Archiver régulier régulier Solutions outillées Expertise Experts en urbanisation et Data Management Formation – Conduite du changement 2009 2012 Temps
  • 69. Stéphane LEXTREYT Consultant Data Management slextreyt@sodifrance.fr +33 6 86 89 23 20
  • 70. 10h50 – 11h20 - PAUSE Pause / Networking
  • 71. 11h20 – 12h00 - Table Ronde Cloud et Stockage, supports incontournables du Big Data  Les acteurs du cloud et les éditeurs/constructeurs se positionnent déjà  Actuellement, y a-t-il un intérêt à installer sa propre solution Big Data ?  En quoi le cloud incarne-t-il un moyen intéressant ? Avec Jean-Pascal Ancelin, directeur général, MicroStrategy France & Said Boukhizou, responsable technique chez Datacore
  • 72. 12h00 – 12h10 - Avis d’expert Témoignage utilisateur : Malakoff-Mederic Ré-urbaniser le SI autour des données métiers, un enjeu concurrentiel  Les enjeux de la mise en œuvre de référentiel de données Métiers, vecteur d’agilité de l’entreprise  Comment alimenter un référentiel de données tout en synchronisant les applications périphériques contributrices ? Par Romaric Hatit de Malakoff-Mederic
  • 73. 12h10 – 12h30 - Avis d’expert Le stockage : innovation et nouvelles réponses Part 1 Par Said Boukhizou, responsable technique chez Datacore
  • 74. How Big Data Influences Storage Innovations Impact on policies, scale, clouds and data management 74
  • 75. Not Just Big  Fast  Real-time ► Event-driven  Shared 75 Copyright © 2012 DataCore Software Corp. – All Rights Reserved.
  • 76. Motivation Greater Situational Awareness Better Decision Making Competitive Advantage 76 Copyright © 2012 DataCore Software Corp. – All Rights Reserved.
  • 77. Where does Big Data come from? Enterprise Office Apps Apps Web Apps Device explosion Social Media Data Machine Data 77 Copyright © 2012 DataCore Software Corp. – All Rights Reserved.
  • 78. Applications that are driving Storage Growth Archiving Data Protection/DR Email CRM File sharing Content Mgt Regulatory mandates DE Convert analog - digital records Data warehousing/BI WE eCommerce Digital Imaging ERP Social Platfom SCM 0% 20% 40% 60% Source: IDC‟s European Storage Survey 2011 – N=509 78 Copyright © 2012 DataCore Software Corp. – All Rights Reserved.
  • 79. Challenging Storage Characteristics  Never at rest  Different formats ► In-demand ► Less relevant ► Outdated  All shapes & sizes  Multiple, linked sources ► Intelligent devices ► Outside of IT‟s control ► Housed separately ► No time to pre-stage 79 Copyright © 2012 DataCore Software Corp. – All Rights Reserved.
  • 80. Renovation Opportunity  Modernize  Align  Architect  Adapt Not that difficult 80 Copyright © 2012 DataCore Software Corp. – All Rights Reserved.
  • 81. 81 Copyright © 2012 DataCore Software Corp. – All Rights Reserved.
  • 82. Technology Innovations on Your Side  Storage hypervisor layer ► Insulates data management from hardware variables ► Comprehensive set of advanced functions ► Device-dependent  Broad span ► Infrastructure-wide ► From on-premises to the Cloud ► Virtual & physical domains  Accelerates data access 82 Copyright © 2012 DataCore Software Corp. – All Rights Reserved.
  • 83. Virtualize Storage for Sharing & Speed  Pool resources  Direct traffic automatically  Cache near apps  Manage centrally 83 Copyright © 2012 DataCore Software Corp. – All Rights Reserved.
  • 84. Pooling  Combine overall capacity  Make disks shareable  Recover inaccessible or isolated disk space ► No longer isolated  Hide equipment incompatibilities ► Standard server / app connections bridged to device-specific interfaces 84 Copyright © 2012 DataCore Software Corp. – All Rights Reserved.
  • 85. Adaptive Layer Server Cluster Caching Caching Shared Virtual Disks Storage Hypervisor Variable sources / destinations 85 Copyright © 2012 DataCore Software Corp. – All Rights Reserved.
  • 86. 3-Dimensional Virtualization Strategy DESKTOP HYPERVISOR USERS SERVER HYPERVISOR APPS STORAGE HYPERVISOR DISKS 86 Copyright © 2012 DataCore Software Corp. – All Rights Reserved.
  • 87. Automation  Allocate space just-in-time ► Thin provision small groups of disk blocks ► No waste  Dynamically direct workloads to most appropriate resource ► Auto-tiering ► Determined by access frequency & business rules (high priority override) 87 Copyright © 2012 DataCore Software Corp. – All Rights Reserved.
  • 88. Hottest Data Gets Most Attention  Auto-Tiering Tier 1 Tier 2 Tier 3 Tier n Chuns Hot Warm Cold Stale 88 Copyright © 2012 DataCore Software Corp. – All Rights Reserved.
  • 89. Dynamic Optimization of Assets Mail Database File Web Apps Storage Hypervisor Price / TB Speed On-Premises Public Cloud 5% 35% 60% Private Cloud Price/ Capacity 89 Copyright © 2012 DataCore Software Corp. – All Rights Reserved.
  • 90. Caching  Rapid retrieval  Fast updates  Memory-access speeds ► Read (anticipate) ► Write (coalesce) ► Bypass disk latencies  Turbo-charge native disk array performance  Self-tuning 90 Copyright © 2012 DataCore Software Corp. – All Rights Reserved.
  • 91. Off-premises storage appears to be local  Users and apps can‟t tell ► Storage hypervisor makes it transparent  Same principles merely extended ► Pooling ► Automation ► Central management 91 Copyright © 2012 DataCore Software Corp. – All Rights Reserved.
  • 92. Central Management  Common menus & commands ► Across diverse equipment  Single console ► Status dashboard ► Performance view ► Consolidated notifications & alerts  External integration point ► Virtualization 92 Copyright © 2012 DataCore Software Corp. – All Rights Reserved.
  • 93. Lots of Standardization Talk  One interpretation ► Buy more of the same hardware ► Always buy it from me and my club  Really about interchangeability ► Stick to established interfaces ► Add or swap out equipment as needed ► Shop for best value among hardware suppliers ► Treat storage as interchangeable chunks of disk space 93 Copyright © 2012 DataCore Software Corp. – All Rights Reserved.
  • 94. Stage 2 – Beyond Your Walls  Leverage nearby branch or colocation facility  Rent capacity from public cloud 94 Copyright © 2012 DataCore Software Corp. – All Rights Reserved.
  • 95. Under a Different Roof  Continue operations despite facility problems ► Equipment upgrades / maintenance ► Air conditioning / ventilation ► Construction ► Water leaks ► Etc.,  Mirror or replicate critical volumes to a secondary site ► Auto-failover within metropolitan area ► Take advantage of different storage devices 95 Copyright © 2012 DataCore Software Corp. – All Rights Reserved.
  • 96. Expected Outcomes  Higher levels of service ► Rapidly provision space ► Remove storage-related disruptions ► Speed up app response  Optimal use of available resources ► Take full advantage of existing capacity ► Defer acquisition of more disks 96 Copyright © 2012 DataCore Software Corp. – All Rights Reserved.
  • 97. Get ready, Big Data is almost here! 97 Copyright © 2012 DataCore Software Corp. – All Rights Reserved.
  • 98. QUESTIONS www.datacore.com 98
  • 99. www.datacore.com Copyright © 2012 DataCore Software Corp. – All Rights Reserved.
  • 100. 12h30 – 12h50 - Avis d’expert Le stockage : innovation et nouvelles réponses Part 2 Par Jean-François Ruppé, Solution Architect EMEA chez Quantum
  • 101. Les solutions Big Data Jean-François RUPPÉ Architecte Solution
  • 102. Caractéristiques de nos clients 30%-60% Volumétrie Non-structurée DB Sources multiples Performance Protection © 2011 Quantum Corporation. Company Confidential. Forward-looking information is 102 based upon multiple assumptions and uncertainties, does not necessarily represent the company‟s outlook and is for planning purposes only.
  • 103. Principaux Secteurs d‟Activité Média • Post production (effet spéciaux, correction des couleurs, …) • Passage à la HD, 3D Sécurité / Imaging / Défense • Vidéosurveillance • Capture & traitement des données satellites Recherche scientifique • Calculs • Séquençage de génome (décryptage d‟informations) Pétrole et gaz • Exploration sismique • Modélisation 3D 103
  • 104. Les défis Gérer efficacement la croissance des données – +100 Millions de fichiers, >100 To de données par environnement – Transfert des données entre différentes chaînes de traitement – Protéger & Archiver à long terme Adapter les performances aux besoins – De 100 Mo/s à > 600 Mo/s Séquenceur/calcul sismique : 2 To par « run »/millions de fichiers Traitement d‟images satellite : – 600 Mo/s (FC 4Gb = 512 Mo/s) – 37 millions de fichiers, 1 Po de données avec gestion de Tiers (5% rapide, 63% lent, 32% bandes) Gourvernement : 4 milliards de fichiers + PRA © 2011 Quantum Corporation. Company Confidential. Forward-looking information is 104 based upon multiple assumptions and uncertainties, does not necessarily represent the company‟s outlook and is for planning purposes only.
  • 105. 1. Créer un espace de stockage partagé haute performance – SAN ou LAN en fonction des besoins en performance – Hétérogène Linux, Unix, Windows, MAC 2. Optimiser les ressource stockage – Gestion de différents Tiers : SSD, SAS, SATA, Bandes – Déplacement automatique des données (HSM) 3. Protection des données – Sauvegarde – Externalisation – Réplication © 2011 Quantum Corporation. Company Confidential. Forward-looking information is 105 based upon multiple assumptions and uncertainties, does not necessarily represent the company‟s outlook and is for planning purposes only.
  • 106. © 2011 Quantum Corporation. Company Confidential. Forward-looking information is 106 based upon multiple assumptions and uncertainties, does not necessarily represent the company‟s outlook and is for planning purposes only.
  • 107. Accélération des processus  Stockage local ou disparate  Mouvement des données fastidieux  Besoin d‟une grande quantité de stockage © 2010 Quantum Corporation. Company Confidential. Forward-looking information is based upon multiple assumptions and uncertainties, does not necessarily represent the company‟s outlook and is for planning purposes only.
  • 108. Evolution des processus  Stockage partagé  Accès concurrents  Depuis plusieurs types de client © 2010 Quantum Corporation. Company Confidential. Forward-looking information is based upon multiple assumptions and uncertainties, does not necessarily represent the company‟s outlook and is for planning purposes only.
  • 109. Différents type d‟accès LAN CIFS / NFS Storage Area Network (SAN) Gateway Servers WIN LAN Clients LINUX LAN Clients  Haute performances  Load Balancing  Milliers de clients  CIFS/NFS support © 2010 Quantum Corporation. Company Confidential. Forward-looking information is based upon multiple assumptions and uncertainties, does not necessarily represent the company‟s outlook and is for planning purposes only.
  • 110. Gestion des données TIERS 2 Storage Area Network (SAN) SAUVEGARDE VAULT DEDUPLICATION REPLICATION © 2010 Quantum Corporation. Company Confidential. Forward-looking information is based upon multiple assumptions and uncertainties, does not necessarily represent the company‟s outlook and is for planning purposes only.
  • 111. Architecture StorNext Solution “End-to-End” StorNext File System Gestion des données Stockage partagé StorNext StorNext SAN Clients Replication PRIMARY TIER Gateway Servers StorNext DLC CIFS/NFS SECONDARY TIER HA StorNext Storage GigE TCP/IP Infiniband IP Metadata Controllers Manager TAPE LIBRARY ARCHIVE VAULT Version « Logicielle » © 2010 Quantum Corporation. Company Confidential. Forward-looking information is based upon multiple assumptions and uncertainties, does not necessarily represent the company‟s outlook and is for planning purposes only.
  • 112. Appliances StorNext Solution “End-to-End” StorNext File System Gestion des données Stockage partagé StorNext StorNext SAN Clients Replication PRIMARY TIER Gateway G300 StorNext DLC CIFS/NFS SECONDARY TIER Q-Series StorNext Storage GigE TCP/IP Infiniband IP Manager Q-Series M330 Metadata Controllers Scalar VAULT © 2010 Quantum Corporation. Company Confidential. Forward-looking information is based upon multiple assumptions and uncertainties, does not necessarily represent the company‟s outlook and is for planning purposes only.
  • 113. Cas client : Recherche ADN PRIMARY TIER 80-100TB FC Disk FC/iSCSI DISTRIBUTED LAN CLIENTS StorNext DLC StorNext Gateway Servers Policy Engine FC GigE TCP/IP DDM Server FC TAPE LIBRARY ARCHIVE Metadata HA MDC Séquencement Controller PB of Tape • Chaque serveur de séquencement lance des analyses (ADN). Chaque expérimentation génère 1 To de données • Les résultats sont copiés ou déplacés vers l‟archive (rétention à long terme + externalisation) • Temps de traitement global réduit par 3
  • 114. Questions/Réponses © 2010 Quantum Corporation. Company Confidential. Forward-looking information is based upon multiple assumptions and uncertainties, does not necessarily represent the company‟s outlook and is for planning purposes only.
  • 115. 12h50 – 13h00 - Conclusion Une révolution informatique en douceur  Distribution et parallélisation des traitements, autre forme de virtualisation du stockage, système de gestion de fichiers plus universel…  Le phénomène Big Data n’annonce-t-il pas une évolution majeure ? Par José Diz, Journaliste, Evénements 01
  • 116. BIG DATA détour par la „SILICON Valley‟ José DIZ
  • 117. Hadoop : kesako?  Google et fortes contributions Yahoo!  Framework open source Java  HDFS : système de gestion de fichiers distribué avec stockage en cluster de serveurs  MapReduce : distribue de façon parallèle les traitements sur chaque nœud au plus près des données.
  • 118. Hadoop : kesako?  tout type de données  structurées  non structurées  Web, et autres  Croissance linéaire sur du matériel standard (commodité)  Appliquer rapidement des algorithmes simples à de très gros volumes de données  Batch ? Ou plus ?
  • 119. Des pionniers : Cloudera (CDH) l‟interface graphique pour accès via un navigateur workflow langage de type SQL Intégrer Hadoop et SGBD SGDB distribué non relationnel orienté colonnes Service distribué de collecte et d‟agrégation gestion de configuration pour pour stockage HDFS systèmes distribués langage de haut niveau
  • 120. Cloudera : un écosystème
  • 121. Hortonworks Data Platform (HDP) Core Apache Hadoop Related Hadoop Projects Open APIs for: • Data Integration • Data Movement • App Job Management (Columnar NoSQL Store) Pig Hive • System Management (Data Flow) (SQL) HBase MapReduce Zookeeper (Coordination) (Manaement) Ambari (Distributed Programing Framework) HCatalog (Table & Schema Management) HDFS (Hadoop Distributed File System)
  • 122. Hortonworks – la cohabitation Traditional Data Warehouses, BI & Analytics Serving Applications NoSQL RDMS … Traditional ETL Data BI / EDW Marts Analytics Apache Hadoop EsTsL (s = Store) Gartner predicts 80-90% of data 800% data growth produced today over next 5 years is unstructured Call Social Senso Server … Center Media r Data Logs
  • 123. MapR : affinage, spécifique ? Big data s‟avère lourd et coûteux à déplacer. Pig Hive Web Services Sequential File Map/ OLAP OLTP Hbase Processing Reduce RDBMS NAS HDFS Pig Hive Web Services Sequential File Map/ OLAP OLTP Hbase Processing Reduce RDBMS NAS HDFS Next Generation Distribution
  • 124. MapR : affinage, spécifique ? MapR Distribution for Apache Hadoop Hive Pig Oozie Sqoop HBase Plume Nagios Ganglia Vaidya Haute disponibilité et continuité : Mahout Cascading Flume Integration Integration Integration - snapshots, - mirroring, MapReduce - namecode de stockage distribué - … Distributed JobTracker HA NameNode HA™ MapR’s Lockless Storage Services ™
  • 125. Big Data : batch pour BI, et après ?  Complément au-delà du batch  Streaming  « Temps réel »  Stockage primaire ? Environnement de production principal ?  Deux écoles :  Pas pour Cloudera et Hortonworks  Certainement pour MapR
  • 127. 13h00 – 13h05 - JEU TIRAGE AU SORT iPad Et le gagnant est……?
  • 128. 13h05– 14h00 - COCKTAIL DEJEUNATOIRE Cocktail / Networking MERCI DE VOTRE PARTICIPATION BON APPETIT!!

Notes de l'éditeur

  1. Digital universe grew by 62% last year to 800 000 petabytes (peta=million gigabytes) and will grow to 1.2 “zettabytes” (zetta=million petabytes) this year then in 2020 we expect 35 zettabytes
  2. Big Data Processing. New connectivity in Informatica 9.1 enables IT to load data from any source into Hadoop, and extract data from Hadoop for delivery to any target. The connectivity also allows the application of Informatica data quality, data profiling, and other techniques to data in Hadoop. These capabilities open new possibilities for enterprises combining transaction and interaction data either inside or outside of Hadoop. Confidently deploy the Hadoop platform for Big Data processing with seamless source-and-target data integration Integrate insights from Hadoop Big Data analytics into traditional enterprise systems to improve business processes and decision-makingLeverage petabyte-scale performance to process large data sets of virtually any type and origin  We are also looking to develop Graphical integrated development environment for Hadoop environment in the future release
  3. Business Problem: Develop a centralized clearing house of sensor data for continual analytics to improve yield and safety.Raw data size of 2+ TB per rig per day, over centralized storage environment will be at 4 PB+ in 18 months easily.Shell has 40k sensors per rig but only uses data from 10% of them.Technical Challenges:Log on to sensor units from a central location.Preprocess & manage large amounts of data at multiple remote sites.Move the data from the site to a more central location often using poor commutations connections.Load the sensor data onto an server (separate from the hardware at the remote site) and determining whether they can optimize the data streams form this server to the central database.Create a central repository where data from multiple sites can be collected and kept for a long period of time.Opportunity Identification:What percentage of your sensor data do you actually use?How are you doing your real-time analytics?What is your big data strategy for dealing with theseHow are you doing your cross-rig correlation and learning.
  4. There is news of a large meteorite approaching your datacenters. Some call it Big Data.Others ignore it. But early signs of cosmic particles tells us that its arrival is imminent.I’d like to help you prepare for it, at least from the perspective of your storage strategy.
  5. Big Data is not just big. It is very fast, more real-time than we are used to and will need to be widely shared. Quite the contrast for the more batched G00211490 G00226066Latency can be cripplingSource:
  6. All the interest comes from the promise of bigger fortunes. Real-time inputs bring us greater situational awareness, which lead to better, more timely decisions, which result in better financial outcomes.I’m feeling rich already.
  7. When you take a closer look at Big Data, you uncover some very challenging attributes.Whereas today information appears to settle into convenient buckets and relatively easy to characterize, Big Data is never at rest. It roars in while it’s hot and quickly becomes lukewarm almost stale. Which means that our retention policies must change as well or we’ll become hoarders.G00211490
  8. I see this as one of the few opportunities in our short careers to make major structural renovations. A rare chance to justify modernizing and aligning to the business needs by re-architecting our storage management techniques and making them highly adaptable.Fortunately, it’s not that difficult to pull this off. G00214426
  9. Let’s consider a major innovation helping facilitate our task. The recent development of a storage hypervisor layer sitting between apps and storage insulating data management from all the hardware variables that Big Data throws our way.I’m going to spend a few minutes on this topic, since it has broad applicability across your infrastructure from the on-premises resources that you are so familiar with to the new cloud-based assets available for harnessing.You’ll also find it an essential ally in accelerating access to data
  10. Inless abstract terms, the storage hypervisor is your agent of change in making raw data not only quicker to get to, but far more shareable. Automatically directing traffic among the assortment of storage devices at your disposal, and caching it close to the apps. Operationally, it gives you centralized control.You may already be employing these techniques in your server virtualization efforts, now apply them to disks.I’ll speak about each of them individually.
  11. Resource pooling has the most immediate impact, enablingyou to aggregate the combined disk capacity across your IT infrastructure. This has the effect of making disks shareable to the most needy app while reclaiming apreviously inaccessible space.You’ll need a storage hypervisor to pull this off. Just like a server hypervisor, the specialized software emulates hardware so as to hide incompatibilities between different models.
  12. This diagram may give you a good idea of the relative position of the storage hypervisor in the processing stack.
  13. Perhaps it even makes more sense when seen alongside other forms of hypervisors, notably server and desktop variants.
  14. The storagevirtualization software incorporates a great deal of automation.First to avoid waste, and more dynamically, to direct higher priority workloads to the fastest disks.Underneath, you’ll discover the magic of device-independent thin provisioning and auto-tiering at work.
  15. Ready for more adventure?Travel with me one more hop into the hybrid cloud. That’s where you auto tier between your on-premises capacity and off-site disks rented from one of the commercial Cloud providers. Comes in real handy when you need a little scratch space, or when you are archiving documents that don’t require the same security or regulatory oversight as other consumers. It’s also a great option for storing contents that may need to be recovered during a disaster. More on that in a minute.
  16. Such dynamic juggling of diverse resources, particularly operating across equipment from different suppliers, is on the leading edge of 21st century cloud technologies. What seems like exceptionally well-running apps to the user, is largely a product of a well- balanced arsenal of purpose-built devices orchestrated by DataCore’s storage hypervisor. Combined with thin provisioning, they translate into major savings and big time agility.
  17. The answer to speed needs a little more explanation.
  18. During your selection, look for the storage hypervisor to encompass these off-site disks as merely an extension of on-premises capacity.
  19. The most visible aspect of your newly enlightened sky view comes from centralized management. While much has been said in the past about monitoring dissimilar units, the innovations we’re speaking about extend into achieving common control.One menu with discrete actions across device families whether from the same manufacturer or different suppliers.Similar to a universal remote, with equally powerful universal scripting commands used by 3rd parties for rich cross-integration.
  20. Which brings me to all the standardization talk going around. You may have noticed how small groups of vendors are banding together under the guise of standardization to dictate building blocks for private clouds. Each club has a different recipe calling out their hardware. They also imply that choosing components outside that elite member list jeopardizes the outcome.In stark contrast, the DataCore angle on standardization is all about interchangeability. Giving you the freedom to harness the best purpose-built equipment for each tier in the cloud. Allowing you to shop for the best value among competing hardware suppliers – all of which can do a good job. Key to making this work is sticking to established disk interfaces, and treating storage as no more than largely interchangeable chunks of disk space.
  21. Usually, after incorporating the principles of pooling, automation, caching and centralized management, our clients are ready to reinvent themselves in other ways. They tap into nearby facilities which help them inexpensively overcome the confines of their four walls.
  22. These measures bring significant benefit well beyond mere expansion. They are key to achieving continuous availability in the face of routine causes of planned and unplanned downtime. With equipment reliability hitting five 9s, outages these days are more frequently the result of ongoing changes in the surrounding environment. Be it upgrades to the devices or to the physical plant. Sometimes the interruptions are expected, other times they are not.My number one suggestion: Mirror your critical volumes between two rooms, as far as possible within a metro area so you can still treat them as one logical site. Normally, you will be OK within 100 kilometers.Once again, automation in the storage hypervisor kicks in to replicate the information in real-time, even between unlike storage devices. Then when one site has to be taken down, the other site takes over transparently. For added safeguard against regional disasters (earthquakes, storms, floods, etc,) you may want to keep a third copy very far away at a contingency site.
  23. Where will you experience the biggest payoffs?Our clients quantify them this way:They postpone and even avoid major disk acquisitions as a result of fully utilizing the capacity already on hand. They attain much better service levels through faster provisioning, eliminating storage-related disruptions and speeding up response from applications.
  24. I’d be glad to spend more time with you individually to discuss these techniques and hear what you anticipate running into as the Big Data meteor gets closer.Thank you.