Big Data : faire face au déluge
de données non structurées
Didier KRAINC
Directeur Général



http://www.idc.fr/
www.idc.com

                                                                                        1e Février 2012



Copyright 2012 IDC. Reproduction is forbidden unless authorized. All rights reserved.
Le phénomène Big Data
   Une terminologie « marketing » … qui identifie un phénomène et une
   problématique bien réels.

                                                         Définition: phénomène qui fait référence à
                                                         des technologies, outils, processus et
                                                         procédures accessibles, permettant à
                                                         une organisation de créer, manipuler et
                                                         gérer de très larges quantités de
                                                         données, afin de faciliter la prise de
                                                         décision rapide.
Google Trends sur le terme « Big Data » - Octobre 2011


     Les objectifs:
      Gérer des données hétérogènes, provenant de sources multiples, de
       format souvent structuré et non structuré.
      Traiter de haut volume (en taille et/ou en fréquence) de données qui sont
       dynamiques et changeantes
      Gérer les contenus imprévisibles, sans structure ou schéma apparent
      Permettre un accès, une analyse et une récupération en temps réel, ou
       quasi temps réel

   ©2012 IDC                                                                                      2
Big Data, Information Management et
3ème plateforme industrielle
                                               Transformation des industries




                                                     Social  Big data/
                                                   business analytics
            Trillions                         Réseau    Applis Services
                                              mobile et appareils Cloud
              d"objets connectés"
                                                        mobiles
                    Milliards                                                             Millions
                                                                                                d'Applications
                             d'Utilisateurs                       2011



                                                          LAN/ Client -
                                                        Internet Serveur

                   Centaines de Millions                          PC         Dizaine de milliers
                                d'utilisateurs                                            d'applications
                                                                  1986




                                                   Millions                 Milliers
                                                 d'utilisateurs          d'Applications


©2012 IDC                                                                                                        3
Quelques chiffres du marché
                                                                                          +7 zettaoctets
                                                          Volume de données
            Coût relatif du Go                            créées et répliquées
            (échelle 1/7000)




                                                                            1,2 zettaoctets
                                                         130 exaoctets



                                                         2005             2010            2015
                                                          1 zettaoctets = 1 trillion de Go =
                                                          1.000.000.000.000.000.000.000 octets


                                                                 20 millions
                  1 milliard d’utilisateurs d’Internet           de smart
                  mobile; 500,000 applications                   meters aux
                  pour téléphones mobiles                        US


                                                                  50 millions
                                                                  de
                   1.2 milliards de téléphones                    serveurs
                   mobiles; 220 million smart                     dont la
                   phones                                         moitié
                                                                  virtuels



©2012 IDC                                                                                                  4
Les cas d’utilisations

 Diagnostiques médicaux
 Développement pharmacologique
 Détection des fraudes
 Détection du terrorisme
 E-reputation et suivi du consommateur
 Veille et alerte produit rapide
 Réduction du taux de désabonnement
 Publicité et conseils personnalisés en temps réel
 Support aux services d’urgences (face à l’excès
  d’information)
©2012 IDC                                             5
Business Cases

Un distributeur d’envergure mondial a mis en place des outils de statistiques et de scoring
 pour gérer ses assortiments et ses promotions. Les données sont disponibles mondialement
 à J+1 pour une base de 75 To hors tickets de caisses.
Un éditeur de jeux vidéo qui, grâce à l’analyse des données comportementales captées sur
 les pages vues de son site, déduit les préférences de jeux de chacun des visiteurs. Il multiplie
 par 500 le taux de transformation de sa newsletter commerciale en envoyant un email
 personnalisé à chaque membre au regard des pages qu’il avait visitées.
Le New York Times a utilisé Hadoop pour générer les PDF de 11 millions d'articles publiés
 entre 1851 et 1922, et l'emploie désormais pour l'analyse de texte et le web mining.
La chaîne de librairies Barnes & Noble l'utilise pour comprendre les comportements d'achats
 de ses clients sur ses divers canaux de distribution.
Disney teste la technologie avec des objectifs similaires en s'appuyant sur des ressources
 dans le cloud et sur des serveurs inutilisés en raison de ses efforts de virtualisation.
McAfee fait appel aux technologies Big Data pour détecter des corrélations parmi les spams.
Les Giants de San Francisco (équipe de baseball) a mis en place une tarification dynamique
 permettant de modifier le prix des billets en fonction de la demande, et ce, jusqu’à la dernière
 minute. L’idée étant d’adapter les tarifs à la demande pour éviter la mévente et mieux
 exploiter les phénomènes d’enchères (qui profitent plutôt au marché noir). Une tarification
 dynamique qui a permis une augmentation du chiffre d’affaires du club de 6 % en 2010.
©2012 IDC                                                                                           6
A problématique différente, solution
 différente

Analyse de très gros volume de          Hadoop MapReduce
données, dont la nature et le format
changent
Grand volume des données de petite      Stockage et mise en cache des
taille à conserver sur une longue       blocs de données définis par les
période + de nombreux processus         applications + réseau de capacités
actifs                                  en load-balacing
Partage de données en réseau, avec      Bases de données orientées objet
une garantie de récupération et de
cohérence des données
Réseau d’informations et de relations   Base de données graphiques
complexes entre de grands volumes
d’entités distinctes
Grand volume de données stables et      Base de données relationnelles +
définies, issues de processus           solutions analytiques
métiers, de transaction ou reporting

 ©2012 IDC                                                                   7
Merci



       Didier Krainc

       Directeur Général            13, rue Paul Valéry
       IDC France                   75116 Paris
                                    France
       dkrainc@idc.com              Fax : +33 1 56 26 26 70

       Direct : +33 1 56 26 26 61
                                          http://www.idc.fr/




©2012 IDC                                                      8

Idc big data dk

  • 1.
    Big Data :faire face au déluge de données non structurées Didier KRAINC Directeur Général http://www.idc.fr/ www.idc.com 1e Février 2012 Copyright 2012 IDC. Reproduction is forbidden unless authorized. All rights reserved.
  • 2.
    Le phénomène BigData Une terminologie « marketing » … qui identifie un phénomène et une problématique bien réels. Définition: phénomène qui fait référence à des technologies, outils, processus et procédures accessibles, permettant à une organisation de créer, manipuler et gérer de très larges quantités de données, afin de faciliter la prise de décision rapide. Google Trends sur le terme « Big Data » - Octobre 2011 Les objectifs:  Gérer des données hétérogènes, provenant de sources multiples, de format souvent structuré et non structuré.  Traiter de haut volume (en taille et/ou en fréquence) de données qui sont dynamiques et changeantes  Gérer les contenus imprévisibles, sans structure ou schéma apparent  Permettre un accès, une analyse et une récupération en temps réel, ou quasi temps réel ©2012 IDC 2
  • 3.
    Big Data, InformationManagement et 3ème plateforme industrielle Transformation des industries Social Big data/ business analytics Trillions Réseau Applis Services mobile et appareils Cloud d"objets connectés" mobiles Milliards Millions d'Applications d'Utilisateurs 2011 LAN/ Client - Internet Serveur Centaines de Millions PC Dizaine de milliers d'utilisateurs d'applications 1986 Millions Milliers d'utilisateurs d'Applications ©2012 IDC 3
  • 4.
    Quelques chiffres dumarché +7 zettaoctets Volume de données Coût relatif du Go créées et répliquées (échelle 1/7000) 1,2 zettaoctets 130 exaoctets 2005 2010 2015 1 zettaoctets = 1 trillion de Go = 1.000.000.000.000.000.000.000 octets 20 millions 1 milliard d’utilisateurs d’Internet de smart mobile; 500,000 applications meters aux pour téléphones mobiles US 50 millions de 1.2 milliards de téléphones serveurs mobiles; 220 million smart dont la phones moitié virtuels ©2012 IDC 4
  • 5.
    Les cas d’utilisations Diagnostiques médicaux  Développement pharmacologique  Détection des fraudes  Détection du terrorisme  E-reputation et suivi du consommateur  Veille et alerte produit rapide  Réduction du taux de désabonnement  Publicité et conseils personnalisés en temps réel  Support aux services d’urgences (face à l’excès d’information) ©2012 IDC 5
  • 6.
    Business Cases Un distributeurd’envergure mondial a mis en place des outils de statistiques et de scoring pour gérer ses assortiments et ses promotions. Les données sont disponibles mondialement à J+1 pour une base de 75 To hors tickets de caisses. Un éditeur de jeux vidéo qui, grâce à l’analyse des données comportementales captées sur les pages vues de son site, déduit les préférences de jeux de chacun des visiteurs. Il multiplie par 500 le taux de transformation de sa newsletter commerciale en envoyant un email personnalisé à chaque membre au regard des pages qu’il avait visitées. Le New York Times a utilisé Hadoop pour générer les PDF de 11 millions d'articles publiés entre 1851 et 1922, et l'emploie désormais pour l'analyse de texte et le web mining. La chaîne de librairies Barnes & Noble l'utilise pour comprendre les comportements d'achats de ses clients sur ses divers canaux de distribution. Disney teste la technologie avec des objectifs similaires en s'appuyant sur des ressources dans le cloud et sur des serveurs inutilisés en raison de ses efforts de virtualisation. McAfee fait appel aux technologies Big Data pour détecter des corrélations parmi les spams. Les Giants de San Francisco (équipe de baseball) a mis en place une tarification dynamique permettant de modifier le prix des billets en fonction de la demande, et ce, jusqu’à la dernière minute. L’idée étant d’adapter les tarifs à la demande pour éviter la mévente et mieux exploiter les phénomènes d’enchères (qui profitent plutôt au marché noir). Une tarification dynamique qui a permis une augmentation du chiffre d’affaires du club de 6 % en 2010. ©2012 IDC 6
  • 7.
    A problématique différente,solution différente Analyse de très gros volume de Hadoop MapReduce données, dont la nature et le format changent Grand volume des données de petite Stockage et mise en cache des taille à conserver sur une longue blocs de données définis par les période + de nombreux processus applications + réseau de capacités actifs en load-balacing Partage de données en réseau, avec Bases de données orientées objet une garantie de récupération et de cohérence des données Réseau d’informations et de relations Base de données graphiques complexes entre de grands volumes d’entités distinctes Grand volume de données stables et Base de données relationnelles + définies, issues de processus solutions analytiques métiers, de transaction ou reporting ©2012 IDC 7
  • 8.
    Merci Didier Krainc Directeur Général 13, rue Paul Valéry IDC France 75116 Paris France dkrainc@idc.com Fax : +33 1 56 26 26 70 Direct : +33 1 56 26 26 61 http://www.idc.fr/ ©2012 IDC 8