EuraTech Trends
                                                                                                                                                  15 mars 2012
                                                                                                                                               Édition 1, Numéro 2

    EuraTechnologies +(33) 320 191 855




                                                           BIG DATA

                                                 L’ère du tout numérique a fait rentrer l’humanité dans une frénésie de production de
                                                                          3
                                             données de toutes natures : nous échangeons des milliards de tweets, de SMS, de MMS, de
                                             billets, de posts, d’images, de vidéos quotidiennement ; notre monde est truffé de capteur de
                                             toutes sortes enregistrant des millions données à la seconde ; entreprises et institutions
                                             publiques se sont lancées dans la numérisation du patrimoine culturel de notre planète -
                                             plusieurs dizaines de millions d’œuvres d’art, plusieurs dizaine de millions d’heures de
      « Les technologies                     documents audio ou vidéo, des milliards de livres- ; nous pourrions ainsi multiplier les
      Big Data décrivent                     exemples à l’infini.
           une nouvelle
          génération de                          Ce magma de données, structurées ou non, hétéroclites, non centralisées pourrait bien être
                                             le prochain eldorado numérique. En effet, dans ce monde numérique et de la connaissance,
         technologies et
                                             qui dit « données », dit gisements de productivité et d’innovations. Mais pour trouver le
        d’architectures,                     chemin jusqu’à eux, l’outillage existant de gestion de données n’étant pas en mesure
          conçues pour                       d’apporter de réponses satisfaisantes, il a donc été nécessaire de se tourner vers de nouvelles
             extraire                        technologies, connues sous le terme de « Big Data ».
       économiquement
         de la valeur de                         Si le buzz autour du Big Data n’a jamais été aussi important ces derniers mois, son origine
      grands volumes de                      remonte à 2004-05 quand Google initia BigTable et Yahoo ! Hadoop. Sa démocratisation va de
                                                                                                                4
      données d’une très                     pair avec un prix du stockage divisé par 10 en 7 ans (pour 450 € , il est possible de stocker la
      grande variété, en                     totalité de la musique produite sur terre), la baisse du coût de calcul, la montée en puissance
          permettant la                      du cloud (Big Cloud ?) et la disponibilité en Open Source des briques logicielles nécessaires à un
            capture, la                      projet Big Data.
       découverte et/ou
       l’analyse à haute
           vélocité »12.




                                                                1 - Source: “IDC's Digital Universe Study”, sponsored by EMC, Juin 2011




1
  IDC, “Extracting Value from Chaos”, juin 2011, http://www.idcdocserv.com/1142
2
  Gartner, « Solving « Big Data » challenge involves more than just managing volume of data », juin 2011, http://www.gartner.com/it/page.jsp?id=1731916
3
  IDC et EMC, “The Digital universe study”, juin 2011, http://www.emc.com/collateral/about/news/idc-emc-digital-universe-2011-infographic.pdf
4
  McKinsey Global Institute, “Big Data : The next frontier for innovation, competition and productivity”, juin 2011,
http://www.mckinsey.com/Insights/MGI/Research/Technology_and_Innovation/Big_data_The_next_frontier_for_innovation
2     EuraTech Trends



                                 LES OUTILS
                                                                                                   TM
                                     Deux des outils incontournables du Big Data sont Hadoop et MapReduce. Tous les
                                                                                   TM
                                 deux sont portés par la fondation Apache et englobent l’ensemble des briques
                                 logicielles nécessaires à la réalisation d’un projet Big Data. Ils sont disponibles sous licence
                                                                                                             TM
                                 Open Source et téléchargeables sur le site de la fondation Apache . Par ailleurs, un
                                 certain nombre de sociétés (IBM, Cloudera ou Hortonworks) proposent leurs propres
                                                       TM
                                 distributions Hadoop / MapReduce.
                                     Un autre outil incontournable dans le cadre d’un projet Big Data est un système de
                                 gestion de base de données ou de dépôt de données NoSQL, pour Not only SQL. Ces
                                 SGB/DD ont été conçus pour s’affranchir d’une certaine rigidité des SGBD relationnelles
                                 dans la structuration des données et de leurs traitements, et répondre aux contraintes des
                                 « 3V » (Volume, Variété et Vélocité). Par contre, les SGB/DD NoSQL ne se posent pas en
         Un nouveau métier
                                 concurrent des SGBD relationnelles. La majorité des projets les associent, chacun étant
          « Data Scientist »                                                                                                 5
                                 utilisé et optimisé pour ce qu’il fait de mieux. On recense aujourd’hui plus d’une centaine
    Son rôle, faire parler les   de SGB/DD NoSQL, communément répartir en quatre catégories : clé/valeur comme
    données !!                   DynamoDB ou CouchBase, orienté colonne comme HBase
                                                                                                   TM
                                                                                                       ou Bigtable, orienté
    Ses armes, une bonne
    maitrise des                 document comme MongoDB ou CouchDB et orienté graphe comme Neo4j ou
    mathématiques et des         InfiniteGraph. Le choix du ou des SGB/DD se fait en fonction du type de données, des
    statistiques, des outils     performances souhaitées et de l’existant du SI.
    d’analyse, des bases
    de données                       Pour analyser et tirer partie de ces océans de données, il existe plusieurs outils. Le
    relationnelles ou            premier déjà cité est MapReduce. Les seconds sont les langages de requêtage ; la jeunesse
    NoSQL, une bonne             des SGB/DD NoSQL fait qu’il n’y pas encore, comme le langage SQL pour les SGBD
    connaissance de son
    entreprise et de son         relationnelles, de langage de requêtage universel : citons HiveQL pour Hadoop, CQL pour
    environnement, un            Cassandra, SparQL pour Neo4J ou UnSQL dont l’ambition est justement de devenir le
    talent certain pour          « SQL » des SGB/DD de données non structurées. Les troisièmes sont des applicatifs
    mettre en valeur son
                                 métiers comme tresata pour l’analyse de données financiers. Les quatrièmes sont les
    travail d’analyse et le
    vendre auprès de ses         logiciels de BI (Business Intelligence) adapté au Big Data, proposés par Jaspersoft, Pentaho
    commanditaires.              ou Tableau Software. Une cinquième catégorie, utilisant la technologie du « machine
                                 learning » (apprentissage automatique), émerge en promettant des traitements très
                                 courts. Ces outils sont édités par Skytree, bigml, precog ou prior Knowledge Inc.
                                 LES ACTEURS
                                     Si l’Open Source joue un rôle fondamental dans le développement du Big Data, en
                                                                           TM
                                 particulier à travers la fondation Apache , et bien que le marché du Big Data soit récent,
                                 les majors du secteur IT l’ont très vite investi. Elles n’ont pas hésité à acquérir de jeunes
                                 sociétés pour renforcer leur position. Greenplum est devenue la filiale dédiée « Big Data »
                                          2
                                 de EMC , Aster Data celle de Teradata et Vertica de HP. Netezza, fournisseur d’appliances,
                                 est venue compléter l’offre d’IBM.
                                     Si ces grands groupes se positionnent sur l’ensemble de la chaine de valeur, de
                                 nombreuses start-ups se positionnent sur le service ou les solutions verticales. En effet, la
                                 mise en œuvre d’un projet « Big Data » est encore loin du « plug & play » et nécessite des
                                 compétences très variées que peu d’entreprises ont en leur sein : mathématiciens,
                                 statisticiens, informaticiens, techniciens rompus à l’installation et au paramétrage des
                                 différentes briques logicielles, spécialistes métiers. Dans le paysage français, Altic,
                                 Hurence ou Squid solutions accompagnent leurs clients dans l’ingénierie projet. mfg labs
                                 et Semiocast proposent à leurs clients d’utiliser le Big Data pour tirer partie des échanges
                                 sur les réseaux sociaux.




5
    http://nosql-database.org/
3




    LE MARCHÉ
                                                                              6                 7
        Les prévisions pour l’année 2012 vont de 1,5 milliards à 5 milliards de Chiffre d’affaires.
    Il est à noter que l’ensemble des pure players ne représente encore que moins d’1% de ce
    C.A..
        Pour les 5 années à venir, Wikibon prévoit une croissance à 2 chiffres du C.A., pour
    atteindre plus de 50 milliards de $ en 2017.
                                                                                                                                                  AGENDA
                                        Prévisions C.A. 2012-2017                                                                         BIG DATA 2012 PARIS :
                                                                                                                                          1ère édition du salon les 20
                                                                                                                                          et 21 mars.


                                                                                                                                          Big Data Conference 2012
                                                                                                                                          WASHINGTON:
                                                                                                                                          Applications & Analytics
                                                                                                                                          For Defense, Intelligence
                                                                                                                                          and Homeland Security,
                                                                                                                                          les 8 et 9 mai.


                                                                                                                                          Big Data World EUROPE
                                                                                                                                          2012 LONDON: How to
                                                                                                                                          store, analyse and use
                                                                                                                                          data – for all businesses, les
                                                                                                                                          19 et 20 septembre.


                                                                                                                                          STRATA CONFERENCE 2012
            2 - Source: Wikibon, “Big Data Market Size and Vendor Revenues”, Février 2012                                                 NEW YORK: Making Data
    QUELQUES CAS D’USAGE                                                                                                                  Work, du 23 au 25 octobre

       1. Médical
                                                                                                                                          BIG DATA FORUM
       La société CardioDX a développé un test sanguin qui détecte les maladies coronariennes.                                            2012PARIS: Business
    Ce test a été conçu grâce à l’identification des 23 gènes précurseurs après plusieurs milliers                                        Intelligence, Customer and
                                                                                                                                          Social Data Analytics, les 6
    d’analyses de plus de 100 millions de séquences génétiques.                                                                           et 7 novembre.
       2. Distribution
        WalmartLabs a créé Social Genome, une plateforme technologique capable d’analyser
    en temps réel des données provenant des réseaux sociaux (Tweeter, Facebook, Foursquare)
    afin de pousser des recommandations produits aux clients.
       3. Enchères en ligne
       Ebay améliore la pertinence des résultats de son moteur de recherche, même en cas
    d’erreur de frappe ou d’orthographe, grâce à l’analyse temps réel de son entrepôt de
    données de 10 pétaoctets.


       4. Réservation hôtelière en ligne
       Expédia maintient en temps réel une base de données de plus de 2 milliards de prix pour
    140 000 hôtels pour permettre aux internautes d’effectuer en ligne leurs réservations au
    meilleur coût.
       5. Web analytics
        Google Analytics archive l’ensemble des données collectées par le code JavaScript placé
    dans les pages surveillées dans des tables BigTable pour les restituer après traitement dans
    les tableaux de bord de ses clients.

6
  Deloitte, « Technology, Media and Telecommunications Predictions 2012 », janvier 2012, http://www.deloitte.com/assets/Dcom-
Canada/Local%20Assets/Documents/TMT/ca_en_tmt_Predictions2012_011712.pdf
7
  Wikibon, “Big Data Market Size and Vendor Revenues”, Février 2012, http://wikibon.org/wiki/v/Big_Data_Market_Size_and_Vendor_Revenues
4   EuraTech Trends




                      Retrouvez-nous sur le Web! www.euratechnologies.com

EuraTech Trends : Big Data

  • 1.
    EuraTech Trends 15 mars 2012 Édition 1, Numéro 2 EuraTechnologies +(33) 320 191 855 BIG DATA L’ère du tout numérique a fait rentrer l’humanité dans une frénésie de production de 3 données de toutes natures : nous échangeons des milliards de tweets, de SMS, de MMS, de billets, de posts, d’images, de vidéos quotidiennement ; notre monde est truffé de capteur de toutes sortes enregistrant des millions données à la seconde ; entreprises et institutions publiques se sont lancées dans la numérisation du patrimoine culturel de notre planète - plusieurs dizaines de millions d’œuvres d’art, plusieurs dizaine de millions d’heures de « Les technologies documents audio ou vidéo, des milliards de livres- ; nous pourrions ainsi multiplier les Big Data décrivent exemples à l’infini. une nouvelle génération de Ce magma de données, structurées ou non, hétéroclites, non centralisées pourrait bien être le prochain eldorado numérique. En effet, dans ce monde numérique et de la connaissance, technologies et qui dit « données », dit gisements de productivité et d’innovations. Mais pour trouver le d’architectures, chemin jusqu’à eux, l’outillage existant de gestion de données n’étant pas en mesure conçues pour d’apporter de réponses satisfaisantes, il a donc été nécessaire de se tourner vers de nouvelles extraire technologies, connues sous le terme de « Big Data ». économiquement de la valeur de Si le buzz autour du Big Data n’a jamais été aussi important ces derniers mois, son origine grands volumes de remonte à 2004-05 quand Google initia BigTable et Yahoo ! Hadoop. Sa démocratisation va de 4 données d’une très pair avec un prix du stockage divisé par 10 en 7 ans (pour 450 € , il est possible de stocker la grande variété, en totalité de la musique produite sur terre), la baisse du coût de calcul, la montée en puissance permettant la du cloud (Big Cloud ?) et la disponibilité en Open Source des briques logicielles nécessaires à un capture, la projet Big Data. découverte et/ou l’analyse à haute vélocité »12. 1 - Source: “IDC's Digital Universe Study”, sponsored by EMC, Juin 2011 1 IDC, “Extracting Value from Chaos”, juin 2011, http://www.idcdocserv.com/1142 2 Gartner, « Solving « Big Data » challenge involves more than just managing volume of data », juin 2011, http://www.gartner.com/it/page.jsp?id=1731916 3 IDC et EMC, “The Digital universe study”, juin 2011, http://www.emc.com/collateral/about/news/idc-emc-digital-universe-2011-infographic.pdf 4 McKinsey Global Institute, “Big Data : The next frontier for innovation, competition and productivity”, juin 2011, http://www.mckinsey.com/Insights/MGI/Research/Technology_and_Innovation/Big_data_The_next_frontier_for_innovation
  • 2.
    2 EuraTech Trends LES OUTILS TM Deux des outils incontournables du Big Data sont Hadoop et MapReduce. Tous les TM deux sont portés par la fondation Apache et englobent l’ensemble des briques logicielles nécessaires à la réalisation d’un projet Big Data. Ils sont disponibles sous licence TM Open Source et téléchargeables sur le site de la fondation Apache . Par ailleurs, un certain nombre de sociétés (IBM, Cloudera ou Hortonworks) proposent leurs propres TM distributions Hadoop / MapReduce. Un autre outil incontournable dans le cadre d’un projet Big Data est un système de gestion de base de données ou de dépôt de données NoSQL, pour Not only SQL. Ces SGB/DD ont été conçus pour s’affranchir d’une certaine rigidité des SGBD relationnelles dans la structuration des données et de leurs traitements, et répondre aux contraintes des « 3V » (Volume, Variété et Vélocité). Par contre, les SGB/DD NoSQL ne se posent pas en Un nouveau métier concurrent des SGBD relationnelles. La majorité des projets les associent, chacun étant « Data Scientist » 5 utilisé et optimisé pour ce qu’il fait de mieux. On recense aujourd’hui plus d’une centaine Son rôle, faire parler les de SGB/DD NoSQL, communément répartir en quatre catégories : clé/valeur comme données !! DynamoDB ou CouchBase, orienté colonne comme HBase TM ou Bigtable, orienté Ses armes, une bonne maitrise des document comme MongoDB ou CouchDB et orienté graphe comme Neo4j ou mathématiques et des InfiniteGraph. Le choix du ou des SGB/DD se fait en fonction du type de données, des statistiques, des outils performances souhaitées et de l’existant du SI. d’analyse, des bases de données Pour analyser et tirer partie de ces océans de données, il existe plusieurs outils. Le relationnelles ou premier déjà cité est MapReduce. Les seconds sont les langages de requêtage ; la jeunesse NoSQL, une bonne des SGB/DD NoSQL fait qu’il n’y pas encore, comme le langage SQL pour les SGBD connaissance de son entreprise et de son relationnelles, de langage de requêtage universel : citons HiveQL pour Hadoop, CQL pour environnement, un Cassandra, SparQL pour Neo4J ou UnSQL dont l’ambition est justement de devenir le talent certain pour « SQL » des SGB/DD de données non structurées. Les troisièmes sont des applicatifs mettre en valeur son métiers comme tresata pour l’analyse de données financiers. Les quatrièmes sont les travail d’analyse et le vendre auprès de ses logiciels de BI (Business Intelligence) adapté au Big Data, proposés par Jaspersoft, Pentaho commanditaires. ou Tableau Software. Une cinquième catégorie, utilisant la technologie du « machine learning » (apprentissage automatique), émerge en promettant des traitements très courts. Ces outils sont édités par Skytree, bigml, precog ou prior Knowledge Inc. LES ACTEURS Si l’Open Source joue un rôle fondamental dans le développement du Big Data, en TM particulier à travers la fondation Apache , et bien que le marché du Big Data soit récent, les majors du secteur IT l’ont très vite investi. Elles n’ont pas hésité à acquérir de jeunes sociétés pour renforcer leur position. Greenplum est devenue la filiale dédiée « Big Data » 2 de EMC , Aster Data celle de Teradata et Vertica de HP. Netezza, fournisseur d’appliances, est venue compléter l’offre d’IBM. Si ces grands groupes se positionnent sur l’ensemble de la chaine de valeur, de nombreuses start-ups se positionnent sur le service ou les solutions verticales. En effet, la mise en œuvre d’un projet « Big Data » est encore loin du « plug & play » et nécessite des compétences très variées que peu d’entreprises ont en leur sein : mathématiciens, statisticiens, informaticiens, techniciens rompus à l’installation et au paramétrage des différentes briques logicielles, spécialistes métiers. Dans le paysage français, Altic, Hurence ou Squid solutions accompagnent leurs clients dans l’ingénierie projet. mfg labs et Semiocast proposent à leurs clients d’utiliser le Big Data pour tirer partie des échanges sur les réseaux sociaux. 5 http://nosql-database.org/
  • 3.
    3 LE MARCHÉ 6 7 Les prévisions pour l’année 2012 vont de 1,5 milliards à 5 milliards de Chiffre d’affaires. Il est à noter que l’ensemble des pure players ne représente encore que moins d’1% de ce C.A.. Pour les 5 années à venir, Wikibon prévoit une croissance à 2 chiffres du C.A., pour atteindre plus de 50 milliards de $ en 2017. AGENDA Prévisions C.A. 2012-2017 BIG DATA 2012 PARIS : 1ère édition du salon les 20 et 21 mars. Big Data Conference 2012 WASHINGTON: Applications & Analytics For Defense, Intelligence and Homeland Security, les 8 et 9 mai. Big Data World EUROPE 2012 LONDON: How to store, analyse and use data – for all businesses, les 19 et 20 septembre. STRATA CONFERENCE 2012 2 - Source: Wikibon, “Big Data Market Size and Vendor Revenues”, Février 2012 NEW YORK: Making Data QUELQUES CAS D’USAGE Work, du 23 au 25 octobre 1. Médical BIG DATA FORUM La société CardioDX a développé un test sanguin qui détecte les maladies coronariennes. 2012PARIS: Business Ce test a été conçu grâce à l’identification des 23 gènes précurseurs après plusieurs milliers Intelligence, Customer and Social Data Analytics, les 6 d’analyses de plus de 100 millions de séquences génétiques. et 7 novembre. 2. Distribution WalmartLabs a créé Social Genome, une plateforme technologique capable d’analyser en temps réel des données provenant des réseaux sociaux (Tweeter, Facebook, Foursquare) afin de pousser des recommandations produits aux clients. 3. Enchères en ligne Ebay améliore la pertinence des résultats de son moteur de recherche, même en cas d’erreur de frappe ou d’orthographe, grâce à l’analyse temps réel de son entrepôt de données de 10 pétaoctets. 4. Réservation hôtelière en ligne Expédia maintient en temps réel une base de données de plus de 2 milliards de prix pour 140 000 hôtels pour permettre aux internautes d’effectuer en ligne leurs réservations au meilleur coût. 5. Web analytics Google Analytics archive l’ensemble des données collectées par le code JavaScript placé dans les pages surveillées dans des tables BigTable pour les restituer après traitement dans les tableaux de bord de ses clients. 6 Deloitte, « Technology, Media and Telecommunications Predictions 2012 », janvier 2012, http://www.deloitte.com/assets/Dcom- Canada/Local%20Assets/Documents/TMT/ca_en_tmt_Predictions2012_011712.pdf 7 Wikibon, “Big Data Market Size and Vendor Revenues”, Février 2012, http://wikibon.org/wiki/v/Big_Data_Market_Size_and_Vendor_Revenues
  • 4.
    4 EuraTech Trends Retrouvez-nous sur le Web! www.euratechnologies.com