palais des
congrès
Paris



7, 8 et 9
février 2012
Big Data
Buzz ou opportunité pour les entreprises ?
Code Session : RDI203

Bernard Ourghanlian
Directeur Technique et Sécurité
Microsoft France
In 2011, the amount of information created and replicated
will surpass 1.8 zettabytes (1.8 trillion gigabytes) -
growing by a factor of 9 in just five years. […] and more
than doubling every two years. That's nearly as many bits
of information in the digital universe as stars in our
physical universe.

                                 John Gantz and David Reinsel
                                  Extracting Value from Chaos
Explosion généralisée des
données

 ―[by 2020] data use is   ―Flickr members         ―AT&T has about 19    ―We now have well
 expected to grow by      upload more than        petabytes of data     over a thousand
 as much as 44            3,000 images every      transferred through   customers in the ever-
                          minute, and yesterday   their networks each   growing EMC
 times, amounting to
                          yeoaaron uploaded       day.‖                 Petabyte Club.
 some 35.2ZB              the five billionth                            They—or frequently
 (zettabytes—a billion    photo…‖                                       many more—
 terabytes) globally.‖                                                  petabytes of EMC
                                                                        storage in production.
                                                                        By 2012 or so, we're
                                                                        forecasting that we'll
                                                                        have to start a
                                                                        new, informal club—
                                                                        the EMC Exabyte
                                                                        Club.‖
La nature changeante de la
recherche
  Des milliers d’années auparavant – Science expérimentale
     Description des phénomènes naturels
  Les quelques derniers siècles – Science théorique          .   2

     Lois de Newton, équations de Maxwell                   a       4 G   c2
                                                                           a2
  Les dernières décennies – Science computationnelle         a         3

     Simulation de phénomènes complexes
  Aujourd’hui – Science centrée sur les données
     Unifier la théorie, l’expérience et la simulation
     En utilisant l’exploration et la fouille de données
           Données capturées par des instruments
           Données générées par des simulations
           Données générées par des réseaux de capteurs
           Données générées par les humains
Le quatrième paradigme
  Modèles complexes
      Interactions multidisciplinaires
      Larges échelles temporelles et spatiales
  Large ensemble de données
  multidisciplinaires
      Flux temps réel
      Structuré et non structuré
  Communautés distribuées
      Organisations virtuelles
      Socialisation et management
  Diverses attentes
      Centrées client ou infrastructure


       http://research.microsoft.com/en-us/collaboration/fourthparadigm/
Pourtant, Big Data ce n’est pas
que cela…

       Il y d’autres dimensions au phénomène
                        Big Data…




4/10/201
Les besoins en diminution de temps de
latence augmentent de plus en plus
                                                            Réordonnancer la flotte


                                                                  Contrôle réglementaire

                                                             Opérations, Administration
                                                                        et maintenance
                               Transactionnel
                                         OLTP                    Contrôle de
                                                            niveau de service
                                                                        Value At
                                                                            Risk

                0     micro-    milli-   seconde   minute       heure       jour      semaine

  •   Le temps effectif pour comprendre a été considérablement réduit
  •   Poussé par des facteurs réglementaires et de calcul de risque dans de
      nombreuses industries
La hiérarchie de la
connaissance
  Structure / Valeur

                                                                                 Compréhension
                                                           Connaissance
                                                                                       Action
                                                                                       Valeur
                                            Information
                                Donnée
                       Signal   Nous voulons transformer le « signal » en « valeur »



                                      Effort / Latence
Cycle de vie standard de
l’analyse de données (Entrepôt
de données)



Temps 

          Souvent des semaines voire des mois
Le cycle de vie de l’analyse de
données en environnement Big
Data



       Temps 

                 Jours à semaines
La hiérarchie de la
connaissance
  Structure / Valeur


                                                       Connaissance

                                         Information
                                Donnée
                       Signal

                                   Effort / Latence
Objectif : Repenser l’équation signal –
valeur
                                                                 • Trouver une nouvelle valeur
  Structure / Valeur

                                                                 • Réduire de façon spectaculaire
                           Connaissance                            le temps de création de valeur
                                                    Valeur
                        Information

                         Donnée       Ceci n’a pas grand-chose à voir avec la taille de la donnée !

                                           … mais … de nouveaux signaux peuvent se
                       Signal              trouver dans les « données ambiantes »


                                            Effort / Latence
Perspicacité et création de sens
 Perspicacité
 1. La capacité à discerner la véritable nature d'une situation ; la pénétration.
 2. L'acte ou le résultat de saisir la nature intime ou cachée des choses ou de
    percevoir d’une manière intuitive.



     Création de sens
     Le processus par lequel les individus (ou les organisations) créent une
     compréhension afin qu'ils puissent agir de façon raisonnée et éclairée.
Création de sens sur un plus large
spectre                        Les systèmes existants permettent
                                                        de donner du sens à des données
   Structure / Valeur

                                                        modélisées

                                                      Connaissance
                                          Information
                                 Donnée
                        Signal            Il y a une énorme valeur potentielle dans le
                                          fait de donner un sens aux données ambiantes

                                      Effort / Latence
Le rôle des technologies « Big
Data »
   Les technologies « Big Data » tout à la fois recréent et
    complémentent les workflows d’analyse existants en :
      Simplifiant la production d’information structurée à partir de
       sources de données « ambiantes » émergentes (Signal 
       Donnée  Information)
      Permettant rapidement la création de sens à partir de
       données non enrichies et non modélisées
      Permettant l’analyse à l’échelle sur des données
       « ambiantes »
      Permettant la création de modèles à partir de données

       « ambiantes »
Le monde des données
(relationelles) est en train de
changer
                                      Passage à
     Temps réel                        l’échelle

                    Relational Data




                  Non Scructurées
Qu’est-ce que Big Data ?

      Types de données               Gros volume de données
                                      100aine TO à 10aine de PO
                                                                             Nouvelles questions et
      non traditionnelles
                                                                              nouvelles inférences
     Non structurées                                                   Quelle est la popularité de mon produit ?
     Schéma relationnel faible                                         Quelle est la meilleure publicité à servir ?
     Texte, Images, Vidéos, Logs                                       Est-ce une transaction frauduleuse ?
                                            Big Data

   Nouvelles Technologies
    Cadre de traitement distribué
                                                                                 Nouvelles sources de
     parallèle
    Facile à faire passer à             Nouvelle économie                            données
                                                                             Capteurs
     l’échelle sur du hardware        Traitement à large échelle et         Terminaux
     standard                          analyse à un coût sans                Applications traditionnelles
    Modèles de programmation          précédent (hardware et                Serveurs Web
     de style MapReduce                software)                             Données publiques
Qu’est-ce que Big Data ?

  Big Data consiste avant tout à réduire le temps
pour comprendre en permettant aux utilisateurs de
   poser des questions ad-hoc sur des données
          non structurées et souvent mal
                     comprises
Les pionniers de Big Data :
Twitter
  Problème :                      Exemple : Twitter                    Concepts clés :
                                       Stocke 12 TO de données/jour    Stocke les données telles quelles ;
  •   Nécessité de stocker de          Analyse pour :                   les conserve comme des fichiers
      très grands volumes de                                             journaux non structurés, n’essaye
                                          TENDANCES :
      nouvelles données tous               Justin Bieber
                                                                         pas de les analyser et de les stocker
                                                                         dans un entrepôt de données
      les jours                            Egypt

  •   Nécessité de fournir plus            Snowpocalypse                  Traite des très gros volumes de
                                                                           données rapidement grâce à des
      de valeur que de            REPERTITION GEOGRAPHIQUE :               requêtes ad-hoc et programmées
      seulement stocker et
      retrouver les tweets                                             Ramifications:
                                      QU INFLUENCE RETWEETS?           •   Dans un mode de tweeters et
                                                                           d’analyse rapide, Twitter peut
                                                                           fournir une meilleure alerte
                                      IDENTIFICATION DES SPAMS :
                                        • Akshf#$/lajsdf
                                                                           précoce pour un conflit régional
                                                                           ou une épidémie qu’une
                                                                           surveillance classique
Systèmes de gestion des
risques
  Problème :
  •   La surveillance et les
QUE POUVEZ-VOUS VRAIMENT ESPERER DE VOTRE
    simulations fournissent une
PORTEFEUILLE ?
    grande quantité de données
      utiles pour la gestion des
      risques mais il est impossible   SIMULATION DU        PERTES FUTURES                 PORTEFEUILLE
      de les traiter toutes            DOMMAGE              ATTENDUES                      ASSURE
                                       PREVISIONNEL         • Prix des contrats, gestion   • Millions
                                       • +20 milliards        de risque, affectation de      d’emplacements
                                         d’évaluations de     capital, structure prix du     avec des
                                         risque               transfert de                   paramètres
                                                              risque, conformité             affectant la stabilité
                                                              réglementaire                  structurelle
                                                            • Requêtes complexes
                                                              basées sur les contrats
                                                              actuels

                                       Ramifications:
  MODELE DE CATASTROPHE
                                       •   La possibilité d’exécuter des centaines de
  Simulations de douzaines de              simulations sur une douzaine de types de périls et
  types de périls dans différentes         de calculer le risque pour chaque adresse
  zones géographiques                      individuelle dans un portefeuille
Analyse de Sentiment
QUI A DIT QUOI ? QUAND ? OU ? POURQUOI ?
  Problème :
  •   Les conversations client peuvent                          Sentiment
      survenir n’importe où et les propos
      négatifs peuvent rapidement « partir en
      vrille »
                Blogs


                                                      REPARTITION                   REPARTITION
                Twitter                              GÉOGRAPHIQUE                 DÉMOGRAPHIQUE



                Facebook

                                                Ramifications :
                                                •   Une analyse de sentiment en temps réel vous
                News
                                                    permet de non seulement connaitre ce qui a
                                                    été dit mais aussi qui l’a dit, vous fournissant
                YouTube                             ainsi les informations dont vous avez besoin
                                                    pour participer à la conversation
Scénarios clients Big Data
            Industrie                                          Scénario
                           Modélisation des risques
                           Analyse des menaces
 Services financiers       Détection des fraudes
                           Surveillance du trading
                           Analyse et notation de crédit
                           Moteurs de recommandation
                           Ciblage publicitaire
 Web & E-Tailing           Qualité de la recherche
                           Détection des abus et de la fraude au clic
                           Analyse des transactions du point de vente
 Distribution              Taux de roulement des clients
                           Analyse de sentiment
                           Prévention des désabonnements
                           Optimisation des performances réseau
 Télécommunications        Analyse des détails des appels
                           Analyse de réseau pour prédire les défaillances

 Gouvernement              Détection de fraude et cyber-sécurité

 Général                   ETL et moteur de traitement
Stratégie Big Data de Microsoft

   Se connecter facilement   •   Données privées, publiques et dérivées
   au monde des données      •   Données Microsoft

  Se connecter aux           •   Management intégré, qualité des
  données structurées et         données, nettoyage, outils ETL
  non structurées            •   Connecteurs pour déplacement de données

                             •   Utilisation des outils BI familiers
  La BI pour tous                (Excel, Power*)

  Nouvelles expériences      • Visualisation des données
  d’analyse                  • Analyse prédictive
Microsoft Big Data
Accessible à tous les utilisateurs en
supportant de nouveaux types de données
Hadoop : la face visible de Big Data
           Permet l’analyse de données semi et non cructurées distribuées sur un cluster standard



 Basé sur le papier MapReduce de Google et sur le Google
 File system (GFS)
 Programs = Séquence de tâches « map » et « reduce »
 Simplifie l’écriture d’applications distribuées
 Hautement tolérante aux pannes – copies multiples
 Déplace les calculs au plus près des données
 Implémenté en Java et optimisé pour Linux




                                                                                                    33
L’écosystème Hadoop
                                                                                                                  HBase / Cassandra
                                          Oozie
                                                                          Outils BI traditionnels        (Bases de données orientées colonnes
                                        (Workflow)
                                                                                                                      et NoSQL)


                                                    Hive            Karmasphere
                            Pig (Data Flow)    (Warehouse and         (Outil de         Apache Mahout        Flume                Sqoop
                                                 Data Access)      développement)
 Zookeeper (Coordination)




                                                                                                                                                Avro (Sérialisation)
                                   HBase (Base de données orientée colonne)


                                                      MapReduce (Ordonnancement des tâches / Système d’Exécusion)

                                                                Hadoop = MapReduce + HDFS
                                                                                  HDFS
                                                                      (Hadoop Distributed File System)
Stratégie Hadoop Microsoft

   Notre propre
   distribution de Hadoop
   Optimisée pour
   Windows et Azure
   Focalisation sur les
   développeurs .NET
   Differentiation à travers   • Performance et passage à l’échelle
   le support de               • Haute disponibilité
   l’entreprise                • Facilité d’utilisation
Hadoop as a Service : Azure
Elastic Map Reduce
  Facturation basée sur la tâche
  Facile à administrer
  Pas d’installation
  Support d’une large variété de types de jobs
    Machine Learning (mahout), Graph Mining (Pegasus),
     HIVE, Pig, Java, JS, etc.
  IHM grandement simplifiée
                                                   GO
      Bon marché                       Rapide
Hadoop sur Windows et Azure
Exemple : Big Data chez Yahoo!

                              Cas d’usage :
                                    Analyse d’un très gros volume de
                                    données non structurées en
                                    provenance de journaux Web
       SSAS   Cube de 24 TO
                                    Analyse ad hoc des journaux Web
                                    pour prototyper des patterns
                                    Les données Hadoop alimentent
                                    un gros cube de 24 TO
Hadoop sur Windows

                    BIG DATA        Démocratiser Big Data via l’intégration avec l’offre BI de Microsoft
                   POUR TOUS        Fournir de nouveaux services Big Data à valeur ajoutée pour les
 DIFFERENTIATION




                                    développeurs

                    PRÊT POUR       Choix du déploiement sur Windows Server + Windows Azure
                   L’ENTERPRISE     Intégration avec les composants Windows (AD, System Center)


                                    Installation et configuration faciles d’Hadoop sur Windows
                   ACCES PLUS       Programmation simplifiée avec l’intégration de .Net et Javascript
                     LARGE
                                    Intégration avec les fonctionnalités de Data Warehousing de SQL
                                    Server
                     Contributions proposées en retour à la communauté
Les annonces Big Data lors de
PASS
  BIG DATA      Driver ODBC pour Hive et Add-in Hive pour Excel
 POUR TOUS      Intégration avec Microsoft PowerPivot



  PRÊT POUR     Distribution Hadoop pour Windows Server et Azure
 L’ENTERPRISE   Partenariat stratégique avec Hortonworks


 ACCES PLUS     Framework JavaScript pour Hadoop
   LARGE        Disponibilité de la version finale des connecteurs Hadoop pour SQL
                Server et PDW
Vision : Créer une nouvelle
plateforme de données Big Data
                      OPERATIONELLE                      MOBILE
                       SELF-SERVICE     ANALYSE        TEMPS-REEL
                       PREDICTIVE                     COLLABORATIVE




               ENRICHISSEMENT DES DONNEES ET PLACE DE MARCHE
             DECOUVRIR                  TRANSFORMER                  PARTAGER
                ET                           ET                         ET
           RECOMMANDER                    NETTOYER                  GOUVERNER



                                  GESTION DES DONNEES



        RELATIONNEL        NON RELATIONNEL     MULTIDIMENSIONNEL         STREAMING
Solution Big Data de Microsoft
     Power View               Excel avec                   Analyse prédictive              BI intégré
                                      Outils utilisateur final familiers
                              PowerPivot




                                  SSAS                                     SSRS

                                               Platerfome BI




                      Hadoop                  Connecteurs

                                                                            SQL Server


     Capteurs     Terminaux      Bots         Crawlers
                                                               ERP         CRM       LOB          APPs
                              Données non structurées et stucturées
Hadoop sur Windows
Coeur d’Hadoop   Hadoop HDFS
                 Hadoop Common (utilitaires, sécurité, sérialisation des flux)
                 Moteur MapReduce Hadoop
Programmer et    Apache Pig
requêter         Apache Hive (y compris le support de Thrift)
                 Framework Javascript et Webshell for Hadoop
                 Kit Azure (pour Visual Studio)
Clustering &     Déploiement Cluster et outil d’installation
Management       Surveillance et management du cluster basé web standard d’Hadoop
                 Portail Azure pour Elastic Map Reduce (intégré avec le portail Azure)
Drivers &        Driver ODBC Hive
Connectors       Add-in Excel Hive pour Microsoft Office
                 Connecteur Apache SQOOP pour SQL Server et PDW
Installers &     MSI pour les composants Serveur (Hadoop et systèmes reliés) (MSI)
Loaders          MSI pour les composants Client (Driver Hive et Add-in, Kit Azure Kit pour VS
                 Moteurs de chargement en volume FTP et HTTP
MERCI !
Microsoft France
39, quai du président Roosevelt
  92130 Issy-Les-Moulineaux

 www.microsoft.com/france

Big Data : buzz ou opportunité ?

  • 1.
  • 2.
    Big Data Buzz ouopportunité pour les entreprises ? Code Session : RDI203 Bernard Ourghanlian Directeur Technique et Sécurité Microsoft France
  • 3.
    In 2011, theamount of information created and replicated will surpass 1.8 zettabytes (1.8 trillion gigabytes) - growing by a factor of 9 in just five years. […] and more than doubling every two years. That's nearly as many bits of information in the digital universe as stars in our physical universe. John Gantz and David Reinsel Extracting Value from Chaos
  • 4.
    Explosion généralisée des données ―[by 2020] data use is ―Flickr members ―AT&T has about 19 ―We now have well expected to grow by upload more than petabytes of data over a thousand as much as 44 3,000 images every transferred through customers in the ever- minute, and yesterday their networks each growing EMC times, amounting to yeoaaron uploaded day.‖ Petabyte Club. some 35.2ZB the five billionth They—or frequently (zettabytes—a billion photo…‖ many more— terabytes) globally.‖ petabytes of EMC storage in production. By 2012 or so, we're forecasting that we'll have to start a new, informal club— the EMC Exabyte Club.‖
  • 6.
    La nature changeantede la recherche Des milliers d’années auparavant – Science expérimentale  Description des phénomènes naturels Les quelques derniers siècles – Science théorique . 2  Lois de Newton, équations de Maxwell a 4 G c2 a2 Les dernières décennies – Science computationnelle a 3  Simulation de phénomènes complexes Aujourd’hui – Science centrée sur les données  Unifier la théorie, l’expérience et la simulation  En utilisant l’exploration et la fouille de données  Données capturées par des instruments  Données générées par des simulations  Données générées par des réseaux de capteurs  Données générées par les humains
  • 7.
    Le quatrième paradigme Modèles complexes  Interactions multidisciplinaires  Larges échelles temporelles et spatiales Large ensemble de données multidisciplinaires  Flux temps réel  Structuré et non structuré Communautés distribuées  Organisations virtuelles  Socialisation et management Diverses attentes  Centrées client ou infrastructure http://research.microsoft.com/en-us/collaboration/fourthparadigm/
  • 8.
    Pourtant, Big Datace n’est pas que cela… Il y d’autres dimensions au phénomène Big Data… 4/10/201
  • 9.
    Les besoins endiminution de temps de latence augmentent de plus en plus Réordonnancer la flotte Contrôle réglementaire Opérations, Administration et maintenance Transactionnel OLTP Contrôle de niveau de service Value At Risk 0 micro- milli- seconde minute heure jour semaine • Le temps effectif pour comprendre a été considérablement réduit • Poussé par des facteurs réglementaires et de calcul de risque dans de nombreuses industries
  • 10.
    La hiérarchie dela connaissance Structure / Valeur Compréhension Connaissance Action Valeur Information Donnée Signal Nous voulons transformer le « signal » en « valeur » Effort / Latence
  • 11.
    Cycle de viestandard de l’analyse de données (Entrepôt de données) Temps  Souvent des semaines voire des mois
  • 12.
    Le cycle devie de l’analyse de données en environnement Big Data Temps  Jours à semaines
  • 13.
    La hiérarchie dela connaissance Structure / Valeur Connaissance Information Donnée Signal Effort / Latence
  • 14.
    Objectif : Repenserl’équation signal – valeur • Trouver une nouvelle valeur Structure / Valeur • Réduire de façon spectaculaire Connaissance le temps de création de valeur Valeur Information Donnée Ceci n’a pas grand-chose à voir avec la taille de la donnée ! … mais … de nouveaux signaux peuvent se Signal trouver dans les « données ambiantes » Effort / Latence
  • 15.
    Perspicacité et créationde sens Perspicacité 1. La capacité à discerner la véritable nature d'une situation ; la pénétration. 2. L'acte ou le résultat de saisir la nature intime ou cachée des choses ou de percevoir d’une manière intuitive. Création de sens Le processus par lequel les individus (ou les organisations) créent une compréhension afin qu'ils puissent agir de façon raisonnée et éclairée.
  • 16.
    Création de senssur un plus large spectre Les systèmes existants permettent de donner du sens à des données Structure / Valeur modélisées Connaissance Information Donnée Signal Il y a une énorme valeur potentielle dans le fait de donner un sens aux données ambiantes Effort / Latence
  • 17.
    Le rôle destechnologies « Big Data » Les technologies « Big Data » tout à la fois recréent et complémentent les workflows d’analyse existants en :  Simplifiant la production d’information structurée à partir de sources de données « ambiantes » émergentes (Signal  Donnée  Information)  Permettant rapidement la création de sens à partir de données non enrichies et non modélisées  Permettant l’analyse à l’échelle sur des données « ambiantes »  Permettant la création de modèles à partir de données « ambiantes »
  • 18.
    Le monde desdonnées (relationelles) est en train de changer Passage à Temps réel l’échelle Relational Data Non Scructurées
  • 19.
    Qu’est-ce que BigData ? Types de données Gros volume de données  100aine TO à 10aine de PO Nouvelles questions et non traditionnelles nouvelles inférences  Non structurées  Quelle est la popularité de mon produit ?  Schéma relationnel faible  Quelle est la meilleure publicité à servir ?  Texte, Images, Vidéos, Logs  Est-ce une transaction frauduleuse ? Big Data Nouvelles Technologies  Cadre de traitement distribué Nouvelles sources de parallèle  Facile à faire passer à Nouvelle économie données  Capteurs l’échelle sur du hardware  Traitement à large échelle et  Terminaux standard analyse à un coût sans  Applications traditionnelles  Modèles de programmation précédent (hardware et  Serveurs Web de style MapReduce software)  Données publiques
  • 20.
    Qu’est-ce que BigData ? Big Data consiste avant tout à réduire le temps pour comprendre en permettant aux utilisateurs de poser des questions ad-hoc sur des données non structurées et souvent mal comprises
  • 21.
    Les pionniers deBig Data : Twitter Problème : Exemple : Twitter Concepts clés :  Stocke 12 TO de données/jour  Stocke les données telles quelles ; • Nécessité de stocker de  Analyse pour : les conserve comme des fichiers très grands volumes de journaux non structurés, n’essaye TENDANCES : nouvelles données tous Justin Bieber pas de les analyser et de les stocker dans un entrepôt de données les jours Egypt • Nécessité de fournir plus Snowpocalypse  Traite des très gros volumes de données rapidement grâce à des de valeur que de REPERTITION GEOGRAPHIQUE : requêtes ad-hoc et programmées seulement stocker et retrouver les tweets Ramifications: QU INFLUENCE RETWEETS? • Dans un mode de tweeters et d’analyse rapide, Twitter peut fournir une meilleure alerte IDENTIFICATION DES SPAMS : • Akshf#$/lajsdf précoce pour un conflit régional ou une épidémie qu’une surveillance classique
  • 22.
    Systèmes de gestiondes risques Problème : • La surveillance et les QUE POUVEZ-VOUS VRAIMENT ESPERER DE VOTRE simulations fournissent une PORTEFEUILLE ? grande quantité de données utiles pour la gestion des risques mais il est impossible SIMULATION DU PERTES FUTURES PORTEFEUILLE de les traiter toutes DOMMAGE ATTENDUES ASSURE PREVISIONNEL • Prix des contrats, gestion • Millions • +20 milliards de risque, affectation de d’emplacements d’évaluations de capital, structure prix du avec des risque transfert de paramètres risque, conformité affectant la stabilité réglementaire structurelle • Requêtes complexes basées sur les contrats actuels Ramifications: MODELE DE CATASTROPHE • La possibilité d’exécuter des centaines de Simulations de douzaines de simulations sur une douzaine de types de périls et types de périls dans différentes de calculer le risque pour chaque adresse zones géographiques individuelle dans un portefeuille
  • 23.
    Analyse de Sentiment QUIA DIT QUOI ? QUAND ? OU ? POURQUOI ? Problème : • Les conversations client peuvent Sentiment survenir n’importe où et les propos négatifs peuvent rapidement « partir en vrille » Blogs REPARTITION REPARTITION Twitter GÉOGRAPHIQUE DÉMOGRAPHIQUE Facebook Ramifications : • Une analyse de sentiment en temps réel vous News permet de non seulement connaitre ce qui a été dit mais aussi qui l’a dit, vous fournissant YouTube ainsi les informations dont vous avez besoin pour participer à la conversation
  • 24.
    Scénarios clients BigData Industrie Scénario  Modélisation des risques  Analyse des menaces Services financiers  Détection des fraudes  Surveillance du trading  Analyse et notation de crédit  Moteurs de recommandation  Ciblage publicitaire Web & E-Tailing  Qualité de la recherche  Détection des abus et de la fraude au clic  Analyse des transactions du point de vente Distribution  Taux de roulement des clients  Analyse de sentiment  Prévention des désabonnements  Optimisation des performances réseau Télécommunications  Analyse des détails des appels  Analyse de réseau pour prédire les défaillances Gouvernement  Détection de fraude et cyber-sécurité Général  ETL et moteur de traitement
  • 25.
    Stratégie Big Datade Microsoft Se connecter facilement • Données privées, publiques et dérivées au monde des données • Données Microsoft Se connecter aux • Management intégré, qualité des données structurées et données, nettoyage, outils ETL non structurées • Connecteurs pour déplacement de données • Utilisation des outils BI familiers La BI pour tous (Excel, Power*) Nouvelles expériences • Visualisation des données d’analyse • Analyse prédictive
  • 26.
    Microsoft Big Data Accessibleà tous les utilisateurs en supportant de nouveaux types de données
  • 27.
    Hadoop : laface visible de Big Data Permet l’analyse de données semi et non cructurées distribuées sur un cluster standard Basé sur le papier MapReduce de Google et sur le Google File system (GFS) Programs = Séquence de tâches « map » et « reduce » Simplifie l’écriture d’applications distribuées Hautement tolérante aux pannes – copies multiples Déplace les calculs au plus près des données Implémenté en Java et optimisé pour Linux 33
  • 28.
    L’écosystème Hadoop HBase / Cassandra Oozie Outils BI traditionnels (Bases de données orientées colonnes (Workflow) et NoSQL) Hive Karmasphere Pig (Data Flow) (Warehouse and (Outil de Apache Mahout Flume Sqoop Data Access) développement) Zookeeper (Coordination) Avro (Sérialisation) HBase (Base de données orientée colonne) MapReduce (Ordonnancement des tâches / Système d’Exécusion) Hadoop = MapReduce + HDFS HDFS (Hadoop Distributed File System)
  • 29.
    Stratégie Hadoop Microsoft Notre propre distribution de Hadoop Optimisée pour Windows et Azure Focalisation sur les développeurs .NET Differentiation à travers • Performance et passage à l’échelle le support de • Haute disponibilité l’entreprise • Facilité d’utilisation
  • 30.
    Hadoop as aService : Azure Elastic Map Reduce Facturation basée sur la tâche Facile à administrer Pas d’installation Support d’une large variété de types de jobs  Machine Learning (mahout), Graph Mining (Pegasus), HIVE, Pig, Java, JS, etc. IHM grandement simplifiée GO Bon marché Rapide
  • 31.
  • 32.
    Exemple : BigData chez Yahoo! Cas d’usage : Analyse d’un très gros volume de données non structurées en provenance de journaux Web SSAS Cube de 24 TO Analyse ad hoc des journaux Web pour prototyper des patterns Les données Hadoop alimentent un gros cube de 24 TO
  • 33.
    Hadoop sur Windows BIG DATA Démocratiser Big Data via l’intégration avec l’offre BI de Microsoft POUR TOUS Fournir de nouveaux services Big Data à valeur ajoutée pour les DIFFERENTIATION développeurs PRÊT POUR Choix du déploiement sur Windows Server + Windows Azure L’ENTERPRISE Intégration avec les composants Windows (AD, System Center) Installation et configuration faciles d’Hadoop sur Windows ACCES PLUS Programmation simplifiée avec l’intégration de .Net et Javascript LARGE Intégration avec les fonctionnalités de Data Warehousing de SQL Server Contributions proposées en retour à la communauté
  • 34.
    Les annonces BigData lors de PASS BIG DATA Driver ODBC pour Hive et Add-in Hive pour Excel POUR TOUS Intégration avec Microsoft PowerPivot PRÊT POUR Distribution Hadoop pour Windows Server et Azure L’ENTERPRISE Partenariat stratégique avec Hortonworks ACCES PLUS Framework JavaScript pour Hadoop LARGE Disponibilité de la version finale des connecteurs Hadoop pour SQL Server et PDW
  • 35.
    Vision : Créerune nouvelle plateforme de données Big Data OPERATIONELLE MOBILE SELF-SERVICE ANALYSE TEMPS-REEL PREDICTIVE COLLABORATIVE ENRICHISSEMENT DES DONNEES ET PLACE DE MARCHE DECOUVRIR TRANSFORMER PARTAGER ET ET ET RECOMMANDER NETTOYER GOUVERNER GESTION DES DONNEES RELATIONNEL NON RELATIONNEL MULTIDIMENSIONNEL STREAMING
  • 36.
    Solution Big Datade Microsoft Power View Excel avec Analyse prédictive BI intégré Outils utilisateur final familiers PowerPivot SSAS SSRS Platerfome BI Hadoop Connecteurs SQL Server Capteurs Terminaux Bots Crawlers ERP CRM LOB APPs Données non structurées et stucturées
  • 37.
    Hadoop sur Windows Coeurd’Hadoop Hadoop HDFS Hadoop Common (utilitaires, sécurité, sérialisation des flux) Moteur MapReduce Hadoop Programmer et Apache Pig requêter Apache Hive (y compris le support de Thrift) Framework Javascript et Webshell for Hadoop Kit Azure (pour Visual Studio) Clustering & Déploiement Cluster et outil d’installation Management Surveillance et management du cluster basé web standard d’Hadoop Portail Azure pour Elastic Map Reduce (intégré avec le portail Azure) Drivers & Driver ODBC Hive Connectors Add-in Excel Hive pour Microsoft Office Connecteur Apache SQOOP pour SQL Server et PDW Installers & MSI pour les composants Serveur (Hadoop et systèmes reliés) (MSI) Loaders MSI pour les composants Client (Driver Hive et Add-in, Kit Azure Kit pour VS Moteurs de chargement en volume FTP et HTTP
  • 38.
  • 39.
    Microsoft France 39, quaidu président Roosevelt 92130 Issy-Les-Moulineaux www.microsoft.com/france