Big Data : buzz ou opportunité ?

604 vues

Publié le

Big data est un sujet d'actualité! Dans cette session, nous reviendrons sur ce que l'on entend par Big Data, où ce sujet trouve sa source et quelles ont été les premières approches. Nous verrons ensuite des projets actuellement menés par Microsoft sur ce domaine.

Publié dans : Technologie
0 commentaire
1 j’aime
Statistiques
Remarques
  • Soyez le premier à commenter

Aucun téléchargement
Vues
Nombre de vues
604
Sur SlideShare
0
Issues des intégrations
0
Intégrations
1
Actions
Partages
0
Téléchargements
25
Commentaires
0
J’aime
1
Intégrations 0
Aucune incorporation

Aucune remarque pour cette diapositive

Big Data : buzz ou opportunité ?

  1. 1. palais descongrèsParis7, 8 et 9février 2012
  2. 2. Big DataBuzz ou opportunité pour les entreprises ?Code Session : RDI203Bernard OurghanlianDirecteur Technique et SécuritéMicrosoft France
  3. 3. In 2011, the amount of information created and replicatedwill surpass 1.8 zettabytes (1.8 trillion gigabytes) -growing by a factor of 9 in just five years. […] and morethan doubling every two years. Thats nearly as many bitsof information in the digital universe as stars in ourphysical universe. John Gantz and David Reinsel Extracting Value from Chaos
  4. 4. Explosion généralisée desdonnées ―[by 2020] data use is ―Flickr members ―AT&T has about 19 ―We now have well expected to grow by upload more than petabytes of data over a thousand as much as 44 3,000 images every transferred through customers in the ever- minute, and yesterday their networks each growing EMC times, amounting to yeoaaron uploaded day.‖ Petabyte Club. some 35.2ZB the five billionth They—or frequently (zettabytes—a billion photo…‖ many more— terabytes) globally.‖ petabytes of EMC storage in production. By 2012 or so, were forecasting that well have to start a new, informal club— the EMC Exabyte Club.‖
  5. 5. La nature changeante de larecherche Des milliers d’années auparavant – Science expérimentale  Description des phénomènes naturels Les quelques derniers siècles – Science théorique . 2  Lois de Newton, équations de Maxwell a 4 G c2 a2 Les dernières décennies – Science computationnelle a 3  Simulation de phénomènes complexes Aujourd’hui – Science centrée sur les données  Unifier la théorie, l’expérience et la simulation  En utilisant l’exploration et la fouille de données  Données capturées par des instruments  Données générées par des simulations  Données générées par des réseaux de capteurs  Données générées par les humains
  6. 6. Le quatrième paradigme Modèles complexes  Interactions multidisciplinaires  Larges échelles temporelles et spatiales Large ensemble de données multidisciplinaires  Flux temps réel  Structuré et non structuré Communautés distribuées  Organisations virtuelles  Socialisation et management Diverses attentes  Centrées client ou infrastructure http://research.microsoft.com/en-us/collaboration/fourthparadigm/
  7. 7. Pourtant, Big Data ce n’est pasque cela… Il y d’autres dimensions au phénomène Big Data…4/10/201
  8. 8. Les besoins en diminution de temps delatence augmentent de plus en plus Réordonnancer la flotte Contrôle réglementaire Opérations, Administration et maintenance Transactionnel OLTP Contrôle de niveau de service Value At Risk 0 micro- milli- seconde minute heure jour semaine • Le temps effectif pour comprendre a été considérablement réduit • Poussé par des facteurs réglementaires et de calcul de risque dans de nombreuses industries
  9. 9. La hiérarchie de laconnaissance Structure / Valeur Compréhension Connaissance Action Valeur Information Donnée Signal Nous voulons transformer le « signal » en « valeur » Effort / Latence
  10. 10. Cycle de vie standard del’analyse de données (Entrepôtde données)Temps  Souvent des semaines voire des mois
  11. 11. Le cycle de vie de l’analyse dedonnées en environnement BigData Temps  Jours à semaines
  12. 12. La hiérarchie de laconnaissance Structure / Valeur Connaissance Information Donnée Signal Effort / Latence
  13. 13. Objectif : Repenser l’équation signal –valeur • Trouver une nouvelle valeur Structure / Valeur • Réduire de façon spectaculaire Connaissance le temps de création de valeur Valeur Information Donnée Ceci n’a pas grand-chose à voir avec la taille de la donnée ! … mais … de nouveaux signaux peuvent se Signal trouver dans les « données ambiantes » Effort / Latence
  14. 14. Perspicacité et création de sens Perspicacité 1. La capacité à discerner la véritable nature dune situation ; la pénétration. 2. Lacte ou le résultat de saisir la nature intime ou cachée des choses ou de percevoir d’une manière intuitive. Création de sens Le processus par lequel les individus (ou les organisations) créent une compréhension afin quils puissent agir de façon raisonnée et éclairée.
  15. 15. Création de sens sur un plus largespectre Les systèmes existants permettent de donner du sens à des données Structure / Valeur modélisées Connaissance Information Donnée Signal Il y a une énorme valeur potentielle dans le fait de donner un sens aux données ambiantes Effort / Latence
  16. 16. Le rôle des technologies « BigData » Les technologies « Big Data » tout à la fois recréent et complémentent les workflows d’analyse existants en :  Simplifiant la production d’information structurée à partir de sources de données « ambiantes » émergentes (Signal  Donnée  Information)  Permettant rapidement la création de sens à partir de données non enrichies et non modélisées  Permettant l’analyse à l’échelle sur des données « ambiantes »  Permettant la création de modèles à partir de données « ambiantes »
  17. 17. Le monde des données(relationelles) est en train dechanger Passage à Temps réel l’échelle Relational Data Non Scructurées
  18. 18. Qu’est-ce que Big Data ? Types de données Gros volume de données  100aine TO à 10aine de PO Nouvelles questions et non traditionnelles nouvelles inférences  Non structurées  Quelle est la popularité de mon produit ?  Schéma relationnel faible  Quelle est la meilleure publicité à servir ?  Texte, Images, Vidéos, Logs  Est-ce une transaction frauduleuse ? Big Data Nouvelles Technologies  Cadre de traitement distribué Nouvelles sources de parallèle  Facile à faire passer à Nouvelle économie données  Capteurs l’échelle sur du hardware  Traitement à large échelle et  Terminaux standard analyse à un coût sans  Applications traditionnelles  Modèles de programmation précédent (hardware et  Serveurs Web de style MapReduce software)  Données publiques
  19. 19. Qu’est-ce que Big Data ? Big Data consiste avant tout à réduire le tempspour comprendre en permettant aux utilisateurs de poser des questions ad-hoc sur des données non structurées et souvent mal comprises
  20. 20. Les pionniers de Big Data :Twitter Problème : Exemple : Twitter Concepts clés :  Stocke 12 TO de données/jour  Stocke les données telles quelles ; • Nécessité de stocker de  Analyse pour : les conserve comme des fichiers très grands volumes de journaux non structurés, n’essaye TENDANCES : nouvelles données tous Justin Bieber pas de les analyser et de les stocker dans un entrepôt de données les jours Egypt • Nécessité de fournir plus Snowpocalypse  Traite des très gros volumes de données rapidement grâce à des de valeur que de REPERTITION GEOGRAPHIQUE : requêtes ad-hoc et programmées seulement stocker et retrouver les tweets Ramifications: QU INFLUENCE RETWEETS? • Dans un mode de tweeters et d’analyse rapide, Twitter peut fournir une meilleure alerte IDENTIFICATION DES SPAMS : • Akshf#$/lajsdf précoce pour un conflit régional ou une épidémie qu’une surveillance classique
  21. 21. Systèmes de gestion desrisques Problème : • La surveillance et lesQUE POUVEZ-VOUS VRAIMENT ESPERER DE VOTRE simulations fournissent unePORTEFEUILLE ? grande quantité de données utiles pour la gestion des risques mais il est impossible SIMULATION DU PERTES FUTURES PORTEFEUILLE de les traiter toutes DOMMAGE ATTENDUES ASSURE PREVISIONNEL • Prix des contrats, gestion • Millions • +20 milliards de risque, affectation de d’emplacements d’évaluations de capital, structure prix du avec des risque transfert de paramètres risque, conformité affectant la stabilité réglementaire structurelle • Requêtes complexes basées sur les contrats actuels Ramifications: MODELE DE CATASTROPHE • La possibilité d’exécuter des centaines de Simulations de douzaines de simulations sur une douzaine de types de périls et types de périls dans différentes de calculer le risque pour chaque adresse zones géographiques individuelle dans un portefeuille
  22. 22. Analyse de SentimentQUI A DIT QUOI ? QUAND ? OU ? POURQUOI ? Problème : • Les conversations client peuvent Sentiment survenir n’importe où et les propos négatifs peuvent rapidement « partir en vrille » Blogs REPARTITION REPARTITION Twitter GÉOGRAPHIQUE DÉMOGRAPHIQUE Facebook Ramifications : • Une analyse de sentiment en temps réel vous News permet de non seulement connaitre ce qui a été dit mais aussi qui l’a dit, vous fournissant YouTube ainsi les informations dont vous avez besoin pour participer à la conversation
  23. 23. Scénarios clients Big Data Industrie Scénario  Modélisation des risques  Analyse des menaces Services financiers  Détection des fraudes  Surveillance du trading  Analyse et notation de crédit  Moteurs de recommandation  Ciblage publicitaire Web & E-Tailing  Qualité de la recherche  Détection des abus et de la fraude au clic  Analyse des transactions du point de vente Distribution  Taux de roulement des clients  Analyse de sentiment  Prévention des désabonnements  Optimisation des performances réseau Télécommunications  Analyse des détails des appels  Analyse de réseau pour prédire les défaillances Gouvernement  Détection de fraude et cyber-sécurité Général  ETL et moteur de traitement
  24. 24. Stratégie Big Data de Microsoft Se connecter facilement • Données privées, publiques et dérivées au monde des données • Données Microsoft Se connecter aux • Management intégré, qualité des données structurées et données, nettoyage, outils ETL non structurées • Connecteurs pour déplacement de données • Utilisation des outils BI familiers La BI pour tous (Excel, Power*) Nouvelles expériences • Visualisation des données d’analyse • Analyse prédictive
  25. 25. Microsoft Big DataAccessible à tous les utilisateurs ensupportant de nouveaux types de données
  26. 26. Hadoop : la face visible de Big Data Permet l’analyse de données semi et non cructurées distribuées sur un cluster standard Basé sur le papier MapReduce de Google et sur le Google File system (GFS) Programs = Séquence de tâches « map » et « reduce » Simplifie l’écriture d’applications distribuées Hautement tolérante aux pannes – copies multiples Déplace les calculs au plus près des données Implémenté en Java et optimisé pour Linux 33
  27. 27. L’écosystème Hadoop HBase / Cassandra Oozie Outils BI traditionnels (Bases de données orientées colonnes (Workflow) et NoSQL) Hive Karmasphere Pig (Data Flow) (Warehouse and (Outil de Apache Mahout Flume Sqoop Data Access) développement) Zookeeper (Coordination) Avro (Sérialisation) HBase (Base de données orientée colonne) MapReduce (Ordonnancement des tâches / Système d’Exécusion) Hadoop = MapReduce + HDFS HDFS (Hadoop Distributed File System)
  28. 28. Stratégie Hadoop Microsoft Notre propre distribution de Hadoop Optimisée pour Windows et Azure Focalisation sur les développeurs .NET Differentiation à travers • Performance et passage à l’échelle le support de • Haute disponibilité l’entreprise • Facilité d’utilisation
  29. 29. Hadoop as a Service : AzureElastic Map Reduce Facturation basée sur la tâche Facile à administrer Pas d’installation Support d’une large variété de types de jobs  Machine Learning (mahout), Graph Mining (Pegasus), HIVE, Pig, Java, JS, etc. IHM grandement simplifiée GO Bon marché Rapide
  30. 30. Hadoop sur Windows et Azure
  31. 31. Exemple : Big Data chez Yahoo! Cas d’usage : Analyse d’un très gros volume de données non structurées en provenance de journaux Web SSAS Cube de 24 TO Analyse ad hoc des journaux Web pour prototyper des patterns Les données Hadoop alimentent un gros cube de 24 TO
  32. 32. Hadoop sur Windows BIG DATA Démocratiser Big Data via l’intégration avec l’offre BI de Microsoft POUR TOUS Fournir de nouveaux services Big Data à valeur ajoutée pour les DIFFERENTIATION développeurs PRÊT POUR Choix du déploiement sur Windows Server + Windows Azure L’ENTERPRISE Intégration avec les composants Windows (AD, System Center) Installation et configuration faciles d’Hadoop sur Windows ACCES PLUS Programmation simplifiée avec l’intégration de .Net et Javascript LARGE Intégration avec les fonctionnalités de Data Warehousing de SQL Server Contributions proposées en retour à la communauté
  33. 33. Les annonces Big Data lors dePASS BIG DATA Driver ODBC pour Hive et Add-in Hive pour Excel POUR TOUS Intégration avec Microsoft PowerPivot PRÊT POUR Distribution Hadoop pour Windows Server et Azure L’ENTERPRISE Partenariat stratégique avec Hortonworks ACCES PLUS Framework JavaScript pour Hadoop LARGE Disponibilité de la version finale des connecteurs Hadoop pour SQL Server et PDW
  34. 34. Vision : Créer une nouvelleplateforme de données Big Data OPERATIONELLE MOBILE SELF-SERVICE ANALYSE TEMPS-REEL PREDICTIVE COLLABORATIVE ENRICHISSEMENT DES DONNEES ET PLACE DE MARCHE DECOUVRIR TRANSFORMER PARTAGER ET ET ET RECOMMANDER NETTOYER GOUVERNER GESTION DES DONNEES RELATIONNEL NON RELATIONNEL MULTIDIMENSIONNEL STREAMING
  35. 35. Solution Big Data de Microsoft Power View Excel avec Analyse prédictive BI intégré Outils utilisateur final familiers PowerPivot SSAS SSRS Platerfome BI Hadoop Connecteurs SQL Server Capteurs Terminaux Bots Crawlers ERP CRM LOB APPs Données non structurées et stucturées
  36. 36. Hadoop sur WindowsCoeur d’Hadoop Hadoop HDFS Hadoop Common (utilitaires, sécurité, sérialisation des flux) Moteur MapReduce HadoopProgrammer et Apache Pigrequêter Apache Hive (y compris le support de Thrift) Framework Javascript et Webshell for Hadoop Kit Azure (pour Visual Studio)Clustering & Déploiement Cluster et outil d’installationManagement Surveillance et management du cluster basé web standard d’Hadoop Portail Azure pour Elastic Map Reduce (intégré avec le portail Azure)Drivers & Driver ODBC HiveConnectors Add-in Excel Hive pour Microsoft Office Connecteur Apache SQOOP pour SQL Server et PDWInstallers & MSI pour les composants Serveur (Hadoop et systèmes reliés) (MSI)Loaders MSI pour les composants Client (Driver Hive et Add-in, Kit Azure Kit pour VS Moteurs de chargement en volume FTP et HTTP
  37. 37. MERCI !
  38. 38. Microsoft France39, quai du président Roosevelt 92130 Issy-Les-Moulineaux www.microsoft.com/france

×