HDInsight : Hadoop en environnement Microsoft

553 vues

Publié le

HDInsight est le portage de Apache Hadoop sur Windows Server et Windows Azure. Dans cette session, venez découvrir les différentes possibilités de Big Data, ainsi que la capacité de la machine à apprendre toute seule (machine learning). Nous montrerons des exemples liés aux réseaux sociaux.

Publié dans : Technologie
0 commentaire
1 j’aime
Statistiques
Remarques
  • Soyez le premier à commenter

Aucun téléchargement
Vues
Nombre de vues
553
Sur SlideShare
0
Issues des intégrations
0
Intégrations
4
Actions
Partages
0
Téléchargements
26
Commentaires
0
J’aime
1
Intégrations 0
Aucune incorporation

Aucune remarque pour cette diapositive
  • Notation
  • 11:00Intro Architecture / Azure / Cloud
  • @abolibibelot10’’
  • @abolibibelot1’30’’Mahout également
  • @benjguin30’’
  • @benjguin30’’
  • @benjguin1’
  • @abolibibelot10’’
  • @abolibibelot2’30’’
  • 11:08
  • @benjguin3’
  • @benjguin2’
  • @benjguin7’
  • @abolibibelot
  • @abolibibelot5’
  • @benjguin5’
  • 11:30
  • @abolibibelot2’
  • @abolibibelot30’’
  • @benjguin5’
  • @abolibibelot7’30’’
  • 11h45
  • @benjguin
  • 11:55(Word count en test unitaire C#)(http://channel9.msdn.com/Events/Build/2012/3-038)
  • @abolibibelot
  • Les blocs de couleurs sont éditables et peuvent reprendre la couleur du type de session qui est donnée.Idem pour les textes.
  • Les blocs de couleurs sont éditables et peuvent reprendre la couleur du type de session qui est donnée.
  • Les blocs de couleurs sont éditables et peuvent reprendre la couleur du type de session qui est donnée.
  • Les blocs de couleurs sont éditables et peuvent reprendre la couleur du type de session qui est donnée.
  • Last fall we announced a Big Data strategy that embraces Hadoop for activating this ambient data being born outside the traditional data platform. Hadoop is the open source implementation of MapReduce parallel computation engine and environment, and it's used (quite widely now) in the processing of streams of data that go well beyond even the largest enterprise data sets in size. Whether it’s sensor, clickstream, social media, location-based or other data that is generated and collected in large gobs, Hadoop is often on the scene in the service of processing and analyzing it. Here’s Microsoft’s Big Data strategy: Enterprise Ready – delivering an enterprise class implementation or distribution of Hadoop for Windows Server and Windows Azure, integrated with SQL Server 2012, Active Directory and System Center makes it dramatically easier, efficient and cost effective for your organization to capitalize on the opportunity Big Data can bring to your business.  And with the Hadoop distribution for Windows Azure, customers can instantly begin taking advantage of the benefits of Big Data without capital infrastructure or operational costs. Microsoft’s Big Data solution enables customers to connect to publicly available unstructured data from social media sites such as Twitter and Facebook. Delivering Insights for Everyone with MS BI – Through deep integration with BI (PowerPivot and PowerView) and EDW tools, Microsoft’s Big Data solution offers customers deep insights on all their structured and unstructured data with the tools they use every day.
  • Discover Data: Today, it is hard enough to find the right dataset within an organization, let alone outside it. A typical Analyst spends too much time searching for the right data from thousands of sources, which adversely impacts productivity. We will move from a world of search to one of discovery where information is brought to the user based on who you are, and what you are working on.We offer unique tools to facilitate discovery of data both within and outside an organization. An Azure Lab, codenamed “Data Explorer”, enables customers to discover relevant datasets through automatic recommendations, e.g. if an analyst is building a customer segmentation model for SMBs and selects a customer dataset, the tool can automatically recommend related datasets such as Dunn and Bradstreet with useful credit information. Another lab codenamed “Data Hub” enables an organization to create a private Data Market to facilitate discovery and sharing of data and analytical models. The Azure Marketplace Datamarket enables discovery and sharing outside the firewall and with 3rd party data sources.  
  • Les blocs de couleurs sont éditables et peuvent reprendre la couleur du type de session qui est donnée.
  • Les blocs de couleurs sont éditables et peuvent reprendre la couleur du type de session qui est donnée.
  • 8’Navigation dans SharePointSite d’administrationNavigation depuis Internetsi possible: basculement du SQL Server en databasemirroring
  • HDInsight : Hadoop en environnement Microsoft

    1. 1. Donnez votre avis !Depuis votre smartphone, sur :http://notes.mstechdays.frDe nombreux lots à gagner toutes les heures !!!Claviers, souris et jeux Microsoft…Merci de nous aider à améliorer les TechDayshttp://notes.mstechdays.fr
    2. 2. HDInsight : Hadoop en environnementMicrosoftArchitecture / Azure / CloudYann Schwartz BenjaminGuinebertièreArchitecte Conseiller technologiqueWindowsAzureShoppingAdventure MicrosoftFrancetwitter: @abolibibelot twitter: @benjguin
    3. 3. Windows Azure• HDInsight et Hadoop 8’• Réseaux sociaux 22’• Machine learning 15’• SSIS 10’• Hadoop et .NET 5’Plan
    4. 4. HDINSIGHT ET HADOOPChapitre 1Windows Azure
    5. 5. Windows AzureLes trois V du Big DataLe jeu de données ne tient pas sur une seule machineDes formats différentsDes options différentes pour l’interprétation des donnéesPetite fenêtre de décision comparée à la vitesse à laquelleles données changentUn grand nombre de données très rapidement (streaming)VolumeVélocitéVariété
    6. 6. Windows AzureL’écosystème Hadoop
    7. 7. Windows AzureHadoop à demeure et dans le cloudPlateforme Big Datad’entreprise à demeureDistribution à based’Hadoop sur WindowsServer avec MicrosoftHDInsightPlateforme Big Dataélastique dans lecloudService à base d’Hadoopsur Windows Azure avecHDInsight ServiceConnecteurs Hadoop pourSQL ServerEtendre votre entrepôt dedonnées d’entrepriseavec du Big Data
    8. 8. Windows AzurePourquoi Hadoop + BICritèreHadoop&HiveMoteursde requêtageBIRécupérer et stocker toutes les données Oui NonSupport des requêtes sur lesdonnées de détailOui NonSupport des requêtes interactives etdepuis des applicationsNon OuiSupport des outils de BI et devisualisationNon Oui
    9. 9. Windows AzureSolution Big Data de Microsoft
    10. 10. Windows AzureDécouverte de donnéesDEPUISVERS
    11. 11. Windows AzureMAP / REDUCEExtrait de « Hadoop Tutorial from Yahoo!" (Yahoo! Inc.) / CC BY 3.0 »
    12. 12. RÉSEAUX SOCIAUXChapitre 2Windows Azure
    13. 13. DémoPrésentation rapide de twitterWindows Azure
    14. 14. Windows Azure• Langage de plus haut niveau que Map/Reduce• HQL très proche de SQL• s’appuie sur HDFS– insertion et ajout seulement, pas de mise à jour– insert overwrite ... select ... from ... where ...• requêtes HQL traduites en jobs Map/Reduce• fonctions internes et externes pour extensionHIVE
    15. 15. DémoAnalyse de tweets avec HIVEWindows Azure
    16. 16. Windows Azure• Langage de plus haut niveau que Map/Reduce• Langage déclaratif– variables représentent des ensembles de données• s’appuie sur HDFS– insertion et ajout seulement, pas de mise à jour– D1 = load ...; ... D2 = foreach D1 generate ...; store D2 ...• script PIG traduit en jobs Map/Reduce• fonctions internes et externes pour extensionPIG
    17. 17. DémoAnalyse de tweets avec PIGWindows Azure
    18. 18. DémoRécupération des résultats PIG avecExternal table HIVE dans ExcelWindows Azure
    19. 19. MACHINE LEARNINGChapitre 3Windows Azure
    20. 20. Windows Azure• L’algorithme– Apprend sur BEAUCOUP de données– Déduit• Applications classiques– prédire• recommandations des produits qui peuvent intéresser unacheteur en ligne• prix d’immobilier– classer• trouver la langue d’un texte• trouver le groupe d’une « news »• filtre de spamMachine Learning
    21. 21. Windows Azure• Librairie d’algorithmes de machine learningpouvant être distribués sur un cluster• http://mahout.apache.org/Mahout
    22. 22. DémoMachine learning - RecommandationsWindows Azure
    23. 23. DémoMachine learning - ClassificationWindows Azure
    24. 24. Windows Azure• Un problème de classification– Happy – sad – pokerface• Traitement du langage naturel– Fréquence des mots, des lettres– Analyse grammaticale (POS) ?• Le choix des features est primordialAnalyse de sentiments
    25. 25. Windows Azure• Préparer des données– Trouver des données déjà classées– Filtrer les données– Nettoyer les données• Décider des features• Choisir le modèle• Tester• Recommencer…3 phases
    26. 26. Windows AzureModèle Bayesien
    27. 27. HADOOP ET SSISChapitre 4Windows Azure
    28. 28. Windows AzureLivre blanc sur SSIS et Hadoophttp://msdn.microsoft.com/en-us/library/jj720569.aspx
    29. 29. Windows AzureLivre blanc sur SSIS et HadoopInternet or LAN http://msdn.microsoft.com/en-us/library/jj720569.aspx
    30. 30. DémoSSIS + HadoopAutomatisationRécupération des donnéesWindows Azure
    31. 31. HADOOP ET .NETChapitre 5Windows Azure
    32. 32. Windows Azure• Microsoft Hadoop SDK• Mappers et Reducers (C#, F#, Powershell)• UDF Pig et Hive (Streaming)• Intégration au log et compteurs d’hadoop• OrchestrationHadoop et .NET
    33. 33. Windows Azure• Tests unitaires de Mapper / Reducer– StreamUnit• Frameworks plus haut niveauHadoop et .NET
    34. 34. Windows Azure• Microsoft Hadoop SDK• http://nuget.org/packages/Microsoft.Hadoop.MapReduce/• http://code.msdn.microsoft.com/Framework-for-Composing-af656ef7• http://andyelastacloud.azurewebsites.net/Hadoop et .NET – liens utiles
    35. 35. DémoHadoop en .NETTests unitairesWindows Azure
    36. 36. CONCLUSION,QUESTIONS/RÉPONSESWindows Azure
    37. 37. Windows Azure• HDInsight– Distribution Hadoopsur Windows Server et Windows Azure• Réversibilité• Facilité de déploiement d’un cluster• Intégration avec l’entreprise• Complémentarité avec la plateforme SQLConclusion
    38. 38. Windows Azure• http://www.hadooponazure.com• Blog Big Data :http://aka.ms/bigdatafrance• White paper SSIS + Hadoop:http://aka.ms/hadoop-ssis-wp• Horton Works & Microsofthttp://hortonworks.com/partners/microsoft/Ressources
    39. 39. Windows Azure• Windows Azure: http://windowsazure.com• Ressources en français et accélérateurWindows Azurehttp://aka.ms/cloudRessources
    40. 40. Windows AzureGagnez une tablette Windows8Souscrivez à l’offre d’essai ou activezvotre accès Azure MSDNPrésentez-vous sur le stand Azure(zone Services & Tools)Participez au tirage au sortà 18h30 le 12 ou le 13 février
    41. 41. ?
    42. 42. Les trois VLe jeu de données ne tient pas sur une seule machineDes formats différentsDes options différentes pour l’interprétation des donnéesPetite fenêtre de décision comparée à la vitesse à laquelleles données changentUn grand nombre de données très rapidement (streaming)VolumeVélocitéVariété
    43. 43. Hadoopà demeure et dans le cloudPlateforme Big Datad’entreprise à demeureDistribution à based’Hadoop sur WindowsServer avec MicrosoftHDInsightPlateforme Big Dataélastique dans lecloudService à base d’Hadoopsur Windows Azure avecHDInsight ServiceConnecteurs Hadoop pourSQL ServerEtendre votre entrepôt dedonnées d’entrepriseavec du Big Data
    44. 44. Pourquoi Hadoop + BI ?CritèreHadoop&HiveMoteursde requêtageBIRécupérer et stocker toutes les données Oui NonSupport des requêtes sur lesdonnées de détailOui NonSupport des requêtes interactives etdepuis des applicationsNon OuiSupport des outils de BI et devisualisationNon Oui
    45. 45. Solution Big Data de Microsoft
    46. 46. Découverte de donnéesDEPUISVERS
    47. 47. l’Ecosystème Hadoop
    48. 48. MAP / REDUCEExtrait de « Hadoop Tutorial from Yahoo!" (Yahoo! Inc.) / CC BY 3.0 »
    49. 49. Livre blanc sur SSIS et Hadoophttp://msdn.microsoft.com/en-us/library/jj720569.aspx
    50. 50. Livre blanc sur SSIS et HadoopInternet or LANhttp://msdn.microsoft.com/en-us/library/jj720569.aspx
    51. 51. Windows Azure• Comment récupère-t-on les données ?• XXXRéseaux sociaux
    52. 52. Windows Azure• ______
    53. 53. Windows Azure• ______
    54. 54. Démo___Windows Azure

    ×