HDInsight est le portage de Apache Hadoop sur Windows Server et Windows Azure. Dans cette session, venez découvrir les différentes possibilités de Big Data, ainsi que la capacité de la machine à apprendre toute seule (machine learning). Nous montrerons des exemples liés aux réseaux sociaux.
1. Donnez votre avis !
Depuis votre smartphone, sur :
http://notes.mstechdays.fr
De nombreux lots à gagner toutes les heures !!!
Claviers, souris et jeux Microsoft…
Merci de nous aider à améliorer les TechDays
http://notes.mstechdays.fr
2. HDInsight : Hadoop en environnement
Microsoft
Architecture / Azure / Cloud
Yann Schwartz Benjamin
Guinebertière
Architecte Conseiller technologique
WindowsAzure
ShoppingAdventure MicrosoftFrance
twitter: @abolibibelot twitter: @benjguin
3. Windows Azure
• HDInsight et Hadoop 8’
• Réseaux sociaux 22’
• Machine learning 15’
• SSIS 10’
• Hadoop et .NET 5’
Plan
5. Windows Azure
Les trois V du Big Data
Le jeu de données ne tient pas sur une seule machine
Des formats différents
Des options différentes pour l’interprétation des données
Petite fenêtre de décision comparée à la vitesse à laquelle
les données changent
Un grand nombre de données très rapidement (streaming)
Volume
Vélocité
Variété
7. Windows Azure
Hadoop à demeure et dans le cloud
Plateforme Big Data
d’entreprise à demeure
Distribution à base
d’Hadoop sur Windows
Server avec Microsoft
HDInsight
Plateforme Big Data
élastique dans le
cloud
Service à base d’Hadoop
sur Windows Azure avec
HDInsight Service
Connecteurs Hadoop pour
SQL Server
Etendre votre entrepôt de
données d’entreprise
avec du Big Data
8. Windows Azure
Pourquoi Hadoop + BI
Critère
Hadoop
&
Hive
Moteurs
de requêtage
BI
Récupérer et stocker toutes les données Oui Non
Support des requêtes sur les
données de détail
Oui Non
Support des requêtes interactives et
depuis des applications
Non Oui
Support des outils de BI et de
visualisation
Non Oui
14. Windows Azure
• Langage de plus haut niveau que Map/Reduce
• HQL très proche de SQL
• s’appuie sur HDFS
– insertion et ajout seulement, pas de mise à jour
– insert overwrite ... select ... from ... where ...
• requêtes HQL traduites en jobs Map/Reduce
• fonctions internes et externes pour extension
HIVE
16. Windows Azure
• Langage de plus haut niveau que Map/Reduce
• Langage déclaratif
– variables représentent des ensembles de données
• s’appuie sur HDFS
– insertion et ajout seulement, pas de mise à jour
– D1 = load ...; ... D2 = foreach D1 generate ...; store D2 ...
• script PIG traduit en jobs Map/Reduce
• fonctions internes et externes pour extension
PIG
20. Windows Azure
• L’algorithme
– Apprend sur BEAUCOUP de données
– Déduit
• Applications classiques
– prédire
• recommandations des produits qui peuvent intéresser un
acheteur en ligne
• prix d’immobilier
– classer
• trouver la langue d’un texte
• trouver le groupe d’une « news »
• filtre de spam
Machine Learning
21. Windows Azure
• Librairie d’algorithmes de machine learning
pouvant être distribués sur un cluster
• http://mahout.apache.org/
Mahout
24. Windows Azure
• Un problème de classification
– Happy – sad – pokerface
• Traitement du langage naturel
– Fréquence des mots, des lettres
– Analyse grammaticale (POS) ?
• Le choix des features est primordial
Analyse de sentiments
25. Windows Azure
• Préparer des données
– Trouver des données déjà classées
– Filtrer les données
– Nettoyer les données
• Décider des features
• Choisir le modèle
• Tester
• Recommencer…
3 phases
32. Windows Azure
• Microsoft Hadoop SDK
• Mappers et Reducers (C#, F#, Powershell)
• UDF Pig et Hive (Streaming)
• Intégration au log et compteurs d’hadoop
• Orchestration
Hadoop et .NET
33. Windows Azure
• Tests unitaires de Mapper / Reducer
– StreamUnit
• Frameworks plus haut niveau
Hadoop et .NET
34. Windows Azure
• Microsoft Hadoop SDK
• http://nuget.org/packages/Microsoft.Hadoop.MapReduce/
• http://code.msdn.microsoft.com/Framework-for-Composing-af656ef7
• http://andyelastacloud.azurewebsites.net/
Hadoop et .NET – liens utiles
37. Windows Azure
• HDInsight
– Distribution Hadoop
sur Windows Server et Windows Azure
• Réversibilité
• Facilité de déploiement d’un cluster
• Intégration avec l’entreprise
• Complémentarité avec la plateforme SQL
Conclusion
38. Windows Azure
• http://www.hadooponazure.com
• Blog Big Data :
http://aka.ms/bigdatafrance
• White paper SSIS + Hadoop:
http://aka.ms/hadoop-ssis-wp
• Horton Works & Microsoft
http://hortonworks.com/partners/microsoft/
Ressources
39. Windows Azure
• Windows Azure: http://windowsazure.com
• Ressources en français et accélérateur
Windows Azure
http://aka.ms/cloud
Ressources
40. Windows Azure
Gagnez une tablette Windows
8
Souscrivez à l’offre d’essai ou activez
votre accès Azure MSDN
Présentez-vous sur le stand Azure
(zone Services & Tools)
Participez au tirage au sort
à 18h30 le 12 ou le 13 février
42. Les trois V
Le jeu de données ne tient pas sur une seule machine
Des formats différents
Des options différentes pour l’interprétation des données
Petite fenêtre de décision comparée à la vitesse à laquelle
les données changent
Un grand nombre de données très rapidement (streaming)
Volume
Vélocité
Variété
43. Hadoop
à demeure et dans le cloud
Plateforme Big Data
d’entreprise à demeure
Distribution à base
d’Hadoop sur Windows
Server avec Microsoft
HDInsight
Plateforme Big Data
élastique dans le
cloud
Service à base d’Hadoop
sur Windows Azure avec
HDInsight Service
Connecteurs Hadoop pour
SQL Server
Etendre votre entrepôt de
données d’entreprise
avec du Big Data
44. Pourquoi Hadoop + BI ?
Critère
Hadoop
&
Hive
Moteurs
de requêtage
BI
Récupérer et stocker toutes les données Oui Non
Support des requêtes sur les
données de détail
Oui Non
Support des requêtes interactives et
depuis des applications
Non Oui
Support des outils de BI et de
visualisation
Non Oui
11:55(Word count en test unitaire C#)(http://channel9.msdn.com/Events/Build/2012/3-038)
@abolibibelot
Les blocs de couleurs sont éditables et peuvent reprendre la couleur du type de session qui est donnée.Idem pour les textes.
Les blocs de couleurs sont éditables et peuvent reprendre la couleur du type de session qui est donnée.
Les blocs de couleurs sont éditables et peuvent reprendre la couleur du type de session qui est donnée.
Les blocs de couleurs sont éditables et peuvent reprendre la couleur du type de session qui est donnée.
Last fall we announced a Big Data strategy that embraces Hadoop for activating this ambient data being born outside the traditional data platform. Hadoop is the open source implementation of MapReduce parallel computation engine and environment, and it's used (quite widely now) in the processing of streams of data that go well beyond even the largest enterprise data sets in size. Whether it’s sensor, clickstream, social media, location-based or other data that is generated and collected in large gobs, Hadoop is often on the scene in the service of processing and analyzing it. Here’s Microsoft’s Big Data strategy: Enterprise Ready – delivering an enterprise class implementation or distribution of Hadoop for Windows Server and Windows Azure, integrated with SQL Server 2012, Active Directory and System Center makes it dramatically easier, efficient and cost effective for your organization to capitalize on the opportunity Big Data can bring to your business. And with the Hadoop distribution for Windows Azure, customers can instantly begin taking advantage of the benefits of Big Data without capital infrastructure or operational costs. Microsoft’s Big Data solution enables customers to connect to publicly available unstructured data from social media sites such as Twitter and Facebook. Delivering Insights for Everyone with MS BI – Through deep integration with BI (PowerPivot and PowerView) and EDW tools, Microsoft’s Big Data solution offers customers deep insights on all their structured and unstructured data with the tools they use every day.
Discover Data: Today, it is hard enough to find the right dataset within an organization, let alone outside it. A typical Analyst spends too much time searching for the right data from thousands of sources, which adversely impacts productivity. We will move from a world of search to one of discovery where information is brought to the user based on who you are, and what you are working on.We offer unique tools to facilitate discovery of data both within and outside an organization. An Azure Lab, codenamed “Data Explorer”, enables customers to discover relevant datasets through automatic recommendations, e.g. if an analyst is building a customer segmentation model for SMBs and selects a customer dataset, the tool can automatically recommend related datasets such as Dunn and Bradstreet with useful credit information. Another lab codenamed “Data Hub” enables an organization to create a private Data Market to facilitate discovery and sharing of data and analytical models. The Azure Marketplace Datamarket enables discovery and sharing outside the firewall and with 3rd party data sources.
Les blocs de couleurs sont éditables et peuvent reprendre la couleur du type de session qui est donnée.
Les blocs de couleurs sont éditables et peuvent reprendre la couleur du type de session qui est donnée.
8’Navigation dans SharePointSite d’administrationNavigation depuis Internetsi possible: basculement du SQL Server en databasemirroring