SlideShare une entreprise Scribd logo
1  sur  54
Donnez votre avis !
Depuis votre smartphone, sur :
http://notes.mstechdays.fr
De nombreux lots à gagner toutes les heures !!!
Claviers, souris et jeux Microsoft…
Merci de nous aider à améliorer les TechDays
http://notes.mstechdays.fr
HDInsight : Hadoop en environnement
Microsoft
Architecture / Azure / Cloud
Yann Schwartz Benjamin
Guinebertière
Architecte Conseiller technologique
WindowsAzure
ShoppingAdventure MicrosoftFrance
twitter: @abolibibelot twitter: @benjguin
Windows Azure
• HDInsight et Hadoop 8’
• Réseaux sociaux 22’
• Machine learning 15’
• SSIS 10’
• Hadoop et .NET 5’
Plan
HDINSIGHT ET HADOOP
Chapitre 1
Windows Azure
Windows Azure
Les trois V du Big Data
Le jeu de données ne tient pas sur une seule machine
Des formats différents
Des options différentes pour l’interprétation des données
Petite fenêtre de décision comparée à la vitesse à laquelle
les données changent
Un grand nombre de données très rapidement (streaming)
Volume
Vélocité
Variété
Windows Azure
L’écosystème Hadoop
Windows Azure
Hadoop à demeure et dans le cloud
Plateforme Big Data
d’entreprise à demeure
Distribution à base
d’Hadoop sur Windows
Server avec Microsoft
HDInsight
Plateforme Big Data
élastique dans le
cloud
Service à base d’Hadoop
sur Windows Azure avec
HDInsight Service
Connecteurs Hadoop pour
SQL Server
Etendre votre entrepôt de
données d’entreprise
avec du Big Data
Windows Azure
Pourquoi Hadoop + BI
Critère
Hadoop
&
Hive
Moteurs
de requêtage
BI
Récupérer et stocker toutes les données Oui Non
Support des requêtes sur les
données de détail
Oui Non
Support des requêtes interactives et
depuis des applications
Non Oui
Support des outils de BI et de
visualisation
Non Oui
Windows Azure
Solution Big Data de Microsoft
Windows Azure
Découverte de données
DEPUIS
VERS
Windows Azure
MAP / REDUCE
Extrait de « Hadoop Tutorial from Yahoo!" (Yahoo! Inc.) / CC BY 3.0 »
RÉSEAUX SOCIAUX
Chapitre 2
Windows Azure
Démo
Présentation rapide de twitter
Windows Azure
Windows Azure
• Langage de plus haut niveau que Map/Reduce
• HQL très proche de SQL
• s’appuie sur HDFS
– insertion et ajout seulement, pas de mise à jour
– insert overwrite ... select ... from ... where ...
• requêtes HQL traduites en jobs Map/Reduce
• fonctions internes et externes pour extension
HIVE
Démo
Analyse de tweets avec HIVE
Windows Azure
Windows Azure
• Langage de plus haut niveau que Map/Reduce
• Langage déclaratif
– variables représentent des ensembles de données
• s’appuie sur HDFS
– insertion et ajout seulement, pas de mise à jour
– D1 = load ...; ... D2 = foreach D1 generate ...; store D2 ...
• script PIG traduit en jobs Map/Reduce
• fonctions internes et externes pour extension
PIG
Démo
Analyse de tweets avec PIG
Windows Azure
Démo
Récupération des résultats PIG avec
External table HIVE dans Excel
Windows Azure
MACHINE LEARNING
Chapitre 3
Windows Azure
Windows Azure
• L’algorithme
– Apprend sur BEAUCOUP de données
– Déduit
• Applications classiques
– prédire
• recommandations des produits qui peuvent intéresser un
acheteur en ligne
• prix d’immobilier
– classer
• trouver la langue d’un texte
• trouver le groupe d’une « news »
• filtre de spam
Machine Learning
Windows Azure
• Librairie d’algorithmes de machine learning
pouvant être distribués sur un cluster
• http://mahout.apache.org/
Mahout
Démo
Machine learning - Recommandations
Windows Azure
Démo
Machine learning - Classification
Windows Azure
Windows Azure
• Un problème de classification
– Happy – sad – pokerface
• Traitement du langage naturel
– Fréquence des mots, des lettres
– Analyse grammaticale (POS) ?
• Le choix des features est primordial
Analyse de sentiments
Windows Azure
• Préparer des données
– Trouver des données déjà classées
– Filtrer les données
– Nettoyer les données
• Décider des features
• Choisir le modèle
• Tester
• Recommencer…
3 phases
Windows Azure
Modèle Bayesien
HADOOP ET SSIS
Chapitre 4
Windows Azure
Windows Azure
Livre blanc sur SSIS et Hadoop
http://msdn.microsoft.com/en-us/library/jj720569.aspx
Windows Azure
Livre blanc sur SSIS et Hadoop
Internet or LAN http://msdn.microsoft.com/en-us/library/jj720569.aspx
Démo
SSIS + Hadoop
Automatisation
Récupération des données
Windows Azure
HADOOP ET .NET
Chapitre 5
Windows Azure
Windows Azure
• Microsoft Hadoop SDK
• Mappers et Reducers (C#, F#, Powershell)
• UDF Pig et Hive (Streaming)
• Intégration au log et compteurs d’hadoop
• Orchestration
Hadoop et .NET
Windows Azure
• Tests unitaires de Mapper / Reducer
– StreamUnit
• Frameworks plus haut niveau
Hadoop et .NET
Windows Azure
• Microsoft Hadoop SDK
• http://nuget.org/packages/Microsoft.Hadoop.MapReduce/
• http://code.msdn.microsoft.com/Framework-for-Composing-af656ef7
• http://andyelastacloud.azurewebsites.net/
Hadoop et .NET – liens utiles
Démo
Hadoop en .NET
Tests unitaires
Windows Azure
CONCLUSION,
QUESTIONS/RÉPONSES
Windows Azure
Windows Azure
• HDInsight
– Distribution Hadoop
sur Windows Server et Windows Azure
• Réversibilité
• Facilité de déploiement d’un cluster
• Intégration avec l’entreprise
• Complémentarité avec la plateforme SQL
Conclusion
Windows Azure
• http://www.hadooponazure.com
• Blog Big Data :
http://aka.ms/bigdatafrance
• White paper SSIS + Hadoop:
http://aka.ms/hadoop-ssis-wp
• Horton Works & Microsoft
http://hortonworks.com/partners/microsoft/
Ressources
Windows Azure
• Windows Azure: http://windowsazure.com
• Ressources en français et accélérateur
Windows Azure
http://aka.ms/cloud
Ressources
Windows Azure
Gagnez une tablette Windows
8
Souscrivez à l’offre d’essai ou activez
votre accès Azure MSDN
Présentez-vous sur le stand Azure
(zone Services & Tools)
Participez au tirage au sort
à 18h30 le 12 ou le 13 février
?
Les trois V
Le jeu de données ne tient pas sur une seule machine
Des formats différents
Des options différentes pour l’interprétation des données
Petite fenêtre de décision comparée à la vitesse à laquelle
les données changent
Un grand nombre de données très rapidement (streaming)
Volume
Vélocité
Variété
Hadoop
à demeure et dans le cloud
Plateforme Big Data
d’entreprise à demeure
Distribution à base
d’Hadoop sur Windows
Server avec Microsoft
HDInsight
Plateforme Big Data
élastique dans le
cloud
Service à base d’Hadoop
sur Windows Azure avec
HDInsight Service
Connecteurs Hadoop pour
SQL Server
Etendre votre entrepôt de
données d’entreprise
avec du Big Data
Pourquoi Hadoop + BI ?
Critère
Hadoop
&
Hive
Moteurs
de requêtage
BI
Récupérer et stocker toutes les données Oui Non
Support des requêtes sur les
données de détail
Oui Non
Support des requêtes interactives et
depuis des applications
Non Oui
Support des outils de BI et de
visualisation
Non Oui
Solution Big Data de Microsoft
Découverte de données
DEPUIS
VERS
l’Ecosystème Hadoop
MAP / REDUCE
Extrait de « Hadoop Tutorial from Yahoo!" (Yahoo! Inc.) / CC BY 3.0 »
Livre blanc sur SSIS et Hadoop
http://msdn.microsoft.com/en-us/library/jj720569.aspx
Livre blanc sur SSIS et Hadoop
Internet or LAN
http://msdn.microsoft.com/en-us/library/jj720569.aspx
Windows Azure
• Comment récupère-t-on les données ?
• XXX
Réseaux sociaux
Windows Azure
• ___
___
Windows Azure
• ___
___
Démo
___
Windows Azure

Contenu connexe

Similaire à HDInsight : Hadoop en environnement Microsoft

Les VMs Azure pour SharePoint, SQL Server, et AD
Les VMs Azure pour SharePoint, SQL Server, et ADLes VMs Azure pour SharePoint, SQL Server, et AD
Les VMs Azure pour SharePoint, SQL Server, et ADMicrosoft Technet France
 
TechDays 2013 : Les VMs Azure pour SharePoint, SQL Server, et AD
TechDays 2013 : Les VMs Azure pour SharePoint, SQL Server, et ADTechDays 2013 : Les VMs Azure pour SharePoint, SQL Server, et AD
TechDays 2013 : Les VMs Azure pour SharePoint, SQL Server, et ADMCKLMT
 
Alter way-wordcamp-paris-2014
Alter way-wordcamp-paris-2014Alter way-wordcamp-paris-2014
Alter way-wordcamp-paris-2014ALTER WAY
 
Editeurs de logiciels, innovez avec l'Intelligence Artificielle
Editeurs de logiciels, innovez avec l'Intelligence ArtificielleEditeurs de logiciels, innovez avec l'Intelligence Artificielle
Editeurs de logiciels, innovez avec l'Intelligence ArtificielleGuillaume Renaud
 
Webinar Alfresco/Smile - Juillet 2013
Webinar Alfresco/Smile - Juillet 2013Webinar Alfresco/Smile - Juillet 2013
Webinar Alfresco/Smile - Juillet 2013Smile I.T is open
 
Presentation Hadoop Québec
Presentation Hadoop QuébecPresentation Hadoop Québec
Presentation Hadoop QuébecMathieu Dumoulin
 
Office 365 education
Office 365 educationOffice 365 education
Office 365 educationIT Systèmes
 
Introduction à DevOps
Introduction à DevOpsIntroduction à DevOps
Introduction à DevOpsMicrosoft
 
SharePoint & Azure, le couple gagnant
SharePoint & Azure, le couple gagnantSharePoint & Azure, le couple gagnant
SharePoint & Azure, le couple gagnantMicrosoft
 
8 Rex : Mise en place de DevOps sur Azure
8   Rex : Mise en place de DevOps sur Azure8   Rex : Mise en place de DevOps sur Azure
8 Rex : Mise en place de DevOps sur AzureaOS Community
 
Windows Azure Camp du mardi 10 décembre 2013
Windows Azure Camp du mardi 10 décembre 2013Windows Azure Camp du mardi 10 décembre 2013
Windows Azure Camp du mardi 10 décembre 2013Microsoft Technet France
 
IBM Bluemix Paris Meetup #22-20170315 Meetup @VillagebyCA- Bluemix, présent &...
IBM Bluemix Paris Meetup #22-20170315 Meetup @VillagebyCA- Bluemix, présent &...IBM Bluemix Paris Meetup #22-20170315 Meetup @VillagebyCA- Bluemix, présent &...
IBM Bluemix Paris Meetup #22-20170315 Meetup @VillagebyCA- Bluemix, présent &...IBM France Lab
 
Les défis d’une application mobile multi-périphériques avec HTML5
Les défis d’une application mobile multi-périphériques avec HTML5Les défis d’une application mobile multi-périphériques avec HTML5
Les défis d’une application mobile multi-périphériques avec HTML5davrous
 
La Meta-programmation
La Meta-programmation La Meta-programmation
La Meta-programmation Microsoft
 
Introduction au nouveau moteur de workflow de Microsoft : Flow
Introduction au nouveau moteur de workflow de Microsoft : FlowIntroduction au nouveau moteur de workflow de Microsoft : Flow
Introduction au nouveau moteur de workflow de Microsoft : FlowSabrine Chouk
 
Introduction au nouveau moteur de workflow de Microsoft : Flow (Serge Luca)
Introduction au nouveau moteur de workflow de Microsoft : Flow (Serge Luca)Introduction au nouveau moteur de workflow de Microsoft : Flow (Serge Luca)
Introduction au nouveau moteur de workflow de Microsoft : Flow (Serge Luca)serge luca
 
Introduction au développement windows 8 modern ui avec html5 et javascript
Introduction au développement windows 8 modern ui avec html5 et javascriptIntroduction au développement windows 8 modern ui avec html5 et javascript
Introduction au développement windows 8 modern ui avec html5 et javascriptdavrous
 
Introduction au développement Windows 8 ModernUI avec HTML5 et JavaScript
Introduction au développement Windows 8 ModernUI avec HTML5 et JavaScriptIntroduction au développement Windows 8 ModernUI avec HTML5 et JavaScript
Introduction au développement Windows 8 ModernUI avec HTML5 et JavaScriptMicrosoft
 
Social Network Analysis Utilizing Big Data Technology
Social Network Analysis Utilizing Big Data TechnologySocial Network Analysis Utilizing Big Data Technology
Social Network Analysis Utilizing Big Data TechnologyImad ALILAT
 

Similaire à HDInsight : Hadoop en environnement Microsoft (20)

Les VMs Azure pour SharePoint, SQL Server, et AD
Les VMs Azure pour SharePoint, SQL Server, et ADLes VMs Azure pour SharePoint, SQL Server, et AD
Les VMs Azure pour SharePoint, SQL Server, et AD
 
TechDays 2013 : Les VMs Azure pour SharePoint, SQL Server, et AD
TechDays 2013 : Les VMs Azure pour SharePoint, SQL Server, et ADTechDays 2013 : Les VMs Azure pour SharePoint, SQL Server, et AD
TechDays 2013 : Les VMs Azure pour SharePoint, SQL Server, et AD
 
Alter way-wordcamp-paris-2014
Alter way-wordcamp-paris-2014Alter way-wordcamp-paris-2014
Alter way-wordcamp-paris-2014
 
Editeurs de logiciels, innovez avec l'Intelligence Artificielle
Editeurs de logiciels, innovez avec l'Intelligence ArtificielleEditeurs de logiciels, innovez avec l'Intelligence Artificielle
Editeurs de logiciels, innovez avec l'Intelligence Artificielle
 
Webinar Alfresco/Smile - Juillet 2013
Webinar Alfresco/Smile - Juillet 2013Webinar Alfresco/Smile - Juillet 2013
Webinar Alfresco/Smile - Juillet 2013
 
Presentation Hadoop Québec
Presentation Hadoop QuébecPresentation Hadoop Québec
Presentation Hadoop Québec
 
Office 365 education
Office 365 educationOffice 365 education
Office 365 education
 
Introduction à DevOps
Introduction à DevOpsIntroduction à DevOps
Introduction à DevOps
 
SharePoint & Azure, le couple gagnant
SharePoint & Azure, le couple gagnantSharePoint & Azure, le couple gagnant
SharePoint & Azure, le couple gagnant
 
Mon Stockage a la Cloud Attitude
Mon Stockage a la Cloud Attitude Mon Stockage a la Cloud Attitude
Mon Stockage a la Cloud Attitude
 
8 Rex : Mise en place de DevOps sur Azure
8   Rex : Mise en place de DevOps sur Azure8   Rex : Mise en place de DevOps sur Azure
8 Rex : Mise en place de DevOps sur Azure
 
Windows Azure Camp du mardi 10 décembre 2013
Windows Azure Camp du mardi 10 décembre 2013Windows Azure Camp du mardi 10 décembre 2013
Windows Azure Camp du mardi 10 décembre 2013
 
IBM Bluemix Paris Meetup #22-20170315 Meetup @VillagebyCA- Bluemix, présent &...
IBM Bluemix Paris Meetup #22-20170315 Meetup @VillagebyCA- Bluemix, présent &...IBM Bluemix Paris Meetup #22-20170315 Meetup @VillagebyCA- Bluemix, présent &...
IBM Bluemix Paris Meetup #22-20170315 Meetup @VillagebyCA- Bluemix, présent &...
 
Les défis d’une application mobile multi-périphériques avec HTML5
Les défis d’une application mobile multi-périphériques avec HTML5Les défis d’une application mobile multi-périphériques avec HTML5
Les défis d’une application mobile multi-périphériques avec HTML5
 
La Meta-programmation
La Meta-programmation La Meta-programmation
La Meta-programmation
 
Introduction au nouveau moteur de workflow de Microsoft : Flow
Introduction au nouveau moteur de workflow de Microsoft : FlowIntroduction au nouveau moteur de workflow de Microsoft : Flow
Introduction au nouveau moteur de workflow de Microsoft : Flow
 
Introduction au nouveau moteur de workflow de Microsoft : Flow (Serge Luca)
Introduction au nouveau moteur de workflow de Microsoft : Flow (Serge Luca)Introduction au nouveau moteur de workflow de Microsoft : Flow (Serge Luca)
Introduction au nouveau moteur de workflow de Microsoft : Flow (Serge Luca)
 
Introduction au développement windows 8 modern ui avec html5 et javascript
Introduction au développement windows 8 modern ui avec html5 et javascriptIntroduction au développement windows 8 modern ui avec html5 et javascript
Introduction au développement windows 8 modern ui avec html5 et javascript
 
Introduction au développement Windows 8 ModernUI avec HTML5 et JavaScript
Introduction au développement Windows 8 ModernUI avec HTML5 et JavaScriptIntroduction au développement Windows 8 ModernUI avec HTML5 et JavaScript
Introduction au développement Windows 8 ModernUI avec HTML5 et JavaScript
 
Social Network Analysis Utilizing Big Data Technology
Social Network Analysis Utilizing Big Data TechnologySocial Network Analysis Utilizing Big Data Technology
Social Network Analysis Utilizing Big Data Technology
 

Plus de Microsoft Technet France

Automatisez, visualisez et améliorez vos processus d’entreprise avec Nintex
Automatisez, visualisez et améliorez vos processus d’entreprise avec Nintex Automatisez, visualisez et améliorez vos processus d’entreprise avec Nintex
Automatisez, visualisez et améliorez vos processus d’entreprise avec Nintex Microsoft Technet France
 
Comment réussir votre déploiement de Windows 10
Comment réussir votre déploiement de Windows 10Comment réussir votre déploiement de Windows 10
Comment réussir votre déploiement de Windows 10Microsoft Technet France
 
Fusion, Acquisition - Optimisez la migration et la continuité des outils col...
 Fusion, Acquisition - Optimisez la migration et la continuité des outils col... Fusion, Acquisition - Optimisez la migration et la continuité des outils col...
Fusion, Acquisition - Optimisez la migration et la continuité des outils col...Microsoft Technet France
 
Wavestone déploie son portail Powell 365 en 5 semaines
Wavestone déploie son portail Powell 365 en 5 semainesWavestone déploie son portail Powell 365 en 5 semaines
Wavestone déploie son portail Powell 365 en 5 semainesMicrosoft Technet France
 
Retour d’expérience sur le monitoring et la sécurisation des identités Azure
Retour d’expérience sur le monitoring et la sécurisation des identités AzureRetour d’expérience sur le monitoring et la sécurisation des identités Azure
Retour d’expérience sur le monitoring et la sécurisation des identités AzureMicrosoft Technet France
 
Scénarios de mobilité couverts par Enterprise Mobility + Security
Scénarios de mobilité couverts par Enterprise Mobility + SecurityScénarios de mobilité couverts par Enterprise Mobility + Security
Scénarios de mobilité couverts par Enterprise Mobility + SecurityMicrosoft Technet France
 
SharePoint Framework : le développement SharePoint nouvelle génération
SharePoint Framework : le développement SharePoint nouvelle générationSharePoint Framework : le développement SharePoint nouvelle génération
SharePoint Framework : le développement SharePoint nouvelle générationMicrosoft Technet France
 
Stockage Cloud : il y en aura pour tout le monde
Stockage Cloud : il y en aura pour tout le mondeStockage Cloud : il y en aura pour tout le monde
Stockage Cloud : il y en aura pour tout le mondeMicrosoft Technet France
 
Bien appréhender le concept de Windows As a Service
Bien appréhender le concept de Windows As a ServiceBien appréhender le concept de Windows As a Service
Bien appréhender le concept de Windows As a ServiceMicrosoft Technet France
 
Protéger vos données avec le chiffrement dans Azure et Office 365
Protéger vos données avec le chiffrement dans Azure et Office 365Protéger vos données avec le chiffrement dans Azure et Office 365
Protéger vos données avec le chiffrement dans Azure et Office 365Microsoft Technet France
 
Protéger votre patrimoine informationnel dans un monde hybride avec Azure Inf...
Protéger votre patrimoine informationnel dans un monde hybride avec Azure Inf...Protéger votre patrimoine informationnel dans un monde hybride avec Azure Inf...
Protéger votre patrimoine informationnel dans un monde hybride avec Azure Inf...Microsoft Technet France
 
Comprendre la stratégie identité de Microsoft
Comprendre la stratégie identité de MicrosoftComprendre la stratégie identité de Microsoft
Comprendre la stratégie identité de MicrosoftMicrosoft Technet France
 
Vous avez dit « authentification sans mot de passe » : une illustration avec ...
Vous avez dit « authentification sans mot de passe » : une illustration avec ...Vous avez dit « authentification sans mot de passe » : une illustration avec ...
Vous avez dit « authentification sans mot de passe » : une illustration avec ...Microsoft Technet France
 
Déploiement hybride, la téléphonie dans le cloud
Déploiement hybride, la téléphonie dans le cloudDéploiement hybride, la téléphonie dans le cloud
Déploiement hybride, la téléphonie dans le cloudMicrosoft Technet France
 
Supervisez la qualité des appels Skype for Business Online à l'aide de Call Q...
Supervisez la qualité des appels Skype for Business Online à l'aide de Call Q...Supervisez la qualité des appels Skype for Business Online à l'aide de Call Q...
Supervisez la qualité des appels Skype for Business Online à l'aide de Call Q...Microsoft Technet France
 
SharePoint 2016 : architecture, déploiement et topologies hybrides
SharePoint 2016 : architecture, déploiement et topologies hybridesSharePoint 2016 : architecture, déploiement et topologies hybrides
SharePoint 2016 : architecture, déploiement et topologies hybridesMicrosoft Technet France
 
Gestion de Windows 10 et des applications dans l'entreprise moderne
Gestion de Windows 10 et des applications dans l'entreprise moderneGestion de Windows 10 et des applications dans l'entreprise moderne
Gestion de Windows 10 et des applications dans l'entreprise moderneMicrosoft Technet France
 
Office 365 dans votre Système d'Informations
Office 365 dans votre Système d'InformationsOffice 365 dans votre Système d'Informations
Office 365 dans votre Système d'InformationsMicrosoft Technet France
 

Plus de Microsoft Technet France (20)

Automatisez, visualisez et améliorez vos processus d’entreprise avec Nintex
Automatisez, visualisez et améliorez vos processus d’entreprise avec Nintex Automatisez, visualisez et améliorez vos processus d’entreprise avec Nintex
Automatisez, visualisez et améliorez vos processus d’entreprise avec Nintex
 
Comment réussir votre déploiement de Windows 10
Comment réussir votre déploiement de Windows 10Comment réussir votre déploiement de Windows 10
Comment réussir votre déploiement de Windows 10
 
OMS log search au quotidien
OMS log search au quotidienOMS log search au quotidien
OMS log search au quotidien
 
Fusion, Acquisition - Optimisez la migration et la continuité des outils col...
 Fusion, Acquisition - Optimisez la migration et la continuité des outils col... Fusion, Acquisition - Optimisez la migration et la continuité des outils col...
Fusion, Acquisition - Optimisez la migration et la continuité des outils col...
 
Wavestone déploie son portail Powell 365 en 5 semaines
Wavestone déploie son portail Powell 365 en 5 semainesWavestone déploie son portail Powell 365 en 5 semaines
Wavestone déploie son portail Powell 365 en 5 semaines
 
Retour d’expérience sur le monitoring et la sécurisation des identités Azure
Retour d’expérience sur le monitoring et la sécurisation des identités AzureRetour d’expérience sur le monitoring et la sécurisation des identités Azure
Retour d’expérience sur le monitoring et la sécurisation des identités Azure
 
Scénarios de mobilité couverts par Enterprise Mobility + Security
Scénarios de mobilité couverts par Enterprise Mobility + SecurityScénarios de mobilité couverts par Enterprise Mobility + Security
Scénarios de mobilité couverts par Enterprise Mobility + Security
 
SharePoint Framework : le développement SharePoint nouvelle génération
SharePoint Framework : le développement SharePoint nouvelle générationSharePoint Framework : le développement SharePoint nouvelle génération
SharePoint Framework : le développement SharePoint nouvelle génération
 
Stockage Cloud : il y en aura pour tout le monde
Stockage Cloud : il y en aura pour tout le mondeStockage Cloud : il y en aura pour tout le monde
Stockage Cloud : il y en aura pour tout le monde
 
Bien appréhender le concept de Windows As a Service
Bien appréhender le concept de Windows As a ServiceBien appréhender le concept de Windows As a Service
Bien appréhender le concept de Windows As a Service
 
Protéger vos données avec le chiffrement dans Azure et Office 365
Protéger vos données avec le chiffrement dans Azure et Office 365Protéger vos données avec le chiffrement dans Azure et Office 365
Protéger vos données avec le chiffrement dans Azure et Office 365
 
Protéger votre patrimoine informationnel dans un monde hybride avec Azure Inf...
Protéger votre patrimoine informationnel dans un monde hybride avec Azure Inf...Protéger votre patrimoine informationnel dans un monde hybride avec Azure Inf...
Protéger votre patrimoine informationnel dans un monde hybride avec Azure Inf...
 
Comprendre la stratégie identité de Microsoft
Comprendre la stratégie identité de MicrosoftComprendre la stratégie identité de Microsoft
Comprendre la stratégie identité de Microsoft
 
Vous avez dit « authentification sans mot de passe » : une illustration avec ...
Vous avez dit « authentification sans mot de passe » : une illustration avec ...Vous avez dit « authentification sans mot de passe » : une illustration avec ...
Vous avez dit « authentification sans mot de passe » : une illustration avec ...
 
Sécurité des données
Sécurité des donnéesSécurité des données
Sécurité des données
 
Déploiement hybride, la téléphonie dans le cloud
Déploiement hybride, la téléphonie dans le cloudDéploiement hybride, la téléphonie dans le cloud
Déploiement hybride, la téléphonie dans le cloud
 
Supervisez la qualité des appels Skype for Business Online à l'aide de Call Q...
Supervisez la qualité des appels Skype for Business Online à l'aide de Call Q...Supervisez la qualité des appels Skype for Business Online à l'aide de Call Q...
Supervisez la qualité des appels Skype for Business Online à l'aide de Call Q...
 
SharePoint 2016 : architecture, déploiement et topologies hybrides
SharePoint 2016 : architecture, déploiement et topologies hybridesSharePoint 2016 : architecture, déploiement et topologies hybrides
SharePoint 2016 : architecture, déploiement et topologies hybrides
 
Gestion de Windows 10 et des applications dans l'entreprise moderne
Gestion de Windows 10 et des applications dans l'entreprise moderneGestion de Windows 10 et des applications dans l'entreprise moderne
Gestion de Windows 10 et des applications dans l'entreprise moderne
 
Office 365 dans votre Système d'Informations
Office 365 dans votre Système d'InformationsOffice 365 dans votre Système d'Informations
Office 365 dans votre Système d'Informations
 

HDInsight : Hadoop en environnement Microsoft

  • 1. Donnez votre avis ! Depuis votre smartphone, sur : http://notes.mstechdays.fr De nombreux lots à gagner toutes les heures !!! Claviers, souris et jeux Microsoft… Merci de nous aider à améliorer les TechDays http://notes.mstechdays.fr
  • 2. HDInsight : Hadoop en environnement Microsoft Architecture / Azure / Cloud Yann Schwartz Benjamin Guinebertière Architecte Conseiller technologique WindowsAzure ShoppingAdventure MicrosoftFrance twitter: @abolibibelot twitter: @benjguin
  • 3. Windows Azure • HDInsight et Hadoop 8’ • Réseaux sociaux 22’ • Machine learning 15’ • SSIS 10’ • Hadoop et .NET 5’ Plan
  • 5. Windows Azure Les trois V du Big Data Le jeu de données ne tient pas sur une seule machine Des formats différents Des options différentes pour l’interprétation des données Petite fenêtre de décision comparée à la vitesse à laquelle les données changent Un grand nombre de données très rapidement (streaming) Volume Vélocité Variété
  • 7. Windows Azure Hadoop à demeure et dans le cloud Plateforme Big Data d’entreprise à demeure Distribution à base d’Hadoop sur Windows Server avec Microsoft HDInsight Plateforme Big Data élastique dans le cloud Service à base d’Hadoop sur Windows Azure avec HDInsight Service Connecteurs Hadoop pour SQL Server Etendre votre entrepôt de données d’entreprise avec du Big Data
  • 8. Windows Azure Pourquoi Hadoop + BI Critère Hadoop & Hive Moteurs de requêtage BI Récupérer et stocker toutes les données Oui Non Support des requêtes sur les données de détail Oui Non Support des requêtes interactives et depuis des applications Non Oui Support des outils de BI et de visualisation Non Oui
  • 9. Windows Azure Solution Big Data de Microsoft
  • 10. Windows Azure Découverte de données DEPUIS VERS
  • 11. Windows Azure MAP / REDUCE Extrait de « Hadoop Tutorial from Yahoo!" (Yahoo! Inc.) / CC BY 3.0 »
  • 13. Démo Présentation rapide de twitter Windows Azure
  • 14. Windows Azure • Langage de plus haut niveau que Map/Reduce • HQL très proche de SQL • s’appuie sur HDFS – insertion et ajout seulement, pas de mise à jour – insert overwrite ... select ... from ... where ... • requêtes HQL traduites en jobs Map/Reduce • fonctions internes et externes pour extension HIVE
  • 15. Démo Analyse de tweets avec HIVE Windows Azure
  • 16. Windows Azure • Langage de plus haut niveau que Map/Reduce • Langage déclaratif – variables représentent des ensembles de données • s’appuie sur HDFS – insertion et ajout seulement, pas de mise à jour – D1 = load ...; ... D2 = foreach D1 generate ...; store D2 ... • script PIG traduit en jobs Map/Reduce • fonctions internes et externes pour extension PIG
  • 17. Démo Analyse de tweets avec PIG Windows Azure
  • 18. Démo Récupération des résultats PIG avec External table HIVE dans Excel Windows Azure
  • 20. Windows Azure • L’algorithme – Apprend sur BEAUCOUP de données – Déduit • Applications classiques – prédire • recommandations des produits qui peuvent intéresser un acheteur en ligne • prix d’immobilier – classer • trouver la langue d’un texte • trouver le groupe d’une « news » • filtre de spam Machine Learning
  • 21. Windows Azure • Librairie d’algorithmes de machine learning pouvant être distribués sur un cluster • http://mahout.apache.org/ Mahout
  • 22. Démo Machine learning - Recommandations Windows Azure
  • 23. Démo Machine learning - Classification Windows Azure
  • 24. Windows Azure • Un problème de classification – Happy – sad – pokerface • Traitement du langage naturel – Fréquence des mots, des lettres – Analyse grammaticale (POS) ? • Le choix des features est primordial Analyse de sentiments
  • 25. Windows Azure • Préparer des données – Trouver des données déjà classées – Filtrer les données – Nettoyer les données • Décider des features • Choisir le modèle • Tester • Recommencer… 3 phases
  • 27. HADOOP ET SSIS Chapitre 4 Windows Azure
  • 28. Windows Azure Livre blanc sur SSIS et Hadoop http://msdn.microsoft.com/en-us/library/jj720569.aspx
  • 29. Windows Azure Livre blanc sur SSIS et Hadoop Internet or LAN http://msdn.microsoft.com/en-us/library/jj720569.aspx
  • 31. HADOOP ET .NET Chapitre 5 Windows Azure
  • 32. Windows Azure • Microsoft Hadoop SDK • Mappers et Reducers (C#, F#, Powershell) • UDF Pig et Hive (Streaming) • Intégration au log et compteurs d’hadoop • Orchestration Hadoop et .NET
  • 33. Windows Azure • Tests unitaires de Mapper / Reducer – StreamUnit • Frameworks plus haut niveau Hadoop et .NET
  • 34. Windows Azure • Microsoft Hadoop SDK • http://nuget.org/packages/Microsoft.Hadoop.MapReduce/ • http://code.msdn.microsoft.com/Framework-for-Composing-af656ef7 • http://andyelastacloud.azurewebsites.net/ Hadoop et .NET – liens utiles
  • 35. Démo Hadoop en .NET Tests unitaires Windows Azure
  • 37. Windows Azure • HDInsight – Distribution Hadoop sur Windows Server et Windows Azure • Réversibilité • Facilité de déploiement d’un cluster • Intégration avec l’entreprise • Complémentarité avec la plateforme SQL Conclusion
  • 38. Windows Azure • http://www.hadooponazure.com • Blog Big Data : http://aka.ms/bigdatafrance • White paper SSIS + Hadoop: http://aka.ms/hadoop-ssis-wp • Horton Works & Microsoft http://hortonworks.com/partners/microsoft/ Ressources
  • 39. Windows Azure • Windows Azure: http://windowsazure.com • Ressources en français et accélérateur Windows Azure http://aka.ms/cloud Ressources
  • 40. Windows Azure Gagnez une tablette Windows 8 Souscrivez à l’offre d’essai ou activez votre accès Azure MSDN Présentez-vous sur le stand Azure (zone Services & Tools) Participez au tirage au sort à 18h30 le 12 ou le 13 février
  • 41. ?
  • 42. Les trois V Le jeu de données ne tient pas sur une seule machine Des formats différents Des options différentes pour l’interprétation des données Petite fenêtre de décision comparée à la vitesse à laquelle les données changent Un grand nombre de données très rapidement (streaming) Volume Vélocité Variété
  • 43. Hadoop à demeure et dans le cloud Plateforme Big Data d’entreprise à demeure Distribution à base d’Hadoop sur Windows Server avec Microsoft HDInsight Plateforme Big Data élastique dans le cloud Service à base d’Hadoop sur Windows Azure avec HDInsight Service Connecteurs Hadoop pour SQL Server Etendre votre entrepôt de données d’entreprise avec du Big Data
  • 44. Pourquoi Hadoop + BI ? Critère Hadoop & Hive Moteurs de requêtage BI Récupérer et stocker toutes les données Oui Non Support des requêtes sur les données de détail Oui Non Support des requêtes interactives et depuis des applications Non Oui Support des outils de BI et de visualisation Non Oui
  • 45. Solution Big Data de Microsoft
  • 48. MAP / REDUCE Extrait de « Hadoop Tutorial from Yahoo!" (Yahoo! Inc.) / CC BY 3.0 »
  • 49. Livre blanc sur SSIS et Hadoop http://msdn.microsoft.com/en-us/library/jj720569.aspx
  • 50. Livre blanc sur SSIS et Hadoop Internet or LAN http://msdn.microsoft.com/en-us/library/jj720569.aspx
  • 51. Windows Azure • Comment récupère-t-on les données ? • XXX Réseaux sociaux

Notes de l'éditeur

  1. Notation
  2. 11:00Intro Architecture / Azure / Cloud
  3. @abolibibelot10’’
  4. @abolibibelot1’30’’Mahout également
  5. @benjguin30’’
  6. @benjguin30’’
  7. @benjguin1’
  8. @abolibibelot10’’
  9. @abolibibelot2’30’’
  10. 11:08
  11. @benjguin3’
  12. @benjguin2’
  13. @benjguin7’
  14. @abolibibelot
  15. @abolibibelot5’
  16. @benjguin5’
  17. 11:30
  18. @abolibibelot2’
  19. @abolibibelot30’’
  20. @benjguin5’
  21. @abolibibelot7’30’’
  22. 11h45
  23. @benjguin
  24. 11:55(Word count en test unitaire C#)(http://channel9.msdn.com/Events/Build/2012/3-038)
  25. @abolibibelot
  26. Les blocs de couleurs sont éditables et peuvent reprendre la couleur du type de session qui est donnée.Idem pour les textes.
  27. Les blocs de couleurs sont éditables et peuvent reprendre la couleur du type de session qui est donnée.
  28. Les blocs de couleurs sont éditables et peuvent reprendre la couleur du type de session qui est donnée.
  29. Les blocs de couleurs sont éditables et peuvent reprendre la couleur du type de session qui est donnée.
  30. Last fall we announced a Big Data strategy that embraces Hadoop for activating this ambient data being born outside the traditional data platform. Hadoop is the open source implementation of MapReduce parallel computation engine and environment, and it's used (quite widely now) in the processing of streams of data that go well beyond even the largest enterprise data sets in size. Whether it’s sensor, clickstream, social media, location-based or other data that is generated and collected in large gobs, Hadoop is often on the scene in the service of processing and analyzing it. Here’s Microsoft’s Big Data strategy: Enterprise Ready – delivering an enterprise class implementation or distribution of Hadoop for Windows Server and Windows Azure, integrated with SQL Server 2012, Active Directory and System Center makes it dramatically easier, efficient and cost effective for your organization to capitalize on the opportunity Big Data can bring to your business.  And with the Hadoop distribution for Windows Azure, customers can instantly begin taking advantage of the benefits of Big Data without capital infrastructure or operational costs. Microsoft’s Big Data solution enables customers to connect to publicly available unstructured data from social media sites such as Twitter and Facebook. Delivering Insights for Everyone with MS BI – Through deep integration with BI (PowerPivot and PowerView) and EDW tools, Microsoft’s Big Data solution offers customers deep insights on all their structured and unstructured data with the tools they use every day.
  31. Discover Data: Today, it is hard enough to find the right dataset within an organization, let alone outside it. A typical Analyst spends too much time searching for the right data from thousands of sources, which adversely impacts productivity. We will move from a world of search to one of discovery where information is brought to the user based on who you are, and what you are working on.We offer unique tools to facilitate discovery of data both within and outside an organization. An Azure Lab, codenamed “Data Explorer”, enables customers to discover relevant datasets through automatic recommendations, e.g. if an analyst is building a customer segmentation model for SMBs and selects a customer dataset, the tool can automatically recommend related datasets such as Dunn and Bradstreet with useful credit information. Another lab codenamed “Data Hub” enables an organization to create a private Data Market to facilitate discovery and sharing of data and analytical models. The Azure Marketplace Datamarket enables discovery and sharing outside the firewall and with 3rd party data sources.  
  32. Les blocs de couleurs sont éditables et peuvent reprendre la couleur du type de session qui est donnée.
  33. Les blocs de couleurs sont éditables et peuvent reprendre la couleur du type de session qui est donnée.
  34. 8’Navigation dans SharePointSite d’administrationNavigation depuis Internetsi possible: basculement du SQL Server en databasemirroring