SlideShare une entreprise Scribd logo
Objets connectés, 
Big Data, 
Machine Learning
Architecture Lambda
Architecture d’une partie des démos
Ingestion de la donnée (10’) 
Thomas Conté - @tomconte
Azure Service Bus 
Relay 
Queue 
Topic 
Notification Hub 
Event Hub 
Service de traverse NAT / Firewall 
Services Request/Response 
Unbuffered ; TCP Throttling 
Broker AMQP/HTTP Transactionnel 
High-Scale, High-Reliability Messaging 
Sessions, Scheduled Delivery, etc. 
Distribution Transactionnelle de Messages 
Up to 2000 souscriptions per Topic 
Up to 2K/100K filter rules per subscription 
High-scale notification distribution 
Most mobile push notification services 
Millions of notification targets 
Concentrateur 
d’évènements
Vue d’ensemble Azure Event Hubs 
Producteurs 
d’évènements 
> 1M Producers 
> 1GB/sec 
Aggregate 
Throughput 
Direct 
PartitionKey 
Hash 
Throughput Units: 
• 1 ≤ TUs ≤ Partition Count 
• TU: 1 MB/s writes, 2 MB/s reads 
AMQP 1.0 
Credit-based flow control 
Client-side cursors 
Offset by Id or Timestamp
Publishers (Producteurs) 
• Nombre élevé d’émetteurs 
• Intermittent, faible débit: HTTPS 
• Permanent, haut débit: AMQP 
• Les connections permanentes AMQP sont 
payantes, pas les requêtes HTTPS; le prix inclut un 
quota de connections AMQP 
• On publie vers… 
• PartitionId 
• Direct 
• PartitionKey 
• PartitionKey qui implique un PartitionId 
• Publisher Policy (<eh>/publishers/<name>) 
• <name> remplace PartitionKey 
Event 
Producers 
Direct 
PartitionKey 
Hash
Consumer Groups 
• Une vue sur le flux d’évènements 
• Conceptuellement proche d’un 
abonnement (Topics) dans le sens où ils 
offrent une « vue » du flux d’évènements 
• Point de référence pour les checkpoints 
(votre responsabilité) 
• Point de référence pour créer des 
récepteurs par partition 
• Toujours un Consumer Group par défaut 
• Jusqu’à 20 Consumer Groups 
“Les récepteurs lisent via un Consumer Group”
• Lisent les partitions via le CG 
• En utilisant l’API .NET ou des librairies AMQP 1.0 (e.g. Apache 
Proton-C/J) 
• Curseurs (offsets) gérés par les clients (!= 
Queue/Topic) 
• Maximum de flexibilité dans la réception 
• Peut être utilisé comme un historique d’évènements pour la durée 
de rétentions 
• Non utilisable comme archive: la valeur des données brutes se 
détériore souvent rapidement 
• Synchronisation entre flux: par timestamp 
• Les checkpoints sont de la responsabilité des clients 
• Support intégré d’un modèle d’élection 
via epochs pour les lecteurs 
Consumers 
Time 
ID
démonstration
Traitement « Temps réel » (20’) 
Benjamin Guinebertière - @benjguin 
Franck Mercier - @franmerms
Storm 
• Gestion de millions d’événements en temps réel 
• Disponible dans Hadoop: HDInsight, HDP, CDH, MapR, Apache, … 
• Architecture distribuée
Topologie de la démo 
Parser 
Tableau 
de bord 
HBase 
Cassandra
démonstration
SignalR, d3js, Excel 
• SignalR 
• Hub de communication bi-directionnel client/serveur Web 
• cf http://www.asp.net/signalr 
• d3js 
• “D3.js is a JavaScript library for manipulating documents 
based on data. D3 helps you bring data to life using HTML, 
SVG and CSS” 
• http://d3js.org/ 
• Excel 
• How to: Create your first content app for Excel with "Napa" 
Office 365 Development Tools
démonstration
Introduction à Stream Analytics
Ingère des millions d’évènements 
par secondes 
• Ingère et traite des données envoyées par des 
applications/objets connectés 
• Solution avec montée en charge intégrée 
Traitement des données en 
continue 
• Transformer, enrichir, opérations temporelles 
• Détection des patterns et des anomalies 
Corrélation du flux de données 
avec des données de référence
Pas d’acquisition de matériel 
Pas de maintenance 
Pas d’expertise de déploiement 
Installation et paramétrages via le portail Azure 
Pas de logiciel à installer et à maintenir 
Mise à l’échelle en fonction des 
besoins
Introduction à Stream Analytics
Fiabilité des traitements 
Garantie d’aucune perte des évènements ou de 
sorties incorrectes 
Préserve l’ordre des évènements par “device” 
d’entrées 
Garantie de continuité de 
service 
Garantie de disponibilité : 99,9% 
Reprise automatique en cas d’erreur
Bénéficie de l’élasticité du Cloud 
Mise à l’échelle en fonction des besoins 
Gestion via le portail Azure 
Architecture distribuée 
Solution économique 
Coût calculé en fonction de l’usage 
Possibilité d’ajuster en fonction des besoins 
Provisionnez er démarrez une solution Stream 
Analytics pour 25$/Mois
Introduction à Stream Analytics
Création d’une solution de 
traitement en temps réel 
grâce à un langage proche 
du T-SQL 
Filtrer, agréger, joindre des flux de données avec 
quelques lignes de T-SQL 
Fonctions temporelles nativement intégrées 
Développer et maintenir 
une solution Stream 
Analytics via le portail 
Azure 
RDapéivde Dloepvpeelompemnetn t 
rapide
Monitoring intégré 
Surveiller la performance de votre 
solution via le portail Azure. 
Accès aux journaux d’évènements
Vue d’ensemble de l’architecture 
Azure Stream Analytics 
• Temporal Semantics 
• Guaranteed delivery 
• Guaranteed up time 
Event Inputs 
- Event Hub 
- Azure Blob 
Transform 
- Temporal joins 
- Filter 
- Aggregates 
- Projections 
- Windows 
- Etc. 
Enrich 
Correlate 
Outputs 
- SQL Azure 
- Azure Blobs 
- Event Hub 
BI 
Dashboards 
Predictive 
Analytics 
☁ 
Azure 
Storage 
Reference Data 
- Azure Blob 
Data Source Collect Process Deliver Consume
démonstration
Data Movement (20’) 
Franck Mercier - @franmerms 
Thomas Conté - @tomconte
Talend 5.6 supporte HDInsight
Talend Big Data 
Studio 
Talend Big Data 
Select Icons made by Freepik, Situ Herrera, www.flaticon.com 
Internet 
of 
Things 
ERP 
DBMS / 
EDW 
Legacy 
Systems 
Ingestion 
NoSQL 
Map Profile Parse Match 
Cleanse 
Standardiz 
e 
Change 
Data 
Capture 
Machine 
Learning 
Standard 
Reports 
Ad-hoc 
Query Tools 
Data 
Mining 
MDD/OLA 
P 
Analytical 
Applications 
Develop and Test Operations Team 
Share Schedule 
NoSQL 
Web 
Logs 
Native 
Access 
Benefits 
Increased 
Productivity 
Lowest TCO 
Future Proof 
Architecture
Talend & Azure Blob Storage 
• Azure Blob 
Storage 
• Connection 
• Container management 
• Storage (Put, Get, Delete, List)
Microsoft Azure HD Insight (Talend 5.6) 
• Microsoft Azure 
HDInsight 
• New Hadoop Metadata for 
HDInsight 
• Load and Extract Data to/from 
HDInsight 
• Natively Run Map/Reduce jobs 
within HDInsight (ELT) 
• No Talend server to run on the 
cluster 
http://screencast.com/t/ImQzBPGXgB
Azure Data Factory
34 
Data sources 
Increasing 
data volumes 
1 
Real-time 
data 
2 
New data 
sources & types 
3 
Non-Relational Data 
4 
Cloud-born 
data
ETL Tool 
(SSIS, etc) 
EDW 
(SQL Svr, Teradata, etc) 
Extract 
Original Data 
Load 
Transformed 
Data 
Transform 
BI Tools 
Data Marts 
Data Lake(s) 
Dashboards 
Apps
ETL Tool 
(SSIS, etc) 
EDW 
(SQL Svr, Teradata, etc) 
Extract 
Original Data 
Load 
Transformed 
Data 
Transform 
BI Tools 
Ingest (EL) 
Original Data 
Data Marts 
Data Lake(s) 
Dashboards 
Apps
ETL Tool 
(SSIS, etc) 
EDW 
(SQL Svr, Teradata, etc) 
Extract 
Original Data 
Load 
Transformed 
Data 
Transform 
BI Tools 
Ingest (EL) 
Original Data 
Scale-out 
Storage & 
Compute 
(HDFS, Blob Storage, 
etc) 
Transform & Load 
Data Marts 
Data Lake(s) 
Dashboards 
Apps 
Streaming data
ETL Tool 
(SSIS, etc) 
EDW 
(SQL Svr, Teradata, etc) 
Extract 
Original Data 
Load 
Transformed 
Data 
Transform 
BI Tools 
Ingest (EL) 
Original Data 
Scale-out 
Storage & 
Compute 
(HDFS, Blob Storage, 
etc) 
Transform & Load 
Data Marts 
Data Lake(s) 
Dashboards 
Apps 
Streaming data
BI Tools 
Data Marts 
Data Lake(s) 
Dashboards 
Apps 
Data Hub 
(Storage & Compute) 
Data Hub 
(Storage & Compute) 
Data Sources 
(Import From) 
Move data 
among Hubs 
Data Sources 
(Import From) 
Ingest 
Ingest 
Information Production: 
Move to data mart, etc 
Connect & Collect Transform & Enrich Publish
Azure Camp 9 Décembre 2014 - slides session développeurs IOT Big Data
Azure Data Factory 
Pipelines 
DataSet 
Data Store 
Power BI Data Catalog 
Compute 
(Transform & Copy) 
Data Store 
Compute 
(Transform & Copy) 
Data Store 
On Premises 
Hubs 
Cloud Hubs SaaS Hubs 
(Salesforce.com, etc) 
Orchestrat 
e 
& 
Schedule 
Manage 
& 
Monitor 
Read 
& 
Write 
Orchestrate 
& Schedule 
Activity 
Manage 
& Monitor 
Compute 
(Transform & Copy) 
DataSet 
Activity 
DataSet 
BI | Apps | … 
Find/Consume 
Publish 
Search/Publish 
Consume 
Orchestrate 
& Schedule 
Manage 
& Monitor 
Read& 
Write 
Ingest Ingest Ingest 
Data Sources 
(Twitter, Facebook,Sensors, S3, online CRM, etc) 
Read 
& 
Write 
Azure Data Factory 
Une plateforme pour développer des services de récupérations et/ou 
transformations de données, des services de stockage ou de mouvements de 
données 
Pipeline 
Les pipelines sont soit des groupes de mouvements de données, soit de 
transformations de données. Les pipelines acceptent N sources de données en 
entrées et peuvent produire N jeux de données en sortie. Les pipelines peuvent 
être exécutés en une seule fois ou sur des plages de temps (heure, jour, 
semaine,…) 
Dataset 
Un Dataset est une vue nommée des données. Les données peuvent être de 
sources très variées : Données binaires, semi-structurées (ex: CSV), des tables,… 
Activité (Activity) 
Une activité est une unité d’exécution dans laquelle le pipeline peut réaliser des 
mouvements ou des transformations de données. Une activité peut 
importer/exporter des données depuis de sources disparates utilisée par 
l’entreprise vers un data hub 
Data Hub 
Un data hub est un jumelage d’un stockage de données avec un service de 
calcul. Par exemple, un cluster Hadoop (Stockage HDFS, Hive/Pig pour le calcul) 
est un data hub. De même, un data warehouse d’entreprise peut être conçu 
comme un data hub (Base de données pour le stockage, ETL ou procédures 
stockées pour le calcul)
Azure Camp 9 Décembre 2014 - slides session développeurs IOT Big Data
Coordination: 
• Rich scheduling 
• Complex dependencies 
• Incremental rerun 
Authoring: 
• JSON & Powershell/C# 
Management: 
• Lineage 
• Data production policies (late data, rerun, latency, etc) 
Hub: Azure Hub (HDInsight + Blob storage) 
• Activities: Hive, Pig, C# 
• Data Connectors: Blobs, Tables, Azure DB, On Prem SQL Server,
Batches et Hadoop (20’) 
Thomas Conté - @tomconte 
Benjamin Guinebertière - @benjguin
Azure Batch 
• HPC / Big Compute 
• Exemples de scénarios: transcodage de média, 
génération ou analyse d’images, build, tests, 
dynamique des fluides, simulations Monte 
Carlo, simulations (ingénierie) 
HPC Pack 
On-Premises 
• On-premises clusters 
• Ability to scale to 
reduce runtimes 
• Job scheduling and 
mgmt via head node 
• Reliability 
HPC Pack 
Hybrid 
• Run on-premises, in 
cloud, or both 
• Reduced infrastructure 
- use cloud for peaks 
• Flexibility to manage 
job run times 
HPC Pack 
IaaS 
• All cloud 
• Flexible configuration 
• Flexible data 
management 
• Reduced infrastructure 
• Still manually deploy 
and manage VM’s 
Azure Batch 
PaaS 
• All cloud 
• Easy to use 
• No deployment or 
management 
• Cater for small to very 
large customers 
• Complete elasticity 
with auto-scale 
• Improved control over 
Pay-for-use
Azure Batch - Add Big Compute to a service 
Service 
Azure Batch 
• Foundational batch processing 
platform 
• Avoid building infrastructure 
VM Management & Job Scheduling 
PaaS 
Cloud Services 
IaaS 
Virtual Machines 
Hardware 
Voir session TechEd Europe sur le sujet: 
http://channel9.msdn.com/Events/TechEd/Europe/2014/DBI-B216
Qu’est-ce qu’Hadoop ? 
Source: http://fr.hortonworks.com/hdp/
Hadoop et Microsoft 
• Microsoft est contributeur Hadoop 
• Hortonworks Data Platform (HDP) 
• Sur Windows Server et Linux 
• Noeuds Hadoop dans Analytics Platform System 
• HDInsight (inclut le support y compris sur Hive par 
exemple) 
• Azure Marketplace 
• Cloudera distribution (CDH) 
• Azure Marketplace 
• MapR, Apache, … 
• Sur des VMs Azure
Où sont les données 
Hadoop ? 
Conteneur (wasb://) 
VHD Cache 
VHD 
VHD 
VHD 
client 
VM 
OS 
Data 
VM 
VHD Cache 
OS 
Data 
VHD 
VHD 
VHD 
(…) 
Réplication HDFS 
hdfs:// 
wasb://
HDinsight 
HDInsight 
Map/Reduce Hive Pig HCatalog Ambari 
Blobs Azure HDFS 
Sqoop 
Oozie 
Azure UX SDK Azure 
WebHcat/ 
Templeton 
RDP 
Storm 
Yarn 
HBase
Pourquoi HDInsight sur Azure ? 
• Simple à déployer (portail, PowerShell, CLI, SDK) 
• Simple de suivre les évolutions d’Hadoop 
• Support de bout en bout 
• On peut appeler pour une question sur Hive par exemple 
• Accès aux blobs 
• Nouveau: 
• Storm, HBase, 
• scripts de personnalisation (ex: Spark, R)
HDInsight 
Conteneur (wasb://) 
client 
VM 
VHD Cache 
OS 
Data 
VM 
VHD Cache 
OS 
Data 
(…) 
Réplication HDFS 
hdfs:// 
wasb://
démonstration
Pourquoi Hortonworks sur Azure ? 
• Déployable simplement avec l’assistant de la marketplace 
• Comme HDInsight mais en Linux et sur des VMs 
• Possible de modifier la configuration du cluster 
• On peut arrêter / redémarrer le cluster et sa configuration 
• Vs recréation d’un cluster en HDInsight 
• Accès aux blobs 
• réversibilité
HDP (Marketplace) 
Conteneur (wasb://) 
VHD Cache 
VHD 
VHD 
VHD 
client 
VM 
OS 
Data 
VM 
VHD Cache 
OS 
Data 
VHD 
VHD 
VHD 
(…) 
Réplication HDFS 
hdfs:// 
wasb://
démonstration
Pourquoi Cloudera sur Azure ? 
• Pour avoir une configuration identique à ce que vous 
avez déjà par ailleurs 
• Déployable simplement avec l’assistant de la marketplace 
• Possible de modifier la configuration du cluster 
• On peut arrêter / redémarrer le cluster et sa configuration 
• Vs recréation d’un cluster en HDInsight 
• Réversibilité 
• Impala
CDH (Marketplace) 
VHD Cache 
VHD 
client 
VM 
OS 
Data 
VM 
VHD Cache 
OS 
Data 
VHD 
(…) 
Réplication HDFS 
hdfs://
démonstration
Azure Camp 9 Décembre 2014 - slides session développeurs IOT Big Data
noSQL (20’) 
Benjamin Guinebertière - @benjguin 
Franck Mercier - @franmerms
Pourquoi noSQL ? 
• Not only SQL 
• Parce que c’est plus simple ! 
• Ex: stocker un JSON dans Document DB ou MongoDB 
• Montée en charge horizontale (scale out) 
• Vs relationnel == tout au même endroit
Quelques bases noSql 
• Document DB: vue en début d’après-midi 
• HBase 
• Cassandra / DataStax Enterprise 
• Et plein d’autres: 
• MongoBD, CouchDB, Riak, Redis, Memcached, …
Positionnement HBase/Cassandra 
• Bases de données noSQL 
• Orientées colonnes 
Quelques critères HBase Cassandra / DataStax Entreprise 
Intégration avec Hadoop Né dans Hadoop Il existe des connecteurs 
Support éditeur Hortonworks, Cloudera, MapR 
Microsoft (pour HDInsight) 
DataStax 
Architecture Bases de données en lecture / 
écriture sur système de fichiers 
« Write Once » (HDFS) 
Pensé pour la lecture 
Tous les noeuds jouent le même 
rôle. Donnée stockée dans chaque 
noeud et distribuée 
Pensé pour l’écriture 
Support du multi datacenter Par réplication de clusters Oui 
SQL Oui via Phoenix, Hive, … CQL devient LE mode d’accès à 
Cassandra
HBase 
• Dans HDInsight 
• Type de cluster HDInsight: HBase 
• Données dans blobs Azure
démonstration
Cassandra 
• DataStax Enterprise disponible dans la marketplace Azure
DataStax Enterprise 
• http://www.datastax.com/what-we-offer/products-services/ 
datastax-enterprise
Cassandra 
•Déployable sur plusieurs Datacenters 
• Exemple de topologie:
démonstration
Notebooks iPython dans Azure 
pour la Recherche scientifique 
(10’) 
Claude Martini, CEO Zeliade 
(Pierre-Louis Xech)
Azure Camp 9 Décembre 2014 - slides session développeurs IOT Big Data
Azure Camp 9 Décembre 2014 - slides session développeurs IOT Big Data
Une plateforme collaborative pour la 
recherche appliquée 
Azure Camp 
9 décembre 2014
Agenda 
• IPython notebooks 
• Zanadu, une plateforme collaborative pour la 
recherche appliquée 
• Architecture sur Azure
IPython notebooks
Zanadu… 
• CMS de notebooks pour la recherche appliquée 
• Plateforme COLLABORATIVE 
• Sur Azure (Lauréat du 1er Grant Azure for Research, 
avec le lab GREGOR)
Groups & Channels…
Azure Camp 9 Décembre 2014 - slides session développeurs IOT Big Data
Load Balancer 
Zanadu App 
(Tornado, Web 
Socket, IPython,…) 
Zanadu App 
(Tornado, Web 
Socket, IPython,…) 
Zanadu App 
(Tornado, Web 
Socket, IPython,…) 
Zanadu App 
(Tornado, Web 
Socket, IPython,…)
Code 
• Python.. 
• ..R, Octave, Julia 
• OCaml, Scala, FSharp, Scilab, CSharp,.. 
• Dans le même notebook! 
• ‘Native’ literate programming 
• Collaborative distributed library 
• Calculs intensifs sur Azure (IPython Parallel)
Join ZANADU 
www.zanadu.io
Machine Learning (20’) 
Franck Mercier - @franmerms 
Benjamin Guinebertière - @benjguin
Machine Learning 
• “The goal of machine learning is to build computer systems that can 
adapt and learn from their experience.” (Tom Dietterich) 
• Another definition: “The goal of machine learning is to program 
computers to use example data or past experience to solve a given 
problem.” (Introduction to Machine Learning, 2nd Edition, MIT Press) 
• ML implique souvent 2 techniques primaires : 
• Apprentissage supervisé : trouver une correspondance entre les entrées et les sorties en 
utilisant des valeurs correctes pour “entrainer” un modèle. Dans ce type d’apprentissage, les 
échantillons de données sont labélisés. 
• Apprentissage non supervisé : touver des patterns dans les données d’entrées (similaire aux 
estimations de densité en statistiques). Les échantillons de données ne sont pas labelisés. 
86
Apprentissage supervisé 
1. Car 
2. Not Car
Apprentissage non supervisé 
Exemple 1 exemple A Exemple 2 
exemple B Exemple 3 exemple C 
exemple A exemple B exemple C 
Exemple 1 Exemple 2 Exemple 3
Machine Learning : préparation 
gender age smoker eye 
color 
male 19 yes green 
female 44 yes gray 
male 49 yes blue 
male 12 no brown 
female 37 no brown 
female 60 no brown 
male 44 no blue 
female 27 yes brown 
female 51 yes green 
female 81 yes gray 
male 22 yes brown 
male 29 no blue 
Bike 
buyer 
no 
yes 
yes 
no 
no 
yes 
no 
no 
yes 
no 
no 
no 
male 77 yes gray 
male 19 yes green 
female 44 no gray 
? 
? 
? 
93
Machine Learning : préparation 
gender age smoker eye 
color 
male 19 yes green 
female 44 yes gray 
male 49 yes blue 
male 12 no brown 
female 37 no brown 
female 60 no brown 
male 44 no blue 
female 27 yes brown 
female 51 yes green 
female 81 yes gray 
male 22 yes brown 
male 29 no blue 
bike 
buyer 
no 
yes 
yes 
no 
no 
yes 
no 
no 
yes 
no 
no 
no 
male 77 yes gray 
male 19 yes green 
female 44 no gray 
? 
? 
? 
Train 
ML Model 
94
Machine Learning : préparation 
gender age smoker eye 
color 
male 19 yes green 
female 44 yes gray 
male 49 yes blue 
male 12 no brown 
female 37 no brown 
female 60 no brown 
male 44 no blue 
female 27 yes brown 
female 51 yes green 
female 81 yes gray 
male 22 yes brown 
male 29 no blue 
bike 
buyer 
no 
yes 
yes 
no 
no 
yes 
no 
no 
yes 
no 
no 
no 
male 77 yes gray 
male 19 yes green 
female 44 no gray 
yes 
no 
no 
Train 
ML Model 
95
Etapes pour construire une solution de Machine Learning
Les freins à l’adoption 
• La « Data Science » reste trop complexe 
• L’accès aux algorithmes de « machine learning » 
est trop cher 
• Nécessité de maîtriser de nombreux outils pour 
réaliser une solution complète (acquisition des 
données, nettoyage, expérimentation,….) 
• Capacité à mettre facilement un modèle en 
production
Microsoft Azure Machine Learning 
Réduire la complexité et favoriser la participation 
• Accessible depuis un navigateur Web, aucune 
installation nécessaire 
• Solution collaborative. Création d’espaces de 
travail permettant un travail d’équipe depuis 
n’importe quel endroit 
• Création d’expérimentations visuelles de bout 
en bout 
• Solution extensible. Support de R OSS
Microsoft Azure Machine Learning 
Expérimentation simple et rapide à la recherche du meilleur modèle 
• Expérimenter un large panel de 
fonctionnalités et d’algorithmes 
• Déploiement rapide des modèles 
• Génération de codes d’utilisation des 
modèles. 
• Déploiement via l’API d’Azure
Une solution de Machine Learning – des données aux résultats 
Business users easily access 
results: 
from anywhere, on any device 
ML Studio 
and the Data Scientist 
• Access and prepare data 
• Create, test and train models 
• Collaborate 
• One click to stage for 
production via the API service 
HDInsight 
Azure Storage 
Desktop Data 
Mobile Apps 
PowerBI/ 
Web Apps Dashboards 
ML API service and the Developer 
• Tested models available as an url that can be called from any end point 
Azure Portal & ML API service 
and the Azure Ops Team 
• Create ML Studio workspace 
• Assign storage account(s) 
• Monitor ML consumption 
• See alerts when model is ready 
• Deploy models to web service
démonstration
Azure Camp 9 Décembre 2014 - slides session développeurs IOT Big Data

Contenu connexe

Tendances

Quelles stratégies de Recherche avec Cassandra ?
Quelles stratégies de Recherche avec Cassandra ?Quelles stratégies de Recherche avec Cassandra ?
Quelles stratégies de Recherche avec Cassandra ?
Victor Coustenoble
 
Meetup intro techno big data
Meetup intro techno big dataMeetup intro techno big data
Meetup intro techno big data
Romain Jouin
 
Datastax Cassandra + Spark Streaming
Datastax Cassandra + Spark StreamingDatastax Cassandra + Spark Streaming
Datastax Cassandra + Spark Streaming
Victor Coustenoble
 
SQL Saturday Paris 2015 - Polybase
SQL Saturday Paris 2015 - PolybaseSQL Saturday Paris 2015 - Polybase
SQL Saturday Paris 2015 - Polybase
Romain Casteres
 
Introduction à la big data V2
Introduction à la big data V2Introduction à la big data V2
Introduction à la big data V2
Mehdi TAZI
 
Comment M6 personnalise l’expérience utilisateur du service 6Play avec DataSt...
Comment M6 personnalise l’expérience utilisateur du service 6Play avec DataSt...Comment M6 personnalise l’expérience utilisateur du service 6Play avec DataSt...
Comment M6 personnalise l’expérience utilisateur du service 6Play avec DataSt...
DataStax
 
DataStax Enterprise BBL
DataStax Enterprise BBLDataStax Enterprise BBL
DataStax Enterprise BBL
Victor Coustenoble
 
Oxalide MorningTech #1 - BigData
Oxalide MorningTech #1 - BigDataOxalide MorningTech #1 - BigData
Oxalide MorningTech #1 - BigData
Ludovic Piot
 
DataStax Enterprise et Cas d'utilisation de Apache Cassandra
DataStax Enterprise et Cas d'utilisation de Apache CassandraDataStax Enterprise et Cas d'utilisation de Apache Cassandra
DataStax Enterprise et Cas d'utilisation de Apache Cassandra
Victor Coustenoble
 
Aws vs azure
Aws vs azureAws vs azure
Aws vs azure
Manfred Dardenne
 
BIG DATA - Cloud Computing
BIG DATA - Cloud ComputingBIG DATA - Cloud Computing
BIG DATA - Cloud Computing
senejug
 
DataStax Enterprise - Cas d'usage
DataStax Enterprise - Cas d'usageDataStax Enterprise - Cas d'usage
DataStax Enterprise - Cas d'usage
Claude-Alain Glauser
 
Track 2 - Atelier 1 - Big data analytics présenté avec Intel
Track 2 - Atelier 1 - Big data analytics présenté avec IntelTrack 2 - Atelier 1 - Big data analytics présenté avec Intel
Track 2 - Atelier 1 - Big data analytics présenté avec Intel
Amazon Web Services
 
[French] Matinale du Big Data Talend
[French] Matinale du Big Data Talend[French] Matinale du Big Data Talend
[French] Matinale du Big Data Talend
Jean-Michel Franco
 
DataStax et Apache Cassandra pour la gestion des flux IoT
DataStax et Apache Cassandra pour la gestion des flux IoTDataStax et Apache Cassandra pour la gestion des flux IoT
DataStax et Apache Cassandra pour la gestion des flux IoT
Victor Coustenoble
 
OWF12/BIG DATA Presentation big data owf ysance
OWF12/BIG DATA Presentation big data owf ysanceOWF12/BIG DATA Presentation big data owf ysance
OWF12/BIG DATA Presentation big data owf ysance
Paris Open Source Summit
 
BigData_Chp1: Introduction à la Big Data
BigData_Chp1: Introduction à la Big DataBigData_Chp1: Introduction à la Big Data
BigData_Chp1: Introduction à la Big Data
Lilia Sfaxi
 
La "Data science" au service des entreprises
La "Data science" au service des entreprisesLa "Data science" au service des entreprises
La "Data science" au service des entreprises
Aymen ZAAFOURI
 
04 big data fournisseurs
04 big data fournisseurs04 big data fournisseurs
04 big data fournisseurs
Patrick Bury
 

Tendances (20)

Quelles stratégies de Recherche avec Cassandra ?
Quelles stratégies de Recherche avec Cassandra ?Quelles stratégies de Recherche avec Cassandra ?
Quelles stratégies de Recherche avec Cassandra ?
 
Meetup intro techno big data
Meetup intro techno big dataMeetup intro techno big data
Meetup intro techno big data
 
Datastax Cassandra + Spark Streaming
Datastax Cassandra + Spark StreamingDatastax Cassandra + Spark Streaming
Datastax Cassandra + Spark Streaming
 
SQL Saturday Paris 2015 - Polybase
SQL Saturday Paris 2015 - PolybaseSQL Saturday Paris 2015 - Polybase
SQL Saturday Paris 2015 - Polybase
 
Introduction à la big data V2
Introduction à la big data V2Introduction à la big data V2
Introduction à la big data V2
 
Comment M6 personnalise l’expérience utilisateur du service 6Play avec DataSt...
Comment M6 personnalise l’expérience utilisateur du service 6Play avec DataSt...Comment M6 personnalise l’expérience utilisateur du service 6Play avec DataSt...
Comment M6 personnalise l’expérience utilisateur du service 6Play avec DataSt...
 
DataStax Enterprise BBL
DataStax Enterprise BBLDataStax Enterprise BBL
DataStax Enterprise BBL
 
Oxalide MorningTech #1 - BigData
Oxalide MorningTech #1 - BigDataOxalide MorningTech #1 - BigData
Oxalide MorningTech #1 - BigData
 
DataStax Enterprise et Cas d'utilisation de Apache Cassandra
DataStax Enterprise et Cas d'utilisation de Apache CassandraDataStax Enterprise et Cas d'utilisation de Apache Cassandra
DataStax Enterprise et Cas d'utilisation de Apache Cassandra
 
Aws vs azure
Aws vs azureAws vs azure
Aws vs azure
 
Introduction à Hadoop
Introduction à HadoopIntroduction à Hadoop
Introduction à Hadoop
 
BIG DATA - Cloud Computing
BIG DATA - Cloud ComputingBIG DATA - Cloud Computing
BIG DATA - Cloud Computing
 
DataStax Enterprise - Cas d'usage
DataStax Enterprise - Cas d'usageDataStax Enterprise - Cas d'usage
DataStax Enterprise - Cas d'usage
 
Track 2 - Atelier 1 - Big data analytics présenté avec Intel
Track 2 - Atelier 1 - Big data analytics présenté avec IntelTrack 2 - Atelier 1 - Big data analytics présenté avec Intel
Track 2 - Atelier 1 - Big data analytics présenté avec Intel
 
[French] Matinale du Big Data Talend
[French] Matinale du Big Data Talend[French] Matinale du Big Data Talend
[French] Matinale du Big Data Talend
 
DataStax et Apache Cassandra pour la gestion des flux IoT
DataStax et Apache Cassandra pour la gestion des flux IoTDataStax et Apache Cassandra pour la gestion des flux IoT
DataStax et Apache Cassandra pour la gestion des flux IoT
 
OWF12/BIG DATA Presentation big data owf ysance
OWF12/BIG DATA Presentation big data owf ysanceOWF12/BIG DATA Presentation big data owf ysance
OWF12/BIG DATA Presentation big data owf ysance
 
BigData_Chp1: Introduction à la Big Data
BigData_Chp1: Introduction à la Big DataBigData_Chp1: Introduction à la Big Data
BigData_Chp1: Introduction à la Big Data
 
La "Data science" au service des entreprises
La "Data science" au service des entreprisesLa "Data science" au service des entreprises
La "Data science" au service des entreprises
 
04 big data fournisseurs
04 big data fournisseurs04 big data fournisseurs
04 big data fournisseurs
 

En vedette

Machine learning pour tous
Machine learning pour tousMachine learning pour tous
Machine learning pour tous
Damien Seguy
 
Cartographie du big data
Cartographie du big dataCartographie du big data
Cartographie du big data
acogoluegnes
 
Machine learning, deep learning et search : à quand ces innovations dans nos ...
Machine learning, deep learning et search : à quand ces innovations dans nos ...Machine learning, deep learning et search : à quand ces innovations dans nos ...
Machine learning, deep learning et search : à quand ces innovations dans nos ...
Antidot
 
Machine Learning & SEO - SEO Camp'Us Paris 2016
Machine Learning & SEO - SEO Camp'Us Paris 2016Machine Learning & SEO - SEO Camp'Us Paris 2016
Machine Learning & SEO - SEO Camp'Us Paris 2016
Julien Deneuville
 
Scikit-Learn: Machine Learning en Python
Scikit-Learn: Machine Learning en PythonScikit-Learn: Machine Learning en Python
Scikit-Learn: Machine Learning en Python
Microsoft
 
Big Data: Concepts, techniques et démonstration de Apache Hadoop
Big Data: Concepts, techniques et démonstration de Apache HadoopBig Data: Concepts, techniques et démonstration de Apache Hadoop
Big Data: Concepts, techniques et démonstration de Apache Hadoop
hajlaoui jaleleddine
 
Data science a machine learning tour (french)
Data science a machine learning tour (french)Data science a machine learning tour (french)
Data science a machine learning tour (french)
Franck Bardol
 
XebiConFr15 - Les algorithmes du machine learning
XebiConFr15 - Les algorithmes du machine learningXebiConFr15 - Les algorithmes du machine learning
XebiConFr15 - Les algorithmes du machine learning
Publicis Sapient Engineering
 
Mix it2014 - Machine Learning et Régulation Numérique
Mix it2014 - Machine Learning et Régulation NumériqueMix it2014 - Machine Learning et Régulation Numérique
Mix it2014 - Machine Learning et Régulation Numérique
Didier Girard
 
Démystification du Machine Learning
Démystification du Machine LearningDémystification du Machine Learning
Démystification du Machine Learning
Microsoft Technet France
 
Machine learning
Machine learningMachine learning
Machine learning
ebiznext
 
Cloud Platform Qualification Training Intro - LinkedIn
Cloud Platform Qualification Training Intro - LinkedInCloud Platform Qualification Training Intro - LinkedIn
Cloud Platform Qualification Training Intro - LinkedIn
Didier Girard
 
The Message Cloud FRA
The Message Cloud FRAThe Message Cloud FRA
The Message Cloud FRA
SmartFocusWorld
 
Le cloud microsoft - Version courte ;)
Le cloud microsoft - Version courte ;)Le cloud microsoft - Version courte ;)
Le cloud microsoft - Version courte ;)
Nicolas Georgeault
 
Reseaux andrew tanenbaum pdf telecharger
Reseaux andrew tanenbaum pdf telechargerReseaux andrew tanenbaum pdf telecharger
Reseaux andrew tanenbaum pdf telecharger
prakatsuranjana1456
 
vers le declin des "sachants" ?
vers le declin des "sachants" ?vers le declin des "sachants" ?
vers le declin des "sachants" ?
Jean Billaut
 
SCT - Installation Backup & Restore
SCT - Installation Backup & RestoreSCT - Installation Backup & Restore
SCT - Installation Backup & Restore
SCT TELECOM
 
Data Science & Big Data, réalités et perspectives.
Data Science & Big Data, réalités et perspectives.Data Science & Big Data, réalités et perspectives.
Data Science & Big Data, réalités et perspectives.
Aleph Technologies
 
Le Perfect pitch
Le Perfect pitchLe Perfect pitch
Le Perfect pitch
Thierry Croix
 
Chp4 - Composition, Orchestration et Choregraphie de services
Chp4 - Composition, Orchestration et Choregraphie de servicesChp4 - Composition, Orchestration et Choregraphie de services
Chp4 - Composition, Orchestration et Choregraphie de services
Lilia Sfaxi
 

En vedette (20)

Machine learning pour tous
Machine learning pour tousMachine learning pour tous
Machine learning pour tous
 
Cartographie du big data
Cartographie du big dataCartographie du big data
Cartographie du big data
 
Machine learning, deep learning et search : à quand ces innovations dans nos ...
Machine learning, deep learning et search : à quand ces innovations dans nos ...Machine learning, deep learning et search : à quand ces innovations dans nos ...
Machine learning, deep learning et search : à quand ces innovations dans nos ...
 
Machine Learning & SEO - SEO Camp'Us Paris 2016
Machine Learning & SEO - SEO Camp'Us Paris 2016Machine Learning & SEO - SEO Camp'Us Paris 2016
Machine Learning & SEO - SEO Camp'Us Paris 2016
 
Scikit-Learn: Machine Learning en Python
Scikit-Learn: Machine Learning en PythonScikit-Learn: Machine Learning en Python
Scikit-Learn: Machine Learning en Python
 
Big Data: Concepts, techniques et démonstration de Apache Hadoop
Big Data: Concepts, techniques et démonstration de Apache HadoopBig Data: Concepts, techniques et démonstration de Apache Hadoop
Big Data: Concepts, techniques et démonstration de Apache Hadoop
 
Data science a machine learning tour (french)
Data science a machine learning tour (french)Data science a machine learning tour (french)
Data science a machine learning tour (french)
 
XebiConFr15 - Les algorithmes du machine learning
XebiConFr15 - Les algorithmes du machine learningXebiConFr15 - Les algorithmes du machine learning
XebiConFr15 - Les algorithmes du machine learning
 
Mix it2014 - Machine Learning et Régulation Numérique
Mix it2014 - Machine Learning et Régulation NumériqueMix it2014 - Machine Learning et Régulation Numérique
Mix it2014 - Machine Learning et Régulation Numérique
 
Démystification du Machine Learning
Démystification du Machine LearningDémystification du Machine Learning
Démystification du Machine Learning
 
Machine learning
Machine learningMachine learning
Machine learning
 
Cloud Platform Qualification Training Intro - LinkedIn
Cloud Platform Qualification Training Intro - LinkedInCloud Platform Qualification Training Intro - LinkedIn
Cloud Platform Qualification Training Intro - LinkedIn
 
The Message Cloud FRA
The Message Cloud FRAThe Message Cloud FRA
The Message Cloud FRA
 
Le cloud microsoft - Version courte ;)
Le cloud microsoft - Version courte ;)Le cloud microsoft - Version courte ;)
Le cloud microsoft - Version courte ;)
 
Reseaux andrew tanenbaum pdf telecharger
Reseaux andrew tanenbaum pdf telechargerReseaux andrew tanenbaum pdf telecharger
Reseaux andrew tanenbaum pdf telecharger
 
vers le declin des "sachants" ?
vers le declin des "sachants" ?vers le declin des "sachants" ?
vers le declin des "sachants" ?
 
SCT - Installation Backup & Restore
SCT - Installation Backup & RestoreSCT - Installation Backup & Restore
SCT - Installation Backup & Restore
 
Data Science & Big Data, réalités et perspectives.
Data Science & Big Data, réalités et perspectives.Data Science & Big Data, réalités et perspectives.
Data Science & Big Data, réalités et perspectives.
 
Le Perfect pitch
Le Perfect pitchLe Perfect pitch
Le Perfect pitch
 
Chp4 - Composition, Orchestration et Choregraphie de services
Chp4 - Composition, Orchestration et Choregraphie de servicesChp4 - Composition, Orchestration et Choregraphie de services
Chp4 - Composition, Orchestration et Choregraphie de services
 

Similaire à Azure Camp 9 Décembre 2014 - slides session développeurs IOT Big Data

Biztalk summit - IOT
Biztalk summit - IOTBiztalk summit - IOT
Biztalk summit - IOT
Cellenza
 
AWS Paris Summit 2014 - T3 - Du temps réel au data warehouse : capturez et an...
AWS Paris Summit 2014 - T3 - Du temps réel au data warehouse : capturez et an...AWS Paris Summit 2014 - T3 - Du temps réel au data warehouse : capturez et an...
AWS Paris Summit 2014 - T3 - Du temps réel au data warehouse : capturez et an...
Amazon Web Services
 
J1 T1 5 - Stream Analytics - Cédric Charlier
J1 T1 5 - Stream Analytics - Cédric CharlierJ1 T1 5 - Stream Analytics - Cédric Charlier
J1 T1 5 - Stream Analytics - Cédric Charlier
MS Cloud Summit
 
2008-10-02 Paris - Administration des applications critiques avec SQL Server ...
2008-10-02 Paris - Administration des applications critiques avec SQL Server ...2008-10-02 Paris - Administration des applications critiques avec SQL Server ...
2008-10-02 Paris - Administration des applications critiques avec SQL Server ...
Patrick Guimonet
 
IBM Bluemix Paris meetup - Big Data & Analytics dans le Cloud - Epitech- 2016...
IBM Bluemix Paris meetup - Big Data & Analytics dans le Cloud - Epitech- 2016...IBM Bluemix Paris meetup - Big Data & Analytics dans le Cloud - Epitech- 2016...
IBM Bluemix Paris meetup - Big Data & Analytics dans le Cloud - Epitech- 2016...
IBM France Lab
 
Guide (un tout petit peu) pratique (et totalement subjectif) du stream proces...
Guide (un tout petit peu) pratique (et totalement subjectif) du stream proces...Guide (un tout petit peu) pratique (et totalement subjectif) du stream proces...
Guide (un tout petit peu) pratique (et totalement subjectif) du stream proces...
Bruno Bonnin
 
Cloud Privé, Cloud Public...poursquoi choisir ?
Cloud Privé, Cloud Public...poursquoi choisir ?Cloud Privé, Cloud Public...poursquoi choisir ?
Cloud Privé, Cloud Public...poursquoi choisir ?
Microsoft Décideurs IT
 
Azure Data Factory, Mouvement de données hybride
Azure Data Factory, Mouvement de données hybrideAzure Data Factory, Mouvement de données hybride
Azure Data Factory, Mouvement de données hybride
Jean-Pierre Riehl
 
Livre blanc data-lakes converteo 2018
Livre blanc data-lakes converteo 2018Livre blanc data-lakes converteo 2018
Livre blanc data-lakes converteo 2018
Converteo
 
AWS Summit Paris - Track 4 - Session 2 - Migration Cloud, modernisation des a...
AWS Summit Paris - Track 4 - Session 2 - Migration Cloud, modernisation des a...AWS Summit Paris - Track 4 - Session 2 - Migration Cloud, modernisation des a...
AWS Summit Paris - Track 4 - Session 2 - Migration Cloud, modernisation des a...
Amazon Web Services
 
Stockage Cloud : il y en aura pour tout le monde
Stockage Cloud : il y en aura pour tout le mondeStockage Cloud : il y en aura pour tout le monde
Stockage Cloud : il y en aura pour tout le monde
Microsoft Technet France
 
Traitement distribue en BIg Data - KAFKA Broker and Kafka Streams
Traitement distribue en BIg Data - KAFKA Broker and Kafka StreamsTraitement distribue en BIg Data - KAFKA Broker and Kafka Streams
Traitement distribue en BIg Data - KAFKA Broker and Kafka Streams
ENSET, Université Hassan II Casablanca
 
Développez votre application Facebook avec Windows Azure
Développez votre application Facebook avec Windows AzureDéveloppez votre application Facebook avec Windows Azure
Développez votre application Facebook avec Windows Azure
Microsoft
 
Boostez vos applications en migrant vos bases vers SQL Server 2012 !
Boostez vos applications en migrant vos bases vers SQL Server 2012 !Boostez vos applications en migrant vos bases vers SQL Server 2012 !
Boostez vos applications en migrant vos bases vers SQL Server 2012 !
Microsoft Technet France
 
Conférence AFUP 20minutes.Fr
Conférence AFUP 20minutes.FrConférence AFUP 20minutes.Fr
Conférence AFUP 20minutes.Fr
Oxalide
 
Projet Bi - 3 - Alimentation des données
Projet Bi - 3 - Alimentation des donnéesProjet Bi - 3 - Alimentation des données
Projet Bi - 3 - Alimentation des données
Jean-Marc Dupont
 
SplunkLive! Paris 2018: Getting Data In
SplunkLive! Paris 2018: Getting Data InSplunkLive! Paris 2018: Getting Data In
SplunkLive! Paris 2018: Getting Data In
Splunk
 
Social Network Analysis Utilizing Big Data Technology
Social Network Analysis Utilizing Big Data TechnologySocial Network Analysis Utilizing Big Data Technology
Social Network Analysis Utilizing Big Data Technology
Imad ALILAT
 
Alphorm.com Formation Microsoft ATA 2016 : Installation et Configuration
Alphorm.com Formation Microsoft ATA 2016 : Installation et ConfigurationAlphorm.com Formation Microsoft ATA 2016 : Installation et Configuration
Alphorm.com Formation Microsoft ATA 2016 : Installation et Configuration
Alphorm
 
Introduction à Cloud Foundry et au PaaS
Introduction à Cloud Foundry et au PaaSIntroduction à Cloud Foundry et au PaaS
Introduction à Cloud Foundry et au PaaS
Gerard Konan
 

Similaire à Azure Camp 9 Décembre 2014 - slides session développeurs IOT Big Data (20)

Biztalk summit - IOT
Biztalk summit - IOTBiztalk summit - IOT
Biztalk summit - IOT
 
AWS Paris Summit 2014 - T3 - Du temps réel au data warehouse : capturez et an...
AWS Paris Summit 2014 - T3 - Du temps réel au data warehouse : capturez et an...AWS Paris Summit 2014 - T3 - Du temps réel au data warehouse : capturez et an...
AWS Paris Summit 2014 - T3 - Du temps réel au data warehouse : capturez et an...
 
J1 T1 5 - Stream Analytics - Cédric Charlier
J1 T1 5 - Stream Analytics - Cédric CharlierJ1 T1 5 - Stream Analytics - Cédric Charlier
J1 T1 5 - Stream Analytics - Cédric Charlier
 
2008-10-02 Paris - Administration des applications critiques avec SQL Server ...
2008-10-02 Paris - Administration des applications critiques avec SQL Server ...2008-10-02 Paris - Administration des applications critiques avec SQL Server ...
2008-10-02 Paris - Administration des applications critiques avec SQL Server ...
 
IBM Bluemix Paris meetup - Big Data & Analytics dans le Cloud - Epitech- 2016...
IBM Bluemix Paris meetup - Big Data & Analytics dans le Cloud - Epitech- 2016...IBM Bluemix Paris meetup - Big Data & Analytics dans le Cloud - Epitech- 2016...
IBM Bluemix Paris meetup - Big Data & Analytics dans le Cloud - Epitech- 2016...
 
Guide (un tout petit peu) pratique (et totalement subjectif) du stream proces...
Guide (un tout petit peu) pratique (et totalement subjectif) du stream proces...Guide (un tout petit peu) pratique (et totalement subjectif) du stream proces...
Guide (un tout petit peu) pratique (et totalement subjectif) du stream proces...
 
Cloud Privé, Cloud Public...poursquoi choisir ?
Cloud Privé, Cloud Public...poursquoi choisir ?Cloud Privé, Cloud Public...poursquoi choisir ?
Cloud Privé, Cloud Public...poursquoi choisir ?
 
Azure Data Factory, Mouvement de données hybride
Azure Data Factory, Mouvement de données hybrideAzure Data Factory, Mouvement de données hybride
Azure Data Factory, Mouvement de données hybride
 
Livre blanc data-lakes converteo 2018
Livre blanc data-lakes converteo 2018Livre blanc data-lakes converteo 2018
Livre blanc data-lakes converteo 2018
 
AWS Summit Paris - Track 4 - Session 2 - Migration Cloud, modernisation des a...
AWS Summit Paris - Track 4 - Session 2 - Migration Cloud, modernisation des a...AWS Summit Paris - Track 4 - Session 2 - Migration Cloud, modernisation des a...
AWS Summit Paris - Track 4 - Session 2 - Migration Cloud, modernisation des a...
 
Stockage Cloud : il y en aura pour tout le monde
Stockage Cloud : il y en aura pour tout le mondeStockage Cloud : il y en aura pour tout le monde
Stockage Cloud : il y en aura pour tout le monde
 
Traitement distribue en BIg Data - KAFKA Broker and Kafka Streams
Traitement distribue en BIg Data - KAFKA Broker and Kafka StreamsTraitement distribue en BIg Data - KAFKA Broker and Kafka Streams
Traitement distribue en BIg Data - KAFKA Broker and Kafka Streams
 
Développez votre application Facebook avec Windows Azure
Développez votre application Facebook avec Windows AzureDéveloppez votre application Facebook avec Windows Azure
Développez votre application Facebook avec Windows Azure
 
Boostez vos applications en migrant vos bases vers SQL Server 2012 !
Boostez vos applications en migrant vos bases vers SQL Server 2012 !Boostez vos applications en migrant vos bases vers SQL Server 2012 !
Boostez vos applications en migrant vos bases vers SQL Server 2012 !
 
Conférence AFUP 20minutes.Fr
Conférence AFUP 20minutes.FrConférence AFUP 20minutes.Fr
Conférence AFUP 20minutes.Fr
 
Projet Bi - 3 - Alimentation des données
Projet Bi - 3 - Alimentation des donnéesProjet Bi - 3 - Alimentation des données
Projet Bi - 3 - Alimentation des données
 
SplunkLive! Paris 2018: Getting Data In
SplunkLive! Paris 2018: Getting Data InSplunkLive! Paris 2018: Getting Data In
SplunkLive! Paris 2018: Getting Data In
 
Social Network Analysis Utilizing Big Data Technology
Social Network Analysis Utilizing Big Data TechnologySocial Network Analysis Utilizing Big Data Technology
Social Network Analysis Utilizing Big Data Technology
 
Alphorm.com Formation Microsoft ATA 2016 : Installation et Configuration
Alphorm.com Formation Microsoft ATA 2016 : Installation et ConfigurationAlphorm.com Formation Microsoft ATA 2016 : Installation et Configuration
Alphorm.com Formation Microsoft ATA 2016 : Installation et Configuration
 
Introduction à Cloud Foundry et au PaaS
Introduction à Cloud Foundry et au PaaSIntroduction à Cloud Foundry et au PaaS
Introduction à Cloud Foundry et au PaaS
 

Plus de Microsoft

Uwp + Xamarin : Du nouveau en terre du milieu
Uwp + Xamarin : Du nouveau en terre du milieuUwp + Xamarin : Du nouveau en terre du milieu
Uwp + Xamarin : Du nouveau en terre du milieu
Microsoft
 
La Blockchain pas à PaaS
La Blockchain pas à PaaSLa Blockchain pas à PaaS
La Blockchain pas à PaaS
Microsoft
 
Tester, Monitorer et Déployer son application mobile
Tester, Monitorer et Déployer son application mobileTester, Monitorer et Déployer son application mobile
Tester, Monitorer et Déployer son application mobile
Microsoft
 
Windows 10, un an après – Nouveautés & Démo
Windows 10, un an après – Nouveautés & Démo Windows 10, un an après – Nouveautés & Démo
Windows 10, un an après – Nouveautés & Démo
Microsoft
 
Prenez votre pied avec les bots et cognitive services.
Prenez votre pied avec les bots et cognitive services.Prenez votre pied avec les bots et cognitive services.
Prenez votre pied avec les bots et cognitive services.
Microsoft
 
Office 365 Dev PnP & PowerShell : exploitez enfin le potentiel de votre écosy...
Office 365 Dev PnP & PowerShell : exploitez enfin le potentiel de votre écosy...Office 365 Dev PnP & PowerShell : exploitez enfin le potentiel de votre écosy...
Office 365 Dev PnP & PowerShell : exploitez enfin le potentiel de votre écosy...
Microsoft
 
Créer un bot de A à Z
Créer un bot de A à ZCréer un bot de A à Z
Créer un bot de A à Z
Microsoft
 
Microsoft Composition, pierre angulaire de vos applications ?
Microsoft Composition, pierre angulaire de vos applications ?Microsoft Composition, pierre angulaire de vos applications ?
Microsoft Composition, pierre angulaire de vos applications ?
Microsoft
 
Les nouveautés SQL Server 2016
Les nouveautés SQL Server 2016Les nouveautés SQL Server 2016
Les nouveautés SQL Server 2016
Microsoft
 
Conteneurs Linux ou Windows : quelles approches pour des IT agiles ?
Conteneurs Linux ou Windows : quelles approches pour des IT agiles ?Conteneurs Linux ou Windows : quelles approches pour des IT agiles ?
Conteneurs Linux ou Windows : quelles approches pour des IT agiles ?
Microsoft
 
Administration et supervision depuis le Cloud avec Azure Logs Analytics
Administration et supervision depuis le Cloud avec Azure Logs AnalyticsAdministration et supervision depuis le Cloud avec Azure Logs Analytics
Administration et supervision depuis le Cloud avec Azure Logs Analytics
Microsoft
 
Retour d'expérience de projets Azure IoT "large scale" (MicroServices, portag...
Retour d'expérience de projets Azure IoT "large scale" (MicroServices, portag...Retour d'expérience de projets Azure IoT "large scale" (MicroServices, portag...
Retour d'expérience de projets Azure IoT "large scale" (MicroServices, portag...
Microsoft
 
Plan de Reprise d'Activité avec Azure Site Recovery
Plan de Reprise d'Activité avec Azure Site RecoveryPlan de Reprise d'Activité avec Azure Site Recovery
Plan de Reprise d'Activité avec Azure Site Recovery
Microsoft
 
Modélisation, déploiement et gestion des infrastructures Cloud : outils et bo...
Modélisation, déploiement et gestion des infrastructures Cloud : outils et bo...Modélisation, déploiement et gestion des infrastructures Cloud : outils et bo...
Modélisation, déploiement et gestion des infrastructures Cloud : outils et bo...
Microsoft
 
Transformation de la représentation : De la VR à la RA, aller & retour.
Transformation de la représentation : De la VR à la RA, aller & retour.Transformation de la représentation : De la VR à la RA, aller & retour.
Transformation de la représentation : De la VR à la RA, aller & retour.
Microsoft
 
Quelles architectures pour vos applications Cloud, de la VM au conteneur : ça...
Quelles architectures pour vos applications Cloud, de la VM au conteneur : ça...Quelles architectures pour vos applications Cloud, de la VM au conteneur : ça...
Quelles architectures pour vos applications Cloud, de la VM au conteneur : ça...
Microsoft
 
Introduction à ASP.NET Core
Introduction à ASP.NET CoreIntroduction à ASP.NET Core
Introduction à ASP.NET Core
Microsoft
 
Open Source et Microsoft Azure, rêve ou réalité ?
Open Source et Microsoft Azure, rêve ou réalité ?Open Source et Microsoft Azure, rêve ou réalité ?
Open Source et Microsoft Azure, rêve ou réalité ?
Microsoft
 
Comment développer sur la console Xbox One avec une application Universal Win...
Comment développer sur la console Xbox One avec une application Universal Win...Comment développer sur la console Xbox One avec une application Universal Win...
Comment développer sur la console Xbox One avec une application Universal Win...
Microsoft
 
Azure Service Fabric pour les développeurs
Azure Service Fabric pour les développeursAzure Service Fabric pour les développeurs
Azure Service Fabric pour les développeurs
Microsoft
 

Plus de Microsoft (20)

Uwp + Xamarin : Du nouveau en terre du milieu
Uwp + Xamarin : Du nouveau en terre du milieuUwp + Xamarin : Du nouveau en terre du milieu
Uwp + Xamarin : Du nouveau en terre du milieu
 
La Blockchain pas à PaaS
La Blockchain pas à PaaSLa Blockchain pas à PaaS
La Blockchain pas à PaaS
 
Tester, Monitorer et Déployer son application mobile
Tester, Monitorer et Déployer son application mobileTester, Monitorer et Déployer son application mobile
Tester, Monitorer et Déployer son application mobile
 
Windows 10, un an après – Nouveautés & Démo
Windows 10, un an après – Nouveautés & Démo Windows 10, un an après – Nouveautés & Démo
Windows 10, un an après – Nouveautés & Démo
 
Prenez votre pied avec les bots et cognitive services.
Prenez votre pied avec les bots et cognitive services.Prenez votre pied avec les bots et cognitive services.
Prenez votre pied avec les bots et cognitive services.
 
Office 365 Dev PnP & PowerShell : exploitez enfin le potentiel de votre écosy...
Office 365 Dev PnP & PowerShell : exploitez enfin le potentiel de votre écosy...Office 365 Dev PnP & PowerShell : exploitez enfin le potentiel de votre écosy...
Office 365 Dev PnP & PowerShell : exploitez enfin le potentiel de votre écosy...
 
Créer un bot de A à Z
Créer un bot de A à ZCréer un bot de A à Z
Créer un bot de A à Z
 
Microsoft Composition, pierre angulaire de vos applications ?
Microsoft Composition, pierre angulaire de vos applications ?Microsoft Composition, pierre angulaire de vos applications ?
Microsoft Composition, pierre angulaire de vos applications ?
 
Les nouveautés SQL Server 2016
Les nouveautés SQL Server 2016Les nouveautés SQL Server 2016
Les nouveautés SQL Server 2016
 
Conteneurs Linux ou Windows : quelles approches pour des IT agiles ?
Conteneurs Linux ou Windows : quelles approches pour des IT agiles ?Conteneurs Linux ou Windows : quelles approches pour des IT agiles ?
Conteneurs Linux ou Windows : quelles approches pour des IT agiles ?
 
Administration et supervision depuis le Cloud avec Azure Logs Analytics
Administration et supervision depuis le Cloud avec Azure Logs AnalyticsAdministration et supervision depuis le Cloud avec Azure Logs Analytics
Administration et supervision depuis le Cloud avec Azure Logs Analytics
 
Retour d'expérience de projets Azure IoT "large scale" (MicroServices, portag...
Retour d'expérience de projets Azure IoT "large scale" (MicroServices, portag...Retour d'expérience de projets Azure IoT "large scale" (MicroServices, portag...
Retour d'expérience de projets Azure IoT "large scale" (MicroServices, portag...
 
Plan de Reprise d'Activité avec Azure Site Recovery
Plan de Reprise d'Activité avec Azure Site RecoveryPlan de Reprise d'Activité avec Azure Site Recovery
Plan de Reprise d'Activité avec Azure Site Recovery
 
Modélisation, déploiement et gestion des infrastructures Cloud : outils et bo...
Modélisation, déploiement et gestion des infrastructures Cloud : outils et bo...Modélisation, déploiement et gestion des infrastructures Cloud : outils et bo...
Modélisation, déploiement et gestion des infrastructures Cloud : outils et bo...
 
Transformation de la représentation : De la VR à la RA, aller & retour.
Transformation de la représentation : De la VR à la RA, aller & retour.Transformation de la représentation : De la VR à la RA, aller & retour.
Transformation de la représentation : De la VR à la RA, aller & retour.
 
Quelles architectures pour vos applications Cloud, de la VM au conteneur : ça...
Quelles architectures pour vos applications Cloud, de la VM au conteneur : ça...Quelles architectures pour vos applications Cloud, de la VM au conteneur : ça...
Quelles architectures pour vos applications Cloud, de la VM au conteneur : ça...
 
Introduction à ASP.NET Core
Introduction à ASP.NET CoreIntroduction à ASP.NET Core
Introduction à ASP.NET Core
 
Open Source et Microsoft Azure, rêve ou réalité ?
Open Source et Microsoft Azure, rêve ou réalité ?Open Source et Microsoft Azure, rêve ou réalité ?
Open Source et Microsoft Azure, rêve ou réalité ?
 
Comment développer sur la console Xbox One avec une application Universal Win...
Comment développer sur la console Xbox One avec une application Universal Win...Comment développer sur la console Xbox One avec une application Universal Win...
Comment développer sur la console Xbox One avec une application Universal Win...
 
Azure Service Fabric pour les développeurs
Azure Service Fabric pour les développeursAzure Service Fabric pour les développeurs
Azure Service Fabric pour les développeurs
 

Azure Camp 9 Décembre 2014 - slides session développeurs IOT Big Data

  • 1. Objets connectés, Big Data, Machine Learning
  • 4. Ingestion de la donnée (10’) Thomas Conté - @tomconte
  • 5. Azure Service Bus Relay Queue Topic Notification Hub Event Hub Service de traverse NAT / Firewall Services Request/Response Unbuffered ; TCP Throttling Broker AMQP/HTTP Transactionnel High-Scale, High-Reliability Messaging Sessions, Scheduled Delivery, etc. Distribution Transactionnelle de Messages Up to 2000 souscriptions per Topic Up to 2K/100K filter rules per subscription High-scale notification distribution Most mobile push notification services Millions of notification targets Concentrateur d’évènements
  • 6. Vue d’ensemble Azure Event Hubs Producteurs d’évènements > 1M Producers > 1GB/sec Aggregate Throughput Direct PartitionKey Hash Throughput Units: • 1 ≤ TUs ≤ Partition Count • TU: 1 MB/s writes, 2 MB/s reads AMQP 1.0 Credit-based flow control Client-side cursors Offset by Id or Timestamp
  • 7. Publishers (Producteurs) • Nombre élevé d’émetteurs • Intermittent, faible débit: HTTPS • Permanent, haut débit: AMQP • Les connections permanentes AMQP sont payantes, pas les requêtes HTTPS; le prix inclut un quota de connections AMQP • On publie vers… • PartitionId • Direct • PartitionKey • PartitionKey qui implique un PartitionId • Publisher Policy (<eh>/publishers/<name>) • <name> remplace PartitionKey Event Producers Direct PartitionKey Hash
  • 8. Consumer Groups • Une vue sur le flux d’évènements • Conceptuellement proche d’un abonnement (Topics) dans le sens où ils offrent une « vue » du flux d’évènements • Point de référence pour les checkpoints (votre responsabilité) • Point de référence pour créer des récepteurs par partition • Toujours un Consumer Group par défaut • Jusqu’à 20 Consumer Groups “Les récepteurs lisent via un Consumer Group”
  • 9. • Lisent les partitions via le CG • En utilisant l’API .NET ou des librairies AMQP 1.0 (e.g. Apache Proton-C/J) • Curseurs (offsets) gérés par les clients (!= Queue/Topic) • Maximum de flexibilité dans la réception • Peut être utilisé comme un historique d’évènements pour la durée de rétentions • Non utilisable comme archive: la valeur des données brutes se détériore souvent rapidement • Synchronisation entre flux: par timestamp • Les checkpoints sont de la responsabilité des clients • Support intégré d’un modèle d’élection via epochs pour les lecteurs Consumers Time ID
  • 11. Traitement « Temps réel » (20’) Benjamin Guinebertière - @benjguin Franck Mercier - @franmerms
  • 12. Storm • Gestion de millions d’événements en temps réel • Disponible dans Hadoop: HDInsight, HDP, CDH, MapR, Apache, … • Architecture distribuée
  • 13. Topologie de la démo Parser Tableau de bord HBase Cassandra
  • 15. SignalR, d3js, Excel • SignalR • Hub de communication bi-directionnel client/serveur Web • cf http://www.asp.net/signalr • d3js • “D3.js is a JavaScript library for manipulating documents based on data. D3 helps you bring data to life using HTML, SVG and CSS” • http://d3js.org/ • Excel • How to: Create your first content app for Excel with "Napa" Office 365 Development Tools
  • 18. Ingère des millions d’évènements par secondes • Ingère et traite des données envoyées par des applications/objets connectés • Solution avec montée en charge intégrée Traitement des données en continue • Transformer, enrichir, opérations temporelles • Détection des patterns et des anomalies Corrélation du flux de données avec des données de référence
  • 19. Pas d’acquisition de matériel Pas de maintenance Pas d’expertise de déploiement Installation et paramétrages via le portail Azure Pas de logiciel à installer et à maintenir Mise à l’échelle en fonction des besoins
  • 21. Fiabilité des traitements Garantie d’aucune perte des évènements ou de sorties incorrectes Préserve l’ordre des évènements par “device” d’entrées Garantie de continuité de service Garantie de disponibilité : 99,9% Reprise automatique en cas d’erreur
  • 22. Bénéficie de l’élasticité du Cloud Mise à l’échelle en fonction des besoins Gestion via le portail Azure Architecture distribuée Solution économique Coût calculé en fonction de l’usage Possibilité d’ajuster en fonction des besoins Provisionnez er démarrez une solution Stream Analytics pour 25$/Mois
  • 24. Création d’une solution de traitement en temps réel grâce à un langage proche du T-SQL Filtrer, agréger, joindre des flux de données avec quelques lignes de T-SQL Fonctions temporelles nativement intégrées Développer et maintenir une solution Stream Analytics via le portail Azure RDapéivde Dloepvpeelompemnetn t rapide
  • 25. Monitoring intégré Surveiller la performance de votre solution via le portail Azure. Accès aux journaux d’évènements
  • 26. Vue d’ensemble de l’architecture Azure Stream Analytics • Temporal Semantics • Guaranteed delivery • Guaranteed up time Event Inputs - Event Hub - Azure Blob Transform - Temporal joins - Filter - Aggregates - Projections - Windows - Etc. Enrich Correlate Outputs - SQL Azure - Azure Blobs - Event Hub BI Dashboards Predictive Analytics ☁ Azure Storage Reference Data - Azure Blob Data Source Collect Process Deliver Consume
  • 28. Data Movement (20’) Franck Mercier - @franmerms Thomas Conté - @tomconte
  • 29. Talend 5.6 supporte HDInsight
  • 30. Talend Big Data Studio Talend Big Data Select Icons made by Freepik, Situ Herrera, www.flaticon.com Internet of Things ERP DBMS / EDW Legacy Systems Ingestion NoSQL Map Profile Parse Match Cleanse Standardiz e Change Data Capture Machine Learning Standard Reports Ad-hoc Query Tools Data Mining MDD/OLA P Analytical Applications Develop and Test Operations Team Share Schedule NoSQL Web Logs Native Access Benefits Increased Productivity Lowest TCO Future Proof Architecture
  • 31. Talend & Azure Blob Storage • Azure Blob Storage • Connection • Container management • Storage (Put, Get, Delete, List)
  • 32. Microsoft Azure HD Insight (Talend 5.6) • Microsoft Azure HDInsight • New Hadoop Metadata for HDInsight • Load and Extract Data to/from HDInsight • Natively Run Map/Reduce jobs within HDInsight (ELT) • No Talend server to run on the cluster http://screencast.com/t/ImQzBPGXgB
  • 34. 34 Data sources Increasing data volumes 1 Real-time data 2 New data sources & types 3 Non-Relational Data 4 Cloud-born data
  • 35. ETL Tool (SSIS, etc) EDW (SQL Svr, Teradata, etc) Extract Original Data Load Transformed Data Transform BI Tools Data Marts Data Lake(s) Dashboards Apps
  • 36. ETL Tool (SSIS, etc) EDW (SQL Svr, Teradata, etc) Extract Original Data Load Transformed Data Transform BI Tools Ingest (EL) Original Data Data Marts Data Lake(s) Dashboards Apps
  • 37. ETL Tool (SSIS, etc) EDW (SQL Svr, Teradata, etc) Extract Original Data Load Transformed Data Transform BI Tools Ingest (EL) Original Data Scale-out Storage & Compute (HDFS, Blob Storage, etc) Transform & Load Data Marts Data Lake(s) Dashboards Apps Streaming data
  • 38. ETL Tool (SSIS, etc) EDW (SQL Svr, Teradata, etc) Extract Original Data Load Transformed Data Transform BI Tools Ingest (EL) Original Data Scale-out Storage & Compute (HDFS, Blob Storage, etc) Transform & Load Data Marts Data Lake(s) Dashboards Apps Streaming data
  • 39. BI Tools Data Marts Data Lake(s) Dashboards Apps Data Hub (Storage & Compute) Data Hub (Storage & Compute) Data Sources (Import From) Move data among Hubs Data Sources (Import From) Ingest Ingest Information Production: Move to data mart, etc Connect & Collect Transform & Enrich Publish
  • 41. Azure Data Factory Pipelines DataSet Data Store Power BI Data Catalog Compute (Transform & Copy) Data Store Compute (Transform & Copy) Data Store On Premises Hubs Cloud Hubs SaaS Hubs (Salesforce.com, etc) Orchestrat e & Schedule Manage & Monitor Read & Write Orchestrate & Schedule Activity Manage & Monitor Compute (Transform & Copy) DataSet Activity DataSet BI | Apps | … Find/Consume Publish Search/Publish Consume Orchestrate & Schedule Manage & Monitor Read& Write Ingest Ingest Ingest Data Sources (Twitter, Facebook,Sensors, S3, online CRM, etc) Read & Write Azure Data Factory Une plateforme pour développer des services de récupérations et/ou transformations de données, des services de stockage ou de mouvements de données Pipeline Les pipelines sont soit des groupes de mouvements de données, soit de transformations de données. Les pipelines acceptent N sources de données en entrées et peuvent produire N jeux de données en sortie. Les pipelines peuvent être exécutés en une seule fois ou sur des plages de temps (heure, jour, semaine,…) Dataset Un Dataset est une vue nommée des données. Les données peuvent être de sources très variées : Données binaires, semi-structurées (ex: CSV), des tables,… Activité (Activity) Une activité est une unité d’exécution dans laquelle le pipeline peut réaliser des mouvements ou des transformations de données. Une activité peut importer/exporter des données depuis de sources disparates utilisée par l’entreprise vers un data hub Data Hub Un data hub est un jumelage d’un stockage de données avec un service de calcul. Par exemple, un cluster Hadoop (Stockage HDFS, Hive/Pig pour le calcul) est un data hub. De même, un data warehouse d’entreprise peut être conçu comme un data hub (Base de données pour le stockage, ETL ou procédures stockées pour le calcul)
  • 43. Coordination: • Rich scheduling • Complex dependencies • Incremental rerun Authoring: • JSON & Powershell/C# Management: • Lineage • Data production policies (late data, rerun, latency, etc) Hub: Azure Hub (HDInsight + Blob storage) • Activities: Hive, Pig, C# • Data Connectors: Blobs, Tables, Azure DB, On Prem SQL Server,
  • 44. Batches et Hadoop (20’) Thomas Conté - @tomconte Benjamin Guinebertière - @benjguin
  • 45. Azure Batch • HPC / Big Compute • Exemples de scénarios: transcodage de média, génération ou analyse d’images, build, tests, dynamique des fluides, simulations Monte Carlo, simulations (ingénierie) HPC Pack On-Premises • On-premises clusters • Ability to scale to reduce runtimes • Job scheduling and mgmt via head node • Reliability HPC Pack Hybrid • Run on-premises, in cloud, or both • Reduced infrastructure - use cloud for peaks • Flexibility to manage job run times HPC Pack IaaS • All cloud • Flexible configuration • Flexible data management • Reduced infrastructure • Still manually deploy and manage VM’s Azure Batch PaaS • All cloud • Easy to use • No deployment or management • Cater for small to very large customers • Complete elasticity with auto-scale • Improved control over Pay-for-use
  • 46. Azure Batch - Add Big Compute to a service Service Azure Batch • Foundational batch processing platform • Avoid building infrastructure VM Management & Job Scheduling PaaS Cloud Services IaaS Virtual Machines Hardware Voir session TechEd Europe sur le sujet: http://channel9.msdn.com/Events/TechEd/Europe/2014/DBI-B216
  • 47. Qu’est-ce qu’Hadoop ? Source: http://fr.hortonworks.com/hdp/
  • 48. Hadoop et Microsoft • Microsoft est contributeur Hadoop • Hortonworks Data Platform (HDP) • Sur Windows Server et Linux • Noeuds Hadoop dans Analytics Platform System • HDInsight (inclut le support y compris sur Hive par exemple) • Azure Marketplace • Cloudera distribution (CDH) • Azure Marketplace • MapR, Apache, … • Sur des VMs Azure
  • 49. Où sont les données Hadoop ? Conteneur (wasb://) VHD Cache VHD VHD VHD client VM OS Data VM VHD Cache OS Data VHD VHD VHD (…) Réplication HDFS hdfs:// wasb://
  • 50. HDinsight HDInsight Map/Reduce Hive Pig HCatalog Ambari Blobs Azure HDFS Sqoop Oozie Azure UX SDK Azure WebHcat/ Templeton RDP Storm Yarn HBase
  • 51. Pourquoi HDInsight sur Azure ? • Simple à déployer (portail, PowerShell, CLI, SDK) • Simple de suivre les évolutions d’Hadoop • Support de bout en bout • On peut appeler pour une question sur Hive par exemple • Accès aux blobs • Nouveau: • Storm, HBase, • scripts de personnalisation (ex: Spark, R)
  • 52. HDInsight Conteneur (wasb://) client VM VHD Cache OS Data VM VHD Cache OS Data (…) Réplication HDFS hdfs:// wasb://
  • 54. Pourquoi Hortonworks sur Azure ? • Déployable simplement avec l’assistant de la marketplace • Comme HDInsight mais en Linux et sur des VMs • Possible de modifier la configuration du cluster • On peut arrêter / redémarrer le cluster et sa configuration • Vs recréation d’un cluster en HDInsight • Accès aux blobs • réversibilité
  • 55. HDP (Marketplace) Conteneur (wasb://) VHD Cache VHD VHD VHD client VM OS Data VM VHD Cache OS Data VHD VHD VHD (…) Réplication HDFS hdfs:// wasb://
  • 57. Pourquoi Cloudera sur Azure ? • Pour avoir une configuration identique à ce que vous avez déjà par ailleurs • Déployable simplement avec l’assistant de la marketplace • Possible de modifier la configuration du cluster • On peut arrêter / redémarrer le cluster et sa configuration • Vs recréation d’un cluster en HDInsight • Réversibilité • Impala
  • 58. CDH (Marketplace) VHD Cache VHD client VM OS Data VM VHD Cache OS Data VHD (…) Réplication HDFS hdfs://
  • 61. noSQL (20’) Benjamin Guinebertière - @benjguin Franck Mercier - @franmerms
  • 62. Pourquoi noSQL ? • Not only SQL • Parce que c’est plus simple ! • Ex: stocker un JSON dans Document DB ou MongoDB • Montée en charge horizontale (scale out) • Vs relationnel == tout au même endroit
  • 63. Quelques bases noSql • Document DB: vue en début d’après-midi • HBase • Cassandra / DataStax Enterprise • Et plein d’autres: • MongoBD, CouchDB, Riak, Redis, Memcached, …
  • 64. Positionnement HBase/Cassandra • Bases de données noSQL • Orientées colonnes Quelques critères HBase Cassandra / DataStax Entreprise Intégration avec Hadoop Né dans Hadoop Il existe des connecteurs Support éditeur Hortonworks, Cloudera, MapR Microsoft (pour HDInsight) DataStax Architecture Bases de données en lecture / écriture sur système de fichiers « Write Once » (HDFS) Pensé pour la lecture Tous les noeuds jouent le même rôle. Donnée stockée dans chaque noeud et distribuée Pensé pour l’écriture Support du multi datacenter Par réplication de clusters Oui SQL Oui via Phoenix, Hive, … CQL devient LE mode d’accès à Cassandra
  • 65. HBase • Dans HDInsight • Type de cluster HDInsight: HBase • Données dans blobs Azure
  • 67. Cassandra • DataStax Enterprise disponible dans la marketplace Azure
  • 68. DataStax Enterprise • http://www.datastax.com/what-we-offer/products-services/ datastax-enterprise
  • 69. Cassandra •Déployable sur plusieurs Datacenters • Exemple de topologie:
  • 71. Notebooks iPython dans Azure pour la Recherche scientifique (10’) Claude Martini, CEO Zeliade (Pierre-Louis Xech)
  • 74. Une plateforme collaborative pour la recherche appliquée Azure Camp 9 décembre 2014
  • 75. Agenda • IPython notebooks • Zanadu, une plateforme collaborative pour la recherche appliquée • Architecture sur Azure
  • 77. Zanadu… • CMS de notebooks pour la recherche appliquée • Plateforme COLLABORATIVE • Sur Azure (Lauréat du 1er Grant Azure for Research, avec le lab GREGOR)
  • 80. Load Balancer Zanadu App (Tornado, Web Socket, IPython,…) Zanadu App (Tornado, Web Socket, IPython,…) Zanadu App (Tornado, Web Socket, IPython,…) Zanadu App (Tornado, Web Socket, IPython,…)
  • 81. Code • Python.. • ..R, Octave, Julia • OCaml, Scala, FSharp, Scilab, CSharp,.. • Dans le même notebook! • ‘Native’ literate programming • Collaborative distributed library • Calculs intensifs sur Azure (IPython Parallel)
  • 83. Machine Learning (20’) Franck Mercier - @franmerms Benjamin Guinebertière - @benjguin
  • 84. Machine Learning • “The goal of machine learning is to build computer systems that can adapt and learn from their experience.” (Tom Dietterich) • Another definition: “The goal of machine learning is to program computers to use example data or past experience to solve a given problem.” (Introduction to Machine Learning, 2nd Edition, MIT Press) • ML implique souvent 2 techniques primaires : • Apprentissage supervisé : trouver une correspondance entre les entrées et les sorties en utilisant des valeurs correctes pour “entrainer” un modèle. Dans ce type d’apprentissage, les échantillons de données sont labélisés. • Apprentissage non supervisé : touver des patterns dans les données d’entrées (similaire aux estimations de densité en statistiques). Les échantillons de données ne sont pas labelisés. 86
  • 85. Apprentissage supervisé 1. Car 2. Not Car
  • 86. Apprentissage non supervisé Exemple 1 exemple A Exemple 2 exemple B Exemple 3 exemple C exemple A exemple B exemple C Exemple 1 Exemple 2 Exemple 3
  • 87. Machine Learning : préparation gender age smoker eye color male 19 yes green female 44 yes gray male 49 yes blue male 12 no brown female 37 no brown female 60 no brown male 44 no blue female 27 yes brown female 51 yes green female 81 yes gray male 22 yes brown male 29 no blue Bike buyer no yes yes no no yes no no yes no no no male 77 yes gray male 19 yes green female 44 no gray ? ? ? 93
  • 88. Machine Learning : préparation gender age smoker eye color male 19 yes green female 44 yes gray male 49 yes blue male 12 no brown female 37 no brown female 60 no brown male 44 no blue female 27 yes brown female 51 yes green female 81 yes gray male 22 yes brown male 29 no blue bike buyer no yes yes no no yes no no yes no no no male 77 yes gray male 19 yes green female 44 no gray ? ? ? Train ML Model 94
  • 89. Machine Learning : préparation gender age smoker eye color male 19 yes green female 44 yes gray male 49 yes blue male 12 no brown female 37 no brown female 60 no brown male 44 no blue female 27 yes brown female 51 yes green female 81 yes gray male 22 yes brown male 29 no blue bike buyer no yes yes no no yes no no yes no no no male 77 yes gray male 19 yes green female 44 no gray yes no no Train ML Model 95
  • 90. Etapes pour construire une solution de Machine Learning
  • 91. Les freins à l’adoption • La « Data Science » reste trop complexe • L’accès aux algorithmes de « machine learning » est trop cher • Nécessité de maîtriser de nombreux outils pour réaliser une solution complète (acquisition des données, nettoyage, expérimentation,….) • Capacité à mettre facilement un modèle en production
  • 92. Microsoft Azure Machine Learning Réduire la complexité et favoriser la participation • Accessible depuis un navigateur Web, aucune installation nécessaire • Solution collaborative. Création d’espaces de travail permettant un travail d’équipe depuis n’importe quel endroit • Création d’expérimentations visuelles de bout en bout • Solution extensible. Support de R OSS
  • 93. Microsoft Azure Machine Learning Expérimentation simple et rapide à la recherche du meilleur modèle • Expérimenter un large panel de fonctionnalités et d’algorithmes • Déploiement rapide des modèles • Génération de codes d’utilisation des modèles. • Déploiement via l’API d’Azure
  • 94. Une solution de Machine Learning – des données aux résultats Business users easily access results: from anywhere, on any device ML Studio and the Data Scientist • Access and prepare data • Create, test and train models • Collaborate • One click to stage for production via the API service HDInsight Azure Storage Desktop Data Mobile Apps PowerBI/ Web Apps Dashboards ML API service and the Developer • Tested models available as an url that can be called from any end point Azure Portal & ML API service and the Azure Ops Team • Create ML Studio workspace • Assign storage account(s) • Monitor ML consumption • See alerts when model is ready • Deploy models to web service