SlideShare une entreprise Scribd logo
1  sur  21
Télécharger pour lire hors ligne
Petite croisière sur le data lake
David Morel
1 / 21
L'ère des mega-données (big data)
Tout est données !
Croissance exponentielle, possible grâce à un prix du stockage accessible
Enjeux économiques, politiques, sociaux, philosophiques : tout change
Comprendre, ou influencer ? Modéliser, ou modeler ?
Tout le monde en parle mais peu de gens en font (pour l'instant)
Festival permanent de nouveautés, difficile de garder la tête froide
2 / 21
Des données pour quoi faire ?
Mes données ne sont pas votre contenu (ou si peu), mais ce qui l'entoure ; le
produit de l'interaction (ou de son absence) avec l'utilisateur
A partir du moment où une chose est mesurable, elle devient "actionable"
Utilisations: partout !
marketing et tout ce qui s'en rapproche (audience de site...)
prévisions, planifications, améliorations de tous les systèmes et processus,
dans tous les domaines
On ne déduit que des corrélations, pas du sens
3 / 21
Tout est nombre
Place centrale des maths, et plus spécialement des stats
Connaissances de base (mais solides) nécessaires
Exemple, les intervalles de confiance : essentiels pour l'audience des sites web, A/B
tests etc. http://www.uxmatters.com/mt/archives/2011/11/what-is-a-confidence-
interval-and-why-would-you-want-one.php
Le data-centrisme n'a ni imagination ni intelligence, il n'est qu'une méthode
accompagnée d'outils
L'intervention humaine est toujours nécessaire
4 / 21
Data science
https://fr.wikipedia.org/wiki/Science_des_données
La science des données (en anglais data science) est une nouvelle
discipline qui s'appuie sur des outils mathématiques, de statistiques,
d'informatique (cette science est principalement une « science des données
numériques » et de visualisation des données).
Décrire (statistiques descriptives, phase exploratoire)
Déduire (inférence, déterminer une probabilité)
Prévoir et choisir (machine learning etc.) ; différence déduire/prédire souvent floue
Présenter (visualisation, construction de modèles pour classification, etc)
La visualisation intervient toujours aussi dans la phase exploratoire
C'est un processus itératif : on creuse...
A part ça, c'est un métier :-)
5 / 21
Les algorithmes ne sont pas magiques
Des probabilités, pas des certitudes
La qualité des données est primordiale : garbage in, garbage out
Exemple douloureux : les bots
Connaître ses données, les analyser pour elles-mêmes
Les nettoyer sans relâche
C'est un processus d'amélioration permanente
6 / 21
Machine learning
https://en.wikipedia.org/wiki/Machine_learning
Machine learning explores the study and construction of algorithms that
can learn from and make predictions on data. Such algorithms operate by
building a model from example inputs in order to make data-driven
predictions or decisions, rather than following strictly static program
instructions.
On travaille avec des matrices, les data points sont des vecteurs dans un espace
multidimensionel
Algorithmes supervisés ou non
supervisé nécessite une période d'entraînement avec des données de
référence
non supervisé se base uniquement sur les données disponibles
Différentes familles, des centaines d'algorithmes (régression, classification...)
http://loic.knuchel.org/blog/2013/11/22/le-machine-learning-cest-quoi-exactement/
http://machinelearningmastery.com/a-tour-of-machine-learning-algorithms/
7 / 21
Data science HowTo
La phase d'exploration est laborieuse
Il y a 1001 manières de procéder :-(
Données généralement extraites sous forme tabulaire du data store
Travail sur un cluster ou local (laptop de l'analyste)
R et RStudio + Plugins http://blog.datacamp.com/machine-learning-in-r/ ou Python
(+NumPy/SciPy), qui devient le langage standard de la science des données
Parfois on s'arrête là, parfois on demande à R ou python de produire un modèle
utilisable en temps réel:
code qui doit être recodé dans le langage de destination
ou utilisation de PMML :
https://www.ibm.com/developerworks/opensource/library/ba-ind-PMML1/
ou appeler R ou python directement, ou en webservice (huh?)
8 / 21
RStudio
9 / 21
Confession
Trop difficile de retenir toutes ces choses, en particulier R
Internet est ma mémoire
Je mets des bookmarks dans delicious.com, et je garde des notes
Les ours polaires sont nos amis, il faut les aimer aussi
10 / 21
Visualisation
Sur R: ggplot2
Pour des pages web, d3js est la bibliothèque de présentation la plus utilisée
Ecrite en JS, données en entrée en JSON, produit du SVG (Scalable Vector Graphics)
Binding : lorsque les données changent (ex. AJAX), la présentation réagit d'elle-
même et s'adapte
Des wrappers qui facilitent la familiarisation avec le framework (dimple, nvd3, etc.)
Abondance d'autres solutions en ligne, pas toujours adaptées ; d3 rules!
http://christopheviau.com/d3_tutorial/
http://biovisualize.github.io/d3visualization/
La dataviz a ses pièges UX
http://fr.slideshare.net/idigdata/data-visualization-best-practices-2013
11 / 21
BIG DATA & NoSQL
12 / 21
Size matters
Les SGBDR sont limités à une seule machine, même s'il est possible de
partitionner
Les architectures NoSQL sont optimisées pour le stockage de données massives, de
quelques machines à l'infini
Toutes les machines travaillent ensemble en découpant le travail
Les algorithmes complexes, demandant beaucoup de ressources, deviennent
accessibles
L'exploration, la répétition du travail avec des paramètres différents devient
possible
On gagne donc en temps et en puissance, donc aussi en agilité
13 / 21
Pourquoi NoSQL ?
Besoin de stocker des données brutes, ou de formats divers, pas adaptées au
format en colonnes optimisé du SQL (bases orientées document, graphe, etc.)
Flexibilité : scalabilité horizontale, liberté de développement
Vitesse : dans certains cas, optimisation pour des rythmes de requêtes très rapide
(Redis)
Pourquoi pas NoSQL ?
Le NoSQL n'est pas un "drop-in replacement" pour le SQL
Performances aléatoires dans certains cas
Technologies jeunes et pas aussi éprouvées
Complexité architecturale des clusters
Le diable est dans les détails
14 / 21
La menace des
unknown unknowns
15 / 21
Hadoop, le poids lourd du NoSQL
Implémentation du paradigme map-reduce décrit par Google en 2004:
http://research.google.com/archive/mapreduce.html
Système de fichiers distribué (HDFS)
Exécution du code sur les noeuds du cluster, au plus près des données
Data agnostique (tout type de contenu, le code décide que faire)
Un écosystème complet : Hive (SQL), Pig, Mahout, Sqoop, Flume...
Une interface web facilitant la prise en mains : Hue
16 / 21
Hue
17 / 21
Cas pratique
«parmi nos utilisateurs enregistrés, quels sont ceux qui utilisent le formulaire de recherche
depuis la page d’accueil ?»
Import des logs en continu via Flume
Application mapreduce
1. [MAP] extraction des lignes de log du serveur web
2. [MAP] construction d'une clé pour chaque ligne: user id + timestamp
3. [MAP] valeur extraite pour chaque ligne : l'URL
4. [REDUCE] regroupement de toutes les lignes d'un utilisateur sur 1 reducer, tri
sur chaque reducer par user id
5. [REDUCE] tri secondaire par timestamp
6. [REDUCE] le code regarde deux lignes consécutives: la succession des 2 pages
attendues produit un 1, toute autre séquence un 0
7. [REDUCE] on compte les "1" par user id
Résultats écrits sur HDFS ou exportés vers une BDD via Sqoop
18 / 21
Mapreduce inadapté au machine learning
Le ML a besoin de garder ses données en RAM pour les traiter récursivement,
mapreduce est prévu pour la lecture séquentielle
Spark est prévu pour prendre en charge ce modèle
Spark fonctionne sur Hadoop (YARN) ou indépendamment, lit HDFS
Très à la mode :-)
Hive fonctionne également sur Spark pour des requêtes interactives
Des workloads différents
19 / 21
Comment survivre à Hadoop et Spark
Complexité opérationnelle, demande des moyens importants
Des offres hébergées existent : Amazon EMR, Google Compute Engine, Microsoft
Azure
Des offres SaaS comme Altiscale
Une alternatives hébergée : Google BigQuery
De (trop?) nombreuses alternatives NoSQL existent, certaines dignes d'intérêt:
Couchbase, une BDD distribuée puissante (plutôt que MongoDB)
Riak, un store clé/valeur sophistiqué
Les bases SQL et NoSQL ont tendance à converger fonctionnellement (ex. datatype
JSON MySQL 5.7)
Allons-y doucement...
20 / 21
21 / 21

Contenu connexe

Tendances

Introduction au big data
Introduction au big dataIntroduction au big data
Introduction au big dataAbdelghani Azri
 
La "Data science" au service des entreprises
La "Data science" au service des entreprisesLa "Data science" au service des entreprises
La "Data science" au service des entreprisesAymen ZAAFOURI
 
[French] Matinale du Big Data Talend
[French] Matinale du Big Data Talend[French] Matinale du Big Data Talend
[French] Matinale du Big Data TalendJean-Michel Franco
 
Livre Blanc : comprendre les data-lakes
Livre Blanc : comprendre les data-lakesLivre Blanc : comprendre les data-lakes
Livre Blanc : comprendre les data-lakesConverteo
 
BIG DATA - Cloud Computing
BIG DATA - Cloud ComputingBIG DATA - Cloud Computing
BIG DATA - Cloud Computingsenejug
 
EXL Group - Offre Data Science
EXL Group - Offre Data ScienceEXL Group - Offre Data Science
EXL Group - Offre Data ScienceAshraf Grioute
 
Valtech - Du BI au Big Data, une révolution dans l’entreprise
Valtech - Du BI au Big Data, une révolution dans l’entrepriseValtech - Du BI au Big Data, une révolution dans l’entreprise
Valtech - Du BI au Big Data, une révolution dans l’entrepriseValtech
 
BigData_Chp1: Introduction à la Big Data
BigData_Chp1: Introduction à la Big DataBigData_Chp1: Introduction à la Big Data
BigData_Chp1: Introduction à la Big DataLilia Sfaxi
 
Chapitre1 introduction
Chapitre1 introductionChapitre1 introduction
Chapitre1 introductionMouna Torjmen
 
Cours Big Data Chap1
Cours Big Data Chap1Cours Big Data Chap1
Cours Big Data Chap1Amal Abid
 
Keynote Big Data & Data Science - 24h pharma@dreux
Keynote Big Data & Data Science - 24h pharma@dreuxKeynote Big Data & Data Science - 24h pharma@dreux
Keynote Big Data & Data Science - 24h pharma@dreuxAlexia Audevart
 
Matinée 01 Big Data
Matinée 01 Big DataMatinée 01 Big Data
Matinée 01 Big DataEvenements01
 
Formation professionnelle "Big data : concepts et enjeux"
Formation professionnelle "Big data : concepts et enjeux"Formation professionnelle "Big data : concepts et enjeux"
Formation professionnelle "Big data : concepts et enjeux"Philippe METAYER
 
Datasio - Big Data Congress Paris 2012
Datasio - Big Data Congress Paris 2012Datasio - Big Data Congress Paris 2012
Datasio - Big Data Congress Paris 2012datasio
 
Présentation PFE Hachem Selmi et Ahmed Dridi Big data
Présentation PFE Hachem Selmi et Ahmed Dridi Big data Présentation PFE Hachem Selmi et Ahmed Dridi Big data
Présentation PFE Hachem Selmi et Ahmed Dridi Big data HaShem Selmi
 
Big data analytics focus technique et nouvelles perspectives pour les actuaires
Big data analytics focus technique et nouvelles perspectives pour les actuairesBig data analytics focus technique et nouvelles perspectives pour les actuaires
Big data analytics focus technique et nouvelles perspectives pour les actuairesKezhan SHI
 

Tendances (20)

Introduction au big data
Introduction au big dataIntroduction au big data
Introduction au big data
 
La "Data science" au service des entreprises
La "Data science" au service des entreprisesLa "Data science" au service des entreprises
La "Data science" au service des entreprises
 
[French] Matinale du Big Data Talend
[French] Matinale du Big Data Talend[French] Matinale du Big Data Talend
[French] Matinale du Big Data Talend
 
Livre Blanc : comprendre les data-lakes
Livre Blanc : comprendre les data-lakesLivre Blanc : comprendre les data-lakes
Livre Blanc : comprendre les data-lakes
 
BIG DATA - Cloud Computing
BIG DATA - Cloud ComputingBIG DATA - Cloud Computing
BIG DATA - Cloud Computing
 
EXL Group - Offre Data Science
EXL Group - Offre Data ScienceEXL Group - Offre Data Science
EXL Group - Offre Data Science
 
Valtech - Du BI au Big Data, une révolution dans l’entreprise
Valtech - Du BI au Big Data, une révolution dans l’entrepriseValtech - Du BI au Big Data, une révolution dans l’entreprise
Valtech - Du BI au Big Data, une révolution dans l’entreprise
 
BigData_Chp1: Introduction à la Big Data
BigData_Chp1: Introduction à la Big DataBigData_Chp1: Introduction à la Big Data
BigData_Chp1: Introduction à la Big Data
 
Chapitre1 introduction
Chapitre1 introductionChapitre1 introduction
Chapitre1 introduction
 
Cours Big Data Chap1
Cours Big Data Chap1Cours Big Data Chap1
Cours Big Data Chap1
 
Démarche d'une data factory par Xebia
Démarche d'une data factory par XebiaDémarche d'une data factory par Xebia
Démarche d'une data factory par Xebia
 
Keynote Big Data & Data Science - 24h pharma@dreux
Keynote Big Data & Data Science - 24h pharma@dreuxKeynote Big Data & Data Science - 24h pharma@dreux
Keynote Big Data & Data Science - 24h pharma@dreux
 
Matinée 01 Big Data
Matinée 01 Big DataMatinée 01 Big Data
Matinée 01 Big Data
 
Big data
Big dataBig data
Big data
 
Programme Big Data
Programme Big DataProgramme Big Data
Programme Big Data
 
Formation professionnelle "Big data : concepts et enjeux"
Formation professionnelle "Big data : concepts et enjeux"Formation professionnelle "Big data : concepts et enjeux"
Formation professionnelle "Big data : concepts et enjeux"
 
Introduction au BIG DATA
Introduction au BIG DATAIntroduction au BIG DATA
Introduction au BIG DATA
 
Datasio - Big Data Congress Paris 2012
Datasio - Big Data Congress Paris 2012Datasio - Big Data Congress Paris 2012
Datasio - Big Data Congress Paris 2012
 
Présentation PFE Hachem Selmi et Ahmed Dridi Big data
Présentation PFE Hachem Selmi et Ahmed Dridi Big data Présentation PFE Hachem Selmi et Ahmed Dridi Big data
Présentation PFE Hachem Selmi et Ahmed Dridi Big data
 
Big data analytics focus technique et nouvelles perspectives pour les actuaires
Big data analytics focus technique et nouvelles perspectives pour les actuairesBig data analytics focus technique et nouvelles perspectives pour les actuaires
Big data analytics focus technique et nouvelles perspectives pour les actuaires
 

En vedette

La Tribune 16-02-16.PDF
La Tribune 16-02-16.PDFLa Tribune 16-02-16.PDF
La Tribune 16-02-16.PDFVincent Genet
 
Guide des activités 2012 2013
Guide des activités 2012 2013Guide des activités 2012 2013
Guide des activités 2012 2013OPAR35
 
Analisador de espectros.odp
Analisador de espectros.odpAnalisador de espectros.odp
Analisador de espectros.odpDamián
 
E-réputation , strategie de presence : etat des lieux et perspectives
E-réputation , strategie de presence : etat des lieux et perspectivesE-réputation , strategie de presence : etat des lieux et perspectives
E-réputation , strategie de presence : etat des lieux et perspectivesFadhila BRAHIMI
 
Periódico escolar digital santa juana
Periódico escolar digital santa juanaPeriódico escolar digital santa juana
Periódico escolar digital santa juanaAlexandra Figueroa
 
Un site sans CMS (Teknseo 2014)
Un site sans CMS (Teknseo 2014)Un site sans CMS (Teknseo 2014)
Un site sans CMS (Teknseo 2014)Didcode
 
Transports en commun
Transports en communTransports en commun
Transports en communDamienMls
 
Des vidéos libres et accessibles sur le Web, un pari impossible ? - RMLL 2012
Des vidéos libres et accessibles sur le Web, un pari impossible ? - RMLL 2012Des vidéos libres et accessibles sur le Web, un pari impossible ? - RMLL 2012
Des vidéos libres et accessibles sur le Web, un pari impossible ? - RMLL 2012Access42
 
Olimpiadas 2013 presentacion jovenes
Olimpiadas 2013 presentacion jovenesOlimpiadas 2013 presentacion jovenes
Olimpiadas 2013 presentacion jovenesAlexandra Figueroa
 
Newsletter 2012 13-fr
Newsletter 2012 13-frNewsletter 2012 13-fr
Newsletter 2012 13-frAdrien Dagois
 
PROTOCOLE NORMALISE DE COMMUNICATION ET DE DIFFUSION D’ALERTE EN CAS DE CATAS...
PROTOCOLE NORMALISE DE COMMUNICATION ET DE DIFFUSION D’ALERTE EN CAS DE CATAS...PROTOCOLE NORMALISE DE COMMUNICATION ET DE DIFFUSION D’ALERTE EN CAS DE CATAS...
PROTOCOLE NORMALISE DE COMMUNICATION ET DE DIFFUSION D’ALERTE EN CAS DE CATAS...Greg Benchwick
 
P e s t a l o z Z i
P e s t a l o z Z iP e s t a l o z Z i
P e s t a l o z Z iNazaretAG
 
Articulo Periodístico "La Educación"
Articulo Periodístico "La Educación"Articulo Periodístico "La Educación"
Articulo Periodístico "La Educación"NazaretAG
 
Las competencias docentes ante la virtualidad de la educación superior
Las competencias docentes ante la virtualidad de la educación superiorLas competencias docentes ante la virtualidad de la educación superior
Las competencias docentes ante la virtualidad de la educación superiorprcalvache
 
Propulser votre réseau en mode OFFLINE
Propulser votre réseau en mode OFFLINEPropulser votre réseau en mode OFFLINE
Propulser votre réseau en mode OFFLINEaryane
 

En vedette (20)

La Tribune 16-02-16.PDF
La Tribune 16-02-16.PDFLa Tribune 16-02-16.PDF
La Tribune 16-02-16.PDF
 
Guide des activités 2012 2013
Guide des activités 2012 2013Guide des activités 2012 2013
Guide des activités 2012 2013
 
Analisador de espectros.odp
Analisador de espectros.odpAnalisador de espectros.odp
Analisador de espectros.odp
 
propiedades de los suelos
 propiedades de los suelos propiedades de los suelos
propiedades de los suelos
 
E-réputation , strategie de presence : etat des lieux et perspectives
E-réputation , strategie de presence : etat des lieux et perspectivesE-réputation , strategie de presence : etat des lieux et perspectives
E-réputation , strategie de presence : etat des lieux et perspectives
 
Periódico escolar digital santa juana
Periódico escolar digital santa juanaPeriódico escolar digital santa juana
Periódico escolar digital santa juana
 
Adriana caroliina
Adriana caroliinaAdriana caroliina
Adriana caroliina
 
Un site sans CMS (Teknseo 2014)
Un site sans CMS (Teknseo 2014)Un site sans CMS (Teknseo 2014)
Un site sans CMS (Teknseo 2014)
 
Transports en commun
Transports en communTransports en commun
Transports en commun
 
Sfsic Assises09 Ertzscheid
Sfsic Assises09 ErtzscheidSfsic Assises09 Ertzscheid
Sfsic Assises09 Ertzscheid
 
Des vidéos libres et accessibles sur le Web, un pari impossible ? - RMLL 2012
Des vidéos libres et accessibles sur le Web, un pari impossible ? - RMLL 2012Des vidéos libres et accessibles sur le Web, un pari impossible ? - RMLL 2012
Des vidéos libres et accessibles sur le Web, un pari impossible ? - RMLL 2012
 
Olimpiadas 2013 presentacion jovenes
Olimpiadas 2013 presentacion jovenesOlimpiadas 2013 presentacion jovenes
Olimpiadas 2013 presentacion jovenes
 
Newsletter 2012 13-fr
Newsletter 2012 13-frNewsletter 2012 13-fr
Newsletter 2012 13-fr
 
PROTOCOLE NORMALISE DE COMMUNICATION ET DE DIFFUSION D’ALERTE EN CAS DE CATAS...
PROTOCOLE NORMALISE DE COMMUNICATION ET DE DIFFUSION D’ALERTE EN CAS DE CATAS...PROTOCOLE NORMALISE DE COMMUNICATION ET DE DIFFUSION D’ALERTE EN CAS DE CATAS...
PROTOCOLE NORMALISE DE COMMUNICATION ET DE DIFFUSION D’ALERTE EN CAS DE CATAS...
 
Adriana caroliina
Adriana caroliinaAdriana caroliina
Adriana caroliina
 
P e s t a l o z Z i
P e s t a l o z Z iP e s t a l o z Z i
P e s t a l o z Z i
 
El Partenón
El PartenónEl Partenón
El Partenón
 
Articulo Periodístico "La Educación"
Articulo Periodístico "La Educación"Articulo Periodístico "La Educación"
Articulo Periodístico "La Educación"
 
Las competencias docentes ante la virtualidad de la educación superior
Las competencias docentes ante la virtualidad de la educación superiorLas competencias docentes ante la virtualidad de la educación superior
Las competencias docentes ante la virtualidad de la educación superior
 
Propulser votre réseau en mode OFFLINE
Propulser votre réseau en mode OFFLINEPropulser votre réseau en mode OFFLINE
Propulser votre réseau en mode OFFLINE
 

Similaire à Croisière sur le data lake

Spad big data - sfds - 2016
Spad   big data - sfds - 2016Spad   big data - sfds - 2016
Spad big data - sfds - 2016Julien BLAIZE
 
Big data: NoSQL comme solution
Big data: NoSQL comme solutionBig data: NoSQL comme solution
Big data: NoSQL comme solutionJEMLI Fathi
 
Intégration continue
Intégration continueIntégration continue
Intégration continueJohan Moreau
 
Production logicielle, outils et pratiques
Production logicielle, outils et pratiquesProduction logicielle, outils et pratiques
Production logicielle, outils et pratiquesJohan Moreau
 
SAS Forum Soft Computing Théâtre
SAS Forum Soft Computing ThéâtreSAS Forum Soft Computing Théâtre
SAS Forum Soft Computing ThéâtreSoft Computing
 
Introduction module IHM Polytech Sophia Dept Info SI3
Introduction module IHM Polytech Sophia Dept Info SI3Introduction module IHM Polytech Sophia Dept Info SI3
Introduction module IHM Polytech Sophia Dept Info SI3Anne-Marie Pinna-Dery
 
Dotriver Openadira 20100128
Dotriver Openadira 20100128Dotriver Openadira 20100128
Dotriver Openadira 20100128Thierry CHABROL
 
Vision et poc EDFsur les enjeux big data
Vision et poc EDFsur les enjeux big dataVision et poc EDFsur les enjeux big data
Vision et poc EDFsur les enjeux big dataBruno Patin
 
Matinale Technologique SAS
Matinale Technologique SASMatinale Technologique SAS
Matinale Technologique SASSoft Computing
 
Mappingobjetrelationnel[1]
Mappingobjetrelationnel[1]Mappingobjetrelationnel[1]
Mappingobjetrelationnel[1]linasafaa
 
Chapitre 1 - Introcution & cycles de développement - Etudiant.pptx
Chapitre 1 - Introcution & cycles de développement - Etudiant.pptxChapitre 1 - Introcution & cycles de développement - Etudiant.pptx
Chapitre 1 - Introcution & cycles de développement - Etudiant.pptxssuserec8501
 
Cas de la refonte de STM.info
Cas de la refonte de STM.infoCas de la refonte de STM.info
Cas de la refonte de STM.infoTP1
 
Outils informatiques agiles au sein d'une agence digitale
Outils informatiques agiles au sein d'une agence digitaleOutils informatiques agiles au sein d'une agence digitale
Outils informatiques agiles au sein d'une agence digitaleChristophe NEY
 
PerfUG Comment tester et optimiser la performance d'un SI ?
PerfUG Comment tester et optimiser la performance d'un SI ?PerfUG Comment tester et optimiser la performance d'un SI ?
PerfUG Comment tester et optimiser la performance d'un SI ?Marc Bojoly
 
Distributed programing (hadoop && java) version finale.pptx
Distributed programing  (hadoop && java) version finale.pptxDistributed programing  (hadoop && java) version finale.pptx
Distributed programing (hadoop && java) version finale.pptxAhmed rebai
 
Darwin appliqué à LabVIEW : l’évolution de la gestion des données
Darwin appliqué à LabVIEW : l’évolution de la gestion des donnéesDarwin appliqué à LabVIEW : l’évolution de la gestion des données
Darwin appliqué à LabVIEW : l’évolution de la gestion des donnéesLuc Desruelle
 
Présentation Big Data et REX Hadoop
Présentation Big Data et REX HadoopPrésentation Big Data et REX Hadoop
Présentation Big Data et REX HadoopJoseph Glorieux
 
Virtualisation du Poste de Travail - Desktop as a Service - 16h - Atelier VDI...
Virtualisation du Poste de Travail - Desktop as a Service - 16h - Atelier VDI...Virtualisation du Poste de Travail - Desktop as a Service - 16h - Atelier VDI...
Virtualisation du Poste de Travail - Desktop as a Service - 16h - Atelier VDI...DotRiver
 

Similaire à Croisière sur le data lake (20)

Spad big data - sfds - 2016
Spad   big data - sfds - 2016Spad   big data - sfds - 2016
Spad big data - sfds - 2016
 
Big data: NoSQL comme solution
Big data: NoSQL comme solutionBig data: NoSQL comme solution
Big data: NoSQL comme solution
 
Intégration continue
Intégration continueIntégration continue
Intégration continue
 
Production logicielle, outils et pratiques
Production logicielle, outils et pratiquesProduction logicielle, outils et pratiques
Production logicielle, outils et pratiques
 
SAS Forum Soft Computing Théâtre
SAS Forum Soft Computing ThéâtreSAS Forum Soft Computing Théâtre
SAS Forum Soft Computing Théâtre
 
Introduction module IHM Polytech Sophia Dept Info SI3
Introduction module IHM Polytech Sophia Dept Info SI3Introduction module IHM Polytech Sophia Dept Info SI3
Introduction module IHM Polytech Sophia Dept Info SI3
 
Dotriver Openadira 20100128
Dotriver Openadira 20100128Dotriver Openadira 20100128
Dotriver Openadira 20100128
 
Vision et poc EDFsur les enjeux big data
Vision et poc EDFsur les enjeux big dataVision et poc EDFsur les enjeux big data
Vision et poc EDFsur les enjeux big data
 
Matinale Technologique SAS
Matinale Technologique SASMatinale Technologique SAS
Matinale Technologique SAS
 
Mappingobjetrelationnel[1]
Mappingobjetrelationnel[1]Mappingobjetrelationnel[1]
Mappingobjetrelationnel[1]
 
Chapitre 1 - Introcution & cycles de développement - Etudiant.pptx
Chapitre 1 - Introcution & cycles de développement - Etudiant.pptxChapitre 1 - Introcution & cycles de développement - Etudiant.pptx
Chapitre 1 - Introcution & cycles de développement - Etudiant.pptx
 
Cas de la refonte de STM.info
Cas de la refonte de STM.infoCas de la refonte de STM.info
Cas de la refonte de STM.info
 
Cyberun #12
Cyberun #12Cyberun #12
Cyberun #12
 
Outils informatiques agiles au sein d'une agence digitale
Outils informatiques agiles au sein d'une agence digitaleOutils informatiques agiles au sein d'une agence digitale
Outils informatiques agiles au sein d'une agence digitale
 
PerfUG Comment tester et optimiser la performance d'un SI ?
PerfUG Comment tester et optimiser la performance d'un SI ?PerfUG Comment tester et optimiser la performance d'un SI ?
PerfUG Comment tester et optimiser la performance d'un SI ?
 
Distributed programing (hadoop && java) version finale.pptx
Distributed programing  (hadoop && java) version finale.pptxDistributed programing  (hadoop && java) version finale.pptx
Distributed programing (hadoop && java) version finale.pptx
 
Sgbd oss-27012006
Sgbd oss-27012006Sgbd oss-27012006
Sgbd oss-27012006
 
Darwin appliqué à LabVIEW : l’évolution de la gestion des données
Darwin appliqué à LabVIEW : l’évolution de la gestion des donnéesDarwin appliqué à LabVIEW : l’évolution de la gestion des données
Darwin appliqué à LabVIEW : l’évolution de la gestion des données
 
Présentation Big Data et REX Hadoop
Présentation Big Data et REX HadoopPrésentation Big Data et REX Hadoop
Présentation Big Data et REX Hadoop
 
Virtualisation du Poste de Travail - Desktop as a Service - 16h - Atelier VDI...
Virtualisation du Poste de Travail - Desktop as a Service - 16h - Atelier VDI...Virtualisation du Poste de Travail - Desktop as a Service - 16h - Atelier VDI...
Virtualisation du Poste de Travail - Desktop as a Service - 16h - Atelier VDI...
 

Croisière sur le data lake

  • 1. Petite croisière sur le data lake David Morel 1 / 21
  • 2. L'ère des mega-données (big data) Tout est données ! Croissance exponentielle, possible grâce à un prix du stockage accessible Enjeux économiques, politiques, sociaux, philosophiques : tout change Comprendre, ou influencer ? Modéliser, ou modeler ? Tout le monde en parle mais peu de gens en font (pour l'instant) Festival permanent de nouveautés, difficile de garder la tête froide 2 / 21
  • 3. Des données pour quoi faire ? Mes données ne sont pas votre contenu (ou si peu), mais ce qui l'entoure ; le produit de l'interaction (ou de son absence) avec l'utilisateur A partir du moment où une chose est mesurable, elle devient "actionable" Utilisations: partout ! marketing et tout ce qui s'en rapproche (audience de site...) prévisions, planifications, améliorations de tous les systèmes et processus, dans tous les domaines On ne déduit que des corrélations, pas du sens 3 / 21
  • 4. Tout est nombre Place centrale des maths, et plus spécialement des stats Connaissances de base (mais solides) nécessaires Exemple, les intervalles de confiance : essentiels pour l'audience des sites web, A/B tests etc. http://www.uxmatters.com/mt/archives/2011/11/what-is-a-confidence- interval-and-why-would-you-want-one.php Le data-centrisme n'a ni imagination ni intelligence, il n'est qu'une méthode accompagnée d'outils L'intervention humaine est toujours nécessaire 4 / 21
  • 5. Data science https://fr.wikipedia.org/wiki/Science_des_données La science des données (en anglais data science) est une nouvelle discipline qui s'appuie sur des outils mathématiques, de statistiques, d'informatique (cette science est principalement une « science des données numériques » et de visualisation des données). Décrire (statistiques descriptives, phase exploratoire) Déduire (inférence, déterminer une probabilité) Prévoir et choisir (machine learning etc.) ; différence déduire/prédire souvent floue Présenter (visualisation, construction de modèles pour classification, etc) La visualisation intervient toujours aussi dans la phase exploratoire C'est un processus itératif : on creuse... A part ça, c'est un métier :-) 5 / 21
  • 6. Les algorithmes ne sont pas magiques Des probabilités, pas des certitudes La qualité des données est primordiale : garbage in, garbage out Exemple douloureux : les bots Connaître ses données, les analyser pour elles-mêmes Les nettoyer sans relâche C'est un processus d'amélioration permanente 6 / 21
  • 7. Machine learning https://en.wikipedia.org/wiki/Machine_learning Machine learning explores the study and construction of algorithms that can learn from and make predictions on data. Such algorithms operate by building a model from example inputs in order to make data-driven predictions or decisions, rather than following strictly static program instructions. On travaille avec des matrices, les data points sont des vecteurs dans un espace multidimensionel Algorithmes supervisés ou non supervisé nécessite une période d'entraînement avec des données de référence non supervisé se base uniquement sur les données disponibles Différentes familles, des centaines d'algorithmes (régression, classification...) http://loic.knuchel.org/blog/2013/11/22/le-machine-learning-cest-quoi-exactement/ http://machinelearningmastery.com/a-tour-of-machine-learning-algorithms/ 7 / 21
  • 8. Data science HowTo La phase d'exploration est laborieuse Il y a 1001 manières de procéder :-( Données généralement extraites sous forme tabulaire du data store Travail sur un cluster ou local (laptop de l'analyste) R et RStudio + Plugins http://blog.datacamp.com/machine-learning-in-r/ ou Python (+NumPy/SciPy), qui devient le langage standard de la science des données Parfois on s'arrête là, parfois on demande à R ou python de produire un modèle utilisable en temps réel: code qui doit être recodé dans le langage de destination ou utilisation de PMML : https://www.ibm.com/developerworks/opensource/library/ba-ind-PMML1/ ou appeler R ou python directement, ou en webservice (huh?) 8 / 21
  • 10. Confession Trop difficile de retenir toutes ces choses, en particulier R Internet est ma mémoire Je mets des bookmarks dans delicious.com, et je garde des notes Les ours polaires sont nos amis, il faut les aimer aussi 10 / 21
  • 11. Visualisation Sur R: ggplot2 Pour des pages web, d3js est la bibliothèque de présentation la plus utilisée Ecrite en JS, données en entrée en JSON, produit du SVG (Scalable Vector Graphics) Binding : lorsque les données changent (ex. AJAX), la présentation réagit d'elle- même et s'adapte Des wrappers qui facilitent la familiarisation avec le framework (dimple, nvd3, etc.) Abondance d'autres solutions en ligne, pas toujours adaptées ; d3 rules! http://christopheviau.com/d3_tutorial/ http://biovisualize.github.io/d3visualization/ La dataviz a ses pièges UX http://fr.slideshare.net/idigdata/data-visualization-best-practices-2013 11 / 21
  • 12. BIG DATA & NoSQL 12 / 21
  • 13. Size matters Les SGBDR sont limités à une seule machine, même s'il est possible de partitionner Les architectures NoSQL sont optimisées pour le stockage de données massives, de quelques machines à l'infini Toutes les machines travaillent ensemble en découpant le travail Les algorithmes complexes, demandant beaucoup de ressources, deviennent accessibles L'exploration, la répétition du travail avec des paramètres différents devient possible On gagne donc en temps et en puissance, donc aussi en agilité 13 / 21
  • 14. Pourquoi NoSQL ? Besoin de stocker des données brutes, ou de formats divers, pas adaptées au format en colonnes optimisé du SQL (bases orientées document, graphe, etc.) Flexibilité : scalabilité horizontale, liberté de développement Vitesse : dans certains cas, optimisation pour des rythmes de requêtes très rapide (Redis) Pourquoi pas NoSQL ? Le NoSQL n'est pas un "drop-in replacement" pour le SQL Performances aléatoires dans certains cas Technologies jeunes et pas aussi éprouvées Complexité architecturale des clusters Le diable est dans les détails 14 / 21
  • 15. La menace des unknown unknowns 15 / 21
  • 16. Hadoop, le poids lourd du NoSQL Implémentation du paradigme map-reduce décrit par Google en 2004: http://research.google.com/archive/mapreduce.html Système de fichiers distribué (HDFS) Exécution du code sur les noeuds du cluster, au plus près des données Data agnostique (tout type de contenu, le code décide que faire) Un écosystème complet : Hive (SQL), Pig, Mahout, Sqoop, Flume... Une interface web facilitant la prise en mains : Hue 16 / 21
  • 18. Cas pratique «parmi nos utilisateurs enregistrés, quels sont ceux qui utilisent le formulaire de recherche depuis la page d’accueil ?» Import des logs en continu via Flume Application mapreduce 1. [MAP] extraction des lignes de log du serveur web 2. [MAP] construction d'une clé pour chaque ligne: user id + timestamp 3. [MAP] valeur extraite pour chaque ligne : l'URL 4. [REDUCE] regroupement de toutes les lignes d'un utilisateur sur 1 reducer, tri sur chaque reducer par user id 5. [REDUCE] tri secondaire par timestamp 6. [REDUCE] le code regarde deux lignes consécutives: la succession des 2 pages attendues produit un 1, toute autre séquence un 0 7. [REDUCE] on compte les "1" par user id Résultats écrits sur HDFS ou exportés vers une BDD via Sqoop 18 / 21
  • 19. Mapreduce inadapté au machine learning Le ML a besoin de garder ses données en RAM pour les traiter récursivement, mapreduce est prévu pour la lecture séquentielle Spark est prévu pour prendre en charge ce modèle Spark fonctionne sur Hadoop (YARN) ou indépendamment, lit HDFS Très à la mode :-) Hive fonctionne également sur Spark pour des requêtes interactives Des workloads différents 19 / 21
  • 20. Comment survivre à Hadoop et Spark Complexité opérationnelle, demande des moyens importants Des offres hébergées existent : Amazon EMR, Google Compute Engine, Microsoft Azure Des offres SaaS comme Altiscale Une alternatives hébergée : Google BigQuery De (trop?) nombreuses alternatives NoSQL existent, certaines dignes d'intérêt: Couchbase, une BDD distribuée puissante (plutôt que MongoDB) Riak, un store clé/valeur sophistiqué Les bases SQL et NoSQL ont tendance à converger fonctionnellement (ex. datatype JSON MySQL 5.7) Allons-y doucement... 20 / 21