Arnaud LAROCHE
Julien DAMON

Panorama des solutions analytiques existantes
SFdS Méthodes et Logiciels - 16 janvier 2014 - ...
Ne sont ici considérés que les solutions autour de l’environnement Hadoop

Plusdevolume
Moinsdestructure
Plusdevitesse
Plu...
Action

Axe « Opérationnel » : La
possibilité de placer des
fonctions analytiques
complexes au cœur
d’applications
opérati...
Exemple simplifié de traitement Map Reduce
Entrée

Répartition

Dear Deer
Beer

Complexité
algorithmique

<Bear, 2>

<Beer...
IN HADOOP

ON HADOOP

« SIDE BY SIDE »

Traitements réalisés sur le
cluster Hadoop avec le
framework Hadoop

Extractions d...
Statistique & Datamining
vs
Informatique & Machine-learning

RAS
(Seuls les usages et la démarche changent réellement)
7
Apache
MapReduce
http://hadoop.apache.org






Open source
In Hadoop
Map Reduce
Java

Points Forts

 Standard
 Tari...
Apache Mahout

http://mahout.apache.org/

Points Forts

 Open source
 In Hadoop
 Java

Solution proposée standard par l...
Spark

http://spark.incubator.apache.org

Points Forts











Open source
In Hadoop
Map Reduce
In Memory

Sol...
Storm

http://storm-project.net

 Open source
 In Hadoop
 Java

Points Forts





Performances
Diversité des langag...
ORACLE R Entreprise
http://www.oracle.com/technetwork/database/
options/advanced-analytics/renterprise/index.html

 Comme...
Datameer
http://www.datameer.com

Points Forts





Performances (réactivité)
IHM agréable (Web)
Datavisualisation
Ada...
SAS High-Performance
Data Mining
http://www.sas.com/offices/europe/france/solu
tions/high-performance-analytics/





...
IBM SPSS Modeler

http://www-01.ibm.com/
software/analytics/spss/products/modeler

Points Forts

 Commercial
 In & On Ha...
Alpine

http://alpinenow.com

Points Forts

 Commercial
 On Hadoop
 Non Map Reduce

Solution analytique construite sur ...
TEMPS RÉEL

REPORTING

SCORING

Détection des Fraudes

Anticipation de surcharge
serveurs

Segmentation clients

Suivi d’i...
Pérennité

Choix d’un éditeur
Développement interne
…

Gestion des
données
ETL
Distillation
Prise en charge des
données no...
Tarification de la solution

+
+
+
+
+
+
+

Montée en compétence des équipes
Accompagnement
Développement d’algorithmes
Co...
Analyses
simples sur des
volumes
morcelés

Analyses
poussées sur
des volumes
importants
Outils riches et
complexes

Soluti...
Merci !
Présentation à retrouver sur : http://datascience.bluestone.fr/
Bluestone - Panorama des solutions analytiques existantes
Bluestone - Panorama des solutions analytiques existantes
Bluestone - Panorama des solutions analytiques existantes
Bluestone - Panorama des solutions analytiques existantes
Prochain SlideShare
Chargement dans…5
×

Bluestone - Panorama des solutions analytiques existantes

1 695 vues

Publié le

La Société Française de Statistique (SFdS) nous a fait le plaisir de convier Bluestone, le 16 janvier 2014, à son Rendez-Vous Méthodes et Logiciels consacré au Big Data.

Bluestone y a présenté un “Panorama des solutions analytiques existantes”.

Publié dans : Technologie
0 commentaire
2 j’aime
Statistiques
Remarques
  • Soyez le premier à commenter

Aucun téléchargement
Vues
Nombre de vues
1 695
Sur SlideShare
0
Issues des intégrations
0
Intégrations
801
Actions
Partages
0
Téléchargements
54
Commentaires
0
J’aime
2
Intégrations 0
Aucune incorporation

Aucune remarque pour cette diapositive

Bluestone - Panorama des solutions analytiques existantes

  1. 1. Arnaud LAROCHE Julien DAMON Panorama des solutions analytiques existantes SFdS Méthodes et Logiciels - 16 janvier 2014 - Données Massives
  2. 2. Ne sont ici considérés que les solutions autour de l’environnement Hadoop Plusdevolume Moinsdestructure Plusdevitesse Plusd’analyses Outils d’exploitation de l’information Modèle de programmation parallèle Un nouveau paradigme de traitement de données massivement « parallélisable » Bases de données Nosql, outils de transformation, outils de requêtage, reporting, datamining, machine-learning… Système de fichiers distribués Un nouveau paradigme de stockage de données, massivement “scalable” 3
  3. 3. Action Axe « Opérationnel » : La possibilité de placer des fonctions analytiques complexes au cœur d’applications opérationnelles tempsréel (notion de DataCentric Applications permettant d’imaginer de nouveaux produits et services) Décision Information Données Axe « Financier » : La promesse de réduction de coûts liée à la possible mutualisation des infrastructures techniques (data-centers) et à la « scalabilité » desdites infrastructures Axe « Analytique » : La possibilité d’opérer des analyses statistiques complexes et des calculs mathématiques en des temps réduits sur de plus grands volumes de données, et sur des données de nature différente (non structurées) 4
  4. 4. Exemple simplifié de traitement Map Reduce Entrée Répartition Dear Deer Beer Complexité algorithmique <Bear, 2> <Beer, 1> <Beer, 1> <Beer, 1> <Beer, 3> <Dear, 2> <Deer, 1> <Deer, 1> Dear Bear Beer Reduce <Dear, 1> <Dear, 1> Deer Bear Beer Dear Bear Beer Dear Deer Beer <Deer, 1> <Bear, 1> <Beer,1> Assortiment <Bear, 1> <Bear, 1> Deer Bear Beer Map Sortie <Deer, 2> <Bear,2> <Beer,3> <Dear,2> <Deer,2> <Dear, 1> <Bear,1> <Beer, 1> <Dear, 1> <Deer, 1> <Beer, 1> Latence liée à l’architecture Concevoir des algorithmes adaptés Certains algorithmes n’existent pas 5
  5. 5. IN HADOOP ON HADOOP « SIDE BY SIDE » Traitements réalisés sur le cluster Hadoop avec le framework Hadoop Extractions des données pour traitement analytiques Mutualisation de l’environnement Hadoop avec la solution analytique  Échanges de données  Paradigme map reduce (distribué ou non)  Possibilité de traitements intensifs (forte volumétrie, modélisation multiple)  Échanges de données extra-cluster (hdfs, hive, hbase, …)  Paradigmes non map reduce (distribué ou non)  Espace spécialisé pour les traitements analytiques  Échanges de données intra-cluster (hdfs, hive, hbase, …)  Paradigmes non map reduce (distribué ou non)  Partage de ressources  Possibilité d’approches « in memory » 6
  6. 6. Statistique & Datamining vs Informatique & Machine-learning RAS (Seuls les usages et la démarche changent réellement) 7
  7. 7. Apache MapReduce http://hadoop.apache.org     Open source In Hadoop Map Reduce Java Points Forts  Standard  Tarification  Volumétrie manipulable Apache Streaming http://hadoop.apache.org/docs/stable1/streami ng.html Points Forts     Standard Tarification Souplesse sur le langage à utiliser Possibilité d’utiliser des bibliothèques d’analyse (scikit, …) La solution standard de Hadoop pour réaliser des traitements dans le cluster. Elle n’est en rien spécifique à des traitements analytiques. Points Faibles         Simplicité d’utilisation Coût réel Latence Complexité Besoin de tout implémenter Open source In Hadoop Map Reduce Python, C++, R, … Fonctionnalités Volumétrie Intégration sous la forme d’un flux (stdin, stdout) de la fonctionnalité MapReduce pour tous les langages pouvant fonctionner sous ce mode. Points Faibles  Comme MapReduce +  Besoin de parsing des fichiers à chaque étape Simplicité d’utilisation Fonctionnalités Volumétrie 9
  8. 8. Apache Mahout http://mahout.apache.org/ Points Forts  Open source  In Hadoop  Java Solution proposée standard par la fondation Apache pour réaliser des traitements analytiques. Un grand nombre d’algorithme sont implémentés. Points Faibles  Standard  Tarification  Algorithmes déjà programmés RHadoop https://github.com/RevolutionAnalytics/RHado op/wiki Points Forts  Programmation sous R  Tarification  Réutilisation des bibliothèques R possible Simplicité d’utilisation  Java ou ligne de commande « complexe »  Documentation  Régression fonctionnelle  Open source  In Hadoop  Map Reduce Points Faibles  Aucun algorithme fourni  Latence  Conversion des données souvent nécessaire Fonctionnalités Volumétrie Solution open source réalisée par Revolution Analytics permettant de réaliser les traitement map reduce (rmr2), hdfs (rhdfs), et hbase (rhbase) directement sous R. Simplicité d’utilisation Fonctionnalités Volumétrie 10
  9. 9. Spark http://spark.incubator.apache.org Points Forts          Open source In Hadoop Map Reduce In Memory Solution permettant d’accélérer les traitements map reduce en utilisant les ressources mémoire du cluster (c’est en fai tune alternative à map Reduce). Elle peut être utilisée avec Scala, Java, Python et bientôt R. Points Faibles Performances Diversité des langages utilisables Tarification Algorithmes existants Adapté à la propagation de scores RHive http://nexr.github.io/RHive/ Points Forts  Programmation en R  Requêtes Hive  Adapté à la propagation de scores  Tarification Simplicité d’utilisation  Pas adapté pour l’inférence  En cours de développement Fonctionnalités Volumétrie  Open source  In Hadoop  Interaction avec Hive Intégration de R avec Hive. Dans un sens, permet de réaliser des requêtes HQL en R, dans l’autre sens, permet d’utiliser des fonctions R sous Hive. Points Faibles  Repose sur Hive  Pas adapté pour l’inférence Simplicité d’utilisation Fonctionnalités Volumétrie 11
  10. 10. Storm http://storm-project.net  Open source  In Hadoop  Java Points Forts     Performances Diversité des langages utilisables Tarification Adapté à la propagation de scores simples 0xdata H2O http://0xdata.com Points Forts  Performances (réactivité)  IHM agréable (Web)  Algorithme existants Solution adaptée à la réalisation de traitements temps réel. Peut être interfacé avec un grand nombre de langages : Ruby, Python, Javascript, Perl, PHP, et R (avec storm-r) Points Faibles Simplicité d’utilisation  Pas adapté pour l’inférence  Non spécifique analytique Fonctionnalités Volumétrie     Open source In Hadoop Non Map Reduce In Memory Points Faibles  Contraintes hardware  Limites du « In Memory »  Méthodes limités (en développement)  Pas de flux de traitement Solution in memory déployée sur cluster Hadoop. Permet de réaliser certains traitements analytiques classiques sur des données structurées. Simplicité d’utilisation Fonctionnalités Volumétrie 12
  11. 11. ORACLE R Entreprise http://www.oracle.com/technetwork/database/ options/advanced-analytics/renterprise/index.html  Commercial  In Hadoop  Map Reduce Points Forts Solution comprenant : ORCH, un connecteur Hadoop pour R ayant des fonctionnalités proches de Rhadoop ORE, l’intégration de R dans Oracle Points Faibles  Programmation sous R  Réutilisation des bibliothèques R possible  Utilisation de Oracle pour les données volumineuses Wibidata http://www.wibidata.com Points Forts  Performances  Algorithmes existants  Adapté à la propagation de scores         Simplicité d’utilisation Tarification Aucun algorithme fourni Latence Conversion des données souvent nécessaire Commercial On Hadoop Interaction avec Hive Java Fonctionnalités Volumétrie Solution s’appuyant sur Kiji (open source) permettant de réaliser des traitement analytiques simples en HQL. Points Faibles  Pas adapté pour l’inférence  Peu d’algorithmes existant  Structuration des données Simplicité d’utilisation Fonctionnalités Volumétrie 13
  12. 12. Datameer http://www.datameer.com Points Forts     Performances (réactivité) IHM agréable (Web) Datavisualisation Adapté à de la propagation de modèles Statistica / Statsoft http://www.statsoft.fr/ Points Forts  Simplification des manipulation sous Hive  De nombreux algorithmes  Datavisualisation  Scoring parallélisés  Solution commerciale  In Hadoop  Non Map Reduce Plateforme intégrée permettant de faire des reporting, de la visualisation, et de la propagation de modèles PMML via Zementis. Points Faibles Simplicité d’utilisation  Tarification (si > 1 To)  Pas adapté pour l’inférence Fonctionnalités Volumétrie  Solution commerciale  On Hadoop  Distribué non Map Reduce Points Faibles  Tarification  Besoin de structurer les données sous Hive  Estimation sur données réduites Plateforme Wintel adossée à un cluster Hadoop, permettant de réaliser des traitements Hive simplement, des modélisations sur données distillées, et du scoring via une solution dédiée. Simplicité d’utilisation Fonctionnalités Volumétrie 14
  13. 13. SAS High-Performance Data Mining http://www.sas.com/offices/europe/france/solu tions/high-performance-analytics/     Commercial In Hadoop Non Map Reduce In Memory Points Forts     Performances (réactivité) Programmation « classique » IHM agréable (Flowchart) Datavisualisation Revolution Analytics http://www.revolutionanalytics.com/ Points Forts  Performances  Programmation style R  Datavisualisation (non interactive)  De nombreux algorithmes Points Faibles     Tarification Contraintes hardware Limites du « In Memory » Structuration des données  Solution commerciale  On Hadoop  Distribué non Map Reduce Points Faibles  Tarification  Absence de certains algorithmes de machine learning  Architecture Solution in memory déployée sur cluster Hadoop. Permet de réaliser l’ensemble des traitements analytiques classiques sur des données structurées, Simplicité d’utilisation Fonctionnalités Volumétrie Adaptation de R à l’utilisation des volumes importants de données. Permet de réaliser des traitements « side by side » avec Hadoop. Un nombre important d’algorithmes est disponible. Simplicité d’utilisation Fonctionnalités Volumétrie 15
  14. 14. IBM SPSS Modeler http://www-01.ibm.com/ software/analytics/spss/products/modeler Points Forts  Commercial  In & On Hadoop  Non Map Reduce Points Faibles  Intégration de composants multiples  Intégration possible de R  Méthodes « classiques » (SPSS) Dataiku http://www.dataiku.com Points Forts  Programmation « classique »  IHM agréable (Web, Flowchart)  Facilité à mixer les outils (Pig + Scikit + Datavisualisation, …)  Eco système complet  Tarification Solution analytique de IBM combinant la possibilité de traitements Map Reduce en JAQL avec du streaming avec SPSS Modeler Simplicité d’utilisation Fonctionnalités Volumétrie  Solution commerciale  In & On Hadoop  Non Map Reduce Points Faibles  Non map reduce  Architecture Plateforme intégrée rassemblant des solutions open source (Pig, Hive) permettant de faire des reporting, de la visualisation et des traitements analytiques en python (R et Mahout à venir) Simplicité d’utilisation Fonctionnalités Volumétrie 16
  15. 15. Alpine http://alpinenow.com Points Forts  Commercial  On Hadoop  Non Map Reduce Solution analytique construite sur Hive et Hbase permettant de réaliser des traitements analytiques via une interface de workflow Points Faibles  IHM agréable (Flowchart)  Datavisualisation  Déploiement de modèles Skytree http://www.skytree.net Points Forts  Facilitateur d’accès  Nombreux algorithmes Simplicité d’utilisation  Approche base de données  Estimation de données  Données à inclure dans Hive ou HBase  Commercial  On Hadoop  Non Map Reduce Points Faibles  Sans IHM  Hors Hadoop Fonctionnalités Volumétrie Solution analytique prenant la forme d’un web service pouvant être interfacé avec R, Weka, C++ et Python. Simplicité d’utilisation Fonctionnalités Volumétrie 17
  16. 16. TEMPS RÉEL REPORTING SCORING Détection des Fraudes Anticipation de surcharge serveurs Segmentation clients Suivi d’indicateurs agrégés (courbes de charges, flux, …) Next best offert Targeting dynamique Personnalisation de l’offre … Outils légers temps réel … Solutions Web et in memory Valorisation … Solutions les plus complètes 19
  17. 17. Pérennité Choix d’un éditeur Développement interne … Gestion des données ETL Distillation Prise en charge des données non structurées … Combiner des outils Sous forme intégrée En mutualisant les compétences En minimisant les transformations de données … Dimensionnement des données analysées Analyse sur échantillonnage ? Calcul segmenté ? … Spécificité des analyses Algorithmes standards ? Approche industrielle ou R&D ? … Avec des moyens adaptés Intégration avec l’existant Format de stockage des données Mutualisation de la plateforme hadoop … Evolutivité Anticiper les besoins à venir Eviter le patchwork … 20
  18. 18. Tarification de la solution + + + + + + + Montée en compétence des équipes Accompagnement Développement d’algorithmes Contraintes hardware Impact sur les traitements existants Montés de version … = 21
  19. 19. Analyses simples sur des volumes morcelés Analyses poussées sur des volumes importants Outils riches et complexes Solutions simples et rapides à mettre en œuvre
  20. 20. Merci ! Présentation à retrouver sur : http://datascience.bluestone.fr/

×