Le Big Data offre la capacité de traiter des volumes de données conséquents à l’aide d’architectures techniques nouvelles, comment les utilisateurs traditionnels (datamanager, datasteward, dataminers) accèderont et traiteront les données dans ces nouvelles architectures ?
1. Hadoop
SAS®Visual Analytics
Usages cibles des utilisateurs SAS
Paris, 5/11/2013
Soft Computing – 55, quai de Grenelle – 75015 Paris – tél. +33 (0)1 73 00 55 00 – www.softcomputing.com
2. Thème
• Le Big Data offre la capacité de traiter des volumes de données conséquents
à l’aide d’architectures techniques nouvelles, comment les utilisateurs
traditionnels (datamanager, datasteward, dataminers) accèderont et
traiteront les données dans ces nouvelles architectures ?
• La démonstration s’appuiera sur les interfaces SAS de connexion aux données issues
du Big Data pour illustrer les nouvelles pratiques des utilisateurs de SAS. Cette
démonstration aura notamment pour but d’alimenter le débat autour de la mutation
des pratiques des utilisateurs SAS dans ces nouveaux environnements techniques,
quelles seront les nouvelles compétences à acquérir ? quelles compétences pour quels
profils ?
www.softcomputing.com
Reproduction interdite sans l’accord écrit de Soft Computing
07/11/2013
2
3. Des systèmes d’information décisionnels en pleine mutation
Système décisionnel historique
Des faiblesses
•Les coûts
•Les délais
•La qualité des données
•La satisfaction utilisateur
Système décisionnel
nouvelle génération
La Business
Intelligence
Agile
Des nouvelles
contraintes
•La volumétrie
•Le réglementaire
•La garantie du niveau de
service
Des anciennes croyances
•L’autonomie des utilisateurs
•La mobilité
•Données exogènes et non
structurées
Le Dataviz
Des nouveaux besoins
•Séparation TP et AP
•J+1
•MOLAP
•Datamart physique
Le Inmemory
www.softcomputing.com
Hadoop
Reproduction interdite sans l’accord écrit de Soft Computing
Les
Appliances
07/11/2013
3
4. Big Data : Architecture applicative avec intégration Hadoop
2 axes technologiques :
•In-memory technology
•Distributed computing
www.softcomputing.com
Reproduction interdite sans l’accord écrit de Soft Computing
07/11/2013
4
5. 3 types d’utilisateurs
Datamanager
•“Data management is the development and execution of architectures, policies, practices and
procedures in order to manage the information lifecycle needs of an enterprise in an effective
manner. ” Source TechTarget
Data steward
•“Data stewardship is the management and oversight of an organization's data assets to help
provide business users with high-quality data that is easily accessible in a consistent
manner.” Source TechTarget
Dataminer
•“Data mining is sorting through data to identify patterns and establish relationships.” Source
TechTarget
www.softcomputing.com
Reproduction interdite sans l’accord écrit de Soft Computing
07/11/2013
5
6. Architecture fonctionnelle autour de SAS®Visual Analytics
(mode Cluster Hadoop)
Requête
Exploration
Administration
SAS
distribué
Extraction,
Chargement,
Transformation
HDFS
Création et
publication des
rapports
Sources
externes
Sharepoint
Outlook
Add-In for
Microsoft
Offide, SAS
for Mobile
Visualisation
des rapports
SAS
In-memory
Exploration
dans les
données
Sources
internes
Datamanager
Exploration
dans les
données
+ Mining
www.softcomputing.com
Reproduction interdite sans l’accord écrit de Soft Computing
Datasteward
Business User
Dataminer
07/11/2013
6
7. Architecture applicative SAS®Visual Analytics
Datamanager
Datasteward
SAS Visual Analytics Viewer
Business User
SAS Visual Analytics Designer
SAS Visual Analytics Explorer
Dataminer
SAS
Visual
Analytics
LASR Server
SASDIS + SASEG:
•Fournit les fonctionnalités en
datamanagement max
•Nécessite des compétences expertes
SAS Visual Data Builder:
•Facilité d’utilisation
•Fonctionnalités en datamagement plus
limitées
Administr
ation
!
Données internes
Données sources
www.softcomputing.com
Données externes
Reproduction interdite sans l’accord écrit de Soft Computing
07/11/2013
7
8. !
Databuilder: Les problématiques liées à SAS® Visual Analytics
• Le chargement des données
– Accès aux données autorisées par l’administrateur SAS « Master »
– Accès aux données de fichiers externes
– Chargement de données « In-memory » par une requête
• La modélisation des données
– Pas de création de cubes
– Eviter le plus possible les pré-aggrégations
– Grain au détail maximum de degrés de liberté sur la navigation
– Bien appréhender la contrainte :
• Une exploration une table
• Un rapport une table
Modéliser en conséquence (jointure, concaténation de tables, …)
www.softcomputing.com
Reproduction interdite sans l’accord écrit de Soft Computing
07/11/2013
8
9. Outils SAS pour le datamager dans un contexte Big Data
• Dans SAS Data Integration Studio :
– Utilisation de transformations spécifiques aux traitements de données
sous Hadoop :
• Chargement de fichiers Hadoop
• Template de transformations en langage natif Hadoop
• Ecriture de fichiers sur la couche Hadoop
– Possibilité de charger les données sur la couche In-memory
www.softcomputing.com
Reproduction interdite sans l’accord écrit de Soft Computing
07/11/2013
9
10. Outils SAS pour le datamager dans un contexte Big Data
• Dans Sas Entreprise Guide ou SAS Data Integration Studio => coding SAS
– Utilisation du connecteur SAS Connect To Hadoop
• Librairies SAS connecté à une base de données HIVE (Implicit Pass-Through)
• PROC SQL connecté à une base de données HIVE (Explicit Pass-Through)
– User Defined Function (ex : les fonctions SAS_PUT, SAS_ZACORR dans Teradata)
– Nouvelle procédure <=> nouveau langage de développement SAS
• PROC DS2
– Possibilité de charger les données sur la couche In-memory
• PROC IMSTAT
www.softcomputing.com
Reproduction interdite sans l’accord écrit de Soft Computing
07/11/2013
10
11. Focus langage DS2 : le langage de nouvelle génération
• DS2, une alternative à l’étape DATA
• Permet d’optimiser le datamanagement en environnement high•
•
•
•
•
performance avec traitements parallélisés
Nouvelle technologie / Etape DATA
Syntaxe familière aux utilisateurs de SAS/AF (des méthodes : init,
term and run)
Proche de l’étape DATA, en partageant les fonctionnalités les plus
usitées (boucle implicite, retain, set, …)
Evolutif en associant à l’environnement du développeur de nouveaux
packages (comme la PROC FCMP)
Exécutable aussi bien dans une session SAS Bases traditionnelle que
via un connecteur « In-database » associé au module
SAS®Embedded Process
www.softcomputing.com
Reproduction interdite sans l’accord écrit de Soft Computing
07/11/2013
11
12. « Hello World » Comparaison
En DS2
proc ds2;
data _null_;
method init();
dcl varchar(16) str;
str = 'Hello World!';
put str;
end;
enddata;
run;
En JAVA
En C++
Une syntaxe, proche de l’étape DATA, qui reste éloignée des langages de
programmation orientés objet
www.softcomputing.com
Reproduction interdite sans l’accord écrit de Soft Computing
07/11/2013
12
13. Outils SAS pour le Dataminer dans un contexte Big Data
• SAS Visual Analytics Explorer
– Permet d’explorer la donnée et d’effectuer des analyses rapides :
• Corrélation
• Régressions
• Séries temporelles, …
• SAS Entreprise Miner
– Permet la création de modèles statistiques
– Utilisation des procédures statistiques bénéficiant du mode distribué :
•
•
•
•
•
•
•
HPDMDB Summarize data
HPDS2 Parallel execution of DS2:
HPFOREST Random forest
HPLOGISTIC Logistic regression
HPNEURAL Neural network modeling
HPSAMPLE Sampling and data partitioning
…
www.softcomputing.com
Reproduction interdite sans l’accord écrit de Soft Computing
07/11/2013
14
14. Conclusion : Quelles compétences pour quels profils ?
En environnement SAS
traditionnel
En environnement distribué
ou/et In-memory
Langages SAS,
SAS MP/Connect
SQL Pass-through
FCMP - DS2
User Define Function
HIVE, PIG
Infomaps
SAS®Visual Data Builder
SAS®Visual Analytics Explorer
SAS Entreprise Miner
Langage SAS
www.softcomputing.com
SAS Entreprise Miner (transformation code EM en DS2)
SAS®Visual Analytics Explorer
High-performance procedure
User Define Function
Reproduction interdite sans l’accord écrit de Soft Computing
07/11/2013
15