USI 2013 : 7 changements nécessaires pour sauver vos SI décisionnelsJoseph Glorieux
Présentation de ma session à l'USI 2013 : www.usievents.com
Les principes des architectures décisionnelles ont... 20 ans.
Si on peut leur souhaiter de vivre aussi longtemps que le mainframe, il va être nécessaire de s’adapter à un contexte riche en changement :
- L'explosion de la volumétrie, des usages, de la diversité, l'instantanéité, bref Big Data
- La réduction du time to market dans un contexte de baisse du budget
- La volonté d'indépendance des utilisateurs et des métiers
- Le raz de marée apporté par de nouveaux paradigmes et solutions (NoSQL, in memory, dataviz, R....)
Ce que je propose donc dans cette session c'est un petit guide de survie en 7 points touchant aussi bien à l'architecture, qu'aux pratiques de développements ou à l'organisation.
Mon objectif est de redonner de l'espoir, ou au moins de faire persister encore quelques années les systèmes d'information décisionnels afin de fêter les noces de perles !!
USI 2013 : 7 changements nécessaires pour sauver vos SI décisionnelsJoseph Glorieux
Présentation de ma session à l'USI 2013 : www.usievents.com
Les principes des architectures décisionnelles ont... 20 ans.
Si on peut leur souhaiter de vivre aussi longtemps que le mainframe, il va être nécessaire de s’adapter à un contexte riche en changement :
- L'explosion de la volumétrie, des usages, de la diversité, l'instantanéité, bref Big Data
- La réduction du time to market dans un contexte de baisse du budget
- La volonté d'indépendance des utilisateurs et des métiers
- Le raz de marée apporté par de nouveaux paradigmes et solutions (NoSQL, in memory, dataviz, R....)
Ce que je propose donc dans cette session c'est un petit guide de survie en 7 points touchant aussi bien à l'architecture, qu'aux pratiques de développements ou à l'organisation.
Mon objectif est de redonner de l'espoir, ou au moins de faire persister encore quelques années les systèmes d'information décisionnels afin de fêter les noces de perles !!
Annexe du cours Big Data
- Annexe A : Etapes d’un projet Big Data
- Annexe B : Schéma général de l’Algorithme MapReduce
- Annexe C : OpenStack & Hadoop
- Annexe D : Mahout
Cette étude porte sur la brique Spark SQL de la plateforme Apache Spark.
L'objectif est de présenter les concepts et les fonctionnalités de spark SQL.
Les points abordés sont :
- Architecture
- API de Spark SQL
- Opérations sur DataFrames/DataSets
- Opérations relatives au nettoyage de données
- Opérations de conversion (DataFrame, DataSet, Collection, RDD)
- Opérations relationnelles
Big Data : Hadoop
- Généralité
- Architecture HDFS
- Algorithme MapRduce
- Architecture YARN
- Hadoop v3.x vs Hadoopv2.x
Cours Big Data - Chap2 - GI3 - ENIS
Spark, ou comment traiter des données à la vitesse de l'éclairAlexis Seigneurin
Spark fait partie de la nouvelle génération de frameworks de manipulation de données basés sur Hadoop. L’outil utilise agressivement la mémoire pour offrir des temps de traitement jusqu’à 100 fois plus rapides qu'Hadoop. Dans cette session, nous découvrirons les principes de traitement de données (notamment MapReduce) et les options mises à disposition pour monter un cluster (Zookeper, Mesos…). Nous ferons un point sur les différents modules proposés par le framework, et notamment sur Spark Streaming pour le traitement de données en flux continu.
Présentation jouée chez Ippon le 11 décembre 2014.
Pour accéder aux fichiers nécessaires pour faire ce TP, visitez: https://drive.google.com/folderview?id=0Bz7DokLRQvx7M2JWZEt1VHdwSE0&usp=sharing
Pour plus de contenu, Visitez http://liliasfaxi.wix.com/liliasfaxi !
Présentation donnée à l'occasion du workshop "La protection des données: de la fermeture à l’ouverture" organisé par l'eGov Innovation Center le 2 novembre 2016 : http://egovinnovation.ch/la-protection-des-donnees-de-la-fermeture-a-louverture/.
Stinco propose un point de synchronisation sur des technologies de déduplication du marché. N\'hésitez pas à nous contacter si vous souhaitez en savoir un peu plus ....
Hug france - Administration Hadoop et retour d’expérience BI avec Impala, lim...Modern Data Stack France
Hadoop User Group du lundi 6 oct 2014:
Talk #3: Administration Hadoop et retour d’expérience BI avec Impala, limites et recommandations par Abed Ajraou et Cherif Tifrani de Solocal (Pages Jaunes).
Big Data ou comment retrouver une aiguille dans une botte de foinPALO IT
Un parc informatique d’un millier de machines génère de nombreux Terra Octets de logs. Comment parvenir à y retrouver une information pertinente et comment valoriser les informations contenues dans ces logs ?
Au programme :
- La centralisation des logs : back to basics;
- Cas pratiques : détection d’attaques DoS et refacturation sur plateforme mutualisée;
- Une grille Hadoop : en quoi ça consiste ?
Annexe du cours Big Data
- Annexe A : Etapes d’un projet Big Data
- Annexe B : Schéma général de l’Algorithme MapReduce
- Annexe C : OpenStack & Hadoop
- Annexe D : Mahout
Cette étude porte sur la brique Spark SQL de la plateforme Apache Spark.
L'objectif est de présenter les concepts et les fonctionnalités de spark SQL.
Les points abordés sont :
- Architecture
- API de Spark SQL
- Opérations sur DataFrames/DataSets
- Opérations relatives au nettoyage de données
- Opérations de conversion (DataFrame, DataSet, Collection, RDD)
- Opérations relationnelles
Big Data : Hadoop
- Généralité
- Architecture HDFS
- Algorithme MapRduce
- Architecture YARN
- Hadoop v3.x vs Hadoopv2.x
Cours Big Data - Chap2 - GI3 - ENIS
Spark, ou comment traiter des données à la vitesse de l'éclairAlexis Seigneurin
Spark fait partie de la nouvelle génération de frameworks de manipulation de données basés sur Hadoop. L’outil utilise agressivement la mémoire pour offrir des temps de traitement jusqu’à 100 fois plus rapides qu'Hadoop. Dans cette session, nous découvrirons les principes de traitement de données (notamment MapReduce) et les options mises à disposition pour monter un cluster (Zookeper, Mesos…). Nous ferons un point sur les différents modules proposés par le framework, et notamment sur Spark Streaming pour le traitement de données en flux continu.
Présentation jouée chez Ippon le 11 décembre 2014.
Pour accéder aux fichiers nécessaires pour faire ce TP, visitez: https://drive.google.com/folderview?id=0Bz7DokLRQvx7M2JWZEt1VHdwSE0&usp=sharing
Pour plus de contenu, Visitez http://liliasfaxi.wix.com/liliasfaxi !
Présentation donnée à l'occasion du workshop "La protection des données: de la fermeture à l’ouverture" organisé par l'eGov Innovation Center le 2 novembre 2016 : http://egovinnovation.ch/la-protection-des-donnees-de-la-fermeture-a-louverture/.
Stinco propose un point de synchronisation sur des technologies de déduplication du marché. N\'hésitez pas à nous contacter si vous souhaitez en savoir un peu plus ....
Hug france - Administration Hadoop et retour d’expérience BI avec Impala, lim...Modern Data Stack France
Hadoop User Group du lundi 6 oct 2014:
Talk #3: Administration Hadoop et retour d’expérience BI avec Impala, limites et recommandations par Abed Ajraou et Cherif Tifrani de Solocal (Pages Jaunes).
Big Data ou comment retrouver une aiguille dans une botte de foinPALO IT
Un parc informatique d’un millier de machines génère de nombreux Terra Octets de logs. Comment parvenir à y retrouver une information pertinente et comment valoriser les informations contenues dans ces logs ?
Au programme :
- La centralisation des logs : back to basics;
- Cas pratiques : détection d’attaques DoS et refacturation sur plateforme mutualisée;
- Une grille Hadoop : en quoi ça consiste ?
Le stockage des données a toujours été une des problématiques les plus difficiles à maitriser. L’augmentation massive de la quantités de données disponibles, le phénomène Big Data, incite les sociétés à moderniser leur environnement décisionnel. Dès lors, beaucoup se posent la question du choix entre SQL et NoSQL. Microsoft, avec son offre SQL Server Parallel Data Warehouse 2012 réconcilie le meilleur des technologies actuelles. Un seul moto ‘Insights on Any Data of Any Size’
Actuellement, on parle beaucoup de traitement en lots (batch) dans le monde du Big Data. Mais qu’en est-il du Streaming et du temps réel ? Beaucoup de frameworks Big Data tentent de répondre à cette problématique. En tête de liste figure Spark : grâce à son composant Spark Streaming, il permet un traitement en continu des flux de données et une disponibilité 24/7.
Au programme :
- Streaming et Architecture Big Data
- Hello world Spark Streaming
- Intégration de Flume à Spark Streaming
- Use case “métriques sur des logs applicatifs”
- Architecture physique : driver / workers / receivers
- Monitoring de Spark Streaming
- Fail over : reliable / unreliable sources, checkpoint, recover
- Tuning et performance.
Speakers :
- Nadhem LAMTI, Architecte Technique chez PALO IT
Depuis 10 ans, Nadhem intervient principalement sur des projets JAVA JEE de grande envergure dans différents secteurs (Télécommunication, Banque, Finance, Transports, Tourisme, etc.), développant ainsi une expertise polyvalente en abordant multiples technologies et architectures. Fort d’une expérience concluante en tant qu’Ingénieur Performance & Support, Nadhem est capable d’intervenir sur des problématiques de production liées à des systèmes d’informations complexes. Actuellement en mission chez Voyages SNCF, il contribue à un grand chantier Big Data de centralisation de logs et s’intéresse tout particulièrement au nouveau produit phare de traitement de données Apache Spark.
- Saâd-Eddine MALTI, Expert BDD chez Voyages SNCF
En poste depuis 10 ans chez Voyages SNCF, Saâd-Eddine intervient en tant qu’Expert BDD sur toutes les applications de manière transverse. L’orientation affichée de Voyages SNCF vers le Big Data pousse Saâd-Eddine à s’investir pleinement dans ce domaine, également sur le nouveau produit phare de traitement de données Apache Spark.
1. 12 juini 2012
Le CC-IN2P3 au service de la recherche
Dominique Boutigny
Crédits CC-IN2P3 :
Laurent Caillat-Vallet
Jean-Yves Nief
Pierre Girard
Mattieu Puel
6. Traitement de données en physique HEP
Les collisions de particules sont indépendantes les unes des autres
Ø Traitement de données : "Embarrassingly parallel problem"
Ø Chaque CPU (core / thread) traite un ensemble de données
Ø Les analyses de physique consistent à filtrer les données afin
d'effectuer un traitement statistique
Il faut passer au crible des millions / milliards
d'enregistrements d'interactions afin de
localiser les quelques "évènements"
intéressants
Au niveau informatique il s'agit essentiellement
d'un problème d'accès aux données
Le comportement des détecteurs est modélisé è CPU
avec une très grande précision è Simulation è Accès aux données
12 juini 2012
7. Exemple d'accès aux données : Xrootd
T1.root
HPSS (5)
(4) + (5):
dynamic (4) Data server: Data server:
staging Xrootd Xrootd
(6): (6)
random (3)
access Redirector server:
Xrootd
(1) (etc…)
Client (2) (1) + (2): load balancing
+ scalabilité
/hpss/in2p3.fr/T1.root ?
Système similaire : SRM / DCache
12 juini 2012
11. Les futures expériences d'astroparticules
LSST : Large Synoptic Survey Telescope
3.2 Gpixels – 1 image toutes les 15s
è 15 à 30 To de données chaque nuit
L'ensemble du ciel est
sondé 1000 fois en 10 ans
Crédit : LSST Collaboration
12 juini 2012
12. Stockage des données dans LSST
Solution de base : qserv
http://dev.lsstcorp.org/trac/wiki/dbQservOverview http://www.scidb.org/
Base de données Open Source
spécifiquement conçue pour le
stockage de masses de données
scientifiques
Modèle de données basé sur des
tableaux multidimensionnels
Vise un passage à l'échelle
jusqu'à plusieurs centaines de Po
sur 1000 nœuds
12 juini 2012
13. Virtualisation
La virtualisation permet de dé-corréler l’infrastructure matérielle (réelle) de
l’infrastructure présentée à l’utilisateur (virtuelle)
Sur un serveur multi-cœur, il est possible d'instancier plusieurs machines
virtuelles ayant des caractéristiques données :
Ø Système d'exploitation
Ø Environnement logiciel
Ø Éventuellement environnement d'analyse
La virtualisation va prendre une place de plus en plus importante dans les
centres de traitement de données
Ø S'affranchir au maximum des spécificités des sites pour créer des
infrastructure adaptées aux expériences
Cloud : IaaS è Introduction de la virtualisation dans les
architectures de grille
12 juini 2012
15. Les briques de base
L'essentiel de la ferme de calcul est
constitué de châssis DELL C6100
~14 000 cœurs physiques
è Oracle Grid Engine
L'essentiel du stockage DAS
est constitué de châssis DELL
R510 + MD 1200
4 robots de stockage de masse
è 200 Po accessibles via le
système de stockage hiérarchique
HPSS
12 juini 2012
16. Partenariat avec DELL
Mise en place d'un partenariat avec DELL
Ø Test de solutions innovante
Ø Architecture de calcul et de stockage
Ø Architecture réseau
Ø Gestion / Maitrise de l'énergie
Ø Plateforme GPU
Résultats des expérimentations publiés sous forme de "white paper"
12 juini 2012