Azure StorSimple : Une baie de stockage performante à un tarif ultra compétitifMicrosoft Technet France
Venez découvrir Azure StorSimple, des appliances s’installant chez vous, et simulant des baies de stockage grâce à des disques embarqués et du stockage cloud Azure. Les données actives restent sur l’Appliance, les données froides sont encryptées avant d’être stockées sur Azure, tout en étant toujours visibles pour les utilisateurs. Les solutions Azure StorSimple sont proposées à des tarifs ultra compétitifs ; et s’appliquent à un grand nombre de besoins de stockage : stockage Applicatif, serveurs de fichiers, sauvegarde/Restauration, archivage, disaster recovery, optimisation des baies existantes, gestion des petits environnements virtualisés.
Azure StorSimple : Une baie de stockage performante à un tarif ultra compétitifMicrosoft Technet France
Venez découvrir Azure StorSimple, des appliances s’installant chez vous, et simulant des baies de stockage grâce à des disques embarqués et du stockage cloud Azure. Les données actives restent sur l’Appliance, les données froides sont encryptées avant d’être stockées sur Azure, tout en étant toujours visibles pour les utilisateurs. Les solutions Azure StorSimple sont proposées à des tarifs ultra compétitifs ; et s’appliquent à un grand nombre de besoins de stockage : stockage Applicatif, serveurs de fichiers, sauvegarde/Restauration, archivage, disaster recovery, optimisation des baies existantes, gestion des petits environnements virtualisés.
Venez découvrir les méthodes, outils et best practices utilisés par les experts du Support Microsoft pour identifier et corrigier les problèmes de performances sur SQL Serveur ou tout simplement en optimiser les performances. Cette session présentée par nos spécialistes au Support SQL Serveur en France, sera pour vous une occasion unique de les rencontrer ! Avec environ 50% de contenu original pour cesTechdays, nous aborderons entre autre la gestion des index, du columns store ou encore de la compression, nous vous présenterons également les outils utilisés et la manière de les utiliser.
Il est important de souligner que la base de données ne se résume pas simplement à une requête à optimiser, mais également à une structure de données qu'il convient de choisir et de configurer avec soin.
Actuellement, on parle beaucoup de traitement en lots (batch) dans le monde du Big Data. Mais qu’en est-il du Streaming et du temps réel ? Beaucoup de frameworks Big Data tentent de répondre à cette problématique. En tête de liste figure Spark : grâce à son composant Spark Streaming, il permet un traitement en continu des flux de données et une disponibilité 24/7.
Au programme :
- Streaming et Architecture Big Data
- Hello world Spark Streaming
- Intégration de Flume à Spark Streaming
- Use case “métriques sur des logs applicatifs”
- Architecture physique : driver / workers / receivers
- Monitoring de Spark Streaming
- Fail over : reliable / unreliable sources, checkpoint, recover
- Tuning et performance.
Speakers :
- Nadhem LAMTI, Architecte Technique chez PALO IT
Depuis 10 ans, Nadhem intervient principalement sur des projets JAVA JEE de grande envergure dans différents secteurs (Télécommunication, Banque, Finance, Transports, Tourisme, etc.), développant ainsi une expertise polyvalente en abordant multiples technologies et architectures. Fort d’une expérience concluante en tant qu’Ingénieur Performance & Support, Nadhem est capable d’intervenir sur des problématiques de production liées à des systèmes d’informations complexes. Actuellement en mission chez Voyages SNCF, il contribue à un grand chantier Big Data de centralisation de logs et s’intéresse tout particulièrement au nouveau produit phare de traitement de données Apache Spark.
- Saâd-Eddine MALTI, Expert BDD chez Voyages SNCF
En poste depuis 10 ans chez Voyages SNCF, Saâd-Eddine intervient en tant qu’Expert BDD sur toutes les applications de manière transverse. L’orientation affichée de Voyages SNCF vers le Big Data pousse Saâd-Eddine à s’investir pleinement dans ce domaine, également sur le nouveau produit phare de traitement de données Apache Spark.
Il y a souvent des difficultés dans la communication entre les équipes d’exploitation et les équipes
de développement. Les enjeux ne sont pas les mêmes: les uns ont pour mission de stabiliser
le système, les autres au contraire de le faire évoluer. Ces incompréhensions sont encore plus
fortes avec les équipes BI, car les bases BI ont des besoins très différents des applications traditionnelles.
En expliquant ces différences, j’espère amener à une meilleure compréhension entre
les équipes. C’est aussi l’occasion de parler des technologies récentes qui adressent les besoins
BI: Exadata, In-Memory, réplication temps réel,…
Les solutions Hitachi NAS sont exclusivement orientées service de données en réseau IP, avec 3 déterminants forts : performance, volumétrie et Cloud. Il s’agit d’aller au-delà de la commodité des standards de partage CIFS/NFS/FTP, en proposant de passer les limites en taille de volume partagé (32 Po), en nombre de fichiers (16 millions par répertoire), en performance (SPECsfs) et en externalisation (S3 et HTTPs).
Venez découvrir les méthodes, outils et best practices utilisés par les experts du Support Microsoft pour identifier et corrigier les problèmes de performances sur SQL Serveur ou tout simplement en optimiser les performances. Cette session présentée par nos spécialistes au Support SQL Serveur en France, sera pour vous une occasion unique de les rencontrer ! Avec environ 50% de contenu original pour cesTechdays, nous aborderons entre autre la gestion des index, du columns store ou encore de la compression, nous vous présenterons également les outils utilisés et la manière de les utiliser.
Il est important de souligner que la base de données ne se résume pas simplement à une requête à optimiser, mais également à une structure de données qu'il convient de choisir et de configurer avec soin.
Actuellement, on parle beaucoup de traitement en lots (batch) dans le monde du Big Data. Mais qu’en est-il du Streaming et du temps réel ? Beaucoup de frameworks Big Data tentent de répondre à cette problématique. En tête de liste figure Spark : grâce à son composant Spark Streaming, il permet un traitement en continu des flux de données et une disponibilité 24/7.
Au programme :
- Streaming et Architecture Big Data
- Hello world Spark Streaming
- Intégration de Flume à Spark Streaming
- Use case “métriques sur des logs applicatifs”
- Architecture physique : driver / workers / receivers
- Monitoring de Spark Streaming
- Fail over : reliable / unreliable sources, checkpoint, recover
- Tuning et performance.
Speakers :
- Nadhem LAMTI, Architecte Technique chez PALO IT
Depuis 10 ans, Nadhem intervient principalement sur des projets JAVA JEE de grande envergure dans différents secteurs (Télécommunication, Banque, Finance, Transports, Tourisme, etc.), développant ainsi une expertise polyvalente en abordant multiples technologies et architectures. Fort d’une expérience concluante en tant qu’Ingénieur Performance & Support, Nadhem est capable d’intervenir sur des problématiques de production liées à des systèmes d’informations complexes. Actuellement en mission chez Voyages SNCF, il contribue à un grand chantier Big Data de centralisation de logs et s’intéresse tout particulièrement au nouveau produit phare de traitement de données Apache Spark.
- Saâd-Eddine MALTI, Expert BDD chez Voyages SNCF
En poste depuis 10 ans chez Voyages SNCF, Saâd-Eddine intervient en tant qu’Expert BDD sur toutes les applications de manière transverse. L’orientation affichée de Voyages SNCF vers le Big Data pousse Saâd-Eddine à s’investir pleinement dans ce domaine, également sur le nouveau produit phare de traitement de données Apache Spark.
Il y a souvent des difficultés dans la communication entre les équipes d’exploitation et les équipes
de développement. Les enjeux ne sont pas les mêmes: les uns ont pour mission de stabiliser
le système, les autres au contraire de le faire évoluer. Ces incompréhensions sont encore plus
fortes avec les équipes BI, car les bases BI ont des besoins très différents des applications traditionnelles.
En expliquant ces différences, j’espère amener à une meilleure compréhension entre
les équipes. C’est aussi l’occasion de parler des technologies récentes qui adressent les besoins
BI: Exadata, In-Memory, réplication temps réel,…
Les solutions Hitachi NAS sont exclusivement orientées service de données en réseau IP, avec 3 déterminants forts : performance, volumétrie et Cloud. Il s’agit d’aller au-delà de la commodité des standards de partage CIFS/NFS/FTP, en proposant de passer les limites en taille de volume partagé (32 Po), en nombre de fichiers (16 millions par répertoire), en performance (SPECsfs) et en externalisation (S3 et HTTPs).
Si la baisse de la productivité est effective dans toutes les économies développées... elle est particulièrement marquée en France. Au niveau national, cet essoufflement touche tous les secteurs, et plus particulièrement celui de l’industrie, usuellement caractérisé par des gains de productivité élevés. Depuis la crise Covid, le secteur industriel contribue pour 35 % environ à cette perte, alors qu’il ne représente que 9,3 % de la valeur ajoutée nationale brute en 2023. Dans ce contexte, est-il possible de mener une politique de réindustrialisation du pays sans y associer un objectif de hausse des gains de productivité ?Non rappelle ce Cube. Au contraire, ces deux objectifs, jusqu’alors indépendants l’un de l’autre, sont désormais deux défis à relever conjointement. En analysant les différents explications à la baisse de celle-ci observée en France et dans les autres économies développées, ce Cube suggère que l’augmenter en parallèle d’une politique de réindustrialisation sous-entend une réallocation des facteurs de production vers les entreprises industrielles à fort potentiel. Elle suppose également une une meilleure affectation des ressources.
Productivité et politique industrielles: deux défis à relever conjointement
Hive Tuning
1.
2. Technique #1: USE TEZ
TEZ : Moteur d’exécution qui améliore les performances du paradigme
MapReduce
Repose sur le système de DAG (à l’instar de Spark) : calcule le plan d’exécution le
plus optimal pour minimiser le shuffling des données
Pour l’utiliser :
set hive.execution.engine=tez;
4. Format : ORC
Compression efficiente : stocke par colonne et compressé, ce qui mène à de plus
petites lectures disques et de meilleures performances.
Transactions ACID (atomicité, cohérence, isolation, durabilité), soit un ensemble
de propriété garantissant la fiabilité d’une transaction
Souvent utilisé pour des gains de performance
A préférer pour des structures de fichiers plats
5. Format : ORC
Exemple :
CREATE TABLE A_ORC (
playerID int, name string, age int
) STORED AS ORC
tblproperties (“orc.compress" = “SNAPPY”);
6. Format : PARQUET
Stocke ses éléments en arborescence tel que Google Dremel le réalise.
Compressé par défaut en Snappy (contrairement à ORC)
A préférer du format ORC lorsque les données sont imbriquées (principe de
stockage en arborescence)
Ne supporte pas les transaction ACID (contrairement à l’ORC)
7. Format : PARQUET
Exemple :
CREATE TABLE A_PARQUET (
playerID int, name string, age int
) STORED AS PARQUET
8. Technique #3: USE VECTORIZATION
Il s’agit d’une fonctionnalité de Hive qui permet de réduire les usages de CPU
pour les requêtes classiques (filtres, agrégations, jointures)
Permet de traiter des batchs de lignes plutôt que des ligne par ligne
Commande :
set hive.vectorized.execution.enabled = true;
set hive.vectorized.execution.reduce.enabled = true;
9. Technique #4: COST BASED QUERY OPTIMIZATION
CBO : plan d’exécution moins couteux pour chaque requête SQL. Ce plan
permettra la réduction de l’allocation des ressources (CPU, Memory, I/O…),
Pour utiliser CBO, définissez les paramètres suivants :
set hive.cbo.enable=true;
set hive.compute.query.using.stats=true;
set hive.stats.fetch.column.stats=true;
set hive.stats.fetch.partition.stats=true;
10. Technique #5 : PARTITIONNING
Accélère l’accès aux données avec des champs récurrents avec de faibles
cardinalités
Exemple :
CREATE TABLE mytable (
name string,
city string,
employee_id int
)
PARTITIONED BY (year STRING, month STRING, day STRING) ;
11. Technique #6 : BUCKETING
Bucketing( ou clustering) : fonctionnalité de Hive permettant de séparer les données en
multiple fichiers ou répertoires. Utilisé pour un requêtage plus efficient.
set hive.enforce.bucketing = true
Exemple :
CREATE TABLE mytable (
employee_id int,
name string,
) CLUSTERED BY (employee_id ) INTO 256 BUCKETS
hdfs getconf -confKey dfs.blocksize
12. Technique #6 : BUCKETING
Pour déterminer le nombre de buckets à choisir, il est intéressant de calculer le rapport
entre le nombre de données et la taille des bloc HDFS. Cela permet ainsi d’éviter d’allouer
de la mémoire HDFS aux fichiers qui sont pour la plupart vides.
On peut déterminer la taille des blocs HDFS via la commande suivante
hdfs getconf -confKey dfs.blocksize
Ex : pour 2 TB de données, on obtient le nombre de buckets par le calcul suivant:
nb_buckets = 2TB/ taille du bloc HDFS
13. Technique #7 : OTHERS RECOMMANDATIONS
D’autres recommandations de paramètres à définir sont également préconisées(2)
pour optimiser les performances de Hive :
hive.optimize.reducededuplication.min.reducer=4
hive.optimize.reducededuplication=true
hive.merge.mapfiles=true
hive.merge.mapredfiles=false
hive.merge.smallfiles.avgsize=16000000
hive.merge.size.per.task=256000000
hive.merge.sparkfiles=true
hive.auto.convert.join=true
hive.auto.convert.join.noconditionaltask=true
hive.auto.convert.join.noconditionaltask.size=20Mhive.optimize.bucketmapjoin.sortedmerge=false hive.map.aggr.hash.percentmemory=0.5
hive.map.aggr=true