SlideShare une entreprise Scribd logo
1  sur  14
Copyright Groupe CANAL+2016 –CONFIDENTIEL 1
HUG France – 14 Jan 2016
Industrialisation des
processus Big Data chez
CANAL+
Pascal PERISSEAU, Technical Architect B.I &Big Data CANAL+
@pperisseau
Stephen CLAIRVILLE,Big Data Project ManagerCANAL+
@stefun_
2
Copyright Groupe CANAL+2016 –CONFIDENTIEL 2
Sommaire
• Pourquoile BIGDATAchezCANAL+?
• Architecture etoutils
• Intégration et industrialisation duSIBig DataauSIdécisionnel
• Retours d’expériences
3
Copyright Groupe CANAL+2016 –CONFIDENTIEL 3
Pourquoi le Big Data chez CANAL+ ?
La collecte des données d’usages
4
Copyright Groupe CANAL+2016 –CONFIDENTIEL 4
Les raisons du changement
x3 STB collectésdepuis 2010
4M «devices»
≅200 Mlogs/jour
Une croissance importante des « devices » connectés
5
Copyright Groupe CANAL+2016 –CONFIDENTIEL 5
Les raisons du changement
Mise enoeuvre d’unesolution permettant :
• Accroîtrela capacité (tirer profit de l’historique de nos abonnés) tout enabaissant le coût destockage.
• Réaliser des traitements complexes sur des volumes important de données.
• Pérenniser le DataWareHouse historique (Teradata) sur le périmètre Legacy.
• Choix d’unesolution distribuée sur Hadoop en 2013.
6Copyright Groupe CANAL+ 2016 – CONFIDENTIEL 6
Architecture et outils
• 1 cluster dans une Appliance H3 Teradata (Hadoop/Aster)
• +2 millions de dossiers et fichiers
• 20 serveurs de développement et production (MN, DN, ED, LD)
• ≅32K runs de jobs mensuels
196.29
53.5
Capacité en To
79%
21%
Statut HDFS
Disponible
Utilisé
7Copyright Groupe CANAL+ 2016 – CONFIDENTIEL 7
Intégration et industrialisation duSIBig DataauSIdécisionnel
Lignes directrices de l’industrialisation
• Exploitation et supervision des flux
• Homogénéisation et simplification des développements
• Maintenabilité et évolution des plateformes
• Intégration aux normes et standards existants
• Interconnexion avec les flux du système Legacy (Control-M)
8Copyright Groupe CANAL+ 2016 – CONFIDENTIEL 8
Mise en œuvre
• Mise en place d’une météo de traitement et de suivi des runs des jobs
• Développement de patterns de développement en shell/hql…
• Utilisation de fonctions et utilitaires génériques
• Versionning des scripts en cas de rollbacks
• Ordonnanceur commun à tous les flux
Intégration et industrialisation duSIBig DataauSIdécisionnel
9Copyright Groupe CANAL+ 2016 – CONFIDENTIEL 9
Architecture et outils
10Copyright Groupe CANAL+ 2016 – CONFIDENTIEL 10
Architecture et outils
1 1
11Copyright Groupe CANAL+ 2016 – CONFIDENTIEL 11
Architecture et Outils
Etat des lieux
Arborescences et structures des fichiers en production
/data
├── .snapshot
├── controlm
├── projet_hdp
└── tmp
/data/projet_hdp
├── 000_utilitaires
└── 110_ceu
/data/projet_hdp/110_ceu
├── 1101_ceu_ceu
├── 1102_ceu_wtr
├── 1107_ceu_erk
├── 1108_ceu_ofl
├──1109_ceu_usg
└── …
4Projets Majeurs
9Sous-projets
155shells de flux
200fichiers .hql
12Copyright Groupe CANAL+ 2016 – CONFIDENTIEL 12
Retours d’expériences
Dos & Don’ts
• Intérêt de l’Open Source et des distributions
• Warning sur la pérennité des outils
• Limitation des outils par rapport aux «Top Level Projects » et « early-
releases »
• Compatibilité des outils les uns avec les autres
• Analyse d’impacts sur les traitements et optimisations
13Copyright Groupe CANAL+ 2016 – CONFIDENTIEL 13
Retours d’expériences
• En route vers le Dev-Ops Data
 Déploiement continu
 Livraison automatique des scripts
Les + Les -
Exploitation Niv.1 Expertise technique Niv.2/3
Uniformisation des dev. Diffusion et partage des
normes aux équipes
Facilité de migrations
Copyright Groupe CANAL+ 2016 – CONFIDENTIEL 14
Merci
Questions ?

Contenu connexe

Tendances

[USI] Lambda-Architecture : comment réconcilier BigData et temps-réel
[USI] Lambda-Architecture : comment réconcilier BigData et temps-réel[USI] Lambda-Architecture : comment réconcilier BigData et temps-réel
[USI] Lambda-Architecture : comment réconcilier BigData et temps-réelMathieu DESPRIEE
 
Usi 2013 - NoSql les defis à relever
Usi 2013 -  NoSql les defis à releverUsi 2013 -  NoSql les defis à relever
Usi 2013 - NoSql les defis à releverDjamel Zouaoui
 
SQL Saturday Paris 2015 - Polybase
SQL Saturday Paris 2015 - PolybaseSQL Saturday Paris 2015 - Polybase
SQL Saturday Paris 2015 - PolybaseRomain Casteres
 
Plateforme bigdata orientée BI avec Hortoworks Data Platform et Apache Spark
Plateforme bigdata orientée BI avec Hortoworks Data Platform et Apache SparkPlateforme bigdata orientée BI avec Hortoworks Data Platform et Apache Spark
Plateforme bigdata orientée BI avec Hortoworks Data Platform et Apache SparkALTIC Altic
 
SQL Saturday 323 Paris 2014 - HDInsight
SQL Saturday 323 Paris 2014 - HDInsightSQL Saturday 323 Paris 2014 - HDInsight
SQL Saturday 323 Paris 2014 - HDInsightRomain Casteres
 
Delta Lake, un vernis pour parquet
Delta Lake, un vernis pour parquetDelta Lake, un vernis pour parquet
Delta Lake, un vernis pour parquetAlban Phélip
 
Cartographie du big data
Cartographie du big dataCartographie du big data
Cartographie du big dataacogoluegnes
 
HTTP2 : ce qui va changer par Julien Landuré
HTTP2 : ce qui va changer par Julien LanduréHTTP2 : ce qui va changer par Julien Landuré
HTTP2 : ce qui va changer par Julien LanduréZenika
 
SQLSaturday Paris 2014 - HDInsight : Cas d’usages, Hive, Sqoop, Pig, …
SQLSaturday Paris 2014 - HDInsight : Cas d’usages, Hive, Sqoop, Pig, …SQLSaturday Paris 2014 - HDInsight : Cas d’usages, Hive, Sqoop, Pig, …
SQLSaturday Paris 2014 - HDInsight : Cas d’usages, Hive, Sqoop, Pig, …GUSS
 
Spark SQL principes et fonctions
Spark SQL principes et fonctionsSpark SQL principes et fonctions
Spark SQL principes et fonctionsMICHRAFY MUSTAFA
 
Infrastructure - Monitoring - Cacti
Infrastructure - Monitoring - CactiInfrastructure - Monitoring - Cacti
Infrastructure - Monitoring - CactiFrédéric FAURE
 
Big Data, Hadoop & Spark
Big Data, Hadoop & SparkBig Data, Hadoop & Spark
Big Data, Hadoop & SparkAlexia Audevart
 
[JSS2015] Azure SQL Data Warehouse - Azure Data Lake
[JSS2015] Azure SQL Data Warehouse - Azure Data Lake[JSS2015] Azure SQL Data Warehouse - Azure Data Lake
[JSS2015] Azure SQL Data Warehouse - Azure Data LakeGUSS
 
Quelles stratégies de Recherche avec Cassandra ?
Quelles stratégies de Recherche avec Cassandra ?Quelles stratégies de Recherche avec Cassandra ?
Quelles stratégies de Recherche avec Cassandra ?Victor Coustenoble
 
BigData_TP2: Design Patterns dans Hadoop
BigData_TP2: Design Patterns dans HadoopBigData_TP2: Design Patterns dans Hadoop
BigData_TP2: Design Patterns dans HadoopLilia Sfaxi
 
Petit-déjeuner MapReduce-La révolution dans l’analyse des BigData
Petit-déjeuner MapReduce-La révolution dans l’analyse des BigDataPetit-déjeuner MapReduce-La révolution dans l’analyse des BigData
Petit-déjeuner MapReduce-La révolution dans l’analyse des BigDataMarc Bojoly
 
Présentation Big Data et REX Hadoop
Présentation Big Data et REX HadoopPrésentation Big Data et REX Hadoop
Présentation Big Data et REX HadoopJoseph Glorieux
 

Tendances (20)

DataStax Enterprise BBL
DataStax Enterprise BBLDataStax Enterprise BBL
DataStax Enterprise BBL
 
[USI] Lambda-Architecture : comment réconcilier BigData et temps-réel
[USI] Lambda-Architecture : comment réconcilier BigData et temps-réel[USI] Lambda-Architecture : comment réconcilier BigData et temps-réel
[USI] Lambda-Architecture : comment réconcilier BigData et temps-réel
 
Usi 2013 - NoSql les defis à relever
Usi 2013 -  NoSql les defis à releverUsi 2013 -  NoSql les defis à relever
Usi 2013 - NoSql les defis à relever
 
SQL Saturday Paris 2015 - Polybase
SQL Saturday Paris 2015 - PolybaseSQL Saturday Paris 2015 - Polybase
SQL Saturday Paris 2015 - Polybase
 
Plateforme bigdata orientée BI avec Hortoworks Data Platform et Apache Spark
Plateforme bigdata orientée BI avec Hortoworks Data Platform et Apache SparkPlateforme bigdata orientée BI avec Hortoworks Data Platform et Apache Spark
Plateforme bigdata orientée BI avec Hortoworks Data Platform et Apache Spark
 
SQL Saturday 323 Paris 2014 - HDInsight
SQL Saturday 323 Paris 2014 - HDInsightSQL Saturday 323 Paris 2014 - HDInsight
SQL Saturday 323 Paris 2014 - HDInsight
 
Delta Lake, un vernis pour parquet
Delta Lake, un vernis pour parquetDelta Lake, un vernis pour parquet
Delta Lake, un vernis pour parquet
 
Cartographie du big data
Cartographie du big dataCartographie du big data
Cartographie du big data
 
HTTP2 : ce qui va changer par Julien Landuré
HTTP2 : ce qui va changer par Julien LanduréHTTP2 : ce qui va changer par Julien Landuré
HTTP2 : ce qui va changer par Julien Landuré
 
SQLSaturday Paris 2014 - HDInsight : Cas d’usages, Hive, Sqoop, Pig, …
SQLSaturday Paris 2014 - HDInsight : Cas d’usages, Hive, Sqoop, Pig, …SQLSaturday Paris 2014 - HDInsight : Cas d’usages, Hive, Sqoop, Pig, …
SQLSaturday Paris 2014 - HDInsight : Cas d’usages, Hive, Sqoop, Pig, …
 
Introduction à Hadoop
Introduction à HadoopIntroduction à Hadoop
Introduction à Hadoop
 
Spark SQL principes et fonctions
Spark SQL principes et fonctionsSpark SQL principes et fonctions
Spark SQL principes et fonctions
 
Infrastructure - Monitoring - Cacti
Infrastructure - Monitoring - CactiInfrastructure - Monitoring - Cacti
Infrastructure - Monitoring - Cacti
 
Big Data, Hadoop & Spark
Big Data, Hadoop & SparkBig Data, Hadoop & Spark
Big Data, Hadoop & Spark
 
[JSS2015] Azure SQL Data Warehouse - Azure Data Lake
[JSS2015] Azure SQL Data Warehouse - Azure Data Lake[JSS2015] Azure SQL Data Warehouse - Azure Data Lake
[JSS2015] Azure SQL Data Warehouse - Azure Data Lake
 
Soutenance ysance
Soutenance ysanceSoutenance ysance
Soutenance ysance
 
Quelles stratégies de Recherche avec Cassandra ?
Quelles stratégies de Recherche avec Cassandra ?Quelles stratégies de Recherche avec Cassandra ?
Quelles stratégies de Recherche avec Cassandra ?
 
BigData_TP2: Design Patterns dans Hadoop
BigData_TP2: Design Patterns dans HadoopBigData_TP2: Design Patterns dans Hadoop
BigData_TP2: Design Patterns dans Hadoop
 
Petit-déjeuner MapReduce-La révolution dans l’analyse des BigData
Petit-déjeuner MapReduce-La révolution dans l’analyse des BigDataPetit-déjeuner MapReduce-La révolution dans l’analyse des BigData
Petit-déjeuner MapReduce-La révolution dans l’analyse des BigData
 
Présentation Big Data et REX Hadoop
Présentation Big Data et REX HadoopPrésentation Big Data et REX Hadoop
Présentation Big Data et REX Hadoop
 

Similaire à HUG France - 20160114 industrialisation_process_big_data CanalPlus

#1 cloud-infra-talk- l ops-du-devops
#1 cloud-infra-talk- l ops-du-devops#1 cloud-infra-talk- l ops-du-devops
#1 cloud-infra-talk- l ops-du-devopsEmmanuel Roldan
 
Inudtsries2020 First ! : Pitch 8 siemens thierry de vanssey
Inudtsries2020 First ! : Pitch 8 siemens thierry de vansseyInudtsries2020 First ! : Pitch 8 siemens thierry de vanssey
Inudtsries2020 First ! : Pitch 8 siemens thierry de vansseyARDIRhoneAlpes
 
SiRFULL | Éditeur de solutions innovantes pour l’industrie | 2018
SiRFULL | Éditeur de solutions innovantes pour l’industrie | 2018SiRFULL | Éditeur de solutions innovantes pour l’industrie | 2018
SiRFULL | Éditeur de solutions innovantes pour l’industrie | 2018SiRFULL technology
 
Informatique CDC & la Suite Elastic : une seule suite pour de multiples usages
Informatique CDC & la Suite Elastic : une seule suite pour de multiples usagesInformatique CDC & la Suite Elastic : une seule suite pour de multiples usages
Informatique CDC & la Suite Elastic : une seule suite pour de multiples usagesElasticsearch
 
Présentation/Atelier comm vault
Présentation/Atelier comm vaultPrésentation/Atelier comm vault
Présentation/Atelier comm vaultFujitsu France
 
29/06/17 Matinale Python
29/06/17 Matinale Python29/06/17 Matinale Python
29/06/17 Matinale PythonSoft Computing
 
USI 2013 : 7 changements nécessaires pour sauver vos SI décisionnels
USI 2013 : 7 changements nécessaires pour sauver vos SI décisionnelsUSI 2013 : 7 changements nécessaires pour sauver vos SI décisionnels
USI 2013 : 7 changements nécessaires pour sauver vos SI décisionnelsJoseph Glorieux
 
Confoo 2017 - Nouveau socle pour une nouvelle vie
Confoo 2017 - Nouveau socle pour une nouvelle vieConfoo 2017 - Nouveau socle pour une nouvelle vie
Confoo 2017 - Nouveau socle pour une nouvelle viemikaelrandy
 
05/10/17 Matinale Qlik Sense
05/10/17 Matinale Qlik Sense05/10/17 Matinale Qlik Sense
05/10/17 Matinale Qlik SenseSoft Computing
 
Usine à Sites : CCI Alsace - Actency Drupagora 2015
Usine à Sites : CCI Alsace - Actency Drupagora 2015Usine à Sites : CCI Alsace - Actency Drupagora 2015
Usine à Sites : CCI Alsace - Actency Drupagora 2015Actency
 
Industrialisation de Drupal : Usines à Sites, retour sur le cas CCI Alsace
Industrialisation de Drupal : Usines à Sites, retour sur le cas CCI AlsaceIndustrialisation de Drupal : Usines à Sites, retour sur le cas CCI Alsace
Industrialisation de Drupal : Usines à Sites, retour sur le cas CCI AlsaceActency
 
Campusfrance.org + D8 : Comment industrialiser la production et l'intégration...
Campusfrance.org + D8 : Comment industrialiser la production et l'intégration...Campusfrance.org + D8 : Comment industrialiser la production et l'intégration...
Campusfrance.org + D8 : Comment industrialiser la production et l'intégration...slybud
 
Le Comptoir OCTO - Accelerate @Cdiscount
Le Comptoir OCTO - Accelerate @CdiscountLe Comptoir OCTO - Accelerate @Cdiscount
Le Comptoir OCTO - Accelerate @CdiscountOCTO Technology
 
AccorHotels - CRIP Paris
AccorHotels -  CRIP ParisAccorHotels -  CRIP Paris
AccorHotels - CRIP ParisSplunk
 
Alan Poe appliqué au data streaming - toutes choses sont bonnes ou mauvaises ...
Alan Poe appliqué au data streaming - toutes choses sont bonnes ou mauvaises ...Alan Poe appliqué au data streaming - toutes choses sont bonnes ou mauvaises ...
Alan Poe appliqué au data streaming - toutes choses sont bonnes ou mauvaises ...Julien Cognet
 
Présentation Nutanix, témoignage Claranet, Intel event, 18 juin 2014
Présentation Nutanix, témoignage Claranet, Intel event, 18 juin 2014Présentation Nutanix, témoignage Claranet, Intel event, 18 juin 2014
Présentation Nutanix, témoignage Claranet, Intel event, 18 juin 2014Sandrine Bajolet
 
20080610 05 - Squale portail qualimétrie en open source
20080610 05 - Squale portail qualimétrie en open source20080610 05 - Squale portail qualimétrie en open source
20080610 05 - Squale portail qualimétrie en open sourceLeClubQualiteLogicielle
 
Révolution dans l'analytique et les entrepôts de données à découvrir avec Intel
Révolution dans l'analytique et les entrepôts de données à découvrir avec IntelRévolution dans l'analytique et les entrepôts de données à découvrir avec Intel
Révolution dans l'analytique et les entrepôts de données à découvrir avec IntelMicrosoft Décideurs IT
 
Atelier Data Center - FWT15 Paris GRT Oracle SNECMA
 Atelier Data Center -  FWT15 Paris GRT Oracle SNECMA Atelier Data Center -  FWT15 Paris GRT Oracle SNECMA
Atelier Data Center - FWT15 Paris GRT Oracle SNECMAFujitsu France
 

Similaire à HUG France - 20160114 industrialisation_process_big_data CanalPlus (20)

#1 cloud-infra-talk- l ops-du-devops
#1 cloud-infra-talk- l ops-du-devops#1 cloud-infra-talk- l ops-du-devops
#1 cloud-infra-talk- l ops-du-devops
 
Inudtsries2020 First ! : Pitch 8 siemens thierry de vanssey
Inudtsries2020 First ! : Pitch 8 siemens thierry de vansseyInudtsries2020 First ! : Pitch 8 siemens thierry de vanssey
Inudtsries2020 First ! : Pitch 8 siemens thierry de vanssey
 
SiRFULL | Éditeur de solutions innovantes pour l’industrie | 2018
SiRFULL | Éditeur de solutions innovantes pour l’industrie | 2018SiRFULL | Éditeur de solutions innovantes pour l’industrie | 2018
SiRFULL | Éditeur de solutions innovantes pour l’industrie | 2018
 
Informatique CDC & la Suite Elastic : une seule suite pour de multiples usages
Informatique CDC & la Suite Elastic : une seule suite pour de multiples usagesInformatique CDC & la Suite Elastic : une seule suite pour de multiples usages
Informatique CDC & la Suite Elastic : une seule suite pour de multiples usages
 
Présentation/Atelier comm vault
Présentation/Atelier comm vaultPrésentation/Atelier comm vault
Présentation/Atelier comm vault
 
29/06/17 Matinale Python
29/06/17 Matinale Python29/06/17 Matinale Python
29/06/17 Matinale Python
 
USI 2013 : 7 changements nécessaires pour sauver vos SI décisionnels
USI 2013 : 7 changements nécessaires pour sauver vos SI décisionnelsUSI 2013 : 7 changements nécessaires pour sauver vos SI décisionnels
USI 2013 : 7 changements nécessaires pour sauver vos SI décisionnels
 
Confoo 2017 - Nouveau socle pour une nouvelle vie
Confoo 2017 - Nouveau socle pour une nouvelle vieConfoo 2017 - Nouveau socle pour une nouvelle vie
Confoo 2017 - Nouveau socle pour une nouvelle vie
 
cv_chaker_jouini_fr
cv_chaker_jouini_frcv_chaker_jouini_fr
cv_chaker_jouini_fr
 
05/10/17 Matinale Qlik Sense
05/10/17 Matinale Qlik Sense05/10/17 Matinale Qlik Sense
05/10/17 Matinale Qlik Sense
 
Usine à Sites : CCI Alsace - Actency Drupagora 2015
Usine à Sites : CCI Alsace - Actency Drupagora 2015Usine à Sites : CCI Alsace - Actency Drupagora 2015
Usine à Sites : CCI Alsace - Actency Drupagora 2015
 
Industrialisation de Drupal : Usines à Sites, retour sur le cas CCI Alsace
Industrialisation de Drupal : Usines à Sites, retour sur le cas CCI AlsaceIndustrialisation de Drupal : Usines à Sites, retour sur le cas CCI Alsace
Industrialisation de Drupal : Usines à Sites, retour sur le cas CCI Alsace
 
Campusfrance.org + D8 : Comment industrialiser la production et l'intégration...
Campusfrance.org + D8 : Comment industrialiser la production et l'intégration...Campusfrance.org + D8 : Comment industrialiser la production et l'intégration...
Campusfrance.org + D8 : Comment industrialiser la production et l'intégration...
 
Le Comptoir OCTO - Accelerate @Cdiscount
Le Comptoir OCTO - Accelerate @CdiscountLe Comptoir OCTO - Accelerate @Cdiscount
Le Comptoir OCTO - Accelerate @Cdiscount
 
AccorHotels - CRIP Paris
AccorHotels -  CRIP ParisAccorHotels -  CRIP Paris
AccorHotels - CRIP Paris
 
Alan Poe appliqué au data streaming - toutes choses sont bonnes ou mauvaises ...
Alan Poe appliqué au data streaming - toutes choses sont bonnes ou mauvaises ...Alan Poe appliqué au data streaming - toutes choses sont bonnes ou mauvaises ...
Alan Poe appliqué au data streaming - toutes choses sont bonnes ou mauvaises ...
 
Présentation Nutanix, témoignage Claranet, Intel event, 18 juin 2014
Présentation Nutanix, témoignage Claranet, Intel event, 18 juin 2014Présentation Nutanix, témoignage Claranet, Intel event, 18 juin 2014
Présentation Nutanix, témoignage Claranet, Intel event, 18 juin 2014
 
20080610 05 - Squale portail qualimétrie en open source
20080610 05 - Squale portail qualimétrie en open source20080610 05 - Squale portail qualimétrie en open source
20080610 05 - Squale portail qualimétrie en open source
 
Révolution dans l'analytique et les entrepôts de données à découvrir avec Intel
Révolution dans l'analytique et les entrepôts de données à découvrir avec IntelRévolution dans l'analytique et les entrepôts de données à découvrir avec Intel
Révolution dans l'analytique et les entrepôts de données à découvrir avec Intel
 
Atelier Data Center - FWT15 Paris GRT Oracle SNECMA
 Atelier Data Center -  FWT15 Paris GRT Oracle SNECMA Atelier Data Center -  FWT15 Paris GRT Oracle SNECMA
Atelier Data Center - FWT15 Paris GRT Oracle SNECMA
 

Plus de Modern Data Stack France

Talend spark meetup 03042017 - Paris Spark Meetup
Talend spark meetup 03042017 - Paris Spark MeetupTalend spark meetup 03042017 - Paris Spark Meetup
Talend spark meetup 03042017 - Paris Spark MeetupModern Data Stack France
 
Paris Spark Meetup - Trifacta - 03_04_2017
Paris Spark Meetup - Trifacta - 03_04_2017Paris Spark Meetup - Trifacta - 03_04_2017
Paris Spark Meetup - Trifacta - 03_04_2017Modern Data Stack France
 
Hadoop meetup : HUGFR Construire le cluster le plus rapide pour l'analyse des...
Hadoop meetup : HUGFR Construire le cluster le plus rapide pour l'analyse des...Hadoop meetup : HUGFR Construire le cluster le plus rapide pour l'analyse des...
Hadoop meetup : HUGFR Construire le cluster le plus rapide pour l'analyse des...Modern Data Stack France
 
HUG France Feb 2016 - Migration de données structurées entre Hadoop et RDBMS ...
HUG France Feb 2016 - Migration de données structurées entre Hadoop et RDBMS ...HUG France Feb 2016 - Migration de données structurées entre Hadoop et RDBMS ...
HUG France Feb 2016 - Migration de données structurées entre Hadoop et RDBMS ...Modern Data Stack France
 
Hadoop France meetup Feb2016 : recommendations with spark
Hadoop France meetup  Feb2016 : recommendations with sparkHadoop France meetup  Feb2016 : recommendations with spark
Hadoop France meetup Feb2016 : recommendations with sparkModern Data Stack France
 
HUG France : HBase in Financial Industry par Pierre Bittner (Scaled Risk CTO)
HUG France : HBase in Financial Industry par Pierre Bittner (Scaled Risk CTO)HUG France : HBase in Financial Industry par Pierre Bittner (Scaled Risk CTO)
HUG France : HBase in Financial Industry par Pierre Bittner (Scaled Risk CTO)Modern Data Stack France
 
Apache Flink par Bilal Baltagi Paris Spark Meetup Dec 2015
Apache Flink par Bilal Baltagi Paris Spark Meetup Dec 2015Apache Flink par Bilal Baltagi Paris Spark Meetup Dec 2015
Apache Flink par Bilal Baltagi Paris Spark Meetup Dec 2015Modern Data Stack France
 
Datalab 101 (Hadoop, Spark, ElasticSearch) par Jonathan Winandy - Paris Spark...
Datalab 101 (Hadoop, Spark, ElasticSearch) par Jonathan Winandy - Paris Spark...Datalab 101 (Hadoop, Spark, ElasticSearch) par Jonathan Winandy - Paris Spark...
Datalab 101 (Hadoop, Spark, ElasticSearch) par Jonathan Winandy - Paris Spark...Modern Data Stack France
 
Record linkage, a real use case with spark ml - Paris Spark meetup Dec 2015
Record linkage, a real use case with spark ml  - Paris Spark meetup Dec 2015Record linkage, a real use case with spark ml  - Paris Spark meetup Dec 2015
Record linkage, a real use case with spark ml - Paris Spark meetup Dec 2015Modern Data Stack France
 
Spark ML par Xebia (Spark Meetup du 11/06/2015)
Spark ML par Xebia (Spark Meetup du 11/06/2015)Spark ML par Xebia (Spark Meetup du 11/06/2015)
Spark ML par Xebia (Spark Meetup du 11/06/2015)Modern Data Stack France
 
Paris Spark meetup : Extension de Spark (Tachyon / Spark JobServer) par jlamiel
Paris Spark meetup : Extension de Spark (Tachyon / Spark JobServer) par jlamielParis Spark meetup : Extension de Spark (Tachyon / Spark JobServer) par jlamiel
Paris Spark meetup : Extension de Spark (Tachyon / Spark JobServer) par jlamielModern Data Stack France
 
Hadoop User Group 29Jan2015 Apache Flink / Haven / CapGemnini REX
Hadoop User Group 29Jan2015 Apache Flink / Haven / CapGemnini REXHadoop User Group 29Jan2015 Apache Flink / Haven / CapGemnini REX
Hadoop User Group 29Jan2015 Apache Flink / Haven / CapGemnini REXModern Data Stack France
 
The Cascading (big) data application framework
The Cascading (big) data application frameworkThe Cascading (big) data application framework
The Cascading (big) data application frameworkModern Data Stack France
 
Introduction sur Tez par Olivier RENAULT de HortonWorks Meetup du 25/11/2014
Introduction sur Tez par Olivier RENAULT de HortonWorks Meetup du 25/11/2014Introduction sur Tez par Olivier RENAULT de HortonWorks Meetup du 25/11/2014
Introduction sur Tez par Olivier RENAULT de HortonWorks Meetup du 25/11/2014Modern Data Stack France
 

Plus de Modern Data Stack France (20)

Stash - Data FinOPS
Stash - Data FinOPSStash - Data FinOPS
Stash - Data FinOPS
 
Vue d'ensemble Dremio
Vue d'ensemble DremioVue d'ensemble Dremio
Vue d'ensemble Dremio
 
From Data Warehouse to Lakehouse
From Data Warehouse to LakehouseFrom Data Warehouse to Lakehouse
From Data Warehouse to Lakehouse
 
Talend spark meetup 03042017 - Paris Spark Meetup
Talend spark meetup 03042017 - Paris Spark MeetupTalend spark meetup 03042017 - Paris Spark Meetup
Talend spark meetup 03042017 - Paris Spark Meetup
 
Paris Spark Meetup - Trifacta - 03_04_2017
Paris Spark Meetup - Trifacta - 03_04_2017Paris Spark Meetup - Trifacta - 03_04_2017
Paris Spark Meetup - Trifacta - 03_04_2017
 
Hadoop meetup : HUGFR Construire le cluster le plus rapide pour l'analyse des...
Hadoop meetup : HUGFR Construire le cluster le plus rapide pour l'analyse des...Hadoop meetup : HUGFR Construire le cluster le plus rapide pour l'analyse des...
Hadoop meetup : HUGFR Construire le cluster le plus rapide pour l'analyse des...
 
HUG France Feb 2016 - Migration de données structurées entre Hadoop et RDBMS ...
HUG France Feb 2016 - Migration de données structurées entre Hadoop et RDBMS ...HUG France Feb 2016 - Migration de données structurées entre Hadoop et RDBMS ...
HUG France Feb 2016 - Migration de données structurées entre Hadoop et RDBMS ...
 
Hadoop France meetup Feb2016 : recommendations with spark
Hadoop France meetup  Feb2016 : recommendations with sparkHadoop France meetup  Feb2016 : recommendations with spark
Hadoop France meetup Feb2016 : recommendations with spark
 
Hugfr SPARK & RIAK -20160114_hug_france
Hugfr  SPARK & RIAK -20160114_hug_franceHugfr  SPARK & RIAK -20160114_hug_france
Hugfr SPARK & RIAK -20160114_hug_france
 
HUG France : HBase in Financial Industry par Pierre Bittner (Scaled Risk CTO)
HUG France : HBase in Financial Industry par Pierre Bittner (Scaled Risk CTO)HUG France : HBase in Financial Industry par Pierre Bittner (Scaled Risk CTO)
HUG France : HBase in Financial Industry par Pierre Bittner (Scaled Risk CTO)
 
Apache Flink par Bilal Baltagi Paris Spark Meetup Dec 2015
Apache Flink par Bilal Baltagi Paris Spark Meetup Dec 2015Apache Flink par Bilal Baltagi Paris Spark Meetup Dec 2015
Apache Flink par Bilal Baltagi Paris Spark Meetup Dec 2015
 
Datalab 101 (Hadoop, Spark, ElasticSearch) par Jonathan Winandy - Paris Spark...
Datalab 101 (Hadoop, Spark, ElasticSearch) par Jonathan Winandy - Paris Spark...Datalab 101 (Hadoop, Spark, ElasticSearch) par Jonathan Winandy - Paris Spark...
Datalab 101 (Hadoop, Spark, ElasticSearch) par Jonathan Winandy - Paris Spark...
 
Record linkage, a real use case with spark ml - Paris Spark meetup Dec 2015
Record linkage, a real use case with spark ml  - Paris Spark meetup Dec 2015Record linkage, a real use case with spark ml  - Paris Spark meetup Dec 2015
Record linkage, a real use case with spark ml - Paris Spark meetup Dec 2015
 
Spark dataframe
Spark dataframeSpark dataframe
Spark dataframe
 
Spark ML par Xebia (Spark Meetup du 11/06/2015)
Spark ML par Xebia (Spark Meetup du 11/06/2015)Spark ML par Xebia (Spark Meetup du 11/06/2015)
Spark ML par Xebia (Spark Meetup du 11/06/2015)
 
Spark meetup at viadeo
Spark meetup at viadeoSpark meetup at viadeo
Spark meetup at viadeo
 
Paris Spark meetup : Extension de Spark (Tachyon / Spark JobServer) par jlamiel
Paris Spark meetup : Extension de Spark (Tachyon / Spark JobServer) par jlamielParis Spark meetup : Extension de Spark (Tachyon / Spark JobServer) par jlamiel
Paris Spark meetup : Extension de Spark (Tachyon / Spark JobServer) par jlamiel
 
Hadoop User Group 29Jan2015 Apache Flink / Haven / CapGemnini REX
Hadoop User Group 29Jan2015 Apache Flink / Haven / CapGemnini REXHadoop User Group 29Jan2015 Apache Flink / Haven / CapGemnini REX
Hadoop User Group 29Jan2015 Apache Flink / Haven / CapGemnini REX
 
The Cascading (big) data application framework
The Cascading (big) data application frameworkThe Cascading (big) data application framework
The Cascading (big) data application framework
 
Introduction sur Tez par Olivier RENAULT de HortonWorks Meetup du 25/11/2014
Introduction sur Tez par Olivier RENAULT de HortonWorks Meetup du 25/11/2014Introduction sur Tez par Olivier RENAULT de HortonWorks Meetup du 25/11/2014
Introduction sur Tez par Olivier RENAULT de HortonWorks Meetup du 25/11/2014
 

HUG France - 20160114 industrialisation_process_big_data CanalPlus

  • 1. Copyright Groupe CANAL+2016 –CONFIDENTIEL 1 HUG France – 14 Jan 2016 Industrialisation des processus Big Data chez CANAL+ Pascal PERISSEAU, Technical Architect B.I &Big Data CANAL+ @pperisseau Stephen CLAIRVILLE,Big Data Project ManagerCANAL+ @stefun_
  • 2. 2 Copyright Groupe CANAL+2016 –CONFIDENTIEL 2 Sommaire • Pourquoile BIGDATAchezCANAL+? • Architecture etoutils • Intégration et industrialisation duSIBig DataauSIdécisionnel • Retours d’expériences
  • 3. 3 Copyright Groupe CANAL+2016 –CONFIDENTIEL 3 Pourquoi le Big Data chez CANAL+ ? La collecte des données d’usages
  • 4. 4 Copyright Groupe CANAL+2016 –CONFIDENTIEL 4 Les raisons du changement x3 STB collectésdepuis 2010 4M «devices» ≅200 Mlogs/jour Une croissance importante des « devices » connectés
  • 5. 5 Copyright Groupe CANAL+2016 –CONFIDENTIEL 5 Les raisons du changement Mise enoeuvre d’unesolution permettant : • Accroîtrela capacité (tirer profit de l’historique de nos abonnés) tout enabaissant le coût destockage. • Réaliser des traitements complexes sur des volumes important de données. • Pérenniser le DataWareHouse historique (Teradata) sur le périmètre Legacy. • Choix d’unesolution distribuée sur Hadoop en 2013.
  • 6. 6Copyright Groupe CANAL+ 2016 – CONFIDENTIEL 6 Architecture et outils • 1 cluster dans une Appliance H3 Teradata (Hadoop/Aster) • +2 millions de dossiers et fichiers • 20 serveurs de développement et production (MN, DN, ED, LD) • ≅32K runs de jobs mensuels 196.29 53.5 Capacité en To 79% 21% Statut HDFS Disponible Utilisé
  • 7. 7Copyright Groupe CANAL+ 2016 – CONFIDENTIEL 7 Intégration et industrialisation duSIBig DataauSIdécisionnel Lignes directrices de l’industrialisation • Exploitation et supervision des flux • Homogénéisation et simplification des développements • Maintenabilité et évolution des plateformes • Intégration aux normes et standards existants • Interconnexion avec les flux du système Legacy (Control-M)
  • 8. 8Copyright Groupe CANAL+ 2016 – CONFIDENTIEL 8 Mise en œuvre • Mise en place d’une météo de traitement et de suivi des runs des jobs • Développement de patterns de développement en shell/hql… • Utilisation de fonctions et utilitaires génériques • Versionning des scripts en cas de rollbacks • Ordonnanceur commun à tous les flux Intégration et industrialisation duSIBig DataauSIdécisionnel
  • 9. 9Copyright Groupe CANAL+ 2016 – CONFIDENTIEL 9 Architecture et outils
  • 10. 10Copyright Groupe CANAL+ 2016 – CONFIDENTIEL 10 Architecture et outils 1 1
  • 11. 11Copyright Groupe CANAL+ 2016 – CONFIDENTIEL 11 Architecture et Outils Etat des lieux Arborescences et structures des fichiers en production /data ├── .snapshot ├── controlm ├── projet_hdp └── tmp /data/projet_hdp ├── 000_utilitaires └── 110_ceu /data/projet_hdp/110_ceu ├── 1101_ceu_ceu ├── 1102_ceu_wtr ├── 1107_ceu_erk ├── 1108_ceu_ofl ├──1109_ceu_usg └── … 4Projets Majeurs 9Sous-projets 155shells de flux 200fichiers .hql
  • 12. 12Copyright Groupe CANAL+ 2016 – CONFIDENTIEL 12 Retours d’expériences Dos & Don’ts • Intérêt de l’Open Source et des distributions • Warning sur la pérennité des outils • Limitation des outils par rapport aux «Top Level Projects » et « early- releases » • Compatibilité des outils les uns avec les autres • Analyse d’impacts sur les traitements et optimisations
  • 13. 13Copyright Groupe CANAL+ 2016 – CONFIDENTIEL 13 Retours d’expériences • En route vers le Dev-Ops Data  Déploiement continu  Livraison automatique des scripts Les + Les - Exploitation Niv.1 Expertise technique Niv.2/3 Uniformisation des dev. Diffusion et partage des normes aux équipes Facilité de migrations
  • 14. Copyright Groupe CANAL+ 2016 – CONFIDENTIEL 14 Merci Questions ?

Notes de l'éditeur

  1. @PPE : Contexte et utilisation @SCL : Architecture et Outils @PPE : Industrisalisation : Points structurants @SCL : RetEx
  2. La collecte des données d’usages initiée chez C+ depuis 2010, sur un SGBD MPP, sur les données de Zapping, de navigation, de consommation (VOD, ALD), de programme (EPG) sur les données systèmes principalement, + collecte de navigation de nos abonnés sur les portails Web du groupe Traitement de la données brut (log)  reconstruction des sessions, enrichissement de la donnée (EPG) Les usages : Analyse /connaissance client Moteur de recommandation Audience Limitations Physiques des systèmes existants (pour le stockage) nécessité d’effectuer des purges régulières, mais aussi pour le traitement (temps de traitement de plus en plus long),
  3. Aujourd’hui grâce au Big Data les données de l’entreprise deviennent un actif stratégique, un outil de création de valeur et donnent naissance à un nouveau paradigme d’organisation.    Bien plus qu’une simple opportunité économique permise par des avancées technologiques, on parle aujourd’hui de démarche Big Data chez Canal+ avec l’idée de superviser les flux sur nos environnements de production. La matière première qu’est devenue la donné nous a conduit, à pousser notre réflexion sur le stockage de la donnée au vue de sa croissance exponentielle.   Chez CANAL, elle se matérialise par l’arrivée de tous les « devices connectés », avec l’apparition de nouveaux flux comme l’OTT mais aussi de nouvelles définitions d’images FULL HD, voire 4K dans certains cas. Si nous couplons le tout à l’émergence des réseaux sociaux, et des objets connectés cela représente un volume de données de l’ordre de l’exaoctets (10^18 octets) et les prévisionnistes parlent de zettaoctets d’ici 2020 (10^21).    En France, ce marché pourrait générer 2,8Milliars d’€ et plus de 100K emplois selon l’AFDEL; ----- Point de vue économique : low-cost data storage dans le sens ou HDFS est très attractif d’un point de vue économique par rapport à des infrastructures identiques massivement parrallèles de chez un éditeur lambda. Puissance de calcul : Capacité à traiter une masse et un volume important de données pour que des infrastructure traditionnelles ne soient plus des limitations en terme de temps de traitement. Alléger le DWH historique : Toutes les informations stockées sur DWH sont devenues de plus en plus volumineuses depuis l’arrivée des devices connectés et donc collectés.
  4. Pour vous faire un état des lieux au sein de notre DSI : Le Big Data chez CANAL+ aujourd’hui c’est 1gros cluster intégré dans une « appliance » dite Teradata Big Analytics Applicance H3 contenant plus de 2 millions de dossiers et fichiers répartis et splittés sur 20 serveurs distincts travaillant H24 et pouvant exécuter plus de +32000 runs de jobs mensuellement.   Pour mener à bien nos tests, c’est 1 cluster de développement banalisé nous permettant de faire nos développements, nos recettes, et nos tests de montées en charge en vue de la prod.   Tous ces fichiers sont répliqués au moins 3 fois sur les divers nœuds du cluster.   Toute la démarche Big Data mise en place a été orientée de façon à être la plus transparente pour nos équipes de production qui ont l’habitude de travailler avec des outils d’ordonnancement et de supervision leur permettant de remonter rapidement différents niveaux d’alertes.   C’est ce processus d’intégration de la brique Big Data qui a été le plus délicat à mettre en place, et ce surtout avec des technologies très modernes.
  5. Exploitation et supervision Standardisation du code (utilitaires et fonctions génériques) Météo /gestion des points de reprises / Statut des traitements intégration Control-M Simplification des développements Standardisation du code (utilitaires et fonctions génériques) Limitation des outils Maintenabilité et évolution (migration) Limitation des outils Standardisation du code (utilitaires et fonctions génériques) Intégration/interconnexion avec le système legacy Intégration au scheduler d’entreprise (Control-M vs Oozie), Codification des normes et standards Eviter la redondance des données entre systèmes
  6. D’un point de vue écosystème, ce graphique proposé par Hortonworks développe la stack de la distribution en version 2.1 des produits et versions que nous utilisons sur notre système en production. Effectivement, tous les outils qui existaient déjà en version 1, lorsque nous avons commencés notre démarche,  restent présents en version 2 avec l’arrivée de nouveaux outils comme Ranger, Knox ou Falcon pour la sécurité par exemple et un moteur d’allocation de ressources dédié : Tez pour optimiser les requêtes Hive.
  7. Hive : Sur notre architecture de production, nous utilisons essentiellement des outils comme Hive en version 0.13 avec l’arrivée de ses nouvelles fonctions de Windowing, et le SQL-like qui a évolué sur « des features » et autres aspects pouvant paraître basique en SQL. Nous avons également fait les choix d’utiliser des options de tunning pour optimiser les jobs et les différentes requêtes. Les partitions et spécifications liées aux jobs Hive sont également des paramètres qui sont normés dans notre démarche d’industrialisation. Notre moteur d’exécution des requêtes est designé sur le modèle du « capacity scheduler » avec 4 types de file d’attente dites queue allouées en fonction des ressources et de la consommations des jobs en terme de CPU, RAM et container d’applications. Tez : Aujourd’hui, nous bénéficions des avancées technologiques proposées par Tez dans certains traitements et nous apprécions considérablement les faibles latences que nous connaissions sous MapReduce v1 grâce à YARN.   Pig : Pour toutes les transformations ou encore les modifications des données brutes, nous utilisons Apache Pig en production. Le mode opératoire proposé par le shell « grunt » permet aux développeurs de monter rapidement en compétence sur la techno. et il est vrai que Pig est plus adapté à l’univers de l’informatique décisionnelle où dominent les développements en « step by step » par rapport à Hive. Pour vous citer l’un des exemples d’utilisation de Pig, nous l’avons utilisé afin de processer une routine de décryptage des informations personnelles (nom, prénom, numéro de téléphone portable/fixe, adresse, email..) des données issues de la collecte. En effet, dans le fichier json initial sont cryptées tous ces attributs, et sur l’algorithme AES 256/CBC/PKC7 base 64 nous décryptons à l’aide de la clé ces informations qui seront remontées aux analystes. SolR : De façon plus visuelle, nous alimentons des index et dashboards sur SolR à travers des datamarts qui sont modélisés et alimentés sur Hive. Ambari : L’interface d’administration proposée par Ambari nous permet de monitorer nos clusters, et c’est à travers cette interface que les DBAs peuvent superviser, installer, redémarrer, être alerté de l’état du cluster en temps réel, ou encore suivre l’avancé d’un job de production. Sqoop & Flume : Ces outils de streaming et d’intégration ont été utilisées à maintes reprises pour des POCs et autres développements, cependant nous ne les utilisons pas en production face à d’autres outils et ou librairies proposées par les éditeurs tiers. Nous avons fait le choix d’utiliser TDCH (Teradata connector for Hadoop) afin d’offloader ou encore de déverser les tables volumineuses de notres DWH historique. La migration de tout notre parc applicatif Big Data et du moteur en YARN ne seront que favorable à l’intégration d’une version Hadoop plus mûre dans nos environnements de production. Ce gap de génération entre le moteur Hadoop et ses applications natives est la preuve d’une amélioration de toute la plateforme et donc de l’écosystème OpenSource.
  8. Malgré un écosystème d’outils très récents, notre démarche qui a commencé il y a plus de 2 ans, a pris la direction des autres projets et workflows déjà existants chez CANAL+. Nous retrouvons donc de la même façon, une arborescence de répertoires identiques à celle qui existe déjà sur les environnements comme TD et Informatica. En intégrant cette brique Big Data, nous souhaitons que les processus de normes et de livraison des projets restent cohérents par rapport à l’existant. Ce sont tous ces développements adaptatifs qui nous mèneront à un niveau de service de production stable et équivalent à celui existant aujourd’hui.
  9. Intérêt de l’Open Source et diversification des outils proposés Warning sur le choix et la pérénité des outils Limitation des outils et sélection des outils sans se brider sur les opportunités apportées par le monde de l'OpenSource et TPL --> Complexité de migrations intrinsèques et compatibilités des outils les uns avec les autres Compatibilités des outils les uns avec les autres Analyse d’impacts pour éviter la réplication, et le syncrhonisme des systèmes
  10. L’industrialisation des processus Big Data chez CANAL+ nous a permis de nous concentrer sur des business cases à forts enjeux. Monétiser, et apporter une plus-value à notre donnée est devenu plus simple avec des processus normés. Nos prochains sujets autour de l’industrialisation des processus Big Data sont axés autour du déploiement continu, de la livraison automatique des scripts de nos développeurs, tout ce qui va dans le sens du mouvement DevOps. Monter un cluster est devenu assez facilement réalisable, et encore plus avec les “click-on-deploy” proposés par les clouds managés, même si nous attendons d’autres améliorations sur -la sécurité, sujet technique nécessitant une expertise -la gouvernance des données, peu présentes dans les distributions Open Source Notre niveau de confiance est plus important sur ces technologies et nous sommes fins prêts à répondre présents des problématiques métiers du Groupe. L’intérêt de l’Open Source est toujours présent au sein de la DSI, cependant la limitation des outils de l’écosystème nous permet : d’éviter la démultiplication des outils avec les dérapages technologiques de chaque développeur faciliter la maintenabilité des plateformes --> Gains sur les migrations dûs aux scripts et limitation du "rescripting" durant les phases de migration du core HDP
  11. Merci de votre attention. N’hésitez pas si vous avez des questions.?