SlideShare une entreprise Scribd logo
VISION SMART DATA
DE PAGESJAUNES
CHERIF TIFRANI
MEHDI KIMAKHE
07/04/2016
2Date • Titre de la présentation
Sommaire
 Ambitions smart data de Pages Jaunes
 Un système à bout de souffle
 Evolution de l’architecture Big Data
 Industrialisation de la plateforme Big Data
 Présentation de deux use cases
 Questions ?
3Date • Titre de la présentation
Connaissez-vous Solocal group
4Date • Titre de la présentation
Connaissez-vous Solocal group
4
5Date • Titre de la présentation
Ambitions smart data de PagesJaunes
 Améliorer les délais de mise à disposition des données auprès des
directions métiers et des annonceurs,
× 40 fichiers de données d’audience PagesJaunes fixe
× + Les fichiers des données d’audience mobile
× + Les fichiers des données d’audience partenaires
× Différents contrats d’interface
 Être en capacité de livrer des évolutions sur les modèles
de données dans des délais courts et à faible coûts, (Time to arket),
 Rendre les services d’analyses de la performance autonomes à travers
une plateforme d’analyse adaptée aux besoins.
6Date • Titre de la présentation
Un système à bout de souffle
7Date • Titre de la présentation
Evolution de l’architecture Big Data
8Date • Titre de la présentation
Industrialisation de la plateforme Big Data
1. Sécurisation de la plateforme (Authentification et Autorisation)
2. Haute disponibilité (Name Node, Resource Manager, Hive, Metastore, Fronts …)
3. Configuration d'un cluster multi-tenant
1. Mise en place de permissions fines par composants
2. Capacity planning (validation des différents paramètres de tuning mémoire et CPU)
3. Mise en place du cloisonnement des ressources pour Yarn et Impala (Linux CGroup)
4. Fair scheduler (mise à disposition des ressources par groupes d'utilisateur)
4. Maintenance opérationnelle de l’infrastructure et des services et gestion des incidents
d'exploitation
5. Qualification des nouveaux produits/nouvelles versions
6. Gestion des Backups/Snapshots (HDFS, MetaStore, …)
7. Supervision (monitoring/alert)
9Date • Titre de la présentation
Industrialisation de la plateforme Big Data – Archi Infra
10Date • Titre de la présentation
Industrialisation de la plateforme Big Data – Usine de DEV
11Date • Titre de la présentation
Use case 1 : Croissements de données
Data Lake
Audiences
Data warehouse
Ventes Parution
Simulation
du moteur
Pages
Jaunes
Etude des
impacts
liés aux
évolutions
du moteur
Analyses
Pré/Post
lancement
des offres
…
Finances
 Capturer les données des différentes sources de données
 Centraliser les données sur une plateforme d’analyse
 Croiser et analyser les données
12Date • Titre de la présentation
Use case 2: Offre mots clés
Algorithme
de
valorisation
des Mots-
Clés
Référentiel de MCs
Audiences PJ
web
(1,5 milliards de
recherches)
Audiences PJ
mobiles
(100 millions de
recherches)
Audiences
Google
(350 millions de
couples
récupérées)
CPC Google
(350 millions)
Correction des
termes
recherchés sur
PJ/Google via
une API interne
(82 Millions)
Mots-Clés scorés
(11 K)
 Valorisation des Mots-Clés
13Date • Titre de la présentation
Use case 2: Offre mots clés
Crawl des sites
web des clients
• Moteur de crawl du contenu des sites web (Equipe IODA) => 1
M de clients identifiés
• Identification de termes importants (Equipe IODA) => 14.5 M
de termes identifiés
Référentiel des
Mots-Clés
• Référentiel à jour des Mots-clés vendus par PagesJaunes
Constitution des
packs
• Identification des Mots-Clés pertinents pour nos clients
• Remplissage des différents packs
 Constitution de packs pertinents pour les clients
14Date • Titre de la présentation
Use case 2: Offre mots clés
Objectifs Proposer à nos clients des Mots-Clés proches de leurs besoins
Valoriser le rôle des commerciaux : Conseillers digitaux
Bénéfices 89% des clients gardent les MC qu’on leur propose
+6% de souscription au pack « Intégral » quand on propose
des MC
66% des mots-clés proposés sont gardés
 Constitution de packs pertinents pour les clients
15Date • Titre de la présentation
Avez-vous des Questions?

Contenu connexe

Tendances

Une introduction à Hive
Une introduction à HiveUne introduction à Hive
Une introduction à Hive
Modern Data Stack France
 
Hadoop et son écosystème
Hadoop et son écosystèmeHadoop et son écosystème
Hadoop et son écosystème
Khanh Maudoux
 
Hadoop MapReduce - OSDC FR 2009
Hadoop MapReduce - OSDC FR 2009Hadoop MapReduce - OSDC FR 2009
Hadoop MapReduce - OSDC FR 2009
Olivier Grisel
 
Casablanca Hadoop & Big Data Meetup - Introduction à Hadoop
Casablanca Hadoop & Big Data Meetup - Introduction à HadoopCasablanca Hadoop & Big Data Meetup - Introduction à Hadoop
Casablanca Hadoop & Big Data Meetup - Introduction à Hadoop
Benoît de CHATEAUVIEUX
 
Comment M6 personnalise l’expérience utilisateur du service 6Play avec DataSt...
Comment M6 personnalise l’expérience utilisateur du service 6Play avec DataSt...Comment M6 personnalise l’expérience utilisateur du service 6Play avec DataSt...
Comment M6 personnalise l’expérience utilisateur du service 6Play avec DataSt...
DataStax
 
Hadoop Introduction in Paris
Hadoop Introduction in ParisHadoop Introduction in Paris
Hadoop Introduction in Paris
Ted Drake
 
Présentation Big Data et REX Hadoop
Présentation Big Data et REX HadoopPrésentation Big Data et REX Hadoop
Présentation Big Data et REX Hadoop
Joseph Glorieux
 
Hadoop Hbase - Introduction
Hadoop Hbase - IntroductionHadoop Hbase - Introduction
Hadoop Hbase - Introduction
Blandine Larbret
 
BigData_Chp5: Putting it all together
BigData_Chp5: Putting it all togetherBigData_Chp5: Putting it all together
BigData_Chp5: Putting it all together
Lilia Sfaxi
 
Big Data: Hadoop Map / Reduce sur Windows et Windows Azure
Big Data: Hadoop Map / Reduce sur Windows et Windows AzureBig Data: Hadoop Map / Reduce sur Windows et Windows Azure
Big Data: Hadoop Map / Reduce sur Windows et Windows Azure
Microsoft
 
Introduction à HDFS
Introduction à HDFSIntroduction à HDFS
Introduction à HDFS
Modern Data Stack France
 
Big data architectures
Big data architecturesBig data architectures
Big data architectures
Mariem Khalfaoui
 
Morning with MongoDB Paris 2012 - Cas d'usages courant en entreprise. Présent...
Morning with MongoDB Paris 2012 - Cas d'usages courant en entreprise. Présent...Morning with MongoDB Paris 2012 - Cas d'usages courant en entreprise. Présent...
Morning with MongoDB Paris 2012 - Cas d'usages courant en entreprise. Présent...
MongoDB
 
Journées SQL 2014 - Hive ou la convergence entre datawarehouse et Big Data
Journées SQL 2014 - Hive ou la convergence entre datawarehouse et Big DataJournées SQL 2014 - Hive ou la convergence entre datawarehouse et Big Data
Journées SQL 2014 - Hive ou la convergence entre datawarehouse et Big Data
David Joubert
 
Stats web avec Hive chez Scoop.it
Stats web avec Hive chez Scoop.itStats web avec Hive chez Scoop.it
Stats web avec Hive chez Scoop.it
hibnico
 
Tech day hadoop, Spark
Tech day hadoop, SparkTech day hadoop, Spark
Tech day hadoop, Spark
Arrow-Institute
 
Hadoop and friends : introduction
Hadoop and friends : introductionHadoop and friends : introduction
Hadoop and friends : introductionfredcons
 
Big Data, Hadoop & Spark
Big Data, Hadoop & SparkBig Data, Hadoop & Spark
Big Data, Hadoop & Spark
Alexia Audevart
 

Tendances (20)

Une introduction à Hive
Une introduction à HiveUne introduction à Hive
Une introduction à Hive
 
Hadoop et son écosystème
Hadoop et son écosystèmeHadoop et son écosystème
Hadoop et son écosystème
 
Hadoop MapReduce - OSDC FR 2009
Hadoop MapReduce - OSDC FR 2009Hadoop MapReduce - OSDC FR 2009
Hadoop MapReduce - OSDC FR 2009
 
Casablanca Hadoop & Big Data Meetup - Introduction à Hadoop
Casablanca Hadoop & Big Data Meetup - Introduction à HadoopCasablanca Hadoop & Big Data Meetup - Introduction à Hadoop
Casablanca Hadoop & Big Data Meetup - Introduction à Hadoop
 
Comment M6 personnalise l’expérience utilisateur du service 6Play avec DataSt...
Comment M6 personnalise l’expérience utilisateur du service 6Play avec DataSt...Comment M6 personnalise l’expérience utilisateur du service 6Play avec DataSt...
Comment M6 personnalise l’expérience utilisateur du service 6Play avec DataSt...
 
Hadoop Introduction in Paris
Hadoop Introduction in ParisHadoop Introduction in Paris
Hadoop Introduction in Paris
 
Hadoop
HadoopHadoop
Hadoop
 
Présentation Big Data et REX Hadoop
Présentation Big Data et REX HadoopPrésentation Big Data et REX Hadoop
Présentation Big Data et REX Hadoop
 
Hadoop Hbase - Introduction
Hadoop Hbase - IntroductionHadoop Hbase - Introduction
Hadoop Hbase - Introduction
 
BigData_Chp5: Putting it all together
BigData_Chp5: Putting it all togetherBigData_Chp5: Putting it all together
BigData_Chp5: Putting it all together
 
Introduction à Hadoop
Introduction à HadoopIntroduction à Hadoop
Introduction à Hadoop
 
Big Data: Hadoop Map / Reduce sur Windows et Windows Azure
Big Data: Hadoop Map / Reduce sur Windows et Windows AzureBig Data: Hadoop Map / Reduce sur Windows et Windows Azure
Big Data: Hadoop Map / Reduce sur Windows et Windows Azure
 
Introduction à HDFS
Introduction à HDFSIntroduction à HDFS
Introduction à HDFS
 
Big data architectures
Big data architecturesBig data architectures
Big data architectures
 
Morning with MongoDB Paris 2012 - Cas d'usages courant en entreprise. Présent...
Morning with MongoDB Paris 2012 - Cas d'usages courant en entreprise. Présent...Morning with MongoDB Paris 2012 - Cas d'usages courant en entreprise. Présent...
Morning with MongoDB Paris 2012 - Cas d'usages courant en entreprise. Présent...
 
Journées SQL 2014 - Hive ou la convergence entre datawarehouse et Big Data
Journées SQL 2014 - Hive ou la convergence entre datawarehouse et Big DataJournées SQL 2014 - Hive ou la convergence entre datawarehouse et Big Data
Journées SQL 2014 - Hive ou la convergence entre datawarehouse et Big Data
 
Stats web avec Hive chez Scoop.it
Stats web avec Hive chez Scoop.itStats web avec Hive chez Scoop.it
Stats web avec Hive chez Scoop.it
 
Tech day hadoop, Spark
Tech day hadoop, SparkTech day hadoop, Spark
Tech day hadoop, Spark
 
Hadoop and friends : introduction
Hadoop and friends : introductionHadoop and friends : introduction
Hadoop and friends : introduction
 
Big Data, Hadoop & Spark
Big Data, Hadoop & SparkBig Data, Hadoop & Spark
Big Data, Hadoop & Spark
 

Similaire à Pj hug 07_04_2016

Discovery Session France: Atelier découverte de la Data Virtualization
Discovery Session France: Atelier découverte de la Data VirtualizationDiscovery Session France: Atelier découverte de la Data Virtualization
Discovery Session France: Atelier découverte de la Data Virtualization
Denodo
 
Session découverte de la Data Virtualization
Session découverte de la Data VirtualizationSession découverte de la Data Virtualization
Session découverte de la Data Virtualization
Denodo
 
Session découverte de la Data Virtualization
Session découverte de la Data VirtualizationSession découverte de la Data Virtualization
Session découverte de la Data Virtualization
Denodo
 
Session découverte de la Logical Data Fabric soutenue par la Data Virtualization
Session découverte de la Logical Data Fabric soutenue par la Data VirtualizationSession découverte de la Logical Data Fabric soutenue par la Data Virtualization
Session découverte de la Logical Data Fabric soutenue par la Data Virtualization
Denodo
 
La Duck Conf 2018 : "Superbe maison d'architecte avec vue sur le lac"
La Duck Conf 2018 : "Superbe maison d'architecte avec vue sur le lac"La Duck Conf 2018 : "Superbe maison d'architecte avec vue sur le lac"
La Duck Conf 2018 : "Superbe maison d'architecte avec vue sur le lac"
OCTO Technology
 
Quel est l'avenir des stratégies de données?
Quel est l'avenir des stratégies de données?Quel est l'avenir des stratégies de données?
Quel est l'avenir des stratégies de données?
Denodo
 
Ecosystème Big Data
Ecosystème Big DataEcosystème Big Data
Ecosystème Big Data
Idriss22
 
Session découverte de la Data Virtualization
Session découverte de la Data VirtualizationSession découverte de la Data Virtualization
Session découverte de la Data Virtualization
Denodo
 
Session découverte de la Logical Data Fabric soutenue par la Data Virtualization
Session découverte de la Logical Data Fabric soutenue par la Data VirtualizationSession découverte de la Logical Data Fabric soutenue par la Data Virtualization
Session découverte de la Logical Data Fabric soutenue par la Data Virtualization
Denodo
 
Big Data : au delà du proof of concept et de l'expérimentation (Matinale busi...
Big Data : au delà du proof of concept et de l'expérimentation (Matinale busi...Big Data : au delà du proof of concept et de l'expérimentation (Matinale busi...
Big Data : au delà du proof of concept et de l'expérimentation (Matinale busi...
Jean-Michel Franco
 
La Logical Data Fabric au secours de la connaissance client
La Logical Data Fabric au secours de la connaissance clientLa Logical Data Fabric au secours de la connaissance client
La Logical Data Fabric au secours de la connaissance client
Denodo
 
EXL Group - Offre Data Science
EXL Group - Offre Data ScienceEXL Group - Offre Data Science
EXL Group - Offre Data Science
Ashraf Grioute
 
Session en ligne: Découverte du Logical Data Fabric & Data Virtualization
Session en ligne: Découverte du Logical Data Fabric & Data VirtualizationSession en ligne: Découverte du Logical Data Fabric & Data Virtualization
Session en ligne: Découverte du Logical Data Fabric & Data Virtualization
Denodo
 
Denodo 2022 : le meilleur time-to-Data du marché
Denodo 2022 : le meilleur time-to-Data du marchéDenodo 2022 : le meilleur time-to-Data du marché
Denodo 2022 : le meilleur time-to-Data du marché
Denodo
 
GraphTour Paris - Cas d'usages populaires Neo4j
GraphTour Paris - Cas d'usages populaires Neo4jGraphTour Paris - Cas d'usages populaires Neo4j
GraphTour Paris - Cas d'usages populaires Neo4j
Neo4j
 
Webinar Denodo & CRIP : Souveraineté, information sensible et data gouvernanc...
Webinar Denodo & CRIP : Souveraineté, information sensible et data gouvernanc...Webinar Denodo & CRIP : Souveraineté, information sensible et data gouvernanc...
Webinar Denodo & CRIP : Souveraineté, information sensible et data gouvernanc...
Denodo
 
Livre Blanc : comprendre les data-lakes
Livre Blanc : comprendre les data-lakesLivre Blanc : comprendre les data-lakes
Livre Blanc : comprendre les data-lakes
Converteo
 
Analytics & Machine Learning avec la Data Virtualization
Analytics & Machine Learning avec la Data VirtualizationAnalytics & Machine Learning avec la Data Virtualization
Analytics & Machine Learning avec la Data Virtualization
Denodo
 
Business Intelligence : Offres du marché et benchmarking
Business Intelligence : Offres du marché et benchmarkingBusiness Intelligence : Offres du marché et benchmarking
Business Intelligence : Offres du marché et benchmarking
Samia NACIRI
 
[French] Matinale du Big Data Talend
[French] Matinale du Big Data Talend[French] Matinale du Big Data Talend
[French] Matinale du Big Data Talend
Jean-Michel Franco
 

Similaire à Pj hug 07_04_2016 (20)

Discovery Session France: Atelier découverte de la Data Virtualization
Discovery Session France: Atelier découverte de la Data VirtualizationDiscovery Session France: Atelier découverte de la Data Virtualization
Discovery Session France: Atelier découverte de la Data Virtualization
 
Session découverte de la Data Virtualization
Session découverte de la Data VirtualizationSession découverte de la Data Virtualization
Session découverte de la Data Virtualization
 
Session découverte de la Data Virtualization
Session découverte de la Data VirtualizationSession découverte de la Data Virtualization
Session découverte de la Data Virtualization
 
Session découverte de la Logical Data Fabric soutenue par la Data Virtualization
Session découverte de la Logical Data Fabric soutenue par la Data VirtualizationSession découverte de la Logical Data Fabric soutenue par la Data Virtualization
Session découverte de la Logical Data Fabric soutenue par la Data Virtualization
 
La Duck Conf 2018 : "Superbe maison d'architecte avec vue sur le lac"
La Duck Conf 2018 : "Superbe maison d'architecte avec vue sur le lac"La Duck Conf 2018 : "Superbe maison d'architecte avec vue sur le lac"
La Duck Conf 2018 : "Superbe maison d'architecte avec vue sur le lac"
 
Quel est l'avenir des stratégies de données?
Quel est l'avenir des stratégies de données?Quel est l'avenir des stratégies de données?
Quel est l'avenir des stratégies de données?
 
Ecosystème Big Data
Ecosystème Big DataEcosystème Big Data
Ecosystème Big Data
 
Session découverte de la Data Virtualization
Session découverte de la Data VirtualizationSession découverte de la Data Virtualization
Session découverte de la Data Virtualization
 
Session découverte de la Logical Data Fabric soutenue par la Data Virtualization
Session découverte de la Logical Data Fabric soutenue par la Data VirtualizationSession découverte de la Logical Data Fabric soutenue par la Data Virtualization
Session découverte de la Logical Data Fabric soutenue par la Data Virtualization
 
Big Data : au delà du proof of concept et de l'expérimentation (Matinale busi...
Big Data : au delà du proof of concept et de l'expérimentation (Matinale busi...Big Data : au delà du proof of concept et de l'expérimentation (Matinale busi...
Big Data : au delà du proof of concept et de l'expérimentation (Matinale busi...
 
La Logical Data Fabric au secours de la connaissance client
La Logical Data Fabric au secours de la connaissance clientLa Logical Data Fabric au secours de la connaissance client
La Logical Data Fabric au secours de la connaissance client
 
EXL Group - Offre Data Science
EXL Group - Offre Data ScienceEXL Group - Offre Data Science
EXL Group - Offre Data Science
 
Session en ligne: Découverte du Logical Data Fabric & Data Virtualization
Session en ligne: Découverte du Logical Data Fabric & Data VirtualizationSession en ligne: Découverte du Logical Data Fabric & Data Virtualization
Session en ligne: Découverte du Logical Data Fabric & Data Virtualization
 
Denodo 2022 : le meilleur time-to-Data du marché
Denodo 2022 : le meilleur time-to-Data du marchéDenodo 2022 : le meilleur time-to-Data du marché
Denodo 2022 : le meilleur time-to-Data du marché
 
GraphTour Paris - Cas d'usages populaires Neo4j
GraphTour Paris - Cas d'usages populaires Neo4jGraphTour Paris - Cas d'usages populaires Neo4j
GraphTour Paris - Cas d'usages populaires Neo4j
 
Webinar Denodo & CRIP : Souveraineté, information sensible et data gouvernanc...
Webinar Denodo & CRIP : Souveraineté, information sensible et data gouvernanc...Webinar Denodo & CRIP : Souveraineté, information sensible et data gouvernanc...
Webinar Denodo & CRIP : Souveraineté, information sensible et data gouvernanc...
 
Livre Blanc : comprendre les data-lakes
Livre Blanc : comprendre les data-lakesLivre Blanc : comprendre les data-lakes
Livre Blanc : comprendre les data-lakes
 
Analytics & Machine Learning avec la Data Virtualization
Analytics & Machine Learning avec la Data VirtualizationAnalytics & Machine Learning avec la Data Virtualization
Analytics & Machine Learning avec la Data Virtualization
 
Business Intelligence : Offres du marché et benchmarking
Business Intelligence : Offres du marché et benchmarkingBusiness Intelligence : Offres du marché et benchmarking
Business Intelligence : Offres du marché et benchmarking
 
[French] Matinale du Big Data Talend
[French] Matinale du Big Data Talend[French] Matinale du Big Data Talend
[French] Matinale du Big Data Talend
 

Dernier

Webinaire santé prédation - Martin MSA 31 mai 2024.pdf
Webinaire santé prédation - Martin MSA 31 mai 2024.pdfWebinaire santé prédation - Martin MSA 31 mai 2024.pdf
Webinaire santé prédation - Martin MSA 31 mai 2024.pdf
Institut de l'Elevage - Idele
 
Barometre_de_l_Economie_S1_2024_-_BAT__1_.pdf
Barometre_de_l_Economie_S1_2024_-_BAT__1_.pdfBarometre_de_l_Economie_S1_2024_-_BAT__1_.pdf
Barometre_de_l_Economie_S1_2024_-_BAT__1_.pdf
Paperjam_redaction
 
Webinaire santé prédation programme 31 mai 2024.pdf
Webinaire santé prédation programme 31 mai 2024.pdfWebinaire santé prédation programme 31 mai 2024.pdf
Webinaire santé prédation programme 31 mai 2024.pdf
Institut de l'Elevage - Idele
 
Webinaire santé prédation - Doré Nicolas Inrae 31 mai 2024.pdf
Webinaire santé prédation - Doré Nicolas Inrae 31 mai 2024.pdfWebinaire santé prédation - Doré Nicolas Inrae 31 mai 2024.pdf
Webinaire santé prédation - Doré Nicolas Inrae 31 mai 2024.pdf
Institut de l'Elevage - Idele
 
Webinaire Qui sont les jeunes installés avec un bac +5 ?
Webinaire Qui sont les jeunes installés avec un bac +5 ?Webinaire Qui sont les jeunes installés avec un bac +5 ?
Webinaire Qui sont les jeunes installés avec un bac +5 ?
Institut de l'Elevage - Idele
 
Novascope Télécoms et Réseaux Informatiques en BtoB 2023
Novascope Télécoms et Réseaux Informatiques en BtoB 2023Novascope Télécoms et Réseaux Informatiques en BtoB 2023
Novascope Télécoms et Réseaux Informatiques en BtoB 2023
Enov
 

Dernier (6)

Webinaire santé prédation - Martin MSA 31 mai 2024.pdf
Webinaire santé prédation - Martin MSA 31 mai 2024.pdfWebinaire santé prédation - Martin MSA 31 mai 2024.pdf
Webinaire santé prédation - Martin MSA 31 mai 2024.pdf
 
Barometre_de_l_Economie_S1_2024_-_BAT__1_.pdf
Barometre_de_l_Economie_S1_2024_-_BAT__1_.pdfBarometre_de_l_Economie_S1_2024_-_BAT__1_.pdf
Barometre_de_l_Economie_S1_2024_-_BAT__1_.pdf
 
Webinaire santé prédation programme 31 mai 2024.pdf
Webinaire santé prédation programme 31 mai 2024.pdfWebinaire santé prédation programme 31 mai 2024.pdf
Webinaire santé prédation programme 31 mai 2024.pdf
 
Webinaire santé prédation - Doré Nicolas Inrae 31 mai 2024.pdf
Webinaire santé prédation - Doré Nicolas Inrae 31 mai 2024.pdfWebinaire santé prédation - Doré Nicolas Inrae 31 mai 2024.pdf
Webinaire santé prédation - Doré Nicolas Inrae 31 mai 2024.pdf
 
Webinaire Qui sont les jeunes installés avec un bac +5 ?
Webinaire Qui sont les jeunes installés avec un bac +5 ?Webinaire Qui sont les jeunes installés avec un bac +5 ?
Webinaire Qui sont les jeunes installés avec un bac +5 ?
 
Novascope Télécoms et Réseaux Informatiques en BtoB 2023
Novascope Télécoms et Réseaux Informatiques en BtoB 2023Novascope Télécoms et Réseaux Informatiques en BtoB 2023
Novascope Télécoms et Réseaux Informatiques en BtoB 2023
 

Pj hug 07_04_2016

  • 1. VISION SMART DATA DE PAGESJAUNES CHERIF TIFRANI MEHDI KIMAKHE 07/04/2016
  • 2. 2Date • Titre de la présentation Sommaire  Ambitions smart data de Pages Jaunes  Un système à bout de souffle  Evolution de l’architecture Big Data  Industrialisation de la plateforme Big Data  Présentation de deux use cases  Questions ?
  • 3. 3Date • Titre de la présentation Connaissez-vous Solocal group
  • 4. 4Date • Titre de la présentation Connaissez-vous Solocal group 4
  • 5. 5Date • Titre de la présentation Ambitions smart data de PagesJaunes  Améliorer les délais de mise à disposition des données auprès des directions métiers et des annonceurs, × 40 fichiers de données d’audience PagesJaunes fixe × + Les fichiers des données d’audience mobile × + Les fichiers des données d’audience partenaires × Différents contrats d’interface  Être en capacité de livrer des évolutions sur les modèles de données dans des délais courts et à faible coûts, (Time to arket),  Rendre les services d’analyses de la performance autonomes à travers une plateforme d’analyse adaptée aux besoins.
  • 6. 6Date • Titre de la présentation Un système à bout de souffle
  • 7. 7Date • Titre de la présentation Evolution de l’architecture Big Data
  • 8. 8Date • Titre de la présentation Industrialisation de la plateforme Big Data 1. Sécurisation de la plateforme (Authentification et Autorisation) 2. Haute disponibilité (Name Node, Resource Manager, Hive, Metastore, Fronts …) 3. Configuration d'un cluster multi-tenant 1. Mise en place de permissions fines par composants 2. Capacity planning (validation des différents paramètres de tuning mémoire et CPU) 3. Mise en place du cloisonnement des ressources pour Yarn et Impala (Linux CGroup) 4. Fair scheduler (mise à disposition des ressources par groupes d'utilisateur) 4. Maintenance opérationnelle de l’infrastructure et des services et gestion des incidents d'exploitation 5. Qualification des nouveaux produits/nouvelles versions 6. Gestion des Backups/Snapshots (HDFS, MetaStore, …) 7. Supervision (monitoring/alert)
  • 9. 9Date • Titre de la présentation Industrialisation de la plateforme Big Data – Archi Infra
  • 10. 10Date • Titre de la présentation Industrialisation de la plateforme Big Data – Usine de DEV
  • 11. 11Date • Titre de la présentation Use case 1 : Croissements de données Data Lake Audiences Data warehouse Ventes Parution Simulation du moteur Pages Jaunes Etude des impacts liés aux évolutions du moteur Analyses Pré/Post lancement des offres … Finances  Capturer les données des différentes sources de données  Centraliser les données sur une plateforme d’analyse  Croiser et analyser les données
  • 12. 12Date • Titre de la présentation Use case 2: Offre mots clés Algorithme de valorisation des Mots- Clés Référentiel de MCs Audiences PJ web (1,5 milliards de recherches) Audiences PJ mobiles (100 millions de recherches) Audiences Google (350 millions de couples récupérées) CPC Google (350 millions) Correction des termes recherchés sur PJ/Google via une API interne (82 Millions) Mots-Clés scorés (11 K)  Valorisation des Mots-Clés
  • 13. 13Date • Titre de la présentation Use case 2: Offre mots clés Crawl des sites web des clients • Moteur de crawl du contenu des sites web (Equipe IODA) => 1 M de clients identifiés • Identification de termes importants (Equipe IODA) => 14.5 M de termes identifiés Référentiel des Mots-Clés • Référentiel à jour des Mots-clés vendus par PagesJaunes Constitution des packs • Identification des Mots-Clés pertinents pour nos clients • Remplissage des différents packs  Constitution de packs pertinents pour les clients
  • 14. 14Date • Titre de la présentation Use case 2: Offre mots clés Objectifs Proposer à nos clients des Mots-Clés proches de leurs besoins Valoriser le rôle des commerciaux : Conseillers digitaux Bénéfices 89% des clients gardent les MC qu’on leur propose +6% de souscription au pack « Intégral » quand on propose des MC 66% des mots-clés proposés sont gardés  Constitution de packs pertinents pour les clients
  • 15. 15Date • Titre de la présentation Avez-vous des Questions?