Ogury est la plateforme de data mobile qui permet d’accéder aux données comportementales des profils de plus de 400 millions de mobinautes répartis dans plus de 120 pays. Monter une stack haute fréquence n’est pas facile, David et Carles vous parleront de leur retour d'expérience.
Durant cette présentation, Carles et David vous propose de revivre avec eux l’évolution de l’architecture d’Ogury. D’un POC monolite à une architecture micro-service orienté perf, constituée des 700 instances chez AWS.
http://www.brownbaglunch.fr/baggers.html#Olivier_BAZOUD
Monitoring: regarder votre application à la loupe!
Regarder fonctionner votre application sous toutes les coutures.
Nous verrons comment alimenter Graphite, un excellent outil de métrologie, dans une architecture java (je peux m'adapter à vote langage): collectd, jmxtrans, metrics, statsd,.. afin de prendre des mesures au niveau du système, de l'applicatif, des batchs et du métier (KPI). Nous aborderons ensuite la corrélation tous ces métriques de façon très visuelle et comment réveiller vos sysadmins en cas d'urgence ;)
Webinaire 6 de la série « Retour aux fondamentaux » : Déploiement en production MongoDB
Il s'agit du dernier webinaire de la série « Retour aux fondamentaux » qui a pour but de vous présenter la base de données MongoDB. Ce webinaire vous guide à travers le déploiement en production.
Activeeon est un éditeur de logicels open source permettant de répondre aux problématiques suivantes: orchestration IT du big data et de machine learning, création de workflows, planification et contôle de l'exécution de jobs, passage à l'échelle de l'infrastructure informatique, monitoring et migration cloud.
Découvrez les avantages de la solution ProActive et les cas d'utilisation clients.
Contactez Activeeon
Site web: https://www.activeeon.com/
Plateforme d'essai: https://try.activeeon.com/
LinkedIn: https://www.linkedin.com/company/activeeon/
Twitter: https://twitter.com/activeeon
contact@activeeon.com
Industrialisation des processus Big Data chez CANAL+ par Pascal PERISSEAU et Stephen CLAIRVILLE (CanalPlus)
L'intégration de la brique technique Big Data au sein d'une architecture décisionnelle déjà existante. Retour d’expérience sur les développements réalisés afin de faciliter l’intégration, la supervision, et l’exploitation des flux Hadoop dans notre écosystème décisionnel / présentation de la phase préparatoire de la mise à disposition des données aux data analysts et data scientists.
Pascal PERISSEAU, responsable technique du pôle décisionnel et Big Data chez CANAL+ depuis 10 ans
Stephen CLAIRVILLE, chef de projet tech. lead Big Data depuis 2 ans chez CANAL+
Cassandra s'impose chez Chronopost comme base NoSQL de choix pour remplacer les RDBMS traditionnels.
Pourquoi choisir Cassandra dans la jungle du Big Data, pour quels usages et quels gains en tirer.
http://www.brownbaglunch.fr/baggers.html#Olivier_BAZOUD
Monitoring: regarder votre application à la loupe!
Regarder fonctionner votre application sous toutes les coutures.
Nous verrons comment alimenter Graphite, un excellent outil de métrologie, dans une architecture java (je peux m'adapter à vote langage): collectd, jmxtrans, metrics, statsd,.. afin de prendre des mesures au niveau du système, de l'applicatif, des batchs et du métier (KPI). Nous aborderons ensuite la corrélation tous ces métriques de façon très visuelle et comment réveiller vos sysadmins en cas d'urgence ;)
Webinaire 6 de la série « Retour aux fondamentaux » : Déploiement en production MongoDB
Il s'agit du dernier webinaire de la série « Retour aux fondamentaux » qui a pour but de vous présenter la base de données MongoDB. Ce webinaire vous guide à travers le déploiement en production.
Activeeon est un éditeur de logicels open source permettant de répondre aux problématiques suivantes: orchestration IT du big data et de machine learning, création de workflows, planification et contôle de l'exécution de jobs, passage à l'échelle de l'infrastructure informatique, monitoring et migration cloud.
Découvrez les avantages de la solution ProActive et les cas d'utilisation clients.
Contactez Activeeon
Site web: https://www.activeeon.com/
Plateforme d'essai: https://try.activeeon.com/
LinkedIn: https://www.linkedin.com/company/activeeon/
Twitter: https://twitter.com/activeeon
contact@activeeon.com
Industrialisation des processus Big Data chez CANAL+ par Pascal PERISSEAU et Stephen CLAIRVILLE (CanalPlus)
L'intégration de la brique technique Big Data au sein d'une architecture décisionnelle déjà existante. Retour d’expérience sur les développements réalisés afin de faciliter l’intégration, la supervision, et l’exploitation des flux Hadoop dans notre écosystème décisionnel / présentation de la phase préparatoire de la mise à disposition des données aux data analysts et data scientists.
Pascal PERISSEAU, responsable technique du pôle décisionnel et Big Data chez CANAL+ depuis 10 ans
Stephen CLAIRVILLE, chef de projet tech. lead Big Data depuis 2 ans chez CANAL+
Cassandra s'impose chez Chronopost comme base NoSQL de choix pour remplacer les RDBMS traditionnels.
Pourquoi choisir Cassandra dans la jungle du Big Data, pour quels usages et quels gains en tirer.
MongoDB 3.6 helps you move at the speed of your data, turning developers, operations teams and analysts into a growth engine for the company. It enables new applications to be marketed faster, run reliably and securely on a large scale, and unlock information and information in real time. Learn more: https://www.mongodb.com/mongodb-3.6
Présentation et démos techniques des principaux services Google Cloud et leurs relations
(Compute Engine, Cloud Storage, Bigquery, Cloud SQL, Dataflow, Pub/Sub, Cloud Function)
Ogury est la plateforme de data mobile qui permet d’accéder aux données comportementales des profils de plus de 400 millions de mobinautes répartis dans plus de 120 pays.
Une plateforme micro-services c’est cool et c’est à la mode … mais il y a aussi le revers de la médaille ! L’augmentation du traffic inter-services peut dégrader vos temps de réponses car les connexions HTTP sont lentes.
Cependant des solutions existent pour optimiser le trafic réseau, durant cette session, David et Carles vous parleront de la solution qu’ils ont expérimentée : gRPC.
David Caramelo, Développeur Craftsman passionné depuis 12 ans, actuellement Tech Lead full stack chez Ogury. David s'est forgé son expérience essentiellement dans des startups parisiennes comme Viadeo ou Ogury et dans des cabinets conseil IT comme Xebia.
Carles Sistaré, Architecte-Développeur dans les clouds, actuellement Tech Lead de la team Delivery et co-fondateur d’Ogury. Carles a évolué dans le monde de la AdTech en passant par Ad4Screen et en tant qu’amateur de l’open-source en tant que commiteur Node-Kafka et créateur du module grpc-promise.
Oxalide MorningTech #1 - BigData
1er MorningTech @Oxalide, animé par Ludovic Piot (@lpiot), le 15 décembre 2016.
Pour cette 1ère édition du Morning Tech nous vous proposons une overview sur un des thèmes du moment : le Big Data.
Au delà de ce buzz word nous aborderons :
Les grands concepts
Les étapes clés des projets Big Data et les technologies à utiliser (stockage, ingestion, …)
Les enjeux des architectures Big Data (architecture lambda, …)
L'intelligence artificielle (machine learning, deep learning, …)
Et nous finirons par un cas d'usage du big data sur AWS autour de l'utilisation des données gyroscopiques de vos internautes mobiles
Subject: Oxalide's 1st MorningTech talk about BigData.
Date: 15-dec-2016
Speakers: Ludovic Piot (@lpiot, @oxalide)
Language: french
Lien SpeakerDeck : https://speakerdeck.com/lpiot/oxalide-morningtech-number-1-bigdata
Lien SlideShare : https://www.slideshare.net/LudovicPiot/oxalide-morningtech-1-bigdata
YouTube Video capture: https://youtu.be/7O85lRzvMY0
Main topics:
* Les grands enjeux du BigData
** les 3 V du Gartner : volume, variété, vélocité
* Le stockage des données
** datalake
** les technos
* L'ingestion des données
** ETL
** datastream
** les technos
* Les enjeux du compute
** map-reduce
** spark
** lambda architecture
* Démo d'une plateforme BigData sur AWS
* L'intelligence artificielle
** datascience exploratoire et notebooks,
** machine learning,
** deep learning,
** data pipeline
** les technos
* Pour aller plus loin
** La gouvernance des données
** La dataviz
Track 2 - Atelier 1 - Big data analytics présenté avec IntelAmazon Web Services
En savoir plus sur les outils, techniques et technologies pour travailler de manière productive avec des données à n'importe quelle échelle. Vous découvrirez la gamme d'outils d'analyse des données disponible sur AWS et que vous pouvez utiliser pour collecter, stocker, analyser et partager vos données, pour des volumes allant du giga-octets au péta-octets (1024 tera-octets). Nous discuterons d’Amazon Elastic MapReduce, d’Hadoop, de données structurées et non structurées, et des types d'instances Amazon EC2 qui permettent des analyses hautes performances à coûts optimisés.
Slides du meetup Google Cloud présentant les différents services Google Cloud
- Compute Engine
- Gigquery
- Cloud Storage
- Cloud Function
- Google Dataflow / Apache Beam
- Google Spanner etc...
UN ÉLÉPHANT QUI SE BALANÇAIT … Comment mettre en musique les big data et valo...OCTO Technology
BNP Paribas était présent pour témoigner de sa démarche avec un retour sur la mise en œuvre de ces nouvelles architectures de données.
Un menu copieux pour cette rentrée des petits-déjeuners OCTO avec un focus sur les architectures de données, un témoignage de BNP Paribas, un retour sur la mise en œuvre de ces nouvelles architectures de données et, cerise sur le gâteau, une mise en perspective de la tendance vers des architectures de flux à l’occasion de la publication du livre blanc Digital Studies Vol.02 : La question du temps dans les architectures digitales.
Les données sont là, initialement éclatées dans différents silos applicatifs. Mais maintenant qu’elles commencent à alimenter un Data Lake sous Hadoop, que va-t-on en faire ? Comment les valoriser ? Comment créer de nouveaux services à valeur ajoutée ?
BNP Paribas était là poue témoigner de sa démarche – initiée par des expérimentations autour des data - pour proposer dès à présent de nouveaux services (trois projets seront évoqués).
OCTO a présenté le retour d'expérience sur la mise en œuvre de ces nouvelles architectures de données, incluant les technologies Hadoop, Spark, Cassandra, Solr ainsi que des expérimentations sur le Machine Learning, tout en soulignant les méthodes de travail utilisées avec des équipes mixtes BNP Paribas / OCTO.
Ce petit-déjeuner a aussi été l’occasion de vous présenter et de vous remettre une version imprimée du livre blanc Digital Studies Vol.02, consacré aux questions d’architecture, notamment aux nouvelles architectures de flux.
Monitoring applicatif : Pourquoi et comment ?Kenny Dits
Vous êtes développeur, chef de projet technique ou même responsable et vous souhaitez avoir de la visibilité sur le fonctionnement de vos applicatifs, ou sur la plateforme sur laquelle ils sont hébergés ?
Nous étudierons comment, grâce à des outils simples (StatD / Graphite / Log BDD) et nos expériences chez M6Web, mettre en place un monitoring applicatif ultra complet.
Ce monitoring vous permettra de retrouver la vue sur vos projets, pour mieux anticiper la charge, detecter la root cause en cas d'incident et connaitre l'état de chacun de vos services ...
Stockage et analyse temps réel d'événements avec Riak chez Booking.comDamien Krotkine
Chez Booking.com, un flux constant d'événements provient des différents systèmes et applications internes. Ces "events" sont des données critiques, et doivent être stockés pour être analysés en temps réel, ou bien sur du moyen et long terme. Ces données sont très peu structurées et de nature changeante, rendant difficile l'utilisation d'outils standards d'analyse.
Cette présentation montre comment fut construit un système de stockage complet avec analyse temps-réel, basé sur Riak.
Riak est une base de donnée NoSQL distribuée hybride très robuste et rapide.
Les points abordés seront: sérialisation et aggrégation des données, la configuration de Riak, les solutions pour diminuer la consommation de bande passante du cluster, l'implémentation de l'analyse temps-réel grace aux fonctions avancées de Riak: MapReduce, Secondary Indexes, commit-hooks.
Core Web Vitals, les indicateurs de vitesse qui réconcilient UX et SEOWeLoveSEO
Largest Contentful Paint (LCP), First Input Delay (FID) et Cumulative Layout Shift (CLS) : ce sont les 3 nouveaux indicateurs que Google a annoncé vouloir prendre en compte dès 2021 pour le ranking. Vous en avez sans doute pas mal entendu parler ces dernières semaines non ?
L'objectif derrière cette mise à jour : mesurer la performance et l'expérience utilisateur pour en faire des critères #SEO. Ce qui en soit est une bonne chose !
Mais c'est sujet à débat : est-ce une révolution SEO ou au contraire, une modification minime de l’algorithme ? Que signifient réellement ces KPI, comment les mesurer et comment les améliorer ?
Dans un format intimiste, Tech4Exec démystifie, le temps d’une matinée, les sujets et technologies stratégiques du moment, pour en comprendre les implications, les déclinaisons opérationnelles concrètes et leur intérêt pour l’entreprise.
Le format est simple et efficace : 15 mn de vulgarisation, 25 mn de mise en oeuvre et 1h de retours d’expérience client.
La vidéo est disponible ici : https://youtu.be/U79Dp7xiF4E
https://tech4exec.fr/
UN ÉLÉPHANT QUI SE BALANÇAIT … Comment mettre en musique les big data et valo...OCTO Technology
Un menu copieux pour cette rentrée des petits-déjeuners OCTO avec un focus sur les architectures de données, un témoignage de BNP Paribas, un retour sur la mise en œuvre de ces nouvelles architectures de données et, cerise sur le gâteau, une mise en perspective de la tendance vers des architectures de flux à l’occasion de la publication du livre blanc Digital Studies Vol.02 : La question du temps dans les architectures digitales.
Les données sont là, initialement éclatées dans différents silos applicatifs. Mais maintenant qu’elles commencent à alimenter un Data Lake sous Hadoop, que va-t-on en faire ? Comment les valoriser ? Comment créer de nouveaux services à valeur ajoutée ?
BNP Paribas était présent pour témoigner de sa démarche avec un retour sur la mise en œuvre de ces nouvelles architectures de données.
OCTO a présenté le retour d'expérience sur la mise en œuvre de ces nouvelles architectures de données, incluant les technologies Hadoop, Spark, Cassandra, Solr ainsi que des expérimentations sur le Machine Learning, tout en soulignant les méthodes de travail utilisées avec des équipes mixtes BNP Paribas / OCTO.
Ce petit-déjeuner a aussi été l’occasion de vous présenter et de vous remettre une version imprimée du livre blanc Digital Studies Vol.02, consacré aux questions d’architecture, notamment aux nouvelles architectures de flux.
MongoDB 3.6 helps you move at the speed of your data, turning developers, operations teams and analysts into a growth engine for the company. It enables new applications to be marketed faster, run reliably and securely on a large scale, and unlock information and information in real time. Learn more: https://www.mongodb.com/mongodb-3.6
Présentation et démos techniques des principaux services Google Cloud et leurs relations
(Compute Engine, Cloud Storage, Bigquery, Cloud SQL, Dataflow, Pub/Sub, Cloud Function)
Ogury est la plateforme de data mobile qui permet d’accéder aux données comportementales des profils de plus de 400 millions de mobinautes répartis dans plus de 120 pays.
Une plateforme micro-services c’est cool et c’est à la mode … mais il y a aussi le revers de la médaille ! L’augmentation du traffic inter-services peut dégrader vos temps de réponses car les connexions HTTP sont lentes.
Cependant des solutions existent pour optimiser le trafic réseau, durant cette session, David et Carles vous parleront de la solution qu’ils ont expérimentée : gRPC.
David Caramelo, Développeur Craftsman passionné depuis 12 ans, actuellement Tech Lead full stack chez Ogury. David s'est forgé son expérience essentiellement dans des startups parisiennes comme Viadeo ou Ogury et dans des cabinets conseil IT comme Xebia.
Carles Sistaré, Architecte-Développeur dans les clouds, actuellement Tech Lead de la team Delivery et co-fondateur d’Ogury. Carles a évolué dans le monde de la AdTech en passant par Ad4Screen et en tant qu’amateur de l’open-source en tant que commiteur Node-Kafka et créateur du module grpc-promise.
Oxalide MorningTech #1 - BigData
1er MorningTech @Oxalide, animé par Ludovic Piot (@lpiot), le 15 décembre 2016.
Pour cette 1ère édition du Morning Tech nous vous proposons une overview sur un des thèmes du moment : le Big Data.
Au delà de ce buzz word nous aborderons :
Les grands concepts
Les étapes clés des projets Big Data et les technologies à utiliser (stockage, ingestion, …)
Les enjeux des architectures Big Data (architecture lambda, …)
L'intelligence artificielle (machine learning, deep learning, …)
Et nous finirons par un cas d'usage du big data sur AWS autour de l'utilisation des données gyroscopiques de vos internautes mobiles
Subject: Oxalide's 1st MorningTech talk about BigData.
Date: 15-dec-2016
Speakers: Ludovic Piot (@lpiot, @oxalide)
Language: french
Lien SpeakerDeck : https://speakerdeck.com/lpiot/oxalide-morningtech-number-1-bigdata
Lien SlideShare : https://www.slideshare.net/LudovicPiot/oxalide-morningtech-1-bigdata
YouTube Video capture: https://youtu.be/7O85lRzvMY0
Main topics:
* Les grands enjeux du BigData
** les 3 V du Gartner : volume, variété, vélocité
* Le stockage des données
** datalake
** les technos
* L'ingestion des données
** ETL
** datastream
** les technos
* Les enjeux du compute
** map-reduce
** spark
** lambda architecture
* Démo d'une plateforme BigData sur AWS
* L'intelligence artificielle
** datascience exploratoire et notebooks,
** machine learning,
** deep learning,
** data pipeline
** les technos
* Pour aller plus loin
** La gouvernance des données
** La dataviz
Track 2 - Atelier 1 - Big data analytics présenté avec IntelAmazon Web Services
En savoir plus sur les outils, techniques et technologies pour travailler de manière productive avec des données à n'importe quelle échelle. Vous découvrirez la gamme d'outils d'analyse des données disponible sur AWS et que vous pouvez utiliser pour collecter, stocker, analyser et partager vos données, pour des volumes allant du giga-octets au péta-octets (1024 tera-octets). Nous discuterons d’Amazon Elastic MapReduce, d’Hadoop, de données structurées et non structurées, et des types d'instances Amazon EC2 qui permettent des analyses hautes performances à coûts optimisés.
Slides du meetup Google Cloud présentant les différents services Google Cloud
- Compute Engine
- Gigquery
- Cloud Storage
- Cloud Function
- Google Dataflow / Apache Beam
- Google Spanner etc...
UN ÉLÉPHANT QUI SE BALANÇAIT … Comment mettre en musique les big data et valo...OCTO Technology
BNP Paribas était présent pour témoigner de sa démarche avec un retour sur la mise en œuvre de ces nouvelles architectures de données.
Un menu copieux pour cette rentrée des petits-déjeuners OCTO avec un focus sur les architectures de données, un témoignage de BNP Paribas, un retour sur la mise en œuvre de ces nouvelles architectures de données et, cerise sur le gâteau, une mise en perspective de la tendance vers des architectures de flux à l’occasion de la publication du livre blanc Digital Studies Vol.02 : La question du temps dans les architectures digitales.
Les données sont là, initialement éclatées dans différents silos applicatifs. Mais maintenant qu’elles commencent à alimenter un Data Lake sous Hadoop, que va-t-on en faire ? Comment les valoriser ? Comment créer de nouveaux services à valeur ajoutée ?
BNP Paribas était là poue témoigner de sa démarche – initiée par des expérimentations autour des data - pour proposer dès à présent de nouveaux services (trois projets seront évoqués).
OCTO a présenté le retour d'expérience sur la mise en œuvre de ces nouvelles architectures de données, incluant les technologies Hadoop, Spark, Cassandra, Solr ainsi que des expérimentations sur le Machine Learning, tout en soulignant les méthodes de travail utilisées avec des équipes mixtes BNP Paribas / OCTO.
Ce petit-déjeuner a aussi été l’occasion de vous présenter et de vous remettre une version imprimée du livre blanc Digital Studies Vol.02, consacré aux questions d’architecture, notamment aux nouvelles architectures de flux.
Monitoring applicatif : Pourquoi et comment ?Kenny Dits
Vous êtes développeur, chef de projet technique ou même responsable et vous souhaitez avoir de la visibilité sur le fonctionnement de vos applicatifs, ou sur la plateforme sur laquelle ils sont hébergés ?
Nous étudierons comment, grâce à des outils simples (StatD / Graphite / Log BDD) et nos expériences chez M6Web, mettre en place un monitoring applicatif ultra complet.
Ce monitoring vous permettra de retrouver la vue sur vos projets, pour mieux anticiper la charge, detecter la root cause en cas d'incident et connaitre l'état de chacun de vos services ...
Stockage et analyse temps réel d'événements avec Riak chez Booking.comDamien Krotkine
Chez Booking.com, un flux constant d'événements provient des différents systèmes et applications internes. Ces "events" sont des données critiques, et doivent être stockés pour être analysés en temps réel, ou bien sur du moyen et long terme. Ces données sont très peu structurées et de nature changeante, rendant difficile l'utilisation d'outils standards d'analyse.
Cette présentation montre comment fut construit un système de stockage complet avec analyse temps-réel, basé sur Riak.
Riak est une base de donnée NoSQL distribuée hybride très robuste et rapide.
Les points abordés seront: sérialisation et aggrégation des données, la configuration de Riak, les solutions pour diminuer la consommation de bande passante du cluster, l'implémentation de l'analyse temps-réel grace aux fonctions avancées de Riak: MapReduce, Secondary Indexes, commit-hooks.
Core Web Vitals, les indicateurs de vitesse qui réconcilient UX et SEOWeLoveSEO
Largest Contentful Paint (LCP), First Input Delay (FID) et Cumulative Layout Shift (CLS) : ce sont les 3 nouveaux indicateurs que Google a annoncé vouloir prendre en compte dès 2021 pour le ranking. Vous en avez sans doute pas mal entendu parler ces dernières semaines non ?
L'objectif derrière cette mise à jour : mesurer la performance et l'expérience utilisateur pour en faire des critères #SEO. Ce qui en soit est une bonne chose !
Mais c'est sujet à débat : est-ce une révolution SEO ou au contraire, une modification minime de l’algorithme ? Que signifient réellement ces KPI, comment les mesurer et comment les améliorer ?
Dans un format intimiste, Tech4Exec démystifie, le temps d’une matinée, les sujets et technologies stratégiques du moment, pour en comprendre les implications, les déclinaisons opérationnelles concrètes et leur intérêt pour l’entreprise.
Le format est simple et efficace : 15 mn de vulgarisation, 25 mn de mise en oeuvre et 1h de retours d’expérience client.
La vidéo est disponible ici : https://youtu.be/U79Dp7xiF4E
https://tech4exec.fr/
UN ÉLÉPHANT QUI SE BALANÇAIT … Comment mettre en musique les big data et valo...OCTO Technology
Un menu copieux pour cette rentrée des petits-déjeuners OCTO avec un focus sur les architectures de données, un témoignage de BNP Paribas, un retour sur la mise en œuvre de ces nouvelles architectures de données et, cerise sur le gâteau, une mise en perspective de la tendance vers des architectures de flux à l’occasion de la publication du livre blanc Digital Studies Vol.02 : La question du temps dans les architectures digitales.
Les données sont là, initialement éclatées dans différents silos applicatifs. Mais maintenant qu’elles commencent à alimenter un Data Lake sous Hadoop, que va-t-on en faire ? Comment les valoriser ? Comment créer de nouveaux services à valeur ajoutée ?
BNP Paribas était présent pour témoigner de sa démarche avec un retour sur la mise en œuvre de ces nouvelles architectures de données.
OCTO a présenté le retour d'expérience sur la mise en œuvre de ces nouvelles architectures de données, incluant les technologies Hadoop, Spark, Cassandra, Solr ainsi que des expérimentations sur le Machine Learning, tout en soulignant les méthodes de travail utilisées avec des équipes mixtes BNP Paribas / OCTO.
Ce petit-déjeuner a aussi été l’occasion de vous présenter et de vous remettre une version imprimée du livre blanc Digital Studies Vol.02, consacré aux questions d’architecture, notamment aux nouvelles architectures de flux.
5. ● Données comportementales de 400
millions de profils uniques (via SDK)
● Des milliers de campagnes
publicitaires internationales
● Publicité ciblée
● Évolution vers le programmatique
PLATEFORME DE DATA MOBILE
C’est quoi ?
8. SCHÉMA ORIGINAL DU POC
*
* Avec l’acceptation
explicite du mobinaute,
Guidelines Google et
Conforme avec les lois
Européennes
9. ● Croissance exponentielle du traffic
> Manque d’anticipation du succès
● Erreurs SDK Android (restarts, requêtes en double)
> SDK non-maîtrisé
● Temps de réponse trop longs (> 300 ms)
● Métriques BI de campagnes peu fiables
> On rate des impressions et des clicks
● Performances business pas bonnes
LES PROBLÈMES COMMENCENT
10. ÉTAPE 1
OPTIMISATION DE LA CHARGE: ASYNCHRONISME
• Traitement asynchrone de la Data (Kafka)
> Envoyer toutes les requêtes entrantes sur Kafka
> Favoriser les traitements en arrière plan
> Rejouer les requêtes entrantes en cas d’erreur
• Découpage du monolithe
> Consumers Kafka pour les traitements lourds en
asynchrone
• BONUS : Envoyer un paramétrage au SDK
> Maîtrise du comportement du SDK à distance
12. ÉTAPE 1
ASYNCHRONISME | QUELQUES CHIFFRES
• 1TB/jour de logs gzipé
• 60k messages/sec de logs kafka
• 1.5 milliards requetes HTTP par jour
• 12 * c3.2xlarge pour kafka (8 Cores / 15GB RAM)
• 5 * m3.large pour zookeeper (2 Cores / 7GB RAM)
• 30 topics kafka / 16 partitions / 24h rétention / Repl. Factor 3
13. ÉTAPE 2
OPTIMISATION DES MÉTRIQUES DU MÉTIER (BI)
• Introduction d’Elastic en remplacement de Couchbase
• Mise en place de Kafka Consumer pour calcul des métriques LIVE en arrière plan
• Stockage des métriques sur S3
• Chargement des métriques depuis S3 directement sur Elastic
17. ÉTAPE 2
OPTIMISATION DES MÉTRIQUES | QUELQUES CHIFFRES
• Pas de stockage de sources, on indexe juste
• 3 * t2.medium en mode Master (affectation de shard) (4GB RAM)
• 6 * m4.4xlarge en mode Data (indexation et search) (64GB RAM)
• 2 * t2.medium en mode Client (proxy-segmentation, agrégation des résultats et cache)
18. ÉTAPE 3
OPTIMISATION DES AD REQUESTS
• 1 AdRequest = 1000 campagnes eligibles à checker
• Pour chaque campagne:
> Checker Targeting, geoloc, cappings, black/whitelist de publisher, ...
> Checker la vitesse de délivrance de chaque campagne
> Prioritisation inter-campagne par rapport à la perf potentiel du user
> ...
SOLUTION
Pré Calcul de Segments en LIVE avec un minimum de campagnes éligibles
> Publisher/Heure/Pays/OSVersion/SDKVersion/Connectivité
19. Ad-Request
Capping des campagnes
Android version
SDK version
Localisation
Connectivité
Etc..
Checks
X
Nb de campagnes actives (>1000)
Complexité :
N * M
(M > 1000)
ÉTAPE 3
OPTIMISATION DES AD REQUESTS
20. Catégorisation des checks
User
Capping user Localisation
Android version
SDK version
Connectivité
Heure
Application
( + Capping campaign)
Context
ÉTAPE 3
OPTIMISATION DES AD REQUESTS
23. ÉTAPE 3
OPTIMISATION DES AD REQUESTS
• Optimisation du code Node.js
> Attention aux libs JS pour gérer des modèles
d’objets JSON, car elles clonent les objets JSON
> Faire en sorte que tout soit passé par référence
• Optimisation trafic réseau
> Migration des service internes en gRPC
25. ÉTAPE 4
OPTIMISATION DU TARGETING
• Cluster EMR pour le calcul du ciblage publicitaire
> La meilleure pub possible pour chaque mobinaute
• Procédures Hadoop pour traiter 1TB data journaliers
• Logs bruts en JSON, et beaucoup de doublons (premières versions SDK)
• Jobs coûteux car beaucoup de traitement de string
SOLUTION
Migration Parquet + Intégration d’Automates dans les jobs Hadoop MR
26. ÉTAPE 4
OPTIMISATION DU TARGETING
A L’ORIGINE
• Daily Cleansing: HIVE
> 300GB par jour (en 2015)
> 3h par jour
> 12 * c3.8xlarge (les plus chères à l’époque)
• Calcul du targeting User-Campaign: HADOOP MR
> String1 LIKE “%String%”
> 8h
> 12 * c3.8xlarge
30. Application A
Application B
Application C
Etc..
Evénements users
X
Nb de campagnes actives (>1000)
Complexité :
N * M
(N > 10 milliards & M > 100K)
Critère 1
Critère 2
Critère 3
Etc..
HADOOP Map Reduce
avec des AUTOMATES
32. Application A
Application B
Application C
Etc..
Evénements users
X
Automate
Complexité :
N * 1
(N > 10 milliards) Temps de réponse < 10 ns
HADOOP MAP REDUCE
AVEC DES AUTOMATES
33. ÉTAPE 4
OPTIMISATION DU TARGETING
AMELIORATIONS
• Daily Cleansing: HIVE
1TB par jour
1h par jour
• Calcul du targeting User-Campaign: HADOOP MR
Automate
20min
34. EN RÉSUMÉ
AVANT
MAINTENANT
• 400 Millions Profiles
• 1.5 Milliards Req/Jour
• Temps de réponse <35ms
• Calcul du Targeting: 1.5h
• 700 instances
• 22 noeuds Redshift
• 13 BD Postgres
• IT team > 40 devs
• 50k Profiles
• 200k Req/Jour
• Temps de réponse >300ms
• Calcul du Targeting: 10h
• IT team 2 devs
35. NOTRE RETOUR D’EXPERIENCE
- Intégrer Gatling dans les tests de la CI
- Découpé votre application par responsabilité
→ Simplification de la mise en place de l’asynchronisme ( → scalabilité)
Step 1 : OPTIMISATION DE LA CHARGE
Step 2 : OPTIMISATION DES MÉTRIQUES DU MÉTIER (BI)
- Conserver l’ensemble des events systèmes
- Réfléchissez bien aux besoins avant de choisir les outils.
- Tests intégrations et tests unitaires sont la clé d’une croissance d’un système contrôlée
36. NOTRE RETOUR D’EXPERIENCE
- Remettre en question constamment votre code
- Mesurer, sonder votre code / Mettre en place des APIs techniques → Alerte
- Catégoriser les traitements : maintenant VS plus tard
- Ne pas croire que les libs sont parfaites → Contribuer et faite de PR :)
Step 3 : OPTIMISATION DES AD REQUESTS
Step 4 : OPTIMISATION DU TARGETING
- HIVE archaïque, mais toujours le meilleur choix pour transformer de données
- N’hésitez pas à charger des automates dans du Map Reduce