Lors de cette session vous sera présenté le business case et son contexte d'entreprise, avant de rentrer plus en détail dans la démarche suivie en phase de PoC, puis construction de la plateforme cible, en termes de :
• Infrastructure en mode Cloud
• Stack logicielle
• Architecture applicative
• Flux de données
• Dimensions, mesures et performances
Pour finir avec quelques conseils et leçons apprises du projet.
[USI] Lambda-Architecture : comment réconcilier BigData et temps-réelMathieu DESPRIEE
Comment intégrer le big-data et le temps-réel au sein d'une même architecture sans qu'elle ne se transforme en un monstre de Frankeinstein, trop complexe et trop coûteuse à maintenir ?
La « Lambda architecture » nous propose une approche simple et élégante : stocker et traiter de larges volumes de données, en intégrant dans la seconde les données les plus récentes, le tout en préservant scalabilité et tolérance aux pannes.
[conférence présentée à l'USI 2014 : https://www.youtube.com/watch?v=tw3X7eMOVEM]
Big Data: Hadoop Map / Reduce sur Windows et Windows AzureMicrosoft
L'algorithme Map/Reduce et sa mise en oeuvre avec Apache Hadoop permettent de gérer de très grands volumes de données non structurées. Microsoft adopte Haddop sur Windows et Windows Azure. Venez voir comment.
Révélée au grand public en avril 2016, l'affaire des Panama Papers, mettant en évidence un dispositif de sociétés offshore, se distingue à plus d'un titre, que ce soit sur le plan de ses répercutions, que sur ce qui a permis de la faire émerger : la fuite de données massives, impliquant de relever de nouveaux défis en termes de journalisme de données.
Après un rappel de l'affaire, les éléments seront détaillés, du point de vue de la donnée.
S'en suivra une présentation des diverses méthodes et technologies employées, sur la base d'exemples concrets, ainsi que des modes d'investigation et d'organisation mis en oeuvre dans cette enquête de data-journalisme sans précédent.
Cet exposé, orienté technologie mais sans être trop technique, s'adresse aussi bien aux journalistes et journalistes de données qu'aux personnes intéressées par le traitement des données en général.
Avec Enterprise Cloud Databases, découvrez un service dédié, entièrement géré et surveillé, basé sur le système de gestion de bases de données relationnelle PostgreSQL, qui garantit une haute disponibilité pour vos charges de travail les plus critiques.
[USI] Lambda-Architecture : comment réconcilier BigData et temps-réelMathieu DESPRIEE
Comment intégrer le big-data et le temps-réel au sein d'une même architecture sans qu'elle ne se transforme en un monstre de Frankeinstein, trop complexe et trop coûteuse à maintenir ?
La « Lambda architecture » nous propose une approche simple et élégante : stocker et traiter de larges volumes de données, en intégrant dans la seconde les données les plus récentes, le tout en préservant scalabilité et tolérance aux pannes.
[conférence présentée à l'USI 2014 : https://www.youtube.com/watch?v=tw3X7eMOVEM]
Big Data: Hadoop Map / Reduce sur Windows et Windows AzureMicrosoft
L'algorithme Map/Reduce et sa mise en oeuvre avec Apache Hadoop permettent de gérer de très grands volumes de données non structurées. Microsoft adopte Haddop sur Windows et Windows Azure. Venez voir comment.
Révélée au grand public en avril 2016, l'affaire des Panama Papers, mettant en évidence un dispositif de sociétés offshore, se distingue à plus d'un titre, que ce soit sur le plan de ses répercutions, que sur ce qui a permis de la faire émerger : la fuite de données massives, impliquant de relever de nouveaux défis en termes de journalisme de données.
Après un rappel de l'affaire, les éléments seront détaillés, du point de vue de la donnée.
S'en suivra une présentation des diverses méthodes et technologies employées, sur la base d'exemples concrets, ainsi que des modes d'investigation et d'organisation mis en oeuvre dans cette enquête de data-journalisme sans précédent.
Cet exposé, orienté technologie mais sans être trop technique, s'adresse aussi bien aux journalistes et journalistes de données qu'aux personnes intéressées par le traitement des données en général.
Avec Enterprise Cloud Databases, découvrez un service dédié, entièrement géré et surveillé, basé sur le système de gestion de bases de données relationnelle PostgreSQL, qui garantit une haute disponibilité pour vos charges de travail les plus critiques.
Cassandra and Spark: Optimizing for Data Locality-(Russell Spitzer, DataStax)Spark Summit
This document discusses how the Spark Cassandra Connector optimizes for data locality when performing analytics on Cassandra data using Spark. It does this by using the partition keys and token ranges to create Spark partitions that correspond to the data distribution across the Cassandra nodes, allowing work to be done locally to each data node without moving data across the network. This improves performance and avoids the costs of data shuffling.
Gratis-Webinar Schreiben für das Internet - Eduvision AusbildungenEduvision Ausbildungen
Im 1-stündigen Webinar (online-seminar) "Schreiben für das Internet" erfahren Sie vom Experten worauf Sie achten sollten, wenn Sie Texte fürs Internet verfassen. Wir gehen von der Zielgruppe aus und erarbeitet darauf zugespitzte Online-Texte. Dabei gehen wir auch auf den Aspekt der Suchmaschinenoptimierung mittels Textformulierung ein.
Nehmen Sie am Webinar teil und lassen Sie Ihre Website live checken. Alle Infos zum Webinar finden Sie unter: http://eduvision.de/webinars
Este documento describe cómo usar MATLAB para representar señales de voz en el dominio del tiempo y la frecuencia. Se leerán archivos de audio en formato .wav usando el comando wavread en MATLAB y se representarán las formas de onda y el espectro usando el comando plot. Se grabarán archivos de voz y música en formato .wav para su análisis.
El documento describe un programa de formación y vinculación laboral para jóvenes en Quito, Ecuador. Las metas del programa son formar a 1,000 jóvenes, vincular laboralmente a 350 jóvenes, y obtener el apoyo de 700 empresas. El programa será implementado a través de una oficina de intermediación laboral que ofrecerá capacitación, asesoría en búsqueda de empleo, y contactos con empresas.
El cerdo Antonio era amigo del perro Pedro a pesar de que los demás animales de la granja criticaban las diferencias de Pedro. Antonio enseñó a los otros animales a aceptar a Pedro, ayudándolo a hablar mejor y explicando que sus ojos y patas pequeñas eran únicos pero no un defecto. Gracias a los esfuerzos de Antonio, Pedro fue aceptado por los demás animales de la granja.
Este documento describe una práctica realizada con sensores LM35, PIC16F877A y LCD. El objetivo era mostrar el promedio de temperatura de 3 sensores LM35 en un LCD. Se explican las características y funcionamiento de los componentes utilizados y se muestra el código para la adquisición de datos, cálculo del promedio y visualización en el LCD.
Este documento es el periódico mensual de octubre de la Escuela Rural Cumbre del Barro. Contiene información sobre las actividades del mes, incluyendo cómo los estudiantes están aprendiendo a saludarse en inglés y en la lengua mapuche, agradecimientos a las personas que respondieron al periódico anterior, detalles sobre cómo postular al programa "Yo Elijo Mi PC", y resúmenes de las visitas del psicólogo a la escuela y el balance financiero del año hasta octubre.
Este documento analiza la balanza de pagos de Ecuador para explorar el estado de su economía en relación con las transacciones entre residentes de Ecuador y extranjeros. La cuenta corriente integra las entradas y salidas de recursos relacionados con bienes, servicios, renta y transferencias corrientes. La balanza comercial (bienes) representa el 80% de los ingresos de cuenta corriente y el 77% de los egresos. El documento también analiza las balanzas comerciales petrolera y no petrolera, así como las balanzas por sectores e ind
Evaluación de habilidades de lenguaje y comunicacion 6º añomanueloyarzun
Este documento presenta un resumen de evaluación de habilidades de lenguaje y comunicación para un alumno de sexto año básico. Incluye una historia sobre cómo los pájaros carpinteros y otros animales del bosque se unieron para defender su hogar de los hombres que querían talar todos los árboles, amenazando su hábitat. Los loros, conocidos por su gran organización, ayudaron a planear una estrategia para asustar a los hombres y hacerlos irse del bosque para siempre.
El documento habla sobre varios pasajes bíblicos que muestran a Dios como sanador. Estos pasajes incluyen a Dios prometiendo sanar a los israelitas si obedecen sus mandamientos, Jesús sanando a los enfermos para cumplir las profecías, y los seguidores de Cristo recibiendo el don de sanidad del Espíritu Santo. El documento también menciona que creyendo en Cristo y orando por los enfermos con fe, ellos serán sanados.
Una gallina sabia crio cinco pollitos robustos y les dio consejos diarios que los acompañarían de por vida, como cuidarse de las aves de rapiña, no sentirse inferiores, respetar a los viejos y evitar la glotonería. Cuatro pollitos vivieron juntos por años, mientras que el gallo fue sacrificado por su agresividad y canto desafinado nocturno que no dejaba dormir a los vecinos.
Este documento presenta 50 cuentos escritos por un niño de 9 años para su escuela. En la introducción, el niño se presenta y explica que escribe cuentos todos los años para que su profesor los revise y corrija su ortografía. Luego incluye un índice con los títulos de los 50 cuentos. Cada cuento ocupa aproximadamente una página y presenta historias sobre animales, objetos, vehículos y personas.
La señora Josefina tenía varias aves como gallinas, patos y pavos. Un día, cuando fue a visitar a su madre, el perro del vecino se escapó y se comió todas sus aves, dejando solo una gallina y un pato. Aunque la señora no se enojó, nadie le creyó que fue el perro. Entonces compró más gallinas y pavos para reemplazar las que perdió, vendió su único pato restante, y ahora tiene todo de vuelta, excepto los patos.
El documento describe la importancia de la primera infancia y las acciones necesarias para garantizar su desarrollo integral. Explica que durante los primeros años se producen cambios fundamentales en el desarrollo físico, cognitivo y emocional de los niños. También destaca la importancia de invertir recursos en esta etapa para reducir desigualdades y promover el bienestar social. Finalmente, señala que el plan de Bogotá Humana tiene como prioridad la atención integral a la primera infancia, enmarcada en convenciones internacionales sobre los derech
Core Web Vitals, les indicateurs de vitesse qui réconcilient UX et SEOWeLoveSEO
Largest Contentful Paint (LCP), First Input Delay (FID) et Cumulative Layout Shift (CLS) : ce sont les 3 nouveaux indicateurs que Google a annoncé vouloir prendre en compte dès 2021 pour le ranking. Vous en avez sans doute pas mal entendu parler ces dernières semaines non ?
L'objectif derrière cette mise à jour : mesurer la performance et l'expérience utilisateur pour en faire des critères #SEO. Ce qui en soit est une bonne chose !
Mais c'est sujet à débat : est-ce une révolution SEO ou au contraire, une modification minime de l’algorithme ? Que signifient réellement ces KPI, comment les mesurer et comment les améliorer ?
Cassandra s'impose chez Chronopost comme base NoSQL de choix pour remplacer les RDBMS traditionnels.
Pourquoi choisir Cassandra dans la jungle du Big Data, pour quels usages et quels gains en tirer.
Paris monitoring - 27012016 - Smart Monitoring chez OxalideSébastien Lucas
« Évolution du monitoring chez Oxalide de 2005 à aujourd’hui et les projets d’évolutions pour répondre aux nouveaux besoins des plateformes comme les cloud public. »
Oxalide MorningTech #1 - BigData
1er MorningTech @Oxalide, animé par Ludovic Piot (@lpiot), le 15 décembre 2016.
Pour cette 1ère édition du Morning Tech nous vous proposons une overview sur un des thèmes du moment : le Big Data.
Au delà de ce buzz word nous aborderons :
Les grands concepts
Les étapes clés des projets Big Data et les technologies à utiliser (stockage, ingestion, …)
Les enjeux des architectures Big Data (architecture lambda, …)
L'intelligence artificielle (machine learning, deep learning, …)
Et nous finirons par un cas d'usage du big data sur AWS autour de l'utilisation des données gyroscopiques de vos internautes mobiles
Subject: Oxalide's 1st MorningTech talk about BigData.
Date: 15-dec-2016
Speakers: Ludovic Piot (@lpiot, @oxalide)
Language: french
Lien SpeakerDeck : https://speakerdeck.com/lpiot/oxalide-morningtech-number-1-bigdata
Lien SlideShare : https://www.slideshare.net/LudovicPiot/oxalide-morningtech-1-bigdata
YouTube Video capture: https://youtu.be/7O85lRzvMY0
Main topics:
* Les grands enjeux du BigData
** les 3 V du Gartner : volume, variété, vélocité
* Le stockage des données
** datalake
** les technos
* L'ingestion des données
** ETL
** datastream
** les technos
* Les enjeux du compute
** map-reduce
** spark
** lambda architecture
* Démo d'une plateforme BigData sur AWS
* L'intelligence artificielle
** datascience exploratoire et notebooks,
** machine learning,
** deep learning,
** data pipeline
** les technos
* Pour aller plus loin
** La gouvernance des données
** La dataviz
Cassandra and Spark: Optimizing for Data Locality-(Russell Spitzer, DataStax)Spark Summit
This document discusses how the Spark Cassandra Connector optimizes for data locality when performing analytics on Cassandra data using Spark. It does this by using the partition keys and token ranges to create Spark partitions that correspond to the data distribution across the Cassandra nodes, allowing work to be done locally to each data node without moving data across the network. This improves performance and avoids the costs of data shuffling.
Gratis-Webinar Schreiben für das Internet - Eduvision AusbildungenEduvision Ausbildungen
Im 1-stündigen Webinar (online-seminar) "Schreiben für das Internet" erfahren Sie vom Experten worauf Sie achten sollten, wenn Sie Texte fürs Internet verfassen. Wir gehen von der Zielgruppe aus und erarbeitet darauf zugespitzte Online-Texte. Dabei gehen wir auch auf den Aspekt der Suchmaschinenoptimierung mittels Textformulierung ein.
Nehmen Sie am Webinar teil und lassen Sie Ihre Website live checken. Alle Infos zum Webinar finden Sie unter: http://eduvision.de/webinars
Este documento describe cómo usar MATLAB para representar señales de voz en el dominio del tiempo y la frecuencia. Se leerán archivos de audio en formato .wav usando el comando wavread en MATLAB y se representarán las formas de onda y el espectro usando el comando plot. Se grabarán archivos de voz y música en formato .wav para su análisis.
El documento describe un programa de formación y vinculación laboral para jóvenes en Quito, Ecuador. Las metas del programa son formar a 1,000 jóvenes, vincular laboralmente a 350 jóvenes, y obtener el apoyo de 700 empresas. El programa será implementado a través de una oficina de intermediación laboral que ofrecerá capacitación, asesoría en búsqueda de empleo, y contactos con empresas.
El cerdo Antonio era amigo del perro Pedro a pesar de que los demás animales de la granja criticaban las diferencias de Pedro. Antonio enseñó a los otros animales a aceptar a Pedro, ayudándolo a hablar mejor y explicando que sus ojos y patas pequeñas eran únicos pero no un defecto. Gracias a los esfuerzos de Antonio, Pedro fue aceptado por los demás animales de la granja.
Este documento describe una práctica realizada con sensores LM35, PIC16F877A y LCD. El objetivo era mostrar el promedio de temperatura de 3 sensores LM35 en un LCD. Se explican las características y funcionamiento de los componentes utilizados y se muestra el código para la adquisición de datos, cálculo del promedio y visualización en el LCD.
Este documento es el periódico mensual de octubre de la Escuela Rural Cumbre del Barro. Contiene información sobre las actividades del mes, incluyendo cómo los estudiantes están aprendiendo a saludarse en inglés y en la lengua mapuche, agradecimientos a las personas que respondieron al periódico anterior, detalles sobre cómo postular al programa "Yo Elijo Mi PC", y resúmenes de las visitas del psicólogo a la escuela y el balance financiero del año hasta octubre.
Este documento analiza la balanza de pagos de Ecuador para explorar el estado de su economía en relación con las transacciones entre residentes de Ecuador y extranjeros. La cuenta corriente integra las entradas y salidas de recursos relacionados con bienes, servicios, renta y transferencias corrientes. La balanza comercial (bienes) representa el 80% de los ingresos de cuenta corriente y el 77% de los egresos. El documento también analiza las balanzas comerciales petrolera y no petrolera, así como las balanzas por sectores e ind
Evaluación de habilidades de lenguaje y comunicacion 6º añomanueloyarzun
Este documento presenta un resumen de evaluación de habilidades de lenguaje y comunicación para un alumno de sexto año básico. Incluye una historia sobre cómo los pájaros carpinteros y otros animales del bosque se unieron para defender su hogar de los hombres que querían talar todos los árboles, amenazando su hábitat. Los loros, conocidos por su gran organización, ayudaron a planear una estrategia para asustar a los hombres y hacerlos irse del bosque para siempre.
El documento habla sobre varios pasajes bíblicos que muestran a Dios como sanador. Estos pasajes incluyen a Dios prometiendo sanar a los israelitas si obedecen sus mandamientos, Jesús sanando a los enfermos para cumplir las profecías, y los seguidores de Cristo recibiendo el don de sanidad del Espíritu Santo. El documento también menciona que creyendo en Cristo y orando por los enfermos con fe, ellos serán sanados.
Una gallina sabia crio cinco pollitos robustos y les dio consejos diarios que los acompañarían de por vida, como cuidarse de las aves de rapiña, no sentirse inferiores, respetar a los viejos y evitar la glotonería. Cuatro pollitos vivieron juntos por años, mientras que el gallo fue sacrificado por su agresividad y canto desafinado nocturno que no dejaba dormir a los vecinos.
Este documento presenta 50 cuentos escritos por un niño de 9 años para su escuela. En la introducción, el niño se presenta y explica que escribe cuentos todos los años para que su profesor los revise y corrija su ortografía. Luego incluye un índice con los títulos de los 50 cuentos. Cada cuento ocupa aproximadamente una página y presenta historias sobre animales, objetos, vehículos y personas.
La señora Josefina tenía varias aves como gallinas, patos y pavos. Un día, cuando fue a visitar a su madre, el perro del vecino se escapó y se comió todas sus aves, dejando solo una gallina y un pato. Aunque la señora no se enojó, nadie le creyó que fue el perro. Entonces compró más gallinas y pavos para reemplazar las que perdió, vendió su único pato restante, y ahora tiene todo de vuelta, excepto los patos.
El documento describe la importancia de la primera infancia y las acciones necesarias para garantizar su desarrollo integral. Explica que durante los primeros años se producen cambios fundamentales en el desarrollo físico, cognitivo y emocional de los niños. También destaca la importancia de invertir recursos en esta etapa para reducir desigualdades y promover el bienestar social. Finalmente, señala que el plan de Bogotá Humana tiene como prioridad la atención integral a la primera infancia, enmarcada en convenciones internacionales sobre los derech
Core Web Vitals, les indicateurs de vitesse qui réconcilient UX et SEOWeLoveSEO
Largest Contentful Paint (LCP), First Input Delay (FID) et Cumulative Layout Shift (CLS) : ce sont les 3 nouveaux indicateurs que Google a annoncé vouloir prendre en compte dès 2021 pour le ranking. Vous en avez sans doute pas mal entendu parler ces dernières semaines non ?
L'objectif derrière cette mise à jour : mesurer la performance et l'expérience utilisateur pour en faire des critères #SEO. Ce qui en soit est une bonne chose !
Mais c'est sujet à débat : est-ce une révolution SEO ou au contraire, une modification minime de l’algorithme ? Que signifient réellement ces KPI, comment les mesurer et comment les améliorer ?
Cassandra s'impose chez Chronopost comme base NoSQL de choix pour remplacer les RDBMS traditionnels.
Pourquoi choisir Cassandra dans la jungle du Big Data, pour quels usages et quels gains en tirer.
Paris monitoring - 27012016 - Smart Monitoring chez OxalideSébastien Lucas
« Évolution du monitoring chez Oxalide de 2005 à aujourd’hui et les projets d’évolutions pour répondre aux nouveaux besoins des plateformes comme les cloud public. »
Oxalide MorningTech #1 - BigData
1er MorningTech @Oxalide, animé par Ludovic Piot (@lpiot), le 15 décembre 2016.
Pour cette 1ère édition du Morning Tech nous vous proposons une overview sur un des thèmes du moment : le Big Data.
Au delà de ce buzz word nous aborderons :
Les grands concepts
Les étapes clés des projets Big Data et les technologies à utiliser (stockage, ingestion, …)
Les enjeux des architectures Big Data (architecture lambda, …)
L'intelligence artificielle (machine learning, deep learning, …)
Et nous finirons par un cas d'usage du big data sur AWS autour de l'utilisation des données gyroscopiques de vos internautes mobiles
Subject: Oxalide's 1st MorningTech talk about BigData.
Date: 15-dec-2016
Speakers: Ludovic Piot (@lpiot, @oxalide)
Language: french
Lien SpeakerDeck : https://speakerdeck.com/lpiot/oxalide-morningtech-number-1-bigdata
Lien SlideShare : https://www.slideshare.net/LudovicPiot/oxalide-morningtech-1-bigdata
YouTube Video capture: https://youtu.be/7O85lRzvMY0
Main topics:
* Les grands enjeux du BigData
** les 3 V du Gartner : volume, variété, vélocité
* Le stockage des données
** datalake
** les technos
* L'ingestion des données
** ETL
** datastream
** les technos
* Les enjeux du compute
** map-reduce
** spark
** lambda architecture
* Démo d'une plateforme BigData sur AWS
* L'intelligence artificielle
** datascience exploratoire et notebooks,
** machine learning,
** deep learning,
** data pipeline
** les technos
* Pour aller plus loin
** La gouvernance des données
** La dataviz
Big Data : au delà du proof of concept et de l'expérimentation (Matinale busi...Jean-Michel Franco
Concrétiser les promesses du Big Data avec Hadoop, le Self-Service, les data lakes et le machine learning. Quels cas d'usage, quels retours d'expérience, quelle plate-forme?
3 Microsoft Advanced Threat Analytics - GenèveaOS Community
Session qui va décrire et présenter la technologie Azure Site Recovery. Ce service dans Azure propose un PRA pour les systèmes d'informations avec comme source plusieurs technologies ( Hyper-V , VMware) cette session va présenter ASR dans les moindres détails en passant par la phase design , déploiement et administration.
Pour qu’elles se déclinent en action à la vitesse de votre business, vos décisions doivent être désormais prises sur le terrain, sans délai de latence. Cela nécessite de repenser vos architectures décisionnelles tant en amont, pour collecter, contrôler et unifier l’information en temps réel, qu’en aval, afin d’intégrer l’analytique dans vos applications transactionnelles et digitales. Découvrez comment les technologies de Talend vous permettent d’y parvenir simplement en s’appuyant sur des technologies Big Data les plus avancées telles que Hadoop, Spark, Storm, ou le machine learning.
Volcamp 2023 - Compter les moutons à grande échelleKarim Bogtob
Datadog permet de créer des métriques automatiques à partir d’événements d’observabilité front-end (Real User Monitoring). Par exemple, compter les sessions utilisateurs qui passent par la page d’un produit puis qui finissent par l’acheter après avoir vu les avis.
Dans ce talk, nous allons voir comment le backend du produit RUM fait pour compter des documents qui évoluent dans le temps, tout en supportant une volumétrie à l’échelle de 100% du trafic de nos clients.
On parlera donc de flot d’ingestion basé Kafka, de dé-duplication d’événements et d’agrégation de métriques à grande échelle via des structures de données probabilistes ou approximatives, et comment le backend RUM associe toutes ces techniques pour offrir une solution flexible et hautement scalable.
Monitoring applicatif : Pourquoi et comment ?Kenny Dits
Vous êtes développeur, chef de projet technique ou même responsable et vous souhaitez avoir de la visibilité sur le fonctionnement de vos applicatifs, ou sur la plateforme sur laquelle ils sont hébergés ?
Nous étudierons comment, grâce à des outils simples (StatD / Graphite / Log BDD) et nos expériences chez M6Web, mettre en place un monitoring applicatif ultra complet.
Ce monitoring vous permettra de retrouver la vue sur vos projets, pour mieux anticiper la charge, detecter la root cause en cas d'incident et connaitre l'état de chacun de vos services ...
Le Big Data en temps réel n’est plus seulement réservée projets à gros budget. En s'appuyant sur Apache Spark, Talend 6 permet aux entreprises de toute taille et de tout secteur d’activité de convertir des Big Data et données issues de l’Internet des Objets en connaissances exploitables immédiatement.
Les exemples d’utilisation d’analytique en temps réel tels que les recommandations personnalisées, la détection des fraudes, les soins préventifs et la tarification prédictive représentent seulement un échantillon des possibilités qui s’offrent aux entreprises ayant accès en temps réel aux informations métier. Cette présentation permet de découvrir les nouvelles capacité de Talend 6 dans ce domaine et aussi de manière plus générale, et aussi comment :
- révéler les données utiles concernant vos produits, clients, et opérations ;
- passer sans efforts au traitement Big Data temps réel et aux applications pour données décisionnelles ;
- capturer et traiter des données issues de l’Internet des Objets facilement pour délivrer des insights rapidement ;
- fournir des données plus sécurisées et fiables grâce à la qualité de données.
Big Data effet de mode ou vrai utilité? On entend de plus en plus parler de Big Data, qui devrai bouleverser notre vie de tous les jours. On génere, avec internet, de plus en plus de quantités extraordinaires de données, qu'en fait-on? Forbes le classe parmi les 10 "technologies" qui devront marquer 2014! Mais qu'est-ce que c'est? Comment le mettre en oeuvre?
Comment Rue Du Commerce est devenu le site e-commerce le plus rapide de France ?Fasterize
A l’ère du mobile-first, les utilisateurs s’attendent à naviguer et acheter de façon fluide n’importe où et n’importe quand. Le temps de chargement est donc devenu LE critère le plus important pour les utilisateurs et cette exigence se reflète dans vos taux de conversion mobile.
Depuis plus d'un an, RueDuCommerce est classé par le JDN comme le site mobile e-commerce le plus rapide de France. Comment les équipes de Rue Du Commerce ont-elles relevé ce défi ? Comment a-t-on mesuré les améliorations sur l’expérience utilisateur ? Quels sont les bénéfices sur les utilisateurs et sur le business ?
Stéphane Rios, CEO de Fasterize et Aniss Boumrigua, Responsable du site RueDuCommerce.fr, vous partagent leurs expériences et leurs bonnes pratiques.
Similaire à REX Cassandra et Spark au service de la musique en ligne (Français) (20)
Forrester CXNYC 2017 - Delivering great real-time cx is a true craftDataStax Academy
Companies today are innovating with real-time data to deliver truly amazing customer experiences in the moment. Real-time data management for real-time customer experience is core to staying ahead of competition and driving revenue growth. Join Trays to learn how Comcast is differentiating itself from it's own historical reputation with Customer Experience strategies.
Introduction to DataStax Enterprise Graph DatabaseDataStax Academy
DataStax Enterprise (DSE) Graph is a built to manage, analyze, and search highly connected data. DSE Graph, built on NoSQL Apache Cassandra delivers continuous uptime along with predictable performance and scales for modern systems dealing with complex and constantly changing data.
Download DataStax Enterprise: Academy.DataStax.com/Download
Start free training for DataStax Enterprise Graph: Academy.DataStax.com/courses/ds332-datastax-enterprise-graph
Introduction to DataStax Enterprise Advanced Replication with Apache CassandraDataStax Academy
DataStax Enterprise Advanced Replication supports one-way distributed data replication from remote database clusters that might experience periods of network or internet downtime. Benefiting use cases that require a 'hub and spoke' architecture.
Learn more at http://www.datastax.com/2016/07/stay-100-connected-with-dse-advanced-replication
Advanced Replication docs – https://docs.datastax.com/en/latest-dse/datastax_enterprise/advRep/advRepTOC.html
This document discusses using Docker containers to run Cassandra clusters at Walmart. It proposes transforming existing Cassandra hardware into containers to better utilize unused compute. It also suggests building new Cassandra clusters in containers and migrating old clusters to double capacity on existing hardware and save costs. Benchmark results show Docker containers outperforming virtual machines on OpenStack and Azure in terms of reads, writes, throughput and latency for an in-house application.
The document discusses the evolution of Cassandra's data modeling capabilities over different versions of CQL. It covers features introduced in each version such as user defined types, functions, aggregates, materialized views, and storage attached secondary indexes (SASI). It provides examples of how to create user defined types, functions, materialized views, and SASI indexes in CQL. It also discusses when each feature should and should not be used.
Cisco has a large global IT infrastructure supporting many applications, databases, and employees. The document discusses Cisco's existing customer service and commerce systems (CSCC/SMS3) and some of the performance, scalability, and user experience issues. It then presents a proposed new architecture using modern technologies like Elasticsearch, Cassandra, and microservices to address these issues and improve agility, performance, scalability, uptime, and the user interface.
Data Modeling is the one of the first things to sink your teeth into when trying out a new database. That's why we are going to cover this foundational topic in enough detail for you to get dangerous. Data Modeling for relational databases is more than a touch different than the way it's approached with Cassandra. We will address the quintessential query-driven methodology through a couple of different use cases, including working with time series data for IoT. We will also demo a new tool to get you bootstrapped quickly with MovieLens sample data. This talk should give you the basics you need to get serious with Apache Cassandra.
Hear about how Coursera uses Cassandra as the core of its scalable online education platform. I'll discuss the strengths of Cassandra that we leverage, as well as some limitations that you might run into as well in practice.
In the second part of this talk, we'll dive into how best to effectively use the Datastax Java drivers. We'll dig into how the driver is architected, and use this understanding to develop best practices to follow. I'll also share a couple of interesting bug we've run into at Coursera.
This document promotes Datastax Academy and Certification resources for learning Cassandra including a three step process of learning Cassandra, getting certified, and profiting. It lists community evangelists like Luke Tillman, Patrick McFadin, Jon Haddad, and Duy Hai Doan who can provide help and resources.
Cassandra @ Netflix: Monitoring C* at Scale, Gossip and Tickler & PythonDataStax Academy
This document summarizes three presentations from a Cassandra Meetup:
1. Jason Cacciatore discussed monitoring Cassandra health at scale across hundreds of clusters and thousands of nodes using the reactive stream processing system Mantis.
2. Minh Do explained how Cassandra uses the gossip protocol for tasks like discovering cluster topology and sharing load information. Gossip also has limitations and race conditions that can cause problems.
3. Chris Kalantzis presented Cassandra Tickler, an open source tool he created to help repair operations that get stuck by running lightweight consistency checks on an old Cassandra version or a node with space issues.
Cassandra @ Sony: The good, the bad, and the ugly part 1DataStax Academy
This talk covers scaling Cassandra to a fast growing user base. Alex and Isaias will cover new best practices and how to work with the strengths and weaknesses of Cassandra at large scale. They will discuss how to adapt to bottlenecks while providing a rich feature set to the playstation community.
Cassandra @ Sony: The good, the bad, and the ugly part 2DataStax Academy
The document discusses Cassandra's use by Sony Network Entertainment to handle the large amount of user and transaction data from the growing PlayStation Network. It describes how the relational database they previously used did not scale sufficiently, so they transitioned to using Cassandra in a denormalized and customized way. Some of the techniques discussed include caching user data locally on application servers, secondary indexing, and using a real-time indexer to enable personalized search by friends.
This document provides guidance on setting up server monitoring, application metrics, log aggregation, time synchronization, replication strategies, and garbage collection for a Cassandra cluster. Key recommendations include:
1. Use monitoring tools like Monit, Munin, Nagios, or OpsCenter to monitor processes, disk usage, and system performance. Aggregate all logs centrally with tools like Splunk, Logstash, or Greylog.
2. Install NTP to synchronize server times which are critical for consistency.
3. Use the NetworkTopologyStrategy replication strategy and avoid SimpleStrategy for production.
4. Avoid shared storage and focus on low latency and high throughput using multiple local disks.
5. Understand
This document discusses real time analytics using Spark and Spark Streaming. It provides an introduction to Spark and highlights limitations of Hadoop for real-time analytics. It then describes Spark's advantages like in-memory processing and rich APIs. The document discusses Spark Streaming and the Spark Cassandra Connector. It also introduces DataStax Enterprise which integrates Spark, Cassandra and Solr to allow real-time analytics without separate clusters. Examples of streaming use cases and demos are provided.
Introduction to Data Modeling with Apache CassandraDataStax Academy
This document provides an introduction to data modeling with Apache Cassandra. It discusses how Cassandra data models are designed based on the queries an application will perform, unlike relational databases which are designed based on normalization rules. Key aspects covered include avoiding joins by denormalizing data, using a partition key to group related data on nodes, and controlling the clustering order of columns. The document provides examples of modeling time series and tag data in Cassandra.
The document discusses different data storage options for small, medium, and large datasets. It argues that relational databases do not scale well for large datasets due to limitations with replication, normalization, sharding, and high availability. The document then introduces Apache Cassandra as a fast, distributed, highly available, and linearly scalable database that addresses these limitations through its use of a hash ring architecture and tunable consistency levels. It describes Cassandra's key features including replication, compaction, and multi-datacenter support.
Enabling Search in your Cassandra Application with DataStax EnterpriseDataStax Academy
This document provides an overview of using Datastax Enterprise (DSE) Search to enable full-text search capabilities in Cassandra applications. It discusses how DSE Search integrates Solr/Lucene indexing with the Cassandra database to allow searching of application data without requiring a separate search cluster, external ETL processes, or custom application code for data management. The document also includes examples of different types of searches that can be performed, such as filtering, faceting, geospatial searches, and joins. It concludes with basic steps for getting started with DSE Search such as creating a Solr core and executing search queries using CQL.
The document discusses common bad habits that can occur when working with Apache Cassandra and provides recommendations to avoid them. Specifically, it addresses issues like sliding back into a relational mindset when the data model is different, improperly benchmarking Cassandra systems, having slow client performance, and neglecting important operations tasks. The presentation provides guidance on how to approach data modeling, querying, benchmarking, driver usage, and operations management in a Cassandra-oriented way.
This document provides an overview and examples of modeling data in Apache Cassandra. It begins with an introduction to thinking about data models and queries before modeling, and emphasizes that Cassandra requires modeling around queries due to its limitations on joins and indexes. The document then provides examples of modeling user, video, and other entity data for a video sharing application to support common queries. It also discusses techniques for handling queries that could become hotspots, such as bucketing or adding random values. The examples illustrate best practices for data duplication, materialized views, and time series data storage in Cassandra.
The document discusses best practices for using Apache Cassandra, including:
- Topology considerations like replication strategies and snitches
- Booting new datacenters and replacing nodes
- Security techniques like authentication, authorization, and SSL encryption
- Using prepared statements for efficiency
- Asynchronous execution for request pipelining
- Batch statements and their appropriate uses
- Improving performance through techniques like the new row cache
REX Cassandra et Spark au service de la musique en ligne (Français)
1. Cassandra et Spark
pour gérer la musique On-line
16 Juin 2015 @ Paris
Hammed RAMDANI
Architecte SI 3.0 et BigData
mramdani@palo-it.com
+33 6 80 22 20 70
2. 2
Appelez-moi Hammed ;-)
(Sidi Mo)Hammed Ramdani
@smramdani
mramdani@palo-it.com
• Consultant chez
• Architecte SI 3.0 et BigData
• Trained Pig & Hive developer
• Coach Agile
• Innovation Games trained facilitator
• Speaker
3. 3
Dream BIG and make IT happen !
PALO IT est un cabinet de conseil en stratégie d’innovation et
réalisation numérique. Notre approche :
Insuffler un esprit de Start-up;
Identifier les technologies et les usages créateurs de nouveaux business
models;
Accélérer votre Go-To-Market par l’adoption d’une organisation Lean &
Agile.
Créée en 2009, PALO IT regroupe une communauté de 160
talents de plus de 20 nationalités, passionnés par l’Agilité et
l’Open Source.
PALO IT est une société apprenante et audacieuse qui se
distingue par sa forte culture Projet. L’esprit entrepreneurial, le
fun, le partage de connaissances, le sens client et la simplicité
constituent ses valeurs centrales.
4. 4
PALO IT en quelques chiffres
160
collaborateurs
40
grands comptes
+50%
croissance organique/an
5
bureaux
10. 10
Données du On-line traitées
> 3000
déclarations
> 1milliard
de titres
> 4milliard
de titres
> 150 milliard
de streamings
11. 11
Pas seulement le On-line !
…
Client
Collecte des
droits musicaux
Redistribution
DSP
« Digital Service Providers »
Créateurs et
ayants droits
Média et supports
traditionnels
12. 12
Règles des 95 / 5
Client
Collecte des
droits musicaux
Redistribution
On-line
Créateurs et
ayants droits
Non On-line
< 5% des droits
> 95% des
droits
< 5% des volumes
> 95% des
volumes
13. 13
Marché en évolution
Client
Collecte des
droits musicaux
Redistribution
On-line
Créateurs et
ayants droits
Non On-line
< 5% des droits
> 95% des
droits
< 5% des volumes
> 95% des
volumes
16. 16
System d’information actuel
Non On-line
Créateurs et
ayants droits
On-line
SI du Client
Analyse
et filtrage
Ident auto Calcul des
barèmes
tarifaires
Ident manu
Doc. des
ouvres
Calcul des
droits
Facturation
et suivi des
payements
Redistrib
des droits
17. 17
System d’information actuel
Créateurs et
ayants droits
SI du Client
Analyse
et filtrage
Ident auto Calcul des
barèmes
tarifaires
Ident manu
Doc. des
ouvres
Calcul des
droits
Facturation
et suivi des
payements
Redistrib
des droits
Non On-line
On-line
18. 18
System d’information actuel
Créateurs et
ayants droits
SI du Client
Analyse
et filtrage
Ident auto Calcul des
barèmes
tarifaires
Ident manu
Doc. des
ouvres
Calcul des
droits
Facturation
et suivi des
payements
Redistrib
des droits
Non On-line
On-line
19. 19
System d’information actuel
Redistribution
Créateurs et
ayants droits
SI du Client
Analyse
et filtrage
Ident auto Calcul des
barèmes
tarifaires
Ident manu
Doc. des
ouvres
Calcul des
droits
Facturation
et suivi des
payements
Redistrib
des droits
IHM IHM IHM IHM IHM
Non On-line
On-line
22. 22
Solution
Créateurs et
ayants droits
SI du Client
Analyse
et filtrage
Ident auto Calcul des
barèmes
tarifaires
Ident manu
Doc. des
ouvres
Calcul des
droits
Facturation
et suivi des
payements
Redistrib
des droits
Non On-line
On-line
Vision 360° Dashboards
Search &
analytics
Process
mgmt
Nouv
services
Gisement BigData
Process Workflow en Streaming
23. 23
BigData, Streaming et Cloud
Créateurs et
ayants droits
SI du Client
Analyse
et filtrage
Ident auto Calcul des
barèmes
tarifaires
Ident manu
Doc. des
ouvres
Calcul des
droits
Facturation
et suivi des
payements
Redistrib
des droits
Non On-line
On-line
Vision 360° Dashboards
Search &
analytics
Process
mgmt
Nouv
services
Gisement BigData
S1 S2 S3 S4 SX SY SZ
24. 24
Web
Back-end
Architecture logique
SI du Client
On-line
BigData
Platform
Web
front-end
IHM Web
Import & export data flow management
Read services Write services
Security
& rôles
managements
Streaming & batch processing
Indexing & Search
Raw data
Repository
NoSQL DB
25. 25
Web
Back-end
Choix techniques
SI du Client
On-line
BigData
Platform
Web
front-end
IHM Web
Import & export data flow management
Read services Write services
Security
& rôles
managements
Apache Spark
Elasticsearch
Avro
Sur HDFS
Apache Cassandra
26. 26
• Scalabilité linéaire
• Haute dispos + Distribuée + Consistance « tunable » (CAP : 2,5/3 ;-)
• Gestion de gros volumes (> 10To)
• Faible latence en lecture et en écriture (~<10ms)
• BD NoSQL mature avec des utilisateurs de référence (eBay, Apple, etc.)
• Outillée pour les clusters de production (Rack + DC management, etc)
• Modèle de données riche + langage CQL
• Projet Open sources Apache
• Support et formation assurés par DataStax
Le choix Cassandra
27. 27
Limites à prendre en compte :
• Pas de select … where (non clé) (opérateur <> =) (group by) (order by)
• Pas de count(…)
• Pas de jointures
• Pas de contraintes d’intégrité
• Pas de transactions : sauf if (not) exists
• Pas de « Proc Stock »
• Indexes secondaires à utiliser avec « grande » modération
Le choix Cassandra
28. 28
Un PoC sinon rien
Web
Back-end
On-line
BigData
Platform
Web
front-end
IHM Web
Import & export data flow management
Read services
Streaming & batch processing
Indexing & SearchNoSQL DB
6 mois
de déclarations
2014
(85%)
29. 29
Infrastructure du PoC
Hadoop Cluster
Cassandra
Node 3
Cassandra
Node 5
Cassandra
Node 4
Cassandra
Node 6
Hadoop
Spark
Node 1
ES
Node 1
ES
Node 2
Web App
+ Monitoring
Node 2
Frontend Applications & Monitoring
ES
Node 8
Elasticsearch Cluster
Cassandra
Node 9
Cassandra
Node 10
ES
Node 7
Hadoop
Spark
Node 2
1CPU-8Cores
32GB RAM
2 x 3TB HD
OVH Cloude Plateforme : 10 x Nodes
NoSQL DB
33. 33
PoC – Jeux de données
• 6 mois de déclarations (DSR) : Q1 & Q2 / 2014
0
200
000
000
400
000
000
600
000
000
800
000
000
1
000
000
000
1
200
000
000
Q1
Q2
Total
Spo4fy
iTunes
Youtube
Nombre de Resources
par DSP
34. 34
PoC – Modèle de données
NoSQL Data Model
Cassandra
DSP
DSR
Release
Resource
DSR
Release
Sale
Resource
Search & Analytics
Elasticsearch
Sale
DSR By
Status
Resource
By Status
Resource
Data
37. 37
PoC – Mesures
• Benchmark du temps de chargement Cassandra
0,00
1,00
2,00
3,00
4,00
5,00
6,00
7,00
8,00
3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32
Loading forcast with a month* of DSR
13 nodes needed to load 1
month of DSR in 2 days
*1 month of DSR = 450 000 000 of resources
38. 38
PoC – Mesures
• Benchmark du temps de chargement Cassandra
Avec
disques
SATA
2
x
3To
en
RAID0
Node
inserts
/
sec
156
Cluster
size
(nodes)
3
4
5
6
7
8
9
10
Cluster
resources
/
h
1
684
800
2
246
400
2
808
000
3
369
600
3
931
200
4
492
800
5
054
400
5
616
000
Cluster
resources
/
day
40
435
200
53
913
600
67
392
000
80
870
400
94
348
800
107
827
200
121
305
600
134
784
000
Cassandra
cluster
size
6
Nodes
(servers)
Resources
/
h
3
369
600
res/h
Resources
/
day
80
870
400
res/day
Total
resources
in
2014
~
3
000
Millions
Resources
by
month
in
2014
~
250
Millions
Total
month
DSR
loading
Qme
3,09
Days
Total
month
DSR
loading
Qme
74,19
h
39. 39
PoC concluant, mais…
Quelques enseignements :
• A haut débit, les inserts de grands enregistrements « dé-normalisés » sont à proscrire
• Les updates fréquents de grands enregistrements sont interdits !
• Limitations fortes sur les IO disques (sur les machines utilisées)
• Enlever le RAID1 ;-)
• Le tuning VM est crucial (MAX_HEAP_SIZE, HEAP_NEWSIZE, etc) *
• D’autres Params peuvent aider (CONCURRENT_READS, CONCURRENT_WRITES,
MEMTABLE_TOTAL_SPACE) *
• Pénalisation des serveurs Cassandra lors des compactions
• Les écritures en batch n’améliorent pas la situation, au contraire 8-(
• Les écritures asynchrones, pas mieux !
• Sur un système aux limites, contrôler le débit en amont !
• Envisager les disques SSD
(*) Merci Duy Hai et Datastax
40. 40
Et la suite
• Test avec disques SSD très concluants
• Re-modélisation :
• Dé-normalisation à bon escient
• Garder les tables petites
• Séparation des données « statiques » des données « dynamiques »
• Gestion de tables par « Status » avec bucketing si nécessaire
• Encore plus d’intégration entre Spark et Cassandra :
• Connecteur Cassandra Spark amélioré
• Fonctions de partitionnement pour co-localisation les traitements
41. 41
Mesures SATA vs SSD
• Nouveaux benchmarks du temps de chargement Cassandra
Amélioration x ~50
Avec
disques
SATA
2
x
3To
en
RAID0
Node
inserts
/
sec
156
Cluster
size
(nodes)
3
4
5
6
7
8
9
10
Cluster
resources
/
h
1
684
800
2
246
400
2
808
000
3
369
600
3
931
200
4
492
800
5
054
400
5
616
000
Cluster
resources
/
day
40
435
200
53
913
600
67
392
000
80
870
400
94
348
800
107
827
200
121
305
600
134
784
000
Cassandra
cluster
size
6
Nodes
(servers)
Resources
/
h
3
369
600
res/h
Resources
/
day
80
870
400
res/day
Total
resources
in
2014
~
3
000
Millions
Resources
by
month
in
2014
~
250
Millions
Total
month
DSR
loading
Qme
3,09
Days
Total
month
DSR
loading
Qme
74,19
h
Avec
disques
SSD
4
x
800Go
(1
SSD
pour
les
CommitLogs
+
3
SSD
pour
les
SSTables)
Node
inserts
/
sec
7
407
47
x
SATA
Cluster
size
(nodes)
3
4
5
6
7
8
9
10
Cluster
resources
/
h
80
000
000
106
666
667
133
333
333
160
000
000
186
666
667
213
333
333
240
000
000
266
666
667
Cluster
resources
/
day
1
920
000
000
2
560
000
000
3
200
000
000
3
840
000
000
4
480
000
000
5
120
000
000
5
760
000
000
6
400
000
000
Cassandra
cluster
size
6
Nodes
(servers)
Resources
/
h
160
000
000
res/h
Resources
/
day
3
840
000
000
res/day
Total
resources
in
2014
~
3
000
Millions
Resources
by
month
in
2014
~
250
Millions
Total
month
DSR
loading
Qme
0,07
Days
Total
month
DSR
loading
Qme
1,56
h
Total
month
DSR
loading
Qme
93,75
min
0
100000000
200000000
300000000
3
4
5
6
7
8
9
10
SATA
disks
(Res/h)
SSD
disks
(Res/h)