S.M.A.C.K, Spark-Mesos-Akka-Cassandra-Kafka, fait partie des nouvelles générations d’architectures “BigData” open source proposant une alternative et / ou une complémentarité à Hadoop / Map-Reduce.
À la différence the Hadoop / Map-Reduce qui fournit une architecture permettant de paralléliser les I/O disque et réseau, S.M.A.C.K utilise d’avantage la mémoire ce qui permet de libérer les CPUs des tâches de I/O et ainsi augmenter les capacités de calcul pour un même cluster. L’architecture S.M.A.C.K, et Spark en particulier, est particulièrement plébiscitée par la communauté autour de la Data Science.
Il s’agit d’une architecture ”BigData” très populaire qui se trouve être un assemblage de services spécialisés à la différence d’une solution unique implémentant une liste de patterns et principes ce qui lui apporte une grande flexibilité mais également une certaine complexité.
GAB 2017 PARIS - Azure Data Lake La Big Data 2.0 par Jean-Pierre Riehl et Fab...AZUG FR
Azure Data Lake est LA technologie "big data" maison de Microsoft. En provenance de MS Research (nom de code Cosmos), elle est utilisée en interne par les équipes X-Box, Bing, O365 depuis quelques années déjà. Cette technologie est disponible depuis l'été dernier dans Azure et s'enrichit mois après mois. ADL, concrètement, c'est quoi ? C'est la possibilité de stocker et analyser une quantité illimitée de données et de requêter avec un nouveau langage : le U-SQL Dans cette session, vous découvrirez Azure Data Lake et toutes les possibilités qui s'ouvrent à vous.
Realtime Web avec Akka, Kafka, Spark et Mesos - Devoxx Paris 2014Ippon
Ce talk est un retour d’expérience sur la mise en œuvre de Spark et Streaming Spark. Nous aborderons :
La collecte des données à la volée dans l’application Web avec Akka
La séparation des producteurs et consommateurs avec Kafka
La transformation des données avec Spark et Streaming Spark
Le déploiement sur un cluster avec Apache Mesos
S.M.A.C.K, Spark-Mesos-Akka-Cassandra-Kafka, fait partie des nouvelles générations d’architectures “BigData” open source proposant une alternative et / ou une complémentarité à Hadoop / Map-Reduce.
À la différence the Hadoop / Map-Reduce qui fournit une architecture permettant de paralléliser les I/O disque et réseau, S.M.A.C.K utilise d’avantage la mémoire ce qui permet de libérer les CPUs des tâches de I/O et ainsi augmenter les capacités de calcul pour un même cluster. L’architecture S.M.A.C.K, et Spark en particulier, est particulièrement plébiscitée par la communauté autour de la Data Science.
Il s’agit d’une architecture ”BigData” très populaire qui se trouve être un assemblage de services spécialisés à la différence d’une solution unique implémentant une liste de patterns et principes ce qui lui apporte une grande flexibilité mais également une certaine complexité.
GAB 2017 PARIS - Azure Data Lake La Big Data 2.0 par Jean-Pierre Riehl et Fab...AZUG FR
Azure Data Lake est LA technologie "big data" maison de Microsoft. En provenance de MS Research (nom de code Cosmos), elle est utilisée en interne par les équipes X-Box, Bing, O365 depuis quelques années déjà. Cette technologie est disponible depuis l'été dernier dans Azure et s'enrichit mois après mois. ADL, concrètement, c'est quoi ? C'est la possibilité de stocker et analyser une quantité illimitée de données et de requêter avec un nouveau langage : le U-SQL Dans cette session, vous découvrirez Azure Data Lake et toutes les possibilités qui s'ouvrent à vous.
Realtime Web avec Akka, Kafka, Spark et Mesos - Devoxx Paris 2014Ippon
Ce talk est un retour d’expérience sur la mise en œuvre de Spark et Streaming Spark. Nous aborderons :
La collecte des données à la volée dans l’application Web avec Akka
La séparation des producteurs et consommateurs avec Kafka
La transformation des données avec Spark et Streaming Spark
Le déploiement sur un cluster avec Apache Mesos
Azure Data Lake, le big data 2.0 (Global Azure Bootcamp Paris 2017)Jean-Pierre Riehl
--session donnée dans le cadre du Global Azure Bootcamp Paris 2017 avec Fabien Adato--
Azure Data Lake est LA technologie "big data" maison de Microsoft. En provenance de MS Research (nom de code Cosmos), elle est utilisée en interne par les équipes X-Box, Bing, O365 depuis quelques années déjà. Cette technologie est disponible depuis l'été dernier dans Azure et s'enrichit mois après mois.
ADL, concrètement, c'est quoi ? C'est la possibilité de stocker et analyser une quantité illimitée de données et de requêter avec un nouveau langage : le U-SQL
Dans cette session, vous découvrirez Azure Data Lake et toutes les possibilités qui s'ouvrent à vous
Polybase est le front-end universel entre le monde relationnel et non relationnel.
Dans cette session nous verrons les capacités de la plateforme Analytics Platform System (APS) contenant une région HDInsight (Distribution Hadoop de Microsoft) et une région PDW (Parallel Data Warehouse, l’offre MPP de SQL Server).
Nous présenterons ensuite l’offre Polybase incluse dans SQL Server 2016 Public Preview. Sans oublier l’intérêt et les bénéfices du MPP, les cas d’usage de la Big Data en entreprise et le gain à utiliser en même temps ces deux technologies.
Nous analyserons ainsi des données non structurées et volumineuses et les exploiterons au sein d’un système décisionnel et relationnel avec un langage que nous connaissons tous : le T-SQL !
[JSS2015] Azure SQL Data Warehouse - Azure Data LakeGUSS
• Présentation du service MPP dans le Cloud SQL Data Warehouse : DWU, Polybase, ...
• Présentation des nouveaux services Big Data dans Azure : Data Lake Store, Data Lake Analytics Service (U-SQL)
• Plein de démos :-)"
[USI] Lambda-Architecture : comment réconcilier BigData et temps-réelMathieu DESPRIEE
Comment intégrer le big-data et le temps-réel au sein d'une même architecture sans qu'elle ne se transforme en un monstre de Frankeinstein, trop complexe et trop coûteuse à maintenir ?
La « Lambda architecture » nous propose une approche simple et élégante : stocker et traiter de larges volumes de données, en intégrant dans la seconde les données les plus récentes, le tout en préservant scalabilité et tolérance aux pannes.
[conférence présentée à l'USI 2014 : https://www.youtube.com/watch?v=tw3X7eMOVEM]
Introduction à Apache Cassandra — IppEvent chez OVH 2017-03-02Jérôme Mainaud
Découvrez au cours de cette présentation le fonctionnement de la base de données Cassandra.
- Qu'est-ce que Cassandra ?
- Pourquoi l'utiliser ?
- Comment l'utiliser ?
- Comment la mettre en œuvre ?
Cette présentation a été jouée lors de l'IppEvent qui a eu lieu le 2017-03-02 dans les locaux d'OVH Lyon. Elle fait partir du temps fort Big Data 2017 https://blog.ippon.fr/2017/03/01/un-mois-de-mars-100-big-data/.
Merci à l'équipe d'OVH pour son accueil chaleureux.
De l'upsert sur des fichiers Parquet ? Retrouver l'état de mes données de mercredi dernier ? Des transactions ACID sur mon datalake ? C'est désormais possible avec DeltaLake, la nouvelle librairie de Databricks.
La plateforme logicielle BlueData EPIC™ simplifie, accélère et rend plus rentable le déploiement d’infrastructures et d’applications Big Data telles que Hadoop, Spark, Kafka, Cassandra, et plus, dans l’infrastructure locale ou dans le cloud public.
Industrialisation des processus Big Data chez CANAL+ par Pascal PERISSEAU et Stephen CLAIRVILLE (CanalPlus)
L'intégration de la brique technique Big Data au sein d'une architecture décisionnelle déjà existante. Retour d’expérience sur les développements réalisés afin de faciliter l’intégration, la supervision, et l’exploitation des flux Hadoop dans notre écosystème décisionnel / présentation de la phase préparatoire de la mise à disposition des données aux data analysts et data scientists.
Pascal PERISSEAU, responsable technique du pôle décisionnel et Big Data chez CANAL+ depuis 10 ans
Stephen CLAIRVILLE, chef de projet tech. lead Big Data depuis 2 ans chez CANAL+
Apache Cassandra - Concepts et fonctionnalitésRomain Hardouin
Apache Cassandra - Concepts et fonctionnalités, 25/02/2014
Présentation de Cassandra pour le premier évènement "Lyon Cassandra Users" (organisé par DataStax & Zenika).
* Présentation de Cassandra
* Concepts clés (Théorie & Architecture)
* Installation
* Les outils DataStax : DevCenter et OpsCenter
* Modèle de données
* Requêtes
Sahara : Hadoop as Service avec OpenStackALTIC Altic
Un des initiative les plus intéressante du moment c'est Hadoop à la demande. Sahara, en incubation parmi les projets OpenStack facilite la mise en place de votre infrastructure moderne pour rester agile même dans une infrastructure qui réclame un nombre de machine toujours plus important...
présentation Solutions Linux 2014
Whether it's statistics, weather forecasting, astronomy, finance, or network management, time series data plays a critical role in analytics and forecasting. Unfortunately, while many tools exist for time series storage and analysis, few are able to scale past memory limits, or provide rich query and analytics capabilities outside what is necessary to produce simple plots; For those challenged by large volumes of data, there is much room for improvement.
Apache Cassandra is a fully distributed second-generation database. Cassandra stores data in key-sorted order making it ideal for time series, and its high throughput and linear scalability make it well suited to very large data sets.
This talk will cover some of the requirements and challenges of large scale time series storage and analysis. Cassandra data and query modeling for this use-case will be discussed, and Newts, an open source Cassandra-based time series store under development at The OpenNMS Group will be introduced.
Azure Data Lake, le big data 2.0 (Global Azure Bootcamp Paris 2017)Jean-Pierre Riehl
--session donnée dans le cadre du Global Azure Bootcamp Paris 2017 avec Fabien Adato--
Azure Data Lake est LA technologie "big data" maison de Microsoft. En provenance de MS Research (nom de code Cosmos), elle est utilisée en interne par les équipes X-Box, Bing, O365 depuis quelques années déjà. Cette technologie est disponible depuis l'été dernier dans Azure et s'enrichit mois après mois.
ADL, concrètement, c'est quoi ? C'est la possibilité de stocker et analyser une quantité illimitée de données et de requêter avec un nouveau langage : le U-SQL
Dans cette session, vous découvrirez Azure Data Lake et toutes les possibilités qui s'ouvrent à vous
Polybase est le front-end universel entre le monde relationnel et non relationnel.
Dans cette session nous verrons les capacités de la plateforme Analytics Platform System (APS) contenant une région HDInsight (Distribution Hadoop de Microsoft) et une région PDW (Parallel Data Warehouse, l’offre MPP de SQL Server).
Nous présenterons ensuite l’offre Polybase incluse dans SQL Server 2016 Public Preview. Sans oublier l’intérêt et les bénéfices du MPP, les cas d’usage de la Big Data en entreprise et le gain à utiliser en même temps ces deux technologies.
Nous analyserons ainsi des données non structurées et volumineuses et les exploiterons au sein d’un système décisionnel et relationnel avec un langage que nous connaissons tous : le T-SQL !
[JSS2015] Azure SQL Data Warehouse - Azure Data LakeGUSS
• Présentation du service MPP dans le Cloud SQL Data Warehouse : DWU, Polybase, ...
• Présentation des nouveaux services Big Data dans Azure : Data Lake Store, Data Lake Analytics Service (U-SQL)
• Plein de démos :-)"
[USI] Lambda-Architecture : comment réconcilier BigData et temps-réelMathieu DESPRIEE
Comment intégrer le big-data et le temps-réel au sein d'une même architecture sans qu'elle ne se transforme en un monstre de Frankeinstein, trop complexe et trop coûteuse à maintenir ?
La « Lambda architecture » nous propose une approche simple et élégante : stocker et traiter de larges volumes de données, en intégrant dans la seconde les données les plus récentes, le tout en préservant scalabilité et tolérance aux pannes.
[conférence présentée à l'USI 2014 : https://www.youtube.com/watch?v=tw3X7eMOVEM]
Introduction à Apache Cassandra — IppEvent chez OVH 2017-03-02Jérôme Mainaud
Découvrez au cours de cette présentation le fonctionnement de la base de données Cassandra.
- Qu'est-ce que Cassandra ?
- Pourquoi l'utiliser ?
- Comment l'utiliser ?
- Comment la mettre en œuvre ?
Cette présentation a été jouée lors de l'IppEvent qui a eu lieu le 2017-03-02 dans les locaux d'OVH Lyon. Elle fait partir du temps fort Big Data 2017 https://blog.ippon.fr/2017/03/01/un-mois-de-mars-100-big-data/.
Merci à l'équipe d'OVH pour son accueil chaleureux.
De l'upsert sur des fichiers Parquet ? Retrouver l'état de mes données de mercredi dernier ? Des transactions ACID sur mon datalake ? C'est désormais possible avec DeltaLake, la nouvelle librairie de Databricks.
La plateforme logicielle BlueData EPIC™ simplifie, accélère et rend plus rentable le déploiement d’infrastructures et d’applications Big Data telles que Hadoop, Spark, Kafka, Cassandra, et plus, dans l’infrastructure locale ou dans le cloud public.
Industrialisation des processus Big Data chez CANAL+ par Pascal PERISSEAU et Stephen CLAIRVILLE (CanalPlus)
L'intégration de la brique technique Big Data au sein d'une architecture décisionnelle déjà existante. Retour d’expérience sur les développements réalisés afin de faciliter l’intégration, la supervision, et l’exploitation des flux Hadoop dans notre écosystème décisionnel / présentation de la phase préparatoire de la mise à disposition des données aux data analysts et data scientists.
Pascal PERISSEAU, responsable technique du pôle décisionnel et Big Data chez CANAL+ depuis 10 ans
Stephen CLAIRVILLE, chef de projet tech. lead Big Data depuis 2 ans chez CANAL+
Apache Cassandra - Concepts et fonctionnalitésRomain Hardouin
Apache Cassandra - Concepts et fonctionnalités, 25/02/2014
Présentation de Cassandra pour le premier évènement "Lyon Cassandra Users" (organisé par DataStax & Zenika).
* Présentation de Cassandra
* Concepts clés (Théorie & Architecture)
* Installation
* Les outils DataStax : DevCenter et OpsCenter
* Modèle de données
* Requêtes
Sahara : Hadoop as Service avec OpenStackALTIC Altic
Un des initiative les plus intéressante du moment c'est Hadoop à la demande. Sahara, en incubation parmi les projets OpenStack facilite la mise en place de votre infrastructure moderne pour rester agile même dans une infrastructure qui réclame un nombre de machine toujours plus important...
présentation Solutions Linux 2014
Whether it's statistics, weather forecasting, astronomy, finance, or network management, time series data plays a critical role in analytics and forecasting. Unfortunately, while many tools exist for time series storage and analysis, few are able to scale past memory limits, or provide rich query and analytics capabilities outside what is necessary to produce simple plots; For those challenged by large volumes of data, there is much room for improvement.
Apache Cassandra is a fully distributed second-generation database. Cassandra stores data in key-sorted order making it ideal for time series, and its high throughput and linear scalability make it well suited to very large data sets.
This talk will cover some of the requirements and challenges of large scale time series storage and analysis. Cassandra data and query modeling for this use-case will be discussed, and Newts, an open source Cassandra-based time series store under development at The OpenNMS Group will be introduced.
Presented at QCon San-Francisco 2016
https://qconsf.com/sf2016/sf2016/users/pavel-hardak.html
Everybody agrees that IoT is changing the world... and creates new challenges for software developers, architects, and DevOps. How can we build efficient and highly scalable distributed applications using open-source technologies? What are characteristics of data generated by IoT devices and how it differs from traditional enterprise or Big Data problems? Which architectural patterns are beneficial for IoT use cases and why some trusted methods eventually turn out to be “anti-patterns”? This talk will show how to combine best-of-breed open-source technologies, like Apache Spark, Mesos, and Riak, to build scalable IoT pipelines to ingest, store and analyze huge amounts of data, while keeping operational complexity and costs under control. We will discuss cons and pros of using relational, NoSQL and object storage products for storing and archiving IoT data and make a case for Time Series database deserving a separate category in NoSQL classification.
Wikimedia Content API: A Cassandra Use-caseEric Evans
Among the resources offered by Wikimedia is an API providing low-latency access to full-history content, in many formats. Its results are often the product of computationally intensive transforms, and must be pre-generated and stored to meet latency expectations. Unsurprisingly, there are many challenges to providing low-latency access to such a large data-set, in a demanding, globally distributed environment.
This presentation covers the Wikimedia content API and its use of Apache Cassandra as storage for a diverse and growing set of use-cases. Trials, tribulations, and triumphs, of both a development and operational nature will be discussed.
Castle is an open-source project that provides an alternative to the lower layers of the storage stack -- RAID and POSIX filesystems -- for big data workloads, and distributed data stores such as Apache Cassandra.
This presentation from Berlin Buzzwords 2012 provides a high-level overview of Castle and how it is used with Cassandra to improve performance and predictability.
The Wikimedia Foundation is a non-profit and charitable organization driven by a vision of a world where every human can freely share in the sum of all knowledge. Each month Wikimedia sites serve over 18 billion page views to 500 million unique visitors around the world.
Among the many resources offered by Wikimedia is a public-facing API that provides low-latency, programmatic access to full-history content and meta-data, in a variety of formats. Commonly, results from this system are the product of computationally intensive transformations, and must be pre-generated and persisted to meet latency expectations. Unsurprisingly, there are numerous challenges to providing low-latency storage of such a massive data-set, in a demanding, globally distributed environment.
This talk covers Wikimedia Content API, and it's use of Apache Cassandra, a massively-scalable distributed database, as storage for a diverse and growing set of use-cases. Trials, tribulations, and triumphs, of both a development and operational nature are discussed.
Presented at Cassandra London (April 7, 2014); The challenges of time-series storage and analytics in OpenNMS, with an introduction to Newts, a new Cassandra-based time-series data store.
Comment peut on constamment vous proposer de nouvelles fonctionnalités sur Windows Azure tout en vous proposant les coûts les plus bas ? Lors de cette session, nous aborderons les différences fondamentales entre l'infrastructure du Cloud Public de Microsoft, Windows Azure, et celle d'une entreprise traditionnelle. Le Cloud Public modifie radicalement la vitesse de déploiement des applications, apporte un nouveau modèle économique, de nouveaux outils dans la gestion des problématiques de haute disponibilité. Nous allons vous présenter en détails les coulisses du Cloud Public de Microsoft (création et gestion des mega-datacenters dans toutes les régions du globe, systèmes dédiés de distribution électrique, gestion de l'énergie etc.), vous en montrer son échelle unique au service des utilisateurs finaux.
Speaker : Bernard Ourghanlian (Microsoft)
#OSSPARIS19 - Stream processing : de la base de données classique au streamin...Paris Open Source Summit
#Data management & #Blockchain - Track - Data : from stream processing to data lakes and data science
Toute organisation a un système d’information réparti sur un nombre d’applications plus ou moins important. Aujourd’hui elle cherche à obtenir une vision homogène, fédérée, quasi temps réel de son activité, si bien que nous avons des demandes client pour lesquelles il est question de fournir aux métiers une information « instantanée » et non plus vielle de 5 minutes !
Capturer les changements dans les bases de données, le CDC, cela existe depuis longtemps, mais avec une mise en œuvre ô combien complexe, et couteuse en performance !
Debezium est une plateforme distribuée et open source dédié au CDC. Sa simplicité de mise en œuvre, son ouverture (open source, multi bases de données, multi plateformes de streaming…), ses performances la rendent unique et la placent telle une brique incontournable du système d’information. Avec Debezium, les métiers vont enfin avoir des indicateurs de leurs processus instantanément, couvrant ainsi de nombreux cas d’usage (personnalisation client, audit, vision client 360° instantanée, monitoring temps réel...)
Notre talk a pour but de faire connaître Debezium, une couche manquante à Apache Kafka pour mieux dialoguer avec les systèmes d’information actuels (legacy) et apporter du « streaming » aux bases de données classiques.
Alan Poe appliqué au data streaming - toutes choses sont bonnes ou mauvaises ...Julien Cognet
J'ai eu l'occasion de mettre en œuvre :
- 4 solutions techniques différentes de data streaming (Apache Nifi, Apache Flink, Apache Spark Streaming et Apache Kafka Streams)
- 3 solutions de stockage de forte volumétrie (Apache Cassandra, TimescaleDB et Oracle DB)
- sur 3 projets différents de télécollecte IoT et de traitements de données Big Data.
Cela représente 8 ans de recul sur le traitement de données de forte volumétrie. Cette expérience s'est construite "grâce" à des dizaines de problèmes de performances, de cohérence des données, d'engorgement de nos systèmes distribués... J'ai donc de belles histoires techniques à vous raconter sur le pire et le meilleur de ces différentes solutions. Vous voulez savoir quelle est la meilleure et celle que je vous recommande ? Je suis sûr que vous connaissez la réponse courte "ça dépend". Pour la réponse longue, consultez nous...
Session découverte de la Data VirtualizationDenodo
Watch full webinar here: https://bit.ly/3Eo0BU9
Denodo vous propose une session virtuelle pour découvrir la Data Virtualization. Quel que soit votre rôle, responsable IT, architecte, data scientist, analyste ou CDO, vous découvrirez comment la Data Virtualization permet de livrer des données en temps réel et accéder à tout type de source de données pour en tirer de la valeur.
J'ai déjà un ETL, pourquoi aurais-je besoin de la Data Virtualization?Denodo
Watch full webinar here: https://bit.ly/3LL1IRM
Vous vous trouvez confronté à des architectures de données de plus en plus complexes, avec des sources de données allant des sources legacy aux nouveaux systèmes de stockage cloud. Pour adresser cette complexité croissante, votre réflexe est peut-être de s'appuyer sur un outil unique : l'ETL. Mais le processus lourd de réplication que cela implique est-il nécessaire ou souhaitable pour toute problématique d'intégration de la donnée?
Lors de ce webinar, nous vous proposons de découvrir comment la data virtualization fournit un accès rapide et facile à des données qui ne nécessite pas la création de pipelines et de tâches de réplication. Nous parlerons des avantages et des pièges de l'ETL et montrerons en quoi la data virtualization est une meilleure alternative à l'ETL dans de nombreuses circonstances : pour simplifier et accélérer une migration, renforcer la sécurité, promouvoir les initiatives de self-service, ou livrer les données à des projets de digitalisation.
Les points clés abordés :
- La data virtualization et les outils d’ETL peuvent-ils fonctionner ensemble ?
- La data virtualization peut-elle vous faire gagner du temps et de l'argent sur le stockage des données ?
- Vos outils ETL sont-ils capables de gérer les volumes et les types de données complexes d'aujourd'hui ?
Introduction au Cloud computing: principes, modèles et enjeux.
Le lecteur pourra découvrir l'architecture de référence du Cloud computing ainsi que des informations succinctes sur l'état de l'art et du marché.
Le Big Data en temps réel n’est plus seulement réservée projets à gros budget. En s'appuyant sur Apache Spark, Talend 6 permet aux entreprises de toute taille et de tout secteur d’activité de convertir des Big Data et données issues de l’Internet des Objets en connaissances exploitables immédiatement.
Les exemples d’utilisation d’analytique en temps réel tels que les recommandations personnalisées, la détection des fraudes, les soins préventifs et la tarification prédictive représentent seulement un échantillon des possibilités qui s’offrent aux entreprises ayant accès en temps réel aux informations métier. Cette présentation permet de découvrir les nouvelles capacité de Talend 6 dans ce domaine et aussi de manière plus générale, et aussi comment :
- révéler les données utiles concernant vos produits, clients, et opérations ;
- passer sans efforts au traitement Big Data temps réel et aux applications pour données décisionnelles ;
- capturer et traiter des données issues de l’Internet des Objets facilement pour délivrer des insights rapidement ;
- fournir des données plus sécurisées et fiables grâce à la qualité de données.
Reshaping the Dataa center - La problématique des Data centers des 10 dernières années se posent avec acuité. Les politiques de PCA/PSI, les exigences métiers en termes de disponibilité et de confidentialité, les différentes réglementations (Basel III, Solvency II, Sarbanes Oxley Act), les best practices (ISO 27001, ISO 20000, CoBIT, ISO 31000...) exigent aux etses de mettre en place une politique Data center, lui permettant d'éviter le risques Opérationnels.
TechDays 2011 - VIR302 virtualiser vos applications métiers critiques sous hy...Patrick Guimonet
Cette session traite des scénarios de virtualisation pour Microsoft SQL Server, Microsoft SharePoint Server et Microsoft Exchange Server, mais aussi d'application comme SAP et des problématiques clients et comment virtualiser ces applications sous Hyper-V. Pour chaque application, nous aborderons divers scénarios dans lesquels la virtualisation est applicable et nous plongerons plus en détail dans ces technologies. La session met en évidence les meilleures pratiques pour un déploiement réussi.
Converteo renouvelle son panorama sur les opportunités liées à une infrastructure Data-Lakes. Cette technologie a démontré ses capacités d’exploitation et de valorisation des datas des entreprises et, dans un contexte de mise en conformité RGPD, révèle encore plus son agilité.
Mieux comprendre le Data-Lake :
Littéralement traduit par lac de données, il s’agit d’un espace de stockage permettant le traitement d’informations de plusieurs sources et ce, de manière quasi illimitée et en un temps record.
Le Data-Lake est donc une réelle opportunité et doit être considéré en amont de toute démarche data-driven, que ce soit dans le domaine :
- Du marketing : pour alimenter des campagnes, choisir un lieu d’implantation d’un nouveau magasin ;
- De l’expérience client : pour personnaliser une offre, recommander les produits adéquats ;
- De la business Intelligence : pour créer une vision 360° de ses clients, piloter la pression publicitaire ;
- De la performance opérationnelle : pour réduire ses coûts informatiques, adapter ses ressources en fonction de l’activité.
Infrastructure flexible, elle permet donc un large champ d’analyse qualitative avec des données activables à tout moment en fonction des besoins business.
Petit-déjeuner OCTO Technology : Calculez vos indicateurs en temps réel ave...OCTO Technology
Le Big Data touche le paroxysme de sa médiatisation. Tout est devenu Big Data, mélangeant nouvelles approches métiers, technologies et business models.
De vraies opportunités se présentent toutefois. Ainsi, la capacité à suivre en temps réel les indicateurs clés du business à partir d’un nombre croissant de sources de données est un challenge que le « Big Data » peut relever.
Découvrez, au travers d'un retour d'expérience commun EDF R&D/OCTO Technology, comment Storm peut vous permettre de relever ce défi.
Compte-rendu du petit-déjeuner : http://bit.ly/1dpbNgF
5 façons de réduire les coûts tout en modernisant votre Infrastructure selon ...
DataStax et Apache Cassandra pour la gestion des flux IoT
1. Comment maîtriser le flux de données IoT avec
Cassandra et Spark ?
Petit Déjeuner IoT - 19 novembre 2015
Victor Coustenoble Ingénieur Solutions
victor.coustenoble@datastax.com
@vizanalytics
7. 7
La réponse : DataStax Enterprise (DSE)
Robustesse et Support
pour la Production
Solution d’Entreprise
Puissance pour le
Développement
Workloads différents
Une plateforme de base de données Opérationnelle
8. Apache Cassandra – La Base de Données Distribuée
Bordeaux
Paris
Marseille
C *
C *
C *C *
Toujours Disponible
Distribution géographique
Performance reconnue
Extensibilité prédictible
Simplicité Opérationnelle
Séries Temporelles
8
17. Cas d’utilisation Spark
Load data from various
sources
Analytics (join, aggregate, transform, …)
Sanitize, validate, normalize data
Schema migration,
Data conversion
23. British Gas Tackles Internet-of-Things with DataStax
Connected Homes, a new business unit, handles IoT-based customer systems
Provides remote control over thermostats and boilers via smart phones/tablets
Delivers analytics on energy usage to customers
Will be using predictive analysis to forecast things like boiler failures
Uses DataStax Enterprise for transactional data consumption and real-time
analytics
31. i2O Conserves 200M Liters of Water
Per Day With Cassandra
The Smart Way to Manage Sensors for Energy
and Cost Savings - Thousands of sensors on
rooftop machines in commercial buildings
Google Nest Revolutionizes the Thermostat -
DataStax chosen for ability to handle high
velocity writes in time series
From Millions to Billions of Connected
Devices, Aeris Uses Cassandra to Scale
Wattgo Engages Utility Customers with
Personalized Smart Energy Analytics
Coordination System for 1 to
millions containers