> Présentation du pipeline EDM (Enterprise Data Management, ou « gestion de données d'entreprise »)
> Problèmes actuels
> Brève présentation de MongoDB
> Les différentes étapes d'un pipeline EDM
> L'avenir de l'architecture EDM
> Étude de cas et scénarios
> Leçons tirées du Data Lake
Dans cette session, vous apprendrez:
Les différences entre modéliser pour MongoDB versus une base de données relationnelle.
Une méthodologie pour modéliser pour MongoDB qui est adaptable aux projets simples, agiles ou plus complexes.
Quelques patrons de conception (design patterns) courants dans le développement d'applications avec MongoDB, dans le but de maximiser la performance.
Ce Support de cours Spring contient :
- Architecture JEE (Over view)
- Spring Overview
- Spring IOC
- Spring MVC
- Spring Integration (RMI, JaxWS, JaxRS, JMS, JMX,...)
- Spring Security
Bon apprentissage à tous
Ce support explique les concepts de base de Big Data Processing. Elle aborde les parties suivantes :
Série de vidéos : https://www.youtube.com/watch?v=1JAljjxpm-Q
- Introduction au Big Data
- Système de stockage en Big Data
- Batch Processing et Stream Processing en Big Data
- Aperçu bref de l’écosystème de Hadoop
- Aperçu de l’écosystème des outils du Bid Gata
- Big data stream processing avec Kafka écosystème
- Architecture de Kafka (Brokers, Zookeeper, Procuder, Consumer, Kafka Streams, Connecteurs)
- Comment démarrer un cluster de brokers KAFKA
- Création et configuration des Topics
- Création d’un Java Kafka consumer
- Création d’un Java Kafka Produder
- Kafka Producer et Kafka Consumer dans une application basée sur Spring
- Kafka Streams
- Intégration de Kafka dans Spring Cloud.
Mot clés : Big data, Big Data Processing, Stream Processing, Kafka, Kafka Streams, Java, Spring
Bon apprentissage
Dans cette session, vous apprendrez:
Les différences entre modéliser pour MongoDB versus une base de données relationnelle.
Une méthodologie pour modéliser pour MongoDB qui est adaptable aux projets simples, agiles ou plus complexes.
Quelques patrons de conception (design patterns) courants dans le développement d'applications avec MongoDB, dans le but de maximiser la performance.
Ce Support de cours Spring contient :
- Architecture JEE (Over view)
- Spring Overview
- Spring IOC
- Spring MVC
- Spring Integration (RMI, JaxWS, JaxRS, JMS, JMX,...)
- Spring Security
Bon apprentissage à tous
Ce support explique les concepts de base de Big Data Processing. Elle aborde les parties suivantes :
Série de vidéos : https://www.youtube.com/watch?v=1JAljjxpm-Q
- Introduction au Big Data
- Système de stockage en Big Data
- Batch Processing et Stream Processing en Big Data
- Aperçu bref de l’écosystème de Hadoop
- Aperçu de l’écosystème des outils du Bid Gata
- Big data stream processing avec Kafka écosystème
- Architecture de Kafka (Brokers, Zookeeper, Procuder, Consumer, Kafka Streams, Connecteurs)
- Comment démarrer un cluster de brokers KAFKA
- Création et configuration des Topics
- Création d’un Java Kafka consumer
- Création d’un Java Kafka Produder
- Kafka Producer et Kafka Consumer dans une application basée sur Spring
- Kafka Streams
- Intégration de Kafka dans Spring Cloud.
Mot clés : Big data, Big Data Processing, Stream Processing, Kafka, Kafka Streams, Java, Spring
Bon apprentissage
Ce support correspond à une conférence qui s'intéresse à la mise en œuvre des Framework de Machines et Deep learning pour les applications web et mobiles. Principalement les Framwork TensorFlow.JS et DeepLeanring4J.
Je l'ai présentée au début dans mon établissement auquel j’appartiens, l’ENSET Mohammedia puis dans la conférence Carrefour des informaticiens, organisée par les étudiants de l'AIAC :
Académie internationale Mohammed VI de l'aviation civile.
et le code source est publié sur mon compte GitHub. La suite de cette série sera sans doute publiées dans les prochaines conférences :
https://github.com/mohamedYoussfi/angular-tensorflowJS
https://github.com/mohamedYoussfi/angular-ml5.js-mobilenet-feature-extractor
https://github.com/mohamedYoussfi/deeplearning4j-cnn-mnist-app
Les vidéos de la conférence sont publiée dans ma chaîne vidéo : https://www.youtube.com/user/mohamedYoussfi
Le plan de la présentation est suivant :
- Quelques Concepts de base à comprendre :
- Machines er Deep Learning, Les réseaux de neurones artificiels, MLP et CNN
- Les problèmes et les contraintes posées par les algorithmes d’apprentissage basés sur les réseaux de neurones
- Principaux catalyseurs qui ont redynamisé l’intelligence artificielle :
- Calcul de hautes performances à savoir les architectures massivement parallèles et les systèmes distribués
- La Virtualisation et le cloud Computing
- Big Data, IOT et Applications Mobiles
- Framework et Algorithmes de Machines et Deep Learning
- Réseaux et Télécommunications
- Open source
- L’écosystème des Framework de Machines et Deep Learning.
- L’architecture du Framwork TensorFlow
- Comment développer des applications de machines et Deep Learning pour les applications Web et Mobile en utilisant TensorFlow.JS et ML.JS
- Comment développer des applications de machines et Deep Learning pour les applications Java JEE en utilisant le Framework DeepLearning4J
Mot Clés :
Intelligence Artificielle, Machines learning, deep learning, TensorflowJS, Deeplearning4j, java, java script, angular
> De l'échantillonnage à « N = Tout »
> Conséquences sur les données
> Créer une application dans Java
> Principales fonctionnalités de MongoDB
> Établir des liens
Séminaire sur Machines, Deep Learning For Web Mobile and Embedded Application with DL4J and TFJS :
Les vidéos de ce séminaire sont publiée sur les adresses suivantes :
- https://www.youtube.com/watch?v=uGSa4NigFKs
- https://www.youtube.com/watch?v=2yRAu78slgc
- https://www.youtube.com/watch?v=1ThjK3xLWII
- https://www.youtube.com/watch?v=N7LCa6aiqFs
Ce séminaire a été animé à l’ENSET de Mohammedia, dans le cadre du Projet Européen H2020 CybSPEED (Cyber Physical Systems for Pedagogical Rehabilitation in Special Education) dans lequel notre laboratoire de recherche SSDIA (Signaux, Systèmes Distribués et Intelligence Artificielle) est partenaire aux cotés des pays partenaires (France, Espagne, Grèce, Bulgarie, Japan et Chillie). Un projet Multi-disciplinaire autour de l'Intelligence Artificielle, visant à créer un robot destiné à assister les personnes à besoins spécifiques, en particulier les personnes atteintes par la maladie de l’autisme. Ce séminaire traite deux thématiques principales Lattice Computing animé par le professeur Vassillis Kaburlasos, EMaTTech, KAVALA, GRECE et Outils de mise en oeuvre de Machines et Deep Learning pour les applications Web Mobiles et embarquées, animé par moi même. Ce séminaire a un caractère de formation, de sensibilisation et de maîtrise des outils de développement des algorithmes de l'IA pour un public hétérogène Multi-disciplinaire (Informatique, Génie Electrique, Génie Mécanique, Ingénierie Pédagogique, Biologie, Chimie, etc..) constitué principalement des doctorants de notre Labo SSDIA, d'autres Labo affiliés au CeDOC de la FST de Mohammedia ainsi que des enseignants chercheurs de l'ENSET, de EMaTTech Kavala, Grèce et d'autres enseignants chercheurs venant de d'autres centres comme CRMF de Marrakech.
Ce séminaire vise particulièrement à expliquer quelques concepts liés à l’intelligence artificielle. Principalement Machines et Deep Learning et comment mettre en œuvre les Frameworks de machines et deep lerning dans des applications Web, Mobile et embarquées en utilisant Principalement Deeplearning4J pour les applications Java coté backend ou coté FrontEnd Desktop, Web ou Mobiles Android, et TensorFlowJS pour les applications Java Scripts coté Browser Web et Coté Applications Mobiles Hybrides ou NodeJS coté Backend.
Cette série de vidéo aborde les éléments suivants :
• Concepes généraux de l’Intelligence Artificielle, L’IA Distribuée et Systèmes Multi Agents
• Concepts fondamentaux de Machines et Deep Learning
• Réseaux de neurones artificiels : MLP, CNN
• Période d’incertitude des réseaux de neurones
• Catalyseur de l’Intelligence Artificielle
o Architectures Parallèles GPU (CUDA, OpenCL)
o Systèmes Distribués
o Application Mobile et IOT
o Algorithmes de MDL
o Framework de MDL
• Machines et Deep Learning avec TensorFlowJS : Architecture
o Architecture et Mise en oeuvre
• Machines et Deep Learning avec le Framework DL4J
o Architecture et Mise en oeuvre
Quand utiliser MongoDB … Et quand vous en passer…MongoDB
> Qu'est-ce que MongoDB ?
> À quoi sert MongoDB ?
> Les points forts de MongoDB... Les points à améliorer
> Ce que les clients peuvent faire et ne pas faire avec MongoDB
> Cas d'utilisation inhabituels
> Quand utiliser MongoDB
BigData_TP1: Initiation à Hadoop et Map-ReduceLilia Sfaxi
Pour accéder aux fichiers nécessaires pour faire ce TP, visitez: https://drive.google.com/folderview?id=0Bz7DokLRQvx7M2JWZEt1VHdwSE0&usp=sharing
Pour plus de contenu, Visitez http://liliasfaxi.wix.com/liliasfaxi !
Ce support explique les concepts de bases du principe de l'inversion de contrôle et d'injections des dépendances.
Les concepts les plus importants à comprendre par les futurs ingénieurs du génie Logiciel.
Big Data : Hadoop
- Généralité
- Architecture HDFS
- Algorithme MapRduce
- Architecture YARN
- Hadoop v3.x vs Hadoopv2.x
Cours Big Data - Chap2 - GI3 - ENIS
Update: Social Harvest is going open source, see http://www.socialharvest.io for more information.
My MongoSV 2011 talk about implementing machine learning and other algorithms in MongoDB. With a little real-world example at the end about what Social Harvest is doing with MongoDB. For more updates about my research, check out my blog at www.shift8creative.com
Ce support correspond à une conférence qui s'intéresse à la mise en œuvre des Framework de Machines et Deep learning pour les applications web et mobiles. Principalement les Framwork TensorFlow.JS et DeepLeanring4J.
Je l'ai présentée au début dans mon établissement auquel j’appartiens, l’ENSET Mohammedia puis dans la conférence Carrefour des informaticiens, organisée par les étudiants de l'AIAC :
Académie internationale Mohammed VI de l'aviation civile.
et le code source est publié sur mon compte GitHub. La suite de cette série sera sans doute publiées dans les prochaines conférences :
https://github.com/mohamedYoussfi/angular-tensorflowJS
https://github.com/mohamedYoussfi/angular-ml5.js-mobilenet-feature-extractor
https://github.com/mohamedYoussfi/deeplearning4j-cnn-mnist-app
Les vidéos de la conférence sont publiée dans ma chaîne vidéo : https://www.youtube.com/user/mohamedYoussfi
Le plan de la présentation est suivant :
- Quelques Concepts de base à comprendre :
- Machines er Deep Learning, Les réseaux de neurones artificiels, MLP et CNN
- Les problèmes et les contraintes posées par les algorithmes d’apprentissage basés sur les réseaux de neurones
- Principaux catalyseurs qui ont redynamisé l’intelligence artificielle :
- Calcul de hautes performances à savoir les architectures massivement parallèles et les systèmes distribués
- La Virtualisation et le cloud Computing
- Big Data, IOT et Applications Mobiles
- Framework et Algorithmes de Machines et Deep Learning
- Réseaux et Télécommunications
- Open source
- L’écosystème des Framework de Machines et Deep Learning.
- L’architecture du Framwork TensorFlow
- Comment développer des applications de machines et Deep Learning pour les applications Web et Mobile en utilisant TensorFlow.JS et ML.JS
- Comment développer des applications de machines et Deep Learning pour les applications Java JEE en utilisant le Framework DeepLearning4J
Mot Clés :
Intelligence Artificielle, Machines learning, deep learning, TensorflowJS, Deeplearning4j, java, java script, angular
> De l'échantillonnage à « N = Tout »
> Conséquences sur les données
> Créer une application dans Java
> Principales fonctionnalités de MongoDB
> Établir des liens
Séminaire sur Machines, Deep Learning For Web Mobile and Embedded Application with DL4J and TFJS :
Les vidéos de ce séminaire sont publiée sur les adresses suivantes :
- https://www.youtube.com/watch?v=uGSa4NigFKs
- https://www.youtube.com/watch?v=2yRAu78slgc
- https://www.youtube.com/watch?v=1ThjK3xLWII
- https://www.youtube.com/watch?v=N7LCa6aiqFs
Ce séminaire a été animé à l’ENSET de Mohammedia, dans le cadre du Projet Européen H2020 CybSPEED (Cyber Physical Systems for Pedagogical Rehabilitation in Special Education) dans lequel notre laboratoire de recherche SSDIA (Signaux, Systèmes Distribués et Intelligence Artificielle) est partenaire aux cotés des pays partenaires (France, Espagne, Grèce, Bulgarie, Japan et Chillie). Un projet Multi-disciplinaire autour de l'Intelligence Artificielle, visant à créer un robot destiné à assister les personnes à besoins spécifiques, en particulier les personnes atteintes par la maladie de l’autisme. Ce séminaire traite deux thématiques principales Lattice Computing animé par le professeur Vassillis Kaburlasos, EMaTTech, KAVALA, GRECE et Outils de mise en oeuvre de Machines et Deep Learning pour les applications Web Mobiles et embarquées, animé par moi même. Ce séminaire a un caractère de formation, de sensibilisation et de maîtrise des outils de développement des algorithmes de l'IA pour un public hétérogène Multi-disciplinaire (Informatique, Génie Electrique, Génie Mécanique, Ingénierie Pédagogique, Biologie, Chimie, etc..) constitué principalement des doctorants de notre Labo SSDIA, d'autres Labo affiliés au CeDOC de la FST de Mohammedia ainsi que des enseignants chercheurs de l'ENSET, de EMaTTech Kavala, Grèce et d'autres enseignants chercheurs venant de d'autres centres comme CRMF de Marrakech.
Ce séminaire vise particulièrement à expliquer quelques concepts liés à l’intelligence artificielle. Principalement Machines et Deep Learning et comment mettre en œuvre les Frameworks de machines et deep lerning dans des applications Web, Mobile et embarquées en utilisant Principalement Deeplearning4J pour les applications Java coté backend ou coté FrontEnd Desktop, Web ou Mobiles Android, et TensorFlowJS pour les applications Java Scripts coté Browser Web et Coté Applications Mobiles Hybrides ou NodeJS coté Backend.
Cette série de vidéo aborde les éléments suivants :
• Concepes généraux de l’Intelligence Artificielle, L’IA Distribuée et Systèmes Multi Agents
• Concepts fondamentaux de Machines et Deep Learning
• Réseaux de neurones artificiels : MLP, CNN
• Période d’incertitude des réseaux de neurones
• Catalyseur de l’Intelligence Artificielle
o Architectures Parallèles GPU (CUDA, OpenCL)
o Systèmes Distribués
o Application Mobile et IOT
o Algorithmes de MDL
o Framework de MDL
• Machines et Deep Learning avec TensorFlowJS : Architecture
o Architecture et Mise en oeuvre
• Machines et Deep Learning avec le Framework DL4J
o Architecture et Mise en oeuvre
Quand utiliser MongoDB … Et quand vous en passer…MongoDB
> Qu'est-ce que MongoDB ?
> À quoi sert MongoDB ?
> Les points forts de MongoDB... Les points à améliorer
> Ce que les clients peuvent faire et ne pas faire avec MongoDB
> Cas d'utilisation inhabituels
> Quand utiliser MongoDB
BigData_TP1: Initiation à Hadoop et Map-ReduceLilia Sfaxi
Pour accéder aux fichiers nécessaires pour faire ce TP, visitez: https://drive.google.com/folderview?id=0Bz7DokLRQvx7M2JWZEt1VHdwSE0&usp=sharing
Pour plus de contenu, Visitez http://liliasfaxi.wix.com/liliasfaxi !
Ce support explique les concepts de bases du principe de l'inversion de contrôle et d'injections des dépendances.
Les concepts les plus importants à comprendre par les futurs ingénieurs du génie Logiciel.
Big Data : Hadoop
- Généralité
- Architecture HDFS
- Algorithme MapRduce
- Architecture YARN
- Hadoop v3.x vs Hadoopv2.x
Cours Big Data - Chap2 - GI3 - ENIS
Update: Social Harvest is going open source, see http://www.socialharvest.io for more information.
My MongoSV 2011 talk about implementing machine learning and other algorithms in MongoDB. With a little real-world example at the end about what Social Harvest is doing with MongoDB. For more updates about my research, check out my blog at www.shift8creative.com
A fotopedia presentation made at the MongoDay 2012 in Paris at Xebia Office.
Talk by Pierre Baillet and Mathieu Poumeyrol.
French Article about the presentation:
http://www.touilleur-express.fr/2012/02/06/mongodb-retour-sur-experience-chez-fotopedia/
Video to come.
Determining the root cause of performance issues is a critical task for Operations. In this webinar, we'll show you the tools and techniques for diagnosing and tuning the performance of your MongoDB deployment. Whether you're running into problems or just want to optimize your performance, these skills will be useful.
In this session, we will walk through building a REST API from scratch with the MEAN stack using the test-driven development approach. We’ll cover MongoDB’s document model, the Mongoose object document mapper, and testing with Mocha and Superagent as we build a mobile shopping cart application. You'll walk away with an understanding of how to build your first app on MongoDB using the MEAN stack.
Big data architectures and the data lakeJames Serra
With so many new technologies it can get confusing on the best approach to building a big data architecture. The data lake is a great new concept, usually built in Hadoop, but what exactly is it and how does it fit in? In this presentation I'll discuss the four most common patterns in big data production implementations, the top-down vs bottoms-up approach to analytics, and how you can use a data lake and a RDBMS data warehouse together. We will go into detail on the characteristics of a data lake and its benefits, and how you still need to perform the same data governance tasks in a data lake as you do in a data warehouse. Come to this presentation to make sure your data lake does not turn into a data swamp!
Denodo, pilier central de votre stratégie APIDenodo
https://bit.ly/2TGvsG9
L'une des idées fondamentales derrière la virtualisation des données est le découplage des sources de données avec les méthodes de consommation. Pourquoi le besoin en requêtes de données dans JSON sur HTTP devrait-il nécessiter du développement supplémentaire? Denodo fournit un accès immédiat à ses ensembles de données via REST, OData 4, GeoJSON et d'autres protocoles, sans codage requis. Facile à faire évoluer, cloud-compatible et directement intégrable aux plateformes de gestion d'API, Denodo est l'outil idéal pour réussir votre stratégie API !
Dans cette session, nous aborderons les points suivants :
- Le rôle de Denodo dans une stratégie API
- L’intégration entre Denodo et les autres éléments du stack API, comme les plateformes de gestion d'API
- La facilité d'accès à Denodo en tant que fournisseur d’API REST
- Les options avancées des services Web Denodo: authentification via OAuth ou SAML, documentation OpenAPI, capacités géographiques, etc.
Discovery Session France: Atelier découverte de la Data VirtualizationDenodo
Watch full webinar here: https://bit.ly/3lnhMel
Découvrez la Data Virtualization lors d'un atelier organisé à distance pour les professionnels de la donnée le 26 novembre. Quel que soit votre rôle, responsables IT, architectes, data scientists, analystes ou CDO, vous découvrirez comment la Data Virtualization permet de livrer des données en temps réel et accéder à tout type de source de données pour en tirer de la valeur.
Architecture web aujourd'hui, besoin de scalabilité des bases de données relationnelles, découverte des bases de données NoSQL et des différents types de celles-ci. La vidéo de présentation peut être consultée à l'adresse suivante : http://youtu.be/oIpjcqHyx2M
Session en ligne: Découverte du Logical Data Fabric & Data VirtualizationDenodo
Watch full webinar here: https://buff.ly/47gqTVV
Une session découverte de Denodo Platform pour les professionnels de la data
D'après la dernière étude du cabinet Forrester The Total Economic Impact™️ of Data Virtualization Using The Denodo Platform, l’impact de la Data Virtualization avec Denodo permet un ROI de 408% et inférieur à 6 mois, une réduction de 65 % des délais de livraison des données par rapport à l'ETL, de 83 % du time-to-revenue et de 67 % du temps alloué à la préparation des données.
Découvrez lors de cette session en ligne de 1h30 en quoi la Logical Data Fabric et la data virtualization révolutionnent l'approche métier & IT dans l’accès, la livraison, la consommation, la gouvernance et la sécurisation de vos données, quel que soit l'âge de votre technologie, le format de la donnée ou son emplacement.
Avec plus de 1000 clients à travers le monde, Denodo est heureux de vous inviter à cette session en ligne le 14 novembre 2023 de 9h30 à 11h. Si vous êtes un IT Manager, architecte, DSI, Data Scientist ou Data Analyst, cet atelier est pour vous!
CONTENU
Au programme : une introduction à ce qu'est la virtualisation des données, les cas d'usages, des études de cas clients réels et une démo guidée pas à pas des fonctionnalités de Denodo Platform avec notre version gratuite sur le cloud, Denodo Test Drive. Vous apprendrez comment:
- Intégrer et livrer vos données rapidement et facilement à l'aide de Denodo Platform
- L'optimiseur de requêtes de Denodo fournit des données en temps réel, à la demande, même lorsqu'il s'agit de jeux de données très volumineux
- Exposer les données en tant que «services de données» en vue d’être consommées par une variété d'utilisateurs et d'outils
- La virtualisation des données joue un rôle essentiel dans la gouvernance et la sécurité des données au sein de votre organisation
Discovery Session France: Atelier découverte de la Data VirtualizationDenodo
Watch full webinar here: https://bit.ly/36m3hmX
Découvrez la Data Virtualization lors d'un atelier organisé à distance pour les professionnels de la donnée mardi 29 septembre. Quel que soit votre rôle, responsables IT, architectes, data scientists, analystes ou CDO, vous découvrirez comment la Data Virtualization permet de livrer des données en temps réel et accéder à tout type de source de données pour en tirer de la valeur. Découvrez l'agenda complet!
MongoDB 3.6 helps you move at the speed of your data, turning developers, operations teams and analysts into a growth engine for the company. It enables new applications to be marketed faster, run reliably and securely on a large scale, and unlock information and information in real time. Learn more: https://www.mongodb.com/mongodb-3.6
Denodo 2022 : le meilleur time-to-Data du marchéDenodo
Watch full webinar here: https://bit.ly/3RXRi3m
Vincent Fages-Gouyou, EMEA Product Management Director, détaille les nouveautés produits de Denodo Platform.
Lors de cette session, vous découvrirez :
- d’où vient Denodo et pourquoi Denodo porte cette vision auprès des organisations modernes
- quels sont les challenges Data des départements IT et des métiers
- quelles ont été les réponses apportées et pourquoi elles ont été insuffisantes
- quelle est la vision de Denodo pour résoudre enfin rapidement les problématiques data
Lors de ce séminaire, Eliot Horowitz, CTO et co-fondateur de MongoDB est revenu sur l’histoire de MongoDB et a partagé sa vision sur l’évolution du marché des bases de données opérationnelles.
Rémi Forest, Solution Architect chez MongoDB France, a ensuite évoqué divers cas d’usages mis en place chez nos clients dans le monde et en France, autour de nombreux enjeux pour lesquels la pertinence de MongoDB est tout à fait avérée.
Retrouvez dans cette présentation:
Une vue d’ensemble de MongoDB: des chiffres, des indicateurs, …
Des cas d’usages sur de nombreux thèmes avec les enjeux et des illustrations concrètes
Discovery Session France: Atelier découverte de la Data VirtualizationDenodo
Watch full webinar here: https://bit.ly/34EYBaE
Découvrez la Data Virtualization lors d'un atelier organisé à distance pour les professionnels de la donnée mardi 29 octobre. Quel que soit votre rôle, responsables IT, architectes, data scientists, analystes ou CDO, vous découvrirez comment la Data Virtualization permet de livrer des données en temps réel et accéder à tout type de source de données pour en tirer de la valeur.
Session découverte de la Logical Data Fabric soutenue par la Data VirtualizationDenodo
Watch full webinar here: https://bit.ly/3oGxZmz
Reconnu en tant que leader dans le Gartner® Magic Quadrant™ for Data Integration Tools ainsi que Customers’ Choice 3 années consécutives, Denodo Platform, soutenue par la Data Virtualization, permet une approche moderne de l'intégration, de la gestion et de la livraison des données, en offrant des fonctionnalités clés telles que la couche d'abstraction des données, les requêtes optimisées par l'IA pour les charges de travail analytiques complexes, le data catalog basé sur l'IA/ML, et la gestion de l'infrastructure cloud.
Découvrez lors de cette session d'1h30 en quoi la Logical Data Fabric et la Data Virtualization révolutionnent l'approche métier & IT dans l’accès, la livraison, la consommation, la gouvernance et la sécurisation de vos données, quel que soit l'âge de votre technologie, le format de la donnée ou son emplacement. Cette technologie mature comble le fossé entre l’IT et les utilisateurs métier, et permet des économies considérables en termes de coûts et de temps.
La Logical Data Fabric au secours de la connaissance clientDenodo
Watch full webinar here: https://bit.ly/3DenJpY
Le constat aujourd'hui est le manque de connaissances des clients malgré la profusion de données.
Cela fait des années que ce problème persiste et les approches récentes ne le solutionnent pas complétement.
L'avénement de la Data Fabric couplée à une approche logique permet un accès simple, rapide et performance aux données de l'entreprise.
L'approche Data Mesh permet de compléter la création de ce produit de données accessible à tous les domaines métiers de l'organisation.
Session découverte de la Logical Data Fabric soutenue par la Data VirtualizationDenodo
Watch full webinar here: https://bit.ly/3yp4Caz
Denodo vous propose une session virtuelle pour découvrir la Logical Data Fabric soutenue par la Data Virtualization. Quel que soit votre rôle, responsable IT, architecte, data scientist, analyste ou CDO, vous découvrirez comment Denodo Platform, la plateforme leader en data intégration, data management et livraison de données en temps réel permet d'accéder à tout type de source de données pour en tirer de la valeur.
MongoDB SoCal 2020: Migrate Anything* to MongoDB AtlasMongoDB
During this talk we'll navigate through a customer's journey as they migrate an existing MongoDB deployment to MongoDB Atlas. While the migration itself can be as simple as a few clicks, the prep/post effort requires due diligence to ensure a smooth transfer. We'll cover these steps in detail and provide best practices. In addition, we’ll provide an overview of what to consider when migrating other cloud data stores, traditional databases and MongoDB imitations to MongoDB Atlas.
MongoDB SoCal 2020: Go on a Data Safari with MongoDB Charts!MongoDB
These days, everyone is expected to be a data analyst. But with so much data available, how can you make sense of it and be sure you're making the best decisions? One great approach is to use data visualizations. In this session, we take a complex dataset and show how the breadth of capabilities in MongoDB Charts can help you turn bits and bytes into insights.
MongoDB SoCal 2020: Using MongoDB Services in Kubernetes: Any Platform, Devel...MongoDB
MongoDB Kubernetes operator and MongoDB Open Service Broker are ready for production operations. Learn about how MongoDB can be used with the most popular container orchestration platform, Kubernetes, and bring self-service, persistent storage to your containerized applications. A demo will show you how easy it is to enable MongoDB clusters as an External Service using the Open Service Broker API for MongoDB
MongoDB SoCal 2020: A Complete Methodology of Data Modeling for MongoDBMongoDB
Are you new to schema design for MongoDB, or are you looking for a more complete or agile process than what you are following currently? In this talk, we will guide you through the phases of a flexible methodology that you can apply to projects ranging from small to large with very demanding requirements.
MongoDB SoCal 2020: From Pharmacist to Analyst: Leveraging MongoDB for Real-T...MongoDB
Humana, like many companies, is tackling the challenge of creating real-time insights from data that is diverse and rapidly changing. This is our journey of how we used MongoDB to combined traditional batch approaches with streaming technologies to provide continues alerting capabilities from real-time data streams.
MongoDB SoCal 2020: Best Practices for Working with IoT and Time-series DataMongoDB
Time series data is increasingly at the heart of modern applications - think IoT, stock trading, clickstreams, social media, and more. With the move from batch to real time systems, the efficient capture and analysis of time series data can enable organizations to better detect and respond to events ahead of their competitors or to improve operational efficiency to reduce cost and risk. Working with time series data is often different from regular application data, and there are best practices you should observe.
This talk covers:
Common components of an IoT solution
The challenges involved with managing time-series data in IoT applications
Different schema designs, and how these affect memory and disk utilization – two critical factors in application performance.
How to query, analyze and present IoT time-series data using MongoDB Compass and MongoDB Charts
At the end of the session, you will have a better understanding of key best practices in managing IoT time-series data with MongoDB.
Join this talk and test session with a MongoDB Developer Advocate where you'll go over the setup, configuration, and deployment of an Atlas environment. Create a service that you can take back in a production-ready state and prepare to unleash your inner genius.
MongoDB .local San Francisco 2020: Powering the new age data demands [Infosys]MongoDB
Our clients have unique use cases and data patterns that mandate the choice of a particular strategy. To implement these strategies, it is mandatory that we unlearn a lot of relational concepts while designing and rapidly developing efficient applications on NoSQL. In this session, we will talk about some of our client use cases, the strategies we have adopted, and the features of MongoDB that assisted in implementing these strategies.
MongoDB .local San Francisco 2020: Using Client Side Encryption in MongoDB 4.2MongoDB
Encryption is not a new concept to MongoDB. Encryption may occur in-transit (with TLS) and at-rest (with the encrypted storage engine). But MongoDB 4.2 introduces support for Client Side Encryption, ensuring the most sensitive data is encrypted before ever leaving the client application. Even full access to your MongoDB servers is not enough to decrypt this data. And better yet, Client Side Encryption can be enabled at the "flick of a switch".
This session covers using Client Side Encryption in your applications. This includes the necessary setup, how to encrypt data without sacrificing queryability, and what trade-offs to expect.
MongoDB .local San Francisco 2020: Using MongoDB Services in Kubernetes: any ...MongoDB
MongoDB Kubernetes operator is ready for prime-time. Learn about how MongoDB can be used with most popular orchestration platform, Kubernetes, and bring self-service, persistent storage to your containerized applications.
MongoDB .local San Francisco 2020: Go on a Data Safari with MongoDB Charts!MongoDB
These days, everyone is expected to be a data analyst. But with so much data available, how can you make sense of it and be sure you're making the best decisions? One great approach is to use data visualizations. In this session, we take a complex dataset and show how the breadth of capabilities in MongoDB Charts can help you turn bits and bytes into insights.
MongoDB .local San Francisco 2020: From SQL to NoSQL -- Changing Your MindsetMongoDB
When you need to model data, is your first instinct to start breaking it down into rows and columns? Mine used to be too. When you want to develop apps in a modern, agile way, NoSQL databases can be the best option. Come to this talk to learn how to take advantage of all that NoSQL databases have to offer and discover the benefits of changing your mindset from the legacy, tabular way of modeling data. We’ll compare and contrast the terms and concepts in SQL databases and MongoDB, explain the benefits of using MongoDB compared to SQL databases, and walk through data modeling basics so you feel confident as you begin using MongoDB.
MongoDB .local San Francisco 2020: MongoDB Atlas JumpstartMongoDB
Join this talk and test session with a MongoDB Developer Advocate where you'll go over the setup, configuration, and deployment of an Atlas environment. Create a service that you can take back in a production-ready state and prepare to unleash your inner genius.
MongoDB .local San Francisco 2020: Tips and Tricks++ for Querying and Indexin...MongoDB
Query performance should be the unsung hero of an application, but without proper configuration, can become a constant headache. When used properly, MongoDB provides extremely powerful querying capabilities. In this session, we'll discuss concepts like equality, sort, range, managing query predicates versus sequential predicates, and best practices to building multikey indexes.
MongoDB .local San Francisco 2020: Aggregation Pipeline Power++MongoDB
Aggregation pipeline has been able to power your analysis of data since version 2.2. In 4.2 we added more power and now you can use it for more powerful queries, updates, and outputting your data to existing collections. Come hear how you can do everything with the pipeline, including single-view, ETL, data roll-ups and materialized views.
MongoDB .local San Francisco 2020: A Complete Methodology of Data Modeling fo...MongoDB
Are you new to schema design for MongoDB, or are you looking for a more complete or agile process than what you are following currently? In this talk, we will guide you through the phases of a flexible methodology that you can apply to projects ranging from small to large with very demanding requirements.
MongoDB .local San Francisco 2020: MongoDB Atlas Data Lake Technical Deep DiveMongoDB
MongoDB Atlas Data Lake is a new service offered by MongoDB Atlas. Many organizations store long term, archival data in cost-effective storage like S3, GCP, and Azure Blobs. However, many of them do not have robust systems or tools to effectively utilize large amounts of data to inform decision making. MongoDB Atlas Data Lake is a service allowing organizations to analyze their long-term data to discover a wealth of information about their business.
This session will take a deep dive into the features that are currently available in MongoDB Atlas Data Lake and how they are implemented. In addition, we'll discuss future plans and opportunities and offer ample Q&A time with the engineers on the project.
MongoDB .local San Francisco 2020: Developing Alexa Skills with MongoDB & GolangMongoDB
Virtual assistants are becoming the new norm when it comes to daily life, with Amazon’s Alexa being the leader in the space. As a developer, not only do you need to make web and mobile compliant applications, but you need to be able to support virtual assistants like Alexa. However, the process isn’t quite the same between the platforms.
How do you handle requests? Where do you store your data and work with it to create meaningful responses with little delay? How much of your code needs to change between platforms?
In this session we’ll see how to design and develop applications known as Skills for Amazon Alexa powered devices using the Go programming language and MongoDB.
MongoDB .local Paris 2020: Realm : l'ingrédient secret pour de meilleures app...MongoDB
aux Core Data, appréciée par des centaines de milliers de développeurs. Apprenez ce qui rend Realm spécial et comment il peut être utilisé pour créer de meilleures applications plus rapidement.
MongoDB .local Paris 2020: Upply @MongoDB : Upply : Quand le Machine Learning...MongoDB
Il n’a jamais été aussi facile de commander en ligne et de se faire livrer en moins de 48h très souvent gratuitement. Cette simplicité d’usage cache un marché complexe de plus de 8000 milliards de $.
La data est bien connu du monde de la Supply Chain (itinéraires, informations sur les marchandises, douanes,…), mais la valeur de ces données opérationnelles reste peu exploitée. En alliant expertise métier et Data Science, Upply redéfinit les fondamentaux de la Supply Chain en proposant à chacun des acteurs de surmonter la volatilité et l’inefficacité du marché.
MongoDB .local Paris 2020: Upply @MongoDB : Upply : Quand le Machine Learning...
Gestion des données d'entreprise à l'ère de MongoDB et du Data Lake
1. Gestion des données d'entreprise à
l'ère de MongoDB et du Data Lake
Matt Kalan
Architecte de solutions
matt.kalan@mongodb.com
@matthewkalan
2. Sommaire
1. Présentation du pipeline EDM (Enterprise Data
Management, ou « gestion de données d'entreprise »)
2. Problèmes actuels
3. Brève présentation de MongoDB
4. Les différentes étapes d'un pipeline EDM
5. L'avenir de l'architecture EDM
6. Étude de cas et scénarios
7. Leçons tirées du Data Lake
3. Pipeline de gestion des données d'entreprise…
Bases de données sources
cloisonnées
Flux externes
(lot)
Flux de diffusion
Icône de flux de diffusion sur https://en.wikipedia.org/wiki/File:Activity_Streams_icon.png
Transformer
Stocker des
données
brutes
AnalyserAgréger
Publicationsecondaire,ETL,importationsdefichiers
Traitement de flux de diffusion
Utilisateurs
Autres
systèmes
4. Conditions
actuellement requises pour la gestion des
données
Données
• Volume
• Vélocité
• Diversité
Temps
• Itératif
• Agile
• Cycles courts
Risque
• Toujours disponible
• Montée en charge
• Global
Coût
• Open Source
• Cloud
• Courant
6. Quelques précisions
• Les jointures superflues dégradent les
performances
• La montée en charge verticale ou horizontale de
ces systèmes est coûteuse
• Les schémas rigides compliquent la consolidation
• Ces systèmes ne sont pas adaptés aux données à
structures variables ou non structurées
• Les modèles courants peuvent provoquer des
différences dans les enregistrements et il sera
nécessaire de les supprimer lors de l'agrégation
• Les processus durent souvent plusieurs heures
d'un jour à l'autre
• Les données ne sont pas assez récentes pour
permettre une prise de décision ou une fidélisation
dans le courant de la journée
11. Les documents dynamisent les schémas et
optimisent les performances
Base de données relationnelle MongoDB
{ customer_id : 1,
first_name : "Mark",
last_name : "Smith",
city : "San Francisco",
phones: [
{
number : “1-212-777-1212”,
dnc : true,
type : “home”
},
number : “1-212-777-1213”,
type : “cell”
}]
}
ID client Prénom Nom Ville
0 John Doe New York
1 Mark Smith San Francisco
2 Jay Black Newark
3 Meagan White London
4 Edward Daniels Boston
Numéro de téléphone Type NPC ID client
1-212-555-1212 domicile T 0
1-212-555-1213 domicile T 0
1-212-555-1214 portable F 0
1-212-777-1212 domicile T 1
1-212-777-1213 portable (null) 1
1-212-888-1212 domicile F 2
12. Avantages du modèle basé sur des
documents
Agilité et flexibilité
Ce modèle de données prend en charge les évolutions
d'activités
Il permet une itération rapide pour répondre à de
nouvelles demandes
Représentation naturelle et intuitive des données
Suppression de la couche de mappage objet-relationnel
(ou ORM, pour Object-Relational Mapping)
Amélioration de la productivité des développeurs
Réduction du besoin de jointures et de recherches
sur le disque
Simplification de la programmation
Montée en charge performante
{
customer_id : 1,
first_name : "Mark",
last_name : "Smith",
city : "San Francisco",
phones: [
{
number : “1-212-777-1212”,
dnc : true,
type : “home”
},
number : “1-212-777-1213”,
type : “cell”
}]
}
13. Capacités techniques de MongoDB
Application
Pilote
Mongos
Primaire
Secondaire
Secondaire
Partition 1
Primaire
Secondaire
Secondaire
Partition 2
…
Primaire
Secondaire
Secondaire
Partition N
db.customer.insert({…})
db.customer.find({
name: ”John Smith”})
1.Schéma de document
dynamique
{ name: “John Smith”,
date: “2013-08-01”,
address: “10 3rd St.”,
phone: {
home: 1234567890,
mobile: 1234568138 }
}
2. Pilotes de langage natifs
5. Performances
élevées
- Localité des
données
- Index
- RAM
3. Haute
disponibilité
- Jeux de réplicas
6. Scalabilité horizontale
- Partitionnement
4. Isolement de la
charge de travail
- Lecture à partir
de membres
secondaires
14. Morphia
Pile MEAN
Java Python PerlRuby
Prise en charge des langages et
infrastructures les plus répandus
Pilotes et écosystèmes
15. 15
Amélioration de la localité
des données
Mise en cache en mémoire Index flexibles
Performances
vs.
Relational MongoDB
16. Montée en charge
250 M de
fluctuations/seco
nde
Plus
de 300 000 opér
ations/seconde
Plus
de 500 000 opér
ations/seconde
Agence fédérale
Performances
1 400 serveurs
Plus de
1 000 serveurs
Plus de
250 serveurs
Entreprise de
loisirs
Cluster
Pétaoctets
Dizaines de milliards
d'objets
13 milliards de
documents
Données
Société Internet
asiatique
17. Fonctionnalités de la version 3.2 adaptées
à la gestion de données d'entreprise
1. WiredTiger en tant que moteur de stockage par défaut
2. Moteur de stockage en mémoire
3. Chiffrement au repos
4. Règles de validation de document
5. Compass (affichage de données et développement de requêtes)
6. Connector pour BI (affichage)
7. $lookUp (jointure externe gauche)
18. Gouvernance des données avec validation
des documents
Mettez en place une gouvernance
des données sans sacrifier les
capacités d'agilité d'un schéma
dynamique
• Appliquez une norme de qualité pour vos
données entre plusieurs équipes et
applications
• Utilisez des expressions MongoDB
familières pour contrôler la structure de
vos documents
• La validation est facultative et peut
s'avérer aussi simple que pour un champ
unique, en se répétant pour tous les
champs, notamment pour l'existence, les
types de données et les expressions
régulières
19. MongoDB Compass
Pour accélérer la
détection de schéma et
construire des requêtes
ad hoc de façon visuelle
• Affichage de schéma
– Fréquence des champs
– Fréquence des types
– Choix des règles de
validation
• Affichage des documents
• Développement graphique
des requêtes
• Accès authentifié
20. MongoDB Connector pour BI
Affichez et parcourez des
documents multidimensionnels
à l'aide d'outils BI basés sur
SQL. Le connecteur effectue les
tâches suivantes :
• Fournit l'outil BI avec le schéma de la
collection MongoDB à afficher
• Traduit les instructions SQL émises
par l'outil BI en requêtes MongoDB
équivalentes, qui sont envoyées vers
MongoDB pour être traitées
• Convertit les résultats en un format
tabulaire attendu par l'outil BI, qui peut
ensuite afficher les données en
fonction des besoins de leurs
utilisateurs
21. Recherche dynamique
Utilisez des jointures externes gauche
pour combiner des données provenant
de plusieurs collections, afin d'affiner
vos analyses et améliorer la flexibilité de
la modélisation de vos données
• Mélangez des données de plusieurs sources afin
de les analyser
• Améliorez les performances de vos analyses tout
en réduisant le code de votre application, ce qui
facilite le travail de vos développeurs
• La recherche est effectuée via l'opérateur
$lookup, intégré dans le pipeline de MongoDB
Aggregation Framework
22. Aggregation Framework : analyse via pipeline
En partant de la collection d'origine, chaque
enregistrement (document) contient un
certain nombre de formes (clés), chacune
dotée d'une couleur précise (valeur)
• $match filtre les documents qui ne
contiennent pas de diamant rouge
• $project ajoute un nouvel attribut « carré »
dont la valeur est calculée à partir de la
valeur (couleur) des attributs en flocon et en
triangle
• $lookup procède à une jointure externe
gauche vers une autre collection, où l'étoile
sert de clé de comparaison
• Pour finir, l'étape $group regroupe les
données en fonction de la couleur du carré
et produit des statistiques pour chaque
groupe
24. 4e en terme de popularité, croissance la plus
rapide
RANG DBMS MODÈLE SCORE
CROISSANCE
(20 MO)
1. Oracle DBMS relationnel 1 442 -5 %
2. MySQL DBMS relationnel 1 294 2 %
3.
Microsoft SQL
Server
DBMS relationnel 1 131 -10 %
4. MongoDB Stockage de documents 277 172 %
5. PostgreSQL DBMS relationnel 273 40 %
6. DB2 DBMS relationnel 201 11 %
7. Microsoft Access DBMS relationnel 146 -26 %
8. Cassandra Colonne large 107 87 %
9. SQLite DBMS relationnel 105 19 %
Source : Classement des bases de données et des moteurs de
bases de données en terme de popularité ; mai 2015
Seule base de données non relationnelle dans le top 5 ; 2,5 fois plus populaire que le concurrent NoSQL le plus proche
25. Écosystème de partenaires (plus de 500)
* BI Connector (pilote ODBC) et $lookUp (jointure externe gauche) doivent être publiés avec la version 3.2
durant le 4e trimestre
26. 1. Espace de stockage de données
opérationnelles
2. Service de données d'entreprise
3. Datamart/Cache
4. Distribution de données de référence
5. Vue d'ensemble des opérations
6. Opérationnalisation de l'outil Hadoop
Modèles d'architecture MongoDB
Système
d'enregistrement
Système de
fidélisation
27. Connecteur Hadoop/Spark MongoDB
• Latence de moins d'une
seconde
• Requête expressive
• Indexation flexible
• Agrégations dans la base de
données
• Adapté à n'importe quel sous-
ensemble de données
• Tâches plus longues
• Analyses par lot
• Ajout de fichiers uniquement
• Idéal pour l'analyse de toutes
les données ou de sous-
ensembles volumineux dans
des fichiers
Traitement/analyse distribué(e)
- Connecteur MongoDB
pour Hadoop
- Spark-mongodb
Les deux fournissent :
• Schéma pour la lecture
• Réduction du coût
total de propriété
(TCO)
• Montée en charge
horizontale
28. Comment faire votre choix parmi les
produits de gestion dans le pipeline
EDM
29. Pipeline de gestion des données d'entreprise…
Bases de données sources
cloisonnées
Flux externes
(lot)
Flux de diffusion
Icône de flux de diffusion sur https://en.wikipedia.org/wiki/File:Activity_Streams_icon.png
Transformer
Stocker des
données
brutes
AnalyserAgréger
Publicationsecondaire,ETL,importationsdefichiers
Traitement de flux de diffusion
Utilisateurs
Autres
systèmes
30. Comment choisir la couche de gestion des
données pour chaque étape ou pour
l'ensemble des étapes ?
Couche de
traitement
?
Lorsque vous avez besoin :
1. D'index secondaires
2. D'une latence de moins
d'une seconde
3. D'agrégations dans votre
base de données
4. De mises à jour de vos
données
Pour :
1. Analyser des fichiers
2. Lorsque vous n'avez
pas besoin d'index
Stockage de colonne large
(par exemple : HBase)
Pour :
1. Requêtes de clé primaire
2. Si vous n'avez pas besoin
de plusieurs index et
tranches
3. Optimisé pour l'écriture,
mais pas pour la lecture
31. Transformer
…
Bases de données
sources
cloisonnées
Flux externes
(lot)
Flux de diffusion
Icône de flux de diffusion sur https://en.wikipedia.org/wiki/File:Activity_Streams_icon.png
AnalyserAgréger
Publicationsecondaire,ETL,importationsde
fichiers
Traitement de flux de diffusion
Utilisateurs
Autres
systèmes
Stockage de données pour un jeu de données brut
Stocker des
données
brutes
Utilisateurs
Transformer
- Habituellement utilisé pour l'écriture
successive des enregistrements d'une
source de données
- Généralement requis pour traiter les
volumes d'écriture élevés
- Prise en charge par les 3 options
Transformation des besoins de lecture
- Avantages de la lecture de plusieurs jeux de données
triés [par index], par exemple, pour effectuer une
fusion
- Utile pour effectuer une recherche entre des tables
avec des index (et en utilisant une fonctionnalité de
jointure dans MDB version 3.2)
- Besoin de performances de lecture élevées pendant
l'écriture
Les requêtes interactives
appliquées sur les données
brutes peuvent utiliser des
index avec MongoDB
32. Stocker des
données
brutes
Transformer
…
Bases de données
sources
cloisonnées
Flux externes
(lot)
Flux de diffusion
Icône de flux de diffusion sur https://en.wikipedia.org/wiki/File:Activity_Streams_icon.png
Analyser
Publicationsecondaire,ETL,importationsde
fichiers
Traitement de flux de diffusion
Utilisateurs
Autres
systèmes
Stockage de données pour un jeu de données
transformé
Utilisateurs
AgrégerTransformer
Améliore généralement la
mise à jour des données
durant la fusion de
plusieurs jeux de données
Les tableaux de bord et
les rapports peuvent être
associés à une latence de
moins d'une seconde
avec des index
Agréger les besoins de lecture
- Avantages de l'utilisation des index pour le regroupement
- Les agrégations en natif dans la base de données peuvent
s'avérer utile
- Peut effectuer des agrégations sur les tranches de données
avec des index
- Utile pour effectuer une recherche entre des tables avec des
index à agréger
33. Transformer
Stocker des
données
brutes
Transformer
…
Bases de données
sources
cloisonnées
Flux externes
(lot)
Flux de diffusion
Icône de flux de diffusion sur https://en.wikipedia.org/wiki/File:Activity_Streams_icon.png
Publicationsecondaire,ETL,importationsde
fichiers
Traitement de flux de diffusion
Utilisateurs
Autres
systèmes
Stockage de données pour un jeu de données
agrégé
Utilisateurs
AnalyserAgréger
Les tableaux de bord
et les rapports
peuvent être associés
à une latence de
moins d'une seconde
avec des index
Besoins de lecture d'analyse
- Pour l'analyse de toutes les données,
peut s'effectuer dans n'importe quel
stockage de données
- Généralement utilisé pour analyser une
tranche de données (à l'aide d'index)
- L'utilisation de requêtes en tranches
fonctionne mieux dans MongoDB
34. AgrégerTransformer
Stocker des
données
brutes
Transformer
…
Bases de données
sources
cloisonnées
Flux externes
(lot)
Flux de diffusion
Icône de flux de diffusion sur https://en.wikipedia.org/wiki/File:Activity_Streams_icon.png
Publicationsecondaire,ETL,importationsde
fichiers
Traitement de flux de diffusion
Utilisateurs
Stockage de données pour le dernier jeu de
données
Analyser
Utilisateurs
Les tableaux de bord
et les rapports
peuvent être associés
à une latence de
moins d'une seconde
avec des index
- Durant la dernière étape, il existe de
nombreux systèmes et utilisateurs
consommateurs
- Il faut employer des requêtes
expressives avec des index secondaires
- MongoDB constitue la meilleure option
pour la publication ou la distribution
des résultats d'analyse et
l'opérationnalisation des données
Autres
systèmesSouvent des applications
numériques
- À grande échelle
- Requête expressive
- JSON plus adapté
Généralement
pour des
services
RESTful, des
API
36. Architecture EDM plus complète et Data Lake…
Bases de données
sources cloisonnées
Flux externes
(lot)
Flux de diffusion
Icône de flux de diffusion sur https://en.wikipedia.org/wiki/File:Activity_Streams_icon.png
Pipeline de traitement de données
Publicationsecondaire,ETL,importationsdefichiers
Traitement de flux de diffusion
Systèmes en
amont
… …
Application
CSR unique
Applications
numériques
unifiées
Création de
rapports sur
les opérations
…
… …
Création de
rapports
d'analyse
Pilotes et piles
Mise en
cluster
client
Analyse
évolutive
Analyses
prédictives
…
Traitement distribué
Applications et création de rapports sur les opérations
Gouvernance pour
choisir où charger et
traiter les données
Emplacement optimal
pour fournir des délais
de réponse et des
tranches pour les
opérations
Possibilité d'exécuter
le traitement sur
toutes les données ou
les tranches
Data Lake
37. Exemples de scénarios
1. Affichage d'un seul client
a. Opérationnel
b. Analyse des segments du client
c. Analyse de tous les clients
2. Profils et mises en cluster des clients
3. Présentation des analyses évolutives des clients de grande valeur
38. Une des
20 principales
banques
internationales
Étude de cas
Plateforme de surveillance en temps réel unifiée pour les
canaux orientés clients via la plateforme de Big Data de
Stratio
Problème Pourquoi MongoDB Résultats
Problème Solution Résultats
Besoin d'une qualité de service
élevée sur des canaux en ligne
Plusieurs sources et flux de
données non exploités (journaux,
clics, interactions sociales, etc.)
Besoin de capacité de
surveillance des délais de
réponse du service et d'analyse
des causes fondamentales
Utilisation de Flume pour
journaliser les données,
MongoDB pour la persistance et
les indicateurs de performance
clés, et Spark pour l'analyse
Un modèle de données flexible
permettait la prise en charge d'un
grand nombre de données de
machines
La scalabilité linéaire facilitait la
gestion des chargements
supplémentaires pour chaque
source de données
La solution affecte l'infrastructure
de 31 pays et de 51 millions de
clients
Possibilité de respecter à présent
les ANS à travers l'infrastructure
L'amélioration des délais de
réponse améliore le taux de
satisfaction des clients, ainsi que
les revenus
39. Leçons tirées du Data Lake
1. Définir les objectifs
2. Concevoir l'étape à venir
3. Prendre en considération l'intégralité du cycle de vie des
données pour l'opérationnalisation
4. Planifier la gestion des métadonnées pour éviter le gaspillage
de données
5. Fournir une valeur commerciale de façon incrémentielle pour
l'étape suivante
6. Prendre une décision à propos de la couche de gestion des
données en fonction de l'utilisation future des données
(notamment pour les besoins de lecture)
7. MongoDB comble la plupart des lacunes en réduisant la
latence et en fournissant des index
40. Avantages de MongoDB et Hadoop combinés
au Data Lake
• Baisse du TCO pour le matériel courant
• Amélioration de l'agilité et accélération de la
commercialisation du schéma pour la lecture
• Plus grande précision des informations obtenues
en raison des différences de données exploitables
pour une analyse plus approfondie
• Réduction du coût des montées en charge pour
répondre aux ANS
• Données récentes permettant une prise de décision
en cours de journée
• Délais de réponse de latence faibles
• Utilisation facultative des ressources avec
l'indexation
• Amélioration globale des informations et de l'impact
commercial
41. Pour en savoir plus
Ressource Emplacement
Didacticiel pour l'opérationnalisation de
Spark avec MongoDB
www.mongodb.com/blog/post/tutorial-for-operationalizing-
spark-with-mongodb
Utilisation de MongoDB avec Hadoop et
Spark
www.mongodb.com/blog/post/using-mongodb-hadoop-spark-
part-1-introduction-setup
Références de scalabilité
www.mongodb.com/collateral/scalability-benchmarking-
mongodb-and-nosql-systems-report
Études de cas mongodb.com/customers
Présentations mongodb.com/presentations
Formation en ligne gratuite education.mongodb.com
Webinaires et événements mongodb.com/events
Documentation docs.mongodb.org
Téléchargements MongoDB mongodb.com/download
Notes de l'éditeur
Le traitement des flux de diffusion est généralement situé sur un niveau de traitement distinct de celui du traitement par lot, mais il peut être stocké dans les magasins de données à différentes étapes.
À présent que nous comprenons vos objectifs et certaines des difficultés que vous rencontrez, je vais vous expliquer pourquoi nous avons développé MongoDB et en quoi nous pouvons vous être utile.
À l'origine, nous avons remarqué certaines évolutions commerciales et technologies sur le marché. Nous avons conçu MongoDB pour répondre à ces changements…
Données [essayez d'établir un lien avec les informations obtenues auprès du client]
90 % des données ont été créées au cours des 2 dernières années
80 % des données d'entreprise ne sont pas structurées
Les données non structurées augmentent 2 fois plus vite que les données structurées
Délais [essayez d'établir un lien avec les informations obtenues auprès du client]
Les méthodes de développement ne sont plus en cascade (12 à 24 mois), mais itératives
C'est pourquoi des sociétés de pointe, telles que Facebook ou Etsy, expédient du code plusieurs fois par jour
Risques [essayez d'établir un lien avec les informations obtenues auprès du client]
Les bases d'utilisateurs ne sont plus internes (milliers d'utilisateurs), mais externes (millions d'utilisateurs)
Défaillance impossible
À l'échelle mondiale
Coûts [essayez d'établir un lien avec les informations obtenues auprès du client]
Les modèles économiques ont basculé vers l'Open Source et le SaaS pour un paiement selon la valeur au fil du temps
Possibilité d'exploiter le Cloud et les architectures les plus courantes pour réduire les coûts d'infrastructure
Observons les autres technologies disponibles sur le marché...
Les bases de données relationnelles ont posé les fondations de ce que vous attendez de votre base de données
Un accès aux données complet et rapide, à l'aide d'un langage de requête expressif et d'index secondaires
Une cohérence forte, pour toujours exécuter la version la plus récente de vos données
Ces bases ne sont toutefois plus adaptées au monde actuel
Elles sont développées pour des cycles de développement en cascade et des données structurées
Elles sont conçues pour des utilisateurs internes et non pas de nombreux utilisateurs à travers le monde
(elles proviennent de fournisseurs souhaitant collecter d'importants frais de licence à l'avance)
--> Ce qu'elles gagnent en matière d'accès aux données et en cohérence, elles le perdent en flexibilité, scalabilité et performance
Pourrait être plus visuel
Nous avons conçu MongoDB pour répondre aux changements actuels tout en préservant les principales capacités de base de données requises pour développer des applications fonctionnelles.
MongoDB est la seule base de données exploitant les innovations du NoSQL tout en conservant les fondements des bases de données relationnelles.
Nous avons conçu MongoDB pour répondre aux changements actuels tout en préservant les principales capacités de base de données requises pour développer des applications fonctionnelles.
MongoDB est la seule base de données exploitant les innovations du NoSQL tout en conservant les fondements des bases de données relationnelles.
Pour en savoir plus : http://www.mongodb.com/mongodb-scale
Suivi de l'étendue de Kernel 3.2 (en anglais) : https://docs.google.com/spreadsheets/d/1L1EbbWoshUIHXBzCh5e3sALtAFxm_dJ52SRPR6GzeAY/edit#gid=0
Notes de publication de la version 3.1.6 (en anglais) : http://docs.mongodb.org/manual/release-notes/3.1-dev-series/
Choix des règles de validation : Vous pouvez utiliser l'outil pour définir les règles de validation de votre choix
$lookup : crée des documents contenant tous les éléments provenant de l'étape précédente, ainsi que les données de n'importe quel document de la seconde collection contenant une étoile de la couleur correspondante (par exemple, des valeurs correspondent aux étoiles bleues et jaunes, mais ce n'est pas le cas pour l'étoile rouge)
Pour la création de rapports, plusieurs fournisseurs d'aide à la décision (ou « BI », pour « Business Intelligence ») ont développé des connecteurs pour intégrer MongoDB à leurs suites, en tant que source de données, conjointement à des bases de données relationnelles traditionnelles. Cette intégration permet d'utiliser les données MongoDB pour créer des rapports, afficher des représentations graphiques et mettre en place des tableaux de bord
Le traitement des flux de diffusion est généralement situé sur un niveau de traitement distinct de celui du traitement par lot, mais il peut être stocké dans les magasins de données à différentes étapes.
Un seul diagramme logique. Le traitement peut s'effectuer sur les mêmes serveurs physiques que les nœuds de stockage, afin de réduire le déplacement des données