Differentiate Big Data vs Data Warehouse use cases for a cloud solutionJames Serra
It can be quite challenging keeping up with the frequent updates to the Microsoft products and understanding all their use cases and how all the products fit together. In this session we will differentiate the use cases for each of the Microsoft services, explaining and demonstrating what is good and what isn't, in order for you to position, design and deliver the proper adoption use cases for each with your customers. We will cover a wide range of products such as Databricks, SQL Data Warehouse, HDInsight, Azure Data Lake Analytics, Azure Data Lake Store, Blob storage, and AAS as well as high-level concepts such as when to use a data lake. We will also review the most common reference architectures (“patterns”) witnessed in customer adoption.
Data Warehouses in Kubernetes Visualized: the ClickHouse Kubernetes Operator UIAltinity Ltd
Graham Mainwaring and Robert Hodges summarize management of ClickHouse on Kubernetes using the ClickHouse Kubernetes Operator and introduce a new UI for it. Presented at the 15 Dec '22 SF Bay Area ClickHouse Meetup.
데브시스터즈 데이터 레이크 구축 이야기 : Data Lake architecture case study (박주홍 데이터 분석 및 인프라 팀...Amazon Web Services Korea
데브시스터즈 데이터 레이크 구축 이야기 : Data Lake architecture case study
이 세션에서는 데브시스터즈의 Case Study를 통하여 Data Lake를 만들고 사용하는데 있어 요구 되는 사항들에 대해 공유합니다. 여러 목적에 맞는 데이터를 전달하기 위해 AWS 를 활용하여 Data Lake 를 구축하게된 계기와 실제 구축 작업을 하면서 경험하게 된 것들에 대해 말씀드리고자 합니다. 기존 인프라 구조 대비 효율성 및 비용적 측면을 소개해드리고, 빅데이터를 이용한 부서별 데이터 세분화를 진행할 때 어떠한 Architecture가 사용되었는지 소개드리고자 합니다.
Differentiate Big Data vs Data Warehouse use cases for a cloud solutionJames Serra
It can be quite challenging keeping up with the frequent updates to the Microsoft products and understanding all their use cases and how all the products fit together. In this session we will differentiate the use cases for each of the Microsoft services, explaining and demonstrating what is good and what isn't, in order for you to position, design and deliver the proper adoption use cases for each with your customers. We will cover a wide range of products such as Databricks, SQL Data Warehouse, HDInsight, Azure Data Lake Analytics, Azure Data Lake Store, Blob storage, and AAS as well as high-level concepts such as when to use a data lake. We will also review the most common reference architectures (“patterns”) witnessed in customer adoption.
Data Warehouses in Kubernetes Visualized: the ClickHouse Kubernetes Operator UIAltinity Ltd
Graham Mainwaring and Robert Hodges summarize management of ClickHouse on Kubernetes using the ClickHouse Kubernetes Operator and introduce a new UI for it. Presented at the 15 Dec '22 SF Bay Area ClickHouse Meetup.
데브시스터즈 데이터 레이크 구축 이야기 : Data Lake architecture case study (박주홍 데이터 분석 및 인프라 팀...Amazon Web Services Korea
데브시스터즈 데이터 레이크 구축 이야기 : Data Lake architecture case study
이 세션에서는 데브시스터즈의 Case Study를 통하여 Data Lake를 만들고 사용하는데 있어 요구 되는 사항들에 대해 공유합니다. 여러 목적에 맞는 데이터를 전달하기 위해 AWS 를 활용하여 Data Lake 를 구축하게된 계기와 실제 구축 작업을 하면서 경험하게 된 것들에 대해 말씀드리고자 합니다. 기존 인프라 구조 대비 효율성 및 비용적 측면을 소개해드리고, 빅데이터를 이용한 부서별 데이터 세분화를 진행할 때 어떠한 Architecture가 사용되었는지 소개드리고자 합니다.
Big data architectures and the data lakeJames Serra
With so many new technologies it can get confusing on the best approach to building a big data architecture. The data lake is a great new concept, usually built in Hadoop, but what exactly is it and how does it fit in? In this presentation I'll discuss the four most common patterns in big data production implementations, the top-down vs bottoms-up approach to analytics, and how you can use a data lake and a RDBMS data warehouse together. We will go into detail on the characteristics of a data lake and its benefits, and how you still need to perform the same data governance tasks in a data lake as you do in a data warehouse. Come to this presentation to make sure your data lake does not turn into a data swamp!
From AWS Data Pipeline to Airflow - managing data pipelines in Nielsen Market...Itai Yaffe
Tal Sharon (Software Architect), Aviel Buskila (DevOps Engineer) and Max Peres (Data Engineer) @ Nielsen:
At the Nielsen Marketing Cloud, we used to manage our data pipelines via AWS Data Pipeline. Over the years, we’ve encountered several issues with this tool, and a year ago we decided to embark on a journey to replace it with a tool more suitable for our needs.
In this session, we’ll discuss how we actually migrated to Airflow, what challenges we faced and how we mitigated them (and even contributed to the open-source project along the way). We’ll also provide some helpful tips for Airflow users
The perfect couple: Uniting Large Language Models and Knowledge Graphs for En...Neo4j
Large Language models are amazing but are also black-box models that often fail to capture and accurately represent factual knowledge. Knowledge graphs, by contrast, are structural knowledge models that explicitly represent knowledge and, indeed, allow us to detect implicit relationships. In this talk we will demonstrate how LLMs can be improved by Knowledge Graphs, and how LLM’s can augment Knowledge Graphs. A perfect couple!
More and more organizations are moving their ETL workloads to a Hadoop based ELT grid architecture. Hadoop`s inherit capabilities, especially it`s ability to do late binding addresses some of the key challenges with traditional ETL platforms. In this presentation, attendees will learn the key factors, considerations and lessons around ETL for Hadoop. Areas such as pros and cons for different extract and load strategies, best ways to batch data, buffering and compression considerations, leveraging HCatalog, data transformation, integration with existing data transformations, advantages of different ways of exchanging data and leveraging Hadoop as a data integration layer. This is an extremely popular presentation around ETL and Hadoop.
Introduction to Google BigQuery. Slides used at the first GDG Cloud meetup in Brussels, about big data on Google Cloud Platform. (http://www.meetup.com/GDG-Cloud-Belgium/events/228206131)
Building an Effective Data Warehouse ArchitectureJames Serra
Why use a data warehouse? What is the best methodology to use when creating a data warehouse? Should I use a normalized or dimensional approach? What is the difference between the Kimball and Inmon methodologies? Does the new Tabular model in SQL Server 2012 change things? What is the difference between a data warehouse and a data mart? Is there hardware that is optimized for a data warehouse? What if I have a ton of data? During this session James will help you to answer these questions.
The 'macro view' on Big Query:
We started with an overview, some typical uses and moved to project hierarchy, access control and security.
In the end we touch about tools and demos.
Retrieval Augmented Generation in Practice: Scalable GenAI platforms with k8s...Mihai Criveti
Mihai is the Principal Architect for Platform Engineering and Technology Solutions at IBM, responsible for Cloud Native and AI Solutions. He is a Red Hat Certified Architect, CKA/CKS, a leader in the IBM Open Innovation community, and advocate for open source development. Mihai is driving the development of Retrieval Augmentation Generation platforms, and solutions for Generative AI at IBM that leverage WatsonX, Vector databases, LangChain, HuggingFace and open source AI models.
Mihai will share lessons learned building Retrieval Augmented Generation, or “Chat with Documents” platforms and APIs that scale, and deploy on Kubernetes. His talk will cover use cases for Generative AI, limitations of Large Language Models, use of RAG, Vector Databases and Fine Tuning to overcome model limitations and build solutions that connect to your data and provide content grounding, limit hallucinations and form the basis of explainable AI. In terms of technology, he will cover LLAMA2, HuggingFace TGIS, SentenceTransformers embedding models using Python, LangChain, and Weaviate and ChromaDB vector databases. He’ll also share tips on writing code using LLM, including building an agent for Ansible and containers.
Scaling factors for Large Language Model Architectures:
• Vector Database: consider sharding and High Availability
• Fine Tuning: collecting data to be used for fine tuning
• Governance and Model Benchmarking: how are you testing your model performance
over time, with different prompts, one-shot, and various parameters
• Chain of Reasoning and Agents
• Caching embeddings and responses
• Personalization and Conversational Memory Database
• Streaming Responses and optimizing performance. A fine tuned 13B model may
perform better than a poor 70B one!
• Calling 3rd party functions or APIs for reasoning or other type of data (ex: LLMs are
terrible at reasoning and prediction, consider calling other models)
• Fallback techniques: fallback to a different model, or default answers
• API scaling techniques, rate limiting, etc.
• Async, streaming and parallelization, multiprocessing, GPU acceleration (including
embeddings), generating your API using OpenAPI, etc.
Knowledge Graphs and Generative AI
Dr. Katie Roberts, Data Science Solutions Architect, Neo4j
It’s no secret that Large Language Models (LLMs) are popular right now, especially in the age of Generative AI. LLMs are powerful models that enable access to data and insights for any user, regardless of their technical background, however, they are not without challenges. Hallucinations, generic responses, bias, and a lack of traceability can give organizations pause when thinking about how to take advantage of this technology. Graphs are well suited to ground LLMs as they allow you to take advantage of relationships within your data that are often overlooked with traditional data storage and data science approaches. Combining Knowledge Graphs and LLMs enables contextual and semantic information retrieval from both structured and unstructured data sources. In this session, you’ll learn how graphs and graph data science can be incorporated into your analytics practice, and how a connected data platform can improve explainability, accuracy, and specificity of applications backed by foundation models.
The recent focus on Big Data in the data management community brings with it a paradigm shift—from the more traditional top-down, “design then build” approach to data warehousing and business intelligence, to the more bottom up, “discover and analyze” approach to analytics with Big Data. Where does data modeling fit in this new world of Big Data? Does it go away, or can it evolve to meet the emerging needs of these exciting new technologies? Join this webinar to discuss:
Big Data –A Technical & Cultural Paradigm Shift
Big Data in the Larger Information Management Landscape
Modeling & Technology Considerations
Organizational Considerations
The Role of the Data Architect in the World of Big Data
ClickHouse and the Magic of Materialized Views, By Robert Hodges and Altinity...Altinity Ltd
Presented at the webinar, June 26, 2019
Materialized views are a killer feature of ClickHouse that can speed up queries 20X or more. Our webinar will teach you how to use this potent tool starting with how to create materialized views and load data. We'll then walk through cookbook examples to solve practical problems like deriving aggregates that outlive base data, answering last point queries, and using AggregateFunctions to handle problems like counting unique values, which is a special ClickHouse feature. There will be time for Q&A at the end. At that point you'll be a wizard of ClickHouse materialized views and able to cast spells of your own.
Converteo renouvelle son panorama sur les opportunités liées à une infrastructure Data-Lakes. Cette technologie a démontré ses capacités d’exploitation et de valorisation des datas des entreprises et, dans un contexte de mise en conformité RGPD, révèle encore plus son agilité.
Mieux comprendre le Data-Lake :
Littéralement traduit par lac de données, il s’agit d’un espace de stockage permettant le traitement d’informations de plusieurs sources et ce, de manière quasi illimitée et en un temps record.
Le Data-Lake est donc une réelle opportunité et doit être considéré en amont de toute démarche data-driven, que ce soit dans le domaine :
- Du marketing : pour alimenter des campagnes, choisir un lieu d’implantation d’un nouveau magasin ;
- De l’expérience client : pour personnaliser une offre, recommander les produits adéquats ;
- De la business Intelligence : pour créer une vision 360° de ses clients, piloter la pression publicitaire ;
- De la performance opérationnelle : pour réduire ses coûts informatiques, adapter ses ressources en fonction de l’activité.
Infrastructure flexible, elle permet donc un large champ d’analyse qualitative avec des données activables à tout moment en fonction des besoins business.
Webinar Denodo & CRIP : Souveraineté, information sensible et data gouvernanc...Denodo
Watch full webinar here: https://buff.ly/46fhGwK
A l’ère où l’adoption de nouvelles technologies et la modernisation des infrastructures de données s’accélèrent, la sécurité des données reste une priorité absolue. Les entreprises sont confrontées à un volume de plus en plus important de données et l’éclatement de ces dernières est une quasi-constante dans toutes les organisations : piloter cet ensemble peut donc s’avérer difficile.
C’est pour cette raison que la mise en place d’une gouvernance efficace des données prend un rôle fondamental pour tirer le meilleur parti de toutes ces informations.
Dans ce webinar, nous vous proposons de discuter des technologies à adopter pour mettre en place une gouvernance des données efficace.
Nous verrons notamment comment Denodo Platform, basée sur la technologie de data virtualization, peut jouer un rôle essentiel en matière de gouvernance et de sécurité des données, en permettant un niveau élevé de sécurité et d’auditabilité, du masquage en temps réel, du lignage, la détection des changements concernant les sources de données et le contrôle de l’impact sur les consommateurs, ainsi qu’une intégration aux systèmes externes de gestion d’entreprise des métadonnées.
Rejoignez ce webinar pour découvrir :
- Pourquoi la Denodo Platform représente une technologie essentielle dans la mise en place d'une gouvernance efficace de vos données,
- Comment Denodo Platform simplifie l’accès aux données de l'entreprise grâce à un point unique d’accès à la donnée tout en fournissant une couche de sécurité et de gouvernance,
- Comment Denodo Platform permet aux utilisateurs métiers un accès contrôlé à toutes les données, quel que soit leur emplacement, rapidement et facilement,
- Une démo live de certaines des capacités clés de la plateforme Denodo permettant d'illustrer ce webinar.
Big data architectures and the data lakeJames Serra
With so many new technologies it can get confusing on the best approach to building a big data architecture. The data lake is a great new concept, usually built in Hadoop, but what exactly is it and how does it fit in? In this presentation I'll discuss the four most common patterns in big data production implementations, the top-down vs bottoms-up approach to analytics, and how you can use a data lake and a RDBMS data warehouse together. We will go into detail on the characteristics of a data lake and its benefits, and how you still need to perform the same data governance tasks in a data lake as you do in a data warehouse. Come to this presentation to make sure your data lake does not turn into a data swamp!
From AWS Data Pipeline to Airflow - managing data pipelines in Nielsen Market...Itai Yaffe
Tal Sharon (Software Architect), Aviel Buskila (DevOps Engineer) and Max Peres (Data Engineer) @ Nielsen:
At the Nielsen Marketing Cloud, we used to manage our data pipelines via AWS Data Pipeline. Over the years, we’ve encountered several issues with this tool, and a year ago we decided to embark on a journey to replace it with a tool more suitable for our needs.
In this session, we’ll discuss how we actually migrated to Airflow, what challenges we faced and how we mitigated them (and even contributed to the open-source project along the way). We’ll also provide some helpful tips for Airflow users
The perfect couple: Uniting Large Language Models and Knowledge Graphs for En...Neo4j
Large Language models are amazing but are also black-box models that often fail to capture and accurately represent factual knowledge. Knowledge graphs, by contrast, are structural knowledge models that explicitly represent knowledge and, indeed, allow us to detect implicit relationships. In this talk we will demonstrate how LLMs can be improved by Knowledge Graphs, and how LLM’s can augment Knowledge Graphs. A perfect couple!
More and more organizations are moving their ETL workloads to a Hadoop based ELT grid architecture. Hadoop`s inherit capabilities, especially it`s ability to do late binding addresses some of the key challenges with traditional ETL platforms. In this presentation, attendees will learn the key factors, considerations and lessons around ETL for Hadoop. Areas such as pros and cons for different extract and load strategies, best ways to batch data, buffering and compression considerations, leveraging HCatalog, data transformation, integration with existing data transformations, advantages of different ways of exchanging data and leveraging Hadoop as a data integration layer. This is an extremely popular presentation around ETL and Hadoop.
Introduction to Google BigQuery. Slides used at the first GDG Cloud meetup in Brussels, about big data on Google Cloud Platform. (http://www.meetup.com/GDG-Cloud-Belgium/events/228206131)
Building an Effective Data Warehouse ArchitectureJames Serra
Why use a data warehouse? What is the best methodology to use when creating a data warehouse? Should I use a normalized or dimensional approach? What is the difference between the Kimball and Inmon methodologies? Does the new Tabular model in SQL Server 2012 change things? What is the difference between a data warehouse and a data mart? Is there hardware that is optimized for a data warehouse? What if I have a ton of data? During this session James will help you to answer these questions.
The 'macro view' on Big Query:
We started with an overview, some typical uses and moved to project hierarchy, access control and security.
In the end we touch about tools and demos.
Retrieval Augmented Generation in Practice: Scalable GenAI platforms with k8s...Mihai Criveti
Mihai is the Principal Architect for Platform Engineering and Technology Solutions at IBM, responsible for Cloud Native and AI Solutions. He is a Red Hat Certified Architect, CKA/CKS, a leader in the IBM Open Innovation community, and advocate for open source development. Mihai is driving the development of Retrieval Augmentation Generation platforms, and solutions for Generative AI at IBM that leverage WatsonX, Vector databases, LangChain, HuggingFace and open source AI models.
Mihai will share lessons learned building Retrieval Augmented Generation, or “Chat with Documents” platforms and APIs that scale, and deploy on Kubernetes. His talk will cover use cases for Generative AI, limitations of Large Language Models, use of RAG, Vector Databases and Fine Tuning to overcome model limitations and build solutions that connect to your data and provide content grounding, limit hallucinations and form the basis of explainable AI. In terms of technology, he will cover LLAMA2, HuggingFace TGIS, SentenceTransformers embedding models using Python, LangChain, and Weaviate and ChromaDB vector databases. He’ll also share tips on writing code using LLM, including building an agent for Ansible and containers.
Scaling factors for Large Language Model Architectures:
• Vector Database: consider sharding and High Availability
• Fine Tuning: collecting data to be used for fine tuning
• Governance and Model Benchmarking: how are you testing your model performance
over time, with different prompts, one-shot, and various parameters
• Chain of Reasoning and Agents
• Caching embeddings and responses
• Personalization and Conversational Memory Database
• Streaming Responses and optimizing performance. A fine tuned 13B model may
perform better than a poor 70B one!
• Calling 3rd party functions or APIs for reasoning or other type of data (ex: LLMs are
terrible at reasoning and prediction, consider calling other models)
• Fallback techniques: fallback to a different model, or default answers
• API scaling techniques, rate limiting, etc.
• Async, streaming and parallelization, multiprocessing, GPU acceleration (including
embeddings), generating your API using OpenAPI, etc.
Knowledge Graphs and Generative AI
Dr. Katie Roberts, Data Science Solutions Architect, Neo4j
It’s no secret that Large Language Models (LLMs) are popular right now, especially in the age of Generative AI. LLMs are powerful models that enable access to data and insights for any user, regardless of their technical background, however, they are not without challenges. Hallucinations, generic responses, bias, and a lack of traceability can give organizations pause when thinking about how to take advantage of this technology. Graphs are well suited to ground LLMs as they allow you to take advantage of relationships within your data that are often overlooked with traditional data storage and data science approaches. Combining Knowledge Graphs and LLMs enables contextual and semantic information retrieval from both structured and unstructured data sources. In this session, you’ll learn how graphs and graph data science can be incorporated into your analytics practice, and how a connected data platform can improve explainability, accuracy, and specificity of applications backed by foundation models.
The recent focus on Big Data in the data management community brings with it a paradigm shift—from the more traditional top-down, “design then build” approach to data warehousing and business intelligence, to the more bottom up, “discover and analyze” approach to analytics with Big Data. Where does data modeling fit in this new world of Big Data? Does it go away, or can it evolve to meet the emerging needs of these exciting new technologies? Join this webinar to discuss:
Big Data –A Technical & Cultural Paradigm Shift
Big Data in the Larger Information Management Landscape
Modeling & Technology Considerations
Organizational Considerations
The Role of the Data Architect in the World of Big Data
ClickHouse and the Magic of Materialized Views, By Robert Hodges and Altinity...Altinity Ltd
Presented at the webinar, June 26, 2019
Materialized views are a killer feature of ClickHouse that can speed up queries 20X or more. Our webinar will teach you how to use this potent tool starting with how to create materialized views and load data. We'll then walk through cookbook examples to solve practical problems like deriving aggregates that outlive base data, answering last point queries, and using AggregateFunctions to handle problems like counting unique values, which is a special ClickHouse feature. There will be time for Q&A at the end. At that point you'll be a wizard of ClickHouse materialized views and able to cast spells of your own.
Converteo renouvelle son panorama sur les opportunités liées à une infrastructure Data-Lakes. Cette technologie a démontré ses capacités d’exploitation et de valorisation des datas des entreprises et, dans un contexte de mise en conformité RGPD, révèle encore plus son agilité.
Mieux comprendre le Data-Lake :
Littéralement traduit par lac de données, il s’agit d’un espace de stockage permettant le traitement d’informations de plusieurs sources et ce, de manière quasi illimitée et en un temps record.
Le Data-Lake est donc une réelle opportunité et doit être considéré en amont de toute démarche data-driven, que ce soit dans le domaine :
- Du marketing : pour alimenter des campagnes, choisir un lieu d’implantation d’un nouveau magasin ;
- De l’expérience client : pour personnaliser une offre, recommander les produits adéquats ;
- De la business Intelligence : pour créer une vision 360° de ses clients, piloter la pression publicitaire ;
- De la performance opérationnelle : pour réduire ses coûts informatiques, adapter ses ressources en fonction de l’activité.
Infrastructure flexible, elle permet donc un large champ d’analyse qualitative avec des données activables à tout moment en fonction des besoins business.
Webinar Denodo & CRIP : Souveraineté, information sensible et data gouvernanc...Denodo
Watch full webinar here: https://buff.ly/46fhGwK
A l’ère où l’adoption de nouvelles technologies et la modernisation des infrastructures de données s’accélèrent, la sécurité des données reste une priorité absolue. Les entreprises sont confrontées à un volume de plus en plus important de données et l’éclatement de ces dernières est une quasi-constante dans toutes les organisations : piloter cet ensemble peut donc s’avérer difficile.
C’est pour cette raison que la mise en place d’une gouvernance efficace des données prend un rôle fondamental pour tirer le meilleur parti de toutes ces informations.
Dans ce webinar, nous vous proposons de discuter des technologies à adopter pour mettre en place une gouvernance des données efficace.
Nous verrons notamment comment Denodo Platform, basée sur la technologie de data virtualization, peut jouer un rôle essentiel en matière de gouvernance et de sécurité des données, en permettant un niveau élevé de sécurité et d’auditabilité, du masquage en temps réel, du lignage, la détection des changements concernant les sources de données et le contrôle de l’impact sur les consommateurs, ainsi qu’une intégration aux systèmes externes de gestion d’entreprise des métadonnées.
Rejoignez ce webinar pour découvrir :
- Pourquoi la Denodo Platform représente une technologie essentielle dans la mise en place d'une gouvernance efficace de vos données,
- Comment Denodo Platform simplifie l’accès aux données de l'entreprise grâce à un point unique d’accès à la donnée tout en fournissant une couche de sécurité et de gouvernance,
- Comment Denodo Platform permet aux utilisateurs métiers un accès contrôlé à toutes les données, quel que soit leur emplacement, rapidement et facilement,
- Une démo live de certaines des capacités clés de la plateforme Denodo permettant d'illustrer ce webinar.
EXL Group, cabinet de conseil en technologies Analytiques, Numériques et Digitales.
Nos équipes multi-spécialistes réunissent des experts en conseils, technologies ou encore méthodes éprouvées pour vous proposer des prestations optimales pour vos Systèmes d’Information. En favorisant et récompensant la prise d’initiative, l’esprit entrepreneurial, nous plaçons chaque collaborateur au cœur de chaque projet . Nous travaillons donc tout autant sur votre satisfaction que sur celles de nos équipes.
Session découverte de la Data VirtualizationDenodo
Watch full webinar here: https://bit.ly/38mIuTp
Denodo vous propose une session virtuelle pour découvrir la Data Virtualization. Quel que soit votre rôle, responsable IT, architecte, data scientist, analyste ou CDO, vous découvrirez comment Denodo Platform, la plateforme leader en data intégration, data management et livraison de données en temps réel permet d'accéder à tout type de source de données pour en tirer de la valeur.
Session découverte de la Logical Data Fabric soutenue par la Data VirtualizationDenodo
Watch full webinar here: https://bit.ly/3yp4Caz
Denodo vous propose une session virtuelle pour découvrir la Logical Data Fabric soutenue par la Data Virtualization. Quel que soit votre rôle, responsable IT, architecte, data scientist, analyste ou CDO, vous découvrirez comment Denodo Platform, la plateforme leader en data intégration, data management et livraison de données en temps réel permet d'accéder à tout type de source de données pour en tirer de la valeur.
La Logical Data Fabric au secours de la connaissance clientDenodo
Watch full webinar here: https://bit.ly/3DenJpY
Le constat aujourd'hui est le manque de connaissances des clients malgré la profusion de données.
Cela fait des années que ce problème persiste et les approches récentes ne le solutionnent pas complétement.
L'avénement de la Data Fabric couplée à une approche logique permet un accès simple, rapide et performance aux données de l'entreprise.
L'approche Data Mesh permet de compléter la création de ce produit de données accessible à tous les domaines métiers de l'organisation.
Session découverte de la Data VirtualizationDenodo
Watch full webinar here: https://bit.ly/3s2RovD
Denodo vous propose une session virtuelle pour découvrir la Data Virtualization. Quel que soit votre rôle, responsable IT, architecte, data scientist, analyste ou CDO, vous découvrirez comment la Data Virtualization permet de livrer des données en temps réel et accéder à tout type de source de données pour en tirer de la valeur.
This draft paper throws light on data center technology trends of 2016. This paper also suggest ways to enhance the competitiveness of Data Center. We have tried to carve out a strategy that can help decision makers to decide whether a technology adoption will prove beneficial for them or they will end up spending more without any significant ROI
This draft paper throws light on data center technology trends of 2016. This paper also suggest ways to enhance the competitiveness of Data Center. We have tried to carve out a strategy that can help decision makers to decide whether a technology adoption will prove beneficial for them or they will end up spending more without any significant ROI.
OpenDataSoft - Les plateformes ouvertes de données, nouveau levier de l'innov...OpenDataSoft
Smart cities, internet des objets, plateformes open data … grâce à sa plateforme intégrée de Data Management et Data Publishing, OpenDataSoft propose à ses clients des solutions simples et évolutives pour créer et opérer leur plateforme de d’échanges de données dédiée au développement rapide de nouveaux services BtoC ou BtoB :
- saisir toute opportunité de croiser des données internes et externes pour les valoriser à travers des applications innovantes (API, mobilité, data visualisation …)
- bénéficier de coûts très faibles par rapport aux approchesIT classiques et de permettre ainsi l’émergence et la validation de modèles économiques compatibles avec l’économie du web (“low cost – best value”)
- piloter de façon équitable et durable les services aux citoyens grâce à une approche originale de notarisation des données grâces aux solutions de hubs d’OpenDataSoft
- engager concrètement son organisation dans une cultture de l’innovation grâce aux solutions de plateforme participative de données d’OpenDataSoft
Acteurs Publics, Industrie et Services, Médias , Développeurs sont concernés par les solutions d’OpenDataSoft.
Session découverte de la Logical Data Fabric soutenue par la Data VirtualizationDenodo
Watch full webinar here: https://bit.ly/3oGxZmz
Reconnu en tant que leader dans le Gartner® Magic Quadrant™ for Data Integration Tools ainsi que Customers’ Choice 3 années consécutives, Denodo Platform, soutenue par la Data Virtualization, permet une approche moderne de l'intégration, de la gestion et de la livraison des données, en offrant des fonctionnalités clés telles que la couche d'abstraction des données, les requêtes optimisées par l'IA pour les charges de travail analytiques complexes, le data catalog basé sur l'IA/ML, et la gestion de l'infrastructure cloud.
Découvrez lors de cette session d'1h30 en quoi la Logical Data Fabric et la Data Virtualization révolutionnent l'approche métier & IT dans l’accès, la livraison, la consommation, la gouvernance et la sécurisation de vos données, quel que soit l'âge de votre technologie, le format de la donnée ou son emplacement. Cette technologie mature comble le fossé entre l’IT et les utilisateurs métier, et permet des économies considérables en termes de coûts et de temps.
Réinventez votre stratégie de données en 2021 avec la Data VirtualizationDenodo
Watch full webinar here: https://bit.ly/3dF5Io8
Visionnez ce webinar pour comprendre comment la Data Virtualization permet aux grands groupes français du secteur des utilities d'optimiser leur gestion de données pour atteindre leurs objectifs stratégiques dans le cadre de la vision 360º du client en temps réel, l'analyse prédictive et le partage sécurisé de données internes et externes pour les initiatives Open Data. Pendant cette session, vous découvrirez comment cette technologie permet :
- D'intégrer toutes les données d’entreprise réparties entre les différents systèmes, indifféremment de leur format ou âge.
- De fournir des données en temps réel, à la demande, même lorsqu'il s'agit de jeux de données très volumineux.
- De centraliser la sécurité et la gouvernance des données à partir d'un point d'accès unique.
- Des économies considérables en termes de coûts et de temps, tout en évitant la démultiplication des stockages grâce à une approche "zéro réplication".
Le Big Data offre la capacité de traiter des volumes de données conséquents à l’aide d’architectures techniques nouvelles, comment les utilisateurs traditionnels (datamanager, datasteward, dataminers) accèderont et traiteront les données dans ces nouvelles architectures ?
Quel est l'avenir des stratégies de données?Denodo
Voir: https://bit.ly/31BWK5m
À l'ère du big data, de l'intelligence artificielle et du cloud computing, le volume et la diversité des données ne cessent de croître. Le défi consiste à créer les processus, les normes et les protocoles nécessaires pour mettre l'information au service des entreprises.
Dans ce webinar, nous parlerons des cinq tendances technologiques qui guident les stratégies de données des entreprises du monde entier. Nous verrons comment élever les données au rang d'actif stratégique et avoir une vraie stratégie centrée sur la donnée.
Ne manquez pas ce webinar pour approfondir les points suivants :
- Quelle est l'évolution des architectures d'acquisition et de gestion des données dans les grandes organisations ? En quoi le concept de "data fabric" est-il utile ?
- Comment gérer l'intégration de données distribuées sur plusieurs sites résultant des changements imposés par la migration vers le cloud ?
- Comment les entreprises peuvent-elles monétiser l'infrastructure de données en tant que service construite au cours des dernières années ?
- Comment la data science et l’analytique avancée pilotent et contribuent à accélérer l’acquisition des données ?
- Quel rôle les techniques de NLP et de voice computing peuvent-elles jouer à l'avenir pour l'analyse de données ?
Similaire à Livre Blanc : comprendre les data-lakes (20)
Barometre 2017 Webanalyse, Tag Management et Customer Experience ManagementConverteo
Pour la 3ème année consécutive, Converteo publie son baromètre exploitation des solutions de Webanalyse, Tag Management et Customer Experience Management. L'étude dresse un état des lieux du marché et de l’utilisation de ces outils utilisés par les sites internet les plus visités sur le web (Alexa Ranking, Top 200 France).
Il en résulte notamment que 52% des sites du TOP 200 de l’Alexa Ranking en France exploitent une solution de Tag Management et que l’exploitation de solutions de customer experience reste marginale (13%) mais avec une forte progression à attendre dans les années à venir. Les outils de Webanalyse sont déjà bien implantés, plafonnant à 86%. Parmi les grands enseignements de ce baromètre, il ressort que les solutions de TMS (Tag Management System) sont en très forte progression (+14 pts), avec plus de 50% des sites concernés qui en utilisent.
Workshop - Monétisation de la Donnée : Process & ExemplesConverteo
Les 7 & 8 février dernier, Converteo participait à l'événement Digital Performances 2018 organisé par l'EBG. Deux journée alternant workshops, découvertes de technologies disruptives et expérimentations (drones, réalité augmentée, hacking…). Raphaël Fétique et Thomas Faivre-Duboz, Directeurs Associés de Converteo, ont animé un workshop sur la monétisation de la donnée : process et exemples.
BAROMÈTRE RGPD : Étude du niveau de conformité des sites français et analyse des pratiques de gestion des données personnelles
Nous abordons le sujet RGPD avec nos clients et partenaires de la même manière que nous approchons les autres thématiques autour de la donnée : via le prisme des enjeux Business & de la qualité de la Relation avec les Clients & Employés.
C’est ainsi que nous assumons un parti pris fort autour du RGPD : en faire une opportunité à saisir pour les organisations d’assainir leurs pratiques de collecte et d’utilisation de la donnée en les recentrant sur des cas d’usage pertinents et à valeur ajoutée pour l’entreprise comme pour ses clients.
L'objectif de cette étude est de dresser un panorama de la conformité RGPD des sites internet des annonceurs et étudier les pratiques « front office » de gestion des données personnelles.
Baromètre : Les pratiques de l'AB testing et la personnalisation web en FranceConverteo
L’A/B testing et la personnalisation s’ancrent années après années dans les stratégies digitales des entreprises, ces pratiques ayant démontré leur intérêt et leur efficacité pour booster la conversion et optimiser l’expérience utilisateur.
L’A/B testing conserve cependant une longueur d’avance sur la personnalisation en termes de pénétration chez les organisations. L’A/B testing semble atteindre un stade de maturité, ce qui n’est pas encore le cas de la personnalisation.
Les deux outils sont très souvent exploités en tant que compléments à la web analyse, pratique pionnière dans l’analyse des parcours utilisateurs. À ce titre, ils arrivent plutôt en aval de la web analyse et transforment une mécanique de constat en une démarche proactive et/ou réactive auprès des internautes.
Tracking TV-to-Web : enfin une mesure du ROI des campagnes TV ?Converteo
Avec le développement d’internet et la multiplication des écrans chez les consommateurs, les annonceurs ont adapté leurs spots TV pour inciter le téléspectateur à une action plus directe (via le canal digital).
Il est donc devenu essentiel pour les annonceurs de pouvoir mesurer l’impact de leurs spots TV sur le trafic web. Quelles sont les solutions répondant à ces nouveaux besoins de pilotage marketing et comment fonctionnent-elles ?
Avant d’adopter une solution de tracking TV-to-web, les annonceurs doivent prendre en considération les limites inhérentes à ces outils et avoir en tête les critères de décision et points de comparaison entre les différents acteurs du marché.
Livre Blanc Data in store, collecte & exploitation : Le point de vente s'insp...Converteo
Converteo présente son nouveau livre blanc sur les Data in store :
Les nouvelles technologies de collecte de data en point de vente favorisent-elles une exploitation marketing plus fine et temps réel sur le modèle du web ?
Baromètre Webanalyse et Tag Management 2016Converteo
Converteo vous dévoile les résultats de son baromètre Webanalyse et Tag Management 2016. Ce dernier dresse un état des lieux du marché à travers une enquête portant sur les 200 premiers sites de l'Alexa ranking en France.
Data Breakfast : La transformation digitale à l'heure de la dataConverteo
Converteo vous présente le support de communication de son Data Breakfast, le RDV dédié à la transformation digitale à l'heure de la data. La matinée est composée de trois tables rondes incluant le retour d'expérience d'entreprises engagées dans leur transformation data sur :
- La démocratisation de la data
- L'achat média à l'heure de la data
- Les vrais apports du Big Data entreprise
Baromètre sur les pratiques de l'A/B testing et de la personnalisation web Converteo
Converteo et Kameleoon ont le plaisir d’annoncer la parution de leur 3ème baromètre sur les pratiques de l'A/B testing et de la personnalisation web en France.
Cette étude menée auprès de 250 acteurs du digital se divise en 3 grands axes d’analyse :
- Pratiques de l’A/B testing et la personnalisation web
- Modalités d’utilisation de l’A/B testing
- Parties prenantes de l’A/B testing et de la personnalisation
Converteo et Makazi ont le plaisir d’annoncer la parution de leur baromètre sur les usages des DMP.
Cette étude menée auprès de 260 décideurs du digital se divise en 4 grands axes d’analyse :
- La notoriété et le niveau d’adoption des DMP
- L’organisation et la gouvernance des projets de déploiement des DMP
- Les usages souhaités et effectifs des DMP
- Le niveau de satisfaction et de ROI des acteurs ayant déployé une DMP
Découvrez en 10 minutes les bonnes pratiques de conception et de réalisation d'un tableau de bord. Après de nombreuses missions de mise en place de dispositifs de mesure de performance digitale et cross-canal, Converteo a le plaisir de partager quelques éléments clés via un support limité à une quinzaine de slides.
Baromètre Converteo Webanalyse et Tag management S2 2015Converteo
Le Pôle Solutions Marketing Digital de Converteo vous dévoile les résultats de son baromètre Analytics, Tag Management et UX Management S2 2015. Découvrez les dernières tendances du marché à travers une étude portant sur 200 entreprises de référence.
Une étude portant sur 146 scénarios d'achat a été menée par Converteo (46 sites marchands et 13 produits 'bestsellers', regroupés en 3 familles en raison de leurs caractéristiques en termes de valeur, volume et poids).
Converteo vous dévoile les résultats de son baromètre Presse et Digital de 2015. Découvrez les dernières tendances du marché de la presse et la transition réussie des quotidiens et pure-players du web vers le digital.
Baromètre S1 2015 – Solutions d’analytics et tag managementConverteo
Le Pôle Solutions Marketing Digital de Converteo vous dévoile les résultats de son baromètre S1 2015. Découvrez les dernières tendances du marché autour des outils Analytics et Tag Management à travers une étude portant sur 200 entreprises de référence.
Livre Blanc Attribution Management : entre technologie, marketing et statistiqueConverteo
Converteo et Adversitement, sociétés de conseil et services spécialisées en mesure et amélioration de l’efficacité marketing, ont conjointement élaboré ce livre blanc pour éclairer les annonceurs sur une discipline souvent évoquée dans le monde de l’investissement media mais encore mal maîtrisée : l’Attribution Management.
Les directions Marketing doivent gérer le passage d’un pilotage relativement pauvre en datas à un pilotage s’appuyant sur un volume considérable de datas, dont la collecte et l’exploitation deviennent clés pour rendre le marketing plus efficace et/ou moins coûteux.
Face à la nécessité croissante de cibler son marketing, nous aborderons des cas clients et répondrons aux questions suivantes :
-Quels sont les leviers pour lesquels le traitement manuel du marketing devient critique ? (acquisition Media, personnalisation sur site, e-mail et CRM, …)
-Quels enjeux technologiques, humains ou organisationnels pour le marketing industrialisé ? Quels impacts sur la chaîne de décision à l’heure du 1 to 1 ?
-Le Machine Learning permet-il d’être plus efficace et/ou de réduire les coûts ? Pour quels acteurs ?
-La Data Management Platform, solution miracle ?
Converteo, cabinet de conseil en stratégie digitale et cross-canal, a voulu dresser un état des lieux clair du fonctionnement du RTB pour aider les annonceurs à mieux le comprendre et mieux l’utiliser, en pleine conscience de ses atouts mais aussi de ses manques.
Novascope Télécoms et Réseaux Informatiques en BtoB 2023Enov
Depuis 1996, nous mesurons la digitalisation des entreprises françaises grâce à notre observatoire Novascope Télécoms et Réseaux informatiques en B2B. Découvrez quelques résultats exclusifs de la vague 2023.
Webinaire santé prédation programme 31 mai 2024.pdf
Livre Blanc : comprendre les data-lakes
1. AVRIL 2016
LIVRE BLANC
Comprendre les data-lakes
Les enjeux des nouvelles infrastructures de la donnée, pour une
approche data-driven
Avril 2016
Thomas Faivre-Duboz, Directeur Associé
Julien Ribourt, Manager
Paul Ghorra, Consultant
Arthur Fulconis, Consultant
2. Converteo – Livre Blanc : Comprendre les data-lakes -
Un data-lake en quelques mots c’est :
2
Espace de stockage
de données
Avec des capacités de
traitement
Virtuellement sans limite en s’appuyant sur une infrastructure big data
(approche distribuée potentiellement dans le cloud)
Permettant de stocker
des données non
structurées à moindre
coût
Une opportunité technologique à mettre au service du business
Et de les retraiter en un
temps record au moment
de leur exploitation
3. Converteo – Livre Blanc : Comprendre les data-lakes -
Sommaire
3
1. Révéler le potentiel business de vos data grâce aux data-lakes 4
2. Intégrer le data-lake dans votre écosystème data 8
3. Appréhender les différents data-lakes possibles 13
4. Mener un projet data-lake 16
5. Converteo – Livre Blanc : Comprendre les data-lakes -
Un data-lake pour exploiter et valoriser pleinement le potentiel
data des organisations
5
Connecter la
donnée à
l’écosystème
digital
Analyser
rapidement la
donnée selon
les cas d’usages
choisis
Alimenter des
campagnes
marketing data-
driven
Stocker
d’importants
volumes de données
de toute nature
Bénéficier d’une
infrastructure à
l’architecture
scalable, évolutive
et pérenne
Désiloter la
donnée au sein
de l’organisation
6. Converteo – Livre Blanc : Comprendre les data-lakes -
Une pluralité de projets big data peuvent bénéficier de
l’adoption d’un data-lake
6
Sources : Bigdataparis / Datafloq / Cap Gemini Consulting, « Big Data : où en est votre entreprise. Vraiment »
Travel
–
Leisure
Banque
–
Assurance
Retail
Transport
–
Industrie
Marketing
–
Expérience
Client
Marketing
Média
Optimisation
industrielle
Innovation
produit
–
Services
Application d’aide prédictive à
l’épargne basée sur 15 années
d’historique de dépenses et revenus
Plateforme réunissant 3600 hôtels, les
informations de la concurrence, avis
TripAdvisor … pour estimer le taux de
remplissage et le pricing adéquat
Amélioration du ROI en s’appuyant
sur un modèle d’attribution connecté
à 9 sources de données
Optimiser la gestion du stock de
pièces détachées dans l’aviation en
estimant finement la demande
Utilisation du big data pour réaliser de
nombreuses simulations en phase de
conception de nouveaux modèles
Analyse de toutes les données
comportementales et d’acquisition au
niveau le plus granulaire sur
BigQuery de Google
Application digitalisant le domaine
skiable Paradiski pour personnaliser
l’expérience ski des clients
Solution de « cognitive computing » e-
commerce constituée d’un interface
capable de répondre aux questions des
internautes et de leur proposer des
produits personnalisés
Analyse des données wifi des gares,
afin de suivre et d’optimiser en temps
réel les flux voyageurs
Algorithme déterminant la probabilité
d’appartenance à un segment
spécifique (femmes enceintes par ex)
pour activation
Solution basée sur les outils Big data
qui fournit des analyses de fraudes
en quasi temps réel (27millions d’€
sauvés / an)
Personnalisation en fonction des
données comportementales et de
celles issues des réseaux sociaux
Développement d’une solution
d’analyse prédictive pour déterminer
les futurs produits à la mode et
préparer les campagnes marketing
Personnalisation des campagnes
RTB pour optimiser les
investissements médias
Assurance auto connectée mesurant
la qualité de la conduite pour proposer
une assurance sur mesure
Identification des appétences canal
(magasins vs web) pour optimiser les
campagnes de couponing
7. Converteo – Livre Blanc : Comprendre les data-lakes -
Le data-lake, terrain de jeu du big data
7
* Source : Cap Gemini Consulting, « Big Data : où en est votre entreprise. Vraiment »
EXHAUSTIVITE
Stocker tous les types de données, au format le plus granulaire, pour
toujours pouvoir accéder au potentiel de leur forme non altérée
ACCESSIBILITE
Accéder facilement aux données et les traiter en temps réel ou les
requêter ponctuellement
HISTORISATION
Conserver des données dans le temps pour établir des analyses de
tendance ou comparatives
CONVERGENCE
Centraliser, joindre et comparer des données provenant de différentes
sources (externes ou internes) pour réaliser des analyses exhaustives et
transversales
QUALITATIVITE Assurer la qualité de la donnée en amont de tout traitement et utilisation
Un data-lake repose sur des outils permettant de traiter rapidement d’importants volumes d’information
- structurés ou bruts - issus d’une grande variété de sources
En 2015, 7.9 zo
de données
auraient été
crées dans le
monde, dont
80% non
structurées*
9. Converteo – Livre Blanc : Comprendre les data-lakes -
Le datawarehouse et le data-lake sont complémentaires et peuvent cohabiter : le data-lake stockant
et traitant des données issues de nouvelles sources non configurées pour les datawarehouses
Le data-lake : une évolution du datawarehouse qui n’empêche
pas les deux outils de conserver une certaine complémentarité
Datawarehouse
Nature
des
données
Modèle
de
données
Finalités
Architecture flexible sans contrainte de forme ou de
schéma particulier et a priori
Structure évolutive et non figée ou de nombreux
types et formes de données peuvent cohabiter et
venir s’ajouter dans le temps
Données stockées quelle que soit leur forme (brute
et structurée ou non structurée)
Stocke uniquement les données déjà
structurées et considérées comme « utiles » à
l’entreprise
Architecture qui repose sur des tables
relationnelles
Structure peu responsive : espace de stockage très
structuré, compliqué et chronophage à faire évoluer
Stocke certains types de données - généralement
des métriques quantitatives
Son modèle de donnée très structuré rend le
datawarehouse adapté à des analyses répétitives
Logique ETL (Extract – Transform – Load)
Stocke toutes les données, celles utiles
aujourd’hui ou potentiellement dans le futur
Structure agile, les données sont configurées et
traitées selon les besoins, via des séquencements
parallélisés et indépendants
Logique ELT (Extract – Load – Transform)
Data-lake
9
10. Converteo – Livre Blanc : Comprendre les data-lakes -
Data-lake et Data Management Platforms : quelles différences ?
10
Data-lakeDMP
Stockage
données
01011100
Connexions
Activation
dela
donnée
La DMP est par nature connectée en temps réel à
l’écosystème digital externe (DSP, 3rd party données
providers, etc.)
La DMP est un outil d’identification (matching de
cookies), de déduplication et d’enrichissement des
données clients et prospects collectées et pré-calculées
La DMP récupère l’intelligence pour l’activer sur les
différents canaux avec lesquels elle est connectée -
online et offline
Le data-lake agrège et traite la donnée pour la
transformer en intelligence et la transmettre aux
différentes briques d’activation, parmi lesquelles se
trouve la DMP
Le data-lake n’a pas vocation à être connecté
directement à l’écosystème externe. Les flux de données
entrants et sortants ne sont pas nécessairement en
temps réel
Le data-lake regroupe la totalité des données - y.c les
données personnelles et sensibles -, dont celles issues
de la DMP
Le data-lake est un actif propre à l’entreprise, qui s’inscrit
dans la durée
La DMP n’a pas vocation à stocker tout type de données,
notamment les données personnelles des visiteurs,
prospects et clients (PII) ainsi que les données sensibles
de l’entreprise (marge, achats, etc.) – du moins de
manière non cryptée
Le data-lake est avant tout orienté connaissance et intelligence
- c’est le socle exhaustif de la donnée,
la DMP est résolument opérationnelle et orientée activation
11. Converteo – Livre Blanc : Comprendre les data-lakes -
Intégration d’un data-lake dans un dispositif data & digital
11
Données
comportementales
(Web analytics, média,
DMP)
Données produits
Données cross-canal
(Call-center/magasins…)
Données exogènes (3rd
party)
Données clients
(CRM, référentiel
personnes)
Data-lake
Stockage et traitement des données
Analyses prédictives, scoring, jointure, machine learning,
normalisation, etc.
Cross Canal
Call Center /points de vente
Marketing relationnel
Emailing / mobile / perso.
on site
Média
Display/ RTB/ Search
Personnalisation
de l’expérience
utilisateur
B.I
Analyses, reporting …DMP
Collecte, centralisation et segmentation des données clients et
prospects
Activation sur les différents canaux connectés
Non
systématique
12. Converteo – Livre Blanc : Comprendre les data-lakes -
Via des outils de data-viz
directement connectés à
l’infrastructure data-lake
Les équipes métiers ont accès à
des dashboards exhaustifs
(toutes les sources et niveau de
granularité possible
CASE STUDY
Refonte de l’infrastructure data
12
Les objectifs du projet
Google Cloud Platform
Stockage en ligne
Machines virtuelles
scalables
Requêtage et
traitement de la
donnée
Use cases principauxSources de données
Données GA/BigQuery
Données acquisition
Données produits
Données CRM
Données Magasins
Données comptables –
Achats/stocks
Données exogènes
Pilotage de la donnée
Mesurer la contribution
du web à l’activité
online en magasin :
achats cross-canaux,
RoPo, showrooming
Cross-canal
Optimiser les relances
marketing pour adapter
la pression 360° en
fonction de la réaction
des clients
Scénarios
relationnels
Centraliser et faire converger une donnée de qualité pour la rendre accessible et exploitable pour tous les besoins métiers
Automatiser les cas d’activations « classiques » de la donnée pour permettre à l’équipe data de consacrer du temps à de
nouveaux projets à forte valeur ajoutée
POUR
14. Converteo – Livre Blanc : Comprendre les data-lakes -
Deux grands modes d’hébergement pour satisfaire des exigences
différentes
14
Ressources nécessaires
Gouvernance de la donnée
Scalabilité
« On Premise » Cloud Services
Facilité de déploiement
Sécurité de la donnée
Des compétences très spécifiques d’une relative
rareté sont nécessaires
Le cloud ne dispense pas des ressources de
conception et d’administration de l’infrastructure
Même si l’investissement direct dans du matériel
hardware n’a pas lieu d’être le coût d’exploitation des
machines est inclus dans la facturation globale. Les
prestataires cloud facturent les services de manière
packagée en fonction de la consommation des
ressources machines
Même si le système peut fonctionner sur des
machines banalisées, l’organisation doit se doter de
son propre data-center
Bien qu’étant open source et gratuit de base, une
distribution payante du framework Hadoop est
souvent à privilégier
Hardware & Software
Humaines
L’organisation impose à sa donnée ses propres
exigences de sécurité
Les prestataires de cloud font bénéficier à leur
client des mêmes engagements de sécurité qu’ils
imposent à leur propre donnée
Les frameworks nécessaires au fonctionnement du
système impliquent du paramétrage relativement
lourd et complexe
L’utilisation de plateformes et services managés
permettent un déploiement très rapide
Le prestataire de service constitue un intermédiaire
entre l’organisation et sa donnée qui lui appartient
tout de même de manière exclusive
La scalabilité est très granulaire et peut être gérée en
fonction du volume stocké ou du temps d’utilisation des
ressources
La scalabilité est linéaire et l’unité d’ajustement est
le serveur
L’organisation est propriétaire exclusif de
toute la chaîne de stockage et d’exploitation
de la donnée
15. Converteo – Livre Blanc : Comprendre les data-lakes -
La dématérialisation de l’infrastructure et l’intégration native avec la
plupart des outils digitaux favorisent le Cloud pour des projets agiles
15
Collecte et stockage de
la donnée
Traitement des
données
Activation de la
donnée
On premise
La donnée est stockée sur des
grappes de serveurs, avec des
frameworks permettant le
traitement distribué sur ces
serveurs
L’analyse, le requêtage et la
synthèse des données
contenues sur Hadoop, se fait à
travers des logiciels SQL-like
ou java-like
L’intégration d’un Hadoop On
premise avec l’éco-système
SI/marketing d’une entreprise
nécessite un ETL ou un
développement spécifique
Cloud Services
L’infrastructure de calcul et de
stockage distribuée, est
rapidement configurée sur des
machines virtuelles et des
espaces pré-paramétrés sur le
cloud
Les suites Cloud offrent des
outils de requêtage SQL-like
très performants directement
liés à la donnée stockée
La plupart des outils digitaux du
marché sont connectés
nativement aux principales
Suites Cloud (Google, Amazon,
Microsoft …)
Azure data
Lake analytics
17. Converteo – Livre Blanc : Comprendre les data-lakes -
Le déploiement d’un data-lake est facilité par la constitution
d’une équipe projet ad hoc bénéficiant d’un solide sponsoring
17
Direction Générale
Direction Marketing
Direction Financière
Direction du Service Client
Direction Commerciale
Sponsoring
Equipe projet
polyvalente
Principaux
Contributeurs
Clients internes
Systèmes d’Information Chef de projet
Data architectes
Data engineers
Data scientist
Administrateur système
L’agilité nécessaire à un projet data-lake, la spécificité des ressources nécessaires à son exploitation
ainsi que la transversalité de ses implications dans l’organisation nécessitent souvent sa construction
en marge ou en parallèle d’un système d’information historique auquel il sera étroitement lié
18. Converteo – Livre Blanc : Comprendre les data-lakes -
Quels sont les utilisateurs d’un data-lake ?
18
Chef de projet
Conçoit, développe et s’occupe au quotidien de la
plateforme, c’est le maître d’œuvre du data-lake
Data Engineer
Connecte le data-lake à toutes les
sources de données, s’assure de la
qualité de la donnée et lie la plateforme
aux applications externes
Data Analyst
Définit les KPIs et les métriques à des
fins de reporting / dashboarding pour
comprendre les processus métiers
Data Scientist
Exploite en profondeur l’ensemble des
données à des fins de prospection, pour
déterminer les grandes tendances
business et les opportunités que
l’organisation devra saisir
Admin. système
Responsable de l’infrastructure du data-
lake et de la sécurité (à temps partiel sur
le projet)
19. Converteo – Livre Blanc : Comprendre les data-lakes -
Les différentes étapes d’un projet data-lake
19
Identification des cas d’usages pertinents
Identification de la complexité de l’existant à rapatrier
(mapping des sources de données et flux out à connecter)
Evaluation des contraintes techniques, humaines,
organisationnelles
Définition de l’infrastructure et de l’environnement
en fonction des besoins et contraintes
Priorisation des cas d’usage et planning du
déploiement
Mise en place d’une équipe projet
Lancement progressif des cas d’usages
Etude de retour sur investissement
Conduite du changement pour le shift
vers du data-driven décision making
Etude
d’opportunité/faisabilité
et prise en considération
des besoins
Setup technico-fonctionnel
du data-lake
Déploiement progressif
des cas d’usage
1
2
3
Un projet data-lake doit être mené selon une méthodologie agile, avec un déploiement progressif.
Tirer partie de la scalabilité des infrastructures est la clé de la réussite d’un projet data-lake.
20. Converteo – Livre Blanc : Comprendre les data-lakes -
Les complexités et risques du projet data-lake
20
SPONSORSHIP et ADHESION – Un appui fort à un niveau hiérarchique élevé est requis
pour obtenir l’adhésion et éviter les points de blocage
Un projet data-lake est stratégique et concerne toutes les entités de l’entreprise, qui seront toutes parties
prenantes du setup et de l’exploitation du projet
La multiplicité des interlocuteurs, des technologies et des métiers complexifie de facto le projet et
implique donc une forte priorisation du projet au niveau stratégique
PRAGMATISME – Le développement progressif d’un projet data-lake est un gage de réussite
Avec des cas d’usage priorisés, qui imposent le rythme de raccordement des sources (flux in) et des
activations (flux out)
Tirer partie de la scalabilité de l’infrastructure : on monte/descend en charge en fonction de la nécessité
DATA LEAKING – Contrôle et ownership : attention à la fuite de donnée
Toute la donnée, au niveau le plus granulaire est contenue dans le data-lake : la sécurité autour du data-
lake est un enjeu majeur, qui peut conditionner des choix de faisabilité, de technologie ou autres
21. Merci de votre attention
Converteo – Livre Blanc : Comprendre les data-lakes
Thomas Faivre-Duboz, Directeur Associé
Julien Ribourt, Manager
Paul Ghorra, Consultant
Arthur Fulconis, Consultant
15, place de la Nation
Paris 75011
+33 (0)1 84 16 06 60
contact@converteo.com