Un Système de Gestion de Bases de Données Réparties est constitué d'un ensemble de processeurs autonomes «appelés sites » (stations de travail, micro-ordinateurs, …) reliés par un réseau de communication qui leur permet d'échanger des données. Un SGBDRé suppose que les données soient stockées sur au moins deux sites. Chaque site est doté de son propre SGBD.
Ce support de cours propose une vue d’ensemble sur les avantages et inconvénients de répartition de données. Aussi, il présente les différentes techniques de répartition
Un Système de Gestion de Bases de Données Réparties est constitué d'un ensemble de processeurs autonomes «appelés sites » (stations de travail, micro-ordinateurs, …) reliés par un réseau de communication qui leur permet d'échanger des données. Un SGBDRé suppose que les données soient stockées sur au moins deux sites. Chaque site est doté de son propre SGBD.
Ce support de cours propose une vue d’ensemble sur les avantages et inconvénients de répartition de données. Aussi, il présente les différentes techniques de répartition
BigData_TP1: Initiation à Hadoop et Map-ReduceLilia Sfaxi
Pour accéder aux fichiers nécessaires pour faire ce TP, visitez: https://drive.google.com/folderview?id=0Bz7DokLRQvx7M2JWZEt1VHdwSE0&usp=sharing
Pour plus de contenu, Visitez http://liliasfaxi.wix.com/liliasfaxi !
CNES - CCT SIL - Traitement et Manipulation de la donnée à l‘aide des technologies Big Data
Présentation du 30 Juin 2017
Les CCT sont des espaces d'échanges techniques mis en place par le CNES il y a 20 ans, dans le but de réunir différents acteurs industriels et public pour s'enrichir mutuellement.
Présentation général des étapes du processus ETL (Extract,Transform, Load) d'un projet décisionnel.
ETL, acronyme de Extraction, Transformation, Loading, est un système de chargement de données depuis les différentes sources d'information de l'entreprise (hétérogènes) jusqu'à l'entrepôt de données (modèles multidimensionnels).
Les entreprises d’aujourd’hui doivent de plus en plus composer avec l’infobésité.
C'est pourquoi elles ont besoin d’une façon efficace d’analyser leurs données afin de prendre de meilleures décisions d’affaires.
Les bases de données standard ne peuvent pas toujours répondre à ces questions parce que cela nécessite de croiser de multiples sources d’informations ensemble.
C’est ici que le processus ETL (Extract – Transform – Load) entre en jeu. L’ETL est un programme qui accède à de multiples sources de données disparates, en fait l’extraction, les manipule et les intègre dans un référentiel commun – l’entrepôt de données ou data warehouse.
Tout ce que vous devez savoir sur les meilleures pratiques autour d'Exchange 2013... Des thèmes aussi divers que "comment virtualiser au mieux un serveur Exchange 2013" à "Que faire de mes dossiers partagés et que deviennent t'ils dans Exchange 2013". Tout ce qu'il y a à savoir expliqu par nos meilleurs experts Microsoft sur le sujet.
Speaker : Guy Groeneveld (Microsoft), Stefan Plizga (Microsoft), Raquel Municio (Microsoft France), Lionel Constantin (Microsoft France)
BigData_TP1: Initiation à Hadoop et Map-ReduceLilia Sfaxi
Pour accéder aux fichiers nécessaires pour faire ce TP, visitez: https://drive.google.com/folderview?id=0Bz7DokLRQvx7M2JWZEt1VHdwSE0&usp=sharing
Pour plus de contenu, Visitez http://liliasfaxi.wix.com/liliasfaxi !
CNES - CCT SIL - Traitement et Manipulation de la donnée à l‘aide des technologies Big Data
Présentation du 30 Juin 2017
Les CCT sont des espaces d'échanges techniques mis en place par le CNES il y a 20 ans, dans le but de réunir différents acteurs industriels et public pour s'enrichir mutuellement.
Présentation général des étapes du processus ETL (Extract,Transform, Load) d'un projet décisionnel.
ETL, acronyme de Extraction, Transformation, Loading, est un système de chargement de données depuis les différentes sources d'information de l'entreprise (hétérogènes) jusqu'à l'entrepôt de données (modèles multidimensionnels).
Les entreprises d’aujourd’hui doivent de plus en plus composer avec l’infobésité.
C'est pourquoi elles ont besoin d’une façon efficace d’analyser leurs données afin de prendre de meilleures décisions d’affaires.
Les bases de données standard ne peuvent pas toujours répondre à ces questions parce que cela nécessite de croiser de multiples sources d’informations ensemble.
C’est ici que le processus ETL (Extract – Transform – Load) entre en jeu. L’ETL est un programme qui accède à de multiples sources de données disparates, en fait l’extraction, les manipule et les intègre dans un référentiel commun – l’entrepôt de données ou data warehouse.
Tout ce que vous devez savoir sur les meilleures pratiques autour d'Exchange 2013... Des thèmes aussi divers que "comment virtualiser au mieux un serveur Exchange 2013" à "Que faire de mes dossiers partagés et que deviennent t'ils dans Exchange 2013". Tout ce qu'il y a à savoir expliqu par nos meilleurs experts Microsoft sur le sujet.
Speaker : Guy Groeneveld (Microsoft), Stefan Plizga (Microsoft), Raquel Municio (Microsoft France), Lionel Constantin (Microsoft France)
Les sujets abordés:
- Architecture
- ACID
- Conception de BDD
- Bonnes pratiques SQL
- Demo ( chargement par dataflow, LMD non partitionné ou non, plan d'exécution, ... )
- Limites de Spanner
Le stockage à la mode cloud est partout. Quels en sont les principes ? Quelles sont les différentes techniques du stockage à la demande ? Comment optimiser ce stockage en cloud hybride ?
Speakers : François Tonic (Programmez! / cloudmagazine.fr ), Thomas Varlet (Microsoft), Philippe Berthot (Microsoft France)
Le stockage des données a toujours été une des problématiques les plus difficiles à maitriser. L’augmentation massive de la quantités de données disponibles, le phénomène Big Data, incite les sociétés à moderniser leur environnement décisionnel. Dès lors, beaucoup se posent la question du choix entre SQL et NoSQL. Microsoft, avec son offre SQL Server Parallel Data Warehouse 2012 réconcilie le meilleur des technologies actuelles. Un seul moto ‘Insights on Any Data of Any Size’
A brief summary of the most important reasons about why choosing MongoDB might be a good solution in current common problems in IT. This talk is dedicated to software engineers, DBA, managers, CTO that could know MongoDB but don't see why they should deploy it in production.
The document provides an overview of web development. It discusses the objectives of the workshop which are to understand the differences between web designers and developers, and gain knowledge of front-end technologies like HTML, CSS, and JavaScript. It also explains why the web is popular due to being cross-platform, writable once and usable everywhere. Key topics covered include the history of the web, definitions of web designers versus developers, front-end versus back-end development, and an overview of HTML, CSS, and JavaScript.
L'IA connaît une croissance rapide et son intégration dans le domaine éducatif soulève de nombreuses questions. Aujourd'hui, nous explorerons comment les étudiants utilisent l'IA, les perceptions des enseignants à ce sujet, et les mesures possibles pour encadrer ces usages.
Constat Actuel
L'IA est de plus en plus présente dans notre quotidien, y compris dans l'éducation. Certaines universités, comme Science Po en janvier 2023, ont interdit l'utilisation de l'IA, tandis que d'autres, comme l'Université de Prague, la considèrent comme du plagiat. Cette diversité de positions souligne la nécessité urgente d'une réponse institutionnelle pour encadrer ces usages et prévenir les risques de triche et de plagiat.
Enquête Nationale
Pour mieux comprendre ces dynamiques, une enquête nationale intitulée "L'IA dans l'enseignement" a été réalisée. Les auteurs de cette enquête sont Le Sphynx (sondage) et Compilatio (fraude académique). Elle a été diffusée dans les universités de Lyon et d'Aix-Marseille entre le 21 juin et le 15 août 2023, touchant 1242 enseignants et 4443 étudiants. Les questionnaires, conçus pour étudier les usages de l'IA et les représentations de ces usages, abordaient des thèmes comme les craintes, les opportunités et l'acceptabilité.
Résultats de l'Enquête
Les résultats montrent que 55 % des étudiants utilisent l'IA de manière occasionnelle ou fréquente, contre 34 % des enseignants. Cependant, 88 % des enseignants pensent que leurs étudiants utilisent l'IA, ce qui pourrait indiquer une surestimation des usages. Les usages identifiés incluent la recherche d'informations et la rédaction de textes, bien que ces réponses ne puissent pas être cumulées dans les choix proposés.
Analyse Critique
Une analyse plus approfondie révèle que les enseignants peinent à percevoir les bénéfices de l'IA pour l'apprentissage, contrairement aux étudiants. La question de savoir si l'IA améliore les notes sans développer les compétences reste débattue. Est-ce un dopage académique ou une opportunité pour un apprentissage plus efficace ?
Acceptabilité et Éthique
L'enquête révèle que beaucoup d'étudiants jugent acceptable d'utiliser l'IA pour rédiger leurs devoirs, et même un quart des enseignants partagent cet avis. Cela pose des questions éthiques cruciales : copier-coller est-il tricher ? Utiliser l'IA sous supervision ou pour des traductions est-il acceptable ? La réponse n'est pas simple et nécessite un débat ouvert.
Propositions et Solutions
Pour encadrer ces usages, plusieurs solutions sont proposées. Plutôt que d'interdire l'IA, il est suggéré de fixer des règles pour une utilisation responsable. Des innovations pédagogiques peuvent également être explorées, comme la création de situations de concurrence professionnelle ou l'utilisation de détecteurs d'IA.
Conclusion
En conclusion, bien que l'étude présente des limites, elle souligne un besoin urgent de régulation. Une charte institutionnelle pourrait fournir un cadre pour une utilisation éthique.
MongoDB in a scale-up: how to get away from a monolithic hell — MongoDB Paris...Horgix
This is the slide deck of a talk by Alexis "Horgix" Chotard and Laurentiu Capatina presented at the MongoDB Paris User Group in June 2024 about the feedback on how PayFit move away from a monolithic hell of a self-hosted MongoDB cluster to managed alternatives. Pitch below.
March 15, 2023, 6:59 AM: a MongoDB cluster collapses. Tough luck, this cluster contains 95% of user data and is absolutely vital for even minimal operation of our application. To worsen matters, this cluster is 7 years behind on versions, is not scalable, and barely observable. Furthermore, even the data model would quickly raise eyebrows: applications communicating with each other by reading/writing in the same MongoDB documents, documents reaching the maximum limit of 16MiB with hundreds of levels of nesting, and so forth. The incident will last several days and result in the loss of many users. We've seen better scenarios.
Let's explore how PayFit found itself in this hellish situation and, more importantly, how we managed to overcome it!
On the agenda: technical stabilization, untangling data models, breaking apart a Single Point of Failure (SPOF) into several elements with a more restricted blast radius, transitioning to managed services, improving internal accesses, regaining control over risky operations, and ultimately, approaching a technical migration when it impacts all development teams.
Ouvrez la porte ou prenez un mur (Agile Tour Genève 2024)Laurent Speyser
(Conférence dessinée)
Vous êtes certainement à l’origine, ou impliqué, dans un changement au sein de votre organisation. Et peut être que cela ne se passe pas aussi bien qu’attendu…
Depuis plusieurs années, je fais régulièrement le constat de l’échec de l’adoption de l’Agilité, et plus globalement de grands changements, dans les organisations. Je vais tenter de vous expliquer pourquoi ils suscitent peu d'adhésion, peu d’engagement, et ils ne tiennent pas dans le temps.
Heureusement, il existe un autre chemin. Pour l'emprunter il s'agira de cultiver l'invitation, l'intelligence collective , la mécanique des jeux, les rites de passages, .... afin que l'agilité prenne racine.
Vous repartirez de cette conférence en ayant pris du recul sur le changement tel qu‘il est généralement opéré aujourd’hui, et en ayant découvert (ou redécouvert) le seul guide valable à suivre, à mon sens, pour un changement authentique, durable, et respectueux des individus! Et en bonus, 2 ou 3 trucs pratiques!
Le Comptoir OCTO - Qu’apporte l’analyse de cycle de vie lors d’un audit d’éco...OCTO Technology
Par Nicolas Bordier (Consultant numérique responsable @OCTO Technology) et Alaric Rougnon-Glasson (Sustainable Tech Consultant @OCTO Technology)
Sur un exemple très concret d’audit d’éco-conception de l’outil de bilan carbone C’Bilan développé par ICDC (Caisse des dépôts et consignations) nous allons expliquer en quoi l’ACV (analyse de cycle de vie) a été déterminante pour identifier les pistes d’actions pour réduire jusqu'à 82% de l’empreinte environnementale du service.
Vidéo Youtube : https://www.youtube.com/watch?v=7R8oL2P_DkU
Compte-rendu :
Le Comptoir OCTO - Qu’apporte l’analyse de cycle de vie lors d’un audit d’éco...
Base de données distribuée
1. BDD Distribuée
République Algérienne démocratique et populaire.
Université Dr. Tahar Moulay – Saïda
Département d’informatique
Matière : ED
Master 2 RISR
2019/2020
Présenté par : Enseigné par :
• Kamar MEDDAH
• Kafi Abderrahmane
• Mr. Fellah
2. Plan
I. Introduction
II. BDD Mono-machine
III. Architecture Client- Serveur
IV. Architecture 3 niveaux
V. Vers la distribution
VI. Les différentes technique
distribution
VII. Types de Fragmentation
VIII.Intégration
IX. Réplication
X. Conclusion
XI. Reference
4. Définition
Une BDD distribuée est caractérisé par :
▪ Une grande quantité de données résidant sur plusieurs machines.
▪ SGBD distribuées est un logiciel qui permet d’avoir un point d’entrée
unique sur une base de données distribuées.
BDD distribuée est une base de données logique dont les données sont
distribuées sur plusieurs SGBD et visibles comme un tout.
10. IV. Architecture 3 niveaux
▪ Le niveau client : un navigateur Web
▪ Présente du contenu, par ex HTML.
▪ Le niveau intermédiaire
▪ Communique avec le SGBD .
▪ Gère l’application (Java, C++, C# …).
▪ Génère le contenu pour le client.
▪ Le niveau serveur : base de données.
10
12. V. Vers la distribution
▪ L’augmentation du volume de donnes, traitements et
transactions a mené vers BDD distribuée .
▪ Des calculs et des données sont décentralisés.
▪ Un point d’entrée unique pour accéder à toutes les données de
manière transparente.
13. Théorème
de CAP
Un système distribué ne peut prendre en charge que deux des
caractéristiques suivantes:
▪ Consistency (tous les nœuds dans un system distribué renvoie la même valeur)
▪ Availability (Chaque nœud non défaillant renvoie une réponse pour toutes les demandes
de lecture et d'écriture dans un délai raisonnable )
▪ Partition Tolerance (Le système continue de fonctionner et maintient sa cohérence
malgré les partitions du réseau )
13
15. Deux approches de conception
Conception ascendante
▪ Part de l’existant
▪ Intègre bases locales dans
schéma global
Conception descendante
▪ On part du schéma global
▪ On le scinde en schémas locaux
19. Fragmentation
▪ On part d’une grosse base de données.
▪ On la distribue en fragments pour améliorer les performances.
▪ On obtient une base de données distribuées.
20. Fragmentation
▪ Un ordinateur et un disque
▪ 1 téraoctet
▪ Scan séquentiel
▪ 166 minutes (> 2.5 heures)
▪ 100 disques en parallèle
▪ moins de 2mn.
▪ 100 ordinateurs distribués
▪ Chacun son propre CPU
▪ Chacun son disque
▪ Ça passe à l’échelle
23. 1. Fragmentation horizontale
▪ Adéquation géographique.
▪ Recherche de performance (I/O, traitements).
▪ Pb : consolidation correcte (unicité des clés, types des
attributs…).
24. 2. Fragmentation Verticale
▪ Les tuples (rangées) sont découpés et fragmentés.
▪ Nécessite colonne commune (clé ou unique) dupliquée.
25. 2. Fragmentation Verticale
▪ Comme FH, peut correspondre à consolidation ou recherche de de
performance.
▪ La reconstruction des tuples doit être possible (et validée).
▪ Mêmes problèmes que FH.
28. VIII. Intégration
▪ On part de bases de données existantes (autonomes).
▪ On les intègre pour obtenir un point d’entrée unique.
▪ On obtient une base de données distribuées.
30. VIII. Intégration
▪ Amélioration des performances (placer les traitements où se
trouvent les données)
▪ Donner aux utilisateurs une vue unique des données implémentées
sur plusieurs systèmes hétérogènes (plates-formes et SGBD).
▪ Cas typique rencontré lors de la concentration d'entreprises : faire
cohabiter les différents systèmes tout en leur permettant
d’interopérer.
31. VIII. Intégration
▪ Traitement de l'hétérogénéité sémantique (données de la
base).
▪ Traitement de l'hétérogénéité syntaxique : Traduction des
schémas (SGBD, communication).
▪ Intégration des schémas (pour créer un schéma global).
33. Réplication
▪ Faire qu’il y ait plusieurs copies de la même donnée.
▪ Si une machine n’est plus accessible, on peut quand même accéder à la
donnée.
▪ Si une machine perd une donnée, la donnée existe encore.
▪ Fiable.
▪ Rendre les données plus disponibles.
▪ Economiser des communications.
34. Réplication
▪ Elle a permet de faire les requêtes d’une manière performante il suffit
Interroger une des copies.
▪ Par contre son point faible son représente dans la mise a jour des données
(Mise-à-jour d’une copie – propager aux autres).
▪ Parfois le nombre des copies peut ralentir les requêtes (verrous).
35. Maîtres/Esclave
Réplication sans conflits
En évitant les mises à jour
multiples (réplication asymétrique)
Système maître unique
• Alimentation des entrepôts de
données
• Dissémination d’information
• Consolidation d’information
Asynchrone: la mise à jour des
copies est faite le plus tôt possible
36. Multi Maîtres
Réplication avec résolution des
conflits
Une règle de priorité permet de
résoudre les conflits (r. symétrique)
Systèmes maîtres multiples
• Accès délocalisé
• Système 24h/24
Synchrone: la mise à jour des copies
est faite dans la même transaction
Ajouter un pied de page 36
39. X. Conclusion
▪ Il Existe plusieurs façon de distribuer les données.
▪ Chaque méthode de distribution a ses propres avantages et ses
propre Inconvénients .
▪ Il n’y a pas une méthode mieux qu’une autre.
▪ Chaqu'une de ces méthode résoudre un problème particulier.
▪ Il faut choisir sa façon de distribuer selon son cas.
BDD distribuée est une base de données logique dont les données sont distribuées sur plusieurs SGBD et visibles comme un tout.
L'évolution des techniques informatiques depuis les vingt dernières années a permis d'adapter les outils informatiques à l'organisation des entreprises. Vu, le grand volume de données manipulées par ces dernières, la puissance des micro-ordinateurs, les performances des réseaux et la baisse considérable des coûts du matériel informatique ont permis l'apparition d'une nouvelle approche afin de remédier aux désagréments causés par la centralisation des données, et ce en répartissant les ressources informatiques tout en préservant leur cohérence
Une grande quantité de données résidant sur plusieurs machines.
SGBD distribuées est un logiciel qui permet d’avoir un point d’entrée unique sur une base de données distribuées.
Autonomie localeJ
Egalité entre sites (pas de site « central »)J
Fonctionnement continu (pas d’interruption de service)J
Localisation transparenteJ
Fragmentation transparenteJ
Indépendance à la réplicationJ
Exécution de requêtes distribuéesJ
Gestion de transactions répartiesJ
Indépendance vis-à-vis du matérielJ
Indépendance vis-à-vis du Système d’ExploitationJ
Indépendance vis-à-vis du réseauJ
Indépendance vis-à-vis du SGBD
Des calculs et des données sont décentralisés.
Un point d’entrée unique pour accéder à toutes les données de manière transparente.
Coherence
Diponibilite
Autonomie localeJ
Egalité entre sites (pas de site « central »)J
Fonctionnement continu (pas d’interruption de service)J
Localisation transparenteJ
Fragmentation transparenteJ
Indépendance à la réplicationJ
Exécution de requêtes distribuéesJ
Gestion de transactions répartiesJ
Indépendance vis-à-vis du matérielJ
Indépendance vis-à-vis du Système d’ExploitationJ
Indépendance vis-à-vis du réseauJ
Indépendance vis-à-vis du SGBD
Des calculs et des données sont décentralisés.
Un point d’entrée unique pour accéder à toutes les données de manière transparente.
Client = Client1 U Client2.
Client = Client1 U Client2.
Dans les SGBD commerciaux actuels
Pas de fragmentation explicite au niveau du schéma
Assemblage = création de vue (ou de snapshot)
Distribution des données ?
Une solution = triggers
Un snapshot de stockage (ou instantané de stockage) permet de réaliser une copie de données stockées sur un système de stockage, ou une copie des modifications apportées à ces données.
Ils permettent de :
Programmer des règles de gestion qui n'ont pu être mises en places par des contraintes statiques
Déporter des contraintes au niveau serveur pour alléger le client
Programmer l'intégrité référentielle et la réplication dans les architectures distribuées avec l'utilisation de liens de données (database links).
-Lecture scalable et performante;
-limite d’ecriture sur une seul machine.
-avantage la coherence des donnees.
Réplication sans conflits
En évitant les mises à jour multiples (réplication asymétrique)
Système maître unique
Alimentation des entrepôts de données
Dissémination d’information
Consolidation d’information
Asynchrone: la mise à jour des copies est faite le plus tôt possible
-les donnees ne sont pas toujours cohenrentes.
-lecture/ecriture scalable a l’infini.
Réplication avec résolution des conflits
Une règle de priorité permet de résoudre les conflits (r. symétrique)
Systèmes maîtres multiples
Accès délocalisé
Système 24h/24
Synchrone: la mise à jour des copies est faite dans la même transaction
Système maître désigné en dynamique
Découpage d’un processus par activité