1
L’hétérogénéité concerne les données, les modèles et les langages.
2
Système
homogène
• même logiciel gérant les
données sur tous les sites
• même modèle de données
• même univers de discours
Système
hétérogène
• n’adhère pas à toutes les
caractéristiques d’un
système homogène
• langages de programmation
et d’interrogation différents,
modèles différents, SGBD
différents
hétérogénéité est dûe au fait que les sources de données
ont été conçues indépendamment par des concepteurs
différents, ceci explique le fait que les données relatives à
un même sujet sont représentées différemment sur des
systèmes d’information distincts.
Cette hétérogénéité provient des choix différents qui sont
faits pour représenter des faits du monde réel dans un
format informatique. En effet, les données des sources
sont structurellement indépendantes mais sont toujours
supposées relever de domaines similaires.
3
L’hétérogénéité des sources de données est à l’origine
de la complexité de la tâche d’intégration.
L’hétérogénéité peut être de deux natures :
 Hétérogénéité structurelle (syntaxique /schématique)
 Hétérogénéité sémantique
L’intégration des données implique l’identification des
conflits syntaxiques et sémantiques et ensuite leur
résolution.
4
5
• Choix du type de données
• Choix du nombre de constructeurs
• Choix des informations représentées
Hétérogénéité structurelle
• conflits de représentation
• conflits de nom
• conflits de contexte
• conflits de mesure de valeur
Hétérogénéité sémantique
Hétérogénéité structurelle (1)
- L’hétérogénéité structurelle provient du fait que les sources
de données peuvent avoir différentes structures ou
différents formats de stockage
- Elle se retrouve dans les formats de stockage des données
(XML, relationnel, objet, etc.), dans les langages
d’interrogation (XQuery, SQL, OQL, etc.), dans les protocoles
d’accès (HTTP, etc.), dans les interfaces, etc.
6
Hétérogénéité structurelle (2)
Choix du type de données : ces conflits se posent
lorsqu’on utilise des types de données différents
pour la même information. Par exemple, dans le
domaine des transactions commerciales, la quantité
d’un produit est représentée par un réel dans une
source S1 et par une chaîne de caractère dans une
autre source S2.
7
Hétérogénéité structurelle (3)
Choix du nombre de constructeurs : ces conflits se
présentent lorsque le nombre de constructeurs
modélisant une information est différent d’une source
à une autre. Par exemple, l’attribut nom d’un client est
modélisé par un seul attribut servant à stocker le nom
et le prénom d’un client dans une source S1, alors que
deux attributs sont utilisés dans une autre source 2.
8
Hétérogénéité structurelle (4)
Choix des informations représentées : ces conflits se
posent lorsqu’une information est représentée dans
des sources alors qu’elle ne l’est pas dans d’autres.
Par exemple, l’adresse d’un client n’est pas connue
pour tous les clients d’une source S1, alors que c’est
une donnée obligatoire dans une source S2.
9
Hétérogénéité sémantique (1)
Elle provient du fait que les sources sont conçues par
différents concepteurs qui ont des objectifs applicatifs
différents et ne partagent donc pas forcément la même
sémantique des concepts.
- Elle représente une problématique plus difficile à gérer.
10
Hétérogénéité sémantique (2)
-Elle est dûe aux conflits sémantiques dans les termes, les
expressions, etc., qui sont adoptés par différents schémas de
données mais exprimés de diverses manières.(différentes
interprétations pour les objets du monde réel )
-L'interopérabilité sémantique de données présente un défi
majeur dans le processus d’´elaboration des systèmes
d’intégration.
11
Hétérogénéité sémantique (3)
-Conflits de noms : les conflits de noms se produisent
lorsqu’on utilise soit des noms différents pour le même
concept ou propriété (synonyme), ou plus rarement des
noms identiques pour des concepts différents (homonyme).
Exemple1: Produit dans S1 et Article dans S2, alors que les
deux concepts portent le même sens dans les deux sources.
Exemple2: Prix dans les deux sources, prix de vente d’un
produit dans S1, prix de production d’un produit dans source
S2
12
Hétérogénéité sémantique (4)
Conflits de contextes : les conflits de contextes se produisent
lorsque des concepts semblent avoir la même signification
mais ils sont évalués dans différents contextes.
Exemple, la propriété Prix ne s’applique que pour les produits
neufs dans la source S1, alors qu’elle est appliquée pour tous
les produits dans la source S2.
13
Hétérogénéité sémantique (5)
- Conflits de mesures : les conflits de mesures ou de valeurs se
trouvent dans le cas où des unités de mesure différentes ont
été utilisées pour mesurer certaines propriétés de certains
concepts. Par exemple, la valeur de l’attribut Prix d’un produit
est calculée en dinars dans la source S1 et en euros dans la
source S2.
14
Hétérogénéité sémantique (5)
15
Système d’intégration des données
16
17
Intégration matérialisée
• Les données provenant
des sources à intégrer sont
stockées sur un support
spécifique (entrepôt de
données).
• L’interrogation s’effectue
comme sur une BD
classique (relationnelle).
Intégration virtuelle
• Les données restent dans
les sources
• Les requêtes sont faites sur
un schéma global, puis
décomposées en sous-
requêtes sur les sources.
Les différents résultats des
sources sont de la requête
sont combinés pour former
le résultat final.
Architecture d’entrepôt de données
18
Architecture de médiateur
19
20
Architecture
matérialisée
• Bonnes performances
• Données pas toujours
fraîches
• Nettoyage et filtrage des
données
Architecture
virtuelle
• Les données sont toujours
fraîches
• Traitement de requêtes
peut être coûteux
• Défi principal :
performances

Cours02 SI-INT-BDD_Processus d’intégration d’applications d’entreprises

  • 1.
  • 2.
    L’hétérogénéité concerne lesdonnées, les modèles et les langages. 2 Système homogène • même logiciel gérant les données sur tous les sites • même modèle de données • même univers de discours Système hétérogène • n’adhère pas à toutes les caractéristiques d’un système homogène • langages de programmation et d’interrogation différents, modèles différents, SGBD différents
  • 3.
    hétérogénéité est dûeau fait que les sources de données ont été conçues indépendamment par des concepteurs différents, ceci explique le fait que les données relatives à un même sujet sont représentées différemment sur des systèmes d’information distincts. Cette hétérogénéité provient des choix différents qui sont faits pour représenter des faits du monde réel dans un format informatique. En effet, les données des sources sont structurellement indépendantes mais sont toujours supposées relever de domaines similaires. 3
  • 4.
    L’hétérogénéité des sourcesde données est à l’origine de la complexité de la tâche d’intégration. L’hétérogénéité peut être de deux natures :  Hétérogénéité structurelle (syntaxique /schématique)  Hétérogénéité sémantique L’intégration des données implique l’identification des conflits syntaxiques et sémantiques et ensuite leur résolution. 4
  • 5.
    5 • Choix dutype de données • Choix du nombre de constructeurs • Choix des informations représentées Hétérogénéité structurelle • conflits de représentation • conflits de nom • conflits de contexte • conflits de mesure de valeur Hétérogénéité sémantique
  • 6.
    Hétérogénéité structurelle (1) -L’hétérogénéité structurelle provient du fait que les sources de données peuvent avoir différentes structures ou différents formats de stockage - Elle se retrouve dans les formats de stockage des données (XML, relationnel, objet, etc.), dans les langages d’interrogation (XQuery, SQL, OQL, etc.), dans les protocoles d’accès (HTTP, etc.), dans les interfaces, etc. 6
  • 7.
    Hétérogénéité structurelle (2) Choixdu type de données : ces conflits se posent lorsqu’on utilise des types de données différents pour la même information. Par exemple, dans le domaine des transactions commerciales, la quantité d’un produit est représentée par un réel dans une source S1 et par une chaîne de caractère dans une autre source S2. 7
  • 8.
    Hétérogénéité structurelle (3) Choixdu nombre de constructeurs : ces conflits se présentent lorsque le nombre de constructeurs modélisant une information est différent d’une source à une autre. Par exemple, l’attribut nom d’un client est modélisé par un seul attribut servant à stocker le nom et le prénom d’un client dans une source S1, alors que deux attributs sont utilisés dans une autre source 2. 8
  • 9.
    Hétérogénéité structurelle (4) Choixdes informations représentées : ces conflits se posent lorsqu’une information est représentée dans des sources alors qu’elle ne l’est pas dans d’autres. Par exemple, l’adresse d’un client n’est pas connue pour tous les clients d’une source S1, alors que c’est une donnée obligatoire dans une source S2. 9
  • 10.
    Hétérogénéité sémantique (1) Elleprovient du fait que les sources sont conçues par différents concepteurs qui ont des objectifs applicatifs différents et ne partagent donc pas forcément la même sémantique des concepts. - Elle représente une problématique plus difficile à gérer. 10
  • 11.
    Hétérogénéité sémantique (2) -Elleest dûe aux conflits sémantiques dans les termes, les expressions, etc., qui sont adoptés par différents schémas de données mais exprimés de diverses manières.(différentes interprétations pour les objets du monde réel ) -L'interopérabilité sémantique de données présente un défi majeur dans le processus d’´elaboration des systèmes d’intégration. 11
  • 12.
    Hétérogénéité sémantique (3) -Conflitsde noms : les conflits de noms se produisent lorsqu’on utilise soit des noms différents pour le même concept ou propriété (synonyme), ou plus rarement des noms identiques pour des concepts différents (homonyme). Exemple1: Produit dans S1 et Article dans S2, alors que les deux concepts portent le même sens dans les deux sources. Exemple2: Prix dans les deux sources, prix de vente d’un produit dans S1, prix de production d’un produit dans source S2 12
  • 13.
    Hétérogénéité sémantique (4) Conflitsde contextes : les conflits de contextes se produisent lorsque des concepts semblent avoir la même signification mais ils sont évalués dans différents contextes. Exemple, la propriété Prix ne s’applique que pour les produits neufs dans la source S1, alors qu’elle est appliquée pour tous les produits dans la source S2. 13
  • 14.
    Hétérogénéité sémantique (5) -Conflits de mesures : les conflits de mesures ou de valeurs se trouvent dans le cas où des unités de mesure différentes ont été utilisées pour mesurer certaines propriétés de certains concepts. Par exemple, la valeur de l’attribut Prix d’un produit est calculée en dinars dans la source S1 et en euros dans la source S2. 14
  • 15.
  • 16.
  • 17.
    17 Intégration matérialisée • Lesdonnées provenant des sources à intégrer sont stockées sur un support spécifique (entrepôt de données). • L’interrogation s’effectue comme sur une BD classique (relationnelle). Intégration virtuelle • Les données restent dans les sources • Les requêtes sont faites sur un schéma global, puis décomposées en sous- requêtes sur les sources. Les différents résultats des sources sont de la requête sont combinés pour former le résultat final.
  • 18.
  • 19.
  • 20.
    20 Architecture matérialisée • Bonnes performances •Données pas toujours fraîches • Nettoyage et filtrage des données Architecture virtuelle • Les données sont toujours fraîches • Traitement de requêtes peut être coûteux • Défi principal : performances