Indexation de données
SS tree
• Demba SYLLA
• Rachid TALBI
Contexte

Indexation multidimensionnelle des données

multimédia

1
Introduction
Multimédia
• Arrivée des CD_ROM (1980) apparition du mot multimédia
• Il désignait les applications qui pouv...
Introduction
Base de données multimédia (MMDB)

• Initialement traitées comme des BD standards:
– Objet multimédia ↔ un se...
Introduction
Spécificités des MMDB
• L’information portée par le multimédia est tout ce qui peut venir du
monde réel, alor...
Introduction
Spécificités des MMDB
• Ex de requête impossible avec un SGDB “classique”:
récupérer toutes les images “qui r...
Introduction
Spécificités des MMDB
• Ex de requête impossible avec un SGDB “classique”:
récupérer toutes les images “qui r...
Indexation
• Décrire les images par leurs contenu à l’aide des descripteurs
relatifs aux indices visuels (couleurs, forme,...
Recherche approximative /par similarité
• L’idée clé dans la recherche de média est la recherche approximative
• Utilise l...
Distance et mesure de similarité
• Avoir un outil quantitatif pour répondre à la question:
Est-ce que deux entités X et Y ...
Distance
• Une distance d sur un ensemble E de vecteurs est une
application dans R+ vérifiant les axiomes suivantes:
 Sép...
Distance
• La similarité est basée sur la notion de distance entre deux points x, y:
 Distance euclidienne:
d(x,y) =

 D...
Approches de recherche par similarité
• Recherche à Ɛ près: (par intervalle)

V5

V3

Q (q,ε )= { v∈ BD/ sim(q,v) < ε }
q
...
Approche de recherche par similarité
• Recherche des K plus proches voisins :
V5

V3

q
V2
V1

V4

K=2

13
Le SS-tree

• Arbre de recherche par similarité
 basé sur des sphères qui englobes les objets
 Le centre de la sphère es...
Le SS-tree

Utilisation de sphères
Centre d’une sphère=
centre De gravité des
points englobés

Représentation multidimensi...
Le SS-tree

représentation de l'arbre utilisé dans la mémoire
ou sur le disque

16
Le SS-tree
• Maintien le nombre des points dans les sous arbres
• La sphère représentée par son centre et le rayon
Avantag...
Le SS-tree
Avantages:
 Moins d’espace que le rectangle (R*-tree)
 Fanout plus élevé en raison du fait que l’espace de st...
SR-tree

Idéalement, un noeud d'index devrait combiner l’espace de
stockage petit du SS-tree avec le volume petit du R *-t...
SR-tree
• Utilise les sphères de délimitation du SS-tree et les rectangles
englobant du R-tree

20
SR-tree
• Le nœud d’index est l’intersection de ces deux

21
SR-tree
• Le nœud d’index est l’intersection de ces deux

22
SR-tree

Sur mémoire

23
SR-tree
• Structures:
 Nœud d'index maintient explicitement à la fois

o sphère délimitant
o rectangle englobant
 Center...
Questions ??
Prochain SlideShare
Chargement dans…5
×

SS tree (par SYLLA Demba et TALBI Rachid)

590 vues

Publié le

0 commentaire
0 j’aime
Statistiques
Remarques
  • Soyez le premier à commenter

  • Soyez le premier à aimer ceci

Aucun téléchargement
Vues
Nombre de vues
590
Sur SlideShare
0
Issues des intégrations
0
Intégrations
3
Actions
Partages
0
Téléchargements
8
Commentaires
0
J’aime
0
Intégrations 0
Aucune incorporation

Aucune remarque pour cette diapositive

SS tree (par SYLLA Demba et TALBI Rachid)

  1. 1. Indexation de données SS tree • Demba SYLLA • Rachid TALBI
  2. 2. Contexte Indexation multidimensionnelle des données multimédia 1
  3. 3. Introduction Multimédia • Arrivée des CD_ROM (1980) apparition du mot multimédia • Il désignait les applications qui pouvait utiliser ou piloter différents médias simultanément. • Recherche informatique : mutlimédia  l’étude des média non textuels Images , Vidéos, Son 2
  4. 4. Introduction Base de données multimédia (MMDB) • Initialement traitées comme des BD standards: – Objet multimédia ↔ un seul item : champ d’une BDDR – Recherche sur mots clés. – Utilisation des relation entre objet. – Recherche sur les mots dans les pages web (http://images.google.com) 3
  5. 5. Introduction Spécificités des MMDB • L’information portée par le multimédia est tout ce qui peut venir du monde réel, alors que l’information portée par une base de données classique ne peut être qu’une représentation symbolique de faits limités a l’univers de la base de données. •Le développeur d’une MMDB ne peut expliciter tous les aspects des données qui seront importants pour l’utilisateur. Informations 4
  6. 6. Introduction Spécificités des MMDB • Ex de requête impossible avec un SGDB “classique”: récupérer toutes les images “qui ressemblent” à une image requête ?? •Besoin de recherche d’information sur le contenu des objets, non pas sur leurs attributs. (recherche approximative/par contenu ) 5
  7. 7. Introduction Spécificités des MMDB • Ex de requête impossible avec un SGDB “classique”: récupérer toutes les images “qui ressemblent” à une image requête ?? •Besoin de recherche d’information sur le contenu des objets, non pas sur leurs attributs. (recherche approximative/par contenu ) 6
  8. 8. Indexation • Décrire les images par leurs contenu à l’aide des descripteurs relatifs aux indices visuels (couleurs, forme, texture,…). Image BD Indices visuels Descripteurs Vecteur caractéristique Couleur Forme V Texture 7
  9. 9. Recherche approximative /par similarité • L’idée clé dans la recherche de média est la recherche approximative • Utilise la notion de proximité, de similarité, de distance entre objets  Retrouver les vecteurs similaires à un vecteur de requête au sens d’une mesure de similarité (distance entre eux) 8
  10. 10. Distance et mesure de similarité • Avoir un outil quantitatif pour répondre à la question: Est-ce que deux entités X et Y se ressemblent ? • comparer des entités obtenir un scalaire indiquant la proximité de ces entités 9
  11. 11. Distance • Une distance d sur un ensemble E de vecteurs est une application dans R+ vérifiant les axiomes suivantes:  Séparation : d(x,y)=0 ↔ x=y  Symétrie: d(x,y)=d(y,x)  Inégalité triangulaire : d(x,z)<= d(x,y)+d(y,z) 10
  12. 12. Distance • La similarité est basée sur la notion de distance entre deux points x, y:  Distance euclidienne: d(x,y) =  Distance X2: pour comparer deux distributions 11
  13. 13. Approches de recherche par similarité • Recherche à Ɛ près: (par intervalle) V5 V3 Q (q,ε )= { v∈ BD/ sim(q,v) < ε } q V2 V4 V1 12
  14. 14. Approche de recherche par similarité • Recherche des K plus proches voisins : V5 V3 q V2 V1 V4 K=2 13
  15. 15. Le SS-tree • Arbre de recherche par similarité  basé sur des sphères qui englobes les objets  Le centre de la sphère est le centre de gravité des points 14
  16. 16. Le SS-tree Utilisation de sphères Centre d’une sphère= centre De gravité des points englobés Représentation multidimensionnelle 15
  17. 17. Le SS-tree représentation de l'arbre utilisé dans la mémoire ou sur le disque 16
  18. 18. Le SS-tree • Maintien le nombre des points dans les sous arbres • La sphère représentée par son centre et le rayon Avantages:  Moins d’espace que le rectangle (R*-tree)  Fanout plus élevé en raison du fait que l’espace de stockage requis est plus petit 17
  19. 19. Le SS-tree Avantages:  Moins d’espace que le rectangle (R*-tree)  Fanout plus élevé en raison du fait que l’espace de stockage requis est plus petit Inconvénients:  SS-tree comporte plus de volume que le R-tree, ce qui augmente la quantité de chevauchement 18
  20. 20. SR-tree Idéalement, un noeud d'index devrait combiner l’espace de stockage petit du SS-tree avec le volume petit du R *-tree, d’où le SR-tree 19
  21. 21. SR-tree • Utilise les sphères de délimitation du SS-tree et les rectangles englobant du R-tree 20
  22. 22. SR-tree • Le nœud d’index est l’intersection de ces deux 21
  23. 23. SR-tree • Le nœud d’index est l’intersection de ces deux 22
  24. 24. SR-tree Sur mémoire 23
  25. 25. SR-tree • Structures:  Nœud d'index maintient explicitement à la fois o sphère délimitant o rectangle englobant  Center est barycentre pondéré de nœuds enfants  Le rayon est le minimum des distances maximales de o Sphères englobant des nœuds enfants o Rectangles de délimitation de nœuds enfants 24
  26. 26. Questions ??

×