Graphes, multi-graphes et recherche
d’information
Nathalie Villa-Vialaneix
http://www.nathalievilla.org
& Taoufiq Dkaki (IR...
1 Introduction : RI et graphes
2 Approche graphes simples
3 Approche multigraphes
2 / 16
Nathalie Villa-Vialaneix
Introduction : RI et graphes
Contexte et but de la recherche
d’information
On dispose d’un grand nombre de documents
3 / 1...
Introduction : RI et graphes
Contexte et but de la recherche
d’information
On dispose d’un grand nombre de documents et on...
Introduction : RI et graphes
Modèle
Documents
Requête
4 / 16
Nathalie Villa-Vialaneix
Introduction : RI et graphes
Modèle
Documents → Représentation des docs
(liste de mots, type, ...)
Requête → Représentatio...
Introduction : RI et graphes
Modèle
Documents → Représentation des docs
(liste de mots, type, ...)
Comparaison
(similarité...
Introduction : RI et graphes
Modèle
Documents → Représentation des docs
(liste de mots, type, ...)
Comparaison
(similarité...
Introduction : RI et graphes
Approches utilisées
Approche basique : prise en compte uniquement des attributs de
surface (d...
Introduction : RI et graphes
Approches utilisées
Approche basique : prise en compte uniquement des attributs de
surface (d...
Introduction : RI et graphes
Approches utilisées
Approche basique : prise en compte uniquement des attributs de
surface (d...
Introduction : RI et graphes
Approches utilisées
Approche basique : prise en compte uniquement des attributs de
surface (d...
Approche graphes simples
Principe de base
Documents
Matrices
Requête Indexation Documents/Documents → graphe
Documents/Ter...
Approche graphes simples
Principe de base
Documents
Matrices
Requête Indexation Documents/Documents → graphe
Documents/Ter...
Approche graphes simples
Exemple de similarité
φ
−→
Plongement des sommets dans un espace de Hilbert par le biais
d’un noy...
Approche graphes simples
Quel noyau pour les graphes ?
Des noyaux basés sur le Laplacien
Pour un graphe de sommets V = {x1...
Approche graphes simples
Quel noyau pour les graphes ?
Des noyaux basés sur le Laplacien
Pour un graphe de sommets V = {x1...
Approche graphes simples
Distance entre documents
Les noyaux usuels de graphes sont de bons candidats pour
construire une ...
Approche graphes simples
Distance entre documents
Les noyaux usuels de graphes sont de bons candidats pour
construire une ...
Approche graphes simples
Distance entre documents
Les noyaux usuels de graphes sont de bons candidats pour
construire une ...
Approche graphes simples
Validation de l’approche
Utilisation d’une collection de tests publics (ici CRAN ;
pertinence de ...
Approche graphes simples
Validation de l’approche
Utilisation d’une collection de tests publics (ici CRAN ;
pertinence de ...
Approche graphes simples
Validation de l’approche
Utilisation d’une collection de tests publics (ici CRAN ;
pertinence de ...
Approche graphes simples
Validation de l’approche
Utilisation d’une collection de tests publics (ici CRAN ;
pertinence de ...
Approche multigraphes
Des graphes aux multigraphes
Modèle relationnel plus complet du problème :
Document 1
Document 2
Doc...
Approche multigraphes
Des graphes aux multigraphes
Modèle relationnel plus complet du problème :
Document 1
Document 2
Doc...
Approche multigraphes
Des graphes aux multigraphes
Modèle relationnel plus complet du problème :
Document 1
Document 2
Doc...
Approche multigraphes
Combiner les informations
un type d’information → un noyau Ki
12 / 16
Nathalie Villa-Vialaneix
Approche multigraphes
Combiner les informations
un type d’information → un noyau Ki
Comment combiner K1, . . . , Kp ?
12 /...
Approche multigraphes
Combiner les informations
un type d’information → un noyau Ki
Comment combiner K1, . . . , Kp ?
Prop...
Approche multigraphes
Approche supervisée
Hypothèse : On sait si certains Documents/Mots sont pertinents
pour la requête
1...
Approche multigraphes
Approche supervisée
Hypothèse : On sait si certains Documents/Mots sont pertinents
pour la requête
D...
Approche multigraphes
Méthodologie
Apprentissage de la règle de décision (pertinent/non pertinent) à
partir du noyau K par...
Approche multigraphes
Méthodologie
Apprentissage de la règle de décision (pertinent/non pertinent) à
partir du noyau K par...
Approche multigraphes
Comment optimiser K = p
j=1
αjKj ?
[Lanckriet et al., 2004] : La qualité de prédiction est bornée pa...
Approche multigraphes
Comment optimiser K = p
j=1
αjKj ?
[Lanckriet et al., 2004] : La qualité de prédiction est bornée pa...
Approche multigraphes
Conclusion et perspectives
Avantage/inconvénient de l’approche
1 La requête fait partie du modèle : ...
Approche multigraphes
Conclusion et perspectives
Avantage/inconvénient de l’approche
1 La requête fait partie du modèle : ...
Quelques références
Lanckriet, G., Cristianini, N., Bartlett, P., El Ghaoui, L., and Jordan, M. (2004).
Learning the kerne...
Prochain SlideShare
Chargement dans…5
×

Graphes, multi-graphes et recherche d’information

389 vues

Publié le

Journées FREMIT 2010
Toulouse, France
September 20th, 2010

Publié dans : Sciences
0 commentaire
0 j’aime
Statistiques
Remarques
  • Soyez le premier à commenter

  • Soyez le premier à aimer ceci

Aucun téléchargement
Vues
Nombre de vues
389
Sur SlideShare
0
Issues des intégrations
0
Intégrations
36
Actions
Partages
0
Téléchargements
5
Commentaires
0
J’aime
0
Intégrations 0
Aucune incorporation

Aucune remarque pour cette diapositive

Graphes, multi-graphes et recherche d’information

  1. 1. Graphes, multi-graphes et recherche d’information Nathalie Villa-Vialaneix http://www.nathalievilla.org & Taoufiq Dkaki (IRIT-UTM) IUT de Carcassonne (UPVD) & Institut de Mathématiques de Toulouse Journées FREMIT 2010 Toulouse, 20/21 septembre 2010 1 / 16 Nathalie Villa-Vialaneix
  2. 2. 1 Introduction : RI et graphes 2 Approche graphes simples 3 Approche multigraphes 2 / 16 Nathalie Villa-Vialaneix
  3. 3. Introduction : RI et graphes Contexte et but de la recherche d’information On dispose d’un grand nombre de documents 3 / 16 Nathalie Villa-Vialaneix
  4. 4. Introduction : RI et graphes Contexte et but de la recherche d’information On dispose d’un grand nombre de documents et on recherche ceux qui sont pertinents pour une requête donnée Organisation journées FREMIT ??? −−−→ 3 / 16 Nathalie Villa-Vialaneix
  5. 5. Introduction : RI et graphes Modèle Documents Requête 4 / 16 Nathalie Villa-Vialaneix
  6. 6. Introduction : RI et graphes Modèle Documents → Représentation des docs (liste de mots, type, ...) Requête → Représentation de la requête 4 / 16 Nathalie Villa-Vialaneix
  7. 7. Introduction : RI et graphes Modèle Documents → Représentation des docs (liste de mots, type, ...) Comparaison (similarité...) Requête → Représentation de la requête 4 / 16 Nathalie Villa-Vialaneix
  8. 8. Introduction : RI et graphes Modèle Documents → Représentation des docs (liste de mots, type, ...) Comparaison (similarité...) Requête → Représentation de la requête Représentation des documents/requêtes (peu abordé : utilisation de l’existant) ; “Comparaison” de la requête aux documents (abordé) ; Évaluation du système sur des bases de données publiques (abordé). 4 / 16 Nathalie Villa-Vialaneix
  9. 9. Introduction : RI et graphes Approches utilisées Approche basique : prise en compte uniquement des attributs de surface (description des Documents par leurs Termes) ; 5 / 16 Nathalie Villa-Vialaneix
  10. 10. Introduction : RI et graphes Approches utilisées Approche basique : prise en compte uniquement des attributs de surface (description des Documents par leurs Termes) ; Approche PageRank : prise en compte (aussi) des relations Documents/Documents. 5 / 16 Nathalie Villa-Vialaneix
  11. 11. Introduction : RI et graphes Approches utilisées Approche basique : prise en compte uniquement des attributs de surface (description des Documents par leurs Termes) ; Approche PageRank : prise en compte (aussi) des relations Documents/Documents. ⇒ Utilisation des graphes pour modéliser des données relationnelles. Exemple : Modélisation par un graphe biparti Document 1 Document 2 Document n ... Requête Mot 1 Mot 2 Mot 3 Mot 4 Mot m 5 / 16 Nathalie Villa-Vialaneix
  12. 12. Introduction : RI et graphes Approches utilisées Approche basique : prise en compte uniquement des attributs de surface (description des Documents par leurs Termes) ; Approche PageRank : prise en compte (aussi) des relations Documents/Documents. ⇒ Utilisation des graphes pour modéliser des données relationnelles. Exemple : Modélisation par un graphe pondéré 5 / 16 Nathalie Villa-Vialaneix
  13. 13. Approche graphes simples Principe de base Documents Matrices Requête Indexation Documents/Documents → graphe Documents/Termes... Termes 6 / 16 Nathalie Villa-Vialaneix
  14. 14. Approche graphes simples Principe de base Documents Matrices Requête Indexation Documents/Documents → graphe Documents/Termes... Termes Puis : calcul d’une similarité/dissimilarité entre sommets du graphe ⇒ ordonnancement des documents par similarité avec la requête. 6 / 16 Nathalie Villa-Vialaneix
  15. 15. Approche graphes simples Exemple de similarité φ −→ Plongement des sommets dans un espace de Hilbert par le biais d’un noyau: K(xi, xj) = φ(xi), φ(xj) . 7 / 16 Nathalie Villa-Vialaneix
  16. 16. Approche graphes simples Quel noyau pour les graphes ? Des noyaux basés sur le Laplacien Pour un graphe de sommets V = {x1, . . . , xn} et de poids positifs (wi,j)i,j=1,...,n tels que, pour tout i, j = 1, . . . , n, wi,j = wj,i and di = n j=1 wi,j, Laplacien : L = (Li,j)i,j=1,...,n où Li,j = −wi,j if i j di if i = j ; 8 / 16 Nathalie Villa-Vialaneix
  17. 17. Approche graphes simples Quel noyau pour les graphes ? Des noyaux basés sur le Laplacien Pour un graphe de sommets V = {x1, . . . , xn} et de poids positifs (wi,j)i,j=1,...,n tels que, pour tout i, j = 1, . . . , n, wi,j = wj,i and di = n j=1 wi,j, Laplacien : L = (Li,j)i,j=1,...,n où Li,j = −wi,j if i j di if i = j ; À partir du Laplacien, on définit le noyau de la chaleur : K(xi, xj) = e−βL ij ( quantité d’énergie accumulée en xj à partir de xi). 8 / 16 Nathalie Villa-Vialaneix
  18. 18. Approche graphes simples Distance entre documents Les noyaux usuels de graphes sont de bons candidats pour construire une “distance” entre sommets (notamment entre documents et entre une requête et un document). 9 / 16 Nathalie Villa-Vialaneix
  19. 19. Approche graphes simples Distance entre documents Les noyaux usuels de graphes sont de bons candidats pour construire une “distance” entre sommets (notamment entre documents et entre une requête et un document). La règle de réponse à la requête est alors : 1 Déterminer K(r, xi) pour r la requête est xi les documents 2 Retenir les k documents maximisant K(r, xk ) (mesure de simularité) 9 / 16 Nathalie Villa-Vialaneix
  20. 20. Approche graphes simples Distance entre documents Les noyaux usuels de graphes sont de bons candidats pour construire une “distance” entre sommets (notamment entre documents et entre une requête et un document). La règle de réponse à la requête est alors : 1 Déterminer K(r, xi) pour r la requête est xi les documents 2 Retenir les k documents maximisant K(r, xk ) (mesure de simularité) Problème : Les graphes bipartis considérés dans ces problèmes ont plusieurs milliers de sommets... Nécessité d’un filtre préalable pour diminuer la taille du graphe. 9 / 16 Nathalie Villa-Vialaneix
  21. 21. Approche graphes simples Validation de l’approche Utilisation d’une collection de tests publics (ici CRAN ; pertinence de documents évaluée par des experts (humains) pour diverses requêtes) 10 / 16 Nathalie Villa-Vialaneix
  22. 22. Approche graphes simples Validation de l’approche Utilisation d’une collection de tests publics (ici CRAN ; pertinence de documents évaluée par des experts (humains) pour diverses requêtes) Similarité basée sur le graphe des correspondances 10 / 16 Nathalie Villa-Vialaneix
  23. 23. Approche graphes simples Validation de l’approche Utilisation d’une collection de tests publics (ici CRAN ; pertinence de documents évaluée par des experts (humains) pour diverses requêtes) Similarité basée sur le graphe biparti 10 / 16 Nathalie Villa-Vialaneix
  24. 24. Approche graphes simples Validation de l’approche Utilisation d’une collection de tests publics (ici CRAN ; pertinence de documents évaluée par des experts (humains) pour diverses requêtes) Conclusion : Ne semble pas très pertinent pour ce type de graphes... 10 / 16 Nathalie Villa-Vialaneix
  25. 25. Approche multigraphes Des graphes aux multigraphes Modèle relationnel plus complet du problème : Document 1 Document 2 Document n ... Requête Mot 1 Mot 2 Mot 3 Mot 4 Mot m Relations entre Documents : nombre de mots communs (arrête pondérée), précède/suit (oui/non)... 11 / 16 Nathalie Villa-Vialaneix
  26. 26. Approche multigraphes Des graphes aux multigraphes Modèle relationnel plus complet du problème : Document 1 Document 2 Document n ... Requête Mot 1 Mot 2 Mot 3 Mot 4 Mot m Informations sur les Documents : type de document (qualitatif)... 11 / 16 Nathalie Villa-Vialaneix
  27. 27. Approche multigraphes Des graphes aux multigraphes Modèle relationnel plus complet du problème : Document 1 Document 2 Document n ... Requête Mot 1 Mot 2 Mot 3 Mot 4 Mot m Relations entre Mots : synonyme, généralise (oui/non)... etc... 11 / 16 Nathalie Villa-Vialaneix
  28. 28. Approche multigraphes Combiner les informations un type d’information → un noyau Ki 12 / 16 Nathalie Villa-Vialaneix
  29. 29. Approche multigraphes Combiner les informations un type d’information → un noyau Ki Comment combiner K1, . . . , Kp ? 12 / 16 Nathalie Villa-Vialaneix
  30. 30. Approche multigraphes Combiner les informations un type d’information → un noyau Ki Comment combiner K1, . . . , Kp ? Proposition : Utilisation d’un noyau K = p i=1 αiKi et optimisation des αi. 12 / 16 Nathalie Villa-Vialaneix
  31. 31. Approche multigraphes Approche supervisée Hypothèse : On sait si certains Documents/Mots sont pertinents pour la requête 13 / 16 Nathalie Villa-Vialaneix
  32. 32. Approche multigraphes Approche supervisée Hypothèse : On sait si certains Documents/Mots sont pertinents pour la requête Document 1 Document 2 Document n ... Requête Mot 1 Mot 2 Mot 3 Mot 4 Mot m Exemple : Pertinent : Document 1 et Mot 4 ; Non pertinent : Document 2, Mot 1 et Mot 2 ; Inconnu : Document n, Mot 3 et Mot m. 13 / 16 Nathalie Villa-Vialaneix
  33. 33. Approche multigraphes Méthodologie Apprentissage de la règle de décision (pertinent/non pertinent) à partir du noyau K par un SVM : min w,b,ξ wT w + C i ξi tel que : yi wT φ(xi) + b ≥ 1 − ξi et ξi ≥ 0 pour tout i = 1, . . . , n où xi sont les sommets du graphe dont la pertinence est connue (n sommets) ; φ est le plongement associé au noyau K : φ(xi), φ(xj) = K(xi, xj) (φ non explicite grâce à l’“astuce noyau”) ; Solution par programmation quadratique. 14 / 16 Nathalie Villa-Vialaneix
  34. 34. Approche multigraphes Méthodologie Apprentissage de la règle de décision (pertinent/non pertinent) à partir du noyau K par un SVM Prédiction (pertinent: 1/non pertinent: −1) pour un sommet non connu xnew : P(xnew) = Sign   n i=1 βiK(xi, xnew) + b   pour w = n i=1 βiK(xi, xnew). 14 / 16 Nathalie Villa-Vialaneix
  35. 35. Approche multigraphes Comment optimiser K = p j=1 αjKj ? [Lanckriet et al., 2004] : La qualité de prédiction est bornée par une fonction de la solution optimale du problème quadratique précédent (pour Tr(K) fixée). 15 / 16 Nathalie Villa-Vialaneix
  36. 36. Approche multigraphes Comment optimiser K = p j=1 αjKj ? [Lanckriet et al., 2004] : La qualité de prédiction est bornée par une fonction de la solution optimale du problème quadratique précédent (pour Tr(K) fixée). ⇒ Minimisation en αj de la solution (SDP) noyau optimisé et règle de décision. 15 / 16 Nathalie Villa-Vialaneix
  37. 37. Approche multigraphes Conclusion et perspectives Avantage/inconvénient de l’approche 1 La requête fait partie du modèle : approche peu utilisable “online” ; 2 Par contre, approche adaptée pour du relevance feedback. 16 / 16 Nathalie Villa-Vialaneix
  38. 38. Approche multigraphes Conclusion et perspectives Avantage/inconvénient de l’approche 1 La requête fait partie du modèle : approche peu utilisable “online” ; 2 Par contre, approche adaptée pour du relevance feedback. Perspectives 1 Création d’un dépôt pour des jeux de test avec génération de multigraphes à la volée (format graphML) : en cours (manquent une inclusion facile des relations termes/termes et des fonctionnalités sur les sorties graphML). 2 Étude des problèmes de passage à la grande échelle de l’algorithme précédent (vers une utilisation “online”) et choix de noyaux appropriés aux diverses informations. 3 Tests... 16 / 16 Nathalie Villa-Vialaneix
  39. 39. Quelques références Lanckriet, G., Cristianini, N., Bartlett, P., El Ghaoui, L., and Jordan, M. (2004). Learning the kernel matrix with semidefinite programming. Journal of Machine Learning Research, 5:27–72. Merci de votre attention... 16 / 16 Nathalie Villa-Vialaneix

×