Mod`les de RI fond´s sur l’information                      e              e                          St´phane Clinchant  ...
Contenu InformatifUtiliser l’information de Shannon pour pond´rer les mots dans les                                       ...
Contenu InformatifUtiliser l’information de Shannon pour pond´rer les mots dans les                                       ...
Mod`les fond´s sur l’information   e        eId´e Principale:  e   1   Les fr´quences discr`tes des termes (x) sont renorm...
Plan   1   Propri`t´s th´oriques des mod`les             ee     e               e              Contraintes Heuristiques de...
Contraintes Heuristiques (1)Une fonction d’ordonnancement en RI prend la forme suivante:                                  ...
Contraintes Heuristiques (2)Hypoth`ses:      e       Condition 1: Les documents avec plus d’occurences d’un terme de      ...
Contraintes Heuristiques (2)Hypoth`ses:      e       Condition 1: Les documents avec plus d’occurences d’un terme de      ...
Contraintes Heuristiques (3)Hypoth`ses:      e       Condition 3: On devrait p´naliser les longs documents compar´s       ...
Contraintes Heuristiques (3)Hypoth`ses:      e       Condition 3: On devrait p´naliser les longs documents compar´s       ...
Ph´nom`ne de Rafale (Burstiness)  e   eOn s’int´resse maintenant aux lois de probabilit´s sur les fr´quences:        e    ...
Ph´nom`ne de Rafale (Burstiness)  e   eOn s’int´resse maintenant aux lois de probabilit´s sur les fr´quences:        e    ...
Ph´nom`ne de Rafale  e   eDefinition (Cas discret ECIR’08)Une distribution discr`te P est en rafale ou cr´pite ssi la suite...
Ph´nom`ne de Rafale  e   eDefinition (Cas discret ECIR’08)Une distribution discr`te P est en rafale ou cr´pite ssi la suite...
Distribution                        En rafale                                   Poisson                             Non   ...
Mod`les d’Information & Contraintes heuristiques:   eMod`les d´finis par:   e     e                                        ...
Mod`les d’Information & Contraintes heuristiques:   eMod`les d´finis par:   e     e                                        ...
Mod`les d’Information & Contraintes heuristiques:   eMod`les d´finis par:   e     e                                        ...
Mod`les d’Information & Contraintes heuristiques:   eSoit P une distribution de classe C 2 . Une condition n´cessaire pour...
Les mod`les log-logistique et loi de puissance liss´e                        e                                           e...
La distribution log-logistique       On consid`re ici une loi log-logistique contrainte:                e                 ...
log P(X > x) Poisson et Log-Logistique                                                r=0.001 Poisson               r=0.00...
Ajustement aux donn´es                   ePour v´rifier l’ajustement aux donn´es, on a effectu´ un test du χ2 sous      e   ...
Mod`le Log-Logistique pour la RI (LGD)   eLe mod`le LGD est d´fini par      e            e                       d    d    ...
Loi de Puissance Liss´e (Smoothed Power Law SPL)                     eOn appelle loi de Puissance liss´e la distribution s...
Loi de Puissance Liss´e (Smoothed Power Law SPL)                     eOn appelle loi de Puissance liss´e la distribution s...
Loi de Puissance Liss´e                     e                                                lambda = 0.005               ...
Caract´risation des mod`les d’information      e                e   1   Normalisation de fr´quences v´rifie:               ...
Relations avec d’autres mod`les                           eRelation avec les mod`les de langues:                     e   1...
Relations avec d’autres mod`les                           eRelation avec les mod`les de langues:                     e   1...
Exp´riences   e       Comparaison avec mod`les de langues, BM25, mod`les DFR                             e                ...
Exp´riences   e       Comparaison avec mod`les de langues, BM25, mod`les DFR                             e                ...
Comparaison avec le lissage de Jelinek-MercerComparaison avec les mod`les de langues                        eTable: LM-Jel...
Comparaison avec le lissage de DirichletTable: LMDirichlet vs Log-Logistique apr`s 10 divisions; en gras, les meilleures  ...
Comparaison avec BM25BM25 optimis´ seulement avec le param`tre k1            e                        e                MAP...
Comparaison avec les mod`les DFR                        eTable: INL2 et PL2 versus Log-Logistique apr`s 10 divisions; en g...
Comparaison SPL avec le mod`le de langue Dirichlet                           eTable: SPL versus LM-Dirichlet after 10 spli...
Comparaison SPL avec les mod`les InL2 et PL2 (DFR)                            eTable: SPL versus DFR models after 10 split...
Extension au PRFMoyenne de l’information sur les premiers documents retourn´s:                                            ...
∗Table: MAP,           d´note une diff´rence statistiquement significative avec LM et Bo2                       e           ...
Table: Mean average precision of PRF experiments; bold indicates bestperformance, ∗ significant difference over LM and Bo2 m...
Conclusion       Caract´risation analytique des contraintes heuristiques             e       Ph´nom`ne de rafale pour les ...
La distribution log-logistique        Church et al. 2 ont propos´ la distribution N´gative Binomiale                      ...
Relation avec les Mod`les DFR                     eLes mod`les DFR sont d´finis de la mani`re suivante:       e            ...
Experimental FitChi Square test on Robust collection, with terms appearing with documentfrequency ≥ 100; Frequency range d...
Chi Square StatisticsS.Clinchant E.Gaussier (XRCE-LIG)   Mod`les de RI fond´s sur l’information                           ...
Comparaison des mod`les                   e                                                   r = 0.005               8   ...
Prochain SlideShare
Chargement dans…5
×

Modèles d\'Information CORIA\'2010

399 vues

Publié le

0 commentaire
0 j’aime
Statistiques
Remarques
  • Soyez le premier à commenter

  • Soyez le premier à aimer ceci

Aucun téléchargement
Vues
Nombre de vues
399
Sur SlideShare
0
Issues des intégrations
0
Intégrations
4
Actions
Partages
0
Téléchargements
7
Commentaires
0
J’aime
0
Intégrations 0
Aucune incorporation

Aucune remarque pour cette diapositive

Modèles d\'Information CORIA\'2010

  1. 1. Mod`les de RI fond´s sur l’information e e St´phane Clinchant e 1,2 Eric Gaussier 2 1 Xerox Research Centre Europe 2 Laboratoire d’Informatique de Grenoble Univ. Grenoble 1 18 Mars 2010S.Clinchant E.Gaussier (XRCE-LIG) Mod`les de RI fond´s sur l’information e e 18 Mars 2010 1 / 37
  2. 2. Contenu InformatifUtiliser l’information de Shannon pour pond´rer les mots dans les edocuments P(X) −log P(X)Inf(x) = − log P(x|ΘC ) = Contenu InformatifEcart au comportement moyenS.Clinchant E.Gaussier (XRCE-LIG) Mod`les de RI fond´s sur l’information e e 18 Mars 2010 2 / 37
  3. 3. Contenu InformatifUtiliser l’information de Shannon pour pond´rer les mots dans les edocuments P(X) −log P(X)Inf(x) = − log P(x|ΘC ) = Contenu InformatifEcart au comportement moyenObservation par Harter (70):Les mots ”Non-Fonctionnels” s’´cartent d’une distribution de Poisson. eS.Clinchant E.Gaussier (XRCE-LIG) Mod`les de RI fond´s sur l’information e e 18 Mars 2010 2 / 37
  4. 4. Mod`les fond´s sur l’information e eId´e Principale: e 1 Les fr´quences discr`tes des termes (x) sont renormalis´es en e e e valeurs continues (t(x)), du fait de la variabilit´ des longueurs de e documents. 2 Pour chaque terme w , on suppose que les valeurs t(x) suivent une distribution P de param`tre λw sur le corpus. e 3 Requˆtes et documents sont compar´s avec une mesure de surprise, e e une moyenne d’information de la forme: q d RSV (q, d) = −xw log Prob(Xw ≥ t(xw )|λw ) w ∈q∩dS.Clinchant E.Gaussier (XRCE-LIG) Mod`les de RI fond´s sur l’information e e 18 Mars 2010 3 / 37
  5. 5. Plan 1 Propri`t´s th´oriques des mod`les ee e e Contraintes Heuristiques des mod`les de R.I e Ph´nom`ne de Rafale e e 2 Exemples de Mod`les e Le mod`le log-logistique e Loi de Puissance liss´e e 3 Validation Experimentale 4 Extension au PRFS.Clinchant E.Gaussier (XRCE-LIG) Mod`les de RI fond´s sur l’information e e 18 Mars 2010 4 / 37
  6. 6. Contraintes Heuristiques (1)Une fonction d’ordonnancement en RI prend la forme suivante: q d RSV (q, d) = f (xw )h(xw , yd , zw , θ) w ∈q∩d q dxw fr´quence du mot dans la requete, xw dans le document eyd Longueur du document dzw = Fw ou zw = Nwθ param`tre du mod`le de RI. e eFw Frequence de w dans le corpus : Fw = d xw d dNw Fr´quence Documentaire de w : Nw = d I (xw > 0) eN Nombre de documents dans la collection⇒ Etude des propri`t´s de h eeS.Clinchant E.Gaussier (XRCE-LIG) Mod`les de RI fond´s sur l’information e e 18 Mars 2010 5 / 37
  7. 7. Contraintes Heuristiques (2)Hypoth`ses: e Condition 1: Les documents avec plus d’occurences d’un terme de la requˆte devraient avoir un score plus grand que ceux qui en ont e moins (Luhn) ∂h(x, y , z, θ) ∀(y , z, θ), > 0 (h est croissante en x) ∂xS.Clinchant E.Gaussier (XRCE-LIG) Mod`les de RI fond´s sur l’information e e 18 Mars 2010 6 / 37
  8. 8. Contraintes Heuristiques (2)Hypoth`ses: e Condition 1: Les documents avec plus d’occurences d’un terme de la requˆte devraient avoir un score plus grand que ceux qui en ont e moins (Luhn) ∂h(x, y , z, θ) ∀(y , z, θ), > 0 (h est croissante en x) ∂x Condition 2: Cependant, la diff´rence de score devrait ˆtre plus e e petite pour de grandes fr´quences. Ex: 2→4, 50→ 52 e ∂ 2 h(x, y , z, θ) ∀(y , z, θ), < 0 (h est concave) ∂x 2S.Clinchant E.Gaussier (XRCE-LIG) Mod`les de RI fond´s sur l’information e e 18 Mars 2010 6 / 37
  9. 9. Contraintes Heuristiques (3)Hypoth`ses: e Condition 3: On devrait p´naliser les longs documents compar´s e e aux documents plus courts, car les longs documents sont suceptibles de couvrir diff´rents sujets e ∂h(x, y , z, θ) ∀(x, z, θ), < 0 (h d´croissante en y) e ∂yS.Clinchant E.Gaussier (XRCE-LIG) Mod`les de RI fond´s sur l’information e e 18 Mars 2010 7 / 37
  10. 10. Contraintes Heuristiques (3)Hypoth`ses: e Condition 3: On devrait p´naliser les longs documents compar´s e e aux documents plus courts, car les longs documents sont suceptibles de couvrir diff´rents sujets e ∂h(x, y , z, θ) ∀(x, z, θ), < 0 (h d´croissante en y) e ∂y Condition 4: Enfin, il est important de diminuer l’importance des mots apparaissant dans beaucoup de documents (IDF) ∂h(x, y , z, θ) ∀(x, y , θ), < 0 (effet IDF) ∂zcf Fang et al, A Formal Study of Information Retrieval Heuristics, SIGIR’04S.Clinchant E.Gaussier (XRCE-LIG) Mod`les de RI fond´s sur l’information e e 18 Mars 2010 7 / 37
  11. 11. Ph´nom`ne de Rafale (Burstiness) e eOn s’int´resse maintenant aux lois de probabilit´s sur les fr´quences: e e e Church et Gale 1 ont mis en ´vidence que le mod`le 2-Poisson e e s’ajuste mal aux donn´es. e Une explication possible: le comportement en rafale des mots, ou cr´pitement (burstiness). D´crit le fait que les mots, dans un e e document, tendent ` apparaˆ a ıtre par paquets 1 Poisson MixturesS.Clinchant E.Gaussier (XRCE-LIG) Mod`les de RI fond´s sur l’information e e 18 Mars 2010 8 / 37
  12. 12. Ph´nom`ne de Rafale (Burstiness) e eOn s’int´resse maintenant aux lois de probabilit´s sur les fr´quences: e e e Church et Gale 1 ont mis en ´vidence que le mod`le 2-Poisson e e s’ajuste mal aux donn´es. e Une explication possible: le comportement en rafale des mots, ou cr´pitement (burstiness). D´crit le fait que les mots, dans un e e document, tendent ` apparaˆ a ıtre par paquets Une fois que l’on a observ´ une occurrence d’un mot dans un e document, il est bien plus probable d’observer de nouvelles occurrences de ce mot 1 Poisson MixturesS.Clinchant E.Gaussier (XRCE-LIG) Mod`les de RI fond´s sur l’information e e 18 Mars 2010 8 / 37
  13. 13. Ph´nom`ne de Rafale e eDefinition (Cas discret ECIR’08)Une distribution discr`te P est en rafale ou cr´pite ssi la suite: e e g (n) = P(X ≥ n + 1|X ≥ n)est une suite strictement croissanteS.Clinchant E.Gaussier (XRCE-LIG) Mod`les de RI fond´s sur l’information e e 18 Mars 2010 9 / 37
  14. 14. Ph´nom`ne de Rafale e eDefinition (Cas discret ECIR’08)Une distribution discr`te P est en rafale ou cr´pite ssi la suite: e e g (n) = P(X ≥ n + 1|X ≥ n)est une suite strictement croissanteDefinition (Cas g´n´ral) e eUne distribution continue P est en rafale ou cr´pite ssi ∀ > 0 la fonction eg: g (x) = P(X ≥ x + |X ≥ x)est une fonction strictement croissante en x.S.Clinchant E.Gaussier (XRCE-LIG) Mod`les de RI fond´s sur l’information e e 18 Mars 2010 9 / 37
  15. 15. Distribution En rafale Poisson Non Geometrique Neutre N´gative Binomiale e Oui si r < 1 Beta N´gative Binomiale e Oui Pareto Oui Log-Logistique OuiS.Clinchant E.Gaussier (XRCE-LIG) Mod`les de RI fond´s sur l’information e e 18 Mars 2010 10 / 37
  16. 16. Mod`les d’Information & Contraintes heuristiques: eMod`les d´finis par: e e Fonction h q d RSV (q, d) = xw − log Prob(X ≥ tw |λw ) (1) w ∈q∩d d tw fr´quences normalis´es: g´n´ralement croissante en x, d´croissante e e e e e en y .S.Clinchant E.Gaussier (XRCE-LIG) Mod`les de RI fond´s sur l’information e e 18 Mars 2010 11 / 37
  17. 17. Mod`les d’Information & Contraintes heuristiques: eMod`les d´finis par: e e Fonction h q d RSV (q, d) = xw − log Prob(X ≥ tw |λw ) (1) w ∈q∩d d tw fr´quences normalis´es: g´n´ralement croissante en x, d´croissante e e e e e en y . Condition 1 (h croissante) Direct Condition 3 (p´nalise longs documents) Direct. eS.Clinchant E.Gaussier (XRCE-LIG) Mod`les de RI fond´s sur l’information e e 18 Mars 2010 11 / 37
  18. 18. Mod`les d’Information & Contraintes heuristiques: eMod`les d´finis par: e e Fonction h q d RSV (q, d) = xw − log Prob(X ≥ tw |λw ) (1) w ∈q∩d d tw fr´quences normalis´es: g´n´ralement croissante en x, d´croissante e e e e e en y . Condition 1 (h croissante) Direct Condition 3 (p´nalise longs documents) Direct. e Condition 2 (h concave)Th´or`me e eSi la distribution P est en rafale, alors le mod`le d’information d´fini avec e eP est concaveS.Clinchant E.Gaussier (XRCE-LIG) Mod`les de RI fond´s sur l’information e e 18 Mars 2010 11 / 37
  19. 19. Mod`les d’Information & Contraintes heuristiques: eSoit P une distribution de classe C 2 . Une condition n´cessaire pour que P esoit en rafale est : ∂ 2 log(P(X ≥ x)) >0 ∂x 2Or ∂ 2 log(P(X ≥ x)) Concavit´ ⇐⇒ e >0 ∂x 2 Condition 4 (effet IDF) et 2 Conditions d’ajustement suppl´mentaires e d´pendent du choix de la distribution P eS.Clinchant E.Gaussier (XRCE-LIG) Mod`les de RI fond´s sur l’information e e 18 Mars 2010 12 / 37
  20. 20. Les mod`les log-logistique et loi de puissance liss´e e eS.Clinchant E.Gaussier (XRCE-LIG) Mod`les de RI fond´s sur l’information e e 18 Mars 2010 13 / 37
  21. 21. La distribution log-logistique On consid`re ici une loi log-logistique contrainte: e r P(X > x|r ) = (r m´diane) e (x + r ) On se restreint ` cette forme ` cause de relations avec d’autres a a distributions (N´gative Binomiale, Beta N´gative Binomiale) e eS.Clinchant E.Gaussier (XRCE-LIG) Mod`les de RI fond´s sur l’information e e 18 Mars 2010 14 / 37
  22. 22. log P(X > x) Poisson et Log-Logistique r=0.001 Poisson r=0.001 0 r=0.01 Poisson r=0.01 r=0.1 Poisson r=0.1 −2 −4log P(X > x) −6 −8 −10 0 5 10 15 xS.Clinchant E.Gaussier (XRCE-LIG) Mod`les de RI fond´s sur l’information e e 18 Mars 2010 15 / 37
  23. 23. Ajustement aux donn´es ePour v´rifier l’ajustement aux donn´es, on a effectu´ un test du χ2 sous e e eces deux hypoth`ses: e ˆ Poisson: λw = Fw N Fw Log-Logistique: rˆ = w N⇒ La statistique du χ2 est bien meilleure pour la log-logistique(confirme des travaux pr´cedents) eLa loi log-logistique est un ”bon” mod`le de fr´quences sur le corpus e e(meilleur que Poisson, G´om´trique, Binomial et 2-Poisson). e eEst-ce un bon mod`le de RI ? eS.Clinchant E.Gaussier (XRCE-LIG) Mod`les de RI fond´s sur l’information e e 18 Mars 2010 16 / 37
  24. 24. Mod`le Log-Logistique pour la RI (LGD) eLe mod`le LGD est d´fini par e e d d m 1 Normalisation: tw = xw log(1 + c yd ) (N2 DFR) 2 e d Loi de fr´quences: Les tw sont distribu´s par une loi log-logistique de e Nw param`tre rw = N e 3 q Nw d Nw RSV (q, d) = xw log( + tw ) − log( ) N N w ∈q∩dRespecte toutes les conditions quels que soient les param`tres. eS.Clinchant E.Gaussier (XRCE-LIG) Mod`les de RI fond´s sur l’information e e 18 Mars 2010 17 / 37
  25. 25. Loi de Puissance Liss´e (Smoothed Power Law SPL) eOn appelle loi de Puissance liss´e la distribution sur [0, +∞[ de param`tre e e0<λ<1: x λ x+1 − λ P(X > x|λ) = 1−λS.Clinchant E.Gaussier (XRCE-LIG) Mod`les de RI fond´s sur l’information e e 18 Mars 2010 18 / 37
  26. 26. Loi de Puissance Liss´e (Smoothed Power Law SPL) eOn appelle loi de Puissance liss´e la distribution sur [0, +∞[ de param`tre e e0<λ<1: x λ x+1 − λ P(X > x|λ) = 1−λMod`le de RI: e d d m 1 Normalisation: tw = xw log(1 + c yd ) (N2 DFR) 2 e d Loi de fr´quences: Les tw sont distribu´s par une loi de puissance e Nw liss´e de param`tre rw = N e eRespecte aussi toutes les conditionsS.Clinchant E.Gaussier (XRCE-LIG) Mod`les de RI fond´s sur l’information e e 18 Mars 2010 18 / 37
  27. 27. Loi de Puissance Liss´e e lambda = 0.005 0 loglogistic spl −2 log P(X>x) −4 −6 −8 0 5 10 15 xS.Clinchant E.Gaussier (XRCE-LIG) Mod`les de RI fond´s sur l’information e e 18 Mars 2010 19 / 37
  28. 28. Caract´risation des mod`les d’information e e 1 Normalisation de fr´quences v´rifie: e e d ∂tw d ∂tw ∂ 2 xwd d > 0; < 0; ≥0 ∂xw ∂yd ∂(tw )2 d 2 Loi de Probabilit´ continue et en rafale e 3 Fonction d’Ordonnancement q d RSV (q, d) = −xw log Prob(Xw ≥ tw |λw ) w ∈q∩d 4 Param`tre sur la collection e F w Nw λw = or N NS.Clinchant E.Gaussier (XRCE-LIG) Mod`les de RI fond´s sur l’information e e 18 Mars 2010 20 / 37
  29. 29. Relations avec d’autres mod`les eRelation avec les mod`les de langues: e 1 d d m Normalisation: tw = xw c yd (N1 DFR) Fw 2 rw = N et Loi Log-Logistique 3 Mod`le = Mod`le de langues avec lissage de Jelinek-Mercer e eS.Clinchant E.Gaussier (XRCE-LIG) Mod`les de RI fond´s sur l’information e e 18 Mars 2010 21 / 37
  30. 30. Relations avec d’autres mod`les eRelation avec les mod`les de langues: e 1 d d m Normalisation: tw = xw c yd (N1 DFR) Fw 2 rw = N et Loi Log-Logistique 3 Mod`le = Mod`le de langues avec lissage de Jelinek-Mercer e eRelation avec les mod`les DFR: eLes mod`les DFR sont d´finis de la mani`re suivante: e e e q d d RSV (q, d) = −xw Inf2 (tw ) log Prob1 (tw ) w ∈q∩dProbl`mes: e Loi discr`tes avec valeurs continues e 2 Notions d’informations non ”homog`nes” e⇒ Nos mod`les reposent sur des lois continues et sur une seule notion ed’InformationS.Clinchant E.Gaussier (XRCE-LIG) Mod`les de RI fond´s sur l’information e e 18 Mars 2010 21 / 37
  31. 31. Exp´riences e Comparaison avec mod`les de langues, BM25, mod`les DFR e e Corpus: ROBUST, CLEF03, GIRT avec requˆtes longues et courtes e 5 jeu de requˆtes: ROB-d , ROB-t , GIRT , CLEF-d , CLEF-t e Corpus # Requˆte e ROBUST 250 CLEF03 60 GIRT 75S.Clinchant E.Gaussier (XRCE-LIG) Mod`les de RI fond´s sur l’information e e 18 Mars 2010 22 / 37
  32. 32. Exp´riences e Comparaison avec mod`les de langues, BM25, mod`les DFR e e Corpus: ROBUST, CLEF03, GIRT avec requˆtes longues et courtes e 5 jeu de requˆtes: ROB-d , ROB-t , GIRT , CLEF-d , CLEF-t e Corpus # Requˆte e ROBUST 250 CLEF03 60 GIRT 75Divis´ en apprentissage/test eOptimise MAP ou P10 sur une grille de valeurs:Par exemple: k1 ∈ {0.3, 0.5, 0.8, 1.0, 1.2, 1.5, 1.8, 2, 2.2, 2.5} (BM25) c ∈ {0.25, 0.5, 0.8, 1, 2, 3, 5, 8, 10} (LGD,DFR) µ ∈ {10, 50, 100, 200, 500, 800, 1000, 1500, 2000, 5000, 10000} (LM)S.Clinchant E.Gaussier (XRCE-LIG) Mod`les de RI fond´s sur l’information e e 18 Mars 2010 22 / 37
  33. 33. Comparaison avec le lissage de Jelinek-MercerComparaison avec les mod`les de langues eTable: LM-Jelinek-Mercer vs Log-Logistique apr`s 10 divisions; en gras, les emeilleures performances ; ∗ d´note une diff´rence statistiquement significative e e MAP ROB-d ROB-t GIRT CLEF-d CLEF-t LM 26.0 20.7 40.7 49.2 36.5 LGD 27.2∗ 22.5∗ 43.1∗ 50.0∗ 37.5∗ P10 ROB-d ROB-t GIRT CLEF-d CLEF-t LM 43.8 35.5 67.5 33.0 26.2 LGD 46.0∗ 38.9∗ 69.4∗ 33.6∗ 26.6∗S.Clinchant E.Gaussier (XRCE-LIG) Mod`les de RI fond´s sur l’information e e 18 Mars 2010 23 / 37
  34. 34. Comparaison avec le lissage de DirichletTable: LMDirichlet vs Log-Logistique apr`s 10 divisions; en gras, les meilleures eperformances ; ∗ d´note une diff´rence statistiquement significative e e MAP ROB-d ROB-t GIRT CLEF-d CLEF-t DIR 27.1 25.1 41.1 48.5 36.2 LGD 27.4∗ 25.0 42.1∗ 49.7∗ 36.8∗ P10 ROB-d ROB-t GIRT CLEF-d CLEF-t DIR 45.6 44.7∗ 68.6 33.8 28.4 LGD 46.2∗ 44.4 69.0 34.5∗ 28.6S.Clinchant E.Gaussier (XRCE-LIG) Mod`les de RI fond´s sur l’information e e 18 Mars 2010 24 / 37
  35. 35. Comparaison avec BM25BM25 optimis´ seulement avec le param`tre k1 e e MAP ROB-d ROB-t GIRT CLEF-t CLEF-d BM25 26.8 22.4 39.8 34.9 46.8 LGD 28.2∗ 23.5∗ 41.4∗ 34.8 48.0 P10 ROB-d ROB-t GIRT CLEF-t CLEF-d BM25 45.9 42.6 62.6 28.5 33.7 LGD 46.5 44.3∗ 66.6∗ 28.7 34.4S.Clinchant E.Gaussier (XRCE-LIG) Mod`les de RI fond´s sur l’information e e 18 Mars 2010 25 / 37
  36. 36. Comparaison avec les mod`les DFR eTable: INL2 et PL2 versus Log-Logistique apr`s 10 divisions; en gras, les emeilleures performances; ∗ d´note une diff´rence statistiquement significative e e MAP ROB-d ROB-t GIRT CLEF-d CLEF-t INL2 27.7 24.8 42.5 47.7 37.5 LGD 28.5∗ 25.0∗ 43.1∗ 48.0 37.4 P10 ROB-d ROB-t GIRT CLEF-d CLEF-t INL2 47.7∗ 43.3 67.0 33.4 27.3 LGD 47.0 43.5 69.4∗ 33.3 27.2 MAP ROB-d ROB-t GIRT CLEF-t CLEF-d LGD 27.3∗ 24.7 40.5 36.2 47.5 PL2 26.2 24.8 40.6 36.0 47.2 P10 ROB-d ROB-t GIRT CLEF-t CLEF-d LGD 46.6 43.2 66.7 28.5 33.7 PL2 46.4 44.1∗ 68.2∗ 28.7 33.1S.Clinchant E.Gaussier (XRCE-LIG) Mod`les de RI fond´s sur l’information e e 18 Mars 2010 26 / 37
  37. 37. Comparaison SPL avec le mod`le de langue Dirichlet eTable: SPL versus LM-Dirichlet after 10 splits; bold indicates significant difference MAP ROB-d ROB-t GIR T3-t CL-t CL-d DIR 26.7 25.0 40.9 27.1 36.2 50.2 SPL 25.6 24.9 42.1 26.8 36.4 46.9 P10 ROB-d ROB-t GIR T3-t CL-t CL-d DIR 45.2 43.8 68.2 52.8 27.3 32.8 SPL 46.6 44.7 70.8 55.3 27.1 32.9S.Clinchant E.Gaussier (XRCE-LIG) Mod`les de RI fond´s sur l’information e e 18 Mars 2010 27 / 37
  38. 38. Comparaison SPL avec les mod`les InL2 et PL2 (DFR) eTable: SPL versus DFR models after 10 splits; bold indicates significant difference MAP ROB-d ROB-t GIR T3-t CL-t CL-d INL 26.9 24.3 40.4 24.8 35.5 49.4 SPL 26.6 24.6 40.7 25.4 34.6 48.1 P10 ROB-d ROB-t GIR T3-t CL-t CL-d INL 47.6 42.8 63.4 52.5 28.8 33.8 SPL 47.8 44.1 68.0 53.9 28.7 33.6 MAP ROB-d ROB-t GIR T3-t CL-t CL-d SPL 26.3 25.2 42.7 25.3 37.4 44.1 PL2 26.3 25.2 42.8 25.8 37.3 45.7 P10 ROB-d ROB-t GIR T3-t CL-t CL-d SPL 47.0 45.2 69.8 55.4 25.9 32.9 PL2 46.0 45.2 69.3 54.8 26.2 32.7S.Clinchant E.Gaussier (XRCE-LIG) Mod`les de RI fond´s sur l’information e e 18 Mars 2010 28 / 37
  39. 39. Extension au PRFMoyenne de l’information sur les premiers documents retourn´s: e 1 d Info(w ) = − log(P(Xw > tw ; λw )) n d∈RMise ` jour de la requˆte: (similaire au mod`le Bo2) a e e q q2 xw Info(w ) xw = q +β maxw xw maxw Info(w )Le mod`le de PRF et le mod`le de RI sont les mˆmes ! e e eS.Clinchant E.Gaussier (XRCE-LIG) Mod`les de RI fond´s sur l’information e e 18 Mars 2010 29 / 37
  40. 40. ∗Table: MAP, d´note une diff´rence statistiquement significative avec LM et Bo2 e e Model n TC ROB-t GIRT TREC3-t CLEF-t LM+MIX 5 5 27.5 44.4 30.7 36.6 INL+Bo2 5 5 26.5 42.0 30.6 37.6 LGD 5 5 28.3∗ 44.3 32.9∗ 37.6 LM+MIX 5 10 28.3 45.7∗ 33.6 37.4 INL+Bo2 5 10 27.5 42.7 32.6 37.5 LGD 5 10 29.4∗ 44.9 35.0∗ 40.2∗ LM+MIX 10 10 28.4 45.5 31.8 37.6 INL+Bo2 10 10 27.2 43.0 32.3 37.4 LGD 10 10 30.0∗ 46.8∗ 35.5∗ 38.9 LM+MIX 10 20 29.0 46.2 33.7 38.2 INL+Bo2 10 20 27.7 43.5 33.8 37.7 LGD 10 20 30.3∗ 47.6∗ 37.4∗ 38.6 LM+MIX 20 20 28.6 47.9 32.9 37.8 INL+Bo2 20 20 27.4 44.3 33.5 36.8 LGD 20 20 29.5∗ 48.9∗ 37.2∗ 41.0∗S.Clinchant E.Gaussier (XRCE-LIG) Mod`les de RI fond´s sur l’information e e 18 Mars 2010 30 / 37
  41. 41. Table: Mean average precision of PRF experiments; bold indicates bestperformance, ∗ significant difference over LM and Bo2 models Model N TC ROB-t GIR T3-t CL-t LGD 5 5 28.3∗ 44.3 32.9∗ 37.6 SPL 5 5 28.9∗ 45.6∗ 32.9∗ 39.0∗ LGD 5 10 29.4∗ 44.9 35.0∗ 40.2∗ SPL 5 10 29.6∗ 47.0∗ 34.6∗ 39.5∗ LGD 10 10 30.0∗ 46.8∗ 35.5∗ 38.9 SPL 10 10 30.0∗ 48.9∗ 33.8∗ 39.1∗ LGD 10 20 30.3∗ 47.6∗ 37.4∗ 38.6 SPL 10 20 29.9∗ 50.2∗ 34.3 39.7∗ LGD 20 20 29.5∗ 48.9∗ 37.2∗ 41.0∗ SPL 20 20 28.8 50.3∗ 33.9 39.0∗S.Clinchant E.Gaussier (XRCE-LIG) Mod`les de RI fond´s sur l’information e e 18 Mars 2010 31 / 37
  42. 42. Conclusion Caract´risation analytique des contraintes heuristiques e Ph´nom`ne de rafale pour les lois continues e e Une nouvelle famille de mod`les de RI e ”En Rafale” ⇒ Mod`le concave e Extension au PRF Les mod`les log-logistique et loi de puissance liss´e e e LGD contient un mod`le de langue e LGD, SPL ≥ mod`le de langues e LGD,SPL ≈ DFR plus simple que les mod`les DFR e les meilleures performances en PRF Questions ?S.Clinchant E.Gaussier (XRCE-LIG) Mod`les de RI fond´s sur l’information e e 18 Mars 2010 32 / 37
  43. 43. La distribution log-logistique Church et al. 2 ont propos´ la distribution N´gative Binomiale e e (m´lange infini de Poisson) pour mod´liser les fr´quences. e e e ⇒ ”meilleur” mod`le que 2-Poisson e Nous avons propos´ pr´cedemment la loi Beta-Negative Binomiale e e (BNB): BNB(x|r ) = Beta(θ|1, 1)Negbin(x|θ, r ) On consid`re ici une loi log-logistique contrainte: e r P(X > x|r ) = (r m´diane) e (x + r ) Cette log-logistique contrainte peut ˆtre vue comme une version e continue d’une Beta-N´gative Binomiale e 2 Poisson MixturesS.Clinchant E.Gaussier (XRCE-LIG) Mod`les de RI fond´s sur l’information e e 18 Mars 2010 33 / 37
  44. 44. Relation avec les Mod`les DFR eLes mod`les DFR sont d´finis de la mani`re suivante: e e e q d d q d dRSV (q, d) = xw Inf2 (tw )Inf1 (tw ) = −xw Inf2 (tw ) log Prob1 (tw ) w ∈q∩d w ∈q∩dOn peut montrer que : Inf2 rend les mod`les DFR concave (condition 2) e Sans Inf2 , les mod`les DFR obtiennent de mauvaises performances eS.Clinchant E.Gaussier (XRCE-LIG) Mod`les de RI fond´s sur l’information e e 18 Mars 2010 34 / 37
  45. 45. Experimental FitChi Square test on Robust collection, with terms appearing with documentfrequency ≥ 100; Frequency range divided into three intervals: [0, 3[,[3, 10[ and [10, 100[.Hypothesis ˆ Poisson: λw = Fw N ˆ Log-Logistic: λw = Fw NS.Clinchant E.Gaussier (XRCE-LIG) Mod`les de RI fond´s sur l’information e e 18 Mars 2010 35 / 37
  46. 46. Chi Square StatisticsS.Clinchant E.Gaussier (XRCE-LIG) Mod`les de RI fond´s sur l’information e e 18 Mars 2010 36 / 37
  47. 47. Comparaison des mod`les e r = 0.005 8 LGD 2 4 6 INL Weight SPL PL 0 0 5 10 15 x r = 5e−04 LGD 8 INL Weight SPL 4 PL 0 0 5 10 15 xS.Clinchant E.Gaussier (XRCE-LIG) Mod`les de RI fond´s sur l’information e e 18 Mars 2010 37 / 37

×