SlideShare une entreprise Scribd logo
1  sur  47
Télécharger pour lire hors ligne
Mod`les de RI fond´s sur l’information
                      e              e

                          St´phane Clinchant
                            e                               1,2       Eric Gaussier   2


                                      1   Xerox Research Centre Europe
                                2   Laboratoire d’Informatique de Grenoble
                                              Univ. Grenoble 1


                                                 18 Mars 2010




S.Clinchant E.Gaussier (XRCE-LIG)         Mod`les de RI fond´s sur l’information
                                             e              e                             18 Mars 2010   1 / 37
Contenu Informatif

Utiliser l’information de Shannon pour pond´rer les mots dans les
                                           e
documents



                                                                             P(X)
                                                                             −log P(X)




Inf(x) = − log P(x|ΘC ) = Contenu Informatif
Ecart au comportement moyen




S.Clinchant E.Gaussier (XRCE-LIG)   Mod`les de RI fond´s sur l’information
                                       e              e                                  18 Mars 2010   2 / 37
Contenu Informatif

Utiliser l’information de Shannon pour pond´rer les mots dans les
                                           e
documents



                                                                             P(X)
                                                                             −log P(X)




Inf(x) = − log P(x|ΘC ) = Contenu Informatif
Ecart au comportement moyen
Observation par Harter (70):
Les mots ”Non-Fonctionnels” s’´cartent d’une distribution de Poisson.
                              e


S.Clinchant E.Gaussier (XRCE-LIG)   Mod`les de RI fond´s sur l’information
                                       e              e                                  18 Mars 2010   2 / 37
Mod`les fond´s sur l’information
   e        e

Id´e Principale:
  e
   1   Les fr´quences discr`tes des termes (x) sont renormalis´es en
             e             e                                     e
       valeurs continues (t(x)), du fait de la variabilit´ des longueurs de
                                                         e
       documents.
   2   Pour chaque terme w , on suppose que les valeurs t(x) suivent une
       distribution P de param`tre λw sur le corpus.
                              e
   3   Requˆtes et documents sont compar´s avec une mesure de surprise,
           e                              e
       une moyenne d’information de la forme:
                                                    q                  d
                     RSV (q, d) =                 −xw log Prob(Xw ≥ t(xw )|λw )
                                       w ∈q∩d




S.Clinchant E.Gaussier (XRCE-LIG)   Mod`les de RI fond´s sur l’information
                                       e              e                      18 Mars 2010   3 / 37
Plan



   1   Propri`t´s th´oriques des mod`les
             ee     e               e
              Contraintes Heuristiques des mod`les de R.I
                                              e
              Ph´nom`ne de Rafale
                e     e
   2   Exemples de Mod`les
                      e
              Le mod`le log-logistique
                     e
              Loi de Puissance liss´e
                                   e
   3   Validation Experimentale
   4   Extension au PRF




S.Clinchant E.Gaussier (XRCE-LIG)   Mod`les de RI fond´s sur l’information
                                       e              e                      18 Mars 2010   4 / 37
Contraintes Heuristiques (1)

Une fonction d’ordonnancement en RI prend la forme suivante:
                                                          q     d
                         RSV (q, d) =                 f (xw )h(xw , yd , zw , θ)
                                           w ∈q∩d

 q                                    d
xw fr´quence du mot dans la requete, xw dans le document
     e
yd Longueur du document d
zw = Fw ou zw = Nw
θ param`tre du mod`le de RI.
         e        e
Fw Frequence de w dans le corpus : Fw = d xw   d
                                                 d
Nw Fr´quence Documentaire de w : Nw = d I (xw > 0)
       e
N Nombre de documents dans la collection
⇒ Etude des propri`t´s de h
                  ee



S.Clinchant E.Gaussier (XRCE-LIG)   Mod`les de RI fond´s sur l’information
                                       e              e                            18 Mars 2010   5 / 37
Contraintes Heuristiques (2)

Hypoth`ses:
      e
       Condition 1: Les documents avec plus d’occurences d’un terme de
       la requˆte devraient avoir un score plus grand que ceux qui en ont
              e
       moins (Luhn)

                                    ∂h(x, y , z, θ)
                    ∀(y , z, θ),                    > 0 (h est croissante en x)
                                        ∂x




S.Clinchant E.Gaussier (XRCE-LIG)    Mod`les de RI fond´s sur l’information
                                        e              e                      18 Mars 2010   6 / 37
Contraintes Heuristiques (2)

Hypoth`ses:
      e
       Condition 1: Les documents avec plus d’occurences d’un terme de
       la requˆte devraient avoir un score plus grand que ceux qui en ont
              e
       moins (Luhn)

                                    ∂h(x, y , z, θ)
                    ∀(y , z, θ),                    > 0 (h est croissante en x)
                                        ∂x


       Condition 2: Cependant, la diff´rence de score devrait ˆtre plus
                                     e                       e
       petite pour de grandes fr´quences. Ex: 2→4, 50→ 52
                                e

                                         ∂ 2 h(x, y , z, θ)
                          ∀(y , z, θ),                      < 0 (h est concave)
                                               ∂x 2



S.Clinchant E.Gaussier (XRCE-LIG)    Mod`les de RI fond´s sur l’information
                                        e              e                      18 Mars 2010   6 / 37
Contraintes Heuristiques (3)

Hypoth`ses:
      e
       Condition 3: On devrait p´naliser les longs documents compar´s
                                  e                                   e
       aux documents plus courts, car les longs documents sont suceptibles
       de couvrir diff´rents sujets
                     e

                                    ∂h(x, y , z, θ)
                      ∀(x, z, θ),                   < 0 (h d´croissante en y)
                                                            e
                                        ∂y




S.Clinchant E.Gaussier (XRCE-LIG)    Mod`les de RI fond´s sur l’information
                                        e              e                      18 Mars 2010   7 / 37
Contraintes Heuristiques (3)

Hypoth`ses:
      e
       Condition 3: On devrait p´naliser les longs documents compar´s
                                  e                                   e
       aux documents plus courts, car les longs documents sont suceptibles
       de couvrir diff´rents sujets
                     e

                                    ∂h(x, y , z, θ)
                      ∀(x, z, θ),                   < 0 (h d´croissante en y)
                                                            e
                                        ∂y


       Condition 4: Enfin, il est important de diminuer l’importance des
       mots apparaissant dans beaucoup de documents (IDF)

                                            ∂h(x, y , z, θ)
                             ∀(x, y , θ),                   < 0 (effet IDF)
                                                ∂z
cf Fang et al, A Formal Study of Information Retrieval Heuristics, SIGIR’04


S.Clinchant E.Gaussier (XRCE-LIG)    Mod`les de RI fond´s sur l’information
                                        e              e                      18 Mars 2010   7 / 37
Ph´nom`ne de Rafale (Burstiness)
  e   e


On s’int´resse maintenant aux lois de probabilit´s sur les fr´quences:
        e                                       e            e

         Church et Gale 1 ont mis en ´vidence que le mod`le 2-Poisson
                                     e                  e
         s’ajuste mal aux donn´es.
                              e
         Une explication possible: le comportement en rafale des mots, ou
         cr´pitement (burstiness). D´crit le fait que les mots, dans un
           e                         e
         document, tendent ` apparaˆ
                            a          ıtre par paquets




    1
        Poisson Mixtures
S.Clinchant E.Gaussier (XRCE-LIG)   Mod`les de RI fond´s sur l’information
                                       e              e                      18 Mars 2010   8 / 37
Ph´nom`ne de Rafale (Burstiness)
  e   e


On s’int´resse maintenant aux lois de probabilit´s sur les fr´quences:
        e                                       e            e

         Church et Gale 1 ont mis en ´vidence que le mod`le 2-Poisson
                                     e                  e
         s’ajuste mal aux donn´es.
                              e
         Une explication possible: le comportement en rafale des mots, ou
         cr´pitement (burstiness). D´crit le fait que les mots, dans un
           e                         e
         document, tendent ` apparaˆ
                            a          ıtre par paquets
         Une fois que l’on a observ´ une occurrence d’un mot dans un
                                   e
         document, il est bien plus probable d’observer de nouvelles
         occurrences de ce mot




    1
        Poisson Mixtures
S.Clinchant E.Gaussier (XRCE-LIG)   Mod`les de RI fond´s sur l’information
                                       e              e                      18 Mars 2010   8 / 37
Ph´nom`ne de Rafale
  e   e

Definition (Cas discret ECIR’08)
Une distribution discr`te P est en rafale ou cr´pite ssi la suite:
                      e                        e

                                    g (n) = P(X ≥ n + 1|X ≥ n)

est une suite strictement croissante




S.Clinchant E.Gaussier (XRCE-LIG)     Mod`les de RI fond´s sur l’information
                                         e              e                      18 Mars 2010   9 / 37
Ph´nom`ne de Rafale
  e   e

Definition (Cas discret ECIR’08)
Une distribution discr`te P est en rafale ou cr´pite ssi la suite:
                      e                        e

                                    g (n) = P(X ≥ n + 1|X ≥ n)

est une suite strictement croissante

Definition (Cas g´n´ral)
                e e
Une distribution continue P est en rafale ou cr´pite ssi ∀ > 0 la fonction
                                               e
g:
                       g (x) = P(X ≥ x + |X ≥ x)
est une fonction strictement croissante en x.



S.Clinchant E.Gaussier (XRCE-LIG)     Mod`les de RI fond´s sur l’information
                                         e              e                      18 Mars 2010   9 / 37
Distribution                        En rafale
                                   Poisson                             Non
                                Geometrique                          Neutre
                            N´gative Binomiale
                              e                                    Oui si r < 1
                          Beta N´gative Binomiale
                                 e                                     Oui
                                   Pareto                              Oui
                               Log-Logistique                          Oui




S.Clinchant E.Gaussier (XRCE-LIG)   Mod`les de RI fond´s sur l’information
                                       e              e                           18 Mars 2010   10 / 37
Mod`les d’Information & Contraintes heuristiques:
   e
Mod`les d´finis par:
   e     e
                                                                   Fonction h
                                                  q                 d
                    RSV (q, d) =                 xw − log Prob(X ≥ tw |λw )                    (1)
                                      w ∈q∩d


        d
       tw fr´quences normalis´es: g´n´ralement croissante en x, d´croissante
            e                e     e e                           e
       en y .




S.Clinchant E.Gaussier (XRCE-LIG)   Mod`les de RI fond´s sur l’information
                                       e              e                         18 Mars 2010   11 / 37
Mod`les d’Information & Contraintes heuristiques:
   e
Mod`les d´finis par:
   e     e
                                                                   Fonction h
                                                  q                 d
                    RSV (q, d) =                 xw − log Prob(X ≥ tw |λw )                    (1)
                                      w ∈q∩d


        d
       tw fr´quences normalis´es: g´n´ralement croissante en x, d´croissante
            e                e     e e                           e
       en y .

       Condition 1 (h croissante) Direct
       Condition 3 (p´nalise longs documents) Direct.
                     e




S.Clinchant E.Gaussier (XRCE-LIG)   Mod`les de RI fond´s sur l’information
                                       e              e                         18 Mars 2010   11 / 37
Mod`les d’Information & Contraintes heuristiques:
   e
Mod`les d´finis par:
   e     e
                                                                   Fonction h
                                                  q                 d
                    RSV (q, d) =                 xw − log Prob(X ≥ tw |λw )                    (1)
                                      w ∈q∩d


        d
       tw fr´quences normalis´es: g´n´ralement croissante en x, d´croissante
            e                e     e e                           e
       en y .

       Condition 1 (h croissante) Direct
       Condition 3 (p´nalise longs documents) Direct.
                     e
       Condition 2 (h concave)

Th´or`me
  e e
Si la distribution P est en rafale, alors le mod`le d’information d´fini avec
                                                e                  e
P est concave
S.Clinchant E.Gaussier (XRCE-LIG)   Mod`les de RI fond´s sur l’information
                                       e              e                         18 Mars 2010   11 / 37
Mod`les d’Information & Contraintes heuristiques:
   e


Soit P une distribution de classe C 2 . Une condition n´cessaire pour que P
                                                       e
soit en rafale est :
                           ∂ 2 log(P(X ≥ x))
                                               >0
                                   ∂x 2
Or
                                    ∂ 2 log(P(X ≥ x))
                   Concavit´ ⇐⇒
                           e                           >0
                                            ∂x 2
       Condition 4 (effet IDF) et 2 Conditions d’ajustement suppl´mentaires
                                                                e
       d´pendent du choix de la distribution P
        e




S.Clinchant E.Gaussier (XRCE-LIG)   Mod`les de RI fond´s sur l’information
                                       e              e                      18 Mars 2010   12 / 37
Les mod`les log-logistique et loi de puissance liss´e
                        e                                           e




S.Clinchant E.Gaussier (XRCE-LIG)   Mod`les de RI fond´s sur l’information
                                       e              e                      18 Mars 2010   13 / 37
La distribution log-logistique




       On consid`re ici une loi log-logistique contrainte:
                e
                                                             r
                                    P(X > x|r ) =                  (r m´diane)
                                                                       e
                                                          (x + r )

       On se restreint ` cette forme ` cause de relations avec d’autres
                       a             a
       distributions (N´gative Binomiale, Beta N´gative Binomiale)
                       e                         e




S.Clinchant E.Gaussier (XRCE-LIG)      Mod`les de RI fond´s sur l’information
                                          e              e                       18 Mars 2010   14 / 37
log P(X > x) Poisson et Log-Logistique


                                                r=0.001 Poisson               r=0.001
               0




                                                r=0.01 Poisson                r=0.01
                                                r=0.1 Poisson                 r=0.1
               −2
               −4
log P(X > x)

               −6
               −8
               −10




                     0              5                             10            15

                                                   x

S.Clinchant E.Gaussier (XRCE-LIG)   Mod`les de RI fond´s sur l’information
                                       e              e                      18 Mars 2010   15 / 37
Ajustement aux donn´es
                   e


Pour v´rifier l’ajustement aux donn´es, on a effectu´ un test du χ2 sous
      e                           e               e
ces deux hypoth`ses:
                  e
                ˆ
     Poisson: λw = Fw          N
                                     Fw
       Log-Logistique: rˆ =
                        w            N


⇒ La statistique du χ2 est bien meilleure pour la log-logistique
(confirme des travaux pr´cedents)
                       e
La loi log-logistique est un ”bon” mod`le de fr´quences sur le corpus
                                      e        e
(meilleur que Poisson, G´om´trique, Binomial et 2-Poisson).
                          e e
Est-ce un bon mod`le de RI ?
                 e




S.Clinchant E.Gaussier (XRCE-LIG)   Mod`les de RI fond´s sur l’information
                                       e              e                      18 Mars 2010   16 / 37
Mod`le Log-Logistique pour la RI (LGD)
   e



Le mod`le LGD est d´fini par
      e            e
                       d    d           m
   1   Normalisation: tw = xw log(1 + c yd ) (N2 DFR)
   2            e              d
       Loi de fr´quences: Les tw sont distribu´s par une loi log-logistique de
                                              e
                       Nw
       param`tre rw = N
             e
   3

                                                  q             Nw    d          Nw
                     RSV (q, d) =                xw log(           + tw ) − log(    )
                                                                N                N
                                      w ∈q∩d

Respecte toutes les conditions quels que soient les param`tres.
                                                         e




S.Clinchant E.Gaussier (XRCE-LIG)   Mod`les de RI fond´s sur l’information
                                       e              e                          18 Mars 2010   17 / 37
Loi de Puissance Liss´e (Smoothed Power Law SPL)
                     e


On appelle loi de Puissance liss´e la distribution sur [0, +∞[ de param`tre
                                e                                      e
0<λ<1:                                       x
                                          λ x+1 − λ
                         P(X > x|λ) =
                                            1−λ




S.Clinchant E.Gaussier (XRCE-LIG)   Mod`les de RI fond´s sur l’information
                                       e              e                      18 Mars 2010   18 / 37
Loi de Puissance Liss´e (Smoothed Power Law SPL)
                     e


On appelle loi de Puissance liss´e la distribution sur [0, +∞[ de param`tre
                                e                                      e
0<λ<1:                                       x
                                          λ x+1 − λ
                         P(X > x|λ) =
                                            1−λ
Mod`le de RI:
    e
                       d    d           m
   1   Normalisation: tw = xw log(1 + c yd ) (N2 DFR)
   2            e              d
       Loi de fr´quences: Les tw sont distribu´s par une loi de puissance
                                              e
                                 Nw
       liss´e de param`tre rw = N
           e          e
Respecte aussi toutes les conditions




S.Clinchant E.Gaussier (XRCE-LIG)   Mod`les de RI fond´s sur l’information
                                       e              e                      18 Mars 2010   18 / 37
Loi de Puissance Liss´e
                     e

                                                lambda = 0.005
                        0


                                                                             loglogistic
                                                                             spl
                        −2
           log P(X>x)
                        −4
                        −6
                        −8




                             0              5                        10              15

                                                        x

S.Clinchant E.Gaussier (XRCE-LIG)   Mod`les de RI fond´s sur l’information
                                       e              e                             18 Mars 2010   19 / 37
Caract´risation des mod`les d’information
      e                e

   1   Normalisation de fr´quences v´rifie:
                          e         e
                                      d
                                    ∂tw        d
                                             ∂tw       ∂ 2 xwd
                                      d
                                        > 0;     < 0;          ≥0
                                    ∂xw      ∂yd      ∂(tw )2
                                                           d

   2   Loi de Probabilit´ continue et en rafale
                        e
   3   Fonction d’Ordonnancement
                                                        q                d
                        RSV (q, d) =                  −xw log Prob(Xw ≥ tw |λw )
                                            w ∈q∩d

   4   Param`tre sur la collection
            e
                                                          F w Nw
                                               λw =          or
                                                          N     N


S.Clinchant E.Gaussier (XRCE-LIG)     Mod`les de RI fond´s sur l’information
                                         e              e                      18 Mars 2010   20 / 37
Relations avec d’autres mod`les
                           e
Relation avec les mod`les de langues:
                     e
   1                   d    d m
       Normalisation: tw = xw c yd (N1 DFR)
                Fw
   2   rw =     N    et Loi Log-Logistique
   3   Mod`le = Mod`le de langues avec lissage de Jelinek-Mercer
          e        e




S.Clinchant E.Gaussier (XRCE-LIG)   Mod`les de RI fond´s sur l’information
                                       e              e                      18 Mars 2010   21 / 37
Relations avec d’autres mod`les
                           e
Relation avec les mod`les de langues:
                     e
   1                   d    d m
       Normalisation: tw = xw c yd (N1 DFR)
                Fw
   2   rw =     N    et Loi Log-Logistique
   3   Mod`le = Mod`le de langues avec lissage de Jelinek-Mercer
          e        e
Relation avec les mod`les DFR:
                     e
Les mod`les DFR sont d´finis de la mani`re suivante:
        e               e             e
                                                   q        d               d
                     RSV (q, d) =                −xw Inf2 (tw ) log Prob1 (tw )
                                      w ∈q∩d

Probl`mes:
     e
       Loi discr`tes avec valeurs continues
                e
       2 Notions d’informations non ”homog`nes”
                                          e
⇒ Nos mod`les reposent sur des lois continues et sur une seule notion
           e
d’Information
S.Clinchant E.Gaussier (XRCE-LIG)   Mod`les de RI fond´s sur l’information
                                       e              e                       18 Mars 2010   21 / 37
Exp´riences
   e
       Comparaison avec mod`les de langues, BM25, mod`les DFR
                             e                        e
       Corpus: ROBUST, CLEF03, GIRT avec requˆtes longues et courtes
                                                 e
       5 jeu de requˆtes: ROB-d , ROB-t , GIRT , CLEF-d , CLEF-t
                    e

                                     Corpus             # Requˆte
                                                               e
                                    ROBUST                 250
                                    CLEF03                 60
                                     GIRT                  75




S.Clinchant E.Gaussier (XRCE-LIG)   Mod`les de RI fond´s sur l’information
                                       e              e                      18 Mars 2010   22 / 37
Exp´riences
   e
       Comparaison avec mod`les de langues, BM25, mod`les DFR
                             e                        e
       Corpus: ROBUST, CLEF03, GIRT avec requˆtes longues et courtes
                                                 e
       5 jeu de requˆtes: ROB-d , ROB-t , GIRT , CLEF-d , CLEF-t
                    e

                                     Corpus             # Requˆte
                                                               e
                                    ROBUST                 250
                                    CLEF03                 60
                                     GIRT                  75

Divis´ en apprentissage/test
     e
Optimise MAP ou P10 sur une grille de valeurs:
Par exemple:
       k1 ∈ {0.3, 0.5, 0.8, 1.0, 1.2, 1.5, 1.8, 2, 2.2, 2.5} (BM25)
       c ∈ {0.25, 0.5, 0.8, 1, 2, 3, 5, 8, 10} (LGD,DFR)
       µ ∈ {10, 50, 100, 200, 500, 800, 1000, 1500, 2000, 5000, 10000} (LM)
S.Clinchant E.Gaussier (XRCE-LIG)   Mod`les de RI fond´s sur l’information
                                       e              e                      18 Mars 2010   22 / 37
Comparaison avec le lissage de Jelinek-Mercer


Comparaison avec les mod`les de langues
                        e

Table: LM-Jelinek-Mercer vs Log-Logistique apr`s 10 divisions; en gras, les
                                               e
meilleures performances ; ∗ d´note une diff´rence statistiquement significative
                             e            e
                MAP         ROB-d      ROB-t          GIRT          CLEF-d   CLEF-t
                LM           26.0       20.7           40.7           49.2     36.5
                LGD         27.2∗      22.5∗          43.1∗          50.0∗    37.5∗
                P10         ROB-d      ROB-t          GIRT          CLEF-d   CLEF-t
                LM           43.8       35.5           67.5           33.0     26.2
                LGD         46.0∗      38.9∗          69.4∗          33.6∗    26.6∗




S.Clinchant E.Gaussier (XRCE-LIG)   Mod`les de RI fond´s sur l’information
                                       e              e                         18 Mars 2010   23 / 37
Comparaison avec le lissage de Dirichlet



Table: LMDirichlet vs Log-Logistique apr`s 10 divisions; en gras, les meilleures
                                        e
performances ; ∗ d´note une diff´rence statistiquement significative
                  e            e
                MAP         ROB-d      ROB-t          GIRT          CLEF-d   CLEF-t
                DIR          27.1       25.1           41.1           48.5     36.2
                LGD         27.4∗       25.0          42.1∗          49.7∗    36.8∗
                P10         ROB-d      ROB-t          GIRT          CLEF-d   CLEF-t
                DIR          45.6      44.7∗           68.6           33.8     28.4
                LGD         46.2∗       44.4          69.0           34.5∗    28.6




S.Clinchant E.Gaussier (XRCE-LIG)   Mod`les de RI fond´s sur l’information
                                       e              e                         18 Mars 2010   24 / 37
Comparaison avec BM25



BM25 optimis´ seulement avec le param`tre k1
            e                        e

                MAP          ROB-d      ROB-t           GIRT          CLEF-t   CLEF-d
                BM25          26.8       22.4            39.8          34.9     46.8
                LGD          28.2∗      23.5∗           41.4∗          34.8     48.0
                 P10         ROB-d      ROB-t           GIRT          CLEF-t   CLEF-d
                BM25          45.9       42.6            62.6          28.5     33.7
                LGD           46.5      44.3∗           66.6∗          28.7     34.4




S.Clinchant E.Gaussier (XRCE-LIG)   Mod`les de RI fond´s sur l’information
                                       e              e                           18 Mars 2010   25 / 37
Comparaison avec les mod`les DFR
                        e

Table: INL2 et PL2 versus Log-Logistique apr`s 10 divisions; en gras, les
                                             e
meilleures performances; ∗ d´note une diff´rence statistiquement significative
                            e            e
                MAP         ROB-d       ROB-t          GIRT          CLEF-d    CLEF-t
                INL2         27.7        24.8           42.5          47.7      37.5
                LGD         28.5∗       25.0∗          43.1∗          48.0      37.4
                 P10        ROB-d       ROB-t          GIRT          CLEF-d    CLEF-t
                INL2        47.7∗        43.3           67.0          33.4      27.3
                LGD          47.0        43.5          69.4∗          33.3      27.2
                MAP          ROB-d       ROB-t          GIRT          CLEF-t   CLEF-d
                LGD          27.3∗        24.7           40.5          36.2     47.5
                PL2           26.2        24.8          40.6           36.0     47.2
                P10          ROB-d       ROB-t          GIRT          CLEF-t   CLEF-d
                LGD           46.6        43.2           66.7          28.5     33.7
                PL2           46.4       44.1∗          68.2∗          28.7     33.1

S.Clinchant E.Gaussier (XRCE-LIG)    Mod`les de RI fond´s sur l’information
                                        e              e                          18 Mars 2010   26 / 37
Comparaison SPL avec le mod`le de langue Dirichlet
                           e




Table: SPL versus LM-Dirichlet after 10 splits; bold indicates significant difference
               MAP         ROB-d      ROB-t           GIR         T3-t       CL-t   CL-d
               DIR          26.7       25.0           40.9        27.1       36.2   50.2
               SPL          25.6       24.9           42.1        26.8       36.4   46.9
               P10         ROB-d      ROB-t           GIR         T3-t       CL-t   CL-d
               DIR          45.2       43.8           68.2        52.8       27.3   32.8
               SPL          46.6       44.7           70.8        55.3       27.1   32.9




S.Clinchant E.Gaussier (XRCE-LIG)   Mod`les de RI fond´s sur l’information
                                       e              e                              18 Mars 2010   27 / 37
Comparaison SPL avec les mod`les InL2 et PL2 (DFR)
                            e

Table: SPL versus DFR models after 10 splits; bold indicates significant difference
                MAP ROB-d ROB-t GIR                               T3-t       CL-t CL-d
                INL  26.9  24.3 40.4                              24.8       35.5 49.4
                SPL  26.6  24.6 40.7                              25.4       34.6 48.1
                P10 ROB-d ROB-t GIR                               T3-t       CL-t CL-d
                INL  47.6  42.8 63.4                              52.5       28.8 33.8
                SPL  47.8  44.1 68.0                              53.9       28.7 33.6
                MAP ROB-d ROB-t GIR                               T3-t       CL-t CL-d
                SPL  26.3  25.2 42.7                              25.3       37.4 44.1
                PL2  26.3  25.2 42.8                              25.8       37.3 45.7
                P10 ROB-d ROB-t GIR                               T3-t       CL-t CL-d
                SPL  47.0  45.2 69.8                              55.4       25.9 32.9
                PL2  46.0  45.2 69.3                              54.8       26.2 32.7


S.Clinchant E.Gaussier (XRCE-LIG)   Mod`les de RI fond´s sur l’information
                                       e              e                            18 Mars 2010   28 / 37
Extension au PRF


Moyenne de l’information sur les premiers documents retourn´s:
                                                           e
                                        1                       d
                          Info(w ) =              − log(P(Xw > tw ; λw ))
                                        n
                                            d∈R

Mise ` jour de la requˆte: (similaire au mod`le Bo2)
     a                e                     e
                                        q
                               q2      xw         Info(w )
                              xw =         q +β
                                     maxw xw    maxw Info(w )

Le mod`le de PRF et le mod`le de RI sont les mˆmes !
      e                   e                   e




S.Clinchant E.Gaussier (XRCE-LIG)    Mod`les de RI fond´s sur l’information
                                        e              e                      18 Mars 2010   29 / 37
∗
Table: MAP,           d´note une diff´rence statistiquement significative avec LM et Bo2
                       e            e
            Model            n      TC     ROB-t          GIRT            TREC3-t   CLEF-t
          LM+MIX              5      5      27.5          44.4              30.7      36.6
          INL+Bo2             5      5      26.5           42.0             30.6      37.6
            LGD               5      5     28.3∗           44.3            32.9∗      37.6
          LM+MIX              5     10      28.3          45.7∗             33.6      37.4
          INL+Bo2             5     10      27.5           42.7             32.6      37.5
            LGD               5     10     29.4∗           44.9            35.0∗     40.2∗
          LM+MIX             10     10      28.4           45.5             31.8      37.6
          INL+Bo2            10     10      27.2           43.0             32.3      37.4
            LGD              10     10     30.0∗          46.8∗            35.5∗     38.9
          LM+MIX             10     20      29.0           46.2             33.7      38.2
          INL+Bo2            10     20      27.7           43.5             33.8      37.7
            LGD              10     20     30.3∗          47.6∗            37.4∗     38.6
          LM+MIX             20     20      28.6           47.9             32.9      37.8
          INL+Bo2            20     20      27.4           44.3             33.5      36.8
            LGD              20     20      29.5∗         48.9∗            37.2∗     41.0∗
S.Clinchant E.Gaussier (XRCE-LIG)    Mod`les de RI fond´s sur l’information
                                        e              e                            18 Mars 2010   30 / 37
Table: Mean average precision of PRF experiments; bold indicates best
performance, ∗ significant difference over LM and Bo2 models
               Model         N      TC     ROB-t            GIR            T3-t   CL-t
               LGD           5       5     28.3∗            44.3          32.9∗    37.6
               SPL           5       5     28.9∗           45.6∗          32.9∗   39.0∗
               LGD           5      10     29.4∗            44.9          35.0∗   40.2∗
               SPL           5      10     29.6∗           47.0∗          34.6∗   39.5∗
               LGD           10     10     30.0∗           46.8∗          35.5∗    38.9
               SPL           10     10     30.0∗           48.9∗          33.8∗   39.1∗
               LGD           10     20     30.3∗           47.6∗          37.4∗    38.6
               SPL           10     20     29.9∗           50.2∗           34.3   39.7∗
               LGD           20     20      29.5∗          48.9∗          37.2∗   41.0∗
               SPL           20     20      28.8           50.3∗           33.9   39.0∗



S.Clinchant E.Gaussier (XRCE-LIG)    Mod`les de RI fond´s sur l’information
                                        e              e                            18 Mars 2010   31 / 37
Conclusion

       Caract´risation analytique des contraintes heuristiques
             e
       Ph´nom`ne de rafale pour les lois continues
         e    e
       Une nouvelle famille de mod`les de RI
                                  e
              ”En Rafale” ⇒ Mod`le concave
                               e
       Extension au PRF
       Les mod`les log-logistique et loi de puissance liss´e
               e                                          e
              LGD contient un mod`le de langue
                                    e
              LGD, SPL ≥ mod`le de langues
                                 e
              LGD,SPL ≈ DFR
              plus simple que les mod`les DFR
                                      e
              les meilleures performances en PRF

                                             Questions ?



S.Clinchant E.Gaussier (XRCE-LIG)   Mod`les de RI fond´s sur l’information
                                       e              e                      18 Mars 2010   32 / 37
La distribution log-logistique

        Church et al. 2 ont propos´ la distribution N´gative Binomiale
                                  e                  e
        (m´lange infini de Poisson) pour mod´liser les fr´quences.
          e                                   e         e
        ⇒ ”meilleur” mod`le que 2-Poisson
                          e
        Nous avons propos´ pr´cedemment la loi Beta-Negative Binomiale
                         e e
        (BNB):
                            BNB(x|r ) =              Beta(θ|1, 1)Negbin(x|θ, r )

        On consid`re ici une loi log-logistique contrainte:
                 e
                                                             r
                                    P(X > x|r ) =                  (r m´diane)
                                                                       e
                                                          (x + r )

        Cette log-logistique contrainte peut ˆtre vue comme une version
                                             e
        continue d’une Beta-N´gative Binomiale
                               e

    2
        Poisson Mixtures
S.Clinchant E.Gaussier (XRCE-LIG)      Mod`les de RI fond´s sur l’information
                                          e              e                       18 Mars 2010   33 / 37
Relation avec les Mod`les DFR
                     e



Les mod`les DFR sont d´finis de la mani`re suivante:
       e              e               e
                                q        d         d                        q        d               d
RSV (q, d) =                   xw Inf2 (tw )Inf1 (tw ) =                  −xw Inf2 (tw ) log Prob1 (tw )
                    w ∈q∩d                                     w ∈q∩d

On peut montrer que :
       Inf2 rend les mod`les DFR concave (condition 2)
                        e
       Sans Inf2 , les mod`les DFR obtiennent de mauvaises performances
                          e




S.Clinchant E.Gaussier (XRCE-LIG)    Mod`les de RI fond´s sur l’information
                                        e              e                               18 Mars 2010   34 / 37
Experimental Fit



Chi Square test on Robust collection, with terms appearing with document
frequency ≥ 100; Frequency range divided into three intervals: [0, 3[,
[3, 10[ and [10, 100[.
Hypothesis
                 ˆ
       Poisson: λw =           Fw
                               N
                      ˆ
       Log-Logistic: λw =           Fw
                                    N




S.Clinchant E.Gaussier (XRCE-LIG)    Mod`les de RI fond´s sur l’information
                                        e              e                      18 Mars 2010   35 / 37
Chi Square Statistics




S.Clinchant E.Gaussier (XRCE-LIG)   Mod`les de RI fond´s sur l’information
                                       e              e                      18 Mars 2010   36 / 37
Comparaison des mod`les
                   e

                                                   r = 0.005
               8
                          LGD
           2 4 6


                          INL
            Weight




                          SPL
                          PL
               0




                      0                   5                          10        15
                                                        x

                                                   r = 5e−04

                          LGD
                  8




                          INL
           Weight




                          SPL
            4




                          PL
               0




                      0                   5                          10        15
                                                        x


S.Clinchant E.Gaussier (XRCE-LIG)   Mod`les de RI fond´s sur l’information
                                       e              e                      18 Mars 2010   37 / 37

Contenu connexe

En vedette

Optimiser son informatique igretec 27 10-2011
Optimiser son informatique igretec 27 10-2011Optimiser son informatique igretec 27 10-2011
Optimiser son informatique igretec 27 10-2011DorotheeJ
 
Magret de canard
Magret de canardMagret de canard
Magret de canardanthonyTETU
 
Unité 5. les risques pour la santé (3)
Unité 5. les risques pour la santé (3)Unité 5. les risques pour la santé (3)
Unité 5. les risques pour la santé (3)jlealleon
 
Muestra Festival de la Luz
Muestra Festival de la LuzMuestra Festival de la Luz
Muestra Festival de la LuzPUPOVISION
 
Discurso día internacional d ela lengua nahuat
Discurso día internacional d ela lengua nahuat Discurso día internacional d ela lengua nahuat
Discurso día internacional d ela lengua nahuat Adalberto
 
Redes representantes vacíos
Redes representantes vacíosRedes representantes vacíos
Redes representantes vacíosAdalberto
 
Diaporama présentation janvier DP3
Diaporama présentation janvier DP3Diaporama présentation janvier DP3
Diaporama présentation janvier DP3blogcditaison
 
UM décrypte l'efficacité des réseaux sociaux présentation irep 2012
UM décrypte l'efficacité des réseaux sociaux  présentation irep 2012UM décrypte l'efficacité des réseaux sociaux  présentation irep 2012
UM décrypte l'efficacité des réseaux sociaux présentation irep 2012UM
 
Clase del martes 8 de abril de 2014
Clase del martes 8 de abril de 2014Clase del martes 8 de abril de 2014
Clase del martes 8 de abril de 2014Gonzalo Jiménez
 
Al7 ma19tepa0009 sequence-03
Al7 ma19tepa0009 sequence-03Al7 ma19tepa0009 sequence-03
Al7 ma19tepa0009 sequence-03tarek1961moussa
 

En vedette (18)

Optimiser son informatique igretec 27 10-2011
Optimiser son informatique igretec 27 10-2011Optimiser son informatique igretec 27 10-2011
Optimiser son informatique igretec 27 10-2011
 
Magret de canard
Magret de canardMagret de canard
Magret de canard
 
Unité 5. les risques pour la santé (3)
Unité 5. les risques pour la santé (3)Unité 5. les risques pour la santé (3)
Unité 5. les risques pour la santé (3)
 
Muestra Festival de la Luz
Muestra Festival de la LuzMuestra Festival de la Luz
Muestra Festival de la Luz
 
La guerre s’affiche !
La guerre s’affiche ! La guerre s’affiche !
La guerre s’affiche !
 
Discurso día internacional d ela lengua nahuat
Discurso día internacional d ela lengua nahuat Discurso día internacional d ela lengua nahuat
Discurso día internacional d ela lengua nahuat
 
Atelier avis clients
Atelier avis clients Atelier avis clients
Atelier avis clients
 
Presentación bcn99
Presentación bcn99Presentación bcn99
Presentación bcn99
 
A lucia
A luciaA lucia
A lucia
 
Crier la vie
Crier la vie Crier la vie
Crier la vie
 
Redes representantes vacíos
Redes representantes vacíosRedes representantes vacíos
Redes representantes vacíos
 
4t A
4t A4t A
4t A
 
Regime fruits fr11
Regime fruits fr11Regime fruits fr11
Regime fruits fr11
 
Diaporama présentation janvier DP3
Diaporama présentation janvier DP3Diaporama présentation janvier DP3
Diaporama présentation janvier DP3
 
UM décrypte l'efficacité des réseaux sociaux présentation irep 2012
UM décrypte l'efficacité des réseaux sociaux  présentation irep 2012UM décrypte l'efficacité des réseaux sociaux  présentation irep 2012
UM décrypte l'efficacité des réseaux sociaux présentation irep 2012
 
Clase del martes 8 de abril de 2014
Clase del martes 8 de abril de 2014Clase del martes 8 de abril de 2014
Clase del martes 8 de abril de 2014
 
RIA
RIARIA
RIA
 
Al7 ma19tepa0009 sequence-03
Al7 ma19tepa0009 sequence-03Al7 ma19tepa0009 sequence-03
Al7 ma19tepa0009 sequence-03
 

Modèles d\'Information CORIA\'2010

  • 1. Mod`les de RI fond´s sur l’information e e St´phane Clinchant e 1,2 Eric Gaussier 2 1 Xerox Research Centre Europe 2 Laboratoire d’Informatique de Grenoble Univ. Grenoble 1 18 Mars 2010 S.Clinchant E.Gaussier (XRCE-LIG) Mod`les de RI fond´s sur l’information e e 18 Mars 2010 1 / 37
  • 2. Contenu Informatif Utiliser l’information de Shannon pour pond´rer les mots dans les e documents P(X) −log P(X) Inf(x) = − log P(x|ΘC ) = Contenu Informatif Ecart au comportement moyen S.Clinchant E.Gaussier (XRCE-LIG) Mod`les de RI fond´s sur l’information e e 18 Mars 2010 2 / 37
  • 3. Contenu Informatif Utiliser l’information de Shannon pour pond´rer les mots dans les e documents P(X) −log P(X) Inf(x) = − log P(x|ΘC ) = Contenu Informatif Ecart au comportement moyen Observation par Harter (70): Les mots ”Non-Fonctionnels” s’´cartent d’une distribution de Poisson. e S.Clinchant E.Gaussier (XRCE-LIG) Mod`les de RI fond´s sur l’information e e 18 Mars 2010 2 / 37
  • 4. Mod`les fond´s sur l’information e e Id´e Principale: e 1 Les fr´quences discr`tes des termes (x) sont renormalis´es en e e e valeurs continues (t(x)), du fait de la variabilit´ des longueurs de e documents. 2 Pour chaque terme w , on suppose que les valeurs t(x) suivent une distribution P de param`tre λw sur le corpus. e 3 Requˆtes et documents sont compar´s avec une mesure de surprise, e e une moyenne d’information de la forme: q d RSV (q, d) = −xw log Prob(Xw ≥ t(xw )|λw ) w ∈q∩d S.Clinchant E.Gaussier (XRCE-LIG) Mod`les de RI fond´s sur l’information e e 18 Mars 2010 3 / 37
  • 5. Plan 1 Propri`t´s th´oriques des mod`les ee e e Contraintes Heuristiques des mod`les de R.I e Ph´nom`ne de Rafale e e 2 Exemples de Mod`les e Le mod`le log-logistique e Loi de Puissance liss´e e 3 Validation Experimentale 4 Extension au PRF S.Clinchant E.Gaussier (XRCE-LIG) Mod`les de RI fond´s sur l’information e e 18 Mars 2010 4 / 37
  • 6. Contraintes Heuristiques (1) Une fonction d’ordonnancement en RI prend la forme suivante: q d RSV (q, d) = f (xw )h(xw , yd , zw , θ) w ∈q∩d q d xw fr´quence du mot dans la requete, xw dans le document e yd Longueur du document d zw = Fw ou zw = Nw θ param`tre du mod`le de RI. e e Fw Frequence de w dans le corpus : Fw = d xw d d Nw Fr´quence Documentaire de w : Nw = d I (xw > 0) e N Nombre de documents dans la collection ⇒ Etude des propri`t´s de h ee S.Clinchant E.Gaussier (XRCE-LIG) Mod`les de RI fond´s sur l’information e e 18 Mars 2010 5 / 37
  • 7. Contraintes Heuristiques (2) Hypoth`ses: e Condition 1: Les documents avec plus d’occurences d’un terme de la requˆte devraient avoir un score plus grand que ceux qui en ont e moins (Luhn) ∂h(x, y , z, θ) ∀(y , z, θ), > 0 (h est croissante en x) ∂x S.Clinchant E.Gaussier (XRCE-LIG) Mod`les de RI fond´s sur l’information e e 18 Mars 2010 6 / 37
  • 8. Contraintes Heuristiques (2) Hypoth`ses: e Condition 1: Les documents avec plus d’occurences d’un terme de la requˆte devraient avoir un score plus grand que ceux qui en ont e moins (Luhn) ∂h(x, y , z, θ) ∀(y , z, θ), > 0 (h est croissante en x) ∂x Condition 2: Cependant, la diff´rence de score devrait ˆtre plus e e petite pour de grandes fr´quences. Ex: 2→4, 50→ 52 e ∂ 2 h(x, y , z, θ) ∀(y , z, θ), < 0 (h est concave) ∂x 2 S.Clinchant E.Gaussier (XRCE-LIG) Mod`les de RI fond´s sur l’information e e 18 Mars 2010 6 / 37
  • 9. Contraintes Heuristiques (3) Hypoth`ses: e Condition 3: On devrait p´naliser les longs documents compar´s e e aux documents plus courts, car les longs documents sont suceptibles de couvrir diff´rents sujets e ∂h(x, y , z, θ) ∀(x, z, θ), < 0 (h d´croissante en y) e ∂y S.Clinchant E.Gaussier (XRCE-LIG) Mod`les de RI fond´s sur l’information e e 18 Mars 2010 7 / 37
  • 10. Contraintes Heuristiques (3) Hypoth`ses: e Condition 3: On devrait p´naliser les longs documents compar´s e e aux documents plus courts, car les longs documents sont suceptibles de couvrir diff´rents sujets e ∂h(x, y , z, θ) ∀(x, z, θ), < 0 (h d´croissante en y) e ∂y Condition 4: Enfin, il est important de diminuer l’importance des mots apparaissant dans beaucoup de documents (IDF) ∂h(x, y , z, θ) ∀(x, y , θ), < 0 (effet IDF) ∂z cf Fang et al, A Formal Study of Information Retrieval Heuristics, SIGIR’04 S.Clinchant E.Gaussier (XRCE-LIG) Mod`les de RI fond´s sur l’information e e 18 Mars 2010 7 / 37
  • 11. Ph´nom`ne de Rafale (Burstiness) e e On s’int´resse maintenant aux lois de probabilit´s sur les fr´quences: e e e Church et Gale 1 ont mis en ´vidence que le mod`le 2-Poisson e e s’ajuste mal aux donn´es. e Une explication possible: le comportement en rafale des mots, ou cr´pitement (burstiness). D´crit le fait que les mots, dans un e e document, tendent ` apparaˆ a ıtre par paquets 1 Poisson Mixtures S.Clinchant E.Gaussier (XRCE-LIG) Mod`les de RI fond´s sur l’information e e 18 Mars 2010 8 / 37
  • 12. Ph´nom`ne de Rafale (Burstiness) e e On s’int´resse maintenant aux lois de probabilit´s sur les fr´quences: e e e Church et Gale 1 ont mis en ´vidence que le mod`le 2-Poisson e e s’ajuste mal aux donn´es. e Une explication possible: le comportement en rafale des mots, ou cr´pitement (burstiness). D´crit le fait que les mots, dans un e e document, tendent ` apparaˆ a ıtre par paquets Une fois que l’on a observ´ une occurrence d’un mot dans un e document, il est bien plus probable d’observer de nouvelles occurrences de ce mot 1 Poisson Mixtures S.Clinchant E.Gaussier (XRCE-LIG) Mod`les de RI fond´s sur l’information e e 18 Mars 2010 8 / 37
  • 13. Ph´nom`ne de Rafale e e Definition (Cas discret ECIR’08) Une distribution discr`te P est en rafale ou cr´pite ssi la suite: e e g (n) = P(X ≥ n + 1|X ≥ n) est une suite strictement croissante S.Clinchant E.Gaussier (XRCE-LIG) Mod`les de RI fond´s sur l’information e e 18 Mars 2010 9 / 37
  • 14. Ph´nom`ne de Rafale e e Definition (Cas discret ECIR’08) Une distribution discr`te P est en rafale ou cr´pite ssi la suite: e e g (n) = P(X ≥ n + 1|X ≥ n) est une suite strictement croissante Definition (Cas g´n´ral) e e Une distribution continue P est en rafale ou cr´pite ssi ∀ > 0 la fonction e g: g (x) = P(X ≥ x + |X ≥ x) est une fonction strictement croissante en x. S.Clinchant E.Gaussier (XRCE-LIG) Mod`les de RI fond´s sur l’information e e 18 Mars 2010 9 / 37
  • 15. Distribution En rafale Poisson Non Geometrique Neutre N´gative Binomiale e Oui si r < 1 Beta N´gative Binomiale e Oui Pareto Oui Log-Logistique Oui S.Clinchant E.Gaussier (XRCE-LIG) Mod`les de RI fond´s sur l’information e e 18 Mars 2010 10 / 37
  • 16. Mod`les d’Information & Contraintes heuristiques: e Mod`les d´finis par: e e Fonction h q d RSV (q, d) = xw − log Prob(X ≥ tw |λw ) (1) w ∈q∩d d tw fr´quences normalis´es: g´n´ralement croissante en x, d´croissante e e e e e en y . S.Clinchant E.Gaussier (XRCE-LIG) Mod`les de RI fond´s sur l’information e e 18 Mars 2010 11 / 37
  • 17. Mod`les d’Information & Contraintes heuristiques: e Mod`les d´finis par: e e Fonction h q d RSV (q, d) = xw − log Prob(X ≥ tw |λw ) (1) w ∈q∩d d tw fr´quences normalis´es: g´n´ralement croissante en x, d´croissante e e e e e en y . Condition 1 (h croissante) Direct Condition 3 (p´nalise longs documents) Direct. e S.Clinchant E.Gaussier (XRCE-LIG) Mod`les de RI fond´s sur l’information e e 18 Mars 2010 11 / 37
  • 18. Mod`les d’Information & Contraintes heuristiques: e Mod`les d´finis par: e e Fonction h q d RSV (q, d) = xw − log Prob(X ≥ tw |λw ) (1) w ∈q∩d d tw fr´quences normalis´es: g´n´ralement croissante en x, d´croissante e e e e e en y . Condition 1 (h croissante) Direct Condition 3 (p´nalise longs documents) Direct. e Condition 2 (h concave) Th´or`me e e Si la distribution P est en rafale, alors le mod`le d’information d´fini avec e e P est concave S.Clinchant E.Gaussier (XRCE-LIG) Mod`les de RI fond´s sur l’information e e 18 Mars 2010 11 / 37
  • 19. Mod`les d’Information & Contraintes heuristiques: e Soit P une distribution de classe C 2 . Une condition n´cessaire pour que P e soit en rafale est : ∂ 2 log(P(X ≥ x)) >0 ∂x 2 Or ∂ 2 log(P(X ≥ x)) Concavit´ ⇐⇒ e >0 ∂x 2 Condition 4 (effet IDF) et 2 Conditions d’ajustement suppl´mentaires e d´pendent du choix de la distribution P e S.Clinchant E.Gaussier (XRCE-LIG) Mod`les de RI fond´s sur l’information e e 18 Mars 2010 12 / 37
  • 20. Les mod`les log-logistique et loi de puissance liss´e e e S.Clinchant E.Gaussier (XRCE-LIG) Mod`les de RI fond´s sur l’information e e 18 Mars 2010 13 / 37
  • 21. La distribution log-logistique On consid`re ici une loi log-logistique contrainte: e r P(X > x|r ) = (r m´diane) e (x + r ) On se restreint ` cette forme ` cause de relations avec d’autres a a distributions (N´gative Binomiale, Beta N´gative Binomiale) e e S.Clinchant E.Gaussier (XRCE-LIG) Mod`les de RI fond´s sur l’information e e 18 Mars 2010 14 / 37
  • 22. log P(X > x) Poisson et Log-Logistique r=0.001 Poisson r=0.001 0 r=0.01 Poisson r=0.01 r=0.1 Poisson r=0.1 −2 −4 log P(X > x) −6 −8 −10 0 5 10 15 x S.Clinchant E.Gaussier (XRCE-LIG) Mod`les de RI fond´s sur l’information e e 18 Mars 2010 15 / 37
  • 23. Ajustement aux donn´es e Pour v´rifier l’ajustement aux donn´es, on a effectu´ un test du χ2 sous e e e ces deux hypoth`ses: e ˆ Poisson: λw = Fw N Fw Log-Logistique: rˆ = w N ⇒ La statistique du χ2 est bien meilleure pour la log-logistique (confirme des travaux pr´cedents) e La loi log-logistique est un ”bon” mod`le de fr´quences sur le corpus e e (meilleur que Poisson, G´om´trique, Binomial et 2-Poisson). e e Est-ce un bon mod`le de RI ? e S.Clinchant E.Gaussier (XRCE-LIG) Mod`les de RI fond´s sur l’information e e 18 Mars 2010 16 / 37
  • 24. Mod`le Log-Logistique pour la RI (LGD) e Le mod`le LGD est d´fini par e e d d m 1 Normalisation: tw = xw log(1 + c yd ) (N2 DFR) 2 e d Loi de fr´quences: Les tw sont distribu´s par une loi log-logistique de e Nw param`tre rw = N e 3 q Nw d Nw RSV (q, d) = xw log( + tw ) − log( ) N N w ∈q∩d Respecte toutes les conditions quels que soient les param`tres. e S.Clinchant E.Gaussier (XRCE-LIG) Mod`les de RI fond´s sur l’information e e 18 Mars 2010 17 / 37
  • 25. Loi de Puissance Liss´e (Smoothed Power Law SPL) e On appelle loi de Puissance liss´e la distribution sur [0, +∞[ de param`tre e e 0<λ<1: x λ x+1 − λ P(X > x|λ) = 1−λ S.Clinchant E.Gaussier (XRCE-LIG) Mod`les de RI fond´s sur l’information e e 18 Mars 2010 18 / 37
  • 26. Loi de Puissance Liss´e (Smoothed Power Law SPL) e On appelle loi de Puissance liss´e la distribution sur [0, +∞[ de param`tre e e 0<λ<1: x λ x+1 − λ P(X > x|λ) = 1−λ Mod`le de RI: e d d m 1 Normalisation: tw = xw log(1 + c yd ) (N2 DFR) 2 e d Loi de fr´quences: Les tw sont distribu´s par une loi de puissance e Nw liss´e de param`tre rw = N e e Respecte aussi toutes les conditions S.Clinchant E.Gaussier (XRCE-LIG) Mod`les de RI fond´s sur l’information e e 18 Mars 2010 18 / 37
  • 27. Loi de Puissance Liss´e e lambda = 0.005 0 loglogistic spl −2 log P(X>x) −4 −6 −8 0 5 10 15 x S.Clinchant E.Gaussier (XRCE-LIG) Mod`les de RI fond´s sur l’information e e 18 Mars 2010 19 / 37
  • 28. Caract´risation des mod`les d’information e e 1 Normalisation de fr´quences v´rifie: e e d ∂tw d ∂tw ∂ 2 xwd d > 0; < 0; ≥0 ∂xw ∂yd ∂(tw )2 d 2 Loi de Probabilit´ continue et en rafale e 3 Fonction d’Ordonnancement q d RSV (q, d) = −xw log Prob(Xw ≥ tw |λw ) w ∈q∩d 4 Param`tre sur la collection e F w Nw λw = or N N S.Clinchant E.Gaussier (XRCE-LIG) Mod`les de RI fond´s sur l’information e e 18 Mars 2010 20 / 37
  • 29. Relations avec d’autres mod`les e Relation avec les mod`les de langues: e 1 d d m Normalisation: tw = xw c yd (N1 DFR) Fw 2 rw = N et Loi Log-Logistique 3 Mod`le = Mod`le de langues avec lissage de Jelinek-Mercer e e S.Clinchant E.Gaussier (XRCE-LIG) Mod`les de RI fond´s sur l’information e e 18 Mars 2010 21 / 37
  • 30. Relations avec d’autres mod`les e Relation avec les mod`les de langues: e 1 d d m Normalisation: tw = xw c yd (N1 DFR) Fw 2 rw = N et Loi Log-Logistique 3 Mod`le = Mod`le de langues avec lissage de Jelinek-Mercer e e Relation avec les mod`les DFR: e Les mod`les DFR sont d´finis de la mani`re suivante: e e e q d d RSV (q, d) = −xw Inf2 (tw ) log Prob1 (tw ) w ∈q∩d Probl`mes: e Loi discr`tes avec valeurs continues e 2 Notions d’informations non ”homog`nes” e ⇒ Nos mod`les reposent sur des lois continues et sur une seule notion e d’Information S.Clinchant E.Gaussier (XRCE-LIG) Mod`les de RI fond´s sur l’information e e 18 Mars 2010 21 / 37
  • 31. Exp´riences e Comparaison avec mod`les de langues, BM25, mod`les DFR e e Corpus: ROBUST, CLEF03, GIRT avec requˆtes longues et courtes e 5 jeu de requˆtes: ROB-d , ROB-t , GIRT , CLEF-d , CLEF-t e Corpus # Requˆte e ROBUST 250 CLEF03 60 GIRT 75 S.Clinchant E.Gaussier (XRCE-LIG) Mod`les de RI fond´s sur l’information e e 18 Mars 2010 22 / 37
  • 32. Exp´riences e Comparaison avec mod`les de langues, BM25, mod`les DFR e e Corpus: ROBUST, CLEF03, GIRT avec requˆtes longues et courtes e 5 jeu de requˆtes: ROB-d , ROB-t , GIRT , CLEF-d , CLEF-t e Corpus # Requˆte e ROBUST 250 CLEF03 60 GIRT 75 Divis´ en apprentissage/test e Optimise MAP ou P10 sur une grille de valeurs: Par exemple: k1 ∈ {0.3, 0.5, 0.8, 1.0, 1.2, 1.5, 1.8, 2, 2.2, 2.5} (BM25) c ∈ {0.25, 0.5, 0.8, 1, 2, 3, 5, 8, 10} (LGD,DFR) µ ∈ {10, 50, 100, 200, 500, 800, 1000, 1500, 2000, 5000, 10000} (LM) S.Clinchant E.Gaussier (XRCE-LIG) Mod`les de RI fond´s sur l’information e e 18 Mars 2010 22 / 37
  • 33. Comparaison avec le lissage de Jelinek-Mercer Comparaison avec les mod`les de langues e Table: LM-Jelinek-Mercer vs Log-Logistique apr`s 10 divisions; en gras, les e meilleures performances ; ∗ d´note une diff´rence statistiquement significative e e MAP ROB-d ROB-t GIRT CLEF-d CLEF-t LM 26.0 20.7 40.7 49.2 36.5 LGD 27.2∗ 22.5∗ 43.1∗ 50.0∗ 37.5∗ P10 ROB-d ROB-t GIRT CLEF-d CLEF-t LM 43.8 35.5 67.5 33.0 26.2 LGD 46.0∗ 38.9∗ 69.4∗ 33.6∗ 26.6∗ S.Clinchant E.Gaussier (XRCE-LIG) Mod`les de RI fond´s sur l’information e e 18 Mars 2010 23 / 37
  • 34. Comparaison avec le lissage de Dirichlet Table: LMDirichlet vs Log-Logistique apr`s 10 divisions; en gras, les meilleures e performances ; ∗ d´note une diff´rence statistiquement significative e e MAP ROB-d ROB-t GIRT CLEF-d CLEF-t DIR 27.1 25.1 41.1 48.5 36.2 LGD 27.4∗ 25.0 42.1∗ 49.7∗ 36.8∗ P10 ROB-d ROB-t GIRT CLEF-d CLEF-t DIR 45.6 44.7∗ 68.6 33.8 28.4 LGD 46.2∗ 44.4 69.0 34.5∗ 28.6 S.Clinchant E.Gaussier (XRCE-LIG) Mod`les de RI fond´s sur l’information e e 18 Mars 2010 24 / 37
  • 35. Comparaison avec BM25 BM25 optimis´ seulement avec le param`tre k1 e e MAP ROB-d ROB-t GIRT CLEF-t CLEF-d BM25 26.8 22.4 39.8 34.9 46.8 LGD 28.2∗ 23.5∗ 41.4∗ 34.8 48.0 P10 ROB-d ROB-t GIRT CLEF-t CLEF-d BM25 45.9 42.6 62.6 28.5 33.7 LGD 46.5 44.3∗ 66.6∗ 28.7 34.4 S.Clinchant E.Gaussier (XRCE-LIG) Mod`les de RI fond´s sur l’information e e 18 Mars 2010 25 / 37
  • 36. Comparaison avec les mod`les DFR e Table: INL2 et PL2 versus Log-Logistique apr`s 10 divisions; en gras, les e meilleures performances; ∗ d´note une diff´rence statistiquement significative e e MAP ROB-d ROB-t GIRT CLEF-d CLEF-t INL2 27.7 24.8 42.5 47.7 37.5 LGD 28.5∗ 25.0∗ 43.1∗ 48.0 37.4 P10 ROB-d ROB-t GIRT CLEF-d CLEF-t INL2 47.7∗ 43.3 67.0 33.4 27.3 LGD 47.0 43.5 69.4∗ 33.3 27.2 MAP ROB-d ROB-t GIRT CLEF-t CLEF-d LGD 27.3∗ 24.7 40.5 36.2 47.5 PL2 26.2 24.8 40.6 36.0 47.2 P10 ROB-d ROB-t GIRT CLEF-t CLEF-d LGD 46.6 43.2 66.7 28.5 33.7 PL2 46.4 44.1∗ 68.2∗ 28.7 33.1 S.Clinchant E.Gaussier (XRCE-LIG) Mod`les de RI fond´s sur l’information e e 18 Mars 2010 26 / 37
  • 37. Comparaison SPL avec le mod`le de langue Dirichlet e Table: SPL versus LM-Dirichlet after 10 splits; bold indicates significant difference MAP ROB-d ROB-t GIR T3-t CL-t CL-d DIR 26.7 25.0 40.9 27.1 36.2 50.2 SPL 25.6 24.9 42.1 26.8 36.4 46.9 P10 ROB-d ROB-t GIR T3-t CL-t CL-d DIR 45.2 43.8 68.2 52.8 27.3 32.8 SPL 46.6 44.7 70.8 55.3 27.1 32.9 S.Clinchant E.Gaussier (XRCE-LIG) Mod`les de RI fond´s sur l’information e e 18 Mars 2010 27 / 37
  • 38. Comparaison SPL avec les mod`les InL2 et PL2 (DFR) e Table: SPL versus DFR models after 10 splits; bold indicates significant difference MAP ROB-d ROB-t GIR T3-t CL-t CL-d INL 26.9 24.3 40.4 24.8 35.5 49.4 SPL 26.6 24.6 40.7 25.4 34.6 48.1 P10 ROB-d ROB-t GIR T3-t CL-t CL-d INL 47.6 42.8 63.4 52.5 28.8 33.8 SPL 47.8 44.1 68.0 53.9 28.7 33.6 MAP ROB-d ROB-t GIR T3-t CL-t CL-d SPL 26.3 25.2 42.7 25.3 37.4 44.1 PL2 26.3 25.2 42.8 25.8 37.3 45.7 P10 ROB-d ROB-t GIR T3-t CL-t CL-d SPL 47.0 45.2 69.8 55.4 25.9 32.9 PL2 46.0 45.2 69.3 54.8 26.2 32.7 S.Clinchant E.Gaussier (XRCE-LIG) Mod`les de RI fond´s sur l’information e e 18 Mars 2010 28 / 37
  • 39. Extension au PRF Moyenne de l’information sur les premiers documents retourn´s: e 1 d Info(w ) = − log(P(Xw > tw ; λw )) n d∈R Mise ` jour de la requˆte: (similaire au mod`le Bo2) a e e q q2 xw Info(w ) xw = q +β maxw xw maxw Info(w ) Le mod`le de PRF et le mod`le de RI sont les mˆmes ! e e e S.Clinchant E.Gaussier (XRCE-LIG) Mod`les de RI fond´s sur l’information e e 18 Mars 2010 29 / 37
  • 40. ∗ Table: MAP, d´note une diff´rence statistiquement significative avec LM et Bo2 e e Model n TC ROB-t GIRT TREC3-t CLEF-t LM+MIX 5 5 27.5 44.4 30.7 36.6 INL+Bo2 5 5 26.5 42.0 30.6 37.6 LGD 5 5 28.3∗ 44.3 32.9∗ 37.6 LM+MIX 5 10 28.3 45.7∗ 33.6 37.4 INL+Bo2 5 10 27.5 42.7 32.6 37.5 LGD 5 10 29.4∗ 44.9 35.0∗ 40.2∗ LM+MIX 10 10 28.4 45.5 31.8 37.6 INL+Bo2 10 10 27.2 43.0 32.3 37.4 LGD 10 10 30.0∗ 46.8∗ 35.5∗ 38.9 LM+MIX 10 20 29.0 46.2 33.7 38.2 INL+Bo2 10 20 27.7 43.5 33.8 37.7 LGD 10 20 30.3∗ 47.6∗ 37.4∗ 38.6 LM+MIX 20 20 28.6 47.9 32.9 37.8 INL+Bo2 20 20 27.4 44.3 33.5 36.8 LGD 20 20 29.5∗ 48.9∗ 37.2∗ 41.0∗ S.Clinchant E.Gaussier (XRCE-LIG) Mod`les de RI fond´s sur l’information e e 18 Mars 2010 30 / 37
  • 41. Table: Mean average precision of PRF experiments; bold indicates best performance, ∗ significant difference over LM and Bo2 models Model N TC ROB-t GIR T3-t CL-t LGD 5 5 28.3∗ 44.3 32.9∗ 37.6 SPL 5 5 28.9∗ 45.6∗ 32.9∗ 39.0∗ LGD 5 10 29.4∗ 44.9 35.0∗ 40.2∗ SPL 5 10 29.6∗ 47.0∗ 34.6∗ 39.5∗ LGD 10 10 30.0∗ 46.8∗ 35.5∗ 38.9 SPL 10 10 30.0∗ 48.9∗ 33.8∗ 39.1∗ LGD 10 20 30.3∗ 47.6∗ 37.4∗ 38.6 SPL 10 20 29.9∗ 50.2∗ 34.3 39.7∗ LGD 20 20 29.5∗ 48.9∗ 37.2∗ 41.0∗ SPL 20 20 28.8 50.3∗ 33.9 39.0∗ S.Clinchant E.Gaussier (XRCE-LIG) Mod`les de RI fond´s sur l’information e e 18 Mars 2010 31 / 37
  • 42. Conclusion Caract´risation analytique des contraintes heuristiques e Ph´nom`ne de rafale pour les lois continues e e Une nouvelle famille de mod`les de RI e ”En Rafale” ⇒ Mod`le concave e Extension au PRF Les mod`les log-logistique et loi de puissance liss´e e e LGD contient un mod`le de langue e LGD, SPL ≥ mod`le de langues e LGD,SPL ≈ DFR plus simple que les mod`les DFR e les meilleures performances en PRF Questions ? S.Clinchant E.Gaussier (XRCE-LIG) Mod`les de RI fond´s sur l’information e e 18 Mars 2010 32 / 37
  • 43. La distribution log-logistique Church et al. 2 ont propos´ la distribution N´gative Binomiale e e (m´lange infini de Poisson) pour mod´liser les fr´quences. e e e ⇒ ”meilleur” mod`le que 2-Poisson e Nous avons propos´ pr´cedemment la loi Beta-Negative Binomiale e e (BNB): BNB(x|r ) = Beta(θ|1, 1)Negbin(x|θ, r ) On consid`re ici une loi log-logistique contrainte: e r P(X > x|r ) = (r m´diane) e (x + r ) Cette log-logistique contrainte peut ˆtre vue comme une version e continue d’une Beta-N´gative Binomiale e 2 Poisson Mixtures S.Clinchant E.Gaussier (XRCE-LIG) Mod`les de RI fond´s sur l’information e e 18 Mars 2010 33 / 37
  • 44. Relation avec les Mod`les DFR e Les mod`les DFR sont d´finis de la mani`re suivante: e e e q d d q d d RSV (q, d) = xw Inf2 (tw )Inf1 (tw ) = −xw Inf2 (tw ) log Prob1 (tw ) w ∈q∩d w ∈q∩d On peut montrer que : Inf2 rend les mod`les DFR concave (condition 2) e Sans Inf2 , les mod`les DFR obtiennent de mauvaises performances e S.Clinchant E.Gaussier (XRCE-LIG) Mod`les de RI fond´s sur l’information e e 18 Mars 2010 34 / 37
  • 45. Experimental Fit Chi Square test on Robust collection, with terms appearing with document frequency ≥ 100; Frequency range divided into three intervals: [0, 3[, [3, 10[ and [10, 100[. Hypothesis ˆ Poisson: λw = Fw N ˆ Log-Logistic: λw = Fw N S.Clinchant E.Gaussier (XRCE-LIG) Mod`les de RI fond´s sur l’information e e 18 Mars 2010 35 / 37
  • 46. Chi Square Statistics S.Clinchant E.Gaussier (XRCE-LIG) Mod`les de RI fond´s sur l’information e e 18 Mars 2010 36 / 37
  • 47. Comparaison des mod`les e r = 0.005 8 LGD 2 4 6 INL Weight SPL PL 0 0 5 10 15 x r = 5e−04 LGD 8 INL Weight SPL 4 PL 0 0 5 10 15 x S.Clinchant E.Gaussier (XRCE-LIG) Mod`les de RI fond´s sur l’information e e 18 Mars 2010 37 / 37