9. Idée directrice : mieux exploiter le contenu des documents dans
le processus de recherche (indexation, requête, présentation des résultats, …)
10. Traitements linguistiques
Text Retrieval Text Mining
Text Navigation
TextVisualisation
Associations de mots
Extraction d’entités
Modèle de langues
Similarité de textes
Résumé de textes
Partionnement de textes
Classification de textes
Extraction de thèmes
Prédiction de mots
…
Plus de connaissances
Plus de structures
Accès à
l’information
Indexation
Requêtage
Ordonnancement
Rétroaction de
pertinence
Personal
Information
Space
Supervisé
Non supervisé
11. • + de structures, + de liens, + d’analyses, … pour la recherche et la prise de décision
• Fouille non supervisée, tâche de fouille rapide (Topic Modeling)
12. Personal Information Space
(BigText Data)
Text
Retrieval
Text
Mining
Documents pertinents
(SmallText Data)
Alimentation pour nouveau requêtage
Requête utilisateur
t t
t t
tt
t
t t
t
t
t
Résumé
d d
d
d
d
d
d
d d
d
d
d
d
d
Structure
Connaissances
13. If we go further still into semantic analysis, then we might be able to recognize
dog as an animal. We also can recognize boy as a person, and playground as a
location and analyze their relations. One deduction could be that the dog was
chasing the boy, and the boy is on the playground. This will add more entities and
relations, through entity-relation recognition. Now, we can count the most frequent
person that appears in this whole collection of news articles. Or, whenever you see
a mention of this person you also tend to see mentions of another person or object.
These types of repeated pattens can potentially make very good features.
A dog is chasing a on the playground
String of characters
Sequence of words
+ POS tags
+ Syntactic structures
+ Entities and relations
+ Logic predicates
+ Speech acts
A dog
boy
A dog is chasing a on the playgroundboy
Det Noun
Noun phrase Noun phrase Noun phrase
Prep phraseVerb phrase
Complex verb
Aux Verb Det Prep Det NounNoun
Verb phrase
Sentence
Animal Person
CHASE ON
Location
a boy the playground
Dog(d1). Boy(b1). Playground(p1). Chasing(d1,b1,p1)
Speech act = REQUEST
Deeper NLP: requires more human effort; less accurate
Closer to knowledge
representation
Figure 3.3 Illustration of different levels of text representation.Source:Text Data Management And Analysis, C. Zhai
14. w11 w12… w1n
w21 w22… w2n
… …
wm1 wm2… wmn
d1 d2 … dn
t1
t2
…
tm
w11 w12… w1n
w21 w22… w2n
… …
wm1 wm2… wmn
p1 p2 … pn
t1
t2
…
tm
Matrices de collection
Matrices de document
Résultat de recherche :
Documents pertinents
Similarité et
association de
termes
(=> Completion
de requêtes)
Similarité de
documents
(=> Document
Clustering)
….
Résumé de
documents
Extraction de
mot-clés
…doc
d1
Vectorisation
+ index
Rem : modélisation probabiliste comme alternative (predictif)
16. • Tuple < T,C,R,W,M,d,S >
• T termes apparaissant dans les contextes
• C contextes où apparaissent les termes
• R relation de co-occurrence entre les termes et les contextes
• W schéma de pondération des termes (opt)
• M matrice distributionelle T x C
• d fonction de réduction de dimension, d : M -> Mo (opt)
• S mesure de distance entre les vecteurs dans M ou Mo
Instanciation en
fonction de la
tâche
Méthodes
Générales (LSA, …)
17. • Partitionnement de documents
w11 w12… w1n
w21 w22… w2n
… …
wm1 wm2… wmn
d1 d2 … dn
t1
t2
…
tm
𝑠𝑖𝑚$%& 𝑑1, 𝑑2 =
∑ 𝑤𝑗1 ∗ 𝑤𝑗20
123
∑ (𝑤𝑗1)60
123 ∗ ∑ (𝑤𝑗2)60
123
…
d1
index
.
.
.
tm
t1
t2
t3
d1
d2
d3
dn
R
T C
𝑀 =
18. w11 w12… w1n
w21 w22… w2n
… …
wm1 wm2… wmn
d1 d2 … dn
t1
t2
…
tm
LSA𝑀 = 𝑀 ≈ 𝑈<×Σ<×𝑊<
@
Projection des termes et documents sur
k facteurs latents (k < n, k < m)
𝑠𝑖𝑚A&B 𝑑C , 𝑑1 = cos(𝑊<
.,C
, 𝑊<
.,1
)
d3
d1
d2
dn
Partitionnement des
documents résultat
d’une recherche
(content-based)
K-means
Intérêt : matrices de dimension réduite
pour les calculs de similarité de documents
Mk
m x n
U
m x r
Σ
WT
Approximation de
M au rang k
r x r r x n
k
k
k
k
Vecteurs
des termes
Vecteurs
des documents
Valeurs
singulières
ordonnées
𝛴× ×=
Idem pour les termes
24. 3. Problem Formulation and Experiments
document list
action at
query
state st
user
environment
examine
document list
generate implicit
feedback
reward rt
implicit
feedback
evaluation
measureretrieval system
agent
Figure 3.1: The IR problem modeled as a contextual bandit problem, with IR terminology
in black and corresponding RL terminology in green and italics.
of previously displayed results.1
This renders the problem a contextual bandit problem
(Barto et al., 1981; Langford and Zhang, 2008) (§2.4.1).
Because our algorithms learn online, we need to measure their online performance,
i.e., how well they address users’ information needs while learning. Previous work in
learning to rank for IR has considered only final performance, i.e., performance on un-
seen data after training is completed (Liu, 2009), and, in the case of active learning,