Gilles	Hubert	
Maître	de	conférences	–	HDR	
Université	Paul	Saba<er	
IRIT/IRIS	
Séminaire	UPPA	
25	avril	2016	
Plan
1.  Ac...
Ac<vités	de	recherche 	G.	Hubert	
Théma<ques	
	
22
Recherche	d’informa<on	(RI)	et	
Explora<on	de	masses	de	données	
RI	Con...
3
Axe	1	:	RI	contextuelle	
1.  Principes 		
2.  RI	séman<que 		
	
3.  Prise	en	compte	de	l’u<lisateur	
4.  RI	géographique...
Recherche	d’informa<on	
Processus	de	RI	en	U	
Requête	
Représenta<on	
requête	
Représenta<on	
document	
Document	
Document...
Évalua<on	en	RI	:	exemple	TREC	
Text Retrieval Conference (TREC)
Organisé par le NIST (USA) depuis1992
Basé sur le paradig...
TREC	
Principes des campagnes
6
ire book
periment,
Jones of
]. Begin-
REtrieval
rec.nist.
a mod-
Cranfield
to the
on. The
...
Recherche	d’informa<on	contextuelle	
No<on	de	contexte	en	RI	
Comment	prendre	en	compte	le	contexte	dans	le	processus	de	R...
RI	Contextuelle	
Prise	en	compte	du	contexte	dans	le	cas	Q1	
Requête	
Représenta<on	
requête	
Représenta<on	
document	
Doc...
9
Axe	1	:	RI	contextuelle	
1.  Principes 		
2.  RI	séman<que 		
	
3.  Prise	en	compte	de	l’u<lisateur	
4.  Sugges<on	conte...
RI	contextuelle 	G.	Hubert	
Théma<que	:	RI	séman<que	
Probléma<que	
Insuffisances de l’approche « sacs de mots » en RI pou...
Cadre	:	représenta<ons	du	domaine	
Probléma<ques	étudiées	
Indexation, interrogation suivant des hiérarchies de concepts
I...
12
RI	séman<que	
Contribu<on	:	exploita<on	des	hiérarchies	de	concepts	
Modèle de RI
Unité	d’informa<on	:	UIi	=	(li,{(c1,w...
13
Contribu<on	:	exploita<on	des	hiérarchies	de	concepts	
Recherche combinant concepts et texte libre
13
…
The proportion ...
14
Contribu<on	:	exploita<on	des	ontologies	
Modèle d’indexation sémantique dynamique
Mesure de similarité sémantique : Pr...
15
Axe	1	:	RI	contextuelle	
1.  Principes 		
2.  RI	séman<que 		
	
3.  Prise	en	compte	de	l’u<lisateur	
4.  RI	géographiqu...
RI	contextuelle 	G.	Hubert	
Théma<que	:	Prise	en	compte	de	l’u<lisateur	
Probléma<que	
Rela<ons	entre	éléments	de	contexte...
Probléma<que	:	rela<ons	entre	éléments	de	contexte	et	système	?	
Contribu<on	:	évalua<on	de	l’adéqua<on	d’interface	de	res...
18
Valida<on	
Prototype de plateforme d’évaluation VSE
18
Prise	en	compte	de	l’u<lisateur	 	G.	Hubert
Probléma<que	:	Expression	du	besoin	d’informa<on	
Approche	par	naviga<on	
Formulation de requête en navigant dans un graph...
Approche	:	Exploita<on	des	opérateurs	de	requêtes	disponibles	
dans	les	moteurs	de	recherche	
Question = « I’m looking for...
n  Effets	des	opérateurs	sur	l’efficacité	(effec<veness)	
21
Usage	des	opérateurs	
¨  Eastman	and	Jansen	(2003)	:	étude	sur	de...
22
Méthodologie	
Regular	query	 V1:	Query	variant	with	operators	
ü ü ü
ü ü
ü
ü
<	
V3	
V2	
V4	
VN	.	 .	 .	
Prise	en	compte...
23
Expérimenta<ons	
n  Collec<ons	de	test	standards		
¨  TREC-7	
¨  TREC-8	
n  Operateurs	
¨  Must	appear	(+)	
¨  Term	boo...
24
Conclusions	et	Perspec<ves	
n  Gains	possibles	avec	les	opérateurs	
q  TREC-7	:	+35,1%	
q  TREC-8	:	+24,3%	
⇒ Les	u<lis...
25
Axe	1	:	RI	contextuelle	
1.  Principes 		
2.  RI	séman<que 		
	
3.  Prise	en	compte	de	l’u<lisateur	
4.  Sugges<on	cont...
TREC	Contextual	Sugges<on	Track	2012	
	
26
Great	summer	!!!	
Where	to	go	around	here	
on	this	Sunday	a•ernoon?
TREC	Contextual	Sugges<on	Track	2012	
Trouver	des	éléments	correspondant	au	contexte	(Q1)	
Éléments	=	Sugges<ons		
Lieux à...
TREC	Contextual	Sugges<on	Track	2012	
Deux	sous-tâches	
S1 : Suggestions correspondant aux données spatio-temporelles
List...
TREC	Contextual	Sugges<on	Track	2012:	Notre	approche	
SRI	contextuel	2012	
Input	data	 Internal	process	
External	resource...
TREC	Contextual	Sugges<on	Track	2012:	Notre	approche	
Données	spa<o-temporelles	
Préférences	u<lisateur	
Approche Gros gra...
TREC	Contextual	Sugges<on	Track	2012:	Résultats	
Évalua<ons	
Pour chaque profil et chaque contexte
Différentes dimensions ...
TREC	Contextual	Sugges<on	Track	2012:	Résultats	
P@5	
32
TREC	Contextual	Sugges<on	Track	2012:	Résultats	
MRR	
33
TREC	Contextual	Sugges<on	Track	2013	
34
Where	to	go	around	here?
TREC	Contextual	Sugges<on	Track	2013	
Contexte	=	
Données spatiales seulement
Préférences utilisateur
{	
				"1":	{	
					...
TREC	Contextual	Sugges<on	Track	2013	
Deux	sous-tâches	
Open Web
Même	ques<on:	Suggérer	des	éléments	correspondant	au	cont...
TREC	Contextual	Sugges<on	Track	2013:	Notre	approche	
SRI	Contextuel	2013	
Useri&
Personalized&
sugges0ons&
Preference&
pr...
Exemple	de	sugges<on	en	2012	
Title:	Oakley	Pub	and	Grill	
Descrip<on	
Oakley	Pub	and	Grill	-	Located	in	Oakley	Square,	Ci...
Exemple	de	sugges<on	en	2013	
Title:	Cel<c	Mist	Pub	
Descrip<on:	
Place	types:	bar,	establishment.			
This	place	is	about	...
Résultats	finals	
Open	Web	
40
Run P@5 Rank P@5 Score TBG Rank TBG Score MRR Rank MRR Score
UDInfoCS1 1 0.5094 1 (-) 2.4474...
Résultats	finals	
ClueWeb	
41
Run P@5 Rank P@5 Score TBG Rank TBG Score MRR Rank MRR Score
baselineB 1 0.1417 1 (-) 0.4797 ...
Analyse	des	résultats	
Première	édi<on	(2012)	
Tous les participants ont découvert les principes de la tâche
Pires évaluat...
43
Axe	1	:	RI	contextuelle	
1.  Principes 		
2.  RI	séman<que 		
	
3.  Prise	en	compte	de	l’u<lisateur	
4.  Sugges<on	cont...
RI	contextuelle 	G.	Hubert	
Théma<que	:	RI	géographique	
Problème	
Limites de l’approche « sacs de mots » pour l’informati...
45
SRI	géographique	
n  3	dimensions	à	traiter	
¨  Théma<que,	spa<al,	temporel	
n  1	index	par	dimension	
¨  Théma<que 	sa...
46
Évaluer	un	système	de	RI	
n  Système				=																									efficiency																		+					effecCveness	
	
	
	
n ...
47
Cadre	d’évalua<on	pour	les	3	dimensions	
n  Extension	du	cadre	TREC	
¨  Collec<on	de	test		
n  ≥	25	Topics	
n  Corpus	
...
48
Étude	de	cas	:	la	collec<on	MIDR_2010	
n  Obten<on	des	qrels	:	12	volontaires	(merci	!)	
31	topics	
5645	documents	
=	
...
49
Étude	de	cas	:	le	système	PIV	
n  Indexa<on	:	un	index	par	dimension	
¨  Théma<que	=	SRI	Terrier										Spa<al	=	carr...
50
Analyse	des	données	recueillies	
n  Évalua<on	d’un	SRI		
¨  ListeRésultats		×		Qrels																																			...
51
Perspec<ves	
n  Analyses	plus	fines	par	requête	
n  Collec<ons	en	anglais	
n  Généralisa<on	à	d’autres	dimensions	:	confi...
RI	contextuelle 	G.	Hubert	
Théma<que	:	RI	flux	
Problèmes	
Identification de données « utiles/intéressantes » pour un util...
TREC	Microblog	2015	
Filtrage temps-réel
Supervision	des	flux	des	messages	postés	dans	les	réseaux	sociaux		
traitant	un	su...
Approche	
Filtrage temps-réel
Plusieurs niveaux de filtrage
Contenu textuel
Caractéristiques externes : hashtag, mention, ...
Approche	
Traitement du contenu textuel
Traitements	classiques	(Non-English,	stopwords,	casse,	tokenisa<on,	
racinisa<on)	...
56
●  Temps	de	réponse		
○  <	9	secondes	SGA	
○  <	7	minutes	SGB	
	
●  Varia<on	des	seuils	
●  Efficacité	(effec<veness)	
	
R...
57
Scénario	A	 Scénario	B	
….	 ….	
RI	flux	 	G.	Hubert	
Résultats	officiels	TREC	Microblog	2015
58
Perspec<ves	
	
n  Ajustement	automa<que	des	seuils	
n  Besoins	d’informa<on	complexes	
n  Intégra<on	autres	dimensions	...
59
Axe	2	:	Explora<on	de	masses	de	données	
1.  Vue	d’ensemble 		
2.  Sugges<on	d’experts
Explora<on	de	masses	de	données 	G.	Hubert	
Probléma<ques	
Limites OLAP
Comment	comparer	des	données	de	niveaux	de	granula...
61
Axe	2	:	Explora<on	de	masses	de	données	
1.  Vue	d’ensemble 		
2.  Sugges<on	d’experts
Modèle	de	sugges<on	d’experts	
Approche	
Modélisation d’espace de recherche : graphe hétérogène
Trois types de nœuds
	
626...
Approche	
Proximité entre conférence et expert-candidat basée sur tous les
chemins entre eux
Trois types de nœuds
	
6363
1...
Approche	
Force des quatre types de lien
La	force	du	lien	de	cita<on	d’ar<cle	dcitant	cite	dcité	:	
La	force	du	lien	entre...
Approche	
Force des chemins : somme des forces normalisées des liens qui
constituent le chemin
Chemin	auteur	externe	(AE)	...
66
Perspec<ves	
	
n  Intégrer	d’autres	informa<ons	
q  Affilia<ons,	localisa<ons,	co-signatures	conférences	extérieurs…	
n  ...
Prochain SlideShare
Chargement dans…5
×

Seminaire Recherche UPPA 2016

81 vues

Publié le

Séminaire de recherche sur la recherche d'information contextuelle et l'exploration de masses de données

Publié dans : Sciences
0 commentaire
0 j’aime
Statistiques
Remarques
  • Soyez le premier à commenter

  • Soyez le premier à aimer ceci

Aucun téléchargement
Vues
Nombre de vues
81
Sur SlideShare
0
Issues des intégrations
0
Intégrations
2
Actions
Partages
0
Téléchargements
1
Commentaires
0
J’aime
0
Intégrations 0
Aucune incorporation

Aucune remarque pour cette diapositive

Seminaire Recherche UPPA 2016

  1. 1. Gilles Hubert Maître de conférences – HDR Université Paul Saba<er IRIT/IRIS Séminaire UPPA 25 avril 2016 Plan 1.  Ac<vités de recherche 2.  RI contextuelle •  RI séman<que •  Prise en compte de l’u<lisateur •  RI géographique •  Sugges<on contextuelle •  … 3.  Explora<on de masses de données •  Scientométrie •  Sugges<on d’expert
  2. 2. Ac<vités de recherche G. Hubert Théma<ques 22 Recherche d’informa<on (RI) et Explora<on de masses de données RI Contextuelle Informa<on Système U<lisateur Matériel OLAP Scientométrie Explora<on de masses de données Axe 1 Axe 2
  3. 3. 3 Axe 1 : RI contextuelle 1.  Principes 2.  RI séman<que 3.  Prise en compte de l’u<lisateur 4.  RI géographique 5.  Sugges<on contextuelle 6.  RI flux G. Hubert
  4. 4. Recherche d’informa<on Processus de RI en U Requête Représenta<on requête Représenta<on document Document Document Document Appariement Indexa<on Indexa<on Liste de documents es<més per<nents 4
  5. 5. Évalua<on en RI : exemple TREC Text Retrieval Conference (TREC) Organisé par le NIST (USA) depuis1992 Basé sur le paradigme de Cranfield pour l’évaluation de systèmes de RI Un ensemble de documents (Collection) Un ensemble de besoins d’information (Topics/Queries) Un ensemble de jugements de pertinence (Qrels) Différentes tâches « tracks »: AdHoc, Robust, Web… Mesures d’évaluation 5 relevant, retrieved (True positive) irrelevant, retrieved (False positive) relevant, not retrieved (False negative) irrelevant, not retrieved (True negative) A C B D Document collection System output: retrieved documents Information need: relevant documents precision = A A + B recall = A A + C AP (Average Precision), MAP (Mean Average Precision), P@5 (Precision at 5 retrieved documents) …
  6. 6. TREC Principes des campagnes 6 ire book periment, Jones of ]. Begin- REtrieval rec.nist. a mod- Cranfield to the on. The l system ed since ommer- ncluding , feature eveloped al of a its users ange from answer finding to text categorization. retrieval algorithm 1 retrieval algorithm 2 retrieval algorithm k ranked results set 1 ranked results set 2 ranked results set k document set top X top X top X human assessors information needs (”topics”) document pools TRECparticipants ... ... relevance judgments evaluation scores ranked results set Processing in a typical (Voorhees, 2007)
  7. 7. Recherche d’informa<on contextuelle No<on de contexte en RI Comment prendre en compte le contexte dans le processus de RI ? Q1 : Retrouver des éléments correspondant au contexte Q2 : Retrouver le contexte correspondant aux éléments Informa<on U<lisateurs Matériel Ou<ls logiciels 7
  8. 8. RI Contextuelle Prise en compte du contexte dans le cas Q1 Requête Représenta<on requête Représenta<on document Document Document Document Appariement Indexa<on Indexa<on Liste de documents es<més per<nents Liste de documents es<més per<nents Re-ordonancement Contexte 8
  9. 9. 9 Axe 1 : RI contextuelle 1.  Principes 2.  RI séman<que 3.  Prise en compte de l’u<lisateur 4.  Sugges<on contextuelle 5.  RI géographique 6.  RI flux 7.  Nouveaux modèles de RI G. Hubert
  10. 10. RI contextuelle G. Hubert Théma<que : RI séman<que Probléma<que Insuffisances de l’approche « sacs de mots » en RI pour des domaines spécifiques (ex. diagnostic automobile) Ques<on = « Fumée noire au démarrage d’une voiture diesel » Requête « sacs de mots » = {fumée, noire, démarrage, voiture, diesel} Approche : Exploita<on des représenta<ons du domaine Hiérarchies de concepts Requête = {C53 (fumée noire), C85 (au démarrage), C41(voiture diesel)} Ontologies de domaine Requête = C41(voiture diesel) C53 (fumée noire) C85 (au démarrage) Projets Européens IRAIA, e-Stage, WS-Talk ANR DynamO 10 affecter survenir
  11. 11. Cadre : représenta<ons du domaine Probléma<ques étudiées Indexation, interrogation suivant des hiérarchies de concepts Indexation, interrogation sémantique suivant des ontologies Con<bu<ons Hiérarchies de concepts Modèle de RI pour l’indexa<on et la recherche d’informa<on par concepts et texte libre Ontologies Modèle d’indexa<on séman<que dynamique et mesure de similarité séman<que 1111 hiérarchies de concepts ontologies C4: Social indicators in industry C5: Productivity indices C41: Number of employees C3C1 C2 C1 1 C1 2 RI séman<que G. Hubert
  12. 12. 12 RI séman<que Contribu<on : exploita<on des hiérarchies de concepts Modèle de RI Unité d’informa<on : UIi = (li,{(c1,w1), …, (cj,wj)}) Besoin d’informa<on : BIk = {(cm,wm), …, (cn,wn)} Indexation suivant des hiérarchies de concepts BI = termes décrivant le document, UI = termes décrivant le concept Appariement 12 G. Hubert … The proportion of M&C employees working in communication service companies and in the retail trade will increase slightly; the relative number of employees involved in the production of M&C technology will remain virtually constant. ….. C4: Social indicators in industry C5: Productivity indices C41: Number of employees C42:Volume of work done C51: Productivity by employee ScoreIC(D64,C41) = 0,85 ScoreIC(D64,C51) = 0,20 D64 ),(),(),(),( ikiUI Cc kBIik UIBIrecouvUIcimpBIcimpUIBIScore ⋅⎟ ⎠ ⎞ ⎜ ⎝ ⎛ ⋅= ∑∈ CN CDN i i Ci DiIC cf f fCDScore , , ,),( ϕ⋅⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛ ⋅= ∑ D document C concept Dif , Fréquence du terme ti dans D Cif , Fréquence du terme ti dans C icf Nombre total de concepts contenant ti CDN , Nombre de termes communs à D et C CN Nombre de termes distincts dans C ϕ Réel positif ≥ 1
  13. 13. 13 Contribu<on : exploita<on des hiérarchies de concepts Recherche combinant concepts et texte libre 13 … The proportion of M&C employees working in communication service companies and in the retail trade will increase slightly; the relative number of employees involved in the production of M&C technology will remain virtually constant. ….. C4: Social indicators in industry C5: Productivity indices C41: Number of employees C42: Volume of work done C51: Productivity by employee « Analyses according to age » … This exploratory study focuses on a sample of West Midlands- based businesses that are located within the area known as the Central Technology Belt and examines the effect of the age and size of businesses (measured in number of employees) on their managerial capability. ….. + Combinaison de résultats CombSUM (Fox et Shaw, 1994) Document 11 Document 88 …. QC QT D64 D88 ScoreRC(QC,D64) = 0,55 ScoreRC(QC,D88) = 0,75 ScoreTL(QT,D88) = 0,65 ScoreTL(QT,D64) = 0,15 RI séman<que G. Hubert
  14. 14. 14 Contribu<on : exploita<on des ontologies Modèle d’indexation sémantique dynamique Mesure de similarité sémantique : ProxiGénéa Similarité entre graphes d’annota<ons Similarité entre concepts 14 RI séman<que G. Hubert
  15. 15. 15 Axe 1 : RI contextuelle 1.  Principes 2.  RI séman<que 3.  Prise en compte de l’u<lisateur 4.  RI géographique 5.  Sugges<on contextuelle 6.  RI flux G. Hubert
  16. 16. RI contextuelle G. Hubert Théma<que : Prise en compte de l’u<lisateur Probléma<que Rela<ons entre éléments de contexte et système ? Approche : Cadre d’évalua<on d’interfaces de res<tu<on Probléma<que Insuffisances de l’expression des besoins par mots-clés Ques<on = « I’m looking for funding of research projects in the Digital Library domain » Requête « sacs de mots » = {research, project, funding, digital, library} Approche 1 : Naviga<on Approche 2 : Exploita<on des opérateurs de requêtes disponibles dans les moteurs de recherche Guillemets, opérateurs d’obliga<on (+), opérateurs de pondéra<on(^), opérateurs booléens, opérateurs de proximité… Requête = {project, +research, funding^4, "digital library"} 16
  17. 17. Probléma<que : rela<ons entre éléments de contexte et système ? Contribu<on : évalua<on de l’adéqua<on d’interface de res<tu<on (IRI) à un scénario de RI Caractérisation des scénarios de RI Triplet <U<lisateur, Système, Tâche> Critères rela<fs à l’u<lisateur, •  au système et à la tâche Définition d’un cadre d’évaluation Critères d’évalua<on Jeux d’essai Résultats d’évalua<on Exploita<on des résultats 1717 VSE Jeux d’essai Résultats d’évaluation Arbre de décisionArbre de décisionArbre de décision Résultats d’évaluation VSE Prise en compte de l’u<lisateur G. Hubert
  18. 18. 18 Valida<on Prototype de plateforme d’évaluation VSE 18 Prise en compte de l’u<lisateur G. Hubert
  19. 19. Probléma<que : Expression du besoin d’informa<on Approche par naviga<on Formulation de requête en navigant dans un graphe de termes Graphe issus des requêtes précédemment soumises par les utilisateurs 1919 Prise en compte de l’u<lisateur G. Hubert
  20. 20. Approche : Exploita<on des opérateurs de requêtes disponibles dans les moteurs de recherche Question = « I’m looking for funding of research projects in the Digital Library domain » Requête « sacs de mots » = {research, project, funding, digital, library} Guillemets, opérateurs d’obliga<on (+), opérateurs de pondéra<on(^), opérateurs booléens, opérateurs de proximité… Requête = {project, +research, funding^4, "digital library »} Études opérateurs U<lisa<on en baisse, caractéris<ques méconnus, pas d’améliora<on observée Ques<ons de recherche L’u<lisa<on d’opérateurs dans les requêtes améliore-t-elle les résultats ? Quels gains possibles ? Maîtrisables par les u<lisateurs ? 20 Prise en compte de l’u<lisateur G. Hubert
  21. 21. n  Effets des opérateurs sur l’efficacité (effec<veness) 21 Usage des opérateurs ¨  Eastman and Jansen (2003) : étude sur des requêtes avec opérateurs n  U<lisateurs réels : AOL, Google et MSN Search n  Requêtes avec opérateurs : AND, OR, MUST APPEAR et PHRASE M Pas d’améliora<on significa<ve P@10 M Étude sur 20% des requêtes (experts, besoins complexes) Prise en compte de l’u<lisateur G. Hubert ¨  Qu’en est-il des 80% de requêtes restants ?! n  U<lisateurs classiques n  Requêtes classiques (sans opérateurs) 20% 80%
  22. 22. 22 Méthodologie Regular query V1: Query variant with operators ü ü ü ü ü ü ü < V3 V2 V4 VN . . . Prise en compte de l’u<lisateur G. Hubert
  23. 23. 23 Expérimenta<ons n  Collec<ons de test standards ¨  TREC-7 ¨  TREC-8 n  Operateurs ¨  Must appear (+) ¨  Term boos<ng (^N) n  Généra<on de variantes ¨  Must appear ‘+’ only ¨  Boost ‘^’ only with weights ^10, ^20, ^30, ^40, and ^50 ¨  Both ‘+’ and ‘^’ n  Moteur de recherche ¨  Terrier avec différents modèles : BM25, DFR_BM25, InL2, PL2, TF_IDF Variant # Query variants generated with preOps and postOps 1 encryp<on equipment export 2 encryp<on +equipment +export … … … … 124 encryp<on +equipment export^10 … … … … 338 encryp<on^30 equipment^40 export^50 Prise en compte de l’u<lisateur G. Hubert
  24. 24. 24 Conclusions et Perspec<ves n  Gains possibles avec les opérateurs q  TREC-7 : +35,1% q  TREC-8 : +24,3% ⇒ Les u<lisateurs devraient u<liser des opérateurs plus souvent ⇒ Reformula<on automa<que de requête ? n  Q2 : Les u<lisateurs parviennent-ils à formuler des requêtes avec opérateurs qui conduisent à un gain ? n  Requêtes avec des dimensions spa<o-temporelles ? Prise en compte de l’u<lisateur G. Hubert
  25. 25. 25 Axe 1 : RI contextuelle 1.  Principes 2.  RI séman<que 3.  Prise en compte de l’u<lisateur 4.  Sugges<on contextuelle 5.  RI géographique 6.  RI flux G. Hubert
  26. 26. TREC Contextual Sugges<on Track 2012 26 Great summer !!! Where to go around here on this Sunday a•ernoon?
  27. 27. TREC Contextual Sugges<on Track 2012 Trouver des éléments correspondant au contexte (Q1) Éléments = Sugges<ons Lieux à visiter (shops, restaurants, parks…) autour de l’utilisateur (5 heures en voiture max.) Collec<on = Open Web (Websites) Contexte = Données spatiotemporelles Préférences utilisateur 27 <context number=”1”> <city>Portland</city> <state>Oregon</state> <lat>45.5</lat> <long>-122.7</long> <day>weekday</day> <<me>evening</<me> <season>fall</season> </context> <example number=”1”> <<tle> Dogfish Head Alehouse </<tle> <descrip<on>Cra• Brewed Ales and tasty wood grilled food </descrip<on> <url>hƒp://www.dogfishalehouse.com/</url> </example> <example number=”2”> <<tle>The Flaming Pit</<tle> <descrip<on> The Flaming Pit Restaurant and Piano Lounge, home of Tyrone DeMonke. </descrip<on> <url>hƒp://www.flamingpitrestaurant.com/</url> </example> <profile number=”1”> <example number=”1” ini<al=”1” final=”1”/> <example number=”2” ini<al=”0” final=”-1”/> </profile >
  28. 28. TREC Contextual Sugges<on Track 2012 Deux sous-tâches S1 : Suggestions correspondant aux données spatio-temporelles Liste de sugges<ons pour chaque contexte S2 : S1 + préférences utilisateur Liste de sugges<ons pour chaque profil (u<lisateur) et chaque contexte Suggestion = Titre + Description + Url 2 “runs” maximum Notre participation Team : G. Cabanac & G. Hubert (IRIT – Univ. of Toulouse) 2 runs soumis pour la sous-tâche S2 <context2012 groupid=”waterloo” runid=”watcs12a”> <sugges<on profile=”1” context=”1” rank=”1”> <<tle>Deschutes Brewery Portland Public House</<tle> <descrip<on> Deschutes Brewery’s dis<nct Northwest brew pub in Portland’s Pearl District has become a convivial gathering spot of beer and food lovers since it’s 2008 opening. </descrip<on> <url>hƒp://www.deschutesbrewery.com</url> </sugges<on> etc. </context2012> 28
  29. 29. TREC Contextual Sugges<on Track 2012: Notre approche SRI contextuel 2012 Input data Internal process External resource Intermediate data Database Contexti Place selec<on Google Places API Place sets Place query Contextual list of places Place descrip<on enrichment Contextual list of detailed places Bing Google Useri Context processing Output data Personaliza<on Personalized sugges<ons Examples Profilei Preference defini<on Posi<ve preferencesi Nega<ve preferencesi Preference processing 29
  30. 30. TREC Contextual Sugges<on Track 2012: Notre approche Données spa<o-temporelles Préférences u<lisateur Approche Gros grain : iritSplit3CPv1 Fusion des descrip<ons des exemples avec ini<al et final = 1 -> Pref+(P) Fusion des descrip<ons des exemples avec ini<al and final = -1 -> Pref-(P) score(P,r) = cosine(Pref+(P),R) − cosine(Pref−(P),R) Approche Grain fin : iritSplit3CPv2 Exemple de descrip<on avec ini<al et final = 1 -> Pref+l(P) Exemple de descrip<on avec ini<al et final = -1 -> Pref-m(P) score(P, r) = max(cosine(Pref+l (P), r))− max(cosine(Pref−m(P), r)) 30
  31. 31. TREC Contextual Sugges<on Track 2012: Résultats Évalua<ons Pour chaque profil et chaque contexte Différentes dimensions : W (Website), G (Geographical), T (Temporal), and D (Description), et combinaisons (WGT et GT) Deux mesures : P@5 et MRR (Mean Reciprocal Rank) 31 iritSplit3CPv1 iritSplit3CPv2
  32. 32. TREC Contextual Sugges<on Track 2012: Résultats P@5 32
  33. 33. TREC Contextual Sugges<on Track 2012: Résultats MRR 33
  34. 34. TREC Contextual Sugges<on Track 2013 34 Where to go around here?
  35. 35. TREC Contextual Sugges<on Track 2013 Contexte = Données spatiales seulement Préférences utilisateur { "1": { "lat": "40.71427", "city": "New York City", "state": "NY", "long": "-74.00597” }, … } { "1": { "url": hƒp://www.freshrestaurants.ca, "descrip<on": "Our vegan menu boasts an array of exo<c starters, mul<-layered salads, filling wraps, high protein burgers and our signature Fresh bowls.”, "<tle": "Fresh on Bloor” }, “2": { "url": hƒp://www.flamingpitrestaurant.com/, "descrip<on": "The Flaming Pit Restaurant and Piano Lounge, home of Tyrone DeMonke.”, "<tle": "The Flaming Pit” }, … } { "1": [ {"aƒrac<on_id": 1, "website": 1, "descrip<on": 0}, ... ], "2": [ {"aƒrac<on_id": 1, "website": 4, "descrip<on": 3}, … ], ”3": [ {"aƒrac<on_id": 1, "website": -1, "descrip<on": 2}, … ], … } 35
  36. 36. TREC Contextual Sugges<on Track 2013 Deux sous-tâches Open Web Même ques<on: Suggérer des éléments correspondant au contexte (Q1) Lieux à visiter (restaurants…) autour de l’u<lisateur (5 heures en voiture) Collec<on = Open Web (Websites) ClueWeb ClueWeb12 (même ques<on que OpenWeb) ClueWeb12 Contextual sugges<on subcollec<on Ensembles de documents ClueWeb12 par contexte Question: Personalisation par profil utilisateur 2 « runs » maximum Notre par<cipa<on Team: G. Cabanac, G. Hubert & K. Pinel-Sauvagnat (IRIT – Univ. of Toulouse) C. Sallaberry (LIUPPA – Univ. of Pau) D. Palacio (GeoComp – Univ. of Zurich) 1 « run » Open Web 1 « run » ClueWeb (Sous-collection Contextual suggestion) 36
  37. 37. TREC Contextual Sugges<on Track 2013: Notre approche SRI Contextuel 2013 Useri& Personalized& sugges0ons& Preference& processing& Ranking& Retrieval& Place& filtering&&& descrip0on& enrichment& list&of&places& 1& 2& 3& 4& Categories& of&interesti& Nega0ve& preferencesi& Posi0ve& preferencesi& Examples& Profilei& L,&T,&W& T& B& Contexti& Input&data& Output&data& Process&Intermediate&data& Personalized& sugges0ons& Preference& processing& Useri& Ranking&&& refinement& Context& processing& Place&filtering&&& descrip0on& enrichment& Contextual& list&of&places& 1& 2& 3& 4& Contexti& Categories& of&interesti& Nega0ve& preferencesi& Posi0ve& preferencesi& Examples& Profilei& Predefined& categories& L,&T,&W& GP& GN,&Y,&P,&GG,&B& a)& b)& W:&WordNet& GP:&Google&Places& Y:&Yahoo!&BOSS&Geo& B:&Bing&T:&Terrier& P:&PostGis&GN:&Geonames& GG:&Gisgraphy&L:&Lucene& 37Open Web ClueWeb
  38. 38. Exemple de sugges<on en 2012 Title: Oakley Pub and Grill Descrip<on Oakley Pub and Grill - Located in Oakley Square, Cincinna<, Ohio. Local pub with pleasant atmoshpere and great food. Voted #1 Best Burger in Cincinna<. Outdoor ... PUB and GRILL OAKLEYOAKLEY Oakley Pub and Grill ~ 3924 Isabella Avenue ~ Cincinna<, Ohio 45209 On Oakley Square ~ (513) 531-2500 www.oakleypub.com Used with permission… URL: hƒp://oakleypubandgrill.com/ 38
  39. 39. Exemple de sugges<on en 2013 Title: Cel<c Mist Pub Descrip<on: Place types: bar, establishment. This place is about .3 Km West from here (2 min by car with no traffic). Address: 117 South 7th Street, Springfield. There are 11 POIs around: 2 Hotels, 3 Libraries, 3 Parks, 1 PostOffice, 2 Religious. Snippet: Located in Springfield, IL the Cel<c Mist is your home away from home with over 16 imported beers on tap and a friendly staff ready to serve you… URL: hƒp://www.cel<cmistpub.com/ 39
  40. 40. Résultats finals Open Web 40 Run P@5 Rank P@5 Score TBG Rank TBG Score MRR Rank MRR Score UDInfoCS1 1 0.5094 1 (-) 2.4474 1 (-) 0.6320 UDInfoCS2 2 0.4969 2 (-) 2.4310 2 (-) 0.6300 simpleScore 3 0.4332 4 (Down 1) 1.8374 4 (Down 1) 0.5871 complexScore 4 0.4152 5 (Down 1) 1.8226 6 (Down 2) 0.5777 DuTH B 5 0.4090 3 (Up 2) 1.8508 3 (Up 2) 0.5955 1 6 0.3857 8 (Down 2) 1.5329 7 (Down 1) 0.5588 2 7 0.3731 7 (-) 1.5843 5 (Up 2) 0.5785 udel run D 8 0.3659 9 (Down 1) 1.5243 8 (-) 0.5544 isirun 9 0.3650 6 (Up 3) 1.6278 9 (-) 0.5165 udel run SD 10 0.3354 16 (Down 6) 1.2882 10 (-) 0.5061 york13cr2 11 0.3309 12 (Down 1) 1.3483 15 (Down 4) 0.4637 DuTH A 12 0.3283 14 (Down 2) 1.3109 12 (-) 0.4836 york13cr1 13 0.3274 15 (Down 2) 1.2970 14 (Down 1) 0.4743 UAmsTF30WU 14 0.3121 17 (Down 3) 1.1905 13 (Up 1) 0.4803 IRIT.OpenWeb 15 0.3112 10 (Up 5) 1.4638 11 (Up 4) 0.4915 CIRG IRDISCOA 16 0.3013 18 (Down 2) 1.1681 16 (-) 0.4567 CIRG IRDISCOB 17 0.2906 20 (Down 3) 1.1183 19 (Down 2) 0.4212 uncsils param 18 0.2780 13 (Up 5) 1.3115 18 (-) 0.4271 uogTrCFP 19 0.2753 11 (Up 8) 1.3568 17 (Up 2) 0.4327 ming 1 20 0.2601 22 (Down 2) 1.0495 22 (Down 2) 0.3816 uncsils base 21 0.2565 19 (Up 2) 1.1374 20 (Up 1) 0.4136 ming 2 22 0.2493 23 (Down 1) 0.9673 23 (Down 1) 0.3473 uogTrCFX 23 0.2332 21 (Up 2) 1.0894 21 (Up 2) 0.4022 run01 24 0.1650 24 (-) 0.7359 24 (-) 0.2994 baselineA 25 0.1372 25 (-) 0.5234 25 (-) 0.2316 csui02 26 0.0565 26 (-) 0.1785 26 (-) 0.1200 csui01 27 0.0565 27 (-) 0.1765 27 (-) 0.1016 Table 1: P@5, TBG, and MRR rankings for all open web runs.
  41. 41. Résultats finals ClueWeb 41 Run P@5 Rank P@5 Score TBG Rank TBG Score MRR Rank MRR Score baselineB 1 0.1417 1 (-) 0.4797 1 (-) 0.2452 BOW V17 2 0.1022 3 (Down 1) 0.3389 3 (Down 1) 0.1877 BOW V18 3 0.1004 2 (Up 1) 0.3514 2 (Up 1) 0.1971 IRIT.ClueWeb 4 0.0798 4 (-) 0.3279 4 (-) 0.1346 RUN1 5 0.0628 5 (-) 0.2069 5 (-) 0.1265 RUN2 6 0.0565 6 (-) 0.2020 6 (-) 0.1223 IBCosTop1 7 0.0448 7 (-) 0.1029 7 (-) 0.0569 Table 2: P@5, TBG, and MRR rankings for all ClueWeb12 runs.
  42. 42. Analyse des résultats Première édi<on (2012) Tous les participants ont découvert les principes de la tâche Pires évaluations : Descriptions des suggestions Seconde édi<on (2013) OpenWeb Focalisée sur les descrip<ons des sugges<ons Changements dans les jugements de per<nence ClueWeb Incompréhension des direc<ves ou pas assez de précisions Travaux futurs Travailler sur les limites des outils/services en ligne Gérer des collections plus volumineuses : ClueWeb12 (870 millions de pages, ~27TB) 42
  43. 43. 43 Axe 1 : RI contextuelle 1.  Principes 2.  RI séman<que 3.  Prise en compte de l’u<lisateur 4.  Sugges<on contextuelle 5.  RI géographique 6.  RI flux G. Hubert
  44. 44. RI contextuelle G. Hubert Théma<que : RI géographique Problème Limites de l’approche « sacs de mots » pour l’information géographique Besoin= « Concert autour de Marseille au printemps 2012 » Requête « sacs de mots » = {Concert, Marseille, printemps, 2012} Approche Prise en compte des 3 dimensions de l’information géographique : thématique, spatiale, temporelle Requête = « Concert autour de Marseille printemps 2012 » Contribu<ons Modèle de RI géographique Cadres d’évaluations SRIG SREN 4444
  45. 45. 45 SRI géographique n  3 dimensions à traiter ¨  Théma<que, spa<al, temporel n  1 index par dimension ¨  Théma<que sac de mots, racinisa<on, modèle vectoriel… ¨  Spa<al détec<on d’en<tés spa<ales, englobant/englobé… ¨  Temporel détec<on d’expressions temporelles… n  État de l’art : Interroga<on par filtrages successifs ¨  par exemple, priorité au théma<que puis filtrage sur les autres dimensions n  Probléma<que : performances des SRI géo. vs SRI théma<que ? n  Hypothèse : SRI géographique meilleur que SRI théma<que RI géographique G. Hubert
  46. 46. 46 Évaluer un système de RI n  Système = efficiency + effecCveness n  Évalua<on de l’effecCveness temps de calcul volume de stockage qualité Liƒérature RI géo. Liƒérature RI thém. thématique Trec, Clef… Bucher et al. (2005) GeoClef spatial temporel TempEval Cadre d’évalua<on proposé RI géographique G. Hubert
  47. 47. 47 Cadre d’évalua<on pour les 3 dimensions n  Extension du cadre TREC ¨  Collec<on de test n  ≥ 25 Topics n  Corpus n  Qrels graduels n  + Ressources géographiques ¨  À propos des Qrels… n  per<nence(doc, topic) ∈ {0; 1; 2; 3; 4} n  Principe : « plus il y a de dimensions sa<sfaites, mieux c’est » ¨  Mesure sur qrels graduels : Normalized Discounted Cumula<ve Gain traitant des 3 dimensions aucune dimension 3 dimensions topic : « thermalisme à Gavarnie » doc : thermalisme + Bob né à Gavarnie 3 dimensions + global = topic sa<sfait J RI géographique G. Hubert
  48. 48. 48 Étude de cas : la collec<on MIDR_2010 n  Obten<on des qrels : 12 volontaires (merci !) 31 topics 5645 documents = passages Qrels jugement de per<nence {0; 1; 2; 3; 4} Carte pour repérage RI géographique G. Hubert
  49. 49. 49 Étude de cas : le système PIV n  Indexa<on : un index par dimension ¨  Théma<que = SRI Terrier Spa<al = carroyages Temporel = carroyages n  Interroga<on ¨  Res<tu<on pour chaque index ¨  Combinaison des résultats avec CombMNZ [Fox & Shaw, 1993; Lee 1997] CombMNZ RI géographique G. Hubert
  50. 50. 50 Analyse des données recueillies n  Évalua<on d’un SRI ¨  ListeRésultats × Qrels NDCG(topic) n  Résultat : SRI géographique est le plus performant trec_eval Hypothèse ü RI géographique G. Hubert
  51. 51. 51 Perspec<ves n  Analyses plus fines par requête n  Collec<ons en anglais n  Généralisa<on à d’autres dimensions : confiance, fraîcheur… n  Per<nence graduelle par dimension n  Mesure de l’apport de chaque dimension RI géographique G. Hubert
  52. 52. RI contextuelle G. Hubert Théma<que : RI flux Problèmes Identification de données « utiles/intéressantes » pour un utilisateur Volume instantané de données Obsolescence des données Approche Filtrage contextuel des tweets Contribu<ons Modèle de RI contextuelle pour les flux Participation à TREC Microblog 2015 Projet FUI ACOVAS 5252
  53. 53. TREC Microblog 2015 Filtrage temps-réel Supervision des flux des messages postés dans les réseaux sociaux traitant un sujet par<culier Synthèse du flux d’informa<on publiée dans les réseaux sociaux; Obtenir une informa<on actualisée au fil de temps. 5353 RI flux G. Hubert
  54. 54. Approche Filtrage temps-réel Plusieurs niveaux de filtrage Contenu textuel Caractéristiques externes : hashtag, mention, image, url… Acceptation par étape sur le contenu Système de score par caractéristique ⇒ score global par Tweet Acceptation finale par profil(s) Contrainte Exécution < 1 min 5454 RI flux G. Hubert
  55. 55. Approche Traitement du contenu textuel Traitements classiques (Non-English, stopwords, casse, tokenisa<on, racinisa<on) 2 étapes ~ 2 seuils (score de similarité) / définis par expérience : Contenu // titre Contenu // titre + description Système de score Caractéris<ques de contenu Caractéris<ques d’en<tés Caractéris<ques u<lisateur Scores de caractéristiques Seuils fixés par des expériences préalables Score global de similarité par tweet 5555 RI flux G. Hubert Si ok Si ok
  56. 56. 56 ●  Temps de réponse ○  < 9 secondes SGA ○  < 7 minutes SGB ●  Varia<on des seuils ●  Efficacité (effec<veness) RI flux G. Hubert Approche / Résultats
  57. 57. 57 Scénario A Scénario B …. …. RI flux G. Hubert Résultats officiels TREC Microblog 2015
  58. 58. 58 Perspec<ves n  Ajustement automa<que des seuils n  Besoins d’informa<on complexes n  Intégra<on autres dimensions contextuelles (spa<ale…) n  Obsolescence des données RI flux G. Hubert
  59. 59. 59 Axe 2 : Explora<on de masses de données 1.  Vue d’ensemble 2.  Sugges<on d’experts
  60. 60. Explora<on de masses de données G. Hubert Probléma<ques Limites OLAP Comment comparer des données de niveaux de granularités différents ? Limites des approches bibliométriques et scientométriques habituelles en Sociologie des Sciences Questions Comment évoluent les collabora<ons des chercheurs au cours de leur carrière ? Quels experts pour renouveler un comité de programme ? Approche Extensions OLAP Extraction d’informations bibliographiques (DBLP) Analyse de réseaux de co-signature Contr<bu<ons Nouvel opérateur OLAP - Blend Méthode d’analyse bibliométrique (Projet ANR RésoCit) Modèle de suggestion d’experts 6060
  61. 61. 61 Axe 2 : Explora<on de masses de données 1.  Vue d’ensemble 2.  Sugges<on d’experts
  62. 62. Modèle de sugges<on d’experts Approche Modélisation d’espace de recherche : graphe hétérogène Trois types de nœuds 6262 Conférence donnée Ar<cles Experts Quatre types de liens Lien entre conférence et un ar<cle publié Lien de cita<on Lien entre l’ar<cle et l’auteur Lien entre conférence et par<cipa<on à un CP Sugges<on d’expert G. Hubert
  63. 63. Approche Proximité entre conférence et expert-candidat basée sur tous les chemins entre eux Trois types de nœuds 6363 1. AE : Expert comme auteur externe - 3 types de segment 2. AI : Expert comme auteur interne - 2 types de segment 3. CP : Expert comme auteur externe - 3 types de segment Sugges<on d’expert G. Hubert
  64. 64. Approche Force des quatre types de lien La force du lien de cita<on d’ar<cle dcitant cite dcité : La force du lien entre conférence et son ar<cles d : La force du lien entre l’ar<cle d et son auteur c : La force du lien de par<cipa<on de l’expert c au comité de programme : 6464 Sugges<on d’expert G. Hubert
  65. 65. Approche Force des chemins : somme des forces normalisées des liens qui constituent le chemin Chemin auteur externe (AE) Chemin auteur interne (AI) Chemin membre CP (CP) Force des chemins : somme des forces normalisées des liens qui où 6565 Sugges<on d’expert G. Hubert
  66. 66. 66 Perspec<ves n  Intégrer d’autres informa<ons q  Affilia<ons, localisa<ons, co-signatures conférences extérieurs… n  Temporalité des données q  Périodes de validité des théma<ques, affilia<ons… n  Sugges<on mul<-critère q  Défini<on d’un comité répondant à un ensemble de critères n  Évalua<on q  Jugements de présidents de CP Sugges<on d’expert G. Hubert

×