Ce diaporama a bien été signalé.
Nous utilisons votre profil LinkedIn et vos données d’activité pour vous proposer des publicités personnalisées et pertinentes. Vous pouvez changer vos préférences de publicités à tout moment.
Interroger	le	texte	scien.fique	
Guillaume	Cabanac	
guillaume.cabanac@univ-tlse3.fr	
	
8	décembre	2016	
HDR	
http://bit.ly/...
2
Interroger	le	texte	scien.fique	?	
Prélude	:	projet	de	programme	de	recherche	
Requêter	
recherche	d’informa.on	
Ques+onn...
3
Interroger	le	texte	scien.fique	?	
Prélude	:	projet	de	programme	de	recherche
Parcours	1/3	:	produc.on	scien.fique	
Prélude	
4
ingénierie	documentaire	 recherche	d’informa.on	 scientométrie
5
Parcours	2/3	:	encadrements,	programmes	de	recherche	
Prélude
Parcours	3/3	:	richesse	de	la	vie	universitaire	
6
n  Enseignement	
¨  DUT	1A-2A 	systèmes	d’informa.on	et	bases	de	donnée...
7
Interroger	le	texte	scien.fique 		
Plan	«	alterna.f	»	
1.  Prélude	:	objets	et	parcours	
	
2.  Raffiner	l’indexa.on	
a.  Ph...
8
Interroger	le	texte	scien.fique 		
Plan	
1.  Prélude	:	objets	et	parcours	
	
2.  Raffiner	l’indexa.on	
a.  Photos	par	crowd...
2010			Comment	retrouver	ses/des	photos	?	
9
Mitran,	M.	(2014).	Annota.on	d’images	via	leur	contexte	spa.o-temporel	et	les...
2010			Une	solu.on	bien	connue	quoique	limitée	
10
2a	—	Raffiner	l’indexa.on 		
n  Requêtes	textuelles	
n  Limite	
¨  Requie...
Annota.on	d’images	par	crowdsourcing	
2a	—	Raffiner	l’indexa.on 		
n  Hypothèses	
¨  Per.nence	spa.ale	
	
	
n  Métadonnées	t...
12
Interroger	le	texte	scien.fique 		
Plan	
1.  Prélude	:	objets	et	parcours	
	
2.  Raffiner	l’indexa.on	
a.  Photos	par	crow...
13
Interroger	le	texte	scien.fique 		
Plan	
1.  Prélude	:	objets	et	parcours	
	
2.  Raffiner	l’indexa.on	
a.  Photos	par	crow...
Éponymie	et	panthéon	scien.fique	
14
“Eponyms	remind	us	that	science	
and	scholarship	are	the	work	of	
dedicated	people.”		...
15
n  Théories	
¨  The	Reward	System	of	Science 	(Merton,	1942,	1957)	
¨  Oblitera.on	by	Incorpora.on 	(Merton,	1988;	McCa...
16
2c	—	Raffiner	l’indexa.on 		
Éponymie	et	panthéon	scien.fique
17
2c	—	Raffiner	l’indexa.on 		
Révéla.on	du	panthéon	scien.fique	implicite
18
1.  Prélude	:	parcours	et	objets	
	
2.  Raffiner	l’indexa.on	
3.  Éprouver	les	modèles	
a.  Opérateurs	d’interroga.on	
b....
n  Usage	des	opérateurs	
¨  Recherche	d’expressions	("…"),	critère	obligatoire	(+)	ou	préféré	(^),	
connecteurs	booléens,	...
Requête	usuelle	 V1:	Variante	de	requête	avec	opérateur	
ü ü ü
ü ü
ü
ü
V2,	V3,	V4,	…,	VN	
Méthode	Résultats	
L’emploi	judi...
21
1.  Prélude	:	parcours	et	objets	
	
2.  Raffiner	l’indexa.on	
3.  Éprouver	les	modèles	
a.  Opérateurs	d’interroga.on	
b....
22
TREC	Contextual	Sugges.on	2012	
n  «	Que	faire	d’intéressant	aux	alentours	et	maintenant	?	»	
¨  50	contextes	spa.o-tem...
23
1.  Prélude	:	parcours	et	objets	
	
2.  Raffiner	l’indexa.on	
3.  Éprouver	les	modèles	
a.  Opérateurs	d’interroga.on	
b....
24
1.  Prélude	:	parcours	et	objets	
	
2.  Raffiner	l’indexa.on	
3.  Éprouver	les	modèles	
4.  Traquer	les	biais	d’évalua.on...
25
Contexte	:	mesurer	la	qualité	d’un	système	de	RI	
n  Focus	:	u.lisateur			vs.			système	de	RI 	(Spärck	Jones	&	Willeq,	...
26
Scénario	de	par.cipa.on	à	TREC		(1/2)	
5	documents	per.nents	Topic	031				“satellite	launch	contracts”	
Chris	 Ellen	
C...
27
La	cause	:	réordonnancement	fortuit	des	runs	
Qrels	=	〈qid,	iter,	docno,	rel〉 		Run	=	〈qid,	iter,	docno,	rank,	sim,	run...
28
Conséquences	du	réordonnancement	d’un	run	
n  Mesures	de	qualité	d’un	système	s	de	RI	
¨  RR(s,	t) 	1/rang	du	premier	d...
29
Note	pour	plus	tard	:	aqen.on	aux	ex	aequo	!	
n  Effet	important	sur	AP,	lissé	au	niveau	de	la	MAP	
n  Bornes	de	mesures...
30
Impact	du	biais	des	ex	aequo	
n  Étude	menée	sur	4	tâches	de	TREC	
	
	
	
	
¨  22	édi.ons	
¨  1	360	runs	
n  Évalua.on	d...
31
Impact	du	biais	sur	Average	Precision	(AP)	
4a	—	Traquer	les	biais	d’évalua.on
32
1.  Prélude	:	parcours	et	objets	
	
2.  Raffiner	l’indexa.on	
3.  Éprouver	les	modèles	
4.  Traquer	les	biais	d’évalua.on...
33
Différences	entre	champs	disciplinaires	:	les	confs	
4b	—	Traquer	les	biais	d’évalua.on
34
Conférences	:	et	si	la	date	de	soumission	importait	?	M	
n  Évalua.on	par	les	pairs	
Cabanac,	G.,	&	Preuss,	T.	(2013).	...
35
4b	—	Traquer	les	biais	d’évalua.on
36
Le	biais	de	la	date	de	soumission	
n  Données	de	ConfMaster	:	42	conférences	en	informa.que	
4b	—	Traquer	les	biais	d’é...
37
Biais	de	la	date	de	soumission	
n  Influence	sur	les	enchères	(bids)	
4b	—	Traquer	les	biais	d’évalua.on
38
Faites	évaluer	par	ceux	qui	le	veulent	!	
4b	—	Traquer	les	biais	d’évalua.on
39
Plan	
1.  Prélude	:	parcours	et	objets	
	
2.  Raffiner	l’indexa.on	
3.  Éprouver	les	modèles	
4.  Traquer	les	biais	d’éva...
40
Recommanda.on	théma.co-sociale	
n  État	de	l’art	:	modèles	riches	mais…	
L 	Coût	 	 	accès	payant	aux	contenus	
L 	Fais...
41
Définir	des	similarités	inter-auteur	
n  Modélisa.on	
¨  Co-auteurs		 	 	 	graphe	bipar.	auteurs	↔	auteurs	
¨  Lieux	de	...
42
Recommander	en	intégrant	les	indices	sociaux	
n  Tâche	de	veille	scien.fique	
¨  Exigence 	per.nence	théma.que	
¨  Préfé...
43
Protocole	d’évalua.on	
n  Confronter	les	recommanda.ons	à	la	percep.on	des	chercheurs	
¨  Q1	:	Qualité	du	théma.que	seu...
44
Évalua.on	des	recommanda.ons	
n  Adapta.on	du	paradigme	Cranfield	(TREC…)	
¨  Le	moteur	système	res.tue-t-il	des	documen...
45
Expérimenta.on	
n  Caractéris.ques	
¨  Données 	dblp.xml		(713	Mo		=		1,3M	publis		et		811	787	chercheurs)	
¨  Sujets 	...
46
Valida.on	expérimentale	de	nos	hypothèses	
n  Baseline	forte		⇒		approche	vectorielle	performante	
	
	
n  +8,49	%		=	 	...
47
Plan	
1.  Prélude	:	parcours	et	objets	
	
2.  Raffiner	l’indexa.on	
3.  Éprouver	les	modèles	
4.  Traquer	les	biais	d’éva...
48
Cabanac,	G.,	Hubert,	G.,	&	Milard,	B.	(2015).	Academic	careers	in	Computer	Science:	con.nuance	and	transience	
of	life....
49
Source:	hqps://projects.groept.be/~emedia	
La	popula.on	
(N	=	1	870	054)	
L’échan.llon	des	
«	quinquas	»	
(N	=	209	377)...
50
Collabora.ons	entretenues	versus	éphémères		
5b	—	Révéler	l’implicite
51
Renouvellement	
5b	—	Révéler	l’implicite
52
Effet	Maqhieu	et	homophilie	
5b	—	Révéler	l’implicite
53
Plan	
1.  Prélude	:	parcours	et	objets	
	
2.  Raffiner	l’indexa.on	
3.  Éprouver	les	modèles	
4.  Traquer	les	biais	d’éva...
54
Plan	
1.  Prélude	:	parcours	et	objets	
	
2.  Raffiner	l’indexa.on	
3.  Éprouver	les	modèles	
4.  Traquer	les	biais	d’éva...
55
Panorama	de	la	recherche	en	Informa.on	Systems	
n  Les	gardiens	de	l’évalua.on	par	les	pairs,	alias	gatekeepers	
(Braun...
56
Panorama	de	la	recherche	en	Informa.on	Systems	
n  Les	77	revues	«	cœur	»	en	IS	selon	une	autorité	:	le	WoS	
6a	—	Les	g...
57
Panorama	de	la	recherche	en	Informa.on	Systems	
n  Analyse	exploratoire	des	données	
¨  77	revues	
¨  2	846	gatekeepers...
58
n  Analyse	exploratoire	des	données	
6a	—	Les	gardiens	de	l’évalua.on	par	les	pairs	:	gatekeepers	du	SI	
Panorama	de	la...
59
n  Graphe	théma.que	des	revues	en	IS	
6a	—	Les	gardiens	de	l’évalua.on	par	les	pairs	:	gatekeepers	du	SI	
Panorama	de	l...
60
n  Influence,	pouvoir...	
6a	—	Les	gardiens	de	l’évalua.on	par	les	pairs	:	gatekeepers	du	SI	
Panorama	de	la	recherche	e...
61
Panorama	de	la	recherche	en	Informa.on	Systems	
n  Un	siège	à	la	table	des	négocia.ons	?	
6a	—	Les	gardiens	de	l’évalua...
62
n  Diversité	géographique	et	de	genre	
6a	—	Les	gardiens	de	l’évalua.on	par	les	pairs	:	gatekeepers	du	SI	
Panorama	de	...
63
Plan	
1.  Prélude	:	parcours	et	objets	
	
2.  Raffiner	l’indexa.on	
3.  Éprouver	les	modèles	
4.  Traquer	les	biais	d’éva...
64
Plan	
1.  Prélude	:	parcours	et	objets	
	
2.  Raffiner	l’indexa.on	
3.  Éprouver	les	modèles	
4.  Traquer	les	biais	d’éva...
65
7.	Bilan	
Théma.ques	principales	
													3	mouvements	
①	
②	
③
66
Yang	S.,	Han	R.,	Wolfram	D.	&	Zhao,	Y.	(2016).	Visualizing	the	intellectual	structure	of	informa+on	science	(2006–2015)...
67
Plan	
1.  Prélude	:	parcours	et	objets	
	
2.  Raffiner	l’indexa.on	
3.  Éprouver	les	modèles	
4.  Traquer	les	biais	d’éva...
68
8.	Perspec.ves	
Reconnaître	les	structures	d’opportunités	
Ques+on	de	recherche	:	
			-	cap.vante	
			-	originale	/	ina...
69
8.	Perspec.ves	
Réseaux	sociaux	numériques	et	élicita.on	d’opinions	
hqp://volta.pacitaproject.eu/wp-content/uploads/20...
70
T2	
T1	
T3	
T4	
T5	
T7	
T6	
Preuve	de	concept	:	IRIT	
Données	:	
•  2009-2014	
•  RICL,	RNCL,	CICL,	CNCL	
•  260	auteur...
71Réalisé	avec	Iramuteq	
8.	Perspec.ves	
Vers	un	observatoire	de	la	recherche	2/3
72
Interpréta.on	:	
•  4	objets	principaux	
•  Des	pétales	à	explorer	
NB	:	le	nombre	de	mots	représentés	
peut	être	param...
73
8.	Perspec.ves	
Posi.ons	dans	le	champ
Le	marché	noir	de	l’édi.on	scien.fique	
	
	
	
	
74
n  Domaines	
¨  Science	de	l’informa.on	
¨  Sociologie	des	sciences	
n  ...
Étudier	l’Open	Access	clandes.n	:	les	enjeux	
75
8.	Perspec.ves
Merci	
hqp://www.irit.fr/~Guillaume.Cabanac	
@gcabanac
Prochain SlideShare
Chargement dans…5
×

Interroger le texte scientifique

2 128 vues

Publié le

Soutenance d'habilitation à diriger les recherches
Guillaume Cabanac
8 décembre 2016

Publié dans : Sciences
  • Soyez le premier à commenter

  • Soyez le premier à aimer ceci

Interroger le texte scientifique

  1. 1. Interroger le texte scien.fique Guillaume Cabanac guillaume.cabanac@univ-tlse3.fr 8 décembre 2016 HDR http://bit.ly/hdrCabanac2016 n Thème 2 : Indexa.on et Recherche d’Informa.ons Équipe IRIS : Informa.on Retrieval & Informa.on Synthesis
  2. 2. 2 Interroger le texte scien.fique ? Prélude : projet de programme de recherche Requêter recherche d’informa.on Ques+onner scientométrie
  3. 3. 3 Interroger le texte scien.fique ? Prélude : projet de programme de recherche
  4. 4. Parcours 1/3 : produc.on scien.fique Prélude 4 ingénierie documentaire recherche d’informa.on scientométrie
  5. 5. 5 Parcours 2/3 : encadrements, programmes de recherche Prélude
  6. 6. Parcours 3/3 : richesse de la vie universitaire 6 n  Enseignement ¨  DUT 1A-2A systèmes d’informa.on et bases de données 160 h / an ¨  Licence Pro administra.on des bases de données + projet 60 h / an ¨  M2 évalua.on de la recherche d’informa.on 6 h / an ¨  Doct. + EC LaTeX pour composer des documents scien.fiques 12 h / an n  Service à la communauté scien.fique ¨  2 jurys de doctorat, 2 recrutements (MCF, Enseignant du 2nd degré) ¨  ~10 évalua.ons par an d’ar.cles de revue, conférence et atelier ¨  Co-chair du workshop BIR@ECIR n  Fonc.ons élec.ves ¨  2015-2019 Conseil na.onal des universités – CNU 27 ¨  2016-2019 Conseil de la documenta.on de l’Université Toulouse 3 ¨  2014-2016 Conseil du département informa.que de l’IUT « A » Prélude
  7. 7. 7 Interroger le texte scien.fique Plan « alterna.f » 1.  Prélude : objets et parcours 2.  Raffiner l’indexa.on a.  Photos par crowdsourcing b.  (Microblogs par exploita.on des spécificités des tweets) c.  Éponymes 3.  Éprouver les modèles 4.  Traquer les biais d’évalua.on 5.  Révéler l’implicite 6.  Ques.onner les pra.ques des champs disciplinaires 7.  Bilan 8.  Perspec.ves
  8. 8. 8 Interroger le texte scien.fique Plan 1.  Prélude : objets et parcours 2.  Raffiner l’indexa.on a.  Photos par crowdsourcing b.  (Microblogs par exploita.on des spécificités des tweets) c.  Éponymes 3.  Éprouver les modèles 4.  Traquer les biais d’évalua.on 5.  Révéler l’implicite 6.  Ques.onner les pra.ques des champs disciplinaires 7.  Bilan 8.  Perspec.ves
  9. 9. 2010 Comment retrouver ses/des photos ? 9 Mitran, M. (2014). Annota.on d’images via leur contexte spa.o-temporel et les métadonnées du Web. Thèse de doctorat de l’université Toulouse 3 – Paul Saba.er. 2a — Raffiner l’indexa.on hqp://kesselskramer.com/exhibi.ons/24-hrs-of-photos 24 heures en photos sur 880 millards de photos prises en 2014 selon Yahoo!
  10. 10. 2010 Une solu.on bien connue quoique limitée 10 2a — Raffiner l’indexa.on n  Requêtes textuelles n  Limite ¨  Requiert une descrip.on textuelle : indexa.on manuelle ¨  Requiert du texte autour — quid de nos photos sur clé USB ?
  11. 11. Annota.on d’images par crowdsourcing 2a — Raffiner l’indexa.on n  Hypothèses ¨  Per.nence spa.ale n  Métadonnées type EXIF n  Annoter une image ¨  Tags proches dans l’espace (SM) ¨  Tags proches dans le temps n  Valida.on ¨  2 lignes de référence ¨  Per.nence temporelle 11
  12. 12. 12 Interroger le texte scien.fique Plan 1.  Prélude : objets et parcours 2.  Raffiner l’indexa.on a.  Photos par crowdsourcing b.  (Microblogs par exploita.on des spécificités des tweets) c.  Éponymes 3.  Éprouver les modèles 4.  Traquer les biais d’évalua.on 5.  Révéler l’implicite 6.  Ques.onner les pra.ques des champs disciplinaires 7.  Bilan 8.  Perspec.ves
  13. 13. 13 Interroger le texte scien.fique Plan 1.  Prélude : objets et parcours 2.  Raffiner l’indexa.on a.  Photos par crowdsourcing b.  (Microblogs par exploita.on des spécificités des tweets) c.  Éponymes 3.  Éprouver les modèles 4.  Traquer les biais d’évalua.on 5.  Révéler l’implicite 6.  Ques.onner les pra.ques des champs disciplinaires 7.  Bilan 8.  Perspec.ves
  14. 14. Éponymie et panthéon scien.fique 14 “Eponyms remind us that science and scholarship are the work of dedicated people.” (p. 393) “mnemonic and commemora+ve device” (p. 121) Merton, R. K. (1942). Science and technology in a democra.c order. Journal of Legal and Poli.cal Sociology, 1(1), 115–126. “the prac.ce of affixing the name of the scien+st to all or part of what he has found, as with the Copernican system, Hooke’s law, Planck’s constant, or Halley’s comet” (p. 643) Merton, R. K. (1957). Priori.es in scien.fic discovery: A chapter in the sociology of science. American Sociological Review, 22(6), 635–659. Cabanac, G. (2014). Extrac.ng and quan.fying eponyms in full-text ar.cles. Scientometrics, 98, 3, 1631–1645. 2c — Raffiner l’indexa.on
  15. 15. 15 n  Théories ¨  The Reward System of Science (Merton, 1942, 1957) ¨  Oblitera.on by Incorpora.on (Merton, 1988; McCain, 2011, 2012) ¨  Non-indexed Eponymal Citedness (Száva-Kováts, 1994) n  Extraire et quan.fier les éponymes en plein texte ¨  Connaître les savants les plus influents d’un champ donné ¨  Amender un dic.onnaire d’éponymes ¨  Iden.fier les tendances et l’incorpora.on de méthodes 2c — Raffiner l’indexa.on Éponymie et panthéon scien.fique
  16. 16. 16 2c — Raffiner l’indexa.on Éponymie et panthéon scien.fique
  17. 17. 17 2c — Raffiner l’indexa.on Révéla.on du panthéon scien.fique implicite
  18. 18. 18 1.  Prélude : parcours et objets 2.  Raffiner l’indexa.on 3.  Éprouver les modèles a.  Opérateurs d’interroga.on b.  Sugges.ons contextuelles à TREC c.  (Capacité de partenariat : ϕ-index) 4.  Traquer les biais d’évalua.on 5.  Révéler l’implicite 6.  Ques.onner les pra.ques des champs disciplinaires 7.  Bilan 8.  Perspec.ves Interroger le texte scien.fique Plan
  19. 19. n  Usage des opérateurs ¨  Recherche d’expressions ("…"), critère obligatoire (+) ou préféré (^), connecteurs booléens, opérateurs de proximité… ¨  Délaissés de nos jours bien que plébiscités ini.alement (20 % chez Silverstein et al., 1999) 19 Besoin en informa.on “I’m looking for research projects funded in the DL domain” Requête usuelle Requête avec opérateurs Opérateurs d’interroga.on des moteurs de recherche Hubert, G., Cabanac G., Sallaberry, C., Palacio, D. (2011) Query Operators Shown Beneficial for Improving Search Results. TPDL’11, volume 6966 de LNCS, pages 118–129. Springer. 3a — Éprouver les modèles
  20. 20. Requête usuelle V1: Variante de requête avec opérateur ü ü ü ü ü ü ü V2, V3, V4, …, VN Méthode Résultats L’emploi judicieux des opérateurs améliore la qualité des résultats de recherche. MAP u = 0,1554 MAP ┬ = 0,2099 +35% n  Qualité des résultats ↗ Hypothèse u Topic TREC 3a — Éprouver les modèles Opérateurs d’interroga.on des moteurs de recherche
  21. 21. 21 1.  Prélude : parcours et objets 2.  Raffiner l’indexa.on 3.  Éprouver les modèles a.  Opérateurs d’interroga.on b.  Sugges.ons contextuelles à TREC c.  (Capacité de partenariat : ϕ-index) 4.  Traquer les biais d’évalua.on 5.  Révéler l’implicite 6.  Ques.onner les pra.ques des champs disciplinaires 7.  Bilan 8.  Perspec.ves Interroger le texte scien.fique Plan
  22. 22. 22 TREC Contextual Sugges.on 2012 n  « Que faire d’intéressant aux alentours et maintenant ? » ¨  50 contextes spa.o-temporels ¨  34 profils u.lisateurs ¨  aqeignable en voiture < 5h 3a — Éprouver les modèles Hubert, G., & Cabanac, G. (2012). IRIT at TREC 2012 Contextual Sugges.on Track. TREC’12: Proceedings of the 21st Text REtrieval Conference. Sous la direc.on d’E.M. Voorhees et L.P. Buckland. Gaithersburg, MA : NIST.
  23. 23. 23 1.  Prélude : parcours et objets 2.  Raffiner l’indexa.on 3.  Éprouver les modèles a.  Opérateurs d’interroga.on b.  Sugges.ons contextuelles à TREC c.  (Capacité de partenariat : ϕ-index) 4.  Traquer les biais d’évalua.on 5.  Révéler l’implicite 6.  Ques.onner les pra.ques des champs disciplinaires 7.  Bilan 8.  Perspec.ves Interroger le texte scien.fique Plan
  24. 24. 24 1.  Prélude : parcours et objets 2.  Raffiner l’indexa.on 3.  Éprouver les modèles 4.  Traquer les biais d’évalua.on a.  Biais des ex-aequo b.  Biais d’ordonnancement 5.  Révéler l’implicite 6.  Ques.onner les pra.ques des champs disciplinaires 7.  Bilan 8.  Perspec.ves Interroger le texte scien.fique Plan
  25. 25. 25 Contexte : mesurer la qualité d’un système de RI n  Focus : u.lisateur vs. système de RI (Spärck Jones & Willeq, 1997) n  Campagnes d’évalua.on ¨  1958 Cranfield, UK ¨  1992 TREC (Text Retrieval Conference), USA ¨  1999 NTCIR (NII Test Collec.on for IR Systems), Japan ¨  2001 CLEF (Cross-Language Evalua.on Forum), Europe ¨  … n  Méthode « Cranfield » ¨  Tâche ¨  Collec.on de test n  Corpus n  Topics n  Qrels ¨  Mesures : MAP, P@X ... calcul avec trec_eval (Voorhees, 2007) 4a — Traquer les biais d’évalua.on
  26. 26. 26 Scénario de par.cipa.on à TREC (1/2) 5 documents per.nents Topic 031 “satellite launch contracts” Chris Ellen C = 〈( , 0.8), ( , 0.8), ( , 0.5)〉 E = 〈( , 0.8), ( , 0.8), ( , 0.5)〉 la seule différence Pourquoi de telles différences ? malchanceux chanceux Cabanac, G., Hubert, G., Boughanem, M., & Chrisment, C. (2010). Tie-breaking Bias : Effect of an Uncontrolled Parameter on Informa.on Retrieval Evalua.on. CLEF, volume 6360 de LNCS, pages 112–123. Springer 4a — Traquer les biais d’évalua.on
  27. 27. 27 La cause : réordonnancement fortuit des runs Qrels = 〈qid, iter, docno, rel〉 Run = 〈qid, iter, docno, rank, sim, run_id〉 〈( , 0.8), ( , 0.8), ( , 0.5)〉 trec_eval réordonne ainsi : qid asc, sim desc, docno desc 〈( , 0.8), ( , 0.8), ( , 0.5)〉 Mesure de qualité = f (qualité_intrinsèque, ) MAP, P@X, MRR… 4a — Traquer les biais d’évalua.on
  28. 28. 28 Conséquences du réordonnancement d’un run n  Mesures de qualité d’un système s de RI ¨  RR(s, t) 1/rang du premier document per.nent, pour le topic t ¨  P(s, t, d) précision au document d, pour le topic t ¨  AP(s, t) précision moyenne pour le topic t ¨  MAP(s) moyenne des précisions moyennes M Le bias des ex aequo ¨  Pour autant, Wall Street Journal est-il plus per.nent que Associated Press? M Problème 1 comparer 2 systèmes AP(s1, t) vs. AP(s2, t) M Problème 2 comparer 2 topics AP(s, t1) vs. AP(s, t2) Chris Ellen M Sensibles au rang de document 4a — Traquer les biais d’évalua.on
  29. 29. 29 Note pour plus tard : aqen.on aux ex aequo ! n  Effet important sur AP, lissé au niveau de la MAP n  Bornes de mesures APRéaliste ≤ APConven.onnel ≤ APOp.miste n  Analyse de défaillances pour améliorer le modèle ¨  Barre d’erreur = facteur (mal)chance → poten.al d’améliora.on padre1, adhoc’94 4a — Traquer les biais d’évalua.on
  30. 30. 30 Impact du biais des ex aequo n  Étude menée sur 4 tâches de TREC ¨  22 édi.ons ¨  1 360 runs n  Évalua.on de l impact du biais des ex aequo ¨  Propor.on des ex aequo dans les runs soumis ⇒ fréquence du biais ¨  Impact sur les valeurs des mesures n  Top 5 des différences constatées n  Pourcentage de la différence observée n  Significa.vité de la différence observée : t-test pairé unilatéral 1993 1999 2000 1998 2002 2004 1997 rou.ng web filtering adhoc 2009 3 Go de données issues de trec.nist.gov 4a — Traquer les biais d’évalua.on
  31. 31. 31 Impact du biais sur Average Precision (AP) 4a — Traquer les biais d’évalua.on
  32. 32. 32 1.  Prélude : parcours et objets 2.  Raffiner l’indexa.on 3.  Éprouver les modèles 4.  Traquer les biais d’évalua.on a.  Biais des ex-aequo b.  Biais d’ordonnancement 5.  Révéler l’implicite 6.  Ques.onner les pra.ques des champs disciplinaires 7.  Bilan 8.  Perspec.ves Interroger le texte scien.fique Plan
  33. 33. 33 Différences entre champs disciplinaires : les confs 4b — Traquer les biais d’évalua.on
  34. 34. 34 Conférences : et si la date de soumission importait ? M n  Évalua.on par les pairs Cabanac, G., & Preuss, T. (2013). Capitalizing on order effects in the bids of peer-reviewed conferences to secure reviews by expert referees. JASIST, 64, 2, 405–415. 4b — Traquer les biais d’évalua.on
  35. 35. 35 4b — Traquer les biais d’évalua.on
  36. 36. 36 Le biais de la date de soumission n  Données de ConfMaster : 42 conférences en informa.que 4b — Traquer les biais d’évalua.on
  37. 37. 37 Biais de la date de soumission n  Influence sur les enchères (bids) 4b — Traquer les biais d’évalua.on
  38. 38. 38 Faites évaluer par ceux qui le veulent ! 4b — Traquer les biais d’évalua.on
  39. 39. 39 Plan 1.  Prélude : parcours et objets 2.  Raffiner l’indexa.on 3.  Éprouver les modèles 4.  Traquer les biais d’évalua.on 5.  Révéler l’implicite a.  Recommanda.ons théma.co-sociales b.  Nature des collabora.ons scien.fiques c.  (Équilibre travail-loisirs) 6.  Ques.onner les pra.ques des champs disciplinaires 7.  Bilan 8.  Perspec.ves Interroger le texte scien.fique
  40. 40. 40 Recommanda.on théma.co-sociale n  État de l’art : modèles riches mais… L Coût accès payant aux contenus L Faisabilité contenu = formats et langues mul.ples L Intrusivité friendship ? bookmarking ? L Per.nence cita.ons (néga.ves, complaisantes…) L Évalua.on beaucoup de paramètres en jeu ! n  Notre approche : exploiter des données publiques et objec.ves ¨  Source bibliographique minimale n  auteurs : nom prénom n  publica.ons : .tre, conférence/journal, date ⇒ ni abstract, ni contenu ¨  Objec.f : recommanda.on de chercheurs selon théma.que + social (Ben Jabeur et al., 2010) Cabanac, G. (2011). Accuracy of inter-researcher similarity measures based on topical and social clues. Scientometrics, 87, 3, 597–620. 5a — Révéler l’implicite
  41. 41. 41 Définir des similarités inter-auteur n  Modélisa.on ¨  Co-auteurs graphe bipar. auteurs ↔ auteurs ¨  Lieux de publica.on graphe bipar. auteurs ↔ conférences / revues n  Similarités sociales ¨  Degré de sépara.on inverse longueur du plus court chemin ¨  Force du lien nombre de plus courts chemins ¨  Lieux mutuels nombre d’édi.ons de conférences en commun n  Similarité théma.que ¨  Cosinus sur modèle vectoriel di = (wi 1, … , wi n) alimenté par les .tres (doc / auteur) 5a — Révéler l’implicite
  42. 42. 42 Recommander en intégrant les indices sociaux n  Tâche de veille scien.fique ¨  Exigence per.nence théma.que ¨  Préférence proximité sociale (échanges, montages de projets…) ⇒ réordonner les résultats théma.ques en fonc.on d’indices sociaux n  Faisceau de preuves avec CombMNZ (Fox & Shaw, 1993) n  Résultat : liste de chercheurs recommandés CombMNZ Degré de sépara.on Force des liens Lieux mutuels Run social Run théma.que ∩ CombMNZ Run T+S 5a — Révéler l’implicite
  43. 43. 43 Protocole d’évalua.on n  Confronter les recommanda.ons à la percep.on des chercheurs ¨  Q1 : Qualité du théma.que seul ? ¨  Q2 : Améliora.on par l’intégra.on d’indices sociaux ? n  Inspira.on : paradigme Cranfield (TREC…) ¨  Le moteur res.tue-t-il des documents per.nents ? doc per.nent ? assesseur jugements de per.nence {0, 1} binaires [0, N] graduels trec_eval mesures de qualité Mean Average Precision Normalized Discounted Cumula.ve Gain topic S1 S2 1 0,5687 0,6521 … … … 50 0,7124 0,7512 moy. 0,6421 0,7215 améliora.on +12,3 % significa.ve p < 0,05 (t-test pairé) moteur de recherche topic corpus 5a — Révéler l’implicite
  44. 44. 44 Évalua.on des recommanda.ons n  Adapta.on du paradigme Cranfield (TREC…) ¨  Le moteur système res.tue-t-il des documents chercheurs per.nents ? doc per.nent ? assesseur jugements de per.nence {0, 1} binaires [0, N] graduels trec_eval mesures de qualité Mean Average Precision Normalized Discounted Cumula.ve Gain topic S1 S2 1 0,5687 0,6521 … … … 50 0,7124 0,7512 moy. 0,6421 0,7215 améliora.on +12,3 % significa.ve p < 0,05 (t-test pairé) moteur de recherche topic corpus nom d un chercheur chercheur « Pour progresser dans votre recherche, avec qui faudrait-il discuter ? » sys. de recommanda.on théma.que théma.que + social nb sujets 25 premiers 5a — Révéler l’implicite
  45. 45. 45 Expérimenta.on n  Caractéris.ques ¨  Données dblp.xml (713 Mo = 1,3M publis et 811 787 chercheurs) ¨  Sujets 90 chercheurs-contacts joints par mail 74 chercheurs ont commencé et 71 ont fini n  Interface de jugement des recommanda.ons Œ  Ž 5a — Révéler l’implicite
  46. 46. 46 Valida.on expérimentale de nos hypothèses n  Baseline forte ⇒ approche vectorielle performante n  +8,49 % = améliora.on significa.ve (p < 0,05 ; n = 70) de la théma.que par le social 0,5 0,6 0,7 0,8 0,9 1 global < 15 publis >= 15 publis < 13 ans >= 13 ans Thématique Thématique + Social produc.vité expérience +8,49 % +10,39 % +7,03 % +6,50 % +10,22 % NDCG 5a — Révéler l’implicite
  47. 47. 47 Plan 1.  Prélude : parcours et objets 2.  Raffiner l’indexa.on 3.  Éprouver les modèles 4.  Traquer les biais d’évalua.on 5.  Révéler l’implicite a.  Recommanda.ons théma.co-sociales b.  Nature des collabora.ons scien.fiques c.  (Équilibre travail-loisirs) 6.  Ques.onner les pra.ques des champs disciplinaires 7.  Bilan 8.  Perspec.ves Interroger le texte scien.fique
  48. 48. 48 Cabanac, G., Hubert, G., & Milard, B. (2015). Academic careers in Computer Science: con.nuance and transience of life.me co-authorships. Scientometrics, 102, 1, 135–150. 5b — Révéler l’implicite
  49. 49. 49 Source: hqps://projects.groept.be/~emedia La popula.on (N = 1 870 054) L’échan.llon des « quinquas » (N = 209 377) 5b — Révéler l’implicite
  50. 50. 50 Collabora.ons entretenues versus éphémères 5b — Révéler l’implicite
  51. 51. 51 Renouvellement 5b — Révéler l’implicite
  52. 52. 52 Effet Maqhieu et homophilie 5b — Révéler l’implicite
  53. 53. 53 Plan 1.  Prélude : parcours et objets 2.  Raffiner l’indexa.on 3.  Éprouver les modèles 4.  Traquer les biais d’évalua.on 5.  Révéler l’implicite a.  Recommanda.ons théma.co-sociales b.  Nature des collabora.ons scien.fiques c.  (Équilibre travail-loisirs) 6.  Ques.onner les pra.ques des champs disciplinaires 7.  Bilan 8.  Perspec.ves Interroger le texte scien.fique
  54. 54. 54 Plan 1.  Prélude : parcours et objets 2.  Raffiner l’indexa.on 3.  Éprouver les modèles 4.  Traquer les biais d’évalua.on 5.  Révéler l’implicite 6.  Ques.onner les pra.ques des champs disciplinaires a.  Les gardiens de la science : gatekeepers du SI b.  (Présence des gatekeepers femmes et auteurs au congrès EGC) 7.  Bilan 8.  Perspec.ves Interroger le texte scien.fique
  55. 55. 55 Panorama de la recherche en Informa.on Systems n  Les gardiens de l’évalua.on par les pairs, alias gatekeepers (Braun, 2009) Cabanac, G. (2012). Shaping the landscape of research in informa.on systems from the perspec.ve of editorial boards: A scientometric study of 77 leading journals. JASIST, 63, 5, 977–996. 6a — Les gardiens de l’évalua.on par les pairs : gatekeepers du SI
  56. 56. 56 Panorama de la recherche en Informa.on Systems n  Les 77 revues « cœur » en IS selon une autorité : le WoS 6a — Les gardiens de l’évalua.on par les pairs : gatekeepers du SI
  57. 57. 57 Panorama de la recherche en Informa.on Systems n  Analyse exploratoire des données ¨  77 revues ¨  2 846 gatekeepers 6a — Les gardiens de l’évalua.on par les pairs : gatekeepers du SI
  58. 58. 58 n  Analyse exploratoire des données 6a — Les gardiens de l’évalua.on par les pairs : gatekeepers du SI Panorama de la recherche en Informa.on Systems
  59. 59. 59 n  Graphe théma.que des revues en IS 6a — Les gardiens de l’évalua.on par les pairs : gatekeepers du SI Panorama de la recherche en Informa.on Systems
  60. 60. 60 n  Influence, pouvoir... 6a — Les gardiens de l’évalua.on par les pairs : gatekeepers du SI Panorama de la recherche en Informa.on Systems (1984)
  61. 61. 61 Panorama de la recherche en Informa.on Systems n  Un siège à la table des négocia.ons ? 6a — Les gardiens de l’évalua.on par les pairs : gatekeepers du SI
  62. 62. 62 n  Diversité géographique et de genre 6a — Les gardiens de l’évalua.on par les pairs : gatekeepers du SI Panorama de la recherche en Informa.on Systems
  63. 63. 63 Plan 1.  Prélude : parcours et objets 2.  Raffiner l’indexa.on 3.  Éprouver les modèles 4.  Traquer les biais d’évalua.on 5.  Révéler l’implicite 6.  Ques.onner les pra.ques des champs disciplinaires a.  Les gardiens de la science : gatekeepers du SI b.  (Présence des gatekeepers femmes et auteurs au congrès EGC) 7.  Bilan 8.  Perspec.ves Interroger le texte scien.fique
  64. 64. 64 Plan 1.  Prélude : parcours et objets 2.  Raffiner l’indexa.on 3.  Éprouver les modèles 4.  Traquer les biais d’évalua.on 5.  Révéler l’implicite 6.  Ques.onner les pra.ques des champs disciplinaires 7.  Bilan 8.  Perspec.ves Interroger le texte scien.fique
  65. 65. 65 7. Bilan Théma.ques principales 3 mouvements ① ② ③
  66. 66. 66 Yang S., Han R., Wolfram D. & Zhao, Y. (2016). Visualizing the intellectual structure of informa+on science (2006–2015): Introducing author keyword coupling analysis. Journal of Informetrics, 10, 1, 132–150. [Author-Bibliographic Coupling Analysis] Une recherche aux fron.ères des spécialités d’Informa.on Science 7. Bilan
  67. 67. 67 Plan 1.  Prélude : parcours et objets 2.  Raffiner l’indexa.on 3.  Éprouver les modèles 4.  Traquer les biais d’évalua.on 5.  Révéler l’implicite 6.  Ques.onner les pra.ques des champs disciplinaires 7.  Bilan 8.  Perspec.ves Interroger le texte scien.fique
  68. 68. 68 8. Perspec.ves Reconnaître les structures d’opportunités Ques+on de recherche : - cap.vante - originale / inaqendue - importante Revue de la liEérature : - interdisciplinaire - sur le temps long Données et méthodes : - données originales en libre accès, de préférence - méthode mixte : quan. + quali
  69. 69. 69 8. Perspec.ves Réseaux sociaux numériques et élicita.on d’opinions hqp://volta.pacitaproject.eu/wp-content/uploads/2013/04/schaliegaswinning-s-26.jpg (Thonet et al., 2016)
  70. 70. 70 T2 T1 T3 T4 T5 T7 T6 Preuve de concept : IRIT Données : •  2009-2014 •  RICL, RNCL, CICL, CNCL •  260 auteurs •  3 860 ar.cles (82 % internat.) Interpréta.on : •  Collabora.on inter-thèmes •  Force des liens faibles Aqen.on : •  Variabilité des pra.ques de publica.on selon les domaines : fréquence, travail ± collabora.f… Réalisé avec Gephi 8. Perspec.ves Vers un observatoire de la recherche 1/3
  71. 71. 71Réalisé avec Iramuteq 8. Perspec.ves Vers un observatoire de la recherche 2/3
  72. 72. 72 Interpréta.on : •  4 objets principaux •  Des pétales à explorer NB : le nombre de mots représentés peut être paramétré pour ajuster le niveau de détail. Réalisé avec Iramuteq 8. Perspec.ves Vers un observatoire de la recherche 3/3
  73. 73. 73 8. Perspec.ves Posi.ons dans le champ
  74. 74. Le marché noir de l’édi.on scien.fique 74 n  Domaines ¨  Science de l’informa.on ¨  Sociologie des sciences n  Contexte : (non)-accès à l’IST ¨  8 millions de chercheurs + des amateurs (sciences par.cipa.ves) + grand public ¨  114 millions de documents scien.fiques en ligne mais seulement 24 % accessibles librement n  Défi : dévoiler rouages et contenu des bibliothèques clandes.nes ¨  Library Genesis (23M d’ar.cles, 1M d’ouvrages), Sci-Hub, #icanhazpdf, /r/scholar n  Contribu.on : ar.cle JASIST accepté en octobre 2014 ¨  Alimenta.on : biblioleaks + crowdsourcing ¨  Contenu : distribu.on des éditeurs, disciplines, langues… @rickypo 8. Perspec.ves Cabanac, G. (2016). Bibliogiñs in LibGen? A study of a text-sharing plaóorm driven by biblioleaks and crowdsourcing. Journal of the Associa.on for Informa.on Science and Technology, 67, 4, 874–884.
  75. 75. Étudier l’Open Access clandes.n : les enjeux 75 8. Perspec.ves
  76. 76. Merci hqp://www.irit.fr/~Guillaume.Cabanac @gcabanac

×