Confrontation à la perception humaine de mesures de similarité entre membres
1. Confrontation à la perception humaine de
mesures de similarité entre membres
d’un réseau social académique :
enrichissement du profilage thématique par des
indices liées aux liens sociaux
Guillaume Cabanac
guillaume.cabanac@univ-tlse3.fr
@gcabanac
11 octobre 2016
UPEM
Cabanac, G. (2011). Accuracy of inter-researcher similarity measures based on topical and social clues.
Scientometrics, 87, 3, 597–620. doi:10.1007/s11192-011-0358-1
http://bit.ly/exiaCabanac2016
2. 2
Plan
1. Contexte recherche scientifique
veille bibliographique
Problématique limites filtrages collaboratif + cognitif
2. Contribution recommandations thématico-sociales
protocole d’expérimentation PH ↔ Sim
3. Évaluation expérimentation avec 71 chercheurs
4. Conclusion et perspectives
Veille bibliographique : apport de l’aspect social G. Cabanac
3. 3
La recherche = cycles lecture/écriture
1. Contexte − recherche scientifique G. Cabanac
État de l’art : constitution et actualisation
Positionnement
Justification de l’originalité
Questionnements récurrents
Travaux au sujet de XYZ ?
les fondamentaux
les émergeants
Qui travaille sur XYZ ?
leaders
nouveaux
Dans quel journal, quelle conférence ?
4. 4
Recommandation bibliographique (McNee et al., 2006)
Filtrage collaboratif
Principe : analyse des appréciationsappréciations des chercheurs
→ ceux qui ont aimé cet article on aussi aimé…
Effet boule de neige / de mode
Innovation ?
Pertinence thématique ?
Filtrage cognitif
Principe : analyse du contenucontenu des articles
→ profil de ressources (chercheur, articles)
→ graphe des citations articles ↔ articles
Approches hybrides
????
1. Contexte − recherche scientifique G. Cabanac
5. 5
Plan
1. Contexte recherche scientifique
veille bibliographique
Problématique limites filtrages collaboratif + cognitif
2. Contribution recommandations thématico-sociales
protocole d’expérimentation PH ↔ Sim
3. Évaluation expérimentation avec 71 chercheurs
4. Conclusion et perspectives
Veille bibliographique : apport de l’aspect social G. Cabanac
6. 6
Recommandation thématico-sociale
3. Contributions − recommandations thématico-sociales G. Cabanac
État de l’art : modèles riches mais…
Coût accès payant aux contenus
Faisabilité contenu = formats et langues multiples
Intrusivité friendship ? bookmarking ?
Pertinence citations (négatives, complaisantes…)
Évaluation beaucoup de paramètres en jeu !
Notre approche : exploiter des données publiquesdonnées publiques et objectivesobjectives
Source bibliographique minimale
auteurs : nom prénom
publications : titre, conférence/journal, date
⇒ ni abstract, ni contenu
Objectif : recommandation de chercheurs
critère thématique
critère social
(Ben Jabeur et al., 2010)
7. 7
Briques de base : similarités étudiées
Modélisation
Coauteurs graphe biparti auteurs ↔ auteurs
Venues graphe biparti auteurs ↔ conférences / journaux
Similarités sociales
Degré de séparation inverse longueur du plus court chemin
Force de la connectivité nombre de plus court chemins
Conférences communes nombre d’éditions de conférences en commun
Similarité thématique
Cosinus + Modèle vectoriel di = (wi
1
, … , wi
n
)
sur les titres (doc / chercheur)
3. Contributions − recommandations thématico-sociales G. Cabanac
8. 8
Calcul de similarité thématico-sociale
Tâche de veille bibliographique
Exigence pertinence thématique
Préférence proximité sociale (échanges, montage de projets…)
⇒ réordonner les résultats thématiques par le social
Approche de combinaison avec CombMNZ (Fox & Shaw, 1993)
Résultat final : liste de chercheurs recommandés
CombMNZ
Degré séparation
Force connectivité
Co-conférences
Liste sociale
Liste thématique
∩
CombMNZ Liste TSListe TS
3. Contributions − recommandations thématico-sociales G. Cabanac
9. 9
Plan
1. Contexte recherche scientifique
veille bibliographique
Problématique limites filtrages collaboratif + cognitif
2. Contribution recommandations thématico-sociales
protocole d’expérimentation PH ↔ Sim
3. Évaluation expérimentation avec 71 chercheurs
4. Conclusion et perspectives
Veille bibliographique : apport de l’aspect social G. Cabanac
10. 10
Protocole d’évaluation
Confronter les recommandations à la perception des chercheurs
Q1 : Qualité du thématique seul ?
Q2 : Amélioration par l’intégration du social ?
Expérimentation en RI : paradigme Cranfield (TREC…)
Le moteur restitue-t-il des documents pertinents ?
3. Contributions − recommandations thématico-sociales G. Cabanac
doc pertinent ?
assesseur
jugements de pertinence
{0, 1} binaires
[0, N] graduels
qrels
trec_eval
mesures de qualité
Mean Average Precision
Normalized Discounted Cumulative Gain
topic S1 S2
1 0,5687 0,6521
… … …
50 0,7124 0,7512
moy. 0,6421 0,7215
amélioration +12,3 %
significative p < 0,05 (t-test pairé)
moteur de recherche
input
topic
corpus
11. 11
Évaluation des recommandations
doc pertinent ?
assesseur
jugements de pertinence
{0, 1} binaires
[0, N] graduels
qrels
trec_eval
mesures de qualité
Mean Average Precision
Normalized Discounted Cumulative Gain
topic S1 S2
1 0,5687 0,6521
… … …
50 0,7124 0,7512
moy. 0,6421 0,7215
amélioration +12,3 %
significative p < 0,05 (t-test pairé)
moteur de recherche
input
topic
corpus
nom d’un
chercheur
chercheur
« Pour progresser dans votre recherche,
avec qui faudrait-il discuter ? »
sys. de recommandation
thématique
thématique
+ social
nb sujets
25 premiers
3. Contributions − recommandations thématico-sociales G. Cabanac
12. 12
Expérimentation
Caractéristiques
Données dblp.xml (713 Mo = 1,3M publis et 811 787 chercheurs)
Sujets 90 chercheurs-contacts joints par mail
74 chercheurs ont commencé et 71 ont fini
Interface de jugement des recommandations
3. Contributions − recommandations thématico-sociales G. Cabanac
13. 13
Expérimentation : analyses
Expérience des 71 sujets médiane = 13 ans
74
Productivité des 71 sujets médiane = 15 publications
3. Contributions − recommandations thématico-sociales G. Cabanac
14. 14
Validation expérimentale de nos hypothèses
Baseline forte ⇒ approche vectorielle performante
+8,49 % = amélioration significative (p < 0,05 ; n = 70)
de la thématique par le social
0,5
0,6
0,7
0,8
0,9
1
global < 15 publis >= 15 publis < 13 ans >= 13 ans
Thématique Thématique + Social
productivité expérience
+8,49 %+8,49 % +10,39 %+10,39 % +7,03 %+7,03 % +6,50 %+6,50 % +10,22 %+10,22 %
NDCG
3. Contributions − recommandations thématico-sociales G. Cabanac
15. 15
Plan
1. Contexte recherche scientifique
veille bibliographique
Problématique limites filtrages collaboratif + cognitif
2. Contribution recommandations thématico-sociales
protocole d’expérimentation PH ↔ Sim
3. Évaluation expérimentation avec 71 chercheurs
4. Conclusion et perspectives
Veille bibliographique : apport de l’aspect social G. Cabanac
16. 16
Conclusion
Tâche de veille bibliographique
Exigence pertinence thématique
Préférence proximité sociale (échanges, montage de projets…)
Recommandations thématico-sociales
Source auteurs + articles (titre, conférence/journal, date)
Fonctions de similarité
thématique modèle vectoriel + cosinus
sociales degré de séparation, force connectivité, conférences communes
Combinaison avec CombMNZ (Fox & Shaw, 1993)
Validation expérimentale
Protocole Cranfield adapté, mesure de pertinence graduelle (NDCG)
Sujets : 71 chercheurs ; données : DBLP
+ 8,49 % d’amélioration significative (baseline = thématique seul)
Veille bibliographique: apport de l’aspect social G. Cabanac
18. 18
Perspectives (2/2)
Court terme
Expérimenter avec plus de participants, profils plus variés
Autre combinateurs, machine learning, etc.
Moyen terme
Thématique
indexation conceptuelle : « RI » = « Recherche d’info » = « IR » = …
identification des précurseurs (mesure d’influence)
Social
sociabilité : publication solitaire / tribale / éparse
temporalité : changement de domaine / retraite
Long terme
Typologie des besoins en veille bibliographique
ex : awareness versus prospective
Veille bibliographique: apport de l’aspect social G. Cabanac