Seminaire Recherche UPPA 2016

88 vues

Publié le

Séminaire de recherche sur la recherche d'information contextuelle et l'exploration de masses de données

Publié dans : Sciences
0 commentaire
0 j’aime
Statistiques
Remarques
  • Soyez le premier à commenter

  • Soyez le premier à aimer ceci

Aucun téléchargement
Vues
Nombre de vues
88
Sur SlideShare
0
Issues des intégrations
0
Intégrations
3
Actions
Partages
0
Téléchargements
1
Commentaires
0
J’aime
0
Intégrations 0
Aucune incorporation

Aucune remarque pour cette diapositive

Seminaire Recherche UPPA 2016

  1. 1. Gilles Hubert Maître de conférences – HDR Université Paul Saba<er IRIT/IRIS Séminaire UPPA 25 avril 2016 Plan 1.  Ac<vités de recherche 2.  RI contextuelle •  RI séman<que •  Prise en compte de l’u<lisateur •  RI géographique •  Sugges<on contextuelle •  … 3.  Explora<on de masses de données •  Scientométrie •  Sugges<on d’expert
  2. 2. Ac<vités de recherche G. Hubert Théma<ques 22 Recherche d’informa<on (RI) et Explora<on de masses de données RI Contextuelle Informa<on Système U<lisateur Matériel OLAP Scientométrie Explora<on de masses de données Axe 1 Axe 2
  3. 3. 3 Axe 1 : RI contextuelle 1.  Principes 2.  RI séman<que 3.  Prise en compte de l’u<lisateur 4.  RI géographique 5.  Sugges<on contextuelle 6.  RI flux G. Hubert
  4. 4. Recherche d’informa<on Processus de RI en U Requête Représenta<on requête Représenta<on document Document Document Document Appariement Indexa<on Indexa<on Liste de documents es<més per<nents 4
  5. 5. Évalua<on en RI : exemple TREC Text Retrieval Conference (TREC) Organisé par le NIST (USA) depuis1992 Basé sur le paradigme de Cranfield pour l’évaluation de systèmes de RI Un ensemble de documents (Collection) Un ensemble de besoins d’information (Topics/Queries) Un ensemble de jugements de pertinence (Qrels) Différentes tâches « tracks »: AdHoc, Robust, Web… Mesures d’évaluation 5 relevant, retrieved (True positive) irrelevant, retrieved (False positive) relevant, not retrieved (False negative) irrelevant, not retrieved (True negative) A C B D Document collection System output: retrieved documents Information need: relevant documents precision = A A + B recall = A A + C AP (Average Precision), MAP (Mean Average Precision), P@5 (Precision at 5 retrieved documents) …
  6. 6. TREC Principes des campagnes 6 ire book periment, Jones of ]. Begin- REtrieval rec.nist. a mod- Cranfield to the on. The l system ed since ommer- ncluding , feature eveloped al of a its users ange from answer finding to text categorization. retrieval algorithm 1 retrieval algorithm 2 retrieval algorithm k ranked results set 1 ranked results set 2 ranked results set k document set top X top X top X human assessors information needs (”topics”) document pools TRECparticipants ... ... relevance judgments evaluation scores ranked results set Processing in a typical (Voorhees, 2007)
  7. 7. Recherche d’informa<on contextuelle No<on de contexte en RI Comment prendre en compte le contexte dans le processus de RI ? Q1 : Retrouver des éléments correspondant au contexte Q2 : Retrouver le contexte correspondant aux éléments Informa<on U<lisateurs Matériel Ou<ls logiciels 7
  8. 8. RI Contextuelle Prise en compte du contexte dans le cas Q1 Requête Représenta<on requête Représenta<on document Document Document Document Appariement Indexa<on Indexa<on Liste de documents es<més per<nents Liste de documents es<més per<nents Re-ordonancement Contexte 8
  9. 9. 9 Axe 1 : RI contextuelle 1.  Principes 2.  RI séman<que 3.  Prise en compte de l’u<lisateur 4.  Sugges<on contextuelle 5.  RI géographique 6.  RI flux 7.  Nouveaux modèles de RI G. Hubert
  10. 10. RI contextuelle G. Hubert Théma<que : RI séman<que Probléma<que Insuffisances de l’approche « sacs de mots » en RI pour des domaines spécifiques (ex. diagnostic automobile) Ques<on = « Fumée noire au démarrage d’une voiture diesel » Requête « sacs de mots » = {fumée, noire, démarrage, voiture, diesel} Approche : Exploita<on des représenta<ons du domaine Hiérarchies de concepts Requête = {C53 (fumée noire), C85 (au démarrage), C41(voiture diesel)} Ontologies de domaine Requête = C41(voiture diesel) C53 (fumée noire) C85 (au démarrage) Projets Européens IRAIA, e-Stage, WS-Talk ANR DynamO 10 affecter survenir
  11. 11. Cadre : représenta<ons du domaine Probléma<ques étudiées Indexation, interrogation suivant des hiérarchies de concepts Indexation, interrogation sémantique suivant des ontologies Con<bu<ons Hiérarchies de concepts Modèle de RI pour l’indexa<on et la recherche d’informa<on par concepts et texte libre Ontologies Modèle d’indexa<on séman<que dynamique et mesure de similarité séman<que 1111 hiérarchies de concepts ontologies C4: Social indicators in industry C5: Productivity indices C41: Number of employees C3C1 C2 C1 1 C1 2 RI séman<que G. Hubert
  12. 12. 12 RI séman<que Contribu<on : exploita<on des hiérarchies de concepts Modèle de RI Unité d’informa<on : UIi = (li,{(c1,w1), …, (cj,wj)}) Besoin d’informa<on : BIk = {(cm,wm), …, (cn,wn)} Indexation suivant des hiérarchies de concepts BI = termes décrivant le document, UI = termes décrivant le concept Appariement 12 G. Hubert … The proportion of M&C employees working in communication service companies and in the retail trade will increase slightly; the relative number of employees involved in the production of M&C technology will remain virtually constant. ….. C4: Social indicators in industry C5: Productivity indices C41: Number of employees C42:Volume of work done C51: Productivity by employee ScoreIC(D64,C41) = 0,85 ScoreIC(D64,C51) = 0,20 D64 ),(),(),(),( ikiUI Cc kBIik UIBIrecouvUIcimpBIcimpUIBIScore ⋅⎟ ⎠ ⎞ ⎜ ⎝ ⎛ ⋅= ∑∈ CN CDN i i Ci DiIC cf f fCDScore , , ,),( ϕ⋅⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛ ⋅= ∑ D document C concept Dif , Fréquence du terme ti dans D Cif , Fréquence du terme ti dans C icf Nombre total de concepts contenant ti CDN , Nombre de termes communs à D et C CN Nombre de termes distincts dans C ϕ Réel positif ≥ 1
  13. 13. 13 Contribu<on : exploita<on des hiérarchies de concepts Recherche combinant concepts et texte libre 13 … The proportion of M&C employees working in communication service companies and in the retail trade will increase slightly; the relative number of employees involved in the production of M&C technology will remain virtually constant. ….. C4: Social indicators in industry C5: Productivity indices C41: Number of employees C42: Volume of work done C51: Productivity by employee « Analyses according to age » … This exploratory study focuses on a sample of West Midlands- based businesses that are located within the area known as the Central Technology Belt and examines the effect of the age and size of businesses (measured in number of employees) on their managerial capability. ….. + Combinaison de résultats CombSUM (Fox et Shaw, 1994) Document 11 Document 88 …. QC QT D64 D88 ScoreRC(QC,D64) = 0,55 ScoreRC(QC,D88) = 0,75 ScoreTL(QT,D88) = 0,65 ScoreTL(QT,D64) = 0,15 RI séman<que G. Hubert
  14. 14. 14 Contribu<on : exploita<on des ontologies Modèle d’indexation sémantique dynamique Mesure de similarité sémantique : ProxiGénéa Similarité entre graphes d’annota<ons Similarité entre concepts 14 RI séman<que G. Hubert
  15. 15. 15 Axe 1 : RI contextuelle 1.  Principes 2.  RI séman<que 3.  Prise en compte de l’u<lisateur 4.  RI géographique 5.  Sugges<on contextuelle 6.  RI flux G. Hubert
  16. 16. RI contextuelle G. Hubert Théma<que : Prise en compte de l’u<lisateur Probléma<que Rela<ons entre éléments de contexte et système ? Approche : Cadre d’évalua<on d’interfaces de res<tu<on Probléma<que Insuffisances de l’expression des besoins par mots-clés Ques<on = « I’m looking for funding of research projects in the Digital Library domain » Requête « sacs de mots » = {research, project, funding, digital, library} Approche 1 : Naviga<on Approche 2 : Exploita<on des opérateurs de requêtes disponibles dans les moteurs de recherche Guillemets, opérateurs d’obliga<on (+), opérateurs de pondéra<on(^), opérateurs booléens, opérateurs de proximité… Requête = {project, +research, funding^4, "digital library"} 16
  17. 17. Probléma<que : rela<ons entre éléments de contexte et système ? Contribu<on : évalua<on de l’adéqua<on d’interface de res<tu<on (IRI) à un scénario de RI Caractérisation des scénarios de RI Triplet <U<lisateur, Système, Tâche> Critères rela<fs à l’u<lisateur, •  au système et à la tâche Définition d’un cadre d’évaluation Critères d’évalua<on Jeux d’essai Résultats d’évalua<on Exploita<on des résultats 1717 VSE Jeux d’essai Résultats d’évaluation Arbre de décisionArbre de décisionArbre de décision Résultats d’évaluation VSE Prise en compte de l’u<lisateur G. Hubert
  18. 18. 18 Valida<on Prototype de plateforme d’évaluation VSE 18 Prise en compte de l’u<lisateur G. Hubert
  19. 19. Probléma<que : Expression du besoin d’informa<on Approche par naviga<on Formulation de requête en navigant dans un graphe de termes Graphe issus des requêtes précédemment soumises par les utilisateurs 1919 Prise en compte de l’u<lisateur G. Hubert
  20. 20. Approche : Exploita<on des opérateurs de requêtes disponibles dans les moteurs de recherche Question = « I’m looking for funding of research projects in the Digital Library domain » Requête « sacs de mots » = {research, project, funding, digital, library} Guillemets, opérateurs d’obliga<on (+), opérateurs de pondéra<on(^), opérateurs booléens, opérateurs de proximité… Requête = {project, +research, funding^4, "digital library »} Études opérateurs U<lisa<on en baisse, caractéris<ques méconnus, pas d’améliora<on observée Ques<ons de recherche L’u<lisa<on d’opérateurs dans les requêtes améliore-t-elle les résultats ? Quels gains possibles ? Maîtrisables par les u<lisateurs ? 20 Prise en compte de l’u<lisateur G. Hubert
  21. 21. n  Effets des opérateurs sur l’efficacité (effec<veness) 21 Usage des opérateurs ¨  Eastman and Jansen (2003) : étude sur des requêtes avec opérateurs n  U<lisateurs réels : AOL, Google et MSN Search n  Requêtes avec opérateurs : AND, OR, MUST APPEAR et PHRASE M Pas d’améliora<on significa<ve P@10 M Étude sur 20% des requêtes (experts, besoins complexes) Prise en compte de l’u<lisateur G. Hubert ¨  Qu’en est-il des 80% de requêtes restants ?! n  U<lisateurs classiques n  Requêtes classiques (sans opérateurs) 20% 80%
  22. 22. 22 Méthodologie Regular query V1: Query variant with operators ü ü ü ü ü ü ü < V3 V2 V4 VN . . . Prise en compte de l’u<lisateur G. Hubert
  23. 23. 23 Expérimenta<ons n  Collec<ons de test standards ¨  TREC-7 ¨  TREC-8 n  Operateurs ¨  Must appear (+) ¨  Term boos<ng (^N) n  Généra<on de variantes ¨  Must appear ‘+’ only ¨  Boost ‘^’ only with weights ^10, ^20, ^30, ^40, and ^50 ¨  Both ‘+’ and ‘^’ n  Moteur de recherche ¨  Terrier avec différents modèles : BM25, DFR_BM25, InL2, PL2, TF_IDF Variant # Query variants generated with preOps and postOps 1 encryp<on equipment export 2 encryp<on +equipment +export … … … … 124 encryp<on +equipment export^10 … … … … 338 encryp<on^30 equipment^40 export^50 Prise en compte de l’u<lisateur G. Hubert
  24. 24. 24 Conclusions et Perspec<ves n  Gains possibles avec les opérateurs q  TREC-7 : +35,1% q  TREC-8 : +24,3% ⇒ Les u<lisateurs devraient u<liser des opérateurs plus souvent ⇒ Reformula<on automa<que de requête ? n  Q2 : Les u<lisateurs parviennent-ils à formuler des requêtes avec opérateurs qui conduisent à un gain ? n  Requêtes avec des dimensions spa<o-temporelles ? Prise en compte de l’u<lisateur G. Hubert
  25. 25. 25 Axe 1 : RI contextuelle 1.  Principes 2.  RI séman<que 3.  Prise en compte de l’u<lisateur 4.  Sugges<on contextuelle 5.  RI géographique 6.  RI flux G. Hubert
  26. 26. TREC Contextual Sugges<on Track 2012 26 Great summer !!! Where to go around here on this Sunday a•ernoon?
  27. 27. TREC Contextual Sugges<on Track 2012 Trouver des éléments correspondant au contexte (Q1) Éléments = Sugges<ons Lieux à visiter (shops, restaurants, parks…) autour de l’utilisateur (5 heures en voiture max.) Collec<on = Open Web (Websites) Contexte = Données spatiotemporelles Préférences utilisateur 27 <context number=”1”> <city>Portland</city> <state>Oregon</state> <lat>45.5</lat> <long>-122.7</long> <day>weekday</day> <<me>evening</<me> <season>fall</season> </context> <example number=”1”> <<tle> Dogfish Head Alehouse </<tle> <descrip<on>Cra• Brewed Ales and tasty wood grilled food </descrip<on> <url>hƒp://www.dogfishalehouse.com/</url> </example> <example number=”2”> <<tle>The Flaming Pit</<tle> <descrip<on> The Flaming Pit Restaurant and Piano Lounge, home of Tyrone DeMonke. </descrip<on> <url>hƒp://www.flamingpitrestaurant.com/</url> </example> <profile number=”1”> <example number=”1” ini<al=”1” final=”1”/> <example number=”2” ini<al=”0” final=”-1”/> </profile >
  28. 28. TREC Contextual Sugges<on Track 2012 Deux sous-tâches S1 : Suggestions correspondant aux données spatio-temporelles Liste de sugges<ons pour chaque contexte S2 : S1 + préférences utilisateur Liste de sugges<ons pour chaque profil (u<lisateur) et chaque contexte Suggestion = Titre + Description + Url 2 “runs” maximum Notre participation Team : G. Cabanac & G. Hubert (IRIT – Univ. of Toulouse) 2 runs soumis pour la sous-tâche S2 <context2012 groupid=”waterloo” runid=”watcs12a”> <sugges<on profile=”1” context=”1” rank=”1”> <<tle>Deschutes Brewery Portland Public House</<tle> <descrip<on> Deschutes Brewery’s dis<nct Northwest brew pub in Portland’s Pearl District has become a convivial gathering spot of beer and food lovers since it’s 2008 opening. </descrip<on> <url>hƒp://www.deschutesbrewery.com</url> </sugges<on> etc. </context2012> 28
  29. 29. TREC Contextual Sugges<on Track 2012: Notre approche SRI contextuel 2012 Input data Internal process External resource Intermediate data Database Contexti Place selec<on Google Places API Place sets Place query Contextual list of places Place descrip<on enrichment Contextual list of detailed places Bing Google Useri Context processing Output data Personaliza<on Personalized sugges<ons Examples Profilei Preference defini<on Posi<ve preferencesi Nega<ve preferencesi Preference processing 29
  30. 30. TREC Contextual Sugges<on Track 2012: Notre approche Données spa<o-temporelles Préférences u<lisateur Approche Gros grain : iritSplit3CPv1 Fusion des descrip<ons des exemples avec ini<al et final = 1 -> Pref+(P) Fusion des descrip<ons des exemples avec ini<al and final = -1 -> Pref-(P) score(P,r) = cosine(Pref+(P),R) − cosine(Pref−(P),R) Approche Grain fin : iritSplit3CPv2 Exemple de descrip<on avec ini<al et final = 1 -> Pref+l(P) Exemple de descrip<on avec ini<al et final = -1 -> Pref-m(P) score(P, r) = max(cosine(Pref+l (P), r))− max(cosine(Pref−m(P), r)) 30
  31. 31. TREC Contextual Sugges<on Track 2012: Résultats Évalua<ons Pour chaque profil et chaque contexte Différentes dimensions : W (Website), G (Geographical), T (Temporal), and D (Description), et combinaisons (WGT et GT) Deux mesures : P@5 et MRR (Mean Reciprocal Rank) 31 iritSplit3CPv1 iritSplit3CPv2
  32. 32. TREC Contextual Sugges<on Track 2012: Résultats P@5 32
  33. 33. TREC Contextual Sugges<on Track 2012: Résultats MRR 33
  34. 34. TREC Contextual Sugges<on Track 2013 34 Where to go around here?
  35. 35. TREC Contextual Sugges<on Track 2013 Contexte = Données spatiales seulement Préférences utilisateur { "1": { "lat": "40.71427", "city": "New York City", "state": "NY", "long": "-74.00597” }, … } { "1": { "url": hƒp://www.freshrestaurants.ca, "descrip<on": "Our vegan menu boasts an array of exo<c starters, mul<-layered salads, filling wraps, high protein burgers and our signature Fresh bowls.”, "<tle": "Fresh on Bloor” }, “2": { "url": hƒp://www.flamingpitrestaurant.com/, "descrip<on": "The Flaming Pit Restaurant and Piano Lounge, home of Tyrone DeMonke.”, "<tle": "The Flaming Pit” }, … } { "1": [ {"aƒrac<on_id": 1, "website": 1, "descrip<on": 0}, ... ], "2": [ {"aƒrac<on_id": 1, "website": 4, "descrip<on": 3}, … ], ”3": [ {"aƒrac<on_id": 1, "website": -1, "descrip<on": 2}, … ], … } 35
  36. 36. TREC Contextual Sugges<on Track 2013 Deux sous-tâches Open Web Même ques<on: Suggérer des éléments correspondant au contexte (Q1) Lieux à visiter (restaurants…) autour de l’u<lisateur (5 heures en voiture) Collec<on = Open Web (Websites) ClueWeb ClueWeb12 (même ques<on que OpenWeb) ClueWeb12 Contextual sugges<on subcollec<on Ensembles de documents ClueWeb12 par contexte Question: Personalisation par profil utilisateur 2 « runs » maximum Notre par<cipa<on Team: G. Cabanac, G. Hubert & K. Pinel-Sauvagnat (IRIT – Univ. of Toulouse) C. Sallaberry (LIUPPA – Univ. of Pau) D. Palacio (GeoComp – Univ. of Zurich) 1 « run » Open Web 1 « run » ClueWeb (Sous-collection Contextual suggestion) 36
  37. 37. TREC Contextual Sugges<on Track 2013: Notre approche SRI Contextuel 2013 Useri& Personalized& sugges0ons& Preference& processing& Ranking& Retrieval& Place& filtering&&& descrip0on& enrichment& list&of&places& 1& 2& 3& 4& Categories& of&interesti& Nega0ve& preferencesi& Posi0ve& preferencesi& Examples& Profilei& L,&T,&W& T& B& Contexti& Input&data& Output&data& Process&Intermediate&data& Personalized& sugges0ons& Preference& processing& Useri& Ranking&&& refinement& Context& processing& Place&filtering&&& descrip0on& enrichment& Contextual& list&of&places& 1& 2& 3& 4& Contexti& Categories& of&interesti& Nega0ve& preferencesi& Posi0ve& preferencesi& Examples& Profilei& Predefined& categories& L,&T,&W& GP& GN,&Y,&P,&GG,&B& a)& b)& W:&WordNet& GP:&Google&Places& Y:&Yahoo!&BOSS&Geo& B:&Bing&T:&Terrier& P:&PostGis&GN:&Geonames& GG:&Gisgraphy&L:&Lucene& 37Open Web ClueWeb
  38. 38. Exemple de sugges<on en 2012 Title: Oakley Pub and Grill Descrip<on Oakley Pub and Grill - Located in Oakley Square, Cincinna<, Ohio. Local pub with pleasant atmoshpere and great food. Voted #1 Best Burger in Cincinna<. Outdoor ... PUB and GRILL OAKLEYOAKLEY Oakley Pub and Grill ~ 3924 Isabella Avenue ~ Cincinna<, Ohio 45209 On Oakley Square ~ (513) 531-2500 www.oakleypub.com Used with permission… URL: hƒp://oakleypubandgrill.com/ 38
  39. 39. Exemple de sugges<on en 2013 Title: Cel<c Mist Pub Descrip<on: Place types: bar, establishment. This place is about .3 Km West from here (2 min by car with no traffic). Address: 117 South 7th Street, Springfield. There are 11 POIs around: 2 Hotels, 3 Libraries, 3 Parks, 1 PostOffice, 2 Religious. Snippet: Located in Springfield, IL the Cel<c Mist is your home away from home with over 16 imported beers on tap and a friendly staff ready to serve you… URL: hƒp://www.cel<cmistpub.com/ 39
  40. 40. Résultats finals Open Web 40 Run P@5 Rank P@5 Score TBG Rank TBG Score MRR Rank MRR Score UDInfoCS1 1 0.5094 1 (-) 2.4474 1 (-) 0.6320 UDInfoCS2 2 0.4969 2 (-) 2.4310 2 (-) 0.6300 simpleScore 3 0.4332 4 (Down 1) 1.8374 4 (Down 1) 0.5871 complexScore 4 0.4152 5 (Down 1) 1.8226 6 (Down 2) 0.5777 DuTH B 5 0.4090 3 (Up 2) 1.8508 3 (Up 2) 0.5955 1 6 0.3857 8 (Down 2) 1.5329 7 (Down 1) 0.5588 2 7 0.3731 7 (-) 1.5843 5 (Up 2) 0.5785 udel run D 8 0.3659 9 (Down 1) 1.5243 8 (-) 0.5544 isirun 9 0.3650 6 (Up 3) 1.6278 9 (-) 0.5165 udel run SD 10 0.3354 16 (Down 6) 1.2882 10 (-) 0.5061 york13cr2 11 0.3309 12 (Down 1) 1.3483 15 (Down 4) 0.4637 DuTH A 12 0.3283 14 (Down 2) 1.3109 12 (-) 0.4836 york13cr1 13 0.3274 15 (Down 2) 1.2970 14 (Down 1) 0.4743 UAmsTF30WU 14 0.3121 17 (Down 3) 1.1905 13 (Up 1) 0.4803 IRIT.OpenWeb 15 0.3112 10 (Up 5) 1.4638 11 (Up 4) 0.4915 CIRG IRDISCOA 16 0.3013 18 (Down 2) 1.1681 16 (-) 0.4567 CIRG IRDISCOB 17 0.2906 20 (Down 3) 1.1183 19 (Down 2) 0.4212 uncsils param 18 0.2780 13 (Up 5) 1.3115 18 (-) 0.4271 uogTrCFP 19 0.2753 11 (Up 8) 1.3568 17 (Up 2) 0.4327 ming 1 20 0.2601 22 (Down 2) 1.0495 22 (Down 2) 0.3816 uncsils base 21 0.2565 19 (Up 2) 1.1374 20 (Up 1) 0.4136 ming 2 22 0.2493 23 (Down 1) 0.9673 23 (Down 1) 0.3473 uogTrCFX 23 0.2332 21 (Up 2) 1.0894 21 (Up 2) 0.4022 run01 24 0.1650 24 (-) 0.7359 24 (-) 0.2994 baselineA 25 0.1372 25 (-) 0.5234 25 (-) 0.2316 csui02 26 0.0565 26 (-) 0.1785 26 (-) 0.1200 csui01 27 0.0565 27 (-) 0.1765 27 (-) 0.1016 Table 1: P@5, TBG, and MRR rankings for all open web runs.
  41. 41. Résultats finals ClueWeb 41 Run P@5 Rank P@5 Score TBG Rank TBG Score MRR Rank MRR Score baselineB 1 0.1417 1 (-) 0.4797 1 (-) 0.2452 BOW V17 2 0.1022 3 (Down 1) 0.3389 3 (Down 1) 0.1877 BOW V18 3 0.1004 2 (Up 1) 0.3514 2 (Up 1) 0.1971 IRIT.ClueWeb 4 0.0798 4 (-) 0.3279 4 (-) 0.1346 RUN1 5 0.0628 5 (-) 0.2069 5 (-) 0.1265 RUN2 6 0.0565 6 (-) 0.2020 6 (-) 0.1223 IBCosTop1 7 0.0448 7 (-) 0.1029 7 (-) 0.0569 Table 2: P@5, TBG, and MRR rankings for all ClueWeb12 runs.
  42. 42. Analyse des résultats Première édi<on (2012) Tous les participants ont découvert les principes de la tâche Pires évaluations : Descriptions des suggestions Seconde édi<on (2013) OpenWeb Focalisée sur les descrip<ons des sugges<ons Changements dans les jugements de per<nence ClueWeb Incompréhension des direc<ves ou pas assez de précisions Travaux futurs Travailler sur les limites des outils/services en ligne Gérer des collections plus volumineuses : ClueWeb12 (870 millions de pages, ~27TB) 42
  43. 43. 43 Axe 1 : RI contextuelle 1.  Principes 2.  RI séman<que 3.  Prise en compte de l’u<lisateur 4.  Sugges<on contextuelle 5.  RI géographique 6.  RI flux G. Hubert
  44. 44. RI contextuelle G. Hubert Théma<que : RI géographique Problème Limites de l’approche « sacs de mots » pour l’information géographique Besoin= « Concert autour de Marseille au printemps 2012 » Requête « sacs de mots » = {Concert, Marseille, printemps, 2012} Approche Prise en compte des 3 dimensions de l’information géographique : thématique, spatiale, temporelle Requête = « Concert autour de Marseille printemps 2012 » Contribu<ons Modèle de RI géographique Cadres d’évaluations SRIG SREN 4444
  45. 45. 45 SRI géographique n  3 dimensions à traiter ¨  Théma<que, spa<al, temporel n  1 index par dimension ¨  Théma<que sac de mots, racinisa<on, modèle vectoriel… ¨  Spa<al détec<on d’en<tés spa<ales, englobant/englobé… ¨  Temporel détec<on d’expressions temporelles… n  État de l’art : Interroga<on par filtrages successifs ¨  par exemple, priorité au théma<que puis filtrage sur les autres dimensions n  Probléma<que : performances des SRI géo. vs SRI théma<que ? n  Hypothèse : SRI géographique meilleur que SRI théma<que RI géographique G. Hubert
  46. 46. 46 Évaluer un système de RI n  Système = efficiency + effecCveness n  Évalua<on de l’effecCveness temps de calcul volume de stockage qualité Liƒérature RI géo. Liƒérature RI thém. thématique Trec, Clef… Bucher et al. (2005) GeoClef spatial temporel TempEval Cadre d’évalua<on proposé RI géographique G. Hubert
  47. 47. 47 Cadre d’évalua<on pour les 3 dimensions n  Extension du cadre TREC ¨  Collec<on de test n  ≥ 25 Topics n  Corpus n  Qrels graduels n  + Ressources géographiques ¨  À propos des Qrels… n  per<nence(doc, topic) ∈ {0; 1; 2; 3; 4} n  Principe : « plus il y a de dimensions sa<sfaites, mieux c’est » ¨  Mesure sur qrels graduels : Normalized Discounted Cumula<ve Gain traitant des 3 dimensions aucune dimension 3 dimensions topic : « thermalisme à Gavarnie » doc : thermalisme + Bob né à Gavarnie 3 dimensions + global = topic sa<sfait J RI géographique G. Hubert
  48. 48. 48 Étude de cas : la collec<on MIDR_2010 n  Obten<on des qrels : 12 volontaires (merci !) 31 topics 5645 documents = passages Qrels jugement de per<nence {0; 1; 2; 3; 4} Carte pour repérage RI géographique G. Hubert
  49. 49. 49 Étude de cas : le système PIV n  Indexa<on : un index par dimension ¨  Théma<que = SRI Terrier Spa<al = carroyages Temporel = carroyages n  Interroga<on ¨  Res<tu<on pour chaque index ¨  Combinaison des résultats avec CombMNZ [Fox & Shaw, 1993; Lee 1997] CombMNZ RI géographique G. Hubert
  50. 50. 50 Analyse des données recueillies n  Évalua<on d’un SRI ¨  ListeRésultats × Qrels NDCG(topic) n  Résultat : SRI géographique est le plus performant trec_eval Hypothèse ü RI géographique G. Hubert
  51. 51. 51 Perspec<ves n  Analyses plus fines par requête n  Collec<ons en anglais n  Généralisa<on à d’autres dimensions : confiance, fraîcheur… n  Per<nence graduelle par dimension n  Mesure de l’apport de chaque dimension RI géographique G. Hubert
  52. 52. RI contextuelle G. Hubert Théma<que : RI flux Problèmes Identification de données « utiles/intéressantes » pour un utilisateur Volume instantané de données Obsolescence des données Approche Filtrage contextuel des tweets Contribu<ons Modèle de RI contextuelle pour les flux Participation à TREC Microblog 2015 Projet FUI ACOVAS 5252
  53. 53. TREC Microblog 2015 Filtrage temps-réel Supervision des flux des messages postés dans les réseaux sociaux traitant un sujet par<culier Synthèse du flux d’informa<on publiée dans les réseaux sociaux; Obtenir une informa<on actualisée au fil de temps. 5353 RI flux G. Hubert
  54. 54. Approche Filtrage temps-réel Plusieurs niveaux de filtrage Contenu textuel Caractéristiques externes : hashtag, mention, image, url… Acceptation par étape sur le contenu Système de score par caractéristique ⇒ score global par Tweet Acceptation finale par profil(s) Contrainte Exécution < 1 min 5454 RI flux G. Hubert
  55. 55. Approche Traitement du contenu textuel Traitements classiques (Non-English, stopwords, casse, tokenisa<on, racinisa<on) 2 étapes ~ 2 seuils (score de similarité) / définis par expérience : Contenu // titre Contenu // titre + description Système de score Caractéris<ques de contenu Caractéris<ques d’en<tés Caractéris<ques u<lisateur Scores de caractéristiques Seuils fixés par des expériences préalables Score global de similarité par tweet 5555 RI flux G. Hubert Si ok Si ok
  56. 56. 56 ●  Temps de réponse ○  < 9 secondes SGA ○  < 7 minutes SGB ●  Varia<on des seuils ●  Efficacité (effec<veness) RI flux G. Hubert Approche / Résultats
  57. 57. 57 Scénario A Scénario B …. …. RI flux G. Hubert Résultats officiels TREC Microblog 2015
  58. 58. 58 Perspec<ves n  Ajustement automa<que des seuils n  Besoins d’informa<on complexes n  Intégra<on autres dimensions contextuelles (spa<ale…) n  Obsolescence des données RI flux G. Hubert
  59. 59. 59 Axe 2 : Explora<on de masses de données 1.  Vue d’ensemble 2.  Sugges<on d’experts
  60. 60. Explora<on de masses de données G. Hubert Probléma<ques Limites OLAP Comment comparer des données de niveaux de granularités différents ? Limites des approches bibliométriques et scientométriques habituelles en Sociologie des Sciences Questions Comment évoluent les collabora<ons des chercheurs au cours de leur carrière ? Quels experts pour renouveler un comité de programme ? Approche Extensions OLAP Extraction d’informations bibliographiques (DBLP) Analyse de réseaux de co-signature Contr<bu<ons Nouvel opérateur OLAP - Blend Méthode d’analyse bibliométrique (Projet ANR RésoCit) Modèle de suggestion d’experts 6060
  61. 61. 61 Axe 2 : Explora<on de masses de données 1.  Vue d’ensemble 2.  Sugges<on d’experts
  62. 62. Modèle de sugges<on d’experts Approche Modélisation d’espace de recherche : graphe hétérogène Trois types de nœuds 6262 Conférence donnée Ar<cles Experts Quatre types de liens Lien entre conférence et un ar<cle publié Lien de cita<on Lien entre l’ar<cle et l’auteur Lien entre conférence et par<cipa<on à un CP Sugges<on d’expert G. Hubert
  63. 63. Approche Proximité entre conférence et expert-candidat basée sur tous les chemins entre eux Trois types de nœuds 6363 1. AE : Expert comme auteur externe - 3 types de segment 2. AI : Expert comme auteur interne - 2 types de segment 3. CP : Expert comme auteur externe - 3 types de segment Sugges<on d’expert G. Hubert
  64. 64. Approche Force des quatre types de lien La force du lien de cita<on d’ar<cle dcitant cite dcité : La force du lien entre conférence et son ar<cles d : La force du lien entre l’ar<cle d et son auteur c : La force du lien de par<cipa<on de l’expert c au comité de programme : 6464 Sugges<on d’expert G. Hubert
  65. 65. Approche Force des chemins : somme des forces normalisées des liens qui constituent le chemin Chemin auteur externe (AE) Chemin auteur interne (AI) Chemin membre CP (CP) Force des chemins : somme des forces normalisées des liens qui où 6565 Sugges<on d’expert G. Hubert
  66. 66. 66 Perspec<ves n  Intégrer d’autres informa<ons q  Affilia<ons, localisa<ons, co-signatures conférences extérieurs… n  Temporalité des données q  Périodes de validité des théma<ques, affilia<ons… n  Sugges<on mul<-critère q  Défini<on d’un comité répondant à un ensemble de critères n  Évalua<on q  Jugements de présidents de CP Sugges<on d’expert G. Hubert

×