Approche collaborative et assistée à l'enrichissement des folksonomies: entre ergonomie et algorithmie DICEN – Séminaire tagging & folksonomies – 26 mars 2010 Freddy Limpens, Edelweiss, INRIA Sophia-Antipolis [email_address] Edelweiss
Objectifs ->  Ancrage dans un contexte d’usage ->  Synergie entre automatisme et contribution des utilisateurs
1. problématique
limites  des  folksonomies
Variation d'écriture  des tags: newyork = new_york  ademe = ADEME musique = music
Ambiguité  des tags: RDF  =?  Ressource Description Framework  RDF  =?  Rwanda Defense Force  RDF =? Reality Distortion Field
Manque  de   liens  sémantiques  entre les tags:
Une  ontologie  = une  vue  sur le monde
 
Limites  des ontologies: ->  coût  d 'acquisition ->  intégrer  toute l'expertise  de  la  communauté ->  goulet d' étranglement  à la formalisation
Scenario Ademe ->   ingénieurs experts : distribués ->   gestion documentaire : centralisée Comment structurer folksonomie contrôlée en capturant un maximum de l’expertise  ?
Scenario Ademe Comment tirer partie de l’activité ? ->   documentalistes :  structuration concertée d’une liste d’autorité ->   Ingé-experts : navigation dans la base documentaire
2. Notre approche
Exploiter  : ->  dynamique et simplicité  du  social tagging  ->  traitements automatiques  sur les tags ->  expertises  des utilisateurs
En proposant: ->  modèle supportant les divergences   ->  cycle de vie s’appuyant sur  une analyse des usages  ->  interfaces ergonomiques pour faciliter la contribution
car pollution skos:related 2.A Supporter les divergences
car pollution skos:related 2.A Supporter les divergences John agrees
car pollution skos:related 2.A Supporter les divergences John agrees Paul disagrees
2.A Supporter les divergences
2.A Supporter les divergences
2.A Supporter les divergences
2.B Cycle de vie  de la folksonomie structurée
3. Combiner traitements auto & contributions des utilisateurs
->   Tags comme  « candidats-concepts » ->  lien tag-ressource de type « is about » Hypothèses et modèle de tagging
->  Evaluation des distances d’éditions* ->   Variations orthographique:  pollution  <-> pollutions ->   Hyponymes :  pollution <-> pollution des sols  ->   Termes associés :  pollution <-> détection de polluants * http://sourceforge.net/projects/simmetrics/ 3.A analyse des labels de tags
3.A analyse des labels de tags ->  Jeu de test Ademe 1 ensemble / type de relation  2 types de métriques simples + combinées
Cas  Détecter related MongeElkan_Soundex seuil 0.8 / rappel > 0.5
Cas  Distinguer spelling variant Jaro-Winkler seuil > 0.9
Cas  Distinguer hyponymes MongeElkan-QGram  différence entre d(t1,t2) et d(t2,t1) > 0.39
Cas  Méthode heuristique confirme intuitions Nécessité d’autres méthodes
3.B analyse de la structure des folksonomies
->   Calcul de la similarité entre tags  (Mika, 2005; Cattuto et al., 2008) ->   Différents contextes d’associations ressources utilisateurs  taggings 3.B analyse de la structure des folksonomies
tags tags 3.B analyse de la structure des folksonomies tag1 tag2 tag3 tag1 freq cooc cooc tag2 cooc freq cooc tag3 cooc cooc freq
(données delicious.com) 3.B analyse de la structure des folksonomies Tag &quot;Most related&quot; tags environnement développement_durable, énergie  environment france, green, ecology, sustainable, energy déchets administration, EEDD, renouvelable  développementdurable ecologie , EEDD, france, climat ,imported
Calcul  automatiques 3.C Contribution des utilisateurs
Interface d’édition (SRTags Editor) 3.C Contribution des utilisateurs
3.C Contribution des utilisateurs
3.C Contribution des utilisateurs
3.D Détection de conflits et vue consensuelle
3.D Détection de conflits et vue consensuelle
3.D Détection de conflits et vue consensuelle
3.E Combinaison des points de vue Point de vue « consensuel » du ReferentUser Sans conflits Utilisé par documentalistes pour  maintenir un thésaurus
3.E Combinaison des points de vue Points de vue individuels: Coexistent même si divergents Aide à former un point de vue consensuel
3.E Combinaison des points de vue Règles de priorité pour une navigation cohérente: Utilisateur courant ReferentUser ConflictSolver Autre utilisateur Automate
4. Conclusion
Nos contributions : ->  Système socio-technique ancré dans les usages ->   Modèle supportant les points de vue divergents (SRTag) ->  Complémentarité des traitements automatiques  (labels + structure) ->  Combinaison des traitements auto  + contribution des utilisateurs ->  Coexistence des points de vue  + élaboration d’un point de vue consensuel
Travaux en cours et futurs ->   Amorçage : intégration ressources  terminologiques (docs, ontologies, thesaurus, etc.)  ->   Services &quot;sémantiques«  pour l’exploitation des  données de tagging et de structuration sémantiques ->  ISICIL : Evaluation & Tests  Ademe & Orange Labs
fin. [email_address]

Dicen Tagging Mars2010

  • 1.
    Approche collaborative etassistée à l'enrichissement des folksonomies: entre ergonomie et algorithmie DICEN – Séminaire tagging & folksonomies – 26 mars 2010 Freddy Limpens, Edelweiss, INRIA Sophia-Antipolis [email_address] Edelweiss
  • 2.
    Objectifs -> Ancrage dans un contexte d’usage -> Synergie entre automatisme et contribution des utilisateurs
  • 3.
  • 4.
    limites des folksonomies
  • 5.
    Variation d'écriture des tags: newyork = new_york ademe = ADEME musique = music
  • 6.
    Ambiguité destags: RDF =? Ressource Description Framework RDF =? Rwanda Defense Force RDF =? Reality Distortion Field
  • 7.
    Manque de liens sémantiques entre les tags:
  • 8.
    Une ontologie = une vue sur le monde
  • 9.
  • 10.
    Limites desontologies: -> coût d 'acquisition -> intégrer toute l'expertise de la communauté -> goulet d' étranglement à la formalisation
  • 11.
    Scenario Ademe -> ingénieurs experts : distribués -> gestion documentaire : centralisée Comment structurer folksonomie contrôlée en capturant un maximum de l’expertise ?
  • 12.
    Scenario Ademe Commenttirer partie de l’activité ? -> documentalistes : structuration concertée d’une liste d’autorité -> Ingé-experts : navigation dans la base documentaire
  • 13.
  • 14.
    Exploiter :-> dynamique et simplicité du social tagging  -> traitements automatiques sur les tags -> expertises des utilisateurs
  • 15.
    En proposant: -> modèle supportant les divergences   -> cycle de vie s’appuyant sur une analyse des usages -> interfaces ergonomiques pour faciliter la contribution
  • 16.
    car pollution skos:related2.A Supporter les divergences
  • 17.
    car pollution skos:related2.A Supporter les divergences John agrees
  • 18.
    car pollution skos:related2.A Supporter les divergences John agrees Paul disagrees
  • 19.
    2.A Supporter lesdivergences
  • 20.
    2.A Supporter lesdivergences
  • 21.
    2.A Supporter lesdivergences
  • 22.
    2.B Cycle devie de la folksonomie structurée
  • 23.
    3. Combiner traitementsauto & contributions des utilisateurs
  • 24.
    -> Tags comme « candidats-concepts » -> lien tag-ressource de type « is about » Hypothèses et modèle de tagging
  • 25.
    -> Evaluationdes distances d’éditions* -> Variations orthographique: pollution <-> pollutions -> Hyponymes : pollution <-> pollution des sols -> Termes associés : pollution <-> détection de polluants * http://sourceforge.net/projects/simmetrics/ 3.A analyse des labels de tags
  • 26.
    3.A analyse deslabels de tags -> Jeu de test Ademe 1 ensemble / type de relation 2 types de métriques simples + combinées
  • 27.
    Cas Détecterrelated MongeElkan_Soundex seuil 0.8 / rappel > 0.5
  • 28.
    Cas Distinguerspelling variant Jaro-Winkler seuil > 0.9
  • 29.
    Cas Distinguerhyponymes MongeElkan-QGram différence entre d(t1,t2) et d(t2,t1) > 0.39
  • 30.
    Cas Méthodeheuristique confirme intuitions Nécessité d’autres méthodes
  • 31.
    3.B analyse dela structure des folksonomies
  • 32.
    -> Calcul de la similarité entre tags (Mika, 2005; Cattuto et al., 2008) -> Différents contextes d’associations ressources utilisateurs taggings 3.B analyse de la structure des folksonomies
  • 33.
    tags tags 3.Banalyse de la structure des folksonomies tag1 tag2 tag3 tag1 freq cooc cooc tag2 cooc freq cooc tag3 cooc cooc freq
  • 34.
    (données delicious.com) 3.Banalyse de la structure des folksonomies Tag &quot;Most related&quot; tags environnement développement_durable, énergie environment france, green, ecology, sustainable, energy déchets administration, EEDD, renouvelable développementdurable ecologie , EEDD, france, climat ,imported
  • 35.
    Calcul automatiques3.C Contribution des utilisateurs
  • 36.
    Interface d’édition (SRTagsEditor) 3.C Contribution des utilisateurs
  • 37.
  • 38.
  • 39.
    3.D Détection deconflits et vue consensuelle
  • 40.
    3.D Détection deconflits et vue consensuelle
  • 41.
    3.D Détection deconflits et vue consensuelle
  • 42.
    3.E Combinaison despoints de vue Point de vue « consensuel » du ReferentUser Sans conflits Utilisé par documentalistes pour maintenir un thésaurus
  • 43.
    3.E Combinaison despoints de vue Points de vue individuels: Coexistent même si divergents Aide à former un point de vue consensuel
  • 44.
    3.E Combinaison despoints de vue Règles de priorité pour une navigation cohérente: Utilisateur courant ReferentUser ConflictSolver Autre utilisateur Automate
  • 45.
  • 46.
    Nos contributions :-> Système socio-technique ancré dans les usages -> Modèle supportant les points de vue divergents (SRTag) -> Complémentarité des traitements automatiques (labels + structure) -> Combinaison des traitements auto + contribution des utilisateurs -> Coexistence des points de vue + élaboration d’un point de vue consensuel
  • 47.
    Travaux en courset futurs -> Amorçage : intégration ressources terminologiques (docs, ontologies, thesaurus, etc.) -> Services &quot;sémantiques«  pour l’exploitation des données de tagging et de structuration sémantiques -> ISICIL : Evaluation & Tests Ademe & Orange Labs
  • 48.