SlideShare une entreprise Scribd logo

Identification de compatibilites sémantiques entre descripteurs de lieux

Présentation effectuée lors de la 13e Conférence Francophone sur l'Extraction et la Gestion des Connaissances, le 31/12/2013, Toulouse, France. Vidéo : http://www.canalc2.tv/video.asp?idVideo=11682 Article associé : http://hal.archives-ouvertes.fr/hal-00912332

1  sur  34
Télécharger pour lire hors ligne
Identification de
compatibilités entre tags
descriptifs de lieux
Estelle Delpech1,2 , Laurent Candillier1,2 , Léa Laporte1,2,3 , Samuel Phan1,2
1 Nomao, 2 Ebuzzing

, 3 IRIT

13e Conférence Francophone sur l’Extraction et la Gestion des Connaissances
Toulouse, 31 janvier 2013
Plan

1. Contexte & travaux apparentés
2. Expériences
3. Conclusion et perspectives
Plan

1. Contexte & travaux apparentés

2. Expériences

3. Conclusion et perspectives
Contexte : recherche d’information locale

http://fr.nomao.com

1 / 29
Processus d’extraction et d’agrégation de
données

2 / 29
Dédoublonnage de données

DESCRIPTIF 1

DESCRIPTIF 2


nom : Les Caves de La Maréchale

 adresse :



 rue : Rue Chalande



 ville : Toulouse



 tel : 05.61.23.89.88
tags : restaurant, sud-ouest


3 / 29


nom : Caves de La Maréchale SARL

 adresse :



 rue : Rue Jules Chalande



 ville : Toulouse



 tel : 0561238988
tags : manger, français


Recommandé

Términos de economía
Términos de economíaTérminos de economía
Términos de economíaItalo Orozco
 
Nti, ntic, ti, tic
Nti, ntic, ti, ticNti, ntic, ti, tic
Nti, ntic, ti, ticIraisOcampo
 
El profesional en ciencia de la información y la documentación, bibliotecolog...
El profesional en ciencia de la información y la documentación, bibliotecolog...El profesional en ciencia de la información y la documentación, bibliotecolog...
El profesional en ciencia de la información y la documentación, bibliotecolog...vivianacerquera
 
Usos y efectos de la tecnologia
Usos y efectos de la tecnologiaUsos y efectos de la tecnologia
Usos y efectos de la tecnologiamisslili
 
Asignacion 5 aiza aponte
Asignacion 5 aiza aponteAsignacion 5 aiza aponte
Asignacion 5 aiza aponteAiza Hernández
 
Dossier de production 1
Dossier de production 1Dossier de production 1
Dossier de production 1Johanna Lry
 
Zoom sur les bibliothèques et médiathèqes Vosgiennes
Zoom sur les bibliothèques et médiathèqes VosgiennesZoom sur les bibliothèques et médiathèqes Vosgiennes
Zoom sur les bibliothèques et médiathèqes Vosgiennesmaurand
 

Contenu connexe

En vedette

Quand Winston Churchill faisait de l'analyse de la valeur...
Quand Winston Churchill faisait de l'analyse de la valeur...Quand Winston Churchill faisait de l'analyse de la valeur...
Quand Winston Churchill faisait de l'analyse de la valeur...Frederic VINDREAU
 
Producción yerbatera
Producción yerbateraProducción yerbatera
Producción yerbaterasusanabartz
 
Evaluation question 4
Evaluation question 4Evaluation question 4
Evaluation question 4Maia Legg
 
Presentacionubuntu
PresentacionubuntuPresentacionubuntu
Presentacionubuntujavier181920
 
Publicate baja california
Publicate baja californiaPublicate baja california
Publicate baja californiagarden92
 
Presentacionubuntu
PresentacionubuntuPresentacionubuntu
Presentacionubuntujavier181920
 
Astro webcam 2004_alexsanchez
Astro webcam 2004_alexsanchezAstro webcam 2004_alexsanchez
Astro webcam 2004_alexsanchezCarlos Díaz
 
Pour quoi Ordres des Ingénieurs du Québec
Pour quoi Ordres des Ingénieurs du QuébecPour quoi Ordres des Ingénieurs du Québec
Pour quoi Ordres des Ingénieurs du QuébecAli G.
 
Le cinéma
Le cinémaLe cinéma
Le cinémajujub8d
 
Sonar - Freddy Mallet - April 2009
Sonar - Freddy Mallet - April 2009Sonar - Freddy Mallet - April 2009
Sonar - Freddy Mallet - April 2009JUG Lausanne
 
Le Sax - Achères - Programme de la saison 2012-2013
Le Sax - Achères - Programme de la saison 2012-2013Le Sax - Achères - Programme de la saison 2012-2013
Le Sax - Achères - Programme de la saison 2012-2013Le Sax
 
Sustainable performance dossier de production groupe 72 campus de lille
Sustainable performance dossier de production groupe 72 campus de lilleSustainable performance dossier de production groupe 72 campus de lille
Sustainable performance dossier de production groupe 72 campus de lilleJérém Frajar
 
Propositions municipales 2014 pcf fougères oct 2013
Propositions municipales 2014 pcf fougères oct 2013Propositions municipales 2014 pcf fougères oct 2013
Propositions municipales 2014 pcf fougères oct 2013OlivierLP29
 

En vedette (16)

Quand Winston Churchill faisait de l'analyse de la valeur...
Quand Winston Churchill faisait de l'analyse de la valeur...Quand Winston Churchill faisait de l'analyse de la valeur...
Quand Winston Churchill faisait de l'analyse de la valeur...
 
Producción yerbatera
Producción yerbateraProducción yerbatera
Producción yerbatera
 
Evaluation question 4
Evaluation question 4Evaluation question 4
Evaluation question 4
 
Presentacionubuntu
PresentacionubuntuPresentacionubuntu
Presentacionubuntu
 
Publicate baja california
Publicate baja californiaPublicate baja california
Publicate baja california
 
Dossier de production
Dossier de productionDossier de production
Dossier de production
 
Presentacionubuntu
PresentacionubuntuPresentacionubuntu
Presentacionubuntu
 
Astro webcam 2004_alexsanchez
Astro webcam 2004_alexsanchezAstro webcam 2004_alexsanchez
Astro webcam 2004_alexsanchez
 
Pour quoi Ordres des Ingénieurs du Québec
Pour quoi Ordres des Ingénieurs du QuébecPour quoi Ordres des Ingénieurs du Québec
Pour quoi Ordres des Ingénieurs du Québec
 
Le cinéma
Le cinémaLe cinéma
Le cinéma
 
Sonar - Freddy Mallet - April 2009
Sonar - Freddy Mallet - April 2009Sonar - Freddy Mallet - April 2009
Sonar - Freddy Mallet - April 2009
 
Le Sax - Achères - Programme de la saison 2012-2013
Le Sax - Achères - Programme de la saison 2012-2013Le Sax - Achères - Programme de la saison 2012-2013
Le Sax - Achères - Programme de la saison 2012-2013
 
Ley de medios
Ley de mediosLey de medios
Ley de medios
 
Sustainable performance dossier de production groupe 72 campus de lille
Sustainable performance dossier de production groupe 72 campus de lilleSustainable performance dossier de production groupe 72 campus de lille
Sustainable performance dossier de production groupe 72 campus de lille
 
Propositions municipales 2014 pcf fougères oct 2013
Propositions municipales 2014 pcf fougères oct 2013Propositions municipales 2014 pcf fougères oct 2013
Propositions municipales 2014 pcf fougères oct 2013
 
Présentation1
Présentation1Présentation1
Présentation1
 

Similaire à Identification de compatibilites sémantiques entre descripteurs de lieux

Identification de compatibilités entre tages descriptifs de lieux
Identification de compatibilités entre tages descriptifs de lieuxIdentification de compatibilités entre tages descriptifs de lieux
Identification de compatibilités entre tages descriptifs de lieuxEstelle Delpech
 
Retour d'expérience choix d'une méthode de conception en ingénierie pédagog...
Retour d'expérience   choix d'une méthode de conception en ingénierie pédagog...Retour d'expérience   choix d'une méthode de conception en ingénierie pédagog...
Retour d'expérience choix d'une méthode de conception en ingénierie pédagog...Université de Lille 2
 
coursMLD.pdf djnvvvvvvvvvvvvvvvv jd dvjjjjjjjjjjjjjjj
coursMLD.pdf djnvvvvvvvvvvvvvvvv jd           dvjjjjjjjjjjjjjjjcoursMLD.pdf djnvvvvvvvvvvvvvvvv jd           dvjjjjjjjjjjjjjjj
coursMLD.pdf djnvvvvvvvvvvvvvvvv jd dvjjjjjjjjjjjjjjjobaghat60
 
coursMLD.pdfnw wx c c c c c c cc c c c c c cckck
coursMLD.pdfnw wx c c c c c c cc c c c c c cckckcoursMLD.pdfnw wx c c c c c c cc c c c c c cckck
coursMLD.pdfnw wx c c c c c c cc c c c c c cckckobaghat60
 
coursMLD.pdf dnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnn...
coursMLD.pdf dnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnn...coursMLD.pdf dnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnn...
coursMLD.pdf dnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnn...obaghat60
 
Bid CE Workshop 1 session 06 - Data quality during digitization
Bid CE Workshop 1   session 06 - Data quality during digitizationBid CE Workshop 1   session 06 - Data quality during digitization
Bid CE Workshop 1 session 06 - Data quality during digitizationAlberto González-Talaván
 
Dicen Tagging Mars2010
Dicen Tagging Mars2010Dicen Tagging Mars2010
Dicen Tagging Mars2010Freddy Limpens
 
Formation Rameau Bernard Dubourg SCD Limoges 26 11 2021
Formation Rameau Bernard Dubourg SCD Limoges 26 11 2021Formation Rameau Bernard Dubourg SCD Limoges 26 11 2021
Formation Rameau Bernard Dubourg SCD Limoges 26 11 2021BernardDubourg
 
La recherche approchée de motifs : théorie et applications
La recherche approchée de motifs : théorie et applications La recherche approchée de motifs : théorie et applications
La recherche approchée de motifs : théorie et applications Ibrahim Chegrane
 
Détection de communautés dans des réseaux d’information utilisant liens et at...
Détection de communautés dans des réseaux d’information utilisant liens et at...Détection de communautés dans des réseaux d’information utilisant liens et at...
Détection de communautés dans des réseaux d’information utilisant liens et at...David Combe
 
L’acquisition d’un outil de découverte_Expérience de l'Université Sherbrooke_...
L’acquisition d’un outil de découverte_Expérience de l'Université Sherbrooke_...L’acquisition d’un outil de découverte_Expérience de l'Université Sherbrooke_...
L’acquisition d’un outil de découverte_Expérience de l'Université Sherbrooke_...nst2011
 

Similaire à Identification de compatibilites sémantiques entre descripteurs de lieux (11)

Identification de compatibilités entre tages descriptifs de lieux
Identification de compatibilités entre tages descriptifs de lieuxIdentification de compatibilités entre tages descriptifs de lieux
Identification de compatibilités entre tages descriptifs de lieux
 
Retour d'expérience choix d'une méthode de conception en ingénierie pédagog...
Retour d'expérience   choix d'une méthode de conception en ingénierie pédagog...Retour d'expérience   choix d'une méthode de conception en ingénierie pédagog...
Retour d'expérience choix d'une méthode de conception en ingénierie pédagog...
 
coursMLD.pdf djnvvvvvvvvvvvvvvvv jd dvjjjjjjjjjjjjjjj
coursMLD.pdf djnvvvvvvvvvvvvvvvv jd           dvjjjjjjjjjjjjjjjcoursMLD.pdf djnvvvvvvvvvvvvvvvv jd           dvjjjjjjjjjjjjjjj
coursMLD.pdf djnvvvvvvvvvvvvvvvv jd dvjjjjjjjjjjjjjjj
 
coursMLD.pdfnw wx c c c c c c cc c c c c c cckck
coursMLD.pdfnw wx c c c c c c cc c c c c c cckckcoursMLD.pdfnw wx c c c c c c cc c c c c c cckck
coursMLD.pdfnw wx c c c c c c cc c c c c c cckck
 
coursMLD.pdf dnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnn...
coursMLD.pdf dnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnn...coursMLD.pdf dnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnn...
coursMLD.pdf dnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnn...
 
Bid CE Workshop 1 session 06 - Data quality during digitization
Bid CE Workshop 1   session 06 - Data quality during digitizationBid CE Workshop 1   session 06 - Data quality during digitization
Bid CE Workshop 1 session 06 - Data quality during digitization
 
Dicen Tagging Mars2010
Dicen Tagging Mars2010Dicen Tagging Mars2010
Dicen Tagging Mars2010
 
Formation Rameau Bernard Dubourg SCD Limoges 26 11 2021
Formation Rameau Bernard Dubourg SCD Limoges 26 11 2021Formation Rameau Bernard Dubourg SCD Limoges 26 11 2021
Formation Rameau Bernard Dubourg SCD Limoges 26 11 2021
 
La recherche approchée de motifs : théorie et applications
La recherche approchée de motifs : théorie et applications La recherche approchée de motifs : théorie et applications
La recherche approchée de motifs : théorie et applications
 
Détection de communautés dans des réseaux d’information utilisant liens et at...
Détection de communautés dans des réseaux d’information utilisant liens et at...Détection de communautés dans des réseaux d’information utilisant liens et at...
Détection de communautés dans des réseaux d’information utilisant liens et at...
 
L’acquisition d’un outil de découverte_Expérience de l'Université Sherbrooke_...
L’acquisition d’un outil de découverte_Expérience de l'Université Sherbrooke_...L’acquisition d’un outil de découverte_Expérience de l'Université Sherbrooke_...
L’acquisition d’un outil de découverte_Expérience de l'Université Sherbrooke_...
 

Plus de Estelle Delpech

Génération automatique de texte
Génération automatique de texteGénération automatique de texte
Génération automatique de texteEstelle Delpech
 
Découverte du Traitement Automatique des Langues
Découverte du Traitement Automatique des LanguesDécouverte du Traitement Automatique des Langues
Découverte du Traitement Automatique des LanguesEstelle Delpech
 
Invited speaker, ATALA 2014 Ph. D. Thesis award
Invited speaker, ATALA 2014 Ph. D. Thesis awardInvited speaker, ATALA 2014 Ph. D. Thesis award
Invited speaker, ATALA 2014 Ph. D. Thesis awardEstelle Delpech
 
Corpus comparables et traduction assistée par ordinateur, contributions à la ...
Corpus comparables et traduction assistée par ordinateur, contributions à la ...Corpus comparables et traduction assistée par ordinateur, contributions à la ...
Corpus comparables et traduction assistée par ordinateur, contributions à la ...Estelle Delpech
 
Usage du TAL dans des applications industrielles : gestion des contenus multi...
Usage du TAL dans des applications industrielles : gestion des contenus multi...Usage du TAL dans des applications industrielles : gestion des contenus multi...
Usage du TAL dans des applications industrielles : gestion des contenus multi...Estelle Delpech
 
Nomao: data analysis for personalized local search
Nomao: data analysis for personalized local searchNomao: data analysis for personalized local search
Nomao: data analysis for personalized local searchEstelle Delpech
 
Nomao: carnet de bonnes adresses (entre amis)
Nomao: carnet de bonnes adresses (entre amis)Nomao: carnet de bonnes adresses (entre amis)
Nomao: carnet de bonnes adresses (entre amis)Estelle Delpech
 
Nomao: local search and recommendation engine
Nomao: local search and recommendation engineNomao: local search and recommendation engine
Nomao: local search and recommendation engineEstelle Delpech
 
Extraction of domain-specific bilingual lexicon from comparable corpora: comp...
Extraction of domain-specific bilingual lexicon from comparable corpora: comp...Extraction of domain-specific bilingual lexicon from comparable corpora: comp...
Extraction of domain-specific bilingual lexicon from comparable corpora: comp...Estelle Delpech
 
Identification of Fertile Translations in Comparable Corpora: a Morpho-Compos...
Identification of Fertile Translations in Comparable Corpora: a Morpho-Compos...Identification of Fertile Translations in Comparable Corpora: a Morpho-Compos...
Identification of Fertile Translations in Comparable Corpora: a Morpho-Compos...Estelle Delpech
 
Applicative evaluation of bilingual terminologies
Applicative evaluation of bilingual terminologiesApplicative evaluation of bilingual terminologies
Applicative evaluation of bilingual terminologiesEstelle Delpech
 
Évaluation applicative des terminologies destinées à la traduction spécialisée
Évaluation applicative des terminologies destinées à la traduction spécialiséeÉvaluation applicative des terminologies destinées à la traduction spécialisée
Évaluation applicative des terminologies destinées à la traduction spécialiséeEstelle Delpech
 
Dealing with Lexicon Acquired from Comparable Corpora: post-edition and exchange
Dealing with Lexicon Acquired from Comparable Corpora: post-edition and exchangeDealing with Lexicon Acquired from Comparable Corpora: post-edition and exchange
Dealing with Lexicon Acquired from Comparable Corpora: post-edition and exchangeEstelle Delpech
 
Bilingual terminology mining
Bilingual terminology miningBilingual terminology mining
Bilingual terminology miningEstelle Delpech
 
Robust rule-based parsing
Robust rule-based parsingRobust rule-based parsing
Robust rule-based parsingEstelle Delpech
 
Experimenting the TextTiling Algorithm
Experimenting the TextTiling AlgorithmExperimenting the TextTiling Algorithm
Experimenting the TextTiling AlgorithmEstelle Delpech
 
Text Processing for Procedural Question Answering
Text Processing for Procedural Question AnsweringText Processing for Procedural Question Answering
Text Processing for Procedural Question AnsweringEstelle Delpech
 

Plus de Estelle Delpech (18)

Génération automatique de texte
Génération automatique de texteGénération automatique de texte
Génération automatique de texte
 
Découverte du Traitement Automatique des Langues
Découverte du Traitement Automatique des LanguesDécouverte du Traitement Automatique des Langues
Découverte du Traitement Automatique des Langues
 
Invited speaker, ATALA 2014 Ph. D. Thesis award
Invited speaker, ATALA 2014 Ph. D. Thesis awardInvited speaker, ATALA 2014 Ph. D. Thesis award
Invited speaker, ATALA 2014 Ph. D. Thesis award
 
Corpus comparables et traduction assistée par ordinateur, contributions à la ...
Corpus comparables et traduction assistée par ordinateur, contributions à la ...Corpus comparables et traduction assistée par ordinateur, contributions à la ...
Corpus comparables et traduction assistée par ordinateur, contributions à la ...
 
Usage du TAL dans des applications industrielles : gestion des contenus multi...
Usage du TAL dans des applications industrielles : gestion des contenus multi...Usage du TAL dans des applications industrielles : gestion des contenus multi...
Usage du TAL dans des applications industrielles : gestion des contenus multi...
 
Nomao: data analysis for personalized local search
Nomao: data analysis for personalized local searchNomao: data analysis for personalized local search
Nomao: data analysis for personalized local search
 
Nomao: carnet de bonnes adresses (entre amis)
Nomao: carnet de bonnes adresses (entre amis)Nomao: carnet de bonnes adresses (entre amis)
Nomao: carnet de bonnes adresses (entre amis)
 
Nomao: local search and recommendation engine
Nomao: local search and recommendation engineNomao: local search and recommendation engine
Nomao: local search and recommendation engine
 
Extraction of domain-specific bilingual lexicon from comparable corpora: comp...
Extraction of domain-specific bilingual lexicon from comparable corpora: comp...Extraction of domain-specific bilingual lexicon from comparable corpora: comp...
Extraction of domain-specific bilingual lexicon from comparable corpora: comp...
 
Identification of Fertile Translations in Comparable Corpora: a Morpho-Compos...
Identification of Fertile Translations in Comparable Corpora: a Morpho-Compos...Identification of Fertile Translations in Comparable Corpora: a Morpho-Compos...
Identification of Fertile Translations in Comparable Corpora: a Morpho-Compos...
 
Applicative evaluation of bilingual terminologies
Applicative evaluation of bilingual terminologiesApplicative evaluation of bilingual terminologies
Applicative evaluation of bilingual terminologies
 
Évaluation applicative des terminologies destinées à la traduction spécialisée
Évaluation applicative des terminologies destinées à la traduction spécialiséeÉvaluation applicative des terminologies destinées à la traduction spécialisée
Évaluation applicative des terminologies destinées à la traduction spécialisée
 
Dealing with Lexicon Acquired from Comparable Corpora: post-edition and exchange
Dealing with Lexicon Acquired from Comparable Corpora: post-edition and exchangeDealing with Lexicon Acquired from Comparable Corpora: post-edition and exchange
Dealing with Lexicon Acquired from Comparable Corpora: post-edition and exchange
 
R&D Lingua et Machina
R&D Lingua et MachinaR&D Lingua et Machina
R&D Lingua et Machina
 
Bilingual terminology mining
Bilingual terminology miningBilingual terminology mining
Bilingual terminology mining
 
Robust rule-based parsing
Robust rule-based parsingRobust rule-based parsing
Robust rule-based parsing
 
Experimenting the TextTiling Algorithm
Experimenting the TextTiling AlgorithmExperimenting the TextTiling Algorithm
Experimenting the TextTiling Algorithm
 
Text Processing for Procedural Question Answering
Text Processing for Procedural Question AnsweringText Processing for Procedural Question Answering
Text Processing for Procedural Question Answering
 

Identification de compatibilites sémantiques entre descripteurs de lieux

  • 1. Identification de compatibilités entre tags descriptifs de lieux Estelle Delpech1,2 , Laurent Candillier1,2 , Léa Laporte1,2,3 , Samuel Phan1,2 1 Nomao, 2 Ebuzzing , 3 IRIT 13e Conférence Francophone sur l’Extraction et la Gestion des Connaissances Toulouse, 31 janvier 2013
  • 2. Plan 1. Contexte & travaux apparentés 2. Expériences 3. Conclusion et perspectives
  • 3. Plan 1. Contexte & travaux apparentés 2. Expériences 3. Conclusion et perspectives
  • 4. Contexte : recherche d’information locale http://fr.nomao.com 1 / 29
  • 5. Processus d’extraction et d’agrégation de données 2 / 29
  • 6. Dédoublonnage de données DESCRIPTIF 1 DESCRIPTIF 2  nom : Les Caves de La Maréchale   adresse :     rue : Rue Chalande     ville : Toulouse     tel : 05.61.23.89.88 tags : restaurant, sud-ouest  3 / 29  nom : Caves de La Maréchale SARL   adresse :     rue : Rue Jules Chalande     ville : Toulouse     tel : 0561238988 tags : manger, français 
  • 7. Données bruitées DESCRIPTIF   nom : Milhau Jean-Paul  adresse :     rue : 147 avenue des minimes     ville : Toulouse     tel : 05.61.47.40.40     tags : pédiatre, médecin , spécialiste, vie pratique  santé, installations et techniques sanitaires, plomberie 4 / 29
  • 8. Objectif : acquisition de compatibilités entre tags Compatibilité Deux tags sont compatibles s’ils peuvent être associés au même lieu sans qu’il en résulte une incohérence pragmatique ⇒ relation symétrique ⇒ binaire ou graduelle selon besoins restaurant vs. manger : compatible médecin vs. plombier : incompatible concessionaire vs. réparation vélo : ? 5 / 29
  • 9. Données disponibles Hiérarchie de tags Descriptifs de lieux eux-mêmes 6 / 29
  • 10. Hiérarchie de tags Indices de compatibilité : distance relation hiérarchique propriétés 7 / 29
  • 11. Hiérarchie de tags - travaux apparentés Mesures d’affinités sémantiques calculées à partir de ressources structurées en graphes [Budanitsky and Hirst, 2006] : ressources – réseaux lexicaux : WordNet – ontologies : MeSH – dictionnaires : arc entre vedette et mots définition Mesures basées sur : – – – – plus court chemin profondeur des nœuds plus proche parent étiquette de l’arc Évaluation : – applicative – corrélation jugements humains 8 / 29
  • 12. Descriptifs de lieux Descriptif = diverses informations dont : – identifiant de lieu – ensemble de tags – sources ayant fourni le lieu Indices de compatibilité : – tendance de deux tags à apparaître dans les mêmes lieux – tendance de deux tags à apparaître avec les mêmes tags – tendance de deux tags à être donné par les mêmes sources [non fait] – etc... 9 / 29
  • 13. Travaux apparentés : folksonomies Classification issue d’une communauté Exemples : Flickr, Delicious – ensemble de ressources : pages web, photos, – annotées par des utilisateurs, – à l’aide de tags. 10 / 29
  • 14. Définition [Hotho et al., 2006] Folksonomie := (U, T , R, Y ) – – – – – T = {t1 , ...tm } est un ensemble de tags U = {u1 , ...un } est un ensemble d’utilisateurs ↔ sources R = {r1 , ...rp } est un ensemble de ressources ↔ lieux Y ⊆U×T ×R triplet (u, t, r) ∈ Y . attribution du tag t à la ressource r par l’utilisateur u ↔ attribution du tag t au lieu r par la source u 11 / 29
  • 15. Identification d’affinités entre tags Applications : – aide à la navigation : recommandation, affinage de requêtes – acquisition d’ontologies Calcul de l’affinité basée sur [Cattuto et al., 2008, Markines et al., 2009] : – mesure statistique de la co-occurrence de t1 et t2 dans les mêmes ressources – représentation vectorielle : comparaison des ressources ou tags ou utilisateurs associés à t1 et t2 Evaluation : – applicative – corrélation avec la mesure de [Jiang and Conrath, 1997] 12 / 29
  • 16. Plan 1. Contexte travaux apparentés 2. Expériences 3. Conclusion et perspectives
  • 17. Expériences Score de compatibilité – C HEVAUCH L IEUX – TAGS VOISINS Classification automatique : C OMPATIBLE/ I NCOMPATIBLE – L IEUX – H IERARCHIE TAGS – C OMBINAISON 13 / 29
  • 18. C HEVAUCH L IEUX Compatibilité de t1 et t2 = coefficient de chevauchement entre les lieux ayant reçu t1 et les lieux ayant reçu t2 Overlap(t1 , t2 ) = |L(t1 ) ∩ L(t2 )| min(|L(t1 )|, |L(t2 )|) 14 / 29
  • 19. TAGS VOISINS Compatibilité de t1 et t2 = similarité entre le voisinage de t1 et le voisinage de t2 Voisinage d’un tag = vecteur contenant le nombre de fois ce tag où il co-occurre avec les autres tags Cos(t1 , t2 ) = 15 / 29 t1 · t2 t1 · t2
  • 20. L IEUX Modèle de classification appris à partir de 4 variables : – – – – |L(t1 ) ∩ L(t2 )| |L(t1 ) ∪ L(t2 )| min(|L(t1 )|, |L(t2 )|) max(|L(t1 )|, |L(t2 )|) 16 / 29
  • 21. H IERARCHIE TAGS Modèle de classification appris à partir de 10 variables tirées de la hiérarchie de tags : 1. 2. 3. 4. 5. nb. de chemins entre t1 et t2 distance min. entre t1 et t2 distance max. entre t1 et t2 nb. de chemins dans lesquels t1 précède t2 ou t2 précède t1 nb. de tags dans {t1 , t2 } correspondant à un nom de marque (i.e Campanile, Ikéa...) 6. ... 17 / 29
  • 22. C OMBINAISON Modèle de classification appris à partir de 16 variables : – – – – score co-occurrence : C HEVAUCH L IEUX score voisinage : TAGS VOISINS 10 variables de H IERARCHIE TAGS 4 variables de L IEUX 18 / 29
  • 23. Données expérimentales 15 millions de lieux 3696 tags 590 paires de tags annotées avec 2 classes : C OMPATIBLE/ I NCOMPATIBLE – – – – 7 annotateurs 1/3 paires annotées par au moins deux annotateurs Taux de désaccord entre annotateurs : 12% Désaccords : annotation de l’annotateur le plus consensuel ⇒ 41%C OMPATIBLE/ 59% I NCOMPATIBLE 19 / 29
  • 24. Classifieur Boosting d’arbre de décision - C5 [Quinlan, 1996] – plusieurs petits arbres – vote Paramétrage : 100 arbres 20 / 29
  • 25. Évaluation Taux d’erreur : % paires de tags mal classifiées ⇒ Validation croisée à 10 blocs – C HEVAUCH L IEUX, TAGS VOISINS : seuil de compatibilité appris sur exemples – H IERARCHIE TAGS, L IEUX, C OMBINAISON : classe donnée par C5 Aire sous la courbe ROC – C HEVAUCH L IEUX, TAGS VOISINS : score – H IERARCHIE TAGS, L IEUX, C OMBINAISON : utilisation du score de confiance de C5 21 / 29
  • 26. Résultats C OMBINAISON L IEUX C HEVAUCH L IEUX H IERARCHIE TAGS TAGS VOISINS taux d’erreur moyen 0,237 0,258 0,264 0,293 0,327 22 / 29 AUROC 0,84 0,82 0,81 0,73 0,70
  • 27. Résultats significativement meilleurs t-test unilatéral apparié significativement meilleur si valeur p 5% L IEUX C HEVAUCH L IEUX H IERARCHIE TAGS TAGS VOISINS C OMBINAISON 14% 8% 2% 0,2 % L IEUX 17% 9% 1% C HEVAUCH L IEUX 14% 2% H IERARCHIE TAGS 20% 23 / 29
  • 28. Variation du taux d’erreur L IEUX C OMBINAISON C HEVAUCH L IEUX TAGS VOISINS H IERARCHIE TAGS taux d’erreur moyen 0,258 0,237 0,264 0,327 0,293 24 / 29 taux d’erreur médian 0,254 0,229 0,254 0,348 0,288 écart-type 0,045 0,052 0,053 0,071 0,077
  • 29. Plan 1. Contexte travaux apparentés 2. Expériences 3. Conclusion et perspectives
  • 30. Conclusion Méthode choisie : L IEUX – parmi les meilleures – robuste – simple à mettre en œuvre Taux d’erreur : 25,8% Taux de désaccords entre humains : 12% ⇒ Apport pour le dédoublonnage, nettoyage 25 / 29
  • 31. Application au nettoyage des données tags faux identifiés tags corrects perdus données brutes 15,5% 0 nettoyage hiérarchie 2,5% 12,5% nettoyage hiérarchie 3,7% 1% + compatibilité 26 / 29
  • 32. Perspectives Méthode perfectible – utilisation des sources – ressources sémantiques non spécifiques à Nomao Intégration au processus de dédoublonnage Méthode applicable à d’autres champs des descriptifs : – termes – commentaires 27 / 29
  • 33. Références I Budanitsky, A. and Hirst, G. (2006). Evaluating WordNet-based measures of lexical semantic relatedness. Journal of Computational Linguistics, 32(1) :13–47. Cattuto, C., Benz, D., Hotho, A., and Stumme, G. (2008). Semantic grounding of tag relatedness in social bookmarking systems. In Proceedings of the 7th International Conference on The Semantic Web, pages 615–631, Karlsruhe, Germany. Hotho, A., Jäschke, R., Schmitz, C., and Stumme, G. (2006). Information retrieval in folksonomies : search and ranking. In Proceedings of the 3rd European conference on The Semantic Web : research and applications, pages 411–426, Budva, Montenegro. Jiang, J. J. and Conrath, D. W. (1997). Semantic similarity based on corpus statistics and lexical taxonomy. In Proceedings of the International Conference on Research in Computational Linguistics, Taïwan.
  • 34. Références II Markines, B., Cattuto, C., Menczer, F., Benz, D., Hotho, A., and Stumme, G. (2009). Evaluating similarity measures for emergent semantics of social tagging. In Proceedings of the 18th international conference on World wide web, pages 641–650, Madrid, Spain. Quinlan, R. (1996). Bagging, boosting and c4.5. In 13th National Conference on Artificial Intelligence, pages 725–730.