Identification de
compatibilités entre tags
descriptifs de lieux
Estelle Delpech1,2 , Laurent Candillier1,2 , Léa Laporte1,...
Plan

1. Contexte & travaux apparentés
2. Expériences
3. Conclusion et perspectives
Plan

1. Contexte & travaux apparentés

2. Expériences

3. Conclusion et perspectives
Contexte : recherche d’information locale

http://fr.nomao.com

1 / 29
Processus d’extraction et d’agrégation de
données

2 / 29
Dédoublonnage de données

DESCRIPTIF 1

DESCRIPTIF 2


nom : Les Caves de La Maréchale

 adresse :



 rue : Rue Ch...
Données bruitées

DESCRIPTIF



nom : Milhau Jean-Paul
 adresse :



 rue : 147 avenue des minimes



 ville : ...
Objectif : acquisition de compatibilités
entre tags

Compatibilité
Deux tags sont compatibles s’ils peuvent être associés ...
Données disponibles

 Hiérarchie de tags
 Descriptifs de lieux eux-mêmes

6 / 29
Hiérarchie de tags

Indices de compatibilité :
 distance
 relation hiérarchique
 propriétés

7 / 29
Hiérarchie de tags - travaux apparentés
Mesures d’affinités sémantiques calculées à partir de ressources
structurées en gra...
Descriptifs de lieux

 Descriptif = diverses informations dont :
– identifiant de lieu
– ensemble de tags
– sources ayant f...
Travaux apparentés : folksonomies

 Classification issue d’une communauté
 Exemples : Flickr, Delicious
– ensemble de resso...
Définition [Hotho et al., 2006]

 Folksonomie := (U, T , R, Y )
–
–
–
–
–

T = {t1 , ...tm } est un ensemble de tags
U = {u...
Identification d’affinités entre tags

 Applications :
– aide à la navigation : recommandation, affinage de
requêtes
– acquis...
Plan

1. Contexte  travaux apparentés

2. Expériences

3. Conclusion et perspectives
Expériences

 Score de compatibilité
– C HEVAUCH L IEUX
– TAGS VOISINS

 Classification automatique : C OMPATIBLE/ I NCOMPA...
C HEVAUCH L IEUX

 Compatibilité de t1 et t2 =
coefficient de chevauchement entre les lieux ayant reçu
t1 et les lieux ayan...
TAGS VOISINS

 Compatibilité de t1 et t2 =
similarité entre le voisinage de t1 et le voisinage de t2
 Voisinage d’un tag =...
L IEUX

 Modèle de classification appris à partir de 4 variables :
–
–
–
–

|L(t1 ) ∩ L(t2 )|
|L(t1 ) ∪ L(t2 )|
min(|L(t1 )...
H IERARCHIE TAGS

 Modèle de classification appris à partir de 10 variables
tirées de la hiérarchie de tags :
1.
2.
3.
4.
5...
C OMBINAISON

 Modèle de classification appris à partir de 16 variables :
–
–
–
–

score co-occurrence : C HEVAUCH L IEUX
s...
Données expérimentales

 15 millions de lieux
 3696 tags
 590 paires de tags annotées avec 2 classes : C OMPATIBLE/
I NCOM...
Classifieur

 Boosting d’arbre de décision - C5 [Quinlan, 1996]
– plusieurs petits arbres
– vote

 Paramétrage : 100 arbres...
Évaluation

 Taux d’erreur : % paires de tags mal classifiées
⇒ Validation croisée à 10 blocs
– C HEVAUCH L IEUX, TAGS VOIS...
Résultats

C OMBINAISON
L IEUX
C HEVAUCH L IEUX
H IERARCHIE TAGS
TAGS VOISINS

taux d’erreur moyen
0,237
0,258
0,264
0,293...
Résultats significativement meilleurs

 t-test unilatéral apparié
 significativement meilleur si valeur p  5%

L IEUX C HEVA...
Variation du taux d’erreur

L IEUX
C OMBINAISON
C HEVAUCH L IEUX
TAGS VOISINS
H IERARCHIE TAGS

taux d’erreur
moyen
0,258
...
Plan

1. Contexte  travaux apparentés

2. Expériences

3. Conclusion et perspectives
Conclusion

 Méthode choisie : L IEUX
– parmi les meilleures
– robuste
– simple à mettre en œuvre

 Taux d’erreur : 25,8%
...
Application au nettoyage des données

tags faux
identifiés

tags corrects
perdus

données brutes

15,5%

0

nettoyage hiéra...
Perspectives

 Méthode perfectible
– utilisation des sources
– ressources sémantiques non spécifiques à Nomao

 Intégration...
Références I
Budanitsky, A. and Hirst, G. (2006).
Evaluating WordNet-based measures of lexical semantic relatedness.
Journ...
Références II

Markines, B., Cattuto, C., Menczer, F., Benz, D., Hotho, A., and Stumme, G.
(2009).
Evaluating similarity m...
Prochain SlideShare
Chargement dans…5
×

Identification de compatibilites sémantiques entre descripteurs de lieux

500 vues

Publié le

Présentation effectuée lors de la 13e Conférence Francophone sur l'Extraction et la Gestion des Connaissances, le 31/12/2013, Toulouse, France.
Vidéo : http://www.canalc2.tv/video.asp?idVideo=11682
Article associé : http://hal.archives-ouvertes.fr/hal-00912332

Publié dans : Technologie
0 commentaire
1 j’aime
Statistiques
Remarques
  • Soyez le premier à commenter

Aucun téléchargement
Vues
Nombre de vues
500
Sur SlideShare
0
Issues des intégrations
0
Intégrations
8
Actions
Partages
0
Téléchargements
10
Commentaires
0
J’aime
1
Intégrations 0
Aucune incorporation

Aucune remarque pour cette diapositive

Identification de compatibilites sémantiques entre descripteurs de lieux

  1. 1. Identification de compatibilités entre tags descriptifs de lieux Estelle Delpech1,2 , Laurent Candillier1,2 , Léa Laporte1,2,3 , Samuel Phan1,2 1 Nomao, 2 Ebuzzing , 3 IRIT 13e Conférence Francophone sur l’Extraction et la Gestion des Connaissances Toulouse, 31 janvier 2013
  2. 2. Plan 1. Contexte & travaux apparentés 2. Expériences 3. Conclusion et perspectives
  3. 3. Plan 1. Contexte & travaux apparentés 2. Expériences 3. Conclusion et perspectives
  4. 4. Contexte : recherche d’information locale http://fr.nomao.com 1 / 29
  5. 5. Processus d’extraction et d’agrégation de données 2 / 29
  6. 6. Dédoublonnage de données DESCRIPTIF 1 DESCRIPTIF 2  nom : Les Caves de La Maréchale   adresse :     rue : Rue Chalande     ville : Toulouse     tel : 05.61.23.89.88 tags : restaurant, sud-ouest  3 / 29  nom : Caves de La Maréchale SARL   adresse :     rue : Rue Jules Chalande     ville : Toulouse     tel : 0561238988 tags : manger, français 
  7. 7. Données bruitées DESCRIPTIF   nom : Milhau Jean-Paul  adresse :     rue : 147 avenue des minimes     ville : Toulouse     tel : 05.61.47.40.40     tags : pédiatre, médecin , spécialiste, vie pratique  santé, installations et techniques sanitaires, plomberie 4 / 29
  8. 8. Objectif : acquisition de compatibilités entre tags Compatibilité Deux tags sont compatibles s’ils peuvent être associés au même lieu sans qu’il en résulte une incohérence pragmatique ⇒ relation symétrique ⇒ binaire ou graduelle selon besoins restaurant vs. manger : compatible médecin vs. plombier : incompatible concessionaire vs. réparation vélo : ? 5 / 29
  9. 9. Données disponibles Hiérarchie de tags Descriptifs de lieux eux-mêmes 6 / 29
  10. 10. Hiérarchie de tags Indices de compatibilité : distance relation hiérarchique propriétés 7 / 29
  11. 11. Hiérarchie de tags - travaux apparentés Mesures d’affinités sémantiques calculées à partir de ressources structurées en graphes [Budanitsky and Hirst, 2006] : ressources – réseaux lexicaux : WordNet – ontologies : MeSH – dictionnaires : arc entre vedette et mots définition Mesures basées sur : – – – – plus court chemin profondeur des nœuds plus proche parent étiquette de l’arc Évaluation : – applicative – corrélation jugements humains 8 / 29
  12. 12. Descriptifs de lieux Descriptif = diverses informations dont : – identifiant de lieu – ensemble de tags – sources ayant fourni le lieu Indices de compatibilité : – tendance de deux tags à apparaître dans les mêmes lieux – tendance de deux tags à apparaître avec les mêmes tags – tendance de deux tags à être donné par les mêmes sources [non fait] – etc... 9 / 29
  13. 13. Travaux apparentés : folksonomies Classification issue d’une communauté Exemples : Flickr, Delicious – ensemble de ressources : pages web, photos, – annotées par des utilisateurs, – à l’aide de tags. 10 / 29
  14. 14. Définition [Hotho et al., 2006] Folksonomie := (U, T , R, Y ) – – – – – T = {t1 , ...tm } est un ensemble de tags U = {u1 , ...un } est un ensemble d’utilisateurs ↔ sources R = {r1 , ...rp } est un ensemble de ressources ↔ lieux Y ⊆U×T ×R triplet (u, t, r) ∈ Y . attribution du tag t à la ressource r par l’utilisateur u ↔ attribution du tag t au lieu r par la source u 11 / 29
  15. 15. Identification d’affinités entre tags Applications : – aide à la navigation : recommandation, affinage de requêtes – acquisition d’ontologies Calcul de l’affinité basée sur [Cattuto et al., 2008, Markines et al., 2009] : – mesure statistique de la co-occurrence de t1 et t2 dans les mêmes ressources – représentation vectorielle : comparaison des ressources ou tags ou utilisateurs associés à t1 et t2 Evaluation : – applicative – corrélation avec la mesure de [Jiang and Conrath, 1997] 12 / 29
  16. 16. Plan 1. Contexte travaux apparentés 2. Expériences 3. Conclusion et perspectives
  17. 17. Expériences Score de compatibilité – C HEVAUCH L IEUX – TAGS VOISINS Classification automatique : C OMPATIBLE/ I NCOMPATIBLE – L IEUX – H IERARCHIE TAGS – C OMBINAISON 13 / 29
  18. 18. C HEVAUCH L IEUX Compatibilité de t1 et t2 = coefficient de chevauchement entre les lieux ayant reçu t1 et les lieux ayant reçu t2 Overlap(t1 , t2 ) = |L(t1 ) ∩ L(t2 )| min(|L(t1 )|, |L(t2 )|) 14 / 29
  19. 19. TAGS VOISINS Compatibilité de t1 et t2 = similarité entre le voisinage de t1 et le voisinage de t2 Voisinage d’un tag = vecteur contenant le nombre de fois ce tag où il co-occurre avec les autres tags Cos(t1 , t2 ) = 15 / 29 t1 · t2 t1 · t2
  20. 20. L IEUX Modèle de classification appris à partir de 4 variables : – – – – |L(t1 ) ∩ L(t2 )| |L(t1 ) ∪ L(t2 )| min(|L(t1 )|, |L(t2 )|) max(|L(t1 )|, |L(t2 )|) 16 / 29
  21. 21. H IERARCHIE TAGS Modèle de classification appris à partir de 10 variables tirées de la hiérarchie de tags : 1. 2. 3. 4. 5. nb. de chemins entre t1 et t2 distance min. entre t1 et t2 distance max. entre t1 et t2 nb. de chemins dans lesquels t1 précède t2 ou t2 précède t1 nb. de tags dans {t1 , t2 } correspondant à un nom de marque (i.e Campanile, Ikéa...) 6. ... 17 / 29
  22. 22. C OMBINAISON Modèle de classification appris à partir de 16 variables : – – – – score co-occurrence : C HEVAUCH L IEUX score voisinage : TAGS VOISINS 10 variables de H IERARCHIE TAGS 4 variables de L IEUX 18 / 29
  23. 23. Données expérimentales 15 millions de lieux 3696 tags 590 paires de tags annotées avec 2 classes : C OMPATIBLE/ I NCOMPATIBLE – – – – 7 annotateurs 1/3 paires annotées par au moins deux annotateurs Taux de désaccord entre annotateurs : 12% Désaccords : annotation de l’annotateur le plus consensuel ⇒ 41%C OMPATIBLE/ 59% I NCOMPATIBLE 19 / 29
  24. 24. Classifieur Boosting d’arbre de décision - C5 [Quinlan, 1996] – plusieurs petits arbres – vote Paramétrage : 100 arbres 20 / 29
  25. 25. Évaluation Taux d’erreur : % paires de tags mal classifiées ⇒ Validation croisée à 10 blocs – C HEVAUCH L IEUX, TAGS VOISINS : seuil de compatibilité appris sur exemples – H IERARCHIE TAGS, L IEUX, C OMBINAISON : classe donnée par C5 Aire sous la courbe ROC – C HEVAUCH L IEUX, TAGS VOISINS : score – H IERARCHIE TAGS, L IEUX, C OMBINAISON : utilisation du score de confiance de C5 21 / 29
  26. 26. Résultats C OMBINAISON L IEUX C HEVAUCH L IEUX H IERARCHIE TAGS TAGS VOISINS taux d’erreur moyen 0,237 0,258 0,264 0,293 0,327 22 / 29 AUROC 0,84 0,82 0,81 0,73 0,70
  27. 27. Résultats significativement meilleurs t-test unilatéral apparié significativement meilleur si valeur p 5% L IEUX C HEVAUCH L IEUX H IERARCHIE TAGS TAGS VOISINS C OMBINAISON 14% 8% 2% 0,2 % L IEUX 17% 9% 1% C HEVAUCH L IEUX 14% 2% H IERARCHIE TAGS 20% 23 / 29
  28. 28. Variation du taux d’erreur L IEUX C OMBINAISON C HEVAUCH L IEUX TAGS VOISINS H IERARCHIE TAGS taux d’erreur moyen 0,258 0,237 0,264 0,327 0,293 24 / 29 taux d’erreur médian 0,254 0,229 0,254 0,348 0,288 écart-type 0,045 0,052 0,053 0,071 0,077
  29. 29. Plan 1. Contexte travaux apparentés 2. Expériences 3. Conclusion et perspectives
  30. 30. Conclusion Méthode choisie : L IEUX – parmi les meilleures – robuste – simple à mettre en œuvre Taux d’erreur : 25,8% Taux de désaccords entre humains : 12% ⇒ Apport pour le dédoublonnage, nettoyage 25 / 29
  31. 31. Application au nettoyage des données tags faux identifiés tags corrects perdus données brutes 15,5% 0 nettoyage hiérarchie 2,5% 12,5% nettoyage hiérarchie 3,7% 1% + compatibilité 26 / 29
  32. 32. Perspectives Méthode perfectible – utilisation des sources – ressources sémantiques non spécifiques à Nomao Intégration au processus de dédoublonnage Méthode applicable à d’autres champs des descriptifs : – termes – commentaires 27 / 29
  33. 33. Références I Budanitsky, A. and Hirst, G. (2006). Evaluating WordNet-based measures of lexical semantic relatedness. Journal of Computational Linguistics, 32(1) :13–47. Cattuto, C., Benz, D., Hotho, A., and Stumme, G. (2008). Semantic grounding of tag relatedness in social bookmarking systems. In Proceedings of the 7th International Conference on The Semantic Web, pages 615–631, Karlsruhe, Germany. Hotho, A., Jäschke, R., Schmitz, C., and Stumme, G. (2006). Information retrieval in folksonomies : search and ranking. In Proceedings of the 3rd European conference on The Semantic Web : research and applications, pages 411–426, Budva, Montenegro. Jiang, J. J. and Conrath, D. W. (1997). Semantic similarity based on corpus statistics and lexical taxonomy. In Proceedings of the International Conference on Research in Computational Linguistics, Taïwan.
  34. 34. Références II Markines, B., Cattuto, C., Menczer, F., Benz, D., Hotho, A., and Stumme, G. (2009). Evaluating similarity measures for emergent semantics of social tagging. In Proceedings of the 18th international conference on World wide web, pages 641–650, Madrid, Spain. Quinlan, R. (1996). Bagging, boosting and c4.5. In 13th National Conference on Artificial Intelligence, pages 725–730.

×