Identification de compatibilités entre tages descriptifs de lieux

Identiﬁcation de
compatibilités entre tags
descriptifs de lieux
Estelle Delpech1,2
, Laurent Candillier1,2
, Léa Laporte1,2,3
, Samuel Phan1,2
1Nomao, 2Ebuzzing , 3IRIT
13e Conférence Francophone sur l’Extraction et la Gestion des Connaissances
Toulouse, 31 janvier 2013

Plan
1. Contexte & travaux apparentés
2. Expériences
3. Conclusion et perspectives

Contexte : recherche d’information locale
http://fr.nomao.com
1 / 29

Processus d’extraction et d’agrégation de
données
2 / 29

Dédoublonnage de données
DESCRIPTIF 1







nom : Les Caves de La Maréchale
adresse :
rue : Rue Chalande
ville : Toulouse
tel : 05.61.23.89.88
tags : restaurant, sud-ouest








DESCRIPTIF 2







nom : Caves de La Maréchale SARL
adresse :
rue : Rue Jules Chalande
ville : Toulouse
tel : 0561238988
tags : manger, français








3 / 29

Données bruitées
DESCRIPTIF









nom : Milhau Jean-Paul
adresse :
rue : 147 avenue des minimes
ville : Toulouse
tel : 05.61.47.40.40
tags : pédiatre, médecin , spécialiste, vie pratique
santé, installations et techniques sanitaires, plomberie










4 / 29

Objectif : acquisition de compatibilités
entre tags
Compatibilité
Deux tags sont compatibles s’ils peuvent être associés au
même lieu sans qu’il en résulte une incohérence pragmatique
⇒ relation symétrique
⇒ binaire ou graduelle selon besoins
restaurant vs. manger : compatible
médecin vs. plombier : incompatible
concessionaire vs. réparation vélo : ?
5 / 29

Données disponibles
Hiérarchie de tags
Descriptifs de lieux eux-mêmes
6 / 29

Hiérarchie de tags
Indices de compatibilité :
distance
relation hiérarchique
propriétés
7 / 29

Hiérarchie de tags - travaux apparentés
Mesures d’afﬁnités sémantiques calculées à partir de ressources
structurées en graphes [Budanitsky and Hirst, 2006] :
ressources
– réseaux lexicaux : WordNet
– ontologies : MeSH
– dictionnaires : arc entre vedette et mots déﬁnition
Mesures basées sur :
– plus court chemin
– profondeur des nœuds
– plus proche parent
– étiquette de l’arc
Évaluation :
– applicative
– corrélation jugements humains
8 / 29

Descriptifs de lieux
Descriptif = diverses informations dont :
– identiﬁant de lieu
– ensemble de tags
– sources ayant fourni le lieu
Indices de compatibilité :
– tendance de deux tags à apparaître dans les mêmes lieux
– tendance de deux tags à apparaître avec les mêmes tags
– tendance de deux tags à être donné par les mêmes sources
[non fait]
– etc...
9 / 29

Travaux apparentés : folksonomies
Classiﬁcation issue d’une communauté
Exemples : Flickr, Delicious
– ensemble de ressources : pages web, photos,
– annotées par des utilisateurs,
– à l’aide de tags.
10 / 29

Déﬁnition [Hotho et al., 2006]
Folksonomie := (U, T, R, Y)
– T = {t1, ...tm} est un ensemble de tags
– U = {u1, ...un} est un ensemble d’utilisateurs ↔ sources
– R = {r1, ...rp} est un ensemble de ressources ↔ lieux
– Y ⊆ U × T × R
– triplet (u, t, r) ∈ Y
. attribution du tag t à la ressource r par l’utilisateur u
↔ attribution du tag t au lieu r par la source u
11 / 29

Identification d’affinités entre tags
Applications :
– aide à la navigation : recommandation, affinage de
requêtes
– acquisition d’ontologies
Calcul de l’affinité basée sur
[Cattuto et al., 2008, Markines et al., 2009] :
– mesure statistique de la co-occurrence de t1 et t2 dans les
mêmes ressources
– représentation vectorielle : comparaison des ressources ou
tags ou utilisateurs associés à t1 et t2
Evaluation :
– applicative
– corrélation avec la mesure de [Jiang and Conrath, 1997]
12 / 29

Plan
1. Contexte travaux apparentés
2. Expériences
3. Conclusion et perspectives

Expériences
Score de compatibilité
– CHEVAUCHLIEUX
– TAGSVOISINS
Classiﬁcation automatique : COMPATIBLE/ INCOMPATIBLE
– LIEUX
– HIERARCHIETAGS
– COMBINAISON
13 / 29

CHEVAUCHLIEUX
Compatibilité de t1 et t2 =
coefﬁcient de chevauchement entre les lieux ayant reçu
t1 et les lieux ayant reçu t2
Overlap(t1, t2) =
|L(t1) ∩ L(t2)|
min(|L(t1)|, |L(t2)|)
14 / 29

TAGSVOISINS
Compatibilité de t1 et t2 =
similarité entre le voisinage de t1 et le voisinage de t2
Voisinage d’un tag =
vecteur contenant le nombre de fois ce tag où il
co-occurre avec les autres tags
Cos(t1, t2) =
t1 · t2
t1 · t2
15 / 29

LIEUX
Modèle de classiﬁcation appris à partir de 4 variables :
– |L(t1) ∩ L(t2)|
– |L(t1) ∪ L(t2)|
– min(|L(t1)|, |L(t2)|)
– max(|L(t1)|, |L(t2)|)
16 / 29

HIERARCHIETAGS
Modèle de classiﬁcation appris à partir de 10 variables
tirées de la hiérarchie de tags :
1. nb. de chemins entre t1 et t2
2. distance min. entre t1 et t2
3. distance max. entre t1 et t2
4. nb. de chemins dans lesquels t1 précède t2 ou t2 précède t1
5. nb. de tags dans {t1, t2} correspondant à un nom de marque
(i.e Campanile, Ikéa...)
6. ...
17 / 29

COMBINAISON
Modèle de classiﬁcation appris à partir de 16 variables :
– score co-occurrence : CHEVAUCHLIEUX
– score voisinage : TAGSVOISINS
– 10 variables de HIERARCHIETAGS
– 4 variables de LIEUX
18 / 29

Données expérimentales
15 millions de lieux
3696 tags
590 paires de tags annotées avec 2 classes : COMPATIBLE/
INCOMPATIBLE
– 7 annotateurs
– 1/3 paires annotées par au moins deux annotateurs
– Taux de désaccord entre annotateurs : 12%
– Désaccords : annotation de l’annotateur le plus consensuel
⇒ 41%COMPATIBLE/ 59% INCOMPATIBLE
19 / 29

Classiﬁeur
Boosting d’arbre de décision - C5 [Quinlan, 1996]
– plusieurs petits arbres
– vote
Paramétrage : 100 arbres
20 / 29

Évaluation
Taux d’erreur : % paires de tags mal classiﬁées
⇒ Validation croisée à 10 blocs
– CHEVAUCHLIEUX, TAGSVOISINS : seuil de compatibilité appris sur
exemples
– HIERARCHIETAGS, LIEUX, COMBINAISON : classe donnée par C5
Aire sous la courbe ROC
– CHEVAUCHLIEUX, TAGSVOISINS : score
– HIERARCHIETAGS, LIEUX, COMBINAISON : utilisation du score de
conﬁance de C5
21 / 29

Résultats
taux d’erreur moyen AUROC
COMBINAISON 0,237 0,84
LIEUX 0,258 0,82
CHEVAUCHLIEUX 0,264 0,81
HIERARCHIETAGS 0,293 0,73
TAGSVOISINS 0,327 0,70
22 / 29

Résultats signiﬁcativement meilleurs
t-test unilatéral apparié
signiﬁcativement meilleur si valeur p 5%
LIEUX CHEVAUCHLIEUX HIERARCHIETAGS TAGSVOISINS
COMBINAISON 14% 8% 2% 0,2 %
LIEUX - 17% 9% 1 %
CHEVAUCHLIEUX - - 14% 2%
HIERARCHIETAGS - - - 20%
23 / 29

Variation du taux d’erreur
taux d’erreur taux d’erreur écart-type
moyen médian
LIEUX 0,258 0,254 0,045
COMBINAISON 0,237 0,229 0,052
CHEVAUCHLIEUX 0,264 0,254 0,053
TAGSVOISINS 0,327 0,348 0,071
HIERARCHIETAGS 0,293 0,288 0,077
24 / 29

Conclusion
Méthode choisie : LIEUX
– parmi les meilleures
– robuste
– simple à mettre en œuvre
Taux d’erreur : 25,8%
Taux de désaccords entre humains : 12%
⇒ Apport pour le dédoublonnage, nettoyage
25 / 29

Application au nettoyage des données
tags faux tags corrects
identiﬁés perdus
données brutes 15,5% 0
nettoyage hiérarchie 2,5% 12,5%
nettoyage hiérarchie 3,7% 1%
+ compatibilité
26 / 29

Perspectives
Méthode perfectible
– utilisation des sources
– ressources sémantiques non spéciﬁques à Nomao
Intégration au processus de dédoublonnage
Méthode applicable à d’autres champs des descriptifs :
– termes
– commentaires
27 / 29

Références I
Budanitsky, A. and Hirst, G. (2006).
Evaluating WordNet-based measures of lexical semantic relatedness.
Journal of Computational Linguistics, 32(1) :13–47.
Cattuto, C., Benz, D., Hotho, A., and Stumme, G. (2008).
Semantic grounding of tag relatedness in social bookmarking systems.
In Proceedings of the 7th International Conference on The Semantic Web,
pages 615–631, Karlsruhe, Germany.
Hotho, A., Jäschke, R., Schmitz, C., and Stumme, G. (2006).
Information retrieval in folksonomies : search and ranking.
In Proceedings of the 3rd European conference on The Semantic Web :
research and applications, pages 411–426, Budva, Montenegro.
Jiang, J. J. and Conrath, D. W. (1997).
Semantic similarity based on corpus statistics and lexical taxonomy.
In Proceedings of the International Conference on Research in
Computational Linguistics, Taïwan.

Références II
Markines, B., Cattuto, C., Menczer, F., Benz, D., Hotho, A., and Stumme, G.
(2009).
Evaluating similarity measures for emergent semantics of social tagging.
In Proceedings of the 18th international conference on World wide web,
pages 641–650, Madrid, Spain.
Quinlan, R. (1996).
Bagging, boosting and c4.5.
In 13th National Conference on Artiﬁcial Intelligence, pages 725–730.

Identification de compatibilités entre tages descriptifs de lieux

Recommandé

Recommandé

Contenu connexe

Plus de Estelle Delpech

Plus de Estelle Delpech (17)

Dernier

Dernier (12)

Identification de compatibilités entre tages descriptifs de lieux