Explorer des actualités multimédia dans le Web de données
SEMIOSEM : une mesure de similarité conceptuelle fondée sur une approche sémiotique
1. SEMIOSEM : une mesure de similarité
conceptuelle fondée sur une approche
sémiotique
X. AIME, F. FURST, P. KUNTZ & F. TRICHET
xaime@tennaxia.com
frederic.furst@u-picardie.fr
pascale.kuntz,francky.trichet@univ-nantes.fr
LINA - UMR CNRS 6241 – Université de Nantes – FRANCE
MIS – Université d’Amiens – FRANCE
TENNAXIA – Paris – FRANCE
3. Mesures de type intensionnel (1/3)
hiérarchie de concepts
= graphe orienté
Rada (1989) :
Moyen de paiement
Carte Monnaie = 0,33
c e f
Carte débit différé d
Le plus court chemin dans la hiérarchie is-a
IC'09 – Hammamet, Mai 2009 - 3/32
4. Mesures de type intensionnel (2/3)
Resnik (1995) :
racine Leacock (1998) :
b
Moyen de paiement
a
Carte Monnaie
= 0,42
g h
e f
Carte débit différé
Le plus court chemin dans la hiérarchie is-a associé à la profondeur maximale
IC'09 – Hammamet, Mai 2009 - 4/32
5. Mesures de type intensionnel (3/3)
Wu & Palmer (1994) :
racine
b
Moyen de paiement = 0,57
a
Carte Monnaie
d g h
Carte débit différé f
Similarité entre deux concepts basée sur le PPPC (Plus Petit Père Commun)
IC'09 – Hammamet, Mai 2009 - 5/32
6. Mesures de type extensionnel (1/3)
Jaccard (1901) :
Ic1
Ic1 ∩ Ic2 Ic2
IC'09 – Hammamet, Mai 2009 - 6/32
7. Mesures de type extensionnel (2/3)
SimDice (c1 ,c2) = | Ic1 ∩ Ic2 |
Moy ( | Ic1 | , | Ic2 | )
Ic1 ∩ Ic2 Ic2 Moy (Ic1 , Ic2)
Ic1
Ic1 ∩ Ic2
Plus régulier, même ordre et intervalle [0,1]
IC'09 – Hammamet, Mai 2009 - 7/32
8. Mesures de type extensionnel (3/3)
d’Amato & Staab (2008) :
I
Ipppc (c1,c2)
Ic1
Ic1 ∩ Ic2 Ic2
IC'09 – Hammamet, Mai 2009 - 8/32
10. Mesures de type expressionnel (2/4)
Resnik 2 :
racine
Objet de commerce
Moyen de paiement
a
Carte Monnaie
d g h
Carte débit différé f
Combinaison chemin dans la hiérarchie is-a + contenu information
IC'09 – Hammamet, Mai 2009 - 10/32
11. Mesures de type expressionnel (3/4)
Lin (1998) :
racine
Objet de commerce
Moyen de paiement
a
Carte Monnaie
d g h
Carte débit différé f
Combinaison plus court chemin dans la hiérarchie is-a + contenu information
IC'09 – Hammamet, Mai 2009 - 11/32
12. Mesures de type expressionnel (4/4)
Jiang (1997) :
Objet de commerce
Moyen de paiement
a
Carte Monnaie
d g h
Carte débit différé f
Combinaison chemin dans la hiérarchie is-a + contenu information
IC'09 – Hammamet, Mai 2009 - 12/32
15. Mesure de similarité à base sémiotique
SEMIOSEM(c1,c2) = (α . intension (c1,c2)
+ β . expression (c1,c2)
+ γ . extension (c1,c2)) δ
Avec :
α + β + γ = 1, α ∈ [0,1], β ∈ [0,1], γ∈ [0,1]
α , β , γ pondération de l’influence des 3 composantes
δ ∈ ]0,+ ∝ [ pondération de l’état émotionnel
IC'09 – Hammamet, Mai 2009 - 15/32
16. Facteur émotionnel
delta < 1
S
E
M
I
O
S
E
m delta > 1
alpha . intension + bêta . expression + gamma . extension
Un état mental négatif affaiblit la similarité Un état mental positif atténue la force de
dissimilarité.
delta > 1
delta < 1
IC'09 – Hammamet, Mai 2009 - 16/32
17. Composante Intensionnelle (1/7)
Pondération des propriétés (Au Yeung 2006)
Propriété “peut flotter”
Comment pouvons-nous déterminer l’importance de
cette propriété quand nous définissons ces concepts ?
IC'09 – Hammamet, Mai 2009 - 17/32
18. Composante Intensionnelle (2/7)
Pondération des propriétés
Propriété “peut flotter”
0 0.75 1
Peu important Très important
!!! Possibilité d’une pondération binaire : 0 ou 1 pour possède ou ne possède pas
IC'09 – Hammamet, Mai 2009 - 18/32
19. Composante Intensionnelle (3/7)
Vecteur caractéristique
Concept “Canard”
(… , 0.3 , 0.75 , 0.8, 0.4 , …)
A des plumes Peut flotter Peut voler Pond un oeuf
IC'09 – Hammamet, Mai 2009 - 19/32
27. Composante Expressionnelle (2/2)
Avec :
t1∈terms(c1) , t2∈terms(c2) et terms(c) l’ensemble des termes désignant le
concept c ou un de ses descendants (direct ou non)
count(ti) est le nombre d’occurrences du terme ti dans les documents du
corpus
count(t1, t2) est le nombre de documents du corpus où les termes t1 et t2
apparaissent simultanément
Ndoc est le nombre total de documents du corpus
Nocc est la somme de tous les nombres d’occurrences de tous les termes du
corpus
IC'09 – Hammamet, Mai 2009 - 27/32
28. Proximité ou Similarité ?
Faux jumeaux et vrais jumeaux
Composante Intensionnelle
Comparaison des propriétés descriptives et fonctionnelles aa
A a
similarité
Composante Extensionnelle
Comparaison de la quantité d’individus extensions des deux concepts
simultanément aa
similarité A a
Composante Expressionnelle
~ probabilité d’avoir l’expression des deux concepts dans le même
document
proximité
IC'09 – Hammamet, Mai 2009 - 28/32
30. Limites
Composante Intensionnelle
La pondération des propriétés est assez chronophage (pour les
ontologies volumineuses)
Composante Expressionnelle
Termes ambiguës
Contexte autour du terme (“ni m1 ni …”, “opposé de m1”…)
Anaphores (“Pierre a une voiture, c’est la même que la mienne”)
Facteur Émotionnel
Pondération de l’état émotionnel de l’utilisateur
IC'09 – Hammamet, Mai 2009 - 30/32
31. Conclusion
SEMIOSEM, une mesure de (quasi-)similarité :
Adaptée au profil de l’utilisateur via
la pondération des propriétés ;
la définition d’un corpus caractéristique ;
l’état émotionnel.
Couvrant les trois dimensions d’une conceptualisation
Qui n’est pas une distance (pas d’inégalité triangulaire)
Indépendante du Plus Petit Père Commun, et par conséquent des choix
de modélisation.
IC'09 – Hammamet, Mai 2009 - 31/32
32. SEMIOSEM : une mesure de similarité
conceptuelle fondée sur une approche
sémiotique
X. AIME, F. FURST, P. KUNTZ & F. TRICHET
xaime@tennaxia.com
frederic.furst@u-picardie.fr
pascale.kuntz,francky.trichet@univ-nantes.fr
LINA - UMR CNRS 6241 - Université de Nantes – FRANCE
MIS – Université d’Amiens – FRANCE
TENNAXIA – Paris – FRANCE