SlideShare une entreprise Scribd logo
1  sur  46
Télécharger pour lire hors ligne
Introduction
Vue d’ensemble : travaux relatifs
Identification des polarités autour des aspects
Collection de test : coursera.org
Prédiction l’intensité de contradiction
Conclusion
Prédire l’intensité de contradiction dans les
commentaires : faible, forte ou très forte ?
Ismail Badache - Sébastien Fournier - Adrian-Gabriel Chifu
Prénom.Nom@lis-lab.fr
LIS UMR 7020 Laboratoire d’Informatique et des Systèmes
Aix-Marseille Université
Ismail Badache PFIA IC 2018 Prédire l’intensité de contradiction 1 / 21
Introduction
Vue d’ensemble : travaux relatifs
Identification des polarités autour des aspects
Collection de test : coursera.org
Prédiction l’intensité de contradiction
Conclusion
Plan
Introduction
Vue d’ensemble : travaux relatifs
Identification des polarités autour des aspects
Collection de test : coursera.org
Prédiction l’intensité de contradiction
Conclusion
Ismail Badache PFIA IC 2018 Prédire l’intensité de contradiction 2 / 21
Introduction
Vue d’ensemble : travaux relatifs
Identification des polarités autour des aspects
Collection de test : coursera.org
Prédiction l’intensité de contradiction
Conclusion
Introduction : contradiction textuelle
Définition
Une situation où il est extrêmement improbable que deux phrases
soient vraies lorsqu’elles sont considérées ensemble.
Ismail Badache PFIA IC 2018 Prédire l’intensité de contradiction 3 / 21
Introduction
Vue d’ensemble : travaux relatifs
Identification des polarités autour des aspects
Collection de test : coursera.org
Prédiction l’intensité de contradiction
Conclusion
Introduction : contradiction textuelle
Définition
Une situation où il est extrêmement improbable que deux phrases
soient vraies lorsqu’elles sont considérées ensemble.
Exemples de contradiction
• Négation :
« I love you — I do not love you »
Ismail Badache PFIA IC 2018 Prédire l’intensité de contradiction 3 / 21
Introduction
Vue d’ensemble : travaux relatifs
Identification des polarités autour des aspects
Collection de test : coursera.org
Prédiction l’intensité de contradiction
Conclusion
Introduction : contradiction textuelle
Définition
Une situation où il est extrêmement improbable que deux phrases
soient vraies lorsqu’elles sont considérées ensemble.
Exemples de contradiction
• Négation :
« I love you — I do not love you »
• Mots opposés :
« hot — cold, light — dark »
Ismail Badache PFIA IC 2018 Prédire l’intensité de contradiction 3 / 21
Introduction
Vue d’ensemble : travaux relatifs
Identification des polarités autour des aspects
Collection de test : coursera.org
Prédiction l’intensité de contradiction
Conclusion
Introduction : contradiction textuelle
Définition
Une situation où il est extrêmement improbable que deux phrases
soient vraies lorsqu’elles sont considérées ensemble.
Exemples de contradiction
• Négation :
« I love you — I do not love you »
• Mots opposés :
« hot — cold, light — dark »
• Discordance numérique :
« There are 7 wonders of the world — the number of wonders
of the world are 9 »
Ismail Badache PFIA IC 2018 Prédire l’intensité de contradiction 3 / 21
Introduction
Vue d’ensemble : travaux relatifs
Identification des polarités autour des aspects
Collection de test : coursera.org
Prédiction l’intensité de contradiction
Conclusion
Introduction : idée générale
Diversité des opinions sur un sujet (aspect) donné ⇒ Contradiction
Ismail Badache PFIA IC 2018 Prédire l’intensité de contradiction 4 / 21
Introduction
Vue d’ensemble : travaux relatifs
Identification des polarités autour des aspects
Collection de test : coursera.org
Prédiction l’intensité de contradiction
Conclusion
Contributions et questions de recherche
Contribution 1
Une contradiction dans des commentaires liés à une ressource Web
donnée signifie des opinions contradictoires exprimées sur un aspect
spécifique, qui est une forme de diversité de sentiments autour de
l’aspect au sein de la même ressource. Mais en plus de détecter la
contradiction, il est souhaitable d’estimer son intensité. Par consé-
quent, nous avons essayé de répondre aux questions suivantes :
• QR1. Comment estimer/prédire l’intensité de contradiction ?
• QR2. Quel est l’impact de la prise en compte des polarités et
des notations sur la prédiction de l’intensité des commentaires
contradictoires ?
Ismail Badache PFIA IC 2018 Prédire l’intensité de contradiction 5 / 21
Introduction
Vue d’ensemble : travaux relatifs
Identification des polarités autour des aspects
Collection de test : coursera.org
Prédiction l’intensité de contradiction
Conclusion
Contributions et questions de recherche
Contribution 2
La construction d’une collection de test issue du site Web des
MOOC a coursera.org. Cette collection est utile pour l’évaluation des
systèmes mesurant l’intensité de contradiction. Des études expéri-
mentales orientées utilisateurs - user studies - ont été menées pour
collecter les jugements de l’intensité de contradiction :
(Not Contradictory, Very Low, Low, Strong et Very Strong).
a. Massive Open Online Course
Ismail Badache PFIA IC 2018 Prédire l’intensité de contradiction 6 / 21
Introduction
Vue d’ensemble : travaux relatifs
Identification des polarités autour des aspects
Collection de test : coursera.org
Prédiction l’intensité de contradiction
Conclusion
Vue d’ensemble : travaux relatifs
Détection des contradictions et des controverses
a. Contradictions : en se basant sur la linguistique, ex. l’antonyme,
la négation (Harabagiu et al., 2006, De Marneffe et al., 2008).
Ismail Badache PFIA IC 2018 Prédire l’intensité de contradiction 7 / 21
Introduction
Vue d’ensemble : travaux relatifs
Identification des polarités autour des aspects
Collection de test : coursera.org
Prédiction l’intensité de contradiction
Conclusion
Vue d’ensemble : travaux relatifs
Détection des contradictions et des controverses
a. Contradictions : en se basant sur la linguistique, ex. l’antonyme,
la négation (Harabagiu et al., 2006, De Marneffe et al., 2008).
b. Controverses : Wikipédia (Wang et al., 2014), les "news" (Tsyt-
sarau et al., 2014), lors de l’analyse de débat (Qiu et al., 2013) ou
de manière générique sur le Web (Jang et Allan, 2016).
Ismail Badache PFIA IC 2018 Prédire l’intensité de contradiction 7 / 21
Introduction
Vue d’ensemble : travaux relatifs
Identification des polarités autour des aspects
Collection de test : coursera.org
Prédiction l’intensité de contradiction
Conclusion
Vue d’ensemble : travaux relatifs
Détection des contradictions et des controverses
a. Contradictions : en se basant sur la linguistique, ex. l’antonyme,
la négation (Harabagiu et al., 2006, De Marneffe et al., 2008).
b. Controverses : Wikipédia (Wang et al., 2014), les "news" (Tsyt-
sarau et al., 2014), lors de l’analyse de débat (Qiu et al., 2013) ou
de manière générique sur le Web (Jang et Allan, 2016).
Méthodes de pré-traitement : aspects et sentiments
a. Détection d’aspects : HMM (Hidden Markov Models) ou CRF
(Conditional Random Fields) comme (Hamdan et al., 2015). Non
supervisée HASM (Kim, 2013), règles statistiques (Poria, 2014).
Ismail Badache PFIA IC 2018 Prédire l’intensité de contradiction 7 / 21
Introduction
Vue d’ensemble : travaux relatifs
Identification des polarités autour des aspects
Collection de test : coursera.org
Prédiction l’intensité de contradiction
Conclusion
Vue d’ensemble : travaux relatifs
Détection des contradictions et des controverses
a. Contradictions : en se basant sur la linguistique, ex. l’antonyme,
la négation (Harabagiu et al., 2006, De Marneffe et al., 2008).
b. Controverses : Wikipédia (Wang et al., 2014), les "news" (Tsyt-
sarau et al., 2014), lors de l’analyse de débat (Qiu et al., 2013) ou
de manière générique sur le Web (Jang et Allan, 2016).
Méthodes de pré-traitement : aspects et sentiments
a. Détection d’aspects : HMM (Hidden Markov Models) ou CRF
(Conditional Random Fields) comme (Hamdan et al., 2015). Non
supervisée HASM (Kim, 2013), règles statistiques (Poria, 2014).
b. Analyse de sentiments : Lexiques (Turney, 2002) ou corpus
(Mohammad et al., 2013). Naïve bayes (Pang et al., 2002), RNN
(Socher et al., 2013).
Ismail Badache PFIA IC 2018 Prédire l’intensité de contradiction 7 / 21
Introduction
Vue d’ensemble : travaux relatifs
Identification des polarités autour des aspects
Collection de test : coursera.org
Prédiction l’intensité de contradiction
Conclusion
Comment détecter la contradiction ?
Ismail Badache PFIA IC 2018 Prédire l’intensité de contradiction 8 / 21
Introduction
Vue d’ensemble : travaux relatifs
Identification des polarités autour des aspects
Collection de test : coursera.org
Prédiction l’intensité de contradiction
Conclusion
Extraction des aspects
1 Calcul fréquentiel des termes constituant le corpus des commen-
taires,
1. http://nlp.stanford.edu:8080/parser/
2. https://cs.nyu.edu/grishman/jet/guide/PennPOS.html
3. http://sentiwordnet.isti.cnr.it/
Ismail Badache PFIA IC 2018 Prédire l’intensité de contradiction 9 / 21
Introduction
Vue d’ensemble : travaux relatifs
Identification des polarités autour des aspects
Collection de test : coursera.org
Prédiction l’intensité de contradiction
Conclusion
Extraction des aspects
1 Calcul fréquentiel des termes constituant le corpus des commen-
taires,
2 Catégorisation des termes (Part-of-speech tagging) de chaque
commentaire en utilisant Stanford Parser 1,
1. http://nlp.stanford.edu:8080/parser/
2. https://cs.nyu.edu/grishman/jet/guide/PennPOS.html
3. http://sentiwordnet.isti.cnr.it/
Ismail Badache PFIA IC 2018 Prédire l’intensité de contradiction 9 / 21
Introduction
Vue d’ensemble : travaux relatifs
Identification des polarités autour des aspects
Collection de test : coursera.org
Prédiction l’intensité de contradiction
Conclusion
Extraction des aspects
1 Calcul fréquentiel des termes constituant le corpus des commen-
taires,
2 Catégorisation des termes (Part-of-speech tagging) de chaque
commentaire en utilisant Stanford Parser 1,
3 Sélection des termes ayant la catégorie nominale (NN, NNS) 2,
1. http://nlp.stanford.edu:8080/parser/
2. https://cs.nyu.edu/grishman/jet/guide/PennPOS.html
3. http://sentiwordnet.isti.cnr.it/
Ismail Badache PFIA IC 2018 Prédire l’intensité de contradiction 9 / 21
Introduction
Vue d’ensemble : travaux relatifs
Identification des polarités autour des aspects
Collection de test : coursera.org
Prédiction l’intensité de contradiction
Conclusion
Extraction des aspects
1 Calcul fréquentiel des termes constituant le corpus des commen-
taires,
2 Catégorisation des termes (Part-of-speech tagging) de chaque
commentaire en utilisant Stanford Parser 1,
3 Sélection des termes ayant la catégorie nominale (NN, NNS) 2,
4 Sélection des noms avec des termes émotionnels dans leur voi-
sinage de 5 mots (en utilisant SentiWordNet 3). Le choix de 5
mots a été fait après plusieurs expérimentations,
1. http://nlp.stanford.edu:8080/parser/
2. https://cs.nyu.edu/grishman/jet/guide/PennPOS.html
3. http://sentiwordnet.isti.cnr.it/
Ismail Badache PFIA IC 2018 Prédire l’intensité de contradiction 9 / 21
Introduction
Vue d’ensemble : travaux relatifs
Identification des polarités autour des aspects
Collection de test : coursera.org
Prédiction l’intensité de contradiction
Conclusion
Extraction des aspects
1 Calcul fréquentiel des termes constituant le corpus des commen-
taires,
2 Catégorisation des termes (Part-of-speech tagging) de chaque
commentaire en utilisant Stanford Parser 1,
3 Sélection des termes ayant la catégorie nominale (NN, NNS) 2,
4 Sélection des noms avec des termes émotionnels dans leur voi-
sinage de 5 mots (en utilisant SentiWordNet 3). Le choix de 5
mots a été fait après plusieurs expérimentations,
5 Extraction des termes les plus fréquents (utilisés) dans le cor-
pus parmi ceux sélectionnés dans l’étape précédente. Ces termes
seront considérés comme des aspects.
1. http://nlp.stanford.edu:8080/parser/
2. https://cs.nyu.edu/grishman/jet/guide/PennPOS.html
3. http://sentiwordnet.isti.cnr.it/
Ismail Badache PFIA IC 2018 Prédire l’intensité de contradiction 9 / 21
Introduction
Vue d’ensemble : travaux relatifs
Identification des polarités autour des aspects
Collection de test : coursera.org
Prédiction l’intensité de contradiction
Conclusion
Extraction des aspects : exemple
Étape Description
(1)
course : 44219, material : 3286, assignments : 3118, content : 2947,
lecturer : 2705, ....... termei
(2)
The/DT lecturer/NN was/VBD an/DT annoying/VBG speaker/NN
and/CC very/RB repetitive/JJ ./. I/PRP found/VBD the/DT format-
ting/NN so/RB different/JJ from/IN other/JJ courses/NNS I/PRP
’ve/VBP taken/VBN ,/, that/IN it/PRP was/VBD hard/JJ to/TO
get/VB started/VBN and/CC figure/VB things/NNS out/RP ./.
(3) lecturer, speaker, formatting, things
(4) lecturer, speaker
(5) lecturer
L’aspect utile est "lecturer"
Ismail Badache PFIA IC 2018 Prédire l’intensité de contradiction 10 / 21
Introduction
Vue d’ensemble : travaux relatifs
Identification des polarités autour des aspects
Collection de test : coursera.org
Prédiction l’intensité de contradiction
Conclusion
Analyse de sentiment
Définition
Les sentiments par rapport à un aspect sont un nombre réel dans
la plage [-1, 1] qui indique la polarité de l’opinion exprimée dans le
commentaire. Les valeurs négatives et positives représentent respec-
tivement des opinions négatives et positives.
Ismail Badache PFIA IC 2018 Prédire l’intensité de contradiction 11 / 21
Introduction
Vue d’ensemble : travaux relatifs
Identification des polarités autour des aspects
Collection de test : coursera.org
Prédiction l’intensité de contradiction
Conclusion
Analyse de sentiment
Définition
Les sentiments par rapport à un aspect sont un nombre réel dans
la plage [-1, 1] qui indique la polarité de l’opinion exprimée dans le
commentaire. Les valeurs négatives et positives représentent respec-
tivement des opinions négatives et positives.
Modèle d’analyse de sentiments :
• Modèle non-supervisé issu de l’état de l’art : SentiNeuron.
Ismail Badache PFIA IC 2018 Prédire l’intensité de contradiction 11 / 21
Introduction
Vue d’ensemble : travaux relatifs
Identification des polarités autour des aspects
Collection de test : coursera.org
Prédiction l’intensité de contradiction
Conclusion
Analyse de sentiment
Définition
Les sentiments par rapport à un aspect sont un nombre réel dans
la plage [-1, 1] qui indique la polarité de l’opinion exprimée dans le
commentaire. Les valeurs négatives et positives représentent respec-
tivement des opinions négatives et positives.
Modèle d’analyse de sentiments :
• Modèle non-supervisé issu de l’état de l’art : SentiNeuron.
• Formé sur plus de 82 millions de commentaires Amazon.
Ismail Badache PFIA IC 2018 Prédire l’intensité de contradiction 11 / 21
Introduction
Vue d’ensemble : travaux relatifs
Identification des polarités autour des aspects
Collection de test : coursera.org
Prédiction l’intensité de contradiction
Conclusion
Analyse de sentiment
Définition
Les sentiments par rapport à un aspect sont un nombre réel dans
la plage [-1, 1] qui indique la polarité de l’opinion exprimée dans le
commentaire. Les valeurs négatives et positives représentent respec-
tivement des opinions négatives et positives.
Modèle d’analyse de sentiments :
• Modèle non-supervisé issu de l’état de l’art : SentiNeuron.
• Formé sur plus de 82 millions de commentaires Amazon.
• LSTM avec 4096 unités dont le 2389ème neurone concerne spé-
cifiquement le sentiment d’une phrase donnée.
Ismail Badache PFIA IC 2018 Prédire l’intensité de contradiction 11 / 21
Introduction
Vue d’ensemble : travaux relatifs
Identification des polarités autour des aspects
Collection de test : coursera.org
Prédiction l’intensité de contradiction
Conclusion
Analyse de sentiment
Définition
Les sentiments par rapport à un aspect sont un nombre réel dans
la plage [-1, 1] qui indique la polarité de l’opinion exprimée dans le
commentaire. Les valeurs négatives et positives représentent respec-
tivement des opinions négatives et positives.
Modèle d’analyse de sentiments :
• Modèle non-supervisé issu de l’état de l’art : SentiNeuron.
• Formé sur plus de 82 millions de commentaires Amazon.
• LSTM avec 4096 unités dont le 2389ème neurone concerne spé-
cifiquement le sentiment d’une phrase donnée.
• Traitement des négations (not, n’t, no).
Ismail Badache PFIA IC 2018 Prédire l’intensité de contradiction 11 / 21
Introduction
Vue d’ensemble : travaux relatifs
Identification des polarités autour des aspects
Collection de test : coursera.org
Prédiction l’intensité de contradiction
Conclusion
Analyse de sentiment
Définition
Les sentiments par rapport à un aspect sont un nombre réel dans
la plage [-1, 1] qui indique la polarité de l’opinion exprimée dans le
commentaire. Les valeurs négatives et positives représentent respec-
tivement des opinions négatives et positives.
Modèle d’analyse de sentiments :
• Modèle non-supervisé issu de l’état de l’art : SentiNeuron.
• Formé sur plus de 82 millions de commentaires Amazon.
• LSTM avec 4096 unités dont le 2389ème neurone concerne spé-
cifiquement le sentiment d’une phrase donnée.
• Traitement des négations (not, n’t, no).
• Traitement d’intensificateurs et d’adverbes (very, absolutely).
Ismail Badache PFIA IC 2018 Prédire l’intensité de contradiction 11 / 21
Introduction
Vue d’ensemble : travaux relatifs
Identification des polarités autour des aspects
Collection de test : coursera.org
Prédiction l’intensité de contradiction
Conclusion
Analyse de sentiment
Définition
Les sentiments par rapport à un aspect sont un nombre réel dans
la plage [-1, 1] qui indique la polarité de l’opinion exprimée dans le
commentaire. Les valeurs négatives et positives représentent respec-
tivement des opinions négatives et positives.
Modèle d’analyse de sentiments :
• Modèle non-supervisé issu de l’état de l’art : SentiNeuron.
• Formé sur plus de 82 millions de commentaires Amazon.
• LSTM avec 4096 unités dont le 2389ème neurone concerne spé-
cifiquement le sentiment d’une phrase donnée.
• Traitement des négations (not, n’t, no).
• Traitement d’intensificateurs et d’adverbes (very, absolutely).
• Précision : 93% (taux d’erreur 7%)
Ismail Badache PFIA IC 2018 Prédire l’intensité de contradiction 11 / 21
Introduction
Vue d’ensemble : travaux relatifs
Identification des polarités autour des aspects
Collection de test : coursera.org
Prédiction l’intensité de contradiction
Conclusion
Objectifs et collection de test
• Évaluer l’impact de l’analyse de sentiment et du rating sur la
détection de contradictions autour de certains aspects.
Ismail Badache PFIA IC 2018 Prédire l’intensité de contradiction 12 / 21
Introduction
Vue d’ensemble : travaux relatifs
Identification des polarités autour des aspects
Collection de test : coursera.org
Prédiction l’intensité de contradiction
Conclusion
Objectifs et collection de test
• Évaluer l’impact de l’analyse de sentiment et du rating sur la
détection de contradictions autour de certains aspects.
• Évaluer l’impact du centroide moyenné et pondéré sur la mesure
de l’intensité des contradictions.
Ismail Badache PFIA IC 2018 Prédire l’intensité de contradiction 12 / 21
Introduction
Vue d’ensemble : travaux relatifs
Identification des polarités autour des aspects
Collection de test : coursera.org
Prédiction l’intensité de contradiction
Conclusion
Objectifs et collection de test
• Évaluer l’impact de l’analyse de sentiment et du rating sur la
détection de contradictions autour de certains aspects.
• Évaluer l’impact du centroide moyenné et pondéré sur la mesure
de l’intensité des contradictions.
Collection de test : issue de "coursera.org"
Champ Nombre Total
Cours 2244
Cours notés 1115
Commentaires 73873
Ratings 298326
Commentaires 1705
Commentaires 1443
Commentaires 3302
Commentaires 12202
Commentaires 55221
Ismail Badache PFIA IC 2018 Prédire l’intensité de contradiction 12 / 21
Introduction
Vue d’ensemble : travaux relatifs
Identification des polarités autour des aspects
Collection de test : coursera.org
Prédiction l’intensité de contradiction
Conclusion
Les aspects détectés
Au total : 22 aspects capturés automatiquement sur l’ensemble des
commentaires issus de "coursera.org"
Ismail Badache PFIA IC 2018 Prédire l’intensité de contradiction 13 / 21
Introduction
Vue d’ensemble : travaux relatifs
Identification des polarités autour des aspects
Collection de test : coursera.org
Prédiction l’intensité de contradiction
Conclusion
Jugements par les utilisateurs - User Study -
Évaluation manuelle (contradictions et sentiments) :
• 3 évaluateurs.
• 50 cours pour chaque aspect.
• 66104 commentaires/aspect de 1100 cours.
• Kappa Cohen (contradictions) : k = 0.80.
• Kappa Cohen (sentiments) : k = 0.78.
Ismail Badache PFIA IC 2018 Prédire l’intensité de contradiction 14 / 21
Introduction
Vue d’ensemble : travaux relatifs
Identification des polarités autour des aspects
Collection de test : coursera.org
Prédiction l’intensité de contradiction
Conclusion
Liste des critères exploités
ci Critère Description
c1 NegCom Nombre de commentaires négatifs sur le document
c2 PosCom Nombre de commentaires positifs sur le document
c3 TotalCom Nombre total des commentaires sur le document
c4 Not1 Nombre de commentaires avec notation
c5 Not2 Nombre de commentaires avec notation
c6 Not3 Nombre de commentaires avec notation
c7 Not4 Nombre de commentaires avec notation
c8 Not5 Nombre de commentaires avec notation
c9 VarNot Variation des notations (écart type - Pearson et al.,1964)
c10 VarPol Variation des polarités (écart type - Pearson et al.,1964)
La formule de l’écart type, proposée par Pearson et al. (1964) est : s =
n
i=1
(x−¯x)2
n
Où x est la valeur du critère (notation, polarité), ¯x est la moyenne de l’échantillon du
critère concerné, et n est la taille de l’échantillon.
Ismail Badache PFIA IC 2018 Prédire l’intensité de contradiction 15 / 21
Introduction
Vue d’ensemble : travaux relatifs
Identification des polarités autour des aspects
Collection de test : coursera.org
Prédiction l’intensité de contradiction
Conclusion
Protocole d’évaluation des critères
- 50 cours avec leurs commentaires pour chaque aspect (22 aspects)
de la collection coursera ont été extraits aléatoirement.
Ismail Badache PFIA IC 2018 Prédire l’intensité de contradiction 16 / 21
Introduction
Vue d’ensemble : travaux relatifs
Identification des polarités autour des aspects
Collection de test : coursera.org
Prédiction l’intensité de contradiction
Conclusion
Protocole d’évaluation des critères
- 50 cours avec leurs commentaires pour chaque aspect (22 aspects)
de la collection coursera ont été extraits aléatoirement.
- Les classes reflétant l’intensité des contradictions autour d’un as-
pect spécifique : Very Low, Low, Strong et Very Strong.
Ismail Badache PFIA IC 2018 Prédire l’intensité de contradiction 16 / 21
Introduction
Vue d’ensemble : travaux relatifs
Identification des polarités autour des aspects
Collection de test : coursera.org
Prédiction l’intensité de contradiction
Conclusion
Protocole d’évaluation des critères
- 50 cours avec leurs commentaires pour chaque aspect (22 aspects)
de la collection coursera ont été extraits aléatoirement.
- Les classes reflétant l’intensité des contradictions autour d’un as-
pect spécifique : Very Low, Low, Strong et Very Strong.
- L’ensemble résultant contient 1100 cours (instances) répartis selon
leur classe d’intensité de contradiction comme suit :
• 230 instances Very Low
• 264 instances Low
• 330 instances Strong
• 276 instances Very Strong
Ismail Badache PFIA IC 2018 Prédire l’intensité de contradiction 16 / 21
Introduction
Vue d’ensemble : travaux relatifs
Identification des polarités autour des aspects
Collection de test : coursera.org
Prédiction l’intensité de contradiction
Conclusion
Identification des critères les plus efficaces
Figure – Les critères sélectionnés par les algorithmes de sélection
les critères c1 : NegCom, c2 : PosCom, c9 : VarNot et c10 : VarPol
sont les plus fructueux pour prédire l’intensité de la contradiction.
Ismail Badache PFIA IC 2018 Prédire l’intensité de contradiction 17 / 21
Introduction
Vue d’ensemble : travaux relatifs
Identification des polarités autour des aspects
Collection de test : coursera.org
Prédiction l’intensité de contradiction
Conclusion
Apprentissage des critères pour prédire l’intensité
Figure – Processus d’apprentissage avec les algorithmes de sélection
Ismail Badache PFIA IC 2018 Prédire l’intensité de contradiction 18 / 21
Introduction
Vue d’ensemble : travaux relatifs
Identification des polarités autour des aspects
Collection de test : coursera.org
Prédiction l’intensité de contradiction
Conclusion
Résultats d’apprentissage : précision fournie par Weka
Algorithmes de sélection Critères
(CFS) c1, c2, c3, c9, c10
(WRP) c1, c2, c3, c4, c8, c9, c10
(SVM) et (RLF) c1, c2, c3, c4, c5, c6, c7, c8, c9, c10
Ismail Badache PFIA IC 2018 Prédire l’intensité de contradiction 19 / 21
Introduction
Vue d’ensemble : travaux relatifs
Identification des polarités autour des aspects
Collection de test : coursera.org
Prédiction l’intensité de contradiction
Conclusion
Résultats d’apprentissage : précision fournie par Weka
Algorithmes de sélection Critères
(CFS) c1, c2, c3, c9, c10
(WRP) c1, c2, c3, c4, c8, c9, c10
(SVM) et (RLF) c1, c2, c3, c4, c5, c6, c7, c8, c9, c10
Classifieurs Classes (Niveaux d’intensité) Techniques de sélection Tous les critères
Naïve Bayes (Baseline)
Very Low 0.81 (CFS) 0.71
Low 0.38 (CFS) 0.34
Strong 0.75 (CFS) 0.66
Very Strong 0.78 (CFS) 0.69
Moyenne 0.68 (CFS) 0.60
Very Low 0.86 (WRP) 0.72
Low 0.46 (WRP) 0.38
Strong 0.76 (WRP) 0.63
Very Strong 0.80 (WRP) 0.67
Moyenne 0.72 (WRP) 0.60
Ismail Badache PFIA IC 2018 Prédire l’intensité de contradiction 19 / 21
Introduction
Vue d’ensemble : travaux relatifs
Identification des polarités autour des aspects
Collection de test : coursera.org
Prédiction l’intensité de contradiction
Conclusion
Résultats d’apprentissage : précision fournie par Weka
Algorithmes de sélection Critères
(CFS) c1, c2, c3, c9, c10
(WRP) c1, c2, c3, c4, c8, c9, c10
(SVM) et (RLF) c1, c2, c3, c4, c5, c6, c7, c8, c9, c10
Classifieurs Classes (Niveaux d’intensité) Techniques de sélection Tous les critères
Naïve Bayes (Baseline)
Very Low 0.81 (CFS) 0.71
Low 0.38 (CFS) 0.34
Strong 0.75 (CFS) 0.66
Very Strong 0.78 (CFS) 0.69
Moyenne 0.68 (CFS) 0.60
Very Low 0.86 (WRP) 0.72
Low 0.46 (WRP) 0.38
Strong 0.76 (WRP) 0.63
Very Strong 0.80 (WRP) 0.67
Moyenne 0.72 (WRP) 0.60
SVM
Very Low 0.88∗
(SVM) 0.88∗
Low 0.72∗∗
(SVM) 0.72∗∗
Strong 0.78∗
(SVM) 0.78∗
Very Strong 0.90∗∗
(SVM) 0.90∗∗
Moyenne 0.82∗∗
(SVM) 0.82∗∗
Ismail Badache PFIA IC 2018 Prédire l’intensité de contradiction 19 / 21
Introduction
Vue d’ensemble : travaux relatifs
Identification des polarités autour des aspects
Collection de test : coursera.org
Prédiction l’intensité de contradiction
Conclusion
Résultats d’apprentissage : précision fournie par Weka
Algorithmes de sélection Critères
(CFS) c1, c2, c3, c9, c10
(WRP) c1, c2, c3, c4, c8, c9, c10
(SVM) et (RLF) c1, c2, c3, c4, c5, c6, c7, c8, c9, c10
Classifieurs Classes (Niveaux d’intensité) Techniques de sélection Tous les critères
Naïve Bayes (Baseline)
Very Low 0.81 (CFS) 0.71
Low 0.38 (CFS) 0.34
Strong 0.75 (CFS) 0.66
Very Strong 0.78 (CFS) 0.69
Moyenne 0.68 (CFS) 0.60
Very Low 0.86 (WRP) 0.72
Low 0.46 (WRP) 0.38
Strong 0.76 (WRP) 0.63
Very Strong 0.80 (WRP) 0.67
Moyenne 0.72 (WRP) 0.60
SVM
Very Low 0.88∗
(SVM) 0.88∗
Low 0.72∗∗
(SVM) 0.72∗∗
Strong 0.78∗
(SVM) 0.78∗
Very Strong 0.90∗∗
(SVM) 0.90∗∗
Moyenne 0.82∗∗
(SVM) 0.82∗∗
J48
Very Low 0.97∗∗
(RLF) 0.97∗∗
Low 0.92∗∗
(RLF) 0.92∗∗
Strong 0.97∗∗
(RLF) 0.97∗∗
Very Strong 0.98∗∗
(RLF) 0.98∗∗
Moyenne 0.96∗∗
(RLF) 0.96∗∗
Ismail Badache PFIA IC 2018 Prédire l’intensité de contradiction 19 / 21
Introduction
Vue d’ensemble : travaux relatifs
Identification des polarités autour des aspects
Collection de test : coursera.org
Prédiction l’intensité de contradiction
Conclusion
Conclusion
Contribution : estimation de l’intensité de contradiction
• Exploitation de critères basés sur la polarité et la notation.
• Approches d’apprentissage avec des algorithmes de sélection.
Ismail Badache PFIA IC 2018 Prédire l’intensité de contradiction 20 / 21
Introduction
Vue d’ensemble : travaux relatifs
Identification des polarités autour des aspects
Collection de test : coursera.org
Prédiction l’intensité de contradiction
Conclusion
Conclusion
Contribution : estimation de l’intensité de contradiction
• Exploitation de critères basés sur la polarité et la notation.
• Approches d’apprentissage avec des algorithmes de sélection.
limites :
• Dépendance de la qualité des modèles d’analyse de sentiments
et de détection des aspects.
• Simplicité des modèles de pré-traitements.
• Détection des phrases auxquelles appartient un aspect.
Ismail Badache PFIA IC 2018 Prédire l’intensité de contradiction 20 / 21
Introduction
Vue d’ensemble : travaux relatifs
Identification des polarités autour des aspects
Collection de test : coursera.org
Prédiction l’intensité de contradiction
Conclusion
Conclusion
Contribution : estimation de l’intensité de contradiction
• Exploitation de critères basés sur la polarité et la notation.
• Approches d’apprentissage avec des algorithmes de sélection.
limites :
• Dépendance de la qualité des modèles d’analyse de sentiments
et de détection des aspects.
• Simplicité des modèles de pré-traitements.
• Détection des phrases auxquelles appartient un aspect.
Perspectives :
• Améliorer l’analyse de sentiments, d’aspects et des phrases.
• Prise en compte du profil de l’utilisateur (la recommandation).
• S’affranchir de la notation.
• D’autres expérimentations sur d’autres types de collections.
Ismail Badache PFIA IC 2018 Prédire l’intensité de contradiction 20 / 21
Introduction
Vue d’ensemble : travaux relatifs
Identification des polarités autour des aspects
Collection de test : coursera.org
Prédiction l’intensité de contradiction
Conclusion
Ismail Badache PFIA IC 2018 Prédire l’intensité de contradiction 21 / 21

Contenu connexe

Plus de Ismail BADACHE

Finding and Quantifying Temporal-Aware Contradiction in Reviews
Finding and Quantifying Temporal-Aware Contradiction in ReviewsFinding and Quantifying Temporal-Aware Contradiction in Reviews
Finding and Quantifying Temporal-Aware Contradiction in ReviewsIsmail BADACHE
 
Les Signaux Sociaux Émotionnels : Quel impact sur la RI ?
Les Signaux Sociaux Émotionnels : Quel impact sur la RI ? Les Signaux Sociaux Émotionnels : Quel impact sur la RI ?
Les Signaux Sociaux Émotionnels : Quel impact sur la RI ? Ismail BADACHE
 
Fresh and Diverse Social Signals: Any Impacts on Search?
Fresh and Diverse Social Signals: Any Impacts on Search?Fresh and Diverse Social Signals: Any Impacts on Search?
Fresh and Diverse Social Signals: Any Impacts on Search?Ismail BADACHE
 
Social Signals: Any Impacts in Search?
Social Signals: Any Impacts in Search?Social Signals: Any Impacts in Search?
Social Signals: Any Impacts in Search?Ismail BADACHE
 
Multimodal Social Book Search
Multimodal Social Book SearchMultimodal Social Book Search
Multimodal Social Book SearchIsmail BADACHE
 
A Priori Relevance Based On Quality and Diversity Of Social Signals
A Priori Relevance Based On Quality and Diversity Of Social SignalsA Priori Relevance Based On Quality and Diversity Of Social Signals
A Priori Relevance Based On Quality and Diversity Of Social SignalsIsmail BADACHE
 
Priors Based On Time-Sensitive Social Signals
Priors Based On Time-Sensitive Social SignalsPriors Based On Time-Sensitive Social Signals
Priors Based On Time-Sensitive Social SignalsIsmail BADACHE
 
Pertinence a Priori Basée sur la Diversité et la Temporalité des Signaux Sociaux
Pertinence a Priori Basée sur la Diversité et la Temporalité des Signaux SociauxPertinence a Priori Basée sur la Diversité et la Temporalité des Signaux Sociaux
Pertinence a Priori Basée sur la Diversité et la Temporalité des Signaux SociauxIsmail BADACHE
 
Social Networks Statistics 2014
Social Networks Statistics 2014Social Networks Statistics 2014
Social Networks Statistics 2014Ismail BADACHE
 
Exploitation de signaux sociaux pour estimer la pertinence a priori d’une res...
Exploitation de signaux sociaux pour estimer la pertinence a priori d’une res...Exploitation de signaux sociaux pour estimer la pertinence a priori d’une res...
Exploitation de signaux sociaux pour estimer la pertinence a priori d’une res...Ismail BADACHE
 
Social Priors to Estimate Relevance of a Resource
Social Priors to Estimate Relevance of a ResourceSocial Priors to Estimate Relevance of a Resource
Social Priors to Estimate Relevance of a ResourceIsmail BADACHE
 
Harnessing social signals to enhance a search
Harnessing social signals to enhance a searchHarnessing social signals to enhance a search
Harnessing social signals to enhance a searchIsmail BADACHE
 
Poster Recherche d'Information Sociale
Poster Recherche d'Information SocialePoster Recherche d'Information Sociale
Poster Recherche d'Information SocialeIsmail BADACHE
 

Plus de Ismail BADACHE (13)

Finding and Quantifying Temporal-Aware Contradiction in Reviews
Finding and Quantifying Temporal-Aware Contradiction in ReviewsFinding and Quantifying Temporal-Aware Contradiction in Reviews
Finding and Quantifying Temporal-Aware Contradiction in Reviews
 
Les Signaux Sociaux Émotionnels : Quel impact sur la RI ?
Les Signaux Sociaux Émotionnels : Quel impact sur la RI ? Les Signaux Sociaux Émotionnels : Quel impact sur la RI ?
Les Signaux Sociaux Émotionnels : Quel impact sur la RI ?
 
Fresh and Diverse Social Signals: Any Impacts on Search?
Fresh and Diverse Social Signals: Any Impacts on Search?Fresh and Diverse Social Signals: Any Impacts on Search?
Fresh and Diverse Social Signals: Any Impacts on Search?
 
Social Signals: Any Impacts in Search?
Social Signals: Any Impacts in Search?Social Signals: Any Impacts in Search?
Social Signals: Any Impacts in Search?
 
Multimodal Social Book Search
Multimodal Social Book SearchMultimodal Social Book Search
Multimodal Social Book Search
 
A Priori Relevance Based On Quality and Diversity Of Social Signals
A Priori Relevance Based On Quality and Diversity Of Social SignalsA Priori Relevance Based On Quality and Diversity Of Social Signals
A Priori Relevance Based On Quality and Diversity Of Social Signals
 
Priors Based On Time-Sensitive Social Signals
Priors Based On Time-Sensitive Social SignalsPriors Based On Time-Sensitive Social Signals
Priors Based On Time-Sensitive Social Signals
 
Pertinence a Priori Basée sur la Diversité et la Temporalité des Signaux Sociaux
Pertinence a Priori Basée sur la Diversité et la Temporalité des Signaux SociauxPertinence a Priori Basée sur la Diversité et la Temporalité des Signaux Sociaux
Pertinence a Priori Basée sur la Diversité et la Temporalité des Signaux Sociaux
 
Social Networks Statistics 2014
Social Networks Statistics 2014Social Networks Statistics 2014
Social Networks Statistics 2014
 
Exploitation de signaux sociaux pour estimer la pertinence a priori d’une res...
Exploitation de signaux sociaux pour estimer la pertinence a priori d’une res...Exploitation de signaux sociaux pour estimer la pertinence a priori d’une res...
Exploitation de signaux sociaux pour estimer la pertinence a priori d’une res...
 
Social Priors to Estimate Relevance of a Resource
Social Priors to Estimate Relevance of a ResourceSocial Priors to Estimate Relevance of a Resource
Social Priors to Estimate Relevance of a Resource
 
Harnessing social signals to enhance a search
Harnessing social signals to enhance a searchHarnessing social signals to enhance a search
Harnessing social signals to enhance a search
 
Poster Recherche d'Information Sociale
Poster Recherche d'Information SocialePoster Recherche d'Information Sociale
Poster Recherche d'Information Sociale
 

Prédire l’intensité de contradiction dans les commentaires : faible, forte ou très forte ?

  • 1. Introduction Vue d’ensemble : travaux relatifs Identification des polarités autour des aspects Collection de test : coursera.org Prédiction l’intensité de contradiction Conclusion Prédire l’intensité de contradiction dans les commentaires : faible, forte ou très forte ? Ismail Badache - Sébastien Fournier - Adrian-Gabriel Chifu Prénom.Nom@lis-lab.fr LIS UMR 7020 Laboratoire d’Informatique et des Systèmes Aix-Marseille Université Ismail Badache PFIA IC 2018 Prédire l’intensité de contradiction 1 / 21
  • 2. Introduction Vue d’ensemble : travaux relatifs Identification des polarités autour des aspects Collection de test : coursera.org Prédiction l’intensité de contradiction Conclusion Plan Introduction Vue d’ensemble : travaux relatifs Identification des polarités autour des aspects Collection de test : coursera.org Prédiction l’intensité de contradiction Conclusion Ismail Badache PFIA IC 2018 Prédire l’intensité de contradiction 2 / 21
  • 3. Introduction Vue d’ensemble : travaux relatifs Identification des polarités autour des aspects Collection de test : coursera.org Prédiction l’intensité de contradiction Conclusion Introduction : contradiction textuelle Définition Une situation où il est extrêmement improbable que deux phrases soient vraies lorsqu’elles sont considérées ensemble. Ismail Badache PFIA IC 2018 Prédire l’intensité de contradiction 3 / 21
  • 4. Introduction Vue d’ensemble : travaux relatifs Identification des polarités autour des aspects Collection de test : coursera.org Prédiction l’intensité de contradiction Conclusion Introduction : contradiction textuelle Définition Une situation où il est extrêmement improbable que deux phrases soient vraies lorsqu’elles sont considérées ensemble. Exemples de contradiction • Négation : « I love you — I do not love you » Ismail Badache PFIA IC 2018 Prédire l’intensité de contradiction 3 / 21
  • 5. Introduction Vue d’ensemble : travaux relatifs Identification des polarités autour des aspects Collection de test : coursera.org Prédiction l’intensité de contradiction Conclusion Introduction : contradiction textuelle Définition Une situation où il est extrêmement improbable que deux phrases soient vraies lorsqu’elles sont considérées ensemble. Exemples de contradiction • Négation : « I love you — I do not love you » • Mots opposés : « hot — cold, light — dark » Ismail Badache PFIA IC 2018 Prédire l’intensité de contradiction 3 / 21
  • 6. Introduction Vue d’ensemble : travaux relatifs Identification des polarités autour des aspects Collection de test : coursera.org Prédiction l’intensité de contradiction Conclusion Introduction : contradiction textuelle Définition Une situation où il est extrêmement improbable que deux phrases soient vraies lorsqu’elles sont considérées ensemble. Exemples de contradiction • Négation : « I love you — I do not love you » • Mots opposés : « hot — cold, light — dark » • Discordance numérique : « There are 7 wonders of the world — the number of wonders of the world are 9 » Ismail Badache PFIA IC 2018 Prédire l’intensité de contradiction 3 / 21
  • 7. Introduction Vue d’ensemble : travaux relatifs Identification des polarités autour des aspects Collection de test : coursera.org Prédiction l’intensité de contradiction Conclusion Introduction : idée générale Diversité des opinions sur un sujet (aspect) donné ⇒ Contradiction Ismail Badache PFIA IC 2018 Prédire l’intensité de contradiction 4 / 21
  • 8. Introduction Vue d’ensemble : travaux relatifs Identification des polarités autour des aspects Collection de test : coursera.org Prédiction l’intensité de contradiction Conclusion Contributions et questions de recherche Contribution 1 Une contradiction dans des commentaires liés à une ressource Web donnée signifie des opinions contradictoires exprimées sur un aspect spécifique, qui est une forme de diversité de sentiments autour de l’aspect au sein de la même ressource. Mais en plus de détecter la contradiction, il est souhaitable d’estimer son intensité. Par consé- quent, nous avons essayé de répondre aux questions suivantes : • QR1. Comment estimer/prédire l’intensité de contradiction ? • QR2. Quel est l’impact de la prise en compte des polarités et des notations sur la prédiction de l’intensité des commentaires contradictoires ? Ismail Badache PFIA IC 2018 Prédire l’intensité de contradiction 5 / 21
  • 9. Introduction Vue d’ensemble : travaux relatifs Identification des polarités autour des aspects Collection de test : coursera.org Prédiction l’intensité de contradiction Conclusion Contributions et questions de recherche Contribution 2 La construction d’une collection de test issue du site Web des MOOC a coursera.org. Cette collection est utile pour l’évaluation des systèmes mesurant l’intensité de contradiction. Des études expéri- mentales orientées utilisateurs - user studies - ont été menées pour collecter les jugements de l’intensité de contradiction : (Not Contradictory, Very Low, Low, Strong et Very Strong). a. Massive Open Online Course Ismail Badache PFIA IC 2018 Prédire l’intensité de contradiction 6 / 21
  • 10. Introduction Vue d’ensemble : travaux relatifs Identification des polarités autour des aspects Collection de test : coursera.org Prédiction l’intensité de contradiction Conclusion Vue d’ensemble : travaux relatifs Détection des contradictions et des controverses a. Contradictions : en se basant sur la linguistique, ex. l’antonyme, la négation (Harabagiu et al., 2006, De Marneffe et al., 2008). Ismail Badache PFIA IC 2018 Prédire l’intensité de contradiction 7 / 21
  • 11. Introduction Vue d’ensemble : travaux relatifs Identification des polarités autour des aspects Collection de test : coursera.org Prédiction l’intensité de contradiction Conclusion Vue d’ensemble : travaux relatifs Détection des contradictions et des controverses a. Contradictions : en se basant sur la linguistique, ex. l’antonyme, la négation (Harabagiu et al., 2006, De Marneffe et al., 2008). b. Controverses : Wikipédia (Wang et al., 2014), les "news" (Tsyt- sarau et al., 2014), lors de l’analyse de débat (Qiu et al., 2013) ou de manière générique sur le Web (Jang et Allan, 2016). Ismail Badache PFIA IC 2018 Prédire l’intensité de contradiction 7 / 21
  • 12. Introduction Vue d’ensemble : travaux relatifs Identification des polarités autour des aspects Collection de test : coursera.org Prédiction l’intensité de contradiction Conclusion Vue d’ensemble : travaux relatifs Détection des contradictions et des controverses a. Contradictions : en se basant sur la linguistique, ex. l’antonyme, la négation (Harabagiu et al., 2006, De Marneffe et al., 2008). b. Controverses : Wikipédia (Wang et al., 2014), les "news" (Tsyt- sarau et al., 2014), lors de l’analyse de débat (Qiu et al., 2013) ou de manière générique sur le Web (Jang et Allan, 2016). Méthodes de pré-traitement : aspects et sentiments a. Détection d’aspects : HMM (Hidden Markov Models) ou CRF (Conditional Random Fields) comme (Hamdan et al., 2015). Non supervisée HASM (Kim, 2013), règles statistiques (Poria, 2014). Ismail Badache PFIA IC 2018 Prédire l’intensité de contradiction 7 / 21
  • 13. Introduction Vue d’ensemble : travaux relatifs Identification des polarités autour des aspects Collection de test : coursera.org Prédiction l’intensité de contradiction Conclusion Vue d’ensemble : travaux relatifs Détection des contradictions et des controverses a. Contradictions : en se basant sur la linguistique, ex. l’antonyme, la négation (Harabagiu et al., 2006, De Marneffe et al., 2008). b. Controverses : Wikipédia (Wang et al., 2014), les "news" (Tsyt- sarau et al., 2014), lors de l’analyse de débat (Qiu et al., 2013) ou de manière générique sur le Web (Jang et Allan, 2016). Méthodes de pré-traitement : aspects et sentiments a. Détection d’aspects : HMM (Hidden Markov Models) ou CRF (Conditional Random Fields) comme (Hamdan et al., 2015). Non supervisée HASM (Kim, 2013), règles statistiques (Poria, 2014). b. Analyse de sentiments : Lexiques (Turney, 2002) ou corpus (Mohammad et al., 2013). Naïve bayes (Pang et al., 2002), RNN (Socher et al., 2013). Ismail Badache PFIA IC 2018 Prédire l’intensité de contradiction 7 / 21
  • 14. Introduction Vue d’ensemble : travaux relatifs Identification des polarités autour des aspects Collection de test : coursera.org Prédiction l’intensité de contradiction Conclusion Comment détecter la contradiction ? Ismail Badache PFIA IC 2018 Prédire l’intensité de contradiction 8 / 21
  • 15. Introduction Vue d’ensemble : travaux relatifs Identification des polarités autour des aspects Collection de test : coursera.org Prédiction l’intensité de contradiction Conclusion Extraction des aspects 1 Calcul fréquentiel des termes constituant le corpus des commen- taires, 1. http://nlp.stanford.edu:8080/parser/ 2. https://cs.nyu.edu/grishman/jet/guide/PennPOS.html 3. http://sentiwordnet.isti.cnr.it/ Ismail Badache PFIA IC 2018 Prédire l’intensité de contradiction 9 / 21
  • 16. Introduction Vue d’ensemble : travaux relatifs Identification des polarités autour des aspects Collection de test : coursera.org Prédiction l’intensité de contradiction Conclusion Extraction des aspects 1 Calcul fréquentiel des termes constituant le corpus des commen- taires, 2 Catégorisation des termes (Part-of-speech tagging) de chaque commentaire en utilisant Stanford Parser 1, 1. http://nlp.stanford.edu:8080/parser/ 2. https://cs.nyu.edu/grishman/jet/guide/PennPOS.html 3. http://sentiwordnet.isti.cnr.it/ Ismail Badache PFIA IC 2018 Prédire l’intensité de contradiction 9 / 21
  • 17. Introduction Vue d’ensemble : travaux relatifs Identification des polarités autour des aspects Collection de test : coursera.org Prédiction l’intensité de contradiction Conclusion Extraction des aspects 1 Calcul fréquentiel des termes constituant le corpus des commen- taires, 2 Catégorisation des termes (Part-of-speech tagging) de chaque commentaire en utilisant Stanford Parser 1, 3 Sélection des termes ayant la catégorie nominale (NN, NNS) 2, 1. http://nlp.stanford.edu:8080/parser/ 2. https://cs.nyu.edu/grishman/jet/guide/PennPOS.html 3. http://sentiwordnet.isti.cnr.it/ Ismail Badache PFIA IC 2018 Prédire l’intensité de contradiction 9 / 21
  • 18. Introduction Vue d’ensemble : travaux relatifs Identification des polarités autour des aspects Collection de test : coursera.org Prédiction l’intensité de contradiction Conclusion Extraction des aspects 1 Calcul fréquentiel des termes constituant le corpus des commen- taires, 2 Catégorisation des termes (Part-of-speech tagging) de chaque commentaire en utilisant Stanford Parser 1, 3 Sélection des termes ayant la catégorie nominale (NN, NNS) 2, 4 Sélection des noms avec des termes émotionnels dans leur voi- sinage de 5 mots (en utilisant SentiWordNet 3). Le choix de 5 mots a été fait après plusieurs expérimentations, 1. http://nlp.stanford.edu:8080/parser/ 2. https://cs.nyu.edu/grishman/jet/guide/PennPOS.html 3. http://sentiwordnet.isti.cnr.it/ Ismail Badache PFIA IC 2018 Prédire l’intensité de contradiction 9 / 21
  • 19. Introduction Vue d’ensemble : travaux relatifs Identification des polarités autour des aspects Collection de test : coursera.org Prédiction l’intensité de contradiction Conclusion Extraction des aspects 1 Calcul fréquentiel des termes constituant le corpus des commen- taires, 2 Catégorisation des termes (Part-of-speech tagging) de chaque commentaire en utilisant Stanford Parser 1, 3 Sélection des termes ayant la catégorie nominale (NN, NNS) 2, 4 Sélection des noms avec des termes émotionnels dans leur voi- sinage de 5 mots (en utilisant SentiWordNet 3). Le choix de 5 mots a été fait après plusieurs expérimentations, 5 Extraction des termes les plus fréquents (utilisés) dans le cor- pus parmi ceux sélectionnés dans l’étape précédente. Ces termes seront considérés comme des aspects. 1. http://nlp.stanford.edu:8080/parser/ 2. https://cs.nyu.edu/grishman/jet/guide/PennPOS.html 3. http://sentiwordnet.isti.cnr.it/ Ismail Badache PFIA IC 2018 Prédire l’intensité de contradiction 9 / 21
  • 20. Introduction Vue d’ensemble : travaux relatifs Identification des polarités autour des aspects Collection de test : coursera.org Prédiction l’intensité de contradiction Conclusion Extraction des aspects : exemple Étape Description (1) course : 44219, material : 3286, assignments : 3118, content : 2947, lecturer : 2705, ....... termei (2) The/DT lecturer/NN was/VBD an/DT annoying/VBG speaker/NN and/CC very/RB repetitive/JJ ./. I/PRP found/VBD the/DT format- ting/NN so/RB different/JJ from/IN other/JJ courses/NNS I/PRP ’ve/VBP taken/VBN ,/, that/IN it/PRP was/VBD hard/JJ to/TO get/VB started/VBN and/CC figure/VB things/NNS out/RP ./. (3) lecturer, speaker, formatting, things (4) lecturer, speaker (5) lecturer L’aspect utile est "lecturer" Ismail Badache PFIA IC 2018 Prédire l’intensité de contradiction 10 / 21
  • 21. Introduction Vue d’ensemble : travaux relatifs Identification des polarités autour des aspects Collection de test : coursera.org Prédiction l’intensité de contradiction Conclusion Analyse de sentiment Définition Les sentiments par rapport à un aspect sont un nombre réel dans la plage [-1, 1] qui indique la polarité de l’opinion exprimée dans le commentaire. Les valeurs négatives et positives représentent respec- tivement des opinions négatives et positives. Ismail Badache PFIA IC 2018 Prédire l’intensité de contradiction 11 / 21
  • 22. Introduction Vue d’ensemble : travaux relatifs Identification des polarités autour des aspects Collection de test : coursera.org Prédiction l’intensité de contradiction Conclusion Analyse de sentiment Définition Les sentiments par rapport à un aspect sont un nombre réel dans la plage [-1, 1] qui indique la polarité de l’opinion exprimée dans le commentaire. Les valeurs négatives et positives représentent respec- tivement des opinions négatives et positives. Modèle d’analyse de sentiments : • Modèle non-supervisé issu de l’état de l’art : SentiNeuron. Ismail Badache PFIA IC 2018 Prédire l’intensité de contradiction 11 / 21
  • 23. Introduction Vue d’ensemble : travaux relatifs Identification des polarités autour des aspects Collection de test : coursera.org Prédiction l’intensité de contradiction Conclusion Analyse de sentiment Définition Les sentiments par rapport à un aspect sont un nombre réel dans la plage [-1, 1] qui indique la polarité de l’opinion exprimée dans le commentaire. Les valeurs négatives et positives représentent respec- tivement des opinions négatives et positives. Modèle d’analyse de sentiments : • Modèle non-supervisé issu de l’état de l’art : SentiNeuron. • Formé sur plus de 82 millions de commentaires Amazon. Ismail Badache PFIA IC 2018 Prédire l’intensité de contradiction 11 / 21
  • 24. Introduction Vue d’ensemble : travaux relatifs Identification des polarités autour des aspects Collection de test : coursera.org Prédiction l’intensité de contradiction Conclusion Analyse de sentiment Définition Les sentiments par rapport à un aspect sont un nombre réel dans la plage [-1, 1] qui indique la polarité de l’opinion exprimée dans le commentaire. Les valeurs négatives et positives représentent respec- tivement des opinions négatives et positives. Modèle d’analyse de sentiments : • Modèle non-supervisé issu de l’état de l’art : SentiNeuron. • Formé sur plus de 82 millions de commentaires Amazon. • LSTM avec 4096 unités dont le 2389ème neurone concerne spé- cifiquement le sentiment d’une phrase donnée. Ismail Badache PFIA IC 2018 Prédire l’intensité de contradiction 11 / 21
  • 25. Introduction Vue d’ensemble : travaux relatifs Identification des polarités autour des aspects Collection de test : coursera.org Prédiction l’intensité de contradiction Conclusion Analyse de sentiment Définition Les sentiments par rapport à un aspect sont un nombre réel dans la plage [-1, 1] qui indique la polarité de l’opinion exprimée dans le commentaire. Les valeurs négatives et positives représentent respec- tivement des opinions négatives et positives. Modèle d’analyse de sentiments : • Modèle non-supervisé issu de l’état de l’art : SentiNeuron. • Formé sur plus de 82 millions de commentaires Amazon. • LSTM avec 4096 unités dont le 2389ème neurone concerne spé- cifiquement le sentiment d’une phrase donnée. • Traitement des négations (not, n’t, no). Ismail Badache PFIA IC 2018 Prédire l’intensité de contradiction 11 / 21
  • 26. Introduction Vue d’ensemble : travaux relatifs Identification des polarités autour des aspects Collection de test : coursera.org Prédiction l’intensité de contradiction Conclusion Analyse de sentiment Définition Les sentiments par rapport à un aspect sont un nombre réel dans la plage [-1, 1] qui indique la polarité de l’opinion exprimée dans le commentaire. Les valeurs négatives et positives représentent respec- tivement des opinions négatives et positives. Modèle d’analyse de sentiments : • Modèle non-supervisé issu de l’état de l’art : SentiNeuron. • Formé sur plus de 82 millions de commentaires Amazon. • LSTM avec 4096 unités dont le 2389ème neurone concerne spé- cifiquement le sentiment d’une phrase donnée. • Traitement des négations (not, n’t, no). • Traitement d’intensificateurs et d’adverbes (very, absolutely). Ismail Badache PFIA IC 2018 Prédire l’intensité de contradiction 11 / 21
  • 27. Introduction Vue d’ensemble : travaux relatifs Identification des polarités autour des aspects Collection de test : coursera.org Prédiction l’intensité de contradiction Conclusion Analyse de sentiment Définition Les sentiments par rapport à un aspect sont un nombre réel dans la plage [-1, 1] qui indique la polarité de l’opinion exprimée dans le commentaire. Les valeurs négatives et positives représentent respec- tivement des opinions négatives et positives. Modèle d’analyse de sentiments : • Modèle non-supervisé issu de l’état de l’art : SentiNeuron. • Formé sur plus de 82 millions de commentaires Amazon. • LSTM avec 4096 unités dont le 2389ème neurone concerne spé- cifiquement le sentiment d’une phrase donnée. • Traitement des négations (not, n’t, no). • Traitement d’intensificateurs et d’adverbes (very, absolutely). • Précision : 93% (taux d’erreur 7%) Ismail Badache PFIA IC 2018 Prédire l’intensité de contradiction 11 / 21
  • 28. Introduction Vue d’ensemble : travaux relatifs Identification des polarités autour des aspects Collection de test : coursera.org Prédiction l’intensité de contradiction Conclusion Objectifs et collection de test • Évaluer l’impact de l’analyse de sentiment et du rating sur la détection de contradictions autour de certains aspects. Ismail Badache PFIA IC 2018 Prédire l’intensité de contradiction 12 / 21
  • 29. Introduction Vue d’ensemble : travaux relatifs Identification des polarités autour des aspects Collection de test : coursera.org Prédiction l’intensité de contradiction Conclusion Objectifs et collection de test • Évaluer l’impact de l’analyse de sentiment et du rating sur la détection de contradictions autour de certains aspects. • Évaluer l’impact du centroide moyenné et pondéré sur la mesure de l’intensité des contradictions. Ismail Badache PFIA IC 2018 Prédire l’intensité de contradiction 12 / 21
  • 30. Introduction Vue d’ensemble : travaux relatifs Identification des polarités autour des aspects Collection de test : coursera.org Prédiction l’intensité de contradiction Conclusion Objectifs et collection de test • Évaluer l’impact de l’analyse de sentiment et du rating sur la détection de contradictions autour de certains aspects. • Évaluer l’impact du centroide moyenné et pondéré sur la mesure de l’intensité des contradictions. Collection de test : issue de "coursera.org" Champ Nombre Total Cours 2244 Cours notés 1115 Commentaires 73873 Ratings 298326 Commentaires 1705 Commentaires 1443 Commentaires 3302 Commentaires 12202 Commentaires 55221 Ismail Badache PFIA IC 2018 Prédire l’intensité de contradiction 12 / 21
  • 31. Introduction Vue d’ensemble : travaux relatifs Identification des polarités autour des aspects Collection de test : coursera.org Prédiction l’intensité de contradiction Conclusion Les aspects détectés Au total : 22 aspects capturés automatiquement sur l’ensemble des commentaires issus de "coursera.org" Ismail Badache PFIA IC 2018 Prédire l’intensité de contradiction 13 / 21
  • 32. Introduction Vue d’ensemble : travaux relatifs Identification des polarités autour des aspects Collection de test : coursera.org Prédiction l’intensité de contradiction Conclusion Jugements par les utilisateurs - User Study - Évaluation manuelle (contradictions et sentiments) : • 3 évaluateurs. • 50 cours pour chaque aspect. • 66104 commentaires/aspect de 1100 cours. • Kappa Cohen (contradictions) : k = 0.80. • Kappa Cohen (sentiments) : k = 0.78. Ismail Badache PFIA IC 2018 Prédire l’intensité de contradiction 14 / 21
  • 33. Introduction Vue d’ensemble : travaux relatifs Identification des polarités autour des aspects Collection de test : coursera.org Prédiction l’intensité de contradiction Conclusion Liste des critères exploités ci Critère Description c1 NegCom Nombre de commentaires négatifs sur le document c2 PosCom Nombre de commentaires positifs sur le document c3 TotalCom Nombre total des commentaires sur le document c4 Not1 Nombre de commentaires avec notation c5 Not2 Nombre de commentaires avec notation c6 Not3 Nombre de commentaires avec notation c7 Not4 Nombre de commentaires avec notation c8 Not5 Nombre de commentaires avec notation c9 VarNot Variation des notations (écart type - Pearson et al.,1964) c10 VarPol Variation des polarités (écart type - Pearson et al.,1964) La formule de l’écart type, proposée par Pearson et al. (1964) est : s = n i=1 (x−¯x)2 n Où x est la valeur du critère (notation, polarité), ¯x est la moyenne de l’échantillon du critère concerné, et n est la taille de l’échantillon. Ismail Badache PFIA IC 2018 Prédire l’intensité de contradiction 15 / 21
  • 34. Introduction Vue d’ensemble : travaux relatifs Identification des polarités autour des aspects Collection de test : coursera.org Prédiction l’intensité de contradiction Conclusion Protocole d’évaluation des critères - 50 cours avec leurs commentaires pour chaque aspect (22 aspects) de la collection coursera ont été extraits aléatoirement. Ismail Badache PFIA IC 2018 Prédire l’intensité de contradiction 16 / 21
  • 35. Introduction Vue d’ensemble : travaux relatifs Identification des polarités autour des aspects Collection de test : coursera.org Prédiction l’intensité de contradiction Conclusion Protocole d’évaluation des critères - 50 cours avec leurs commentaires pour chaque aspect (22 aspects) de la collection coursera ont été extraits aléatoirement. - Les classes reflétant l’intensité des contradictions autour d’un as- pect spécifique : Very Low, Low, Strong et Very Strong. Ismail Badache PFIA IC 2018 Prédire l’intensité de contradiction 16 / 21
  • 36. Introduction Vue d’ensemble : travaux relatifs Identification des polarités autour des aspects Collection de test : coursera.org Prédiction l’intensité de contradiction Conclusion Protocole d’évaluation des critères - 50 cours avec leurs commentaires pour chaque aspect (22 aspects) de la collection coursera ont été extraits aléatoirement. - Les classes reflétant l’intensité des contradictions autour d’un as- pect spécifique : Very Low, Low, Strong et Very Strong. - L’ensemble résultant contient 1100 cours (instances) répartis selon leur classe d’intensité de contradiction comme suit : • 230 instances Very Low • 264 instances Low • 330 instances Strong • 276 instances Very Strong Ismail Badache PFIA IC 2018 Prédire l’intensité de contradiction 16 / 21
  • 37. Introduction Vue d’ensemble : travaux relatifs Identification des polarités autour des aspects Collection de test : coursera.org Prédiction l’intensité de contradiction Conclusion Identification des critères les plus efficaces Figure – Les critères sélectionnés par les algorithmes de sélection les critères c1 : NegCom, c2 : PosCom, c9 : VarNot et c10 : VarPol sont les plus fructueux pour prédire l’intensité de la contradiction. Ismail Badache PFIA IC 2018 Prédire l’intensité de contradiction 17 / 21
  • 38. Introduction Vue d’ensemble : travaux relatifs Identification des polarités autour des aspects Collection de test : coursera.org Prédiction l’intensité de contradiction Conclusion Apprentissage des critères pour prédire l’intensité Figure – Processus d’apprentissage avec les algorithmes de sélection Ismail Badache PFIA IC 2018 Prédire l’intensité de contradiction 18 / 21
  • 39. Introduction Vue d’ensemble : travaux relatifs Identification des polarités autour des aspects Collection de test : coursera.org Prédiction l’intensité de contradiction Conclusion Résultats d’apprentissage : précision fournie par Weka Algorithmes de sélection Critères (CFS) c1, c2, c3, c9, c10 (WRP) c1, c2, c3, c4, c8, c9, c10 (SVM) et (RLF) c1, c2, c3, c4, c5, c6, c7, c8, c9, c10 Ismail Badache PFIA IC 2018 Prédire l’intensité de contradiction 19 / 21
  • 40. Introduction Vue d’ensemble : travaux relatifs Identification des polarités autour des aspects Collection de test : coursera.org Prédiction l’intensité de contradiction Conclusion Résultats d’apprentissage : précision fournie par Weka Algorithmes de sélection Critères (CFS) c1, c2, c3, c9, c10 (WRP) c1, c2, c3, c4, c8, c9, c10 (SVM) et (RLF) c1, c2, c3, c4, c5, c6, c7, c8, c9, c10 Classifieurs Classes (Niveaux d’intensité) Techniques de sélection Tous les critères Naïve Bayes (Baseline) Very Low 0.81 (CFS) 0.71 Low 0.38 (CFS) 0.34 Strong 0.75 (CFS) 0.66 Very Strong 0.78 (CFS) 0.69 Moyenne 0.68 (CFS) 0.60 Very Low 0.86 (WRP) 0.72 Low 0.46 (WRP) 0.38 Strong 0.76 (WRP) 0.63 Very Strong 0.80 (WRP) 0.67 Moyenne 0.72 (WRP) 0.60 Ismail Badache PFIA IC 2018 Prédire l’intensité de contradiction 19 / 21
  • 41. Introduction Vue d’ensemble : travaux relatifs Identification des polarités autour des aspects Collection de test : coursera.org Prédiction l’intensité de contradiction Conclusion Résultats d’apprentissage : précision fournie par Weka Algorithmes de sélection Critères (CFS) c1, c2, c3, c9, c10 (WRP) c1, c2, c3, c4, c8, c9, c10 (SVM) et (RLF) c1, c2, c3, c4, c5, c6, c7, c8, c9, c10 Classifieurs Classes (Niveaux d’intensité) Techniques de sélection Tous les critères Naïve Bayes (Baseline) Very Low 0.81 (CFS) 0.71 Low 0.38 (CFS) 0.34 Strong 0.75 (CFS) 0.66 Very Strong 0.78 (CFS) 0.69 Moyenne 0.68 (CFS) 0.60 Very Low 0.86 (WRP) 0.72 Low 0.46 (WRP) 0.38 Strong 0.76 (WRP) 0.63 Very Strong 0.80 (WRP) 0.67 Moyenne 0.72 (WRP) 0.60 SVM Very Low 0.88∗ (SVM) 0.88∗ Low 0.72∗∗ (SVM) 0.72∗∗ Strong 0.78∗ (SVM) 0.78∗ Very Strong 0.90∗∗ (SVM) 0.90∗∗ Moyenne 0.82∗∗ (SVM) 0.82∗∗ Ismail Badache PFIA IC 2018 Prédire l’intensité de contradiction 19 / 21
  • 42. Introduction Vue d’ensemble : travaux relatifs Identification des polarités autour des aspects Collection de test : coursera.org Prédiction l’intensité de contradiction Conclusion Résultats d’apprentissage : précision fournie par Weka Algorithmes de sélection Critères (CFS) c1, c2, c3, c9, c10 (WRP) c1, c2, c3, c4, c8, c9, c10 (SVM) et (RLF) c1, c2, c3, c4, c5, c6, c7, c8, c9, c10 Classifieurs Classes (Niveaux d’intensité) Techniques de sélection Tous les critères Naïve Bayes (Baseline) Very Low 0.81 (CFS) 0.71 Low 0.38 (CFS) 0.34 Strong 0.75 (CFS) 0.66 Very Strong 0.78 (CFS) 0.69 Moyenne 0.68 (CFS) 0.60 Very Low 0.86 (WRP) 0.72 Low 0.46 (WRP) 0.38 Strong 0.76 (WRP) 0.63 Very Strong 0.80 (WRP) 0.67 Moyenne 0.72 (WRP) 0.60 SVM Very Low 0.88∗ (SVM) 0.88∗ Low 0.72∗∗ (SVM) 0.72∗∗ Strong 0.78∗ (SVM) 0.78∗ Very Strong 0.90∗∗ (SVM) 0.90∗∗ Moyenne 0.82∗∗ (SVM) 0.82∗∗ J48 Very Low 0.97∗∗ (RLF) 0.97∗∗ Low 0.92∗∗ (RLF) 0.92∗∗ Strong 0.97∗∗ (RLF) 0.97∗∗ Very Strong 0.98∗∗ (RLF) 0.98∗∗ Moyenne 0.96∗∗ (RLF) 0.96∗∗ Ismail Badache PFIA IC 2018 Prédire l’intensité de contradiction 19 / 21
  • 43. Introduction Vue d’ensemble : travaux relatifs Identification des polarités autour des aspects Collection de test : coursera.org Prédiction l’intensité de contradiction Conclusion Conclusion Contribution : estimation de l’intensité de contradiction • Exploitation de critères basés sur la polarité et la notation. • Approches d’apprentissage avec des algorithmes de sélection. Ismail Badache PFIA IC 2018 Prédire l’intensité de contradiction 20 / 21
  • 44. Introduction Vue d’ensemble : travaux relatifs Identification des polarités autour des aspects Collection de test : coursera.org Prédiction l’intensité de contradiction Conclusion Conclusion Contribution : estimation de l’intensité de contradiction • Exploitation de critères basés sur la polarité et la notation. • Approches d’apprentissage avec des algorithmes de sélection. limites : • Dépendance de la qualité des modèles d’analyse de sentiments et de détection des aspects. • Simplicité des modèles de pré-traitements. • Détection des phrases auxquelles appartient un aspect. Ismail Badache PFIA IC 2018 Prédire l’intensité de contradiction 20 / 21
  • 45. Introduction Vue d’ensemble : travaux relatifs Identification des polarités autour des aspects Collection de test : coursera.org Prédiction l’intensité de contradiction Conclusion Conclusion Contribution : estimation de l’intensité de contradiction • Exploitation de critères basés sur la polarité et la notation. • Approches d’apprentissage avec des algorithmes de sélection. limites : • Dépendance de la qualité des modèles d’analyse de sentiments et de détection des aspects. • Simplicité des modèles de pré-traitements. • Détection des phrases auxquelles appartient un aspect. Perspectives : • Améliorer l’analyse de sentiments, d’aspects et des phrases. • Prise en compte du profil de l’utilisateur (la recommandation). • S’affranchir de la notation. • D’autres expérimentations sur d’autres types de collections. Ismail Badache PFIA IC 2018 Prédire l’intensité de contradiction 20 / 21
  • 46. Introduction Vue d’ensemble : travaux relatifs Identification des polarités autour des aspects Collection de test : coursera.org Prédiction l’intensité de contradiction Conclusion Ismail Badache PFIA IC 2018 Prédire l’intensité de contradiction 21 / 21