1. Opinion Mining
Etat de l’art et exemples d’applications
Documation / MIS 22 mars 2012
dominique.boullier@sciences-po.fr
bernard.normier@lingway.com
www.lingway.com
2. > Qui sommes nous ?
Une société spécialisée sur l’analyse des données textuelles
Transformer une information non structurée en données utilisables par des logiciels
Une centaine de clients dans différents domaines
Une offre e-Reputation lancée il y a un peu plus d’un an
Un laboratoire de Sciences-PO
Spécialiste de la sociologie des nouveaux médias
Ouvrage de Dominique Boullier et Audrey Lohard « opinion mining »
Le projet iPinion 2010-2011
Avec Sciences-PO MEDIALAB et PIKKO
Projet CAP DIGITAL, financement Ministère de l’ Industrie
2
3. e-Réputation: un enjeu incontournable
Selon plusieurs études concordantes, en gros:
Les 3/4 des français sont des internautes
Les 3/4 des internautes consultent Internet avant d’acheter un
produit
La moitié des internautes consultent les avis des autres avant
de choisir un produit
L’analyse des opinions est au cœur de la e-réputation
3
6. Les SHS Sciences Humaines et
Sociales et l’opinion mining
Traditions
quantitatives: questionnaires et de sondages
qualitatives: entretiens
= des opinions provoquées et attribuées à des
auteurs aux propriétés socio-démographiques
prédéfinies
Web
des opinions spontanées dans une conversation sans
auteur à identité fiable
Mais des opinions quantifiables en masse et
analysables en détail (qualiquantitatif)
(Tarde): la sociologie devrait être la « science des
conversations »
7. Un état de l’art académique
Sources:
TAL (NLP)
Linguistique de corpus
Text mining (Fouille de texte)
Opinion mining (spécialisée web)
Sentiment analysis (analyse de
tonalité)
8. Les Défis Fouille de Textes (DEFT)
2005 : identification du locuteur d'un discours.
2006 : segmentation thématique de textes.
2007 : détection de l'opinion exprimée dans un
texte, quatre corpus, deux à trois classes (positif,
neutre, négatif) par corpus.
2008 : classification automatique de textes en genre
et en thème.
2009 : Analyse multilingue d'opinion
2010 : Étude de la variation diachronique et
diatopique du français : identification de la période et
du lieu de publication d'articles de presse.
2011: la variation diachronique en corpus de presse
et l'appariement d'articles scientifiques et de résumés.
9. État de l’art commercial
Prérequis avant toute analyse de
tonalité
Sourcing (mots-clés ou bouquets)
L’actuelle ruée sur Twitter, l’oubli des blogs
Extraction
Nettoyage
Base de données des verbatims
10. Sourcing et influence
Risques
niveler tous les verbatims
attribuer a priori un poids plus grand à
certains émetteurs
Théorie de l’influence
Avec un indicateur « Médialab
Influence Ranking » domaine par
domaine
11. Rôle des experts
Connaissance du domaine toujours
requise
Pour le sourcing
Pour la structure de traitement de la
base de données
Pour le traitement
Retour de pertinence
Les solutions prétendument tout
automatiques sont sans intérêt
12. Ce que l’on mesure en analyse de
tonalité n’est pas assez distingué
Avis
Jugement
Évaluation
Sentiment
Goût
Récits d’expérience
13. Méthodes
Détection de phrases subjectives
Dictionnaires de mots
Niveau de l’analyse:
n-grams vs document
en fait le niveau de la phrase est le plus
pertinent
Analyseur syntaxique et sémantique
nécessaires avec méthodes d’apprentissage
(non statistiques)
14.
15. Utilité et limites
E-reputation? Oui mais sans la stratégie et
au-delà pour la relation client
Limites
Non traitement des figures rhétoriques par
exemple
D’où limites pour les analyses politiques sur des
thèmes
Ok pour des produits/ services/ entités bien
identifiées
Veiller à pouvoir identifier Target and features
16. Des exemples de réalisation
Basés sur la plateforme
LINGWAY e-Reputation
16
17. Liste de sources
www.xxx.com…
Pages et
messages
MOTS CLES
Transformation en données structurées
personnes, lieux, marques, thèmes, tonalités,
avis, etc.
Analyseurs sémantiques
=
Logiciels + dictionnaires
Base de
données de
textes enrichis
et structurés
23. Verbatims négatifs autour de l’angoisse
« angoisse » est un élément du lexique marqué comme
« Négatif »
23
24. Verbatims positifs autour de l’angoisse
Inversion de la tonalité: Exemples :
La négation
Certains verbes à tonalité positive
24
25. Les différents types d’extraction
Les Entités nommées
Entités nommées standard
• Noms de personnes, de sociétés, de lieux
• E-mails, téléphone, URLs, dates, evènements, N°siret, …
Les Thèmes
Thèmes contrôlés (catégorisation selon des thématiques prédéfinies)
Thèmes libres ( qui ne sont pas préalablement connus)
La Tonalité
Identification d’une opinion, d’ un avis à l‘égard d’une personne, d’un
produit, d’une société, d’une marque…
25
26. Extraction d’entités nommées standard
Sur la base de
Lexiques de prénoms, noms de villes, régions, pays, sociétés
Règles contextuelles : Marqueurs d’introduction de noms de
personnes, de lieu ou d’organisation
Exemples avec noms de personnes, d’organisations et de lieux
26
28. Types de tonalités dans les lexiques
Types de tonalité utilisés
dans les lexiques Type de Exemples d’entrées des lexiques de
tonalité tonalité
Négatif / positif / positif
ambigu / négatif ambigu Positif Embellie, agréable, adorer,
agréablement
deux fonctions : Intensifieur
et Modérateur qui influent Negatif Horreur, déplorable, détester,
grandement sur la tonalité horriblement, en dépit de
celle des mots qui leur sont
proches. Positif ambigu rentabilité
Multilingue
Anglais, Français, Espagnol Négatif coût
ambigu
Plusieurs autres langues en
préparation sur la base des Modérateur Diminution, limiter, Peu
dictionnaires Lingway
Intensifieur Augmentation, progresser,
impressionnant, manifestement
28
29. Importance de l’Analyse linguistique
Importance analyse morpho-syntaxique : la tonalité
d’un mot peu dépendre de sa catégorie
En français on distingue « bien » adjectif positif de « bien »
adverbe intensifieur
En anglais, l'analyse permet de distinguer le nom « good » qui
est neutre, de l'adjectif « good » qui est positif.
29
30. Analyse de la tonalité : Exemples FR
Texte avec séquences analysées comme négatives
Texte avec séquences analysées comme positives
30
31. L’analyse lnguistique de la phrase
Une phrase comprend souvent plusieurs opinions qu’il faut
savoir identifier
31
33. Analyse de la tonalité : cas simples
Négatif
Exemples en français
Exemples en anglais
Exemples en espagnol
Les mots encadrés sont à l’origine de 33
tonalité de la séquence
34. Impact des intensifieurs (FR)
Les intensifieurs permettent de révéler la tonalité
d’un mot ambigu positif comme « rentabilité »
séquence neutre
séquences positives
Mais aussi de renforcer celle de mots déjà positifs
comme « efficace »
34
35. Impact des intensifieurs(EN)
L’intensifieur « increase » révèle la tonalité positive
de « benefit »
séquence neutre
séquence positive
Exemple de renforcement de la tonalité sur un mot
déjà négatif comme « disaster »
35
39. Exemples avec plusieurs inversions
Verbe modérateur à la forme négative
Double négation de verbe
39
40. En conclusion
Les technologies du
TAL sont
indispensables
2 cas d’utilisation
Sans révision
Même si l’analyse
automatique ne marche
pas à 100%, les
résultats sont
globalement significatifs
Avec révision
3 à 5 fois plus rapide
que sans ce type d’outil
d’aide à la lecture
40
41. Quelques cas
Constructeur automobile
Suivi des critiques de la marque, community management
Marques de grandes consommation
Suivi des opinions sur les « valeurs » mises en avant
Environnement, Ethique, Qualité…
Base de données de suivi permanent des marques
Assurances
Analyse des remontées sur les réseaux sociaux
Telecoms
Suivi du lancement de nouvelles offres
Administration
Veille « sujets sensibles »
41