Opinion mining: où en est-on ?

2 041 vues

Publié le

Présentation lors de la journée "eRéputation Day", 26 octobre 2012

0 commentaire
3 j’aime
Statistiques
Remarques
  • Soyez le premier à commenter

Aucun téléchargement
Vues
Nombre de vues
2 041
Sur SlideShare
0
Issues des intégrations
0
Intégrations
482
Actions
Partages
0
Téléchargements
0
Commentaires
0
J’aime
3
Intégrations 0
Aucune incorporation

Aucune remarque pour cette diapositive

Opinion mining: où en est-on ?

  1. 1. Opinion Mining ou « sentiment analysis » Où en est-on ?Reputation-Day 2012, Innovation Meeting Hôtel Lutetia le 26 octobre 2012 bernard@normier.fr
  2. 2. Notoriété, Réputation, Opinion• Notoriété – Suis-je connu ? – La notoriété peut être immédiate, mais disparaître tout aussi rapidement – Mesure : nombre de citations• Réputation – Que pense t-on de moi ? – Quelle opinion a-t-on de moi ? – La réputation se construit dans le temps – Mesure : analyse des contenus bernard@normier.fr e-Réputation Day, 2 Hotel Lutetia, 26 Octobre 2012
  3. 3. e-réputation• Le terme « e-réputation » recouvre à la fois la notion de notoriété et celle de réputation, dans le contexte Internet – Le terme « e-notoriété » n’est pas adopté – Cf. Google: 5 millions de citations pour e-notoriété contre 600 millions pour e-réputation• Deux technologies différentes – «notoriété» = technologies de veille – «réputation» = technologies d’« opinion mining » bernard@normier.fr ReputationDay 3 2012 Hôtel Lutetia, 26 Octobre 2012
  4. 4. e-réputation: un enjeu capital• Selon plusieurs études concordantes, en gros, les 3/4 des français sont des internautes• Les 3/4 des internautes consultent Internet avant d’acheter un produit• La moitié des internautes consultent les avis des autres avant de choisir un produit• L’analyse des opinions est au cœur de la e- réputation bernard@normier.fr ReputationDay 4 2012 Hôtel Lutetia, 26 Octobre 2012
  5. 5. Définition• «opinion mining» ou «sentiment analysis» sont deux termes équivalents pour désigner des technologies d’analyse automatique des discours, écrits ou parlés, afin d’en extraire des informations subjectives comme des jugements, des évaluations ou des émotions.• C’est une branche du Natural Language Processing (NLP) et plus précisément du « text mining ». bernard@normier.fr ReputationDay 5 2012 Hôtel Lutetia, 26 Octobre 2012
  6. 6. Opinions formalisées ou libres• Opinions formalisées : – Notes ( 15/20 ) , emoticons,  étoiles (*** ) , etc. – Faciles à utiliser – Mais information limitée• Opinions libres : – Textes de commentaires, avis, tweets, etc – Videos – Riches mais difficiles à utiliser bernard@normier.fr ReputationDay 6 2012 Hôtel Lutetia, 26 Octobre 2012
  7. 7. De l’analyse linguistique à l’opinion miningMon parcours…• 12 ans de R&D en NLP sous contrat• 12 ans de projets• 12 ans d’édition de logiciel• Recherche sémantique, text mining, extraction de connaissances, résumé automatique… bernard@normier.fr ReputationDay 7 2012 Hôtel Lutetia, 26 Octobre 2012
  8. 8. Opinion mining et e-réputation• C’est un sujet critique mais relativement nouveau dans la problématique de la e-réputation• La plupart des systèmes de e-réputation se concentrent sur la notoriété et l’influence• L’analyse des opinions se fait souvent par lecture humaine bernard@normier.fr ReputationDay 8 2012 Hôtel Lutetia, 26 Octobre 2012
  9. 9. Les applications• Les études marketing : e-réputation• Le CRM : gestion de la relation clients• La veille et le «community management»• La détection de faux avis bernard@normier.fr ReputationDay 9 2012 Hôtel Lutetia, 26 Octobre 2012
  10. 10. Des avis, des commentaires partout…• Sur les sites d’avis spécialisés ou généralistes• Sur les réseaux sociaux facebook, twitter, et autres• Sur les blogs• Sur les forums• Dans le commentaires d’articles de presse en ligne• Dans les e-mails reçus• Dans les conversations des hot-lines• Etc.• 3 milliards de messages par jour (www.gnip.com) bernard@normier.fr e-Réputation Day, 10 Hotel Lutetia, 26 Octobre 2012
  11. 11. Qui s’y intéresse ?• Grandes entreprises – En B2B comme en B2C• PME – Cf. étude Digimind: 80% des entreprises utilisent les réseaux sociaux pour leur veille• Les agences de communication/marketing bernard@normier.fr ReputationDay 11 2012 Hôtel Lutetia, 26 Octobre 2012
  12. 12. Un exemple en B2B bernard@normier.fr e-Réputation Day, 12 Hotel Lutetia, 26 Octobre 2012
  13. 13. Une offre naissante• Nombreux acteurs aux Etats-Unis• Plusieurs grands acteurs : – Google, SAP (Business Objects-InXight) , Microsoft, IBM (SPSS), Sales Force (Radian6)…• Et des acteurs de niche : – Repustate, Lexanalytics, Noopsis, Lingway… bernard@normier.fr ReputationDay 13 2012 Hôtel Lutetia, 26 Octobre 2012
  14. 14. Études traditionnelles versus Opinion Mining• Etudes traditionnelles : – Quantitatives : sondages • Panel représentatif, bonne connaissance des personnes (CSP) • Biais possibles, influence de la forme des questions – Qualitatives • Entretiens : peu de personnes interrogées• Opinion mining sur le web : – Quantitatif et Qualitatif – Conversations spontanées, souvent très nombreuses – Mauvaise connaissance des personnes, compensée par le volume bernard@normier.fr ReputationDay 14 2012 Hôtel Lutetia, 26 Octobre 2012
  15. 15. ExempleTripAdvisor sur Musée d’Orsay – 5 600 avis, largement positifs • Collections magnifiques • Le plus beau musée de Paris • L’accueil est bien organisé • Etc. – Mais en négatif - Dommage que les lustres soient poussiéreux - Les gardiens sont lourds - Ambiance désagréable à cause de l’interdiction de photographier - Etc. bernard@normier.fr ReputationDay 15 2012 Hôtel Lutetia, 26 Octobre 2012
  16. 16. Opinion = ei, aij, sijkl, hk, ttDéfinition du Pr. Bing Liu, Université de Chicago• e (entity) désigne une entité• a (aspect) désigne un aspect ou une caractéristique de l’entité• s désigne un sentiment sur un aspect a de l’entité e• h (holder) désigne celui qui émet l’opinion• t (time) désigne le moment où l’opinion est émise bernard@normier.fr ReputationDay 16 2012 Hôtel Lutetia, 26 Octobre 2012
  17. 17. Opinion = ei, aij, sijkl, hk, tt : ExempleAvis de Toto77, le 9 Octobre 2012« Hôtel très décevant. Les chambres sont sombres et petites. Mais mes enfants ont trouvé que le déjeuner était bon ».Trois opinions, sur trois « aspects » de l’hôtel :1- e=hotel, a=0, s=négatif:décevant, h= toto77, t=9 oct2- e=hotel, a= chambre, négatif:petit, h=toto77, t=9 oct3- e=hotel, a= dejeuner, positif:très bon, h=toto77, t < 9 oct bernard@normier.fr ReputationDay 17 2012 Hôtel Lutetia, 26 Octobre 2012
  18. 18. Le facteur E = entité• Cas simples : le message est clairement relatif à une seule entité – Souvent les cas des sites d’avis• Cas complexes : plusieurs entités dans le message ou dans la conversation – forums, commentaires bernard@normier.fr ReputationDay 18 2012 Hôtel Lutetia, 26 Octobre 2012
  19. 19. Le facteur A = aspect• Une caractéristique particulière de l’entité• Dans la plupart des messages, plusieurs aspects sont discutés• Peut dépendre des objectifs de l’analyse – « Hôtel de la Plage. La chambre est sale, le tapis est plein de tâches ». bernard@normier.fr ReputationDay 19 2012 Hôtel Lutetia, 26 Octobre 2012
  20. 20. Le facteur S = sentiment• Evaluations factuelles – La chambre est propre : fait positif – La machine fait beaucoup de bruit: fait négatif• Avis – J’ai trouvé que la chambre n’était pas assez propre – La machine fait trop de bruit• Evaluations émotionnelles – J’ai détesté cette chambre crasseuse – J’ai toujours aimé le plat du jour de ce restaurant bernard@normier.fr ReputationDay 20 2012 Hôtel Lutetia, 26 Octobre 2012
  21. 21. Le facteur H = opinion holder• C’est celui qui donne un avis• Peut être anonyme ou non• Est-ce une personne influente ?• Est-ce une personne sincère ? – Problème (majeur) des faux avis – Voir certains algorithmes pour les repérer bernard@normier.fr ReputationDay 21 2012 Hôtel Lutetia, 26 Octobre 2012
  22. 22. Le facteur T = temps• Connaître la date de l’opinion est important• Sa portée dans le temps varie selon les supports : – Twitter : temps court – Google standard : temps long – Medias : temps variable selon la source – Réseaux sociaux : temps long• La portée de l’opinion dans le temps est fonction de son audience : – Les Re-tweets augmentent l’audience et allongent la portée – Le Page Rank de Google tient compte, entre autres, du nombre de liens entrants bernard@normier.fr ReputationDay 22 2012 Hôtel Lutetia, 26 Octobre 2012
  23. 23. Catégorisation/normalisation• Les chambres sont très sales• La saleté de la chambre est insupportable• Le tapis de la chambre est sali• La piaule est crasseuse• La chambre est tout sauf propre• Forme de surface / Forme lemmatisée : – sales/sale ; saleté/saleté ; sali / salir ; crasseuse / crasseux• Catégorisation : – SALETE = sale, salir, saleté; Familier = crasseux; Contraire = PROPRETE bernard@normier.fr ReputationDay 23 2012 Hôtel Lutetia, 26 Octobre 2012
  24. 24. L’analyse de la langue• Positifs ou négatifs selon le contexte syntaxique : – Ce dispositif permet de tester l’efficacité : neutre – Ce dispositif permet d’augmenter l’efficacité : positif – Une efficacité incroyable : positif – L’efficacité de cette machine est très limitée : négatif• Positifs ou négatifs selon le contexte sémantique : – Cet homme est nerveux / cette voiture est nerveuse• Positifs ou négatifs selon le point de vue : – Cette formule a permis d’augmenter les prix bernard@normier.fr ReputationDay 24 2012 Hôtel Lutetia, 26 Octobre 2012
  25. 25. Subjectivité des avis• L’avis d’un agent de voyage sur les avis de clients… – le commentaire écrit semble trop subjectif. Les gens doivent apprendre à choisir un hôtel selon ses besoins : une nuit en transit ? une nuit romantique ? une nuit pour affaire ? etc… Nous voyons parfois des commentaires négatifs sur la décoration de la chambre concernant des hôtels de chaînes très économiques. Du grand n’importe quoi. On ne peut pas avoir un « Palace » pour un prix discount. bernard@normier.fr ReputationDay 25 2012 Hôtel Lutetia, 26 Octobre 2012
  26. 26. Mise en œuvre d’un projet d’opinion mining• Quelle est la granularité nécessaire ?• Quel est le périmètre métier ?• Quels types de messages/documents ?• Quelles conditions d’usage ?• Quels outils ?• Quel ROI attendu ? bernard@normier.fr ReputationDay 26 2012 Hôtel Lutetia, 26 Octobre 2012
  27. 27. Quelle granularité ?• Cas simple : une seule entité, un seul auteur – C’est le cas de la plupart des avis sur Internet• Plus délicat : plusieurs entités dans le même texte – Souvent le cas de commentaires de blogs, de messages CRM – Il faut identifier les différentes entités visées – Décomposer le texte en autant de verbatims – Puis agréger par entité bernard@normier.fr ReputationDay 27 2012 Hôtel Lutetia, 26 Octobre 2012
  28. 28. Quel périmètre métier ?• Utiliser la terminologie du métier• Recenser les caractéristiques des entités intéressantes à suivre: – Hôtel : accueil, propreté, restauration, services, prix… – Auto : consommation, esthétique, confort, sécurité, prix bernard@normier.fr ReputationDay 28 2012 Hôtel Lutetia, 26 Octobre 2012
  29. 29. Quels types de documents ?• Longs ou courts ? – Tweets, commentaires de blogs, fils de forums• Niveau de langue ? – Français standard, type SMS, argotique, « jeunes »?• Structuré ou non ? – Titre + texte , texte seul, etc.• Provenance – Via un clavier, transcription speech to text ?• Quelles langues ? – La qualité des systèmes actuels est très dépendante des langues bernard@normier.fr ReputationDay 29 2012 Hôtel Lutetia, 26 Octobre 2012
  30. 30. Quelles conditions d’usage ?• Automatique sans révision : – Seule solution si les volumes sont grands – Vérification de qualité sur échantillons• Avec révision : – Qualité de l’interface de révision – Gains de productivité bernard@normier.fr ReputationDay 30 2012 Hôtel Lutetia, 26 Octobre 2012
  31. 31. Quels outils ?• Critères d’évaluation des outils : – Autonomes ou intégrés – Temps de réponse (études vs veille)• Méthode d’évaluation : – Eliminer la subjectivité des évaluateurs – Avoir plusieurs évaluateurs indépendants – Comparer les résultats des évaluateurs entre eux, puis entre chacun et le système bernard@normier.fr ReputationDay 31 2012 Hôtel Lutetia, 26 Octobre 2012
  32. 32. Quel ROI ?• ROI direct : – ROI par rapport à un suivi et une analyse manuelle – Comparaison par rapport à des sondages• ROI indirect : – Vitesse de réaction (temps réél) – Largeur du périmètre observé, fonction de veille – Possibilités d’intervention (community management) bernard@normier.fr ReputationDay 32 2012 Hôtel Lutetia, 26 Octobre 2012
  33. 33. Le problème des faux avis• On ne peut pas ignorer ce phénomène – Défaut de jeunesse ou inhérent à l’internet ?• Traçabilité de l’auteur – Cf. politiques de Twitter, FaceBook, etc.• Analyse du contenu – Certains algorithmes pistent les faux messages par l’analyse du contenu (peu de détails, utilisation du « je », etc … )• Projet de norme de l’AFNOR – Fiabilité des avis sur Internet bernard@normier.fr ReputationDay 33 2012 Hôtel Lutetia, 26 Octobre 2012
  34. 34. Ce que je vous souhaite… bernard@normier.fr bernard@normier.fr e-Réputation Day, 34 Hotel Lutetia, 26 Octobre 2012

×