SlideShare une entreprise Scribd logo
1  sur  42
Télécharger pour lire hors ligne
Opinion Mining
Etat de l’art et exemples d’applications
                   Documation / MIS 22 mars 2012

                  dominique.boullier@sciences-po.fr
                    bernard.normier@lingway.com




www.lingway.com
> Qui sommes nous ?
Une société spécialisée sur l’analyse des données textuelles
   Transformer une information non structurée en données utilisables par des logiciels
   Une centaine de clients dans différents domaines
   Une offre e-Reputation lancée il y a un peu plus d’un an

Un laboratoire de Sciences-PO
   Spécialiste de la sociologie des nouveaux médias
   Ouvrage de Dominique Boullier et Audrey Lohard « opinion mining »

Le projet iPinion 2010-2011
   Avec Sciences-PO MEDIALAB et PIKKO
   Projet CAP DIGITAL, financement Ministère de l’ Industrie




                                                        2
e-Réputation: un enjeu incontournable
Selon plusieurs études concordantes, en gros:

Les 3/4 des français sont des internautes

Les 3/4 des internautes consultent Internet avant d’acheter un
produit

La moitié des internautes consultent les avis des autres avant
de choisir un produit

L’analyse des opinions est au cœur de la e-réputation


                                        3
Opinion mining
et sentiment analysis
Méthodes et outils


   Dominique Boullier
   et Audrey Lohard
Opinion Mining
et Sentiment Analysis


  Dominique Boullier
  Et Audrey Lohard
Les SHS Sciences Humaines et
Sociales et l’opinion mining
 Traditions
    quantitatives: questionnaires et de sondages
    qualitatives: entretiens

 = des opinions provoquées et attribuées à des
 auteurs aux propriétés socio-démographiques
 prédéfinies

 Web
   des opinions spontanées dans une conversation sans
   auteur à identité fiable
   Mais des opinions quantifiables en masse et
   analysables en détail (qualiquantitatif)

    (Tarde): la sociologie devrait être la « science des
    conversations »
Un état de l’art académique
 Sources:
   TAL (NLP)
   Linguistique de corpus


 Text mining (Fouille de texte)
 Opinion mining (spécialisée web)
 Sentiment analysis (analyse de
 tonalité)
Les Défis Fouille de Textes (DEFT)
  2005 : identification du locuteur d'un discours.
  2006 : segmentation thématique de textes.
  2007 : détection de l'opinion exprimée dans un
  texte, quatre corpus, deux à trois classes (positif,
  neutre, négatif) par corpus.
  2008 : classification automatique de textes en genre
  et en thème.
  2009 : Analyse multilingue d'opinion
  2010 : Étude de la variation diachronique et
  diatopique du français : identification de la période et
  du lieu de publication d'articles de presse.
  2011: la variation diachronique en corpus de presse
  et l'appariement d'articles scientifiques et de résumés.
État de l’art commercial
 Prérequis avant toute analyse de
 tonalité

   Sourcing (mots-clés ou bouquets)
     L’actuelle ruée sur Twitter, l’oubli des blogs
   Extraction
   Nettoyage
   Base de données des verbatims
Sourcing et influence
 Risques
   niveler tous les verbatims
   attribuer a priori un poids plus grand à
   certains émetteurs


 Théorie de l’influence
 Avec un indicateur « Médialab
 Influence Ranking » domaine par
 domaine
Rôle des experts
 Connaissance du domaine toujours
 requise
   Pour le sourcing
   Pour la structure de traitement de la
   base de données
   Pour le traitement
 Retour de pertinence

 Les solutions prétendument tout
 automatiques sont sans intérêt
Ce que l’on mesure en analyse de
tonalité n’est pas assez distingué
  Avis
  Jugement
  Évaluation
  Sentiment
  Goût
  Récits d’expérience
Méthodes
 Détection de phrases subjectives
 Dictionnaires de mots

 Niveau de l’analyse:
   n-grams vs document
   en fait le niveau de la phrase est le plus
   pertinent


 Analyseur syntaxique et sémantique
 nécessaires avec méthodes d’apprentissage
 (non statistiques)
Utilité et limites
  E-reputation? Oui mais sans la stratégie et
  au-delà pour la relation client

  Limites
  Non traitement des figures rhétoriques par
  exemple
    D’où limites pour les analyses politiques sur des
    thèmes
    Ok pour des produits/ services/ entités bien
    identifiées
    Veiller à pouvoir identifier Target and features
Des exemples de réalisation
  Basés sur la plateforme
  LINGWAY e-Reputation


                 16
Liste de sources
www.xxx.com…

                                                                             Pages et
                                                                             messages



MOTS CLES




                         Transformation en données structurées
                       personnes, lieux, marques, thèmes, tonalités,
                                         avis, etc.

                                                                       Analyseurs sémantiques
                                                                                   =
                                                                       Logiciels + dictionnaires


        Base de
       données de
     textes enrichis
      et structurés
Analyse du contenu: exemple sur un forum
Contenu analysé, structuré automatiquement
Exemple: suivi de médicaments




                      20
Exemple: Que se dit-il sur les médicaments dans les blogs et
forums ?




                                      21
Thèmes + et – associés aux benzodiazépines




                         22
Verbatims négatifs autour de l’angoisse
« angoisse » est un élément du lexique marqué comme
« Négatif »




                23
Verbatims positifs autour de l’angoisse
Inversion de la tonalité: Exemples :
   La négation




   Certains verbes à tonalité positive




                      24
Les différents types d’extraction
Les Entités nommées
   Entités nommées standard
    •   Noms de personnes, de sociétés, de lieux
    •   E-mails, téléphone, URLs, dates, evènements, N°siret, …


Les Thèmes
   Thèmes contrôlés (catégorisation selon des thématiques prédéfinies)
   Thèmes libres ( qui ne sont pas préalablement connus)



La Tonalité
   Identification d’une opinion, d’ un avis à l‘égard d’une personne, d’un
   produit, d’une société, d’une marque…



                                                       25
Extraction d’entités nommées standard
Sur la base de
  Lexiques de prénoms, noms de villes, régions, pays, sociétés
  Règles contextuelles : Marqueurs d’introduction de noms de
  personnes, de lieu ou d’organisation
  Exemples avec noms de personnes, d’organisations et de lieux




                                      26
Extraction de thèmes puis de la tonalité
En français




                           27
Types de tonalités dans les lexiques
Types de tonalité utilisés
dans les lexiques                         Type de    Exemples d’entrées des lexiques de
                                          tonalité                              tonalité
    Négatif / positif / positif
    ambigu / négatif ambigu                Positif           Embellie, agréable, adorer,
                                                                          agréablement
    deux fonctions : Intensifieur
    et Modérateur qui influent            Negatif          Horreur, déplorable, détester,
    grandement sur la tonalité                                horriblement, en dépit de
    celle des mots qui leur sont
    proches.                        Positif ambigu                            rentabilité
Multilingue
    Anglais, Français, Espagnol           Négatif                                   coût
                                          ambigu
    Plusieurs autres langues en
    préparation sur la base des       Modérateur                Diminution, limiter, Peu
    dictionnaires Lingway
                                      Intensifieur          Augmentation, progresser,
                                                        impressionnant, manifestement




                                                      28
Importance de l’Analyse linguistique
Importance analyse morpho-syntaxique : la tonalité
d’un mot peu dépendre de sa catégorie
  En français on distingue « bien » adjectif positif de « bien »
  adverbe intensifieur




  En anglais, l'analyse permet de distinguer le nom « good » qui
  est neutre, de l'adjectif « good » qui est positif.




                                           29
Analyse de la tonalité : Exemples FR
Texte avec séquences analysées comme négatives




Texte avec séquences analysées comme positives




                              30
L’analyse lnguistique de la phrase

Une phrase comprend souvent plusieurs opinions qu’il faut
savoir identifier




                                     31
Analyse de la tonalité : cas simples




                         32
Analyse de la tonalité : cas simples
     Négatif
         Exemples en français




         Exemples en anglais




         Exemples en espagnol




Les mots encadrés sont à l’origine de   33
tonalité de la séquence
Impact des intensifieurs (FR)
  Les intensifieurs permettent de révéler la tonalité
  d’un mot ambigu positif comme « rentabilité »

 séquence neutre

séquences positives

  Mais aussi de renforcer celle de mots déjà positifs
  comme « efficace »




                                    34
Impact des intensifieurs(EN)
  L’intensifieur « increase » révèle la tonalité positive
  de « benefit »

 séquence neutre

séquence positive



  Exemple de renforcement de la tonalité sur un mot
  déjà négatif comme « disaster »


                                     35
L’inversion de tonalité
Négation de verbes (ne pas, ne plus, …)




Négations de noms (aucun, pas de, zéro)




                                36
L’inversion de tonalité
Verbes négatifs inversant la tonalité de leurs
compléments et/ou sujet




                                  37
L’inversion de tonalité

Impact des « modérateurs »




                             38
Exemples avec plusieurs inversions
Verbe modérateur à la forme négative




Double négation de verbe




                               39
En conclusion
Les technologies du
TAL sont
indispensables
2 cas d’utilisation

Sans révision
   Même si l’analyse
   automatique ne marche
   pas à 100%, les
   résultats sont
   globalement significatifs
Avec révision
   3 à 5 fois plus rapide
   que sans ce type d’outil
   d’aide à la lecture

                               40
Quelques cas
Constructeur automobile
   Suivi des critiques de la marque, community management
Marques de grandes consommation
   Suivi des opinions sur les « valeurs » mises en avant
   Environnement, Ethique, Qualité…
   Base de données de suivi permanent des marques
Assurances
   Analyse des remontées sur les réseaux sociaux
Telecoms
   Suivi du lancement de nouvelles offres
Administration
   Veille « sujets sensibles »


                                              41
MERCI…
bernard.normier@lingway.com
dominique.boullier@sciences-po.fr




                        42

Contenu connexe

Similaire à Présentation Lingway

Evaluation Cours 5
Evaluation   Cours 5Evaluation   Cours 5
Evaluation Cours 5
s9m7a4f
 

Similaire à Présentation Lingway (15)

Lingway salon Documation 2011
Lingway  salon Documation 2011Lingway  salon Documation 2011
Lingway salon Documation 2011
 
LINGWAY - Opinion mining: exemples d'applications
LINGWAY -  Opinion mining: exemples d'applicationsLINGWAY -  Opinion mining: exemples d'applications
LINGWAY - Opinion mining: exemples d'applications
 
Agences de Communication et outils de veille et d’e-Réputation : quelle métho...
Agences de Communication et outils de veille et d’e-Réputation : quelle métho...Agences de Communication et outils de veille et d’e-Réputation : quelle métho...
Agences de Communication et outils de veille et d’e-Réputation : quelle métho...
 
La sémio : ça sert à quoi ?
La sémio : ça sert à quoi ?La sémio : ça sert à quoi ?
La sémio : ça sert à quoi ?
 
LINGWAY forum e-marketing/ e-réputation
LINGWAY forum e-marketing/ e-réputationLINGWAY forum e-marketing/ e-réputation
LINGWAY forum e-marketing/ e-réputation
 
Image&dialogue/lingway Reputation day
Image&dialogue/lingway Reputation dayImage&dialogue/lingway Reputation day
Image&dialogue/lingway Reputation day
 
L’analyse sémantique et relationnelle version laboratoires
L’analyse sémantique et relationnelle version laboratoiresL’analyse sémantique et relationnelle version laboratoires
L’analyse sémantique et relationnelle version laboratoires
 
Analyse sémiologique par QualiQuanti
Analyse sémiologique par QualiQuantiAnalyse sémiologique par QualiQuanti
Analyse sémiologique par QualiQuanti
 
Evaluation Cours 5
Evaluation   Cours 5Evaluation   Cours 5
Evaluation Cours 5
 
Word-sense disambiguation
Word-sense disambiguationWord-sense disambiguation
Word-sense disambiguation
 
Les fonctions du langage appliquées à la publicité
Les fonctions du langage appliquées à la publicitéLes fonctions du langage appliquées à la publicité
Les fonctions du langage appliquées à la publicité
 
Découverte du Traitement Automatique des Langues
Découverte du Traitement Automatique des LanguesDécouverte du Traitement Automatique des Langues
Découverte du Traitement Automatique des Langues
 
Oe Abes Mai2008
Oe Abes Mai2008Oe Abes Mai2008
Oe Abes Mai2008
 
Map conf sherbrookeonline
Map conf sherbrookeonlineMap conf sherbrookeonline
Map conf sherbrookeonline
 
Identité d'entreprise ou de marque : le nom, la signature et le logo
Identité d'entreprise ou de marque : le nom, la signature et le logoIdentité d'entreprise ou de marque : le nom, la signature et le logo
Identité d'entreprise ou de marque : le nom, la signature et le logo
 

Plus de VeilleMag (10)

Cahier special mis2012_veille
Cahier special mis2012_veilleCahier special mis2012_veille
Cahier special mis2012_veille
 
Présentation Open wide
Présentation Open wide Présentation Open wide
Présentation Open wide
 
Tech connaissance 2012
Tech connaissance 2012Tech connaissance 2012
Tech connaissance 2012
 
Comprendre et sécuriser votre contenu
Comprendre et sécuriser votre contenu Comprendre et sécuriser votre contenu
Comprendre et sécuriser votre contenu
 
Isis papyrus adaptative case management
Isis papyrus adaptative case managementIsis papyrus adaptative case management
Isis papyrus adaptative case management
 
HUB2B-DLM MIS 2012
HUB2B-DLM MIS 2012HUB2B-DLM MIS 2012
HUB2B-DLM MIS 2012
 
Présentation Ant'Inno
Présentation Ant'InnoPrésentation Ant'Inno
Présentation Ant'Inno
 
Présentation Axiopole
Présentation AxiopolePrésentation Axiopole
Présentation Axiopole
 
Présentation EZ Systems
Présentation EZ SystemsPrésentation EZ Systems
Présentation EZ Systems
 
Présentation SPOTTER
Présentation SPOTTERPrésentation SPOTTER
Présentation SPOTTER
 

Présentation Lingway

  • 1. Opinion Mining Etat de l’art et exemples d’applications Documation / MIS 22 mars 2012 dominique.boullier@sciences-po.fr bernard.normier@lingway.com www.lingway.com
  • 2. > Qui sommes nous ? Une société spécialisée sur l’analyse des données textuelles Transformer une information non structurée en données utilisables par des logiciels Une centaine de clients dans différents domaines Une offre e-Reputation lancée il y a un peu plus d’un an Un laboratoire de Sciences-PO Spécialiste de la sociologie des nouveaux médias Ouvrage de Dominique Boullier et Audrey Lohard « opinion mining » Le projet iPinion 2010-2011 Avec Sciences-PO MEDIALAB et PIKKO Projet CAP DIGITAL, financement Ministère de l’ Industrie 2
  • 3. e-Réputation: un enjeu incontournable Selon plusieurs études concordantes, en gros: Les 3/4 des français sont des internautes Les 3/4 des internautes consultent Internet avant d’acheter un produit La moitié des internautes consultent les avis des autres avant de choisir un produit L’analyse des opinions est au cœur de la e-réputation 3
  • 4. Opinion mining et sentiment analysis Méthodes et outils Dominique Boullier et Audrey Lohard
  • 5. Opinion Mining et Sentiment Analysis Dominique Boullier Et Audrey Lohard
  • 6. Les SHS Sciences Humaines et Sociales et l’opinion mining Traditions quantitatives: questionnaires et de sondages qualitatives: entretiens = des opinions provoquées et attribuées à des auteurs aux propriétés socio-démographiques prédéfinies Web des opinions spontanées dans une conversation sans auteur à identité fiable Mais des opinions quantifiables en masse et analysables en détail (qualiquantitatif) (Tarde): la sociologie devrait être la « science des conversations »
  • 7. Un état de l’art académique Sources: TAL (NLP) Linguistique de corpus Text mining (Fouille de texte) Opinion mining (spécialisée web) Sentiment analysis (analyse de tonalité)
  • 8. Les Défis Fouille de Textes (DEFT) 2005 : identification du locuteur d'un discours. 2006 : segmentation thématique de textes. 2007 : détection de l'opinion exprimée dans un texte, quatre corpus, deux à trois classes (positif, neutre, négatif) par corpus. 2008 : classification automatique de textes en genre et en thème. 2009 : Analyse multilingue d'opinion 2010 : Étude de la variation diachronique et diatopique du français : identification de la période et du lieu de publication d'articles de presse. 2011: la variation diachronique en corpus de presse et l'appariement d'articles scientifiques et de résumés.
  • 9. État de l’art commercial Prérequis avant toute analyse de tonalité Sourcing (mots-clés ou bouquets) L’actuelle ruée sur Twitter, l’oubli des blogs Extraction Nettoyage Base de données des verbatims
  • 10. Sourcing et influence Risques niveler tous les verbatims attribuer a priori un poids plus grand à certains émetteurs Théorie de l’influence Avec un indicateur « Médialab Influence Ranking » domaine par domaine
  • 11. Rôle des experts Connaissance du domaine toujours requise Pour le sourcing Pour la structure de traitement de la base de données Pour le traitement Retour de pertinence Les solutions prétendument tout automatiques sont sans intérêt
  • 12. Ce que l’on mesure en analyse de tonalité n’est pas assez distingué Avis Jugement Évaluation Sentiment Goût Récits d’expérience
  • 13. Méthodes Détection de phrases subjectives Dictionnaires de mots Niveau de l’analyse: n-grams vs document en fait le niveau de la phrase est le plus pertinent Analyseur syntaxique et sémantique nécessaires avec méthodes d’apprentissage (non statistiques)
  • 14.
  • 15. Utilité et limites E-reputation? Oui mais sans la stratégie et au-delà pour la relation client Limites Non traitement des figures rhétoriques par exemple D’où limites pour les analyses politiques sur des thèmes Ok pour des produits/ services/ entités bien identifiées Veiller à pouvoir identifier Target and features
  • 16. Des exemples de réalisation Basés sur la plateforme LINGWAY e-Reputation 16
  • 17. Liste de sources www.xxx.com… Pages et messages MOTS CLES Transformation en données structurées personnes, lieux, marques, thèmes, tonalités, avis, etc. Analyseurs sémantiques = Logiciels + dictionnaires Base de données de textes enrichis et structurés
  • 18. Analyse du contenu: exemple sur un forum
  • 19. Contenu analysé, structuré automatiquement
  • 20. Exemple: suivi de médicaments 20
  • 21. Exemple: Que se dit-il sur les médicaments dans les blogs et forums ? 21
  • 22. Thèmes + et – associés aux benzodiazépines 22
  • 23. Verbatims négatifs autour de l’angoisse « angoisse » est un élément du lexique marqué comme « Négatif » 23
  • 24. Verbatims positifs autour de l’angoisse Inversion de la tonalité: Exemples : La négation Certains verbes à tonalité positive 24
  • 25. Les différents types d’extraction Les Entités nommées Entités nommées standard • Noms de personnes, de sociétés, de lieux • E-mails, téléphone, URLs, dates, evènements, N°siret, … Les Thèmes Thèmes contrôlés (catégorisation selon des thématiques prédéfinies) Thèmes libres ( qui ne sont pas préalablement connus) La Tonalité Identification d’une opinion, d’ un avis à l‘égard d’une personne, d’un produit, d’une société, d’une marque… 25
  • 26. Extraction d’entités nommées standard Sur la base de Lexiques de prénoms, noms de villes, régions, pays, sociétés Règles contextuelles : Marqueurs d’introduction de noms de personnes, de lieu ou d’organisation Exemples avec noms de personnes, d’organisations et de lieux 26
  • 27. Extraction de thèmes puis de la tonalité En français 27
  • 28. Types de tonalités dans les lexiques Types de tonalité utilisés dans les lexiques Type de Exemples d’entrées des lexiques de tonalité tonalité Négatif / positif / positif ambigu / négatif ambigu Positif Embellie, agréable, adorer, agréablement deux fonctions : Intensifieur et Modérateur qui influent Negatif Horreur, déplorable, détester, grandement sur la tonalité horriblement, en dépit de celle des mots qui leur sont proches. Positif ambigu rentabilité Multilingue Anglais, Français, Espagnol Négatif coût ambigu Plusieurs autres langues en préparation sur la base des Modérateur Diminution, limiter, Peu dictionnaires Lingway Intensifieur Augmentation, progresser, impressionnant, manifestement 28
  • 29. Importance de l’Analyse linguistique Importance analyse morpho-syntaxique : la tonalité d’un mot peu dépendre de sa catégorie En français on distingue « bien » adjectif positif de « bien » adverbe intensifieur En anglais, l'analyse permet de distinguer le nom « good » qui est neutre, de l'adjectif « good » qui est positif. 29
  • 30. Analyse de la tonalité : Exemples FR Texte avec séquences analysées comme négatives Texte avec séquences analysées comme positives 30
  • 31. L’analyse lnguistique de la phrase Une phrase comprend souvent plusieurs opinions qu’il faut savoir identifier 31
  • 32. Analyse de la tonalité : cas simples 32
  • 33. Analyse de la tonalité : cas simples Négatif Exemples en français Exemples en anglais Exemples en espagnol Les mots encadrés sont à l’origine de 33 tonalité de la séquence
  • 34. Impact des intensifieurs (FR) Les intensifieurs permettent de révéler la tonalité d’un mot ambigu positif comme « rentabilité » séquence neutre séquences positives Mais aussi de renforcer celle de mots déjà positifs comme « efficace » 34
  • 35. Impact des intensifieurs(EN) L’intensifieur « increase » révèle la tonalité positive de « benefit » séquence neutre séquence positive Exemple de renforcement de la tonalité sur un mot déjà négatif comme « disaster » 35
  • 36. L’inversion de tonalité Négation de verbes (ne pas, ne plus, …) Négations de noms (aucun, pas de, zéro) 36
  • 37. L’inversion de tonalité Verbes négatifs inversant la tonalité de leurs compléments et/ou sujet 37
  • 38. L’inversion de tonalité Impact des « modérateurs » 38
  • 39. Exemples avec plusieurs inversions Verbe modérateur à la forme négative Double négation de verbe 39
  • 40. En conclusion Les technologies du TAL sont indispensables 2 cas d’utilisation Sans révision Même si l’analyse automatique ne marche pas à 100%, les résultats sont globalement significatifs Avec révision 3 à 5 fois plus rapide que sans ce type d’outil d’aide à la lecture 40
  • 41. Quelques cas Constructeur automobile Suivi des critiques de la marque, community management Marques de grandes consommation Suivi des opinions sur les « valeurs » mises en avant Environnement, Ethique, Qualité… Base de données de suivi permanent des marques Assurances Analyse des remontées sur les réseaux sociaux Telecoms Suivi du lancement de nouvelles offres Administration Veille « sujets sensibles » 41