1. www.lingway.com 20 octobre 10
Analyse automatique de la
e-Réputation
Hugues de Mazancourt
Directeur Technique
Lingway
2. La e-Réputation
1,7 milliards d’internautes et
133 millions de bloggeurs dans
le monde (source Technorati)
227 millions d’internautes, 32
millions de bloggeurs et 58
millions de membres de
réseaux sociaux aux Etats-Unis
(source Universal Mc Cann)
35 millions d’internautes en France
( Médiamétrie, décembre 09)
5 millions de bloggeurs et 10
millions de membres de
réseaux sociaux en France (source
Universal Mc Cann)
900 000 nouveaux « post »
chaque jour (source Technorati)
285 000 nouveaux avis
consommateurs publiés
chaque jour
- 20 octobre 10Journée IliaTech 2
Illustration CNDP - dossier « identité numérique, quels
enjeux pour l’école » - sept.2010
3. Pour le meilleur et pour le pire
- 20 octobre 10Journée IliaTech 3
4. A Lingway, la e-Réputation, c’est:
Un produit: LINGWAY e-Réputation
Proposé directement à des entreprises soucieuses de suivre
leur image sur Internet
• Banques, « réputation employeur », automobile
Ou en partenariat avec des agences de communication
• Grande consommation
Un projet de R&D collaborative : iPinion
En partenariat
Permettant de renforcer les bases théoriques du produit
… et de permettre des expérimentations
- 20 octobre 10Journée IliaTech 4
5. Le projet iPinion
La réunion de 3 expertises :
Lingway : Traitement Automatique des Langues
Pikko : cartographie de données complexes
Medialab de Sciences Po : étude des usages des TIC
2 entreprises beta-testeurs
Moêt Hennessy
Radio France
Thèmes de recherche
Analyser automatiquement l’opinion dans les textes (Lingway)
Analyser & cartographier les réseaux d’opinion (Pikko)
Qu’est-ce qu’un échantillon représentatif du Web (médialab) ?
- 20 octobre 10Journée IliaTech 5
7. Collecter les données
Méthode « search » plutôt que « bouquet »
« Syndrome du réverbère »
Sur la thématique de l’étude
À partir d’une liste de mots clés, sur une plage de temps
Types de sources
Web (sites, blogs, forums…) via des moteurs de recherche
Twitter + ses liens
Facebook
Videos (Dailymotion, Youtube )
Sites d’avis (Ciao)
Enrichissement du catalogue de sources
Black-lists, par exemple petites annonces, offres d’emploi
Conservation de données complémentaires sur les sources
- 20 octobre 10Journée IliaTech 7
8. La question du document
La tradition (et les moteurs de recherche) nous a
habitués à raisonner en « pages », mais est-ce le bon
degré d’analyse ?
Plusieurs unités sur une page
Un commentaire sur un blog n’a pas la même valeur que le post
lui-même
• a priori moins
Pas plus qu’un commentaire sur un site de revue, par rapport à la
présentation du produit
• ici, il semble avoir plus de poids que le « post »
Une n-ième reprise d’un article a-t-elle le même poids
que l’article initial?
Cf. les « RT » sur twitter
Pas de réponse théorique à l’heure actuelle
- 20 octobre 10Journée IliaTech 8
9. Plus prosaïquement…
Nettoyer les pages
Supprimer les publicités, bandeaux de navigation, etc. pour
garder le « vrai » contenu
Découper les pages
Isoler le post des commentaires
Détecter les dates et auteurs des commentaires
… et plus généralement de la page
Le tout avec une portée généraliste (« tout-terrain »)
utilisation d’heuristiques sur la forme du
document et de grammaires locales sur le texte
Ce n’est pas un sujet théorique très exploré, pourtant, c’est le
point d’entrée indispensable à une analyse correcte
- 20 octobre 10Journée IliaTech 9
11. Utilisation de Lingway KM
Utilisation des capacités sémantiques du moteur
pour trouver des verbatims qui correspondent à des
thématiques de la grille
Sans avoir à énumérer toutes les formulations possibles
Utilisation des fonctions de text-mining pour
découvrir de nouvelles thématiques
Ces thématiques vont pouvoir enrichir la grille
• Sur des aspects durables ou éphémères (buzz)
- 20 octobre 10Journée IliaTech 11
15. Autres extractions
- 20 octobre 10Journée IliaTech 15
Discours officiel
de la marque
Discours des
internautes
16. Identifier et mesurer les opinions
Opinion = Evaluation + thème
Les frais d’ouverture de compte sont trop élevés
J’ai remarqué un effort d’amabilité de la hot-line
Le service n’est pourtant pas totalement déshumanisé
Identifier les thèmes
Thèmes connus que l’on veut surveiller > « grille d’analyse »
Thème inconnus que le système peut découvrir
Identifier les évaluations
Analyse linguistique des polarités positives ou négatives des
verbatims
nécessité d’une analyse linguistique à la fois fine et
robuste
- 20 octobre 10Journée IliaTech 16
17. Les limites de l’interprétation
- 20 octobre 10Journée IliaTech 17
18. Portail d’accès aux résultats
- 20 octobre 10Journée IliaTech 18
Etude « banques » de Juillet 2010
19. LINGWAY e-Réputation: bénéfices
Une plateforme intégrée
De l’acquisition à la présentation
Pour le suivi de tous types de sources
Web, réseaux sociaux, avis consommateurs
Proposant une analyse quantitative
Par source, par pays, par période …
Et qualitative
Grâce à l’analyse linguistique permettant
L’identification des thématiques
L’association thème – objet
L’analyse des tonalités
- 20 octobre 10Journée IliaTech 19
21. Prochaines étapes
Segmentation des auteurs
Age, CSP, …
Argument mining
Savoir pourquoi les utilisateurs sont ou non contents
Pour pouvoir ajuster le discours
Mais aussi prévenir les crises en détectant des singularités
dans les arguments avancés
• Cf. page Facebook Nestlé
- 20 octobre 10Journée IliaTech 21