E Reputation Lingway

2 903 vues

Publié le

Presentation held at Iliatech day (Inria/CNRS) on October 2010.

0 commentaire
0 j’aime
Statistiques
Remarques
  • Soyez le premier à commenter

  • Soyez le premier à aimer ceci

Aucun téléchargement
Vues
Nombre de vues
2 903
Sur SlideShare
0
Issues des intégrations
0
Intégrations
18
Actions
Partages
0
Téléchargements
12
Commentaires
0
J’aime
0
Intégrations 0
Aucune incorporation

Aucune remarque pour cette diapositive

E Reputation Lingway

  1. 1. 20 octobre 10<br />Analyse automatique de la e-Réputation<br />Hugues de Mazancourt<br />Directeur Technique<br />Lingway<br />
  2. 2. La e-Réputation<br />1,7 milliards d’internautes et 133 millions de bloggeurs dans le monde (source Technorati)<br />227 millions d’internautes, 32 millions de bloggeurs et 58 millions de membres de réseaux sociaux aux Etats-Unis (source Universal Mc Cann)<br />35 millions d’internautes en France ( Médiamétrie, décembre 09)<br />5 millions de bloggeurs et 10 millions de membres de réseaux sociaux en France (source Universal Mc Cann)<br />900 000 nouveaux « post » chaque jour (source Technorati)<br />285 000 nouveaux avis consommateurs publiés chaque jour<br />- 20 octobre 10<br />Journée IliaTech<br />2<br />Illustration CNDP - dossier « identité numérique, quels enjeux pour l’école » - sept.2010 <br />
  3. 3. Pour le meilleur et pour le pire<br />- 20 octobre 10<br />Journée IliaTech<br />3<br />
  4. 4. A Lingway, la e-Réputation, c’est:<br />Un produit: LINGWAY e-Réputation<br />Proposé directement à des entreprises soucieuses de suivre leur image sur Internet<br />Banques, « réputation employeur », automobile<br />Ou en partenariat avec des agences de communication<br />Grande consommation<br />Un projet de R&D collaborative : iPinion<br />En partenariat<br />Permettant de renforcer les bases théoriques du produit<br />… et de permettre des expérimentations<br />- 20 octobre 10<br />Journée IliaTech<br />4<br />
  5. 5. Le projet iPinion<br />La réunion de 3 expertises :<br />Lingway : Traitement Automatique des Langues<br />Pikko : cartographie de données complexes<br />Medialab de Sciences Po : étude des usages des TIC<br />2 entreprises beta-testeurs<br />Moêt Hennessy<br />Radio France<br />Thèmes de recherche<br />Analyser automatiquement l’opinion dans les textes (Lingway)<br />Analyser & cartographier les réseaux d’opinion (Pikko)<br />Qu’est-ce qu’un échantillon représentatif du Web (médialab) ?<br />- 20 octobre 10<br />Journée IliaTech<br />5<br />
  6. 6. Processus d’analyse de la e-Réputation<br />- 20 octobre 10<br />Journée IliaTech<br />6<br />
  7. 7. Collecter les données<br />Méthode « search » plutôt que « bouquet »<br />« Syndrome du réverbère »<br />Sur la thématique de l’étude<br />À partir d’une liste de mots clés, sur une plage de temps<br />Types de sources<br />Web (sites, blogs, forums…) via des moteurs de recherche<br />Twitter + ses liens<br />Facebook<br />Videos (Dailymotion, Youtube )<br />Sites d’avis (Ciao)<br />Enrichissement du catalogue de sources<br />Black-lists, par exemple petites annonces, offres d’emploi<br />Conservation de données complémentaires sur les sources<br />- 20 octobre 10<br />Journée IliaTech<br />7<br />
  8. 8. La question du document<br />La tradition (et les moteurs de recherche) nous a habitués à raisonner en « pages », mais est-ce le bon degré d’analyse ?<br />Plusieurs unités sur une page<br />Un commentaire sur un blog n’a pas la même valeur que le post lui-même<br />a priori moins<br />Pas plus qu’un commentaire sur un site de revue, par rapport à la présentation du produit<br />ici, il semble avoir plus de poids que le « post »<br />Une n-ième reprise d’un article a-t-elle le même poids que l’article initial?<br />Cf. les « RT » sur twitter<br />Pas de réponse théorique à l’heure actuelle<br />- 20 octobre 10<br />Journée IliaTech<br />8<br />
  9. 9. Plus prosaïquement…<br />Nettoyer les pages<br />Supprimer les publicités, bandeaux de navigation, etc. pour garder le « vrai » contenu<br />Découper les pages<br />Isoler le post des commentaires<br />Détecter les dates et auteurs des commentaires<br />… et plus généralement de la page<br />Le tout avec une portée généraliste (« tout-terrain »)<br /> utilisation d’heuristiques sur la forme du document et de grammaires locales sur le texte<br />Ce n’est pas un sujet théorique très exploré, pourtant, c’est le point d’entrée indispensable à une analyse correcte<br />- 20 octobre 10<br />Journée IliaTech<br />9<br />
  10. 10. Cartographie d’influence<br />- 20 octobre 10<br />Journée IliaTech<br />10<br />Cartographie technologie Pikko<br />
  11. 11. Utilisation de Lingway KM<br />Utilisation des capacités sémantiques du moteur pour trouver des verbatims qui correspondent à des thématiques de la grille<br />Sans avoir à énumérer toutes les formulations possibles<br />Utilisation des fonctions de text-mining pour découvrir de nouvelles thématiques<br />Ces thématiques vont pouvoir enrichir la grille<br />Sur des aspects durables ou éphémères (buzz)<br />- 20 octobre 10<br />Journée IliaTech<br />11<br />
  12. 12. Moteur sémantique<br />- 20 octobre 10<br />Journée IliaTech<br />12<br />
  13. 13. Identification de thèmes émergents<br />- 20 octobre 10<br />Journée IliaTech<br />13<br />
  14. 14. Extraction d’adjectifs par banque<br />- 20 octobre 10<br />Journée IliaTech<br />14<br />Caisse d’épargne<br />BNP<br />LCL<br />HSBC<br />
  15. 15. Autres extractions<br />- 20 octobre 10<br />Journée IliaTech<br />15<br />Discours officiel de la marque<br />Discours des internautes<br />
  16. 16. Identifier et mesurer les opinions<br />Opinion = Evaluation + thème<br />Les frais d’ouverture de compte sont trop élevés<br />J’ai remarqué un effort d’amabilité de la hot-line<br />Le service n’est pourtant pas totalement déshumanisé <br />Identifier les thèmes<br />Thèmes connus que l’on veut surveiller > « grille d’analyse »<br />Thème inconnus que le système peut découvrir<br />Identifier les évaluations<br />Analyse linguistique des polarités positives ou négatives des verbatims<br /> nécessité d’une analyse linguistique à la fois fine et robuste<br />- 20 octobre 10<br />Journée IliaTech<br />16<br />
  17. 17. Les limites de l’interprétation<br />- 20 octobre 10<br />Journée IliaTech<br />17<br />
  18. 18. Portail d’accès aux résultats<br />- 20 octobre 10<br />Journée IliaTech<br />18<br />Etude « banques » de Juillet 2010<br />
  19. 19. LINGWAY e-Réputation: bénéfices<br />Une plateforme intégrée <br />De l’acquisition à la présentation<br />Pour le suivi de tous types de sources<br />Web, réseaux sociaux, avis consommateurs<br />Proposant une analyse quantitative<br />Par source, par pays, par période …<br />Et qualitative<br />Grâce à l’analyse linguistique permettant<br />L’identification des thématiques<br />L’association thème – objet<br />L’analyse des tonalités<br />- 20 octobre 10<br />Journée IliaTech<br />19<br />
  20. 20. One more thing…<br />- 20 octobre 10<br />Journée IliaTech<br />20<br />
  21. 21. Prochaines étapes<br />Segmentation des auteurs<br />Age, CSP, …<br />Argument mining<br />Savoir pourquoi les utilisateurs sont ou non contents<br />Pour pouvoir ajuster le discours<br />Mais aussi prévenir les crises en détectant des singularités dans les arguments avancés <br />Cf. page Facebook Nestlé<br />- 20 octobre 10<br />Journée IliaTech<br />21<br />
  22. 22. Merci<br />- 20 octobre 10<br />Journée IliaTech<br />22<br />

×