Analyse	
  de	
  l’opinion	
  et	
  développement	
  des	
  marques	
  
1	
  bernard@normier.fr	
  
Pe#t	
  déjeuner	
  APROGED	
  16	
  	
  MAI	
  2014	
  
Bernard	
  Normier	
  et	
  Gil	
  Adamy	
  
17/04/14	
  	
  Club	
  IES	
  	
  
NLP	
  &	
  senFment	
  analysis	
  
bernard@normier.fr	
   2	
  
•  Le	
  «	
  sen#ment	
  analysis	
  »	
  	
  (	
  ou	
  «	
  opinion	
  mining	
  »	
  )	
  	
  est	
  une	
  branche	
  
du	
  «	
  natural	
  language	
  processing	
  »	
  	
  	
  (NLP	
  )	
  ou	
  Traitement	
  
AutomaFque	
  des	
  Langues	
  (TAL)	
  
•  Prend	
  une	
  importance	
  croissante	
  avec	
  l’essor	
  des	
  réseaux	
  sociaux	
  
•  Quels	
  impacts	
  pour	
  
•  Quels	
  impacts	
  pour	
  les	
  entreprises	
  et	
  les	
  marques	
  ?	
  
•  Quel	
  rôle	
  des	
  plateformes	
  comme	
  Google,	
  Facebook	
  et	
  les	
  
autres	
  ?	
  
•  Quels	
  enjeux	
  pour	
  les	
  Etats	
  ?	
  
17/04/14	
  	
  Club	
  IES	
  	
  
•  Trouver	
  un	
  document	
  (IR	
  :	
  informa#on	
  retrieval)	
  
o  Par	
  sujet,	
  auteur,	
  date,	
  etc.	
  
o  Documents	
  qui	
  parlent	
  d’	
  Obama	
  (	
  parce	
  que	
  je	
  cherche	
  son	
  âge)	
  
o  Réponse	
  possible	
  :	
  hRp://en.wikipedia.org/wiki/Barack_Obama	
  
•  Trouver	
  une	
  donnée	
  (QA	
  :	
  ques#on	
  answering)	
  
o  Quel	
  est	
  l’age	
  d’Obama	
  
o  Réponse	
  possible	
  :	
  52	
  ans	
  
•  Décrire	
  un	
  document	
  
o  La	
  recherche	
  se	
  fait	
  	
  sur	
  une	
  descripFon,	
  et	
  non	
  sur	
  le	
  document	
  
lui-­‐même.	
  	
  
3	
  
TAL	
  et	
  gesFon	
  de	
  l’informaFon	
  
17/04/14	
  	
  Club	
  IES	
  	
   bernard@normier.fr	
  
•  Extraire	
  les	
  descripteurs	
  (	
  IE	
  :	
  Informa#on	
  extrac#on	
  )	
  
o  Analyse	
  automaFque	
  des	
  documents	
  pour	
  en	
  extraire	
  des	
  descripteurs	
  plus	
  
ou	
  moins	
  complexes	
  
•  Catégoriser	
  des	
  documents	
  (	
  Categoriza#on	
  )	
  
o  Placer	
  des	
  documents	
  sous	
  la	
  bonne	
  entrée	
  dans	
  un	
  plan	
  de	
  classement	
  
•  Classer	
  des	
  documents	
  (clustering)	
  
o  Rassembler	
  des	
  documents	
  similaires	
  (sans	
  plan	
  pré-­‐établi)	
  
4	
  
TAL	
  et	
  gesFon	
  de	
  l’informaFon	
  
17/04/14	
  	
  Club	
  IES	
  	
   bernard@normier.fr	
  
IE	
  :	
  Des	
  niveaux	
  de	
  plus	
  en	
  plus	
  profonds	
  
•  ExtracFon	
  d’enFtés	
  nommées	
  
o  Personnes,	
  lieux,	
  organisaFons,	
  produits,	
  etc.	
  
•  ExtracFon	
  de	
  thémaFques	
  
o  Et	
  catégorisaFon	
  
•  ExtracFons	
  de	
  relaFons	
  
o  Entre	
  enFtés	
  et	
  /	
  ou	
  thémaFques	
  
•  ExtracFon	
  d’informaFons	
  plus	
  subjecFves	
  
o  «	
  senFment	
  analysis	
  »	
  
•  ExtracFon	
  d’informaFons	
  fiables	
  
o  «	
  fact	
  checking	
  »	
  
17/04/14	
  	
  Club	
  IES	
  	
   5	
  bernard@normier.fr	
  
Exemple:	
  noms	
  de	
  personnes	
  	
  	
  
•  Personnes	
  connues	
  
•  L’élec#on	
  de	
  François	
  Hollande	
  	
  a	
  fait	
  revenir	
  la	
  gauche…	
  
•  Personnes	
  inconnues	
  
•  Paul	
  Schmilblik,	
  M.	
  Schmilblik,	
  Le	
  président	
  Schmilblik,	
  le	
  général	
  Machin	
  
•  Dans	
  son	
  discours,	
  Schmilblik	
  a	
  affirmé	
  que…	
  
•  Ambiguïtés	
  
•  Selon	
  Hollande	
  la	
  courbe	
  du	
  chômage	
  /	
  le	
  chômage	
  en	
  Hollande	
  
•  La	
  place	
  du	
  général	
  de	
  Gaulle,	
  la	
  bibliothèque	
  François	
  MiRerrand	
  
•  Références	
  
•  Le	
  président	
  de	
  la	
  République	
  pense	
  que	
  …	
  
•  Le	
  président	
  pense	
  que	
  …	
  
•  En	
  1962,	
  le	
  président	
  pensait	
  que	
  …	
  	
  
bernard@normier.fr	
   6	
  17/04/14	
  	
  Club	
  IES	
  	
  
ExtracFons	
  de	
  thèmes	
  
•  Lien thésaurus/ontologie/référentiel – dictionnaire
o  Comment associer le descripteur «augmentation de
salaire» au texte « le SMIG a augmenté »
7	
  
•  Dictionnaire
!  augmenté est une forme flexionnelle du verbe
augmenter
!  Augmentation est la nominalisation du verbe augmenter
! SMIG est une sorte de salaire
17/04/14	
  	
  Club	
  IES	
  	
   bernard@normier.fr	
  
ExtracFon	
  d’opinions	
  
•  Une	
  objet	
  sur	
  lequel	
  porte	
  l’opinion	
  
•  Un	
  aspect	
  ou	
  caractérisFque	
  de	
  cet	
  objet	
  
•  Un	
  senFment	
  (tonalité)	
  qui	
  porte	
  sur	
  cet	
  aspect	
  de	
  
l’objet	
  
•  L’idenFficaFon	
  de	
  la	
  personne	
  émeeant	
  l’opinion	
  
•  le	
  moment	
  où	
  l’opinion	
  est	
  émise	
  
bernard@normier.fr	
   8	
  
Source	
  :	
  arFcles	
  du	
  Pr.	
  Bing	
  Liu,	
  Université	
  de	
  Chicago	
  
17/04/14	
  	
  Club	
  IES	
  	
  
Exemple	
  
bernard@normier.fr	
   9	
  17/04/14	
  	
  Club	
  IES	
  	
  
IdenFfier	
  les	
  «	
  senFments	
  »	
  	
  
•  Evalua&ons	
  factuelles	
  
–  La	
  chambre	
  est	
  propre	
  :	
  	
  fait	
  posiFf	
  
–  La	
  machine	
  fait	
  beaucoup	
  de	
  bruit:	
  	
  fait	
  négaFf	
  	
  
•  Avis	
  
–  J’ai	
  trouvé	
  que	
  la	
  chambre	
  n’était	
  pas	
  assez	
  propre	
  
–  La	
  machine	
  fait	
  trop	
  de	
  bruit	
  
•  Evalua&ons	
  émo&onnelles	
  
–  J’ai	
  détesté	
  ceRe	
  chambre	
  crasseuse	
  
–  J’ai	
  toujours	
  aimé	
  le	
  plat	
  du	
  jour	
  de	
  ce	
  restaurant	
  
bernard@normier.fr	
   10	
  17/04/14	
  	
  Club	
  IES	
  	
  
de	
  nombreux	
  problèmes	
  encore	
  mal	
  
résolus	
  
•  Anaphores	
  
•  Liage	
  des	
  enFtés	
  nommées	
  
•  Raeachements	
  longs	
  
•  Analyse	
  du	
  discours	
  
•  OuFls	
  disponibles	
  très	
  variables	
  selon	
  les	
  langues	
  
•  …	
  
•  Mais	
  l’état	
  de	
  l’art	
  actuel	
  est	
  suffisant	
  pour	
  être	
  
uFlisé	
  dans	
  des	
  applicaFons	
  opéraFonnelles	
  
bernard@normier.fr	
   11	
  17/04/14	
  	
  Club	
  IES	
  	
  
Vers	
  une	
  généralisaFon	
  du	
  TAL	
  
•  Analyseurs	
  
o  Ouverts	
  :	
  GATE,	
  NOOJ,	
  UNITEX,	
  OpenNLP	
  
o  Sous	
  licence	
  commerciale	
  :	
  TEMIS,	
  Syllabs,	
  Proxem,	
  etc.	
  
•  Ressources	
  linguisFques	
  
o  ELRA,	
  Linked	
  Open	
  Data	
  
•  IntégraFon	
  dans	
  des	
  applicaFons	
  d’entreprise	
  
o  SAP,	
  Salesforce,	
  etc.	
  
•  IntégraFon	
  dans	
  les	
  plateformes	
  Internet	
  
o  Google	
  Shopping,	
  Tripadvisor,	
  etc.	
  
•  Le	
  cout	
  d’entrée	
  dans	
  le	
  secteur	
  a	
  sensiblement	
  baissé	
  
bernard@normier.fr	
   12	
  17/04/14	
  	
  Club	
  IES	
  	
  
Toutes	
  les	
  acFvités	
  sont	
  concernées	
  
•  Le	
  markeFng,	
  	
  la	
  communicaFon,	
  les	
  ventes	
  
et	
  le	
  support	
  après	
  vente,	
  les	
  ressources	
  
humaines,	
  les	
  achats,	
  la	
  R&D,	
  les	
  finances,	
  
la	
  DG	
  
bernard@normier.fr	
   13	
  17/04/14	
  	
  Club	
  IES	
  	
  
MarkeFng:	
  Etudes	
  tradiFonnelles	
  /	
  Big	
  Data	
  
•  Etudes	
  tradiFonnelles	
  :	
  
–  QuanFtaFves	
  :	
  sondages	
  
•  Panel	
  représentaFf,	
  bonne	
  connaissance	
  des	
  personnes	
  (CSP)	
  
•  Biais	
  possibles,	
  influence	
  de	
  la	
  forme	
  des	
  quesFons	
  
–  QualitaFves	
  
•  EntreFens	
  :	
  peu	
  de	
  personnes	
  interrogées	
  
•  Ecoute	
  des	
  Réseaux	
  sociaux	
  
–  QuanFtaFf	
  et	
  	
  QualitaFf	
  	
  
–  ConversaFons	
  spontanées,	
  souvent	
  très	
  nombreuses	
  
–  Mauvaise	
  connaissance	
  des	
  personnes,	
  compensée	
  par	
  le	
  
volume	
  
bernard@normier.fr	
   14	
  17/04/14	
  	
  Club	
  IES	
  	
  
CommunicaFon:	
  
	
  Quelques	
  cas	
  devenus	
  des	
  «	
  classiques	
  »	
  
•  Nestlé	
  (	
  mars	
  2010	
  )	
  
•  Greenpeace	
  publie	
  une	
  vidéo	
  plutôt	
  trash	
  aeaquant	
  Nestlé	
  	
  
•  Nestlé	
  réagit	
  mal,	
  cherche	
  à	
  supprimer	
  des	
  commentaires,	
  etc.	
  
•  Ce	
  qui	
  augmente	
  le	
  bad	
  buzz,	
  «	
  effet	
  Streisand	
  »	
  
•  Au	
  point	
  de	
  provoquer	
  une	
  baisse	
  du	
  cours	
  de	
  l’acFon	
  
bernard@normier.fr	
   15	
  17/04/14	
  	
  Club	
  IES	
  	
  
Quelques	
  cas	
  devenus	
  des	
  «	
  classiques	
  »	
  
•  La	
  Redoute	
  (	
  janvier	
  2012	
  )	
  
•  Un	
  homme	
  nu	
  est	
  découvert	
  en	
  arrière	
  plan	
  d’une	
  photo	
  de	
  T-­‐shirt	
  
pour	
  enfant	
  sur	
  le	
  catalogue	
  de	
  La	
  Redoute.	
  
•  Gros	
  «	
  bad	
  buzz	
  »	
  immédiat	
  
•  Bonne	
  réacFon	
  de	
  la	
  société,	
  qui	
  reFre	
  immédiatement	
  l’image	
  et	
  
présente	
  ses	
  excuses,	
  et	
  organise	
  un	
  jeu	
  «	
  chasse	
  aux	
  erreurs	
  »	
  
•  Mais	
  pour	
  les	
  curieux,	
  rien	
  de	
  plus	
  facile	
  que	
  de	
  retrouver	
  ceee	
  
photo	
  largement	
  commentée	
  sur	
  le	
  web	
  
bernard@normier.fr	
   16	
  17/04/14	
  	
  Club	
  IES	
  	
  
Rémanence	
  mesurée	
  par	
  Google	
  Trends	
  
•  «nestlé	
  greenpeace»	
  de	
  mars	
  2010	
  à	
  mars	
  2011	
  
•  «la	
  redoute	
  homme	
  nu»	
  de	
  décembre	
  2011	
  à	
  décembre	
  2012	
  
bernard@normier.fr	
   17	
  17/04/14	
  	
  Club	
  IES	
  	
  
Des	
  plateformes	
  spécialisées	
  
•  Un	
  offre	
  très	
  abondante	
  
•  Pour	
  n’en	
  citer	
  que	
  quelques	
  unes:	
  	
  
•  AMI	
  sohware	
  
•  eCairn	
  
•  QWAM	
  
•  LINKFLUENCE	
  
•  RADIAN6	
  (Salesforce)	
  
•  TALKWALKER	
  
•  SINDUP	
  
•  TRAACKR	
  
•  VISIBRAIN	
  
•  …	
  
•  Nombreux	
  critères	
  de	
  choix	
  en	
  foncFon	
  du	
  projet	
  
bernard@normier.fr	
   18	
  17/04/14	
  	
  Club	
  IES	
  	
  
Ecouter	
  le	
  client	
  
(ou	
  l’internaute	
  en	
  général	
  )	
  
•  Que	
  fait-­‐il	
  ?	
  	
  
•  Où	
  va	
  t-­‐il	
  ?	
  Qu’achète-­‐t-­‐il	
  ?	
  Quand	
  ?	
  A	
  quel	
  prix,	
  etc…	
  
•  Données	
  et	
  métadonnées	
  
•  De	
  quoi	
  parle	
  t-­‐il	
  ?	
  	
  
•  De	
  quelles	
  personnes,	
  quelles	
  sociétés,	
  quels	
  produits	
  ?	
  	
  
•  Extrac#on	
  d’en#tés	
  nommées	
  et	
  thèmes	
  abordés	
  
•  Que	
  pense-­‐t-­‐il	
  ?	
  
•  Quels	
  avis,	
  quelles	
  opinions,	
  quelles	
  recommandaFons	
  ?	
  
•  	
  Opinion	
  mining	
  ,	
  sen#ment	
  analysis	
  
bernard@normier.fr	
   19	
  17/04/14	
  	
  Club	
  IES	
  	
  
IdenFfier	
  les	
  influenceurs	
  
•  L’acFvité	
  
•  Volume	
  de	
  messages	
  émis	
  
•  La	
  perFnence	
  	
  
•  Par	
  rapport	
  au	
  sujet	
  de	
  l’étude	
  
•  L’audience	
  
•  Ou	
  «	
  portée	
  »,	
  «	
  reach	
  »:	
  nombre	
  d’abonnés,	
  followers,	
  etc	
  
•  L’engagement	
  
•  Ou	
  «	
  résonnance	
  »	
  :	
  citaFons,	
  retweets,	
  diffusion	
  
bernard@normier.fr	
   20	
  17/04/14	
  	
  Club	
  IES	
  	
  
Lancer	
  un	
  projet	
  de	
  senFment	
  analysis	
  :	
  
Critères	
  de	
  succès,	
  risques	
  d’échec	
  
•  Le	
  niveau	
  d’analyse	
  
•  Document,	
  objets,	
  aspects	
  
•  La	
  «	
  taille	
  de	
  l’univers	
  »	
  
•  Variété	
  des	
  objets,	
  périmètre	
  de	
  collecte	
  ouvert	
  ou	
  fermé	
  
•  La	
  complexité	
  du	
  corpus	
  
•  Taille,	
  formats,	
  homogénéité	
  des	
  documents,	
  niveaux	
  de	
  langue	
  	
  
•  La	
  nature	
  de	
  la	
  tâche	
  
•  ExtracFon,	
  recherche,	
  classificaFon	
  d’opinions	
  
•  Les	
  critères	
  de	
  qualité	
  
•  Critères	
  d’acceptaFon,	
  précision,	
  rappel,	
  f-­‐mesure	
  
bernard@normier.fr	
   21	
  17/04/14	
  	
  Club	
  IES	
  	
  
Comment	
  le	
  client	
  perçoit-­‐il	
  le	
  big	
  data	
  ?	
  
(même	
  s’il	
  ne	
  connaît	
  pas	
  le	
  mot)	
  
S’agit-­‐il	
  :	
  	
  
22	
  bernard@normier.fr	
  
De	
  l’écouter	
  	
  pour	
  mieux	
  le	
  servir	
  ?	
  
De	
  l’espionner	
  pour	
  mieux	
  le	
  manipuler	
  ?	
  
17/04/14	
  	
  Club	
  IES	
  	
  
bernard@normier.fr	
   23	
  17/04/14	
  	
  Club	
  IES	
  	
  
Les	
  grandes	
  plateformes	
  US	
  
bernard@normier.fr	
   24	
  
•  Très	
  ac&fs	
  en	
  R&D	
  linguis&que	
  
•  TraducFon,	
  IR,	
  IE,	
  etc	
  
•  Ont	
  une	
  réelle	
  avance	
  technologique	
  	
  
•  et	
  un	
  quasi	
  monopole	
  
•  IntégraFon,	
  mulFlinguisme,	
  scalability	
  
•  Mais	
  
17/04/14	
  	
  Club	
  IES	
  	
  
Google	
  :	
  TAL	
  et	
  IR	
  	
  
25	
  17/04/14	
  	
  Club	
  IES	
  	
   bernard@normier.fr	
  
Google	
  :	
  quesFon	
  /	
  réponse	
  
bernard@normier.fr	
   26	
  17/04/14	
  	
  Club	
  IES	
  	
  
Google	
  :	
  traducFon	
  
bernard@normier.fr	
   27	
  17/04/14	
  	
  Club	
  IES	
  	
  
Début	
  février	
  …	
  
bernard@normier.fr	
   28	
  17/04/14	
  	
  Club	
  IES	
  	
  
Mi	
  mars	
  
bernard@normier.fr	
   29	
  17/04/14	
  	
  Club	
  IES	
  	
  
Qui	
  y	
  croit	
  ?	
  	
  
bernard@normier.fr	
   30	
  17/04/14	
  	
  Club	
  IES	
  	
  
Pour	
  les	
  Etats	
  
bernard@normier.fr	
   31	
  
•  Diffuser	
  de	
  l’informaFon	
  	
  
•  Tous	
  les	
  .gouv.fr,	
  	
  data.gouv	
  
•  Analyser	
  l’opinion	
  naFonale	
  
•  Exemple	
  élecFons	
  	
  
•  Analyse	
  prédicFve	
  sur	
  données	
  massives	
  
•  	
  Veille	
  stratégique	
  
•  NSA,	
  …	
  et	
  d’autres…	
  
•  Douanes,	
  Tracfin,	
  tous	
  services	
  de	
  renseignement	
  
17/04/14	
  	
  Club	
  IES	
  	
  
Les	
  municipales	
  à	
  Marseille	
  
bernard@normier.fr	
   32	
  17/04/14	
  	
  Club	
  IES	
  	
  
Twieer,	
  arme	
  de	
  désinformaFon	
  massive	
  
17/04/14	
  	
  Club	
  IES	
  	
   33	
  bernard@normier.fr	
  
Aux	
  conséquences	
  importantes…	
  
•  Impact	
  :	
  130	
  MM$	
  en	
  3	
  minutes	
  
•  Text	
  mining	
  et	
  high	
  speed	
  transacFons	
  	
  
17/04/14	
  	
  Club	
  IES	
  	
   34	
  bernard@normier.fr	
  
TAL	
  +	
  Big	
  Data	
  =	
  risque	
  ou	
  opportunité	
  	
  ?	
  
bernard@normier.fr	
   35	
  
•  Un	
  nouvel	
  
eldorado	
  du	
  
markeFng	
  et	
  des	
  
études	
  ?	
  
•  Ou	
  un	
  risque	
  
majeur	
  pour	
  la	
  
protecFon	
  de	
  la	
  
vie	
  privée,	
  voire	
  
des	
  libertés	
  
individuelles	
  ?	
  
17/04/14	
  	
  Club	
  IES	
  	
  
Le	
  risque	
  de	
  «	
  social	
  faFgue	
  »	
  
•  Lassitude	
  voire	
  méfiance	
  des	
  consommateurs	
  
•  Risque	
  de	
  rejet,	
  nouveaux	
  comportements	
  
36	
  bernard@normier.fr	
  17/04/14	
  	
  Club	
  IES	
  	
  
Crise	
  de	
  confiance	
  ?	
  
bernard@normier.fr	
   37	
  17/04/14	
  	
  Club	
  IES	
  	
  
CNIL	
  /	
  Afnor	
  /	
  G29	
  
bernard@normier.fr	
   38	
  
•  Afnor	
  
o  Norme	
  sur	
  la	
  fiabilité	
  des	
  avis	
  consommateurs	
  
•  CNIL	
  /	
  Plan	
  Big	
  Data	
  	
  
o  Vers	
  la	
  normalisaFon	
  /	
  cerFficaFon	
  d’un	
  processus	
  industriel	
  big	
  data	
  
•  G29	
  :	
  groupe	
  consultaFf	
  auprès	
  de	
  la	
  CE	
  
17/04/14	
  	
  Club	
  IES	
  	
  
Avenirs	
  possibles	
  
•  Statut	
  Quo	
  
o  Les	
  internautes	
  se	
  saFsfont	
  de	
  la	
  situaFon	
  actuelle	
  
o  Renforcement	
  du	
  pouvoir	
  des	
  grands	
  réseaux	
  US	
  
•  Éclatement	
  d’une	
  bulle	
  
o  Rejet	
  par	
  les	
  consommateurs	
  et	
  internautes,	
  notamment	
  les	
  
nouvelles	
  généraFons	
  
•  TransformaFon	
  des	
  usages	
  	
  
o  Vers	
  une	
  mulFplicaFon	
  des	
  réseaux	
  sociaux	
  spécialisés	
  par	
  
communautés	
  d’intérêt	
  
o  Vers	
  un	
  meilleur	
  contrôle	
  légal,	
  normaFf,	
  technique	
  
o  Perte	
  progressive	
  d’influence	
  des	
  grands	
  réseaux	
  actuels	
  
o  RéducFon	
  de	
  l’effet	
  Big	
  Brother	
  
39	
  bernard@normier.fr	
  17/04/14	
  	
  Club	
  IES	
  	
  
Pour	
  aller	
  plus	
  loin…	
  
40	
  bernard@normier.fr	
  
Blog	
  :	
  hep://bernardnormier.com	
  
17/04/14	
  	
  Club	
  IES	
  	
  

Analyse de l’opinion et développement des marques - Présentation Bernard Normier

  • 1.
    Analyse  de  l’opinion  et  développement  des  marques   1  bernard@normier.fr   Pe#t  déjeuner  APROGED  16    MAI  2014   Bernard  Normier  et  Gil  Adamy   17/04/14    Club  IES    
  • 2.
    NLP  &  senFment  analysis   bernard@normier.fr   2   •  Le  «  sen#ment  analysis  »    (  ou  «  opinion  mining  »  )    est  une  branche   du  «  natural  language  processing  »      (NLP  )  ou  Traitement   AutomaFque  des  Langues  (TAL)   •  Prend  une  importance  croissante  avec  l’essor  des  réseaux  sociaux   •  Quels  impacts  pour   •  Quels  impacts  pour  les  entreprises  et  les  marques  ?   •  Quel  rôle  des  plateformes  comme  Google,  Facebook  et  les   autres  ?   •  Quels  enjeux  pour  les  Etats  ?   17/04/14    Club  IES    
  • 3.
    •  Trouver  un  document  (IR  :  informa#on  retrieval)   o  Par  sujet,  auteur,  date,  etc.   o  Documents  qui  parlent  d’  Obama  (  parce  que  je  cherche  son  âge)   o  Réponse  possible  :  hRp://en.wikipedia.org/wiki/Barack_Obama   •  Trouver  une  donnée  (QA  :  ques#on  answering)   o  Quel  est  l’age  d’Obama   o  Réponse  possible  :  52  ans   •  Décrire  un  document   o  La  recherche  se  fait    sur  une  descripFon,  et  non  sur  le  document   lui-­‐même.     3   TAL  et  gesFon  de  l’informaFon   17/04/14    Club  IES     bernard@normier.fr  
  • 4.
    •  Extraire  les  descripteurs  (  IE  :  Informa#on  extrac#on  )   o  Analyse  automaFque  des  documents  pour  en  extraire  des  descripteurs  plus   ou  moins  complexes   •  Catégoriser  des  documents  (  Categoriza#on  )   o  Placer  des  documents  sous  la  bonne  entrée  dans  un  plan  de  classement   •  Classer  des  documents  (clustering)   o  Rassembler  des  documents  similaires  (sans  plan  pré-­‐établi)   4   TAL  et  gesFon  de  l’informaFon   17/04/14    Club  IES     bernard@normier.fr  
  • 5.
    IE  :  Des  niveaux  de  plus  en  plus  profonds   •  ExtracFon  d’enFtés  nommées   o  Personnes,  lieux,  organisaFons,  produits,  etc.   •  ExtracFon  de  thémaFques   o  Et  catégorisaFon   •  ExtracFons  de  relaFons   o  Entre  enFtés  et  /  ou  thémaFques   •  ExtracFon  d’informaFons  plus  subjecFves   o  «  senFment  analysis  »   •  ExtracFon  d’informaFons  fiables   o  «  fact  checking  »   17/04/14    Club  IES     5  bernard@normier.fr  
  • 6.
    Exemple:  noms  de  personnes       •  Personnes  connues   •  L’élec#on  de  François  Hollande    a  fait  revenir  la  gauche…   •  Personnes  inconnues   •  Paul  Schmilblik,  M.  Schmilblik,  Le  président  Schmilblik,  le  général  Machin   •  Dans  son  discours,  Schmilblik  a  affirmé  que…   •  Ambiguïtés   •  Selon  Hollande  la  courbe  du  chômage  /  le  chômage  en  Hollande   •  La  place  du  général  de  Gaulle,  la  bibliothèque  François  MiRerrand   •  Références   •  Le  président  de  la  République  pense  que  …   •  Le  président  pense  que  …   •  En  1962,  le  président  pensait  que  …     bernard@normier.fr   6  17/04/14    Club  IES    
  • 7.
    ExtracFons  de  thèmes   •  Lien thésaurus/ontologie/référentiel – dictionnaire o  Comment associer le descripteur «augmentation de salaire» au texte « le SMIG a augmenté » 7   •  Dictionnaire !  augmenté est une forme flexionnelle du verbe augmenter !  Augmentation est la nominalisation du verbe augmenter ! SMIG est une sorte de salaire 17/04/14    Club  IES     bernard@normier.fr  
  • 8.
    ExtracFon  d’opinions   • Une  objet  sur  lequel  porte  l’opinion   •  Un  aspect  ou  caractérisFque  de  cet  objet   •  Un  senFment  (tonalité)  qui  porte  sur  cet  aspect  de   l’objet   •  L’idenFficaFon  de  la  personne  émeeant  l’opinion   •  le  moment  où  l’opinion  est  émise   bernard@normier.fr   8   Source  :  arFcles  du  Pr.  Bing  Liu,  Université  de  Chicago   17/04/14    Club  IES    
  • 9.
    Exemple   bernard@normier.fr  9  17/04/14    Club  IES    
  • 10.
    IdenFfier  les  «  senFments  »     •  Evalua&ons  factuelles   –  La  chambre  est  propre  :    fait  posiFf   –  La  machine  fait  beaucoup  de  bruit:    fait  négaFf     •  Avis   –  J’ai  trouvé  que  la  chambre  n’était  pas  assez  propre   –  La  machine  fait  trop  de  bruit   •  Evalua&ons  émo&onnelles   –  J’ai  détesté  ceRe  chambre  crasseuse   –  J’ai  toujours  aimé  le  plat  du  jour  de  ce  restaurant   bernard@normier.fr   10  17/04/14    Club  IES    
  • 11.
    de  nombreux  problèmes  encore  mal   résolus   •  Anaphores   •  Liage  des  enFtés  nommées   •  Raeachements  longs   •  Analyse  du  discours   •  OuFls  disponibles  très  variables  selon  les  langues   •  …   •  Mais  l’état  de  l’art  actuel  est  suffisant  pour  être   uFlisé  dans  des  applicaFons  opéraFonnelles   bernard@normier.fr   11  17/04/14    Club  IES    
  • 12.
    Vers  une  généralisaFon  du  TAL   •  Analyseurs   o  Ouverts  :  GATE,  NOOJ,  UNITEX,  OpenNLP   o  Sous  licence  commerciale  :  TEMIS,  Syllabs,  Proxem,  etc.   •  Ressources  linguisFques   o  ELRA,  Linked  Open  Data   •  IntégraFon  dans  des  applicaFons  d’entreprise   o  SAP,  Salesforce,  etc.   •  IntégraFon  dans  les  plateformes  Internet   o  Google  Shopping,  Tripadvisor,  etc.   •  Le  cout  d’entrée  dans  le  secteur  a  sensiblement  baissé   bernard@normier.fr   12  17/04/14    Club  IES    
  • 13.
    Toutes  les  acFvités  sont  concernées   •  Le  markeFng,    la  communicaFon,  les  ventes   et  le  support  après  vente,  les  ressources   humaines,  les  achats,  la  R&D,  les  finances,   la  DG   bernard@normier.fr   13  17/04/14    Club  IES    
  • 14.
    MarkeFng:  Etudes  tradiFonnelles  /  Big  Data   •  Etudes  tradiFonnelles  :   –  QuanFtaFves  :  sondages   •  Panel  représentaFf,  bonne  connaissance  des  personnes  (CSP)   •  Biais  possibles,  influence  de  la  forme  des  quesFons   –  QualitaFves   •  EntreFens  :  peu  de  personnes  interrogées   •  Ecoute  des  Réseaux  sociaux   –  QuanFtaFf  et    QualitaFf     –  ConversaFons  spontanées,  souvent  très  nombreuses   –  Mauvaise  connaissance  des  personnes,  compensée  par  le   volume   bernard@normier.fr   14  17/04/14    Club  IES    
  • 15.
    CommunicaFon:    Quelques  cas  devenus  des  «  classiques  »   •  Nestlé  (  mars  2010  )   •  Greenpeace  publie  une  vidéo  plutôt  trash  aeaquant  Nestlé     •  Nestlé  réagit  mal,  cherche  à  supprimer  des  commentaires,  etc.   •  Ce  qui  augmente  le  bad  buzz,  «  effet  Streisand  »   •  Au  point  de  provoquer  une  baisse  du  cours  de  l’acFon   bernard@normier.fr   15  17/04/14    Club  IES    
  • 16.
    Quelques  cas  devenus  des  «  classiques  »   •  La  Redoute  (  janvier  2012  )   •  Un  homme  nu  est  découvert  en  arrière  plan  d’une  photo  de  T-­‐shirt   pour  enfant  sur  le  catalogue  de  La  Redoute.   •  Gros  «  bad  buzz  »  immédiat   •  Bonne  réacFon  de  la  société,  qui  reFre  immédiatement  l’image  et   présente  ses  excuses,  et  organise  un  jeu  «  chasse  aux  erreurs  »   •  Mais  pour  les  curieux,  rien  de  plus  facile  que  de  retrouver  ceee   photo  largement  commentée  sur  le  web   bernard@normier.fr   16  17/04/14    Club  IES    
  • 17.
    Rémanence  mesurée  par  Google  Trends   •  «nestlé  greenpeace»  de  mars  2010  à  mars  2011   •  «la  redoute  homme  nu»  de  décembre  2011  à  décembre  2012   bernard@normier.fr   17  17/04/14    Club  IES    
  • 18.
    Des  plateformes  spécialisées   •  Un  offre  très  abondante   •  Pour  n’en  citer  que  quelques  unes:     •  AMI  sohware   •  eCairn   •  QWAM   •  LINKFLUENCE   •  RADIAN6  (Salesforce)   •  TALKWALKER   •  SINDUP   •  TRAACKR   •  VISIBRAIN   •  …   •  Nombreux  critères  de  choix  en  foncFon  du  projet   bernard@normier.fr   18  17/04/14    Club  IES    
  • 19.
    Ecouter  le  client   (ou  l’internaute  en  général  )   •  Que  fait-­‐il  ?     •  Où  va  t-­‐il  ?  Qu’achète-­‐t-­‐il  ?  Quand  ?  A  quel  prix,  etc…   •  Données  et  métadonnées   •  De  quoi  parle  t-­‐il  ?     •  De  quelles  personnes,  quelles  sociétés,  quels  produits  ?     •  Extrac#on  d’en#tés  nommées  et  thèmes  abordés   •  Que  pense-­‐t-­‐il  ?   •  Quels  avis,  quelles  opinions,  quelles  recommandaFons  ?   •   Opinion  mining  ,  sen#ment  analysis   bernard@normier.fr   19  17/04/14    Club  IES    
  • 20.
    IdenFfier  les  influenceurs   •  L’acFvité   •  Volume  de  messages  émis   •  La  perFnence     •  Par  rapport  au  sujet  de  l’étude   •  L’audience   •  Ou  «  portée  »,  «  reach  »:  nombre  d’abonnés,  followers,  etc   •  L’engagement   •  Ou  «  résonnance  »  :  citaFons,  retweets,  diffusion   bernard@normier.fr   20  17/04/14    Club  IES    
  • 21.
    Lancer  un  projet  de  senFment  analysis  :   Critères  de  succès,  risques  d’échec   •  Le  niveau  d’analyse   •  Document,  objets,  aspects   •  La  «  taille  de  l’univers  »   •  Variété  des  objets,  périmètre  de  collecte  ouvert  ou  fermé   •  La  complexité  du  corpus   •  Taille,  formats,  homogénéité  des  documents,  niveaux  de  langue     •  La  nature  de  la  tâche   •  ExtracFon,  recherche,  classificaFon  d’opinions   •  Les  critères  de  qualité   •  Critères  d’acceptaFon,  précision,  rappel,  f-­‐mesure   bernard@normier.fr   21  17/04/14    Club  IES    
  • 22.
    Comment  le  client  perçoit-­‐il  le  big  data  ?   (même  s’il  ne  connaît  pas  le  mot)   S’agit-­‐il  :     22  bernard@normier.fr   De  l’écouter    pour  mieux  le  servir  ?   De  l’espionner  pour  mieux  le  manipuler  ?   17/04/14    Club  IES    
  • 23.
    bernard@normier.fr   23  17/04/14    Club  IES    
  • 24.
    Les  grandes  plateformes  US   bernard@normier.fr   24   •  Très  ac&fs  en  R&D  linguis&que   •  TraducFon,  IR,  IE,  etc   •  Ont  une  réelle  avance  technologique     •  et  un  quasi  monopole   •  IntégraFon,  mulFlinguisme,  scalability   •  Mais   17/04/14    Club  IES    
  • 25.
    Google  :  TAL  et  IR     25  17/04/14    Club  IES     bernard@normier.fr  
  • 26.
    Google  :  quesFon  /  réponse   bernard@normier.fr   26  17/04/14    Club  IES    
  • 27.
    Google  :  traducFon   bernard@normier.fr   27  17/04/14    Club  IES    
  • 28.
    Début  février  …   bernard@normier.fr   28  17/04/14    Club  IES    
  • 29.
    Mi  mars   bernard@normier.fr   29  17/04/14    Club  IES    
  • 30.
    Qui  y  croit  ?     bernard@normier.fr   30  17/04/14    Club  IES    
  • 31.
    Pour  les  Etats   bernard@normier.fr   31   •  Diffuser  de  l’informaFon     •  Tous  les  .gouv.fr,    data.gouv   •  Analyser  l’opinion  naFonale   •  Exemple  élecFons     •  Analyse  prédicFve  sur  données  massives   •   Veille  stratégique   •  NSA,  …  et  d’autres…   •  Douanes,  Tracfin,  tous  services  de  renseignement   17/04/14    Club  IES    
  • 32.
    Les  municipales  à  Marseille   bernard@normier.fr   32  17/04/14    Club  IES    
  • 33.
    Twieer,  arme  de  désinformaFon  massive   17/04/14    Club  IES     33  bernard@normier.fr  
  • 34.
    Aux  conséquences  importantes…   •  Impact  :  130  MM$  en  3  minutes   •  Text  mining  et  high  speed  transacFons     17/04/14    Club  IES     34  bernard@normier.fr  
  • 35.
    TAL  +  Big  Data  =  risque  ou  opportunité    ?   bernard@normier.fr   35   •  Un  nouvel   eldorado  du   markeFng  et  des   études  ?   •  Ou  un  risque   majeur  pour  la   protecFon  de  la   vie  privée,  voire   des  libertés   individuelles  ?   17/04/14    Club  IES    
  • 36.
    Le  risque  de  «  social  faFgue  »   •  Lassitude  voire  méfiance  des  consommateurs   •  Risque  de  rejet,  nouveaux  comportements   36  bernard@normier.fr  17/04/14    Club  IES    
  • 37.
    Crise  de  confiance  ?   bernard@normier.fr   37  17/04/14    Club  IES    
  • 38.
    CNIL  /  Afnor  /  G29   bernard@normier.fr   38   •  Afnor   o  Norme  sur  la  fiabilité  des  avis  consommateurs   •  CNIL  /  Plan  Big  Data     o  Vers  la  normalisaFon  /  cerFficaFon  d’un  processus  industriel  big  data   •  G29  :  groupe  consultaFf  auprès  de  la  CE   17/04/14    Club  IES    
  • 39.
    Avenirs  possibles   • Statut  Quo   o  Les  internautes  se  saFsfont  de  la  situaFon  actuelle   o  Renforcement  du  pouvoir  des  grands  réseaux  US   •  Éclatement  d’une  bulle   o  Rejet  par  les  consommateurs  et  internautes,  notamment  les   nouvelles  généraFons   •  TransformaFon  des  usages     o  Vers  une  mulFplicaFon  des  réseaux  sociaux  spécialisés  par   communautés  d’intérêt   o  Vers  un  meilleur  contrôle  légal,  normaFf,  technique   o  Perte  progressive  d’influence  des  grands  réseaux  actuels   o  RéducFon  de  l’effet  Big  Brother   39  bernard@normier.fr  17/04/14    Club  IES    
  • 40.
    Pour  aller  plus  loin…   40  bernard@normier.fr   Blog  :  hep://bernardnormier.com   17/04/14    Club  IES