1
Collecte, analyse et valorisation de Big data textuelles multilingues
2
Agenda
• Les fonds documentaires nécessitent
de dépasser la barrière des langues
• Collecte multilingue sur le web
• Ana...
3
Big data textuelles
20% 80%
4
Big data textuelles
Aider les décideurs à
faire les bons choix
Etudes & analyses
Informations
Données
Data mining
Text m...
5
Proxem
6
Proxem
Grands
comptes &
ETI
Instituts de
sondages
Cabinets d’études
Editeurs de
logiciels, SSII,
Acteurs du
web
• Interr...
7
Proxem
8
Cas client Minelli
Comprendre les
attentes des
consommateurs
Disposer de
prédictions
fiables
Identifier le futur
ambassa...
9
Cas client Minelli
• Pour les transformer en produits et services adaptés
• Pour comprendre les points forts de la concu...
10
Cas client Minelli
11
Cas client Minelli
Top 100
blogueuses
d’influence
sur la mode
en France
7 632
4 272 amis
www.punky-b.com
12
Processus général

13
14
15
16
17
18
19
20
Processus général

21
De quoi parle-t-on ?
• Entités nommés du domaine
organisées d’une façon interactive
22
Qu’est-ce qu’on en dit ?
• Création interactive du plan de classement
• Qualité, prix, accueil en boutique, origine du ...
23
Quelles sont les opinions exprimées ?
24
Processus général

25
Processus général
Langue 1 Langue 2 Langue 3
Traduction auto Traduction auto
26
Retours d’expérience
voiture hybride
hybrid car
‫الهجينة‬ ‫السيارات‬
混合动力汽车
carro híbrido
Hybridauto
33 600
962 000
550...
27
Client
Concurrent
Retours d’expérience
28
Retours d’expérience
• Brangelina et Château Miraval
• Lancement: plus gros buzz de l'histoire du vin
dans les réseaux ...
29
Retours d’expérience
30
Retours d’expérience
• Un tableau de bord
des territoires pour
répondre aux enjeux
des Big data dans le
domaine du tour...
36
Merci pour votre attention !
François-Régis
Chaumartin
CEO
frc@proxem.com
Claude
de Loupy
CEO
loupy@syllabs.com
1/21
Information &
Communication Age !
2/21
Comment être un média
de référence ?
3/21
Mutation des processus informationnels
 Menace Opportunité
Algorithmes & Savoir-Faire
Mutation des processus informa...
4/21
Syllabs
Valorisation des contenus multilingues
5/21
Syllabs
Solutions sémantiques pour
1. la collecte
2. l’enrichissement
3. la rédaction automatique d’articles
6/21
e-commercemédias autres
7/21
1. Collecte
– Enjeux :
– Veille : identifier, collecter, filtrer, trier, regrouper.
– Quoi :
– Technologies de web mi...
8/21
Revue de Presse spécialisée
– LesEchos360
– Quoi :
– Aggrefilter Économie
– Éditorialisation possible
– Adaptable (th...
9/21
2. Enrichissement
– Enjeux :
– Identifier et compléter les informations pertinentes.
– Quoi :
– Technologies de text ...
10/21
Détection de sujets
– Slate Reader
– Quoi :
– Slate Reader = curation
– Syllabs : Aide au tagging.
– Multilingue mai...
11/21
3. Rédaction automatique de contenus
– Enjeux :
– Contenus fondamentaux. Longs et coûteux à produire 
publication d...
12/21
– Textes de qualité & uniques
– Style adapté à la ligne éditoriale
– Production multilingue
– Le e-commerce témoigne...
13/21
Exemple : news de levées de fonds
14/21
Lorsque vous faites du sport et que vous
transpirez, pensez à bien vous hydrater et
vous éviterez les crampes et les...
Business case complet
16/21
Catalogue de 150 000 hôtels
3 langues
pas de données
17/21
Collecte des informations
– Plusieurs sites sources
– Informations structurées
– Informations non structurées
18/21
Analyse
– Dédoublonnage
– Analyse textuelle (content 2 data)
– Extraction d’informations factuelles
– Analyse de sen...
19/21
Rédaction automatique
– Rédaction automatique de descriptifs
– Rédaction automatique points positifs/négatifs
– 3 la...
20/21
Descriptif + Résumé d’avis
L'hôtel Oceania vous accueille dans son
établissement design 4 étoiles. Situé en plein cœ...
21/21
Merci
Claude de Loupy
loupy@syllabs.com
@cdeloupy
Prochain SlideShare
Chargement dans…5
×

1Collecte, analyse et valorisation de Bigdata textuelles multilingues

941 vues

Publié le

Collecte, analyse et valorisation de contenus multilingues
avec François-Régis Chaumartin (Proxem) et Claude de Loupy (Syllabs)
Dans un monde globalisé, les fonds documentaires (internes ou issus d'une veille sur le web) sont loin d'être tous en français, et nécessitent pour être exploités de dépasser la barrière des langues.
François-Régis Chaumartin et Claude de Loupy présenteront la démarche pour effectuer une collecte multilingue sur le web et une analyse sémantique des Big data textuelles.
Nous verrons avec des illustrations provenant de retours d'expériences concrets, comment analyser un ensemble de marchés, de thématiques,d'articles de presse et de technologies rapidement et dans la plupart des langues existantes.

Publié dans : Données & analyses
0 commentaire
1 j’aime
Statistiques
Remarques
  • Soyez le premier à commenter

Aucun téléchargement
Vues
Nombre de vues
941
Sur SlideShare
0
Issues des intégrations
0
Intégrations
6
Actions
Partages
0
Téléchargements
26
Commentaires
0
J’aime
1
Intégrations 0
Aucune incorporation

Aucune remarque pour cette diapositive

1Collecte, analyse et valorisation de Bigdata textuelles multilingues

  1. 1. 1 Collecte, analyse et valorisation de Big data textuelles multilingues
  2. 2. 2 Agenda • Les fonds documentaires nécessitent de dépasser la barrière des langues • Collecte multilingue sur le web • Analyse sémantique de Big data textuelles • Retours d'expériences concrets • Comment analyser rapidement un ensemble de marchés, de thématiques, d'articles de presse et de technologies • Et dans la plupart des langues existantes François-Régis Chaumartin CEO frc@proxem.com Claude de Loupy CEO loupy@syllabs.com
  3. 3. 3 Big data textuelles 20% 80%
  4. 4. 4 Big data textuelles Aider les décideurs à faire les bons choix Etudes & analyses Informations Données Data mining Text mining Volume, Vélocité, Variété… Verbatim Données internes Web mining Text mining Web mining
  5. 5. 5 Proxem
  6. 6. 6 Proxem Grands comptes & ETI Instituts de sondages Cabinets d’études Editeurs de logiciels, SSII, Acteurs du web • Interroger le marché, rapidement, à faible coût et de façon autonome • Évaluer un produit lancé il y a 2 jours • Industrialiser et mieux rentabiliser les études historiques • Réaliser des études inaccessibles jusqu’alors • Déployer des fonctionnalités sémantiques supplémentaires (moteurs de recommandation…)
  7. 7. 7 Proxem
  8. 8. 8 Cas client Minelli Comprendre les attentes des consommateurs Disposer de prédictions fiables Identifier le futur ambassadeur Web 2.0 Analyser forces et faiblesses de la concurrence
  9. 9. 9 Cas client Minelli • Pour les transformer en produits et services adaptés • Pour comprendre les points forts de la concurrence Comprendre les attentes des consommateurs • Identifier un produit attendu par le marché • Diminuer l’attrition client Augmenter le CA • Anticiper les bad buzz sur les réseaux sociaux, le risque sanitaire, le risque juridique…Diminuer les risques
  10. 10. 10 Cas client Minelli
  11. 11. 11 Cas client Minelli Top 100 blogueuses d’influence sur la mode en France 7 632 4 272 amis www.punky-b.com
  12. 12. 12 Processus général 
  13. 13. 13
  14. 14. 14
  15. 15. 15
  16. 16. 16
  17. 17. 17
  18. 18. 18
  19. 19. 19
  20. 20. 20 Processus général 
  21. 21. 21 De quoi parle-t-on ? • Entités nommés du domaine organisées d’une façon interactive
  22. 22. 22 Qu’est-ce qu’on en dit ? • Création interactive du plan de classement • Qualité, prix, accueil en boutique, origine du produit, image…
  23. 23. 23 Quelles sont les opinions exprimées ?
  24. 24. 24 Processus général 
  25. 25. 25 Processus général Langue 1 Langue 2 Langue 3 Traduction auto Traduction auto
  26. 26. 26 Retours d’expérience voiture hybride hybrid car ‫الهجينة‬ ‫السيارات‬ 混合动力汽车 carro híbrido Hybridauto 33 600 962 000 550 000 15 900 000 26 100 000 2 330 000
  27. 27. 27 Client Concurrent Retours d’expérience
  28. 28. 28 Retours d’expérience • Brangelina et Château Miraval • Lancement: plus gros buzz de l'histoire du vin dans les réseaux sociaux
  29. 29. 29 Retours d’expérience
  30. 30. 30 Retours d’expérience • Un tableau de bord des territoires pour répondre aux enjeux des Big data dans le domaine du tourisme • Quelle est la valeur de mon offre ? • Qui parle de moi après les vacances ? • Mon événement a-t-il touché la clientèle ? • Quid des réservations
  31. 31. 36 Merci pour votre attention ! François-Régis Chaumartin CEO frc@proxem.com Claude de Loupy CEO loupy@syllabs.com
  32. 32. 1/21 Information & Communication Age !
  33. 33. 2/21 Comment être un média de référence ?
  34. 34. 3/21 Mutation des processus informationnels  Menace Opportunité Algorithmes & Savoir-Faire Mutation des processus informationnels  Menace
  35. 35. 4/21 Syllabs Valorisation des contenus multilingues
  36. 36. 5/21 Syllabs Solutions sémantiques pour 1. la collecte 2. l’enrichissement 3. la rédaction automatique d’articles
  37. 37. 6/21 e-commercemédias autres
  38. 38. 7/21 1. Collecte – Enjeux : – Veille : identifier, collecter, filtrer, trier, regrouper. – Quoi : – Technologies de web mining et de text mining. – Exemple : – Aide à la revue de presse. – ROI : –  temps,  couverture,  réactivité.
  39. 39. 8/21 Revue de Presse spécialisée – LesEchos360 – Quoi : – Aggrefilter Économie – Éditorialisation possible – Adaptable (thématique, langue) – Résultat : – Succès technique – Utilisateurs apprécient – Polémique pour les Médias
  40. 40. 9/21 2. Enrichissement – Enjeux : – Identifier et compléter les informations pertinentes. – Quoi : – Technologies de text mining. – Exemples : – Détection d’événements, linking automatique, SEO, Data Journalisme, valorisation d’archives, aide à l’écriture. – ROI : –  rétention,  temps,  compréhension,  originalité.
  41. 41. 10/21 Détection de sujets – Slate Reader – Quoi : – Slate Reader = curation – Syllabs : Aide au tagging. – Multilingue mais tags en français. – Résultat : – Tags = sujets Wikipedia – Liens vers Wikipedia – En cours / bonne qualité
  42. 42. 11/21 3. Rédaction automatique de contenus – Enjeux : – Contenus fondamentaux. Longs et coûteux à produire  publication des seules infos « importantes ». – Quoi ? – Automatisation de la rédaction de certains types d’articles. – Exemples : – bulletins météo, bourse, – rencontres sportives, nominations, – descriptifs produits. – ROI : –  couverture,  temps,  SEO.
  43. 43. 12/21 – Textes de qualité & uniques – Style adapté à la ligne éditoriale – Production multilingue – Le e-commerce témoigne : meilleur référencement ET meilleure rétention. Data2Content
  44. 44. 13/21 Exemple : news de levées de fonds
  45. 45. 14/21 Lorsque vous faites du sport et que vous transpirez, pensez à bien vous hydrater et vous éviterez les crampes et les courbatures. Voici nos propositions du jour. Le temps est nuageux mais vous pouvez garder le sourire ! Vous n’avez pas le droit de vous ennuyer ! Musées (Musée des Beaux-Arts), Aquariums (Aquarium de Lyon), parcs (Jardin Rosa Mir)... Il y a tellement de choses à faire à Lyon. C’est le début de la semaine ! Soyez positive et le reste de votre semaine ira comme sur des roulettes ! Une suggestion ? Youpi ! il fait le temps idéal pour courir ! Attention toutefois aux marques de bronzage des chaussettes, ce n'est pas la mode à Toulouse ! Business case : Betterise Il fait beau aujourd'hui, et comme le dit la chanson : "let the sunshine, let the sunshine in". Quelques idées... Un petite marche dans le Jardin Raymond VI, un petit sourire et gardez en tête "Anima sana in corpore sano" – Quoi : – Betterise = coach santé cofondé par Michel Cymes. – Mail quotidien personnalisé. – Données : météo, jour, sexe, état civil, lieu, sportif ou non, âge. – Résultat : – Betterise : textes équivalents à la production manuelle. – Lancé en automne 2014.
  46. 46. Business case complet
  47. 47. 16/21 Catalogue de 150 000 hôtels 3 langues pas de données
  48. 48. 17/21 Collecte des informations – Plusieurs sites sources – Informations structurées – Informations non structurées
  49. 49. 18/21 Analyse – Dédoublonnage – Analyse textuelle (content 2 data) – Extraction d’informations factuelles – Analyse de sentiments – Data Mining – Faits remarquables
  50. 50. 19/21 Rédaction automatique – Rédaction automatique de descriptifs – Rédaction automatique points positifs/négatifs – 3 langues (en, es, fr)
  51. 51. 20/21 Descriptif + Résumé d’avis L'hôtel Oceania vous accueille dans son établissement design 4 étoiles. Situé en plein cœur de Paris, cet hôtel se trouve à 200 m du parc des expositions et à 3km de la gare. L'hôtel, récemment rénové, est décoré avec goût et bénéficie d'une décoration contemporaine et moderne. Il a une capacité de 250 chambres toutes confortables, luxueuses, contemporaines avec une décoration haut de gamme. Elles sont climatisées, insonorisées et disposent toutes d'un balcon, idéal pour prendre l'air ou pour observer la vue. Pour rester en contact avec vos proches, un accès gratuit à internet est disponible. Si vous avez plutôt besoin de vous dégourdir les jambes, faites une petite balade dans le jardin de l'hôtel qui recouvre une superficie de 700 m². D'autres possibilités vous sont aussi proposées.. […]. Cet hôtel est un excellent choix pour la clientèle business ou bien pour les touristes. Pour vos déplacements, un service de navette est proposé. Une navette peut aussi vous déposer ou aller vous chercher à l'aéroport. Ses atouts • La piscine chauffée • La possibilité d’installer un lit enfant dans la chambre • Le petit-déjeuner varié, frais et copieux • La proximité du parc des expositions • L’accueil sympathique et chaleureux – Breakfast excellent – Location excellent, secure, good, wasn’t so nice – Bathroom not so excellent – TV didn’t work properly – Recommend YES Analyse Projection
  52. 52. 21/21 Merci Claude de Loupy loupy@syllabs.com @cdeloupy

×