CONTENT ANALYTICS  REGLES DE L’ART
Content Analytics et Big Data« Big Data » et « Content Analytics » sont sur toutes les bouches comme si une nouvelle révol...
Réseaux sociaux                                    AnalyseL’avènement des réseaux sociaux en                              ...
REMERCIEMENTSCe guide dédié aux apports des technologies du « Content Analytics » a été rédigé par desspécialistes du doma...
Prochain SlideShare
Chargement dans…5
×

4 pages Content Analytics

631 vues

Publié le

0 commentaire
0 j’aime
Statistiques
Remarques
  • Soyez le premier à commenter

  • Soyez le premier à aimer ceci

Aucun téléchargement
Vues
Nombre de vues
631
Sur SlideShare
0
Issues des intégrations
0
Intégrations
50
Actions
Partages
0
Téléchargements
3
Commentaires
0
J’aime
0
Intégrations 0
Aucune incorporation

Aucune remarque pour cette diapositive

4 pages Content Analytics

  1. 1. CONTENT ANALYTICS REGLES DE L’ART
  2. 2. Content Analytics et Big Data« Big Data » et « Content Analytics » sont sur toutes les bouches comme si une nouvelle révolutionétait en marche. Une réelle évolution sans doute, du fait des réseaux sociaux et des nouvellesapplications qui permettent à tout un chacun de participer à la construction des contenus. Chacunest en mesure de dire ce qu’il pense sur Internet, de dire ce qu’il « aime », de dire où il se trouve et cequ’il fait.Toute cette information constituée par des millions d’internautes représente un volume de contenucolossal disponible et accessible sur la toile. Au-delà de la capacité à gérer ces volumes gigantesqueset à pouvoir les interroger même s’ils sont disparates, le véritable enjeu est celui de l’analyse de cesmasses d’informations structurées et non structurées.Le but avoué ou inavoué de cette analyse des contenus consiste à permettre une compréhension etune synthèse comportementale et temporelle fournie par l’analyse des tendances et l’analyse de lapensée. La difficulté est grande. Le chemin est semé d’embuches.Avant de pouvoir analyser les contenus, il faut en faire l’acquisition et collecter lesinformations où elles se trouvent. Il faut extraire de cette masse d’information souvent nonstructurée, une forme compréhensible et intelligible d’information. L’analyse syntaxique,sémantique et morphologique des contenus et la réconciliation est alors possible en prenanten compte l’identification des exceptions. Le résultat de ce travail ne serait pas audible sans lamise en œuvre de systèmes de représentation qui permettent une navigation progressive etmultidimensionnelle dans la connaissance extraite. Le contenu sous toutes ses « Text Mining » ou fouille de formes textesAvant d’aborder les techniques qui s’attachent Le « Text mining » ou fouille des textes est un au Content Analytics, le guide dresse un sujet central dans la problématique du état des lieux du contenu sous Content Analytics. On sait bien en effet toutes ses formes, en apportant des que de l’ordre de 80 à 90% de réponses à différentes questions : l’information (« content ») interne ou De quel contenu parle-t-on ? externe qui intéresse l’entreprise est non Comment l’information évolue-t-elle ? structurée. Le « text mining » s’est Quelles sont les formes rencontrées ? développé pour répondre au besoin de disposer d’une meilleure « indexation Etat des lieux de la gestion du automatique » des textes, visant à enrichir les textes de métadonnées en représentant contenu le sens.Les solutions de gestion de contenu (ECM) sont souvent mises en œuvre pour gérer Informatique décisionnelle (BI). les contenus. Le périmètre de ces L’informatique décisionnelle ou « Business solutions est variable : Capture de Intelligence » en anglais, est données, cycle de vie de probablement le concept le plus proche du l’information, accès aux données, Content Analytics. Les objectifs de la fonctions collaboratives, archivage « BI » et du Content Analytics sont des données. Dans leur périmètre communs : mettre à disposition du traditionnel, ces solutions atteignent des décideur une vue d’ensemble des données limites qui peuvent être dépassées par les traitées et permettre une navigation apports de l’analyse de contenu. multidimensionnelle. Le guide aborde les différences entre ces deux concepts.
  3. 3. Réseaux sociaux AnalyseL’avènement des réseaux sociaux en Après l’extraction, l’analyse traite les ligne et la généralisation progressive de contenus par des techniques de leur pratique ne cessent de démultiplier le catégorisation (ajout des marqueurs volume des contenus échangés par les de sens), de réconciliation de internautes. Ces réseaux sociaux sont contenu, de gestion des exceptions devenus un vrai phénomène de masse, qui et signaux faibles. génère chaque jour des millions dinteractions. Le guide explique comment il faut prendre en compte ce phénomène Représentation et navigation pour en tirer un bénéfice. Le rôle de la représentation des contenus est a priori de rendre ceux-ci facilement Cloud Computing compréhensibles et de permettre de saisir d’un seul coup d’œil les points deLe cloud computing est également analysé données importants, l’allure des pour mettre en évidence la manière dont il évolutions, bref l’idée mise en évidence contribue à la valorisation des contenus au par le croisement visuel des travers de son architecture distribuée. informations. Le guide explique quelles données représenter et les différents Big Data types de représentation les plus utilisés.Les concepts et outils du Content Analytics sont souvent mis en perspective du « Big Exemples de déclinaison de la Data ». Qu’est-ce que le Big Data ? Quel valorisation de contenu est le rapport entre le Big Data et le Content Analytics ? Un ensemble de cas d’utilisation réels ou potentiels des technologies de Content Acquisition et collecte Analytics permet d’illustrer les explications du guide : réduction desAvant de pouvoir analyser le contenu, il faut le risques dans une compagnie d’assurance, collecter. Le guide propose un parcours mise en adéquation des offres dans les types de sources de contenus : du universitaires, réduction du taux document papier à la numérisation, du d’attrition clients dans une société de formulaire web à la base de données, de la télécommunication, application d’une parole et de l’image au texte, de la vidéo taxe écologiste, amélioration de au contenu. Disposer de l’ensemble de l’efficacité des investigations policières, l’information et de façon cohérente eRéputation en B to B. suppose de mettre en œuvre des connecteurs et de définir un formalisme Exemple de Projets Lab autour des données collectées. Les sources sont souvent différentes mais les du Content Analytics traitements sont souvent similaires. Deux exemples de projets Lab permettent d’illustrer la puissance des technologies Extraction du Content Analytics. Projet WatsonPour permettre d’exploiter les contenus bruts d’IBM, Analyse de tendance : My dans un système de Content Analytics, il Presenting Avatar. est nécessaire de passer du texte au sens. Les techniques d’extraction d’information (entités nommées, thèmes, opinions, …) reposent sur les composants d’analyse "Morphologique", les composants "Syntaxiques", les composants "Sémantiques".
  4. 4. REMERCIEMENTSCe guide dédié aux apports des technologies du « Content Analytics » a été rédigé par desspécialistes du domaine traité qui sont, pour la plupart, membres de l’Association desProfessionnels pour lEconomie Numérique (APROGED). Cette association a été créée en1993 et représente l’ensemble des professionnels (éditeurs, constructeurs, distributeurs,intégrateurs, prestataires de services, sociétés de conseil, tiers archiveurs, …) des secteursde la dématérialisation, de la gestion de contenu et de document, de larchivage, de lacapture, de léditique, du workflow,...En 2011, l’Association des professionnels des Industries de la Langue (APIL) qui regroupeles acteurs du traitement automatique des langues et de la gestion des connaissances(indexation, linguistique, moteurs de recherche, sémantique, …) a rejoint l’APROGED.Ce document représente le premier travail commun entre les acteurs de l’APROGED etceux de l’ex-APIL dans la nouvelle configuration. Le groupe de travail qui a rédigé cedocument en mode collaboratif a souhaité vous offrir une vision précise de l’état de l’artdu « Content Analytics ».Merci donc à tous les auteurs y ayant contribué : Contributeurs membres APROGED • Christian Dubourg, Ever Team • Guillaume Fouquet, Novadys • Elie Francis, Ever Team • Thierry Guillotin, Ever Team • Patrick Hofleitner, IBM • Ian Nathan, Intellique • Bernard Normier, Consultant Création : APROGED – Suzanne NUNES • Sofia Rolland, Banctec • Eglantine Schmitt, ProxemAnimateur du groupe de travail « Content Analytics » organisé par l’AprogedChristian Dubourg- Secrétaire APROGED* Contributeur externe à l’APROGED • Arnaud Goumain, Magillem

×