Un document APROGED avec les contributions de :                      Ever Team , IBM, Intellique, Novadys ,               ...
Toujours plus de contenuCroissance de la volumétrie quotidienne des données                15 petabytes (1015) par jour  ...
Cohabitation des types de contenuPas de séparation stricte entre le contenu structuré et non              structuré. Cons...
La gestion des contenus
Les 3V de l’ECM Gérer l’augmentation des volumes (Volume)    Surplus des coûts de stockage    Difficultés accrues pour ...
La valorisation des contenus
Les 4 V de la Big Data économieLocaliser les contenus produit sur une période courteVolume : Gérer l’accroissement des v...
Sources de contenu              et réseaux sociauxType de média:   Contenu d’entreprise (ECM, GED, …)   Fil d’informati...
Analyse niveau 1Time line, population , géolocalisation, fréquentation  Google Analystic  Youtube Insight  …  Des inf...
Analyse niveau 2 : Text miningLe Text Mining, base du Content Analytics, repose sur                des contenus textuelsE...
Du texte au sensExtraction des entités nommées   Entités connus (listes d’autorité de produits, sociétés, …)Extraction ...
Analyse des sentimentsAnalyse globale   Un texte dégage une tonalité positive ou négative   Ex. Le beaujolais Nouveau e...
Analyse des tendances    Natural Language Processingchaque mot à une tonalité intrinsèque :   « aimer », « satisfait », ...
Analyse des tonalitésLes adverbes inverse souvent la tonalité   Diminution des bénéfices  négatif   Augmentation des b...
Composants d’analyse            MorphologiqueLa tokenisation : identification des mots et des phrases d’un texte (découpa...
Composants « syntaxiques »Analyse de surface d’une phrase (chuncking)  Identification des frontières majeures et/ou de r...
Composants « syntaxiques »Analyse de surface d’une phrase (chuncking)  Ex . Règles pour reconnaitre un nom de personne: ...
Composants « syntaxiques »Etiquetage fonctionnel (tagging)   Affectation de fonction grammaticale à un groupe de motsAn...
Composants « sémantiques »Sélection du sens (WSD pour Word Sense Disambiguation)   Déterminer le sens de chaque motStru...
Composants « sémantiques »Extraction de thématiques  Le boucher propose du veau  thématique commerce   alimentaire  L’...
CatégorisationMéthodes basées sur l’apprentissage   Lors de l’arrivée d’un nouveau contenu, une ou plusieurs    catégori...
Exceptions et signaux faiblesDéfinition des Signaux faibles :   Relève souvent de la sphère de la veille (technologie   ...
Exceptions et signaux faibles     Evolution du nombre de résultats de la recherche du buzz word "big data" via Google
Simplifier et représenterReprésentation des contenus   Gérer le niveau de détail : Corrélation entre la taille des    do...
Simplifier et représenterPossibilité d’interactivité  Dépendant du média : Zoomer, utiliser un curseur pour    naviguer,...
Exemples de représentation
Exemples de représentation
Exemple d’application           du Content AnalyticsRéduction des risques dans une compagnie d’assuranceAmélioration de ...
Réduction des risques dans une      compagnie d’assurance Les besoins    Détection et prévention de la fraude.    Meill...
Amélioration de l’efficacité des     investigations policières Les besoins    La partie rédactionnelle des déclarations ...
Réduction du taux d’attrition  clients dans une société de telco Les besoins    Accroitre la satisfaction clients.    E...
Application d’une taxe écologiste Les besoins    Mettre en œuvre une taxe écologiste pour les véhicules qui circulent su...
e@reputatione@reputation en B to C  l’individu au cœur de la Big Data  Ebay : notation des vendeurse@reputation en B t...
APROGEDAssociation des professionnels pour l ’économie                  numérique    Site de l’APROGED : http:/www.aproged...
Prochain SlideShare
Chargement dans…5
×

Content analytics slideshare aproged

823 vues

Publié le

0 commentaire
0 j’aime
Statistiques
Remarques
  • Soyez le premier à commenter

  • Soyez le premier à aimer ceci

Aucun téléchargement
Vues
Nombre de vues
823
Sur SlideShare
0
Issues des intégrations
0
Intégrations
2
Actions
Partages
0
Téléchargements
15
Commentaires
0
J’aime
0
Intégrations 0
Aucune incorporation

Aucune remarque pour cette diapositive

Content analytics slideshare aproged

  1. 1. Un document APROGED avec les contributions de : Ever Team , IBM, Intellique, Novadys , Normier, Banctec, Proxem, Magillem Christian DubourgGroupe de travail piloté par Ever-Team 01 / 2013
  2. 2. Toujours plus de contenuCroissance de la volumétrie quotidienne des données 15 petabytes (1015) par jour 90% des contenus datent de moins de 2 ans 80% de l’information est disponible sour une forme non structurée
  3. 3. Cohabitation des types de contenuPas de séparation stricte entre le contenu structuré et non structuré. Constante cohabitation Contenu structuré: Reference article (une tablette IPAD) Contenu non structuré mais lié Mode opératoire Texte réglementaire ou/et normatif associé Avis d’un consommateur dans un forum J’aime sur Facebook ou Linkedin, …
  4. 4. La gestion des contenus
  5. 5. Les 3V de l’ECM Gérer l’augmentation des volumes (Volume)  Surplus des coûts de stockage  Difficultés accrues pour les sécuriser (sauvegardes, PRA, PCA) Gérer la diversité des contenus (Variété)  Documents techniques, documents bureautiques,  Email, vidéos, enregistrements,  Documents multilingues Valoriser et maîtriser les contenus (Valeur)  Indexation , catégorisation, classement  Recherche structurée et non structurée  Archivage
  6. 6. La valorisation des contenus
  7. 7. Les 4 V de la Big Data économieLocaliser les contenus produit sur une période courteVolume : Gérer l’accroissement des volumesVariété : Détecter les relations entre les contenusValeur : Valoriser les données extraitesVélocité : Détecter les tendances, les exceptions et signaux faibles et surveiller les évolutions.
  8. 8. Sources de contenu et réseaux sociauxType de média:  Contenu d’entreprise (ECM, GED, …)  Fil d’information : twitter  Classiques : Facebook, Linkedin, Google +  YoutubeType de contenu  Classiques : Articles, photos, vidéos, …  Commentaires : pauvres (kdo), riches, …  Tags : classification, catégorisation  Opinion : Like, ou aucun  deux indicateurs
  9. 9. Analyse niveau 1Time line, population , géolocalisation, fréquentation Google Analystic Youtube Insight … Des information sur :  les contenus  L’intérêt associé  Les catégories de contenu  La fréquentation
  10. 10. Analyse niveau 2 : Text miningLe Text Mining, base du Content Analytics, repose sur des contenus textuelsExtraction Web : du formulaire Web au métadonnées textuelles Speach2Text : De la parole au texte Image2Text : OCR, ICR, Barcode, Qr code, … Video2Text : VCA = Speach2Text+ Image2Text++…
  11. 11. Du texte au sensExtraction des entités nommées  Entités connus (listes d’autorité de produits, sociétés, …)Extraction des thématiques  Entités découvertes (par analyse)  Identifier les entités qui ne sont pas des entités nomméesExtraction des opinions  Analyse des avis,  opinion mining,  sentiment analysis
  12. 12. Analyse des sentimentsAnalyse globale  Un texte dégage une tonalité positive ou négative  Ex. Le beaujolais Nouveau est bon cette annéeAnalyse fine  Difficultés lorsque plusieurs opinions sont exprimées:  Ex. Un avis sur un restaurant peut avoir une tonalité globalement positive sur la carte, l’accueil mais des réserves peuvent être négatives sur le prix
  13. 13. Analyse des tendances Natural Language Processingchaque mot à une tonalité intrinsèque :  « aimer », « satisfait », « soulagement » sont positifs  « Craindre », « mécontent » « douleur » sont négatifsCependant  Ce médicament me donne des douleurs  négatif  Ce médicament calme mes douleurs  positif  Ce médicament ne calme pas mes douleurs  négatif  J’espérais que ce médicament calmerait mes douleurs  négatif  Est-ce que cela a calmé tes douleurs?  pas de tonalité  Ce médicament est indiqué pour calmer les douleurs  pas de tonalité
  14. 14. Analyse des tonalitésLes adverbes inverse souvent la tonalité  Diminution des bénéfices  négatif  Augmentation des bénéfices  positif  Une augmentation scandaleuse des bénéfices du CAC40  négatif  Ce projet de loi devrait permettre e mettre un coup d’arrêt à l’augmentation scandaleuse des bénéfices du CAC40  Tonalité ???L’analyse linguistique est indispensable pour résoudre ces ambiguïtés (composants morphologique, syntaxiques, sémantiques)
  15. 15. Composants d’analyse MorphologiqueLa tokenisation : identification des mots et des phrases d’un texte (découpage)Le tagging: identification de la catégorie (verbe, nom, adjectif, …)La lemmatisation : identification de la forme canonique des mots (ou lemme)
  16. 16. Composants « syntaxiques »Analyse de surface d’une phrase (chuncking) Identification des frontières majeures et/ou de relations majeurs entre les mots. Ex: Entité nommé Les actionnaires d’Ever-Team ont décidé  Ever-Team est une société
  17. 17. Composants « syntaxiques »Analyse de surface d’une phrase (chuncking) Ex . Règles pour reconnaitre un nom de personne:  « Prénom non ambiguë » suivi de « mot inconnu »  nom de personne. Ex. « Joseph Merheb »  « Prénom ambiguë » « mot inconnu »  « nom de personne ». Ex. Claire Merheb  « Prénom ambiguë « nom commun »  « nom de personne ». Ex. Claire Potier
  18. 18. Composants « syntaxiques »Etiquetage fonctionnel (tagging)  Affectation de fonction grammaticale à un groupe de motsAnalyse syntaxique (parsing)  Construction d’un arbre représentant la structure de la phrase complète  Ex. La société Ever-Team a pris une participation de 90% dans la société Creativ System [Société X]  (actionnaire de)  [société Y]
  19. 19. Composants « sémantiques »Sélection du sens (WSD pour Word Sense Disambiguation)  Déterminer le sens de chaque motStructuration logique : transformer la représentation syntaxique de la phrase en une forme prédicative: un prédicat et ses arguments (agent, but, lieu, …)Résolution des anaphores Ex. François Hollande à peine élu. Il a déjà rencontré Obama, après avoir vu Angela, il lui a parlé.
  20. 20. Composants « sémantiques »Extraction de thématiques Le boucher propose du veau  thématique commerce alimentaire L’évier vient de se boucher  thématique plomberieLimites de l’exercice Les jumelles de ma voisine viennent de naître Ma voisine a des jumelles… elle s’en sert peu
  21. 21. CatégorisationMéthodes basées sur l’apprentissage  Lors de l’arrivée d’un nouveau contenu, une ou plusieurs catégories lui sont affectées.  Nécessite l’existence d’un Corpus qui permet de construire un référentiel statistique (ES-CTS)Méthodes basées sur des profils linguistiques associées aux catégories  Définir des formules de recherche thématiques associées aux catégories.  Ex. Si recherche « mai 68 »  catégorie : manifestation
  22. 22. Exceptions et signaux faiblesDéfinition des Signaux faibles :  Relève souvent de la sphère de la veille (technologie concurrentielle, commerciale, environnementale, sociale, …)  Elément peu visible, inattendu, perdu dans la masse  Signal de faible fréquence, qu’un agent intérêt à détecter et à exploiter au plus tôt  surveillance à mettre en oeuvreSurveillance et détection  Proposition de candidats (fréquence d’apparition est en croissance)  Analyse dans l’espace temps  Pose de seuil d’alerte : passage du signal faible au signal fort
  23. 23. Exceptions et signaux faibles Evolution du nombre de résultats de la recherche du buzz word "big data" via Google
  24. 24. Simplifier et représenterReprésentation des contenus  Gérer le niveau de détail : Corrélation entre la taille des données à analyser et le niveau de détail représenté  représenter des statistiques sur 22 régions de France / sur 36700 communes.  Définir le type de données à représenter:  Données brutes, numériques  Données calculées (comptage, somme, …)  Données annotées  Données habillées par du texte explicatif
  25. 25. Simplifier et représenterPossibilité d’interactivité Dépendant du média : Zoomer, utiliser un curseur pour naviguer, un slider, …Possibilité d’utiliser des facettes Affectation de facettes sur les contenus pour permettre d’avoir une navigation synthétique et guidée
  26. 26. Exemples de représentation
  27. 27. Exemples de représentation
  28. 28. Exemple d’application du Content AnalyticsRéduction des risques dans une compagnie d’assuranceAmélioration de l’efficacité des investigations policièresRéduction du taux d’attrition clients dans une société de telcoApplication d’une taxe écologistee@reputation d’une personne, d’une marque, d’une société
  29. 29. Réduction des risques dans une compagnie d’assurance Les besoins  Détection et prévention de la fraude.  Meilleure analyse des risques. La solution  Analyse des dossiers de traitement des dommages des 15 dernières années, plus de 15 sources différentes.  Détermination de profils et évolutions de comportements. Les bénéfices  Proposition de catégorisation automatique des déclarations de sinistre selon niveau de risque et probabilité de tentative de fraude.  Traitement par exception et suivi des déclarations à risque.  Rapidité du traitement des dossiers.  Réduction des coûts.  Expertise croissante.
  30. 30. Amélioration de l’efficacité des investigations policières Les besoins  La partie rédactionnelle des déclarations d’homicides, des rapports d’investigations et d’expertises emploient des termes sans standardisation dépendant de chaque individu. Il n’est pas possible d’exploiter ces informations. La solution  Analyse de l’ensemble de ces documents avec extraction d’informations permettant une caractérisation des faits indépendamment du mode de formulation de chaque auteur. Les bénéfices techniques  Capacité de traiter une information volumineuse avec mise en évidence de corrélations (homicides, auteurs, …) permettant la résolution de dossiers, la détermination de profils et une approche prédictive du comportement criminel
  31. 31. Réduction du taux d’attrition clients dans une société de telco Les besoins  Accroitre la satisfaction clients.  Etre à l’écoute de la « Voix du client » pour identifier de nouvelles opportunités, éviter des ruptures de contrat par une réponse plus efficace aux incidents et la proposition de nouveaux services. La solution  Analyse des rapports d’intervention du centre de support, des enquêtes de satisfaction et des messages clients.  Identification pour action des clients à risque de rupture.  Meilleur traitement des incidents fréquents par un site d’information.  Détermination de corrélations entre problèmes, comportements et offres Les bénéfices  Diminution du taux d’attrition de 50 %.  Définition de nouvelles offres.  Amélioration du support.
  32. 32. Application d’une taxe écologiste Les besoins  Mettre en œuvre une taxe écologiste pour les véhicules qui circulent sur les routes nationales et les voies rapides françaises.  Gérer la volumétrie engendrée par l’émission des points de collecte de passage des usagers.  Etablir une taxe liée aux relevés de passage. La solution  Collecte des points de passage des usagers.  Extraction des entités (lieux, point de passage, identité, …) pour établir la taxe.  Analyse des données par les organismes habilités au contrôle.  Archivage à valeur probatoire. Les bénéfices techniques  Mise en place d’un mécanisme de calcul de la taxe basé sur l’utilisation du réseau routier.  Analyse des données pour optimisation de la taxe  Détection de la fraude.
  33. 33. e@reputatione@reputation en B to C l’individu au cœur de la Big Data Ebay : notation des vendeurse@reputation en B to B L’entreprise au cœur de la Big Data Valorisation des marques et du savoir faire
  34. 34. APROGEDAssociation des professionnels pour l ’économie numérique Site de l’APROGED : http:/www.aproged.org Courriel : contact@aproged.orgAutres Publications à télécharger sur le site de l’APROGED DocuCloud E-Reputation B2B Ethique et Big Data Video Content Analytics Archivage sur le Cloud

×