2014 11-18-luxid-for-open text-pn

392 vues

Publié le

Connecteur Temis Luxid pour enrichissement sémantique de OpenText Content Server.
Facilite la création d'application Big Data, améliore l'utilisation et l'optimisation de contenus non structurés.
Avec ses vocabulaires métier personnalisés la solution permet de créer des environnements d'analyse et de navigation enrichies.

Publié dans : Données & analyses
0 commentaire
0 j’aime
Statistiques
Remarques
  • Soyez le premier à commenter

  • Soyez le premier à aimer ceci

Aucun téléchargement
Vues
Nombre de vues
392
Sur SlideShare
0
Issues des intégrations
0
Intégrations
4
Actions
Partages
0
Téléchargements
8
Commentaires
0
J’aime
0
Intégrations 0
Aucune incorporation

Aucune remarque pour cette diapositive
  • Quelques chiffres sur l’utilisation de Content Server
    Période 2000-2014, premier lot concerné par l’enrichissement
  • L’indexation standard dans Content Server = plein-texte + métadonnées (catégories/attributs, RM, etc)
    La meilleure recherche ne peut que combiner ces 2 types d’information, d’autre part:
    Les métadonnées saisies par des humains sont possiblement partiales, inconsistantes
    privilégier un terme plutôt qu’un autre
    peut varier selon la personne, l’humeur, etc.
    Les termes évoluent, pas les métadonnées stockées
    Une métadonnée si elle n’est qu’une chaine de caractère n’évolue plus (nécessité de stocker un concept avec un identifiant unique)
    Le terme recherché n’est pas forcément présent dans le document (synonymes, langues différentes)
  • Processus parallèles et nécessitant des allers-retours
    Mise à jour des vocabulaires et développement des 2 principales cartouches
    Classification (Extraction de Sujets et d’Aires Géographiques (issus de notre taxonomie centrale)
    Document Type (Catégorisation par type de documents)

    Corpus de 165 000 documents et publications (3 000 000 de pages) identifiés pour le passage en production
    Temps de traitement évalué: moins de 9 jours (24/24)
  • Enrichissement en production des 165 000 documents et publications
    Mise en place des processus d’enrichissement automatique pour les nouveaux documents

    Extension du périmètre des contenus à enrichir dans Content Server
  • Mise à disposition des webservices Temis pour d’autres systèmes
    Exploitation des liens sémantiques
  • Architecture très schématisée
    L’enrichissement des vocabulaires n’est pas automatique: processus de veille, les cartouches nous aident à identifier les termes candidats
  • 2014 11-18-luxid-for-open text-pn

    1. 1. Capitalisez vos contenus Content Server Paris le 18 Novembre 2014 Philippe Deltenre – Temis Pierre Nocera – Red Tree Software Jean-Marc Touzard – Camoai
    2. 2. Agenda • 15’ : Présentation des acteurs et genèse de la solution • 30’ : Notions d'enrichissement sémantique • 30’ : Présentation de la solution Luxid® for OpenText • 30’ : Témoignage de l’OCDE • 30’ : Questions ⁄ Réponses
    3. 3. • Éditeur spécialisé dans les modules complémentaires à la suite Content Server : • Expertise documentaire • Forte valeur ajoutée • Centré sur les besoins de l’utilisateur. • Red Tree Software est distribué en France et à l’étranger par un réseau de partenaires.
    4. 4. • Accélérateur de Transformation Numérique Camoai propose à ses clients conseil opérationnel et accompagnement : • Projets Xnet, collaboratif, socialisation • Projets ECM • Projets BPM • Projets de mobilité et entreprise étendue. • Les solutions Content Server et SharePoint sont au coeur de ces offres, et Temis un partenaire naturel pour accompagner nos clients dans leurs projets ECM et Big Data.
    5. 5. Pionnier de l’Enrichissement de Contenu depuis 2000 70 Copyright © 2013 TEMIS - All Rights Reserved - Slide 5
    6. 6. Références clé Copyright © 2013 TEMIS - All Rights Reserved - Slide 6
    7. 7. Structurer les contenus non structurés pour mieux les gérer et mieux les valoriser Copyright © 2013 TEMIS - All Rights Reserved - Slide 7
    8. 8. Notions d’enrichissement sémantique Copyright © 2013 TEMIS - All Rights Reserved - Slide 8
    9. 9. - Flux de traitement sémantique WSeu rje. portV ar b5.2 year-old mPaanti epnretsenting an acVuteer bheair loss induScyemd bpytô cmarebamazepineV (eCrBbZe) in concentraMtioédn iocaf m8.e6n mt icrog/ml. Dosage Identification des relations WSuej. repoVrtr ba. 52 year-oldP mataienn ptresenting an aVceurtbee hair loss indSuycmedp tbôym cearbamazepinVee r(bCeBZ) in concentMraétidoinca omf e8n.6t microg/ml. Dosage 2 Identification des entités 1 Analyse morpho-syntaxique We report a 52 year-old man presenting an acute hair loss induced by carbamazepine (CBZ) in concentration of 8.6 microg/ml. Copyright © 2013 TEMIS - All Rights Reserved - Slide 9 EFFET SECONDAIRE Symptôme Alopécie Cause Carbamazepine Dosage 8.6 mg/ml Patient 52 year-old male 3
    10. 10. Quelles informations métier ? A vous de le décider…quelques exemples  Personnes • Clients, Collaborateurs, Rattachement à votre annuaire  Organisations • Filiales, Services, Fournisseurs, Compétiteurs, Partenaires  Références internes • Projet, contrat, client, zone géographique, marché, etc…  Noms de vos produits ou services • Taxonomie produit, accessoires, options, etc…  Terminologie et Catégories métier • Vocabulaires techniques • Catégories documentaires Copyright © 2013 TEMIS - All Rights Reserved - Slide 10
    11. 11. La plate-forme logicielle Luxid Copyright © 2013 TEMIS - All Rights Reserved - Slide 11
    12. 12. Content Enrichment Platform Annotation Factory Skill Cartridge® Library Content Enrichment Studio Copyright © 2013 TEMIS - All Rights Reserved - Slide 12 • Robustesse, Scalabilité, APIs, Web Services • 20 langues • Entités / Relations / Catégories / Thèmes … • Thésaurii, taxonomies, règles sémantique, statistiques, apprentissage (machine learning)
    13. 13.  Moteurs d’extraction spécialisés • Focalisés sur vos “objets d’intérêt” • Entités, Relations, Thèmes, Opinions, etc  Modulaires & Puissants • Combinables dans un même plan de traitement • Large gamme de techniques d’extraction • 20 langues • Faciles à personnaliser avec Content Enrichment Studio Copyright © 2013 TEMIS - All Rights Reserved - Slide 13 Skill Cartridges® • Anglais • Français • Allemand • Flamand • Italien • Espagnol • Portugais • Tchèque • Russe • Hongrois • Polonais • Grec • Suédois • Danois • Norvégien • Finlandais • Chinois • Japonais • Coréen • Arabe Skill Cartridge 1 Morpho Syntaxique Skill Cartridge 2 Thesaurus Skill Cartridge 3 Statistique Skill Cartridge n Machine Learning
    14. 14. XelDA Admin Annotation Plan Document 200+ formats XML, HTML, txt, doc, pdf, … Web Services SOAP-REST / Modèle de données unique Ressources d’annotation unifiées (Skill Cartridge®) Copyright © 2013 TEMIS - All Rights Reserved - Slide 14 REST API SC1 SC2 SCn Document Annoté XML / JSON / RDF Enterprise Search Extraction d’information robuste
    15. 15. AS AS AS AS AS AS AS AS • Utilisation CPU élevée dans toutes configurations • Déploiement en un clic dans le Cloud • Conçu pour les Big Data (Hadoop) Copyright © 2013 TEMIS - All Rights Reserved - Slide 15 Montée en charge / Cloud Annotation Server Multi-core Luxid ® Annotation Server (1 node multi-core) AS AS AS AS AS AS AS AS AS AS AS AS AS AS AS AS AS AS AS AS AS AS AS AS Luxid® Big Data (10-100 Machines) Traitement Big Data Haute Disponibilité Flux Temps Réel Luxid® Annotation Farm (2-10 Machines) Annotation Server Multi-core Annotation Server Multi-core Annotation Server Multi-core Load Balancer
    16. 16. Démonstration Luxid Web Service Copyright © 2013 TEMIS - All Rights Reserved - Slide 16
    17. 17. Luxid for OpenText CS10 (et Livelink 9.7…) Pourquoi imaginer une telle solution ?
    18. 18. Le contexte • Les sites ECM OpenText présentent souvent : • Une utilisation avancée des fonctionnalités documentaires et gestion de contenus (différents types d’espaces, métadonnées, formulaires, workflows, sécurité, types de contenus) • Une forte volumétrie • Un contexte international et donc des exigences en multilinguisme. • Malgré une fonction de recherche plutôt performante, on constate que les utilisateurs sont en fait souvent mécontents de la recherche proposée, et critiquent : • La pertinence des résultats • La présentation des résultats. • Comme il arrive souvent dans les projets ECM, des fonctionnalités intéressantes sont peu ou pas utilisées : • Par méconnaissance des utilisateurs et/ou du staff projet en charge de les déployer. • Par insuffisance dans la gestion du changement.
    19. 19. Le contexte • À cette situation déjà complexe viennent s’ajouter de nouvelles contraintes : • On ne demande plus au moteur de recherche de trouver des documents où l’utilisateur ira puiser de l’information • On demande au système d’extraire du sens dans un volume d’information croissant tellement vite que l’utilisateur ne peut plus passer son temps à analyser des documents sortis d’une liste de résultats • On attend du système qu’il soit capable de gérer plusieurs cibles en même temps pour nous aider dans la réflexion et la prise de décision • Et tout cela en quelques secondes sur des volumes en très forte croissance.
    20. 20. La réponse • La spécialisation sémantique du moteur Luxid de Temis va apporter des réponses à ces exigences. • Souvent perçue comme complexe et réservée à des spécialistes, l’approche sémantique reste encore rare dans les entreprises du monde industrie-commerce et services. • Grâce aux connecteurs qui relient le moteur d’enrichissement sémantique, il sera possible de venir compléter les solutions ECM en place, en capitalisant les efforts déjà réalisés.
    21. 21. Le connecteur Luxid pour OpenText Fonctionnalités et démonstration
    22. 22. Diagramme de Flux Luxid® pour OpenText Cartouches sémantiques (Skill Cartridge® ) Copyright © 2013 TEMIS - All Rights Reserved - Slide 22 API du Moteur De recherche Index De de Recherche recherche Search-based Applications Recherche Analyse Visualisation Facettes Recommendations Insertion Indexation des métadonnées Extraction automatique des métadonnées Enrichissement des méta-données Enrichissement des interfaces Luxid® Annotation Factory
    23. 23. Le Connecteur - Les fonctionnalités • Le connecteur Luxid pour OpenText constitue la passerelle entre Content Server et Luxid, et permet d’enrichir le contenu sémantique des documents de manière automatique ou manuelle. • Les documents classés dans OpenText Content Server voient leur contenu enrichi par des métadonnées sous forme de catégories / attributs ou de classifications. • Le connecteur peut prendre en charge l’extraction du texte des documents avec ou sans OCR avant leur soumission au serveur Luxid.
    24. 24. Le Connecteur - L’architecture • Le connecteur Luxid pour OpenText est un middleware entre Content Server et le serveur Luxid et se présente sous la forme d’un service Windows. • Le gestionnaire de messages MSMQ est utilisé pour prendre en charge la gestion des demandes de jobs, ce qui permet d’offrir une bonne qualité de service : les demandes d’enrichissement ne sont pas perdues si l’un des 2 serveurs est arrêté. • Plusieurs connecteurs peuvent être répartis sur plusieurs serveurs, afin de répartir la charge dans le contexte de traitements importants.
    25. 25. Le Connecteur - Flux de données 1 : Les documents sont stockés dans Content Server 2 : Un message est envoyé au gestionnaire MSMQ pour mise en file d’attente de traitement 3 : Le connecteur prend en charge le traitement, extrait éventuellement le texte des documents 4 : Le document est envoyé au serveur Luxid pour enrichissement 5 : Le serveur Luxid renvoie les métadonnées enrichies 6 : Le connecteur met à jour les métadonnées dans Content Server sous forme de catégories / attributs ou de classifications 7 : L’enrichissement sémantique est mis à disposition auprès utilisateurs grâce à l’interface standard de Content Server ( facettes, filtres de recherche, classifications, etc..)
    26. 26. Le Connecteur - Paramétrages Le paramétrage s’effectue dans le module pour Content Server, dans une page d’administration dédiée. On paramètre ainsi un ou plusieurs serveurs Luxid, en indiquant notamment l’URL du webservice Luxid. Ensuite on crée un ou plusieurs processeurs d’analyse, qui permettent de définir le mapping entre les entités Luxid et les catégories / classifications OpenText. Enfin on crée des Jobs pour l’execution automatique, ou des menus fonctions pour appeler un processeur d’analyse via l’interface utilisateur.
    27. 27. Le Connecteur – Interface utilisateur L’appel à l’enrichissement sémantique peut s’effectuer manuellement via l’interface utilisateur grâce à un menu fonction disponible sur les documents, et via un bouton « Enrich » pour le traitement des sélections multiples.
    28. 28. Le Connecteur – Interface utilisateur L’appel à l’enrichissement sémantique peut s’effectuer automatiquement. Dans l’exemple ci-dessus chaque fois qu’un document sera ajouté dans ce dossier ou un sous-dossier, il sera traité et enrichi automatiquement en utilisant le processeur d’analyse « Entities ».
    29. 29. Le témoignage de l’OCDE
    30. 30. PROJET D’ENRICHISSEMENT SÉMANTIQUE À L’OCDE Intégration Open Text Content Server - Luxid
    31. 31. Utilisation de Content Server à l’OCDE • Système de Records Management de notre unité Bibliothèque et Archives depuis 2009 • Catalogue de publications OCDE et de ressources externes • 2 500 000 documents électroniques • Sur la période 2000-2014: + de 150 000 documents officiels + de 15 000 publications + de 3 000 000 de pages
    32. 32. Retrouver l’information dans Content Server avec Luxid Amélioration de la recherche standard de Content Server par: • Des métadonnées homogènes • Un identifiant unique pour chaque concept permettant: de chercher dans toutes les langues simultanément de retrouver un concept malgré l’utilisation de synonymes et l’évolution du langage
    33. 33. Le connecteur développé par Red Tree Software • Définition de lots de documents à enrichir grâce à des LiveReport (requêtes sql) avec un certain plan d’annotation • Processus automatique et transparent • Résultats stockés en XML pour une recherche par URI • Amélioration de la recherche, résultats plus pertinents, plus complets
    34. 34. Mise en oeuvre – Phase I Phase I Phase II Phase III Fin 2013 Fin 2014
    35. 35. Mise en oeuvre – Phase II Phase I Phase II Phase III Fin 2013 Fin 2014
    36. 36. Mise en oeuvre – Phase III Phase I Phase II Phase III Fin 2013 Fin 2014
    37. 37. Développement des cartouches (AWB) Gestion des vocabulaires LUXID Content Server Architecture Enrichissement des vocabulaires Enrichissement de Content Server
    38. 38. Questions - Contacts  Par mail :  jm.touzard@camoai.com  philippe.deltenre@temis.com  pnocera@redtreesoftware.com  Par téléphone : +33 686 841 233  Linkedin : fr.linkedin.com/in/jmtouzard/  Viadeo : http://www.viadeo.com/fr/profile/jean-marc.touzard
    39. 39. MERCI

    ×