2014 11-18-luxid-for-open text-pn

Capitalisez vos contenus
Content Server
Paris le 18 Novembre 2014
Philippe Deltenre – Temis
Pierre Nocera – Red Tree Software
Jean-Marc Touzard – Camoai

Agenda
• 15’ : Présentation des acteurs et genèse de la solution
• 30’ : Notions d'enrichissement sémantique
• 30’ : Présentation de la solution Luxid® for OpenText
• 30’ : Témoignage de l’OCDE
• 30’ : Questions ⁄ Réponses

• Éditeur spécialisé dans les modules
complémentaires à la suite Content Server :
• Expertise documentaire
• Forte valeur ajoutée
• Centré sur les besoins de l’utilisateur.
• Red Tree Software est distribué en France et
à l’étranger par un réseau de partenaires.

• Accélérateur de Transformation Numérique Camoai propose à ses
clients conseil opérationnel et accompagnement :
• Projets Xnet, collaboratif, socialisation
• Projets ECM
• Projets BPM
• Projets de mobilité et entreprise étendue.
• Les solutions Content Server et SharePoint sont au coeur de ces
offres, et Temis un partenaire naturel pour accompagner nos clients
dans leurs projets ECM et Big Data.

Pionnier de l’Enrichissement de Contenu depuis 2000
70
Copyright © 2013 TEMIS - All Rights Reserved - Slide 5

Références clé

Structurer
les contenus non structurés
pour mieux les gérer
et mieux les valoriser

Notions d’enrichissement sémantique

- Flux de traitement sémantique
WSeu rje. portV ar b5.2 year-old mPaanti epnretsenting an acVuteer bheair loss induScyemd bpytô cmarebamazepineV (eCrBbZe) in concentraMtioédn iocaf m8.e6n mt icrog/ml. Dosage
Identification des relations
WSuej. repoVrtr ba. 52 year-oldP mataienn ptresenting an aVceurtbee hair loss indSuycmedp tbôym cearbamazepinVee r(bCeBZ) in concentMraétidoinca omf e8n.6t microg/ml. Dosage
2 Identification des entités
1 Analyse morpho-syntaxique
We report a 52 year-old man presenting an acute hair loss induced by carbamazepine (CBZ) in concentration of 8.6 microg/ml.
EFFET SECONDAIRE
Symptôme Alopécie
Cause Carbamazepine
Dosage 8.6 mg/ml
Patient 52 year-old male
3

Quelles informations métier ?
A vous de le décider…quelques exemples
 Personnes
• Clients, Collaborateurs, Rattachement à votre annuaire
 Organisations
• Filiales, Services, Fournisseurs, Compétiteurs, Partenaires
 Références internes
• Projet, contrat, client, zone géographique, marché, etc…
 Noms de vos produits ou services
• Taxonomie produit, accessoires, options, etc…
 Terminologie et Catégories métier
• Vocabulaires techniques
• Catégories documentaires

La plate-forme logicielle Luxid

Content Enrichment Platform
Annotation
Factory
Skill Cartridge®
Library
Content
Enrichment
Studio
• Robustesse, Scalabilité, APIs, Web Services
• 20 langues
• Entités / Relations / Catégories / Thèmes …
• Thésaurii, taxonomies, règles sémantique, statistiques, apprentissage
(machine learning)

 Moteurs d’extraction spécialisés
• Focalisés sur vos “objets d’intérêt”
• Entités, Relations, Thèmes, Opinions, etc
 Modulaires & Puissants
• Combinables dans un même plan de traitement
• Large gamme de techniques d’extraction
• 20 langues
• Faciles à personnaliser avec Content Enrichment Studio
Skill Cartridges®
• Anglais
• Français
• Allemand
• Flamand
• Italien
• Espagnol
• Portugais
• Tchèque
• Russe
• Hongrois
• Polonais
• Grec
• Suédois
• Danois
• Norvégien
• Finlandais
• Chinois
• Japonais
• Coréen
• Arabe
Skill
Cartridge
1
Morpho
Syntaxique
Skill
Cartridge
2
Thesaurus
Skill
Cartridge
3
Statistique
Skill
Cartridge
n
Machine
Learning

XelDA Admin
Annotation Plan
Document
200+ formats
XML, HTML,
txt, doc, pdf, …
Web Services SOAP-REST / Modèle de données unique Ressources d’annotation
unifiées (Skill Cartridge®)
REST API
SC1 SC2 SCn
Document
Annoté
XML / JSON / RDF
Enterprise
Search
Extraction d’information robuste

AS AS AS AS AS AS AS AS
• Utilisation CPU élevée dans toutes configurations
• Déploiement en un clic dans le Cloud
• Conçu pour les Big Data (Hadoop)
Montée en charge / Cloud
Annotation
Server
Multi-core
Luxid ®
Annotation Server
(1 node multi-core)
Luxid®
Big Data
(10-100 Machines)
Traitement
Big Data
Haute
Disponibilité
Flux
Temps Réel
Luxid®
Annotation Farm
(2-10 Machines)
Annotation
Server
Multi-core
Annotation
Server
Multi-core
Annotation
Server
Multi-core
Load
Balancer

Démonstration
Luxid Web Service

Luxid for OpenText CS10 (et
Livelink 9.7…)
Pourquoi imaginer une telle solution ?

Le contexte
• Les sites ECM OpenText présentent souvent :
• Une utilisation avancée des fonctionnalités documentaires et gestion de contenus (différents
types d’espaces, métadonnées, formulaires, workflows, sécurité, types de contenus)
• Une forte volumétrie
• Un contexte international et donc des exigences en multilinguisme.
• Malgré une fonction de recherche plutôt performante, on constate que les
utilisateurs sont en fait souvent mécontents de la recherche proposée, et
critiquent :
• La pertinence des résultats
• La présentation des résultats.
• Comme il arrive souvent dans les projets ECM, des fonctionnalités intéressantes
sont peu ou pas utilisées :
• Par méconnaissance des utilisateurs et/ou du staff projet en charge de les déployer.
• Par insuffisance dans la gestion du changement.

Le contexte
• À cette situation déjà complexe viennent s’ajouter de nouvelles
contraintes :
• On ne demande plus au moteur de recherche de trouver des documents où
l’utilisateur ira puiser de l’information
• On demande au système d’extraire du sens dans un volume d’information croissant
tellement vite que l’utilisateur ne peut plus passer son temps à analyser des documents
sortis d’une liste de résultats
• On attend du système qu’il soit capable de gérer plusieurs cibles en même
temps pour nous aider dans la réflexion et la prise de décision
• Et tout cela en quelques secondes sur des volumes en très forte croissance.

La réponse
• La spécialisation sémantique du moteur Luxid de Temis va apporter
des réponses à ces exigences.
• Souvent perçue comme complexe et réservée à des spécialistes,
l’approche sémantique reste encore rare dans les entreprises du
monde industrie-commerce et services.
• Grâce aux connecteurs qui relient le moteur d’enrichissement
sémantique, il sera possible de venir compléter les solutions ECM en
place, en capitalisant les efforts déjà réalisés.

Le connecteur Luxid pour
OpenText
Fonctionnalités et démonstration

Diagramme de Flux
Luxid® pour OpenText
Cartouches sémantiques
(Skill Cartridge® )
API du Moteur
De
recherche
Index
De
de
Recherche
recherche
Search-based Applications
Recherche
Analyse
Visualisation
Facettes
Recommendations
Insertion
Indexation
des métadonnées
Extraction automatique
des métadonnées
Enrichissement des méta-données
Enrichissement
des interfaces
Luxid®
Annotation
Factory

Le Connecteur - Les fonctionnalités
• Le connecteur Luxid pour OpenText constitue la passerelle entre
Content Server et Luxid, et permet d’enrichir le contenu sémantique
des documents de manière automatique ou manuelle.
• Les documents classés dans OpenText Content Server voient leur
contenu enrichi par des métadonnées sous forme de catégories /
attributs ou de classifications.
• Le connecteur peut prendre en charge l’extraction du texte des
documents avec ou sans OCR avant leur soumission au serveur Luxid.

Le Connecteur - L’architecture
• Le connecteur Luxid pour OpenText est un middleware entre Content
Server et le serveur Luxid et se présente sous la forme d’un service
Windows.
• Le gestionnaire de messages MSMQ est utilisé pour prendre en
charge la gestion des demandes de jobs, ce qui permet d’offrir une
bonne qualité de service : les demandes d’enrichissement ne sont pas
perdues si l’un des 2 serveurs est arrêté.
• Plusieurs connecteurs peuvent être répartis sur plusieurs serveurs,
afin de répartir la charge dans le contexte de traitements importants.

Le Connecteur - Flux de données
1 : Les documents sont stockés dans Content Server
2 : Un message est envoyé au gestionnaire MSMQ pour mise en file d’attente de traitement
3 : Le connecteur prend en charge le traitement, extrait éventuellement le texte des documents
4 : Le document est envoyé au serveur Luxid pour enrichissement
5 : Le serveur Luxid renvoie les métadonnées enrichies
6 : Le connecteur met à jour les métadonnées dans Content Server sous forme de catégories / attributs ou de classifications
7 : L’enrichissement sémantique est mis à disposition auprès utilisateurs grâce à l’interface standard de Content Server ( facettes, filtres de recherche, classifications,
etc..)

Le Connecteur - Paramétrages
Le paramétrage s’effectue dans le module pour Content Server, dans une page d’administration dédiée.
On paramètre ainsi un ou plusieurs serveurs Luxid, en indiquant notamment l’URL du webservice Luxid.
Ensuite on crée un ou plusieurs processeurs d’analyse, qui permettent de définir le mapping entre les entités Luxid et les catégories / classifications OpenText.
Enfin on crée des Jobs pour l’execution automatique, ou des menus fonctions pour appeler un processeur d’analyse via l’interface utilisateur.

Le Connecteur – Interface utilisateur
L’appel à l’enrichissement sémantique peut s’effectuer manuellement via l’interface utilisateur grâce à un menu fonction disponible sur les
documents, et via un bouton « Enrich » pour le traitement des sélections multiples.

Le Connecteur – Interface utilisateur
L’appel à l’enrichissement sémantique peut s’effectuer automatiquement. Dans l’exemple ci-dessus chaque fois qu’un document sera ajouté
dans ce dossier ou un sous-dossier, il sera traité et enrichi automatiquement en utilisant le processeur d’analyse « Entities ».

PROJET
D’ENRICHISSEMENT
SÉMANTIQUE À
L’OCDE
Intégration Open Text Content Server - Luxid

Utilisation de Content Server à l’OCDE
• Système de Records Management de notre unité
Bibliothèque et Archives depuis 2009
• Catalogue de publications OCDE et de
ressources externes
• 2 500 000 documents électroniques
• Sur la période 2000-2014:
+ de 150 000 documents officiels
+ de 15 000 publications
+ de 3 000 000 de pages

Retrouver l’information dans Content Server avec
Luxid
Amélioration de la recherche standard de Content
Server par:
• Des métadonnées homogènes
• Un identifiant unique pour chaque concept
permettant:
de chercher dans toutes les langues
simultanément
de retrouver un concept malgré l’utilisation
de synonymes et l’évolution du langage

Le connecteur développé par Red Tree Software
• Définition de lots de documents à enrichir grâce
à des LiveReport (requêtes sql) avec un certain
plan d’annotation
• Processus automatique et transparent
• Résultats stockés en XML pour une recherche
par URI
• Amélioration de la recherche, résultats plus
pertinents, plus complets

Mise en oeuvre – Phase I
Phase I Phase II Phase III
Fin 2013 Fin 2014

Mise en oeuvre – Phase II
Fin 2013 Fin 2014

Mise en oeuvre – Phase III
Fin 2013 Fin 2014

Développement
des cartouches
(AWB)
Gestion des
vocabulaires
LUXID
Content Server
Architecture
Enrichissement des vocabulaires Enrichissement de Content Server

Questions - Contacts
 Par mail :
 jm.touzard@camoai.com
 philippe.deltenre@temis.com
 pnocera@redtreesoftware.com
 Par téléphone : +33 686 841 233
 Linkedin : fr.linkedin.com/in/jmtouzard/
 Viadeo : http://www.viadeo.com/fr/profile/jean-marc.touzard

2014 11-18-luxid-for-open text-pn

Recommandé

Recommandé

Contenu connexe

En vedette

En vedette (17)

Similaire à 2014 11-18-luxid-for-open text-pn

Similaire à 2014 11-18-luxid-for-open text-pn (20)

Plus de Jean-Marc Touzard

Plus de Jean-Marc Touzard (7)

2014 11-18-luxid-for-open text-pn

Notes de l'éditeur