Antidot Information Factory AIF - est une solution logicielle qui répond aux enjeux de crée un véritable « espace informationnel enrichi » au service des utilisateurs et des applications.
Comment sélectionner, qualifier puis exploiter les données ouvertes
Antidot Information Factory - AIF
1. www.antidot.net
Êtes-vous sûr d’exploiter Pour mettre en synergie de façon agile vos différentes sources, il convient
pleinement le potentiel de rendre vos données interopérables. Sans modifier l’existant, un outil
dédié doit agréger, normaliser, articuler et exposer les données de ces
informationnel de votre
sources. Dès lors, pour chaque nouveau besoin, les données seront déjà
organisation ?
disponibles, prêtes à être assemblées selon votre objectif.
• Vos utilisateurs disposent de nombreuses
Antidot Information Factory (AIF) est une solution logicielle conçue
données et applications. Pourtant ils se
plaignent de leur difficulté à trouver la spécialement pour répondre à ces enjeux de valorisation et d’exploitation des
bonne information. données non structurées ou semi-structurées. Antidot Information Factory est
une « machine à produire de l’information » qui industrialise le traitement des
• Pour satisfaire rapidement les demandes données existantes et la mise à disposition automatisée d’informations riches.
fonctionnelles, vous devez créer des
applications métier agrégeant des données Antidot Information Factory permet de :
éparses dans et hors de votre entreprise.
• capter lesàdonnées contenues dans les différents silos internes ou
• L’évolution de votre écosystème nécessite externes votre entreprise ;
de partager avec vos partenaires via
Internet des données choisies (catalogues,
• transformer ces données : nettoyage, normalisation, mise en format cible ;
fiches produit, etc.). • les enrichirautomatiquement etselon des plans de classement, en les métier ;
annotant
en les catégorisant
en les alignant avec des référentiels
• Le schéma directeur du système • relier vos données afin de les votre métier ; et faire émerger
mettre en synergie
d’information inclut une phase l’information pertinente pour
d’urbanisation des données afin de
repousser les limites du SOA qui n’autorise • publier cette information selonvotre protocoles standardisésà vosde
l’exposer aux applications de
des
système d’information,
afin
que les échanges applicatifs.
utilisateurs ou à vos partenaires.
Aujourd’hui les données de votre organisation
AIF crée un véritable « espace informationnel enrichi » au service de vos
sont enfermées dans des applications.
utilisateurs et de vos applications.
E-mail, CRM, ERP, GED-CMS, bases
relationnelles, serveurs de fichiers, sites
web, intranet… constituent autant de silos
par essence hétérogènes qui imposent
Une solution souple et modulaire
des structures et des méthodes d’accès AIF s’utilise comme un jeu de
spécifiques. construction : pour créer des
chaînes de traitement, il suffit
d’assembler et de paramétrer
des modules prêts à l’emploi :
• modules de captation qui se connectent aux sources et récupèrent les
données ciblées ;
• modules de normalisation et de nettoyage des données ;
• modules d’enrichissement pour la classification, l’annotation et la mise
en relation.
Antidot Information Factory permet de créer des chaînes de traitement
faciles à maintenir : AIF propose un catalogue de plus de 50 modules stan-
dard. C’est également une plateforme ouverte et grâce à des interfaces
accessibles vous pouvez rapidement développer vos propres modules pour
réaliser des traitements spécifiques.
2. Antidot Information Factory En bout de chaîne, les
données enrichies ou
est une solution logicielle créées peuvent être
exposées / publiées de
industrielle et puissante plusieurs façons selon les
besoins :
qui repose intégralement sur
des standards récents et • génération de fichiers ad hoc ;
• injection dans une base relationnelle ;
plébiscités :
• injection dans un entrepôt RDF accessible via web service (SPARQL) ;
technologies XML (XSD, XSL, XPath,
• exposition à travers aux contenus. Antidot Content Repository qui fournit
un service d’accès
le composant
XQuery) ; web services pour les
échanges ; technologies du web Le moteur de recherche AFS peut aussi se connecter en sortie d’AIF,
sémantique (RDF, OWL, SPARQL) pour pour offrir un service de
recherche performant et
la modélisation et le traitement.
riche sur l’ensemble des
informations.
Technologie
Antidot Information Factory est architecturé autour de 3 composants :
• Un framework et quiet Python) fonctions essentiellesdéveloppés tous les modules
de traitement
(C++
fournit les
à partir duquel sont
: récupération et transmission
des données à traiter, gestion des erreurs, reporting, accès de haut niveau aux
documents sans avoir à se soucier de l’implémentation du stockage.
• L’ordonnanceur est le chef d’orchestre : il construit dynamiquement les chaînes de
traitements déclarées, lance les instances de modules, pilote l’avancement des
documents dans la chaîne. Il est interconnecté avec le back-office afin de fournir
en temps réel des indicateurs sur les traitements en cours.
• Le back-office permet d’interagir avec AIF pour démarrer, programmer, arrêter et
suivre les chaînes de traitement.
Modélisation des unités documentaires
Une ressource documentaire est dans la plupart des cas composée de plusieurs éléments :
• Un « fichier bureautiqueetest une unité documentaire constituée du fichier lui-même, de ses droits d’accès et aussi de ses
métadonnées : serveur
»
répertoire de stockage, propriétaire, auteur, date de création…
• Le documentI like » de Facebookpageexemple), les métadonnées extraites des balisescommentaires et les informations des page.
sociaux (le «
représentant une
par
Web peut comporter le code source HTML, les
RDFa, ou encore une vignette de la
réseaux
La richesse du corpus et des documents ne s’arrête pas là :
• Les modules de traitement d’AIF génèrentdes référentiels,supplémentaires qui complètent le document initial : sujets extraits, entités
nommées, annotations sémantiques vers
des données
liens vers des documents similaires…
• Chaque document source peut exister en plusieurs versions et il est nécessaire de regrouper ces versions dans la même unité
documentaire.
• De nouvelles unités documentaires peuvent être créées dynamiquement à partir de données source.
Toutes ces problématiques étaient jusqu’à présent adressées au cas par cas avec des développements spécifiques, ce qui crée un risque projet
fort et génère des coûts de maintenance élevés. Antidot Information Factory apporte une réponse opérationnelle et des technologies éprouvées
pour résoudre de façon simple et puissante l’ensemble de ces enjeux sur la structuration et la mise à disposition des unités documentaires.
3. En effet, Antidot Information Factory ne se contente pas de travailler sur des
fichiers. Chaque document est un objet composite, constitué de plusieurs
couches (layers) qui représentent les différents aspects de ce document :
contenu, méta-données, vignette, signature sémantique…
De nouvelles couches peuvent être créées dynamiquement par des modules
réalisant des traitements spécifiques (ex.: extraction des entités nommées du
document).
Chaque couche intègre un système de gestion des révisions si bien qu’une
même vue du document peut exister en plusieurs versions, sans avoir à dupliquer
le document.
La création, la lecture, la suppression des unités documentaires et de couches ou de
versions sont des opérations rendues très simples grâce à des méthodes de haut niveau
fournies par le framework AIF qui permettent de masquer la complexité technique et de
se concentrer sur les besoins fonctionnels.
La complexité du stockage physique est prise en charge de façon centralisée,
garantissant des performances et une scalabilité optimales avec une administration
simplifiée.
Intégration à votre environnement
Conçue pour être exploité dans les environnements d’entreprise les plus exigeants en matière de sécurité, de performance et de
disponibilité, Antidot Information Factory intègre un ensemble de mécanismes à même de répondre à des contraintes avancées de
protection des données, de sécurité applicative et de montée en charge.
Antidot Information Factory propose en standard une • Filtres de traitement pour manipuler les données :
bibliothèque de plus de 50 modules prêts à l’emploi, pour créer
les chaînes de captation et de traitement : » gestion des archives pour la réception des données
groupées (zip, tar…)
• Connecteurs pour capter des données en mode pull – AIF » manipulation des données au format XML et des
va chercher les données – ou en mode push – les données
données structurées : validation, transformation, fusion,
sont envoyées à AIF – pour des traitements synchrones ou
découpage, dédoublonnage…
asynchrones.
Sont disponibles : crawler web (HTTP, HTTPS, RSS et Atom), » normalisation de champs : dates, noms, codes…
accès aux bases de données (Oracle, SQLServer, Sybase,
MySQL, PostgreSL…), annuaires (LDAP, AD), serveurs de
» alignement sur des référentiels métier
fichiers, GED (par CMIS), solutions de publication Web (CMS), » classification automatique
entrepôts documentaires (OAI)…
» connexion à des produits de text mining tiers (Arisem,
Gate, Temis...)
» traitements linguistiques d’extraction de concepts ou
de mise en relation des documents
4. Administration simple –
Supervision en temps réel
Antidot Information Factory comprend une
console d’administration qui facilite son
utilisation : suivi du déroulement des chaînes de
traitement, contrôle de leur bonne exécution et
diagnostic d’éventuelles anomalies affectant
une source de données.
Une vue synthétique résume la situation des
flux de données en indiquant, pour chacun,
le nombre de documents traités avec succès
ou en échec, la vitesse moyenne, le volume
Exemple d’application : Linked Data – Open data
de données manipulées ainsi que la charge
système du serveur. Le Linked Data (web de données) décrit une méthode de publication des
données structurées de telle façon qu’elles puissent être liées entre elles et
ainsi devenir plus utiles. A l’instar du web qui relie des pages, le Linked Data
permet de lier des données au niveau le plus fin : ces liens sont comme des
jointures dans les bases relationnelles, mais ici à l’échelle du web qui devient
alors une immense base de données distribuée.
Des vues détaillées des traitements appliqués Le web de données utilise les normes du web sémantique qui ont été
à chaque flux montrent les résultats de l’action développées par le W3C depuis plus de 10 ans : modélisation par OWL,
de chaque filtre et la progression en temps réel représentation des données en RDF, interrogation en SPARQL, échanges de
des documents dans la chaîne de traitement. règles en RIF.
Antidot Information Factory intègre ces technologies de façon native ce qui
en fait l’outil idéal pour tout projet d’exposition et de partage des données,
que ce soit de façon publique sur le web, comme de façon privée au sein
de l’entreprise et avec ses partenaires. AIF permet en effet de sélectionner
les données à publier au sein des différentes sources, de les normaliser et
de les unifier, puis de les exposer dans un format adapté. Ainsi, plus besoin
de définir des flux et des API spécifiques, ni de concevoir des mécanismes
complexes à base de web services ad hoc ou d’échanges de fichiers
Contact difficiles à suivre et à maintenir, car AIF intègre l’ensemble des composants
Direction commerciale nécessaires à l’exposition des données.
Tel : +33(0) 4 72 76 03 80 De la même façon, AIF permet de récupérer des données externes et de
Fax : +33(0) 4 72 76 38 02 les intégrer dans le système d’information pour l’enrichir et créer une valeur
supplémentaire pour les utilisateurs. Par exemple, quelle puissance peut
LYON apporter au système d’information l’ajout de données venant de Wikipédia
58 avenue Debourg 69007 Lyon ou des statistiques de l’INSEE ? Le distributeur X vend N imperméables sur
Angoulême. Mais combien y a-t-il d’habitants à Angoulême ? Combien
PARIS
de jours de pluie par an ? AIF permet d’intégrer aux applications toutes les
22 rue du Sergent Bauchat 75012 Paris
données nécessaires à la prise de décision.
L’Open Data (littéralement Données Ouvertes) est un mouvement qui vise
Siège Social à rendre accessibles les données sans mécanisme de sécurité ni de droit
afin de promouvoir leur réutilisation et d’encourager le développement
29 avenue Jean Monnet 13410 Lambesc d’applications nouvelles. De par ses objectifs, l’Open Data a rencontré et
Tel : +33 (0) 4 42 63 67 90 adopté les principes de Linked Data. À cet égard, AIF s’impose comme la
Fax : +33 (0) 4 42 28 61 03 solution idéale pour les projets de Données Ouvertes.
www.antidot.net info@antidot.net