Les interfaces et technologies pour découvrir et accéder aux jeux de données et services Web n’ont pas beaucoup changé depuis les premières implantations d’infrastructures de données géospatiales. L’utilisateur entre des critères qui correspondent à des champs de métadonnées conservés par le diffuseur, lance la requête et reçoit la liste des résultats qui respectent les coordonnées, chaines de caractères et/ou valeurs numériques entrées. Ceci cause plusieurs problèmes, par exemple : l’utilisateur n’a aucune idée du nombre résultats ni de la diversité des réponses qu’il obtiendra avant d’avoir lancé sa requête; ces réponses ne sont souvent pas triées par ordre d’importance; lorsque l’utilisateur utilise des critères de contenu, il doit utiliser exactement les mêmes concepts, vocabulaires et langues qu’utilisés par chaque diffuseur lors de la saisie de ces métadonnées sans quoi il n’obtiendra pas les résultats pertinents; lorsque l’utilisateur utilise un nom de lieu pour identifier sa zone d’intérêt, celle-ci est souvent mal interprétée. Le bût du projet est de mettre au point un système de recherche interactif et ontologique pour la recherche de services et de jeux de données géospatiaux. Ce système utilise un service ontologique pour décrire les caractéristiques de contenu et de localisation et conserve les métadonnées dans un cube multidimensionnel (OLAP). Il aura une capacité de raisonnement sémantique et sera développé dans un environnement conforme aux normes d’interopérabilité. La conférence présentera des enjeux du projet et les résultats obtenus. Le service a été développé avec la Défense nationale et le ministère des Ressources naturelles et de la Faune du Québec. Le programme GéoConnexions a contribué financièrement au projet.
4. Contexte- Projet GéoConnexions
• Partenaires:
– Ministère des Ressources naturelles et de la Faune du
Québec, Secteur du territoire
– Ministère des Ressources naturelles et de la Faune du
Québec, Secteur des mines
– Défense nationale du Canada – RDDC-V
– Ressources naturelles Canada, GéoConnexions
• Développeurs
– DMR
– Université Laval – Centre de recherche en géomatique
5. Contexte
• On veut découvrir et accéder aux jeux de
données géospatiales (et aux services
géospatiaux)
– Spécifier les critères de recherche
– Découvrir les données pertinentes
6. Problématique
• Aucune idée du nombre de résultats
• Les résultats ne sont pas triés par ordre
d’importance
• On doit utiliser un vocabulaire spécifique
• On doit chercher dans la langue des données
• Certains termes ont une portée géographique
7. Buts
• Mettre au point un système de recherche
interactif et ontologique pour la recherche de
services et de jeux de données géospatiales.
– Capacité de raisonnement sémantique
– Environnement conforme aux normes OGC et ISO
8. Objectifs
• Réviser les besoins reliés à la découverte des données
dans un concept d’utilisation d’ontologies, de services Web
et de cube multidimensionnel spatial
• Identifier les fonctions et les opérations de services pour
répondre à ces besoins
• Définir les protocoles Web pour les services
• Développer les fonctions
• Valider avec les partenaires
• Intégrer au portail des partenaires.
10. Besoins fonctionnels
• Identifier l’information à l’aide des concepts métiers:
– Identification par concepts
– Indépendance de la langue.
• Naviguer selon la modélisation du domaine:
– Structuration des concepts
– Permettre de comprendre, assimiler et exploiter la modélisation
• Examiner les données de manière plus dynamique:
– Naviguer selon la sémantique.
• Assister l’utilisateur dans l’expression de ses besoins:
– Choisir les bons éléments
– Exploiter les connaissances du domaine et leur organisation.
• Présenter les résultats:
– Afficher selon l’ordre d’importance des résultats.
• Avoir une vision globale:
– Vision globale et synthétique de l’information.
11. Besoins non-fonctionnels
Volumes Plus de 1,000,000 d’enregistrements
Chargements Chargement générique, chaque partenaire a son
format de métadonnées respectif
Mise-à-jour régulière
Performance Très rapide dû à la technologie OLAP
Sécurité Usagers authentifiés
Pas de restriction d’accès pour les données
individuelles
Disponibilité 7 jours par semaine, 20 heures par jour
4 heures de nuit réservées aux mise-à-jour
Flexibilité Doit accommoder les différents partenaires
Interopérabilité Fonctions implantées comme services Web
Bases de données Interface JDBC
Environnement de Open Source (Java)
développement
17. Enjeux – Portée des ontologies
• Restreint à l’information géospatiale
• Pas gérer toute la connaissance d’un domaine
• Offrir les opérations les plus importantes nécessaires pour répondre aux
besoins exprimés
• Information documentée par des métadonnées normées
• La langue des informations est connue
• Limitée aux:
– Termes
– Descriptions
– Traductions
– Relations
• Termes apparentés
• Synonymes
• Termes englobés (hiérarchie ou classes et sous-classes)
18. Enjeux – Accès aux ontologies
• Chacun décrit sa propre ontologie
• Modèle commun de données ontologiques
• Serveur d’ontologie centralisé
• Accessible en utilisant des services Web.
19. Enjeux – Inconsistances et incohérences
• Ontologies limitées aux domaines d’intérêt
• Ontologies ne sont pas volumineuses
• Risque d’incohérences est minime
• Élimination des références circulaires.
22. Enjeux – Services d’ontologie
• Récupérer les services OGM3:
– GetCapabilities – retourne les capacités du service
– GetOntology – retourne l'ontologie
– GetDefinition- retourne la définition d'un terme
– GetPrefered – retourne le terme de préférence
– GetSimilar – retourne les termes similaires
– GetTranslation – retourne la traduction d'un terme
– GetGraph – retourne le graphe d'un terme dans
l'ontologie
23. Enjeux – Contenu des ontologies
• Canadian Core Subjects Thesaurus – CCST (Thesaurus des sujets
de base du gouvernement du Canada – TSB)
• OpenDirectory
• Getty Thesaurus of Geographical Names (TGN)
• Library of Congres Subject Headings
• Center for International Earth Science Information Network
(CIESIN)
• Global Change Master Directory (GCMD)
• Dictionnaire des entités géographiques du Québec
• Constitution à partir des métadonnées
24. Enjeux – Dimension du cube de données
• Dimensions sont les critères de recherche
• Sept plus ou moins deux
• Différentes représentations
– Étoile
– Flocon
– Parent-enfant
• Différents types
– Numérique
– Date
– Spatial
– Nominal
25. Enjeux – Conversion générique
• Critères de recherche paramétrisés
• Utilisés lors de la création du cube
• Utilisés lors de la recherche
• Dimensions pas nécessairement dans la métadonnée
• Interprétation humaine requise dans la conception d’un
cube
• Besoin de spécifier les niveaux d’agrégation
• Définir une structure fixe avec dimensions typiques
• Choisir les critères parmi les dimensions potentielles
26. Enjeux – Intégration des aspects spatiaux
• Structure matricielle
• Territoire découpé en petites régions régulières
• Forment la cellule de base pour l’indexation
• Sélection d’un groupe de cellules détermine le
nombre de documents
27. Enjeux – Intégration des ontologies
• Trois possibilités:
– Au moment de la constitution du cube
• Permet la représentation généralisée (termes englobant) ou
étendue (termes englobés)
• Réponse instantanée
• Cube plus volumineux
– Au moment de la recherche
• Choisir l’ontologie lors de la recherche
• Volume du cube limité aux métadonnées
• Réponse moins rapide
– Mixte:
• Plus grande latitude de recherche
28. Enjeux – Ordre d’importance des résultats
• Priorisation de l’affichage des résultats en
fonction:
– Du nombre de critères respectés
– Du type et pourcentage de relation sémantique
respectés
– De l’utilisation de critères de popularité (ventes)
29. Enjeux - Performance
• Création du cube
• Requêtes de découverte
• Services d’ontologie
• Priorisation des résultats
31. Enjeux - Normes
– ISO 639 pour la définition des langages et le codage en
UTF8 pour les caractères.
– Thésaurus monolingues (ISO 2788) et multilingues
(ISO 5964) pour la codification des liens sémantiques.
– Les normes W3C :
• DAML-OIL et OWL, pour décrire les ontologies
• SVG, pour afficher les liens graphiques entre concepts
d’ontologies
• XML, pour coder les protocoles d’échange inter-service
• WSDL pour décrire les services
• SOAP pour les protocoles d’accès
• UDDI pour publiciser les services
32. Enjeux - Normes
– Les normes géomatiques:
• le profil nord américain des métadonnées d’ISO 19115 pour la
source des métadonnées à extraire par l’ETL
• ISO 19115 et CSDGM de FGDC pour la définition des types de
mots-clés de contenu à conserver dans les ontologies (thème,
entité, attribut, catégories, etc.)
• ISO 19110 pour définir les critères de contenu
• ISO 19112 pour définir les critères géographiques
• WMS pour l’identification des critères d’étendues géographiques
lors de recherches et d’affichage géographique de résultats
• CAT 2.0 pour l’interface normalisée au cube de données
33. Protocoles
• Protocoles d’accès aux services d’ontologie
– Basés sur les protocoles HTTP et XML
– Requête de description des capacités (GetCapabilities)
• Opérations supportées
• Domaines de l’ontologie
• Langages
• Données géographiques
– Requête pour obtenir les ontologies
– Requête pour obtenir:
• Terme préféré
• Termes similaires
• Traduction
• Définition
35. Environnement technologique - Services
• Intégrés à l'environnement technologique du
client.
• Facilité par une architecture orientée services.
– Services autonomes
– Accessibles via un protocole Web normalisé basé sur
XML et décrit avec la norme WSDL.
– Inscrits dans un registre UDDI.
– Adaptation du progiciel Protégé-2000
36. Environnement technologique
• Open Source, Développement en Java
• Permet de récupérer des composantes existantes (API
Java de Protégé 2000)
• Connexion au SGBD à travers une couche indépendante
JDBC
– MS SQL Server
– Oracle
• Affichage géographique OpenLayers
• Affichage graphique JFreeChart
• Site Web permettant de démontrer la technologie
38. Conclusion
• L’architecture s’est terminée en février 2009
• Le module d’extraction et de constitution du cube est
terminé
• Le module sémantique est en tests, nous avons encore 2
enjeux: la performance et le contenu
• Le module de recherche est en développement
• Le développement du module de priorisation n’a pas
débuté
• Fin prévue février 2010