Spatial Data Integrator présentation de l'outil  et cas d'utilisation Journées Nationales du Réseau Géomatique - 02/10/09 mathieu.rajerison Chargé de mission SIG
Sommaire Présentation de l'outil Présentation générale
Place au sein d'une infrastructure de données
Les composantes de l'outil Démonstration : jointure et gestion des rejets Paramétrage des accès et création des schémas
Mise en place des composants dans l'espace de travail graphique
Paramétrage du composant de jointure tMap
Exécution du job Cas d'utilisation Agrégation de données en tâche planifiée
Fusion de couches
Automatisation de la vérification de la qualité de données géographiques
Migration de données vers PostgreSQL/PostGIS
Autres applications Conclusion Quelques autres fonctionnalités
Liens
1- Présentation de l'outil
Présentation générale  Outil ETL (Extract, Transform and Load)
Solution libre créée par CampToCamp
Basée sur l'outil Talend Open Studio
Une couche spatiale avec des composants d'accès, de traitement de données spatialisées
Basé sur Java: environnement Eclipse, éléments de UDig, librairies SIG Java GeoTools, Java Topology Suite, sextante
Place au sein d'une  infrastructure de données
Les composantes de l'outil la fenêtre carto Cette fenêtre permet de visualiser des données géographiques. Elle a son utilité lorsqu'il s'agit de contrôler les résultats de traitements. Elle est issue du logiciel Udig.
Les composantes de l'outil Le business modeler Cet espace permet de modéliser les processus métiers en cours au sein de vos jobs. Il permet à des acteurs fonctionnels, de prendre part à la conception des flux de données et de suivre de près l'avancement des développements, et ce, quel que soit leur profil. La modélisation au sein de cette fenêtre n'a aucune liaison avec l'exécution de vos jobs.
Les composantes de l'outil L'onglet metada de repository Le repository contient, entre autres, la partie metadata. La partie metadata du repository est un lieu de stockage de l'accès aux sources de données. On peut d'ailleurs y voir les différents types de sources de données disponibles. A noter que le paramétrage de l'accès aux données géographiques ne se fait pas via la partie metadata (cf démonstration).
Les composantes de l'outil L'espace de travail graphique La fenêtre principale est l'espace de conception de vos jobs. On y dépose et lie les différents composants. Il existe plusieurs types de relations entre composants
Les composantes de l'outil La palette de composants C'est dans la palette que l'on pioche les composants qui nous intéressent. Spatial Data integrator y ajoute la partie  geo La palette est extensible grâce aux contributions des développeurs de Talend. Il est même possible de développer ses composants.
Les composantes de l'outil l'onglet de configuration La fenêtre du bas permet de configurer le comportement de chaque composant. Elle permet également de paramétrer l'exécution du job.
2- Démonstration gestion des rejets lors d'une jointure
Paramétrage des accès et création des schémas La première étape consiste à paramétrer l'accès aux sources de données.
La création des relations On dispose et connecte les composants au sein de l'espace de travail graphique
Mise en place des composants dans l'espace de travail graphique On paramètre la jointure sur le nom de la commune. Deux flux de sortie sont générés: un relatif aux résultats de la jointure (inner join) et un relatif aux rejets (outer join)
L'exécution du job Le job peut maintenant être exécuté. Il peut l'être selon deux modes. -le mode statististics permettant d'afficher les statistiques concernant le nombre d'enregistrements de chaque flux -le mode traces qui affiche le contenu des enregistrements Chacun de ces modes est exécuté en mode streaming, en continu
Aller plus loin:  utilisation des ressemblances entre deux flux Ici, nous utilisons un composant de logique floue appelé tFuzzyMatch qui permet d'établir des correspondances entre les entrées de deux flux en fonction de leur ressemblance.
3- Cas d'utilisation
L'agrégation de données en tâche planifiée Un portail web géographique de base communale demande de joindre automatiquement et périodiquement les données d'une base de données locale Access alimentée par des utilisateurs et les données géographiques de la BDCARTO Base  Access SHP BDCARTO Base  Sybase XML ... Serveur  carto WMS Partie cliente SCP SHP

[MAP-MEEDM] Présentation Spatial Data Integrator

  • 1.
    Spatial Data Integratorprésentation de l'outil et cas d'utilisation Journées Nationales du Réseau Géomatique - 02/10/09 mathieu.rajerison Chargé de mission SIG
  • 2.
    Sommaire Présentation del'outil Présentation générale
  • 3.
    Place au seind'une infrastructure de données
  • 4.
    Les composantes del'outil Démonstration : jointure et gestion des rejets Paramétrage des accès et création des schémas
  • 5.
    Mise en placedes composants dans l'espace de travail graphique
  • 6.
    Paramétrage du composantde jointure tMap
  • 7.
    Exécution du jobCas d'utilisation Agrégation de données en tâche planifiée
  • 8.
  • 9.
    Automatisation de lavérification de la qualité de données géographiques
  • 10.
    Migration de donnéesvers PostgreSQL/PostGIS
  • 11.
    Autres applications ConclusionQuelques autres fonctionnalités
  • 12.
  • 13.
  • 14.
    Présentation générale Outil ETL (Extract, Transform and Load)
  • 15.
    Solution libre crééepar CampToCamp
  • 16.
    Basée sur l'outilTalend Open Studio
  • 17.
    Une couche spatialeavec des composants d'accès, de traitement de données spatialisées
  • 18.
    Basé sur Java:environnement Eclipse, éléments de UDig, librairies SIG Java GeoTools, Java Topology Suite, sextante
  • 19.
    Place au seind'une infrastructure de données
  • 20.
    Les composantes del'outil la fenêtre carto Cette fenêtre permet de visualiser des données géographiques. Elle a son utilité lorsqu'il s'agit de contrôler les résultats de traitements. Elle est issue du logiciel Udig.
  • 21.
    Les composantes del'outil Le business modeler Cet espace permet de modéliser les processus métiers en cours au sein de vos jobs. Il permet à des acteurs fonctionnels, de prendre part à la conception des flux de données et de suivre de près l'avancement des développements, et ce, quel que soit leur profil. La modélisation au sein de cette fenêtre n'a aucune liaison avec l'exécution de vos jobs.
  • 22.
    Les composantes del'outil L'onglet metada de repository Le repository contient, entre autres, la partie metadata. La partie metadata du repository est un lieu de stockage de l'accès aux sources de données. On peut d'ailleurs y voir les différents types de sources de données disponibles. A noter que le paramétrage de l'accès aux données géographiques ne se fait pas via la partie metadata (cf démonstration).
  • 23.
    Les composantes del'outil L'espace de travail graphique La fenêtre principale est l'espace de conception de vos jobs. On y dépose et lie les différents composants. Il existe plusieurs types de relations entre composants
  • 24.
    Les composantes del'outil La palette de composants C'est dans la palette que l'on pioche les composants qui nous intéressent. Spatial Data integrator y ajoute la partie geo La palette est extensible grâce aux contributions des développeurs de Talend. Il est même possible de développer ses composants.
  • 25.
    Les composantes del'outil l'onglet de configuration La fenêtre du bas permet de configurer le comportement de chaque composant. Elle permet également de paramétrer l'exécution du job.
  • 26.
    2- Démonstration gestiondes rejets lors d'une jointure
  • 27.
    Paramétrage des accèset création des schémas La première étape consiste à paramétrer l'accès aux sources de données.
  • 28.
    La création desrelations On dispose et connecte les composants au sein de l'espace de travail graphique
  • 29.
    Mise en placedes composants dans l'espace de travail graphique On paramètre la jointure sur le nom de la commune. Deux flux de sortie sont générés: un relatif aux résultats de la jointure (inner join) et un relatif aux rejets (outer join)
  • 30.
    L'exécution du jobLe job peut maintenant être exécuté. Il peut l'être selon deux modes. -le mode statististics permettant d'afficher les statistiques concernant le nombre d'enregistrements de chaque flux -le mode traces qui affiche le contenu des enregistrements Chacun de ces modes est exécuté en mode streaming, en continu
  • 31.
    Aller plus loin: utilisation des ressemblances entre deux flux Ici, nous utilisons un composant de logique floue appelé tFuzzyMatch qui permet d'établir des correspondances entre les entrées de deux flux en fonction de leur ressemblance.
  • 32.
  • 33.
    L'agrégation de donnéesen tâche planifiée Un portail web géographique de base communale demande de joindre automatiquement et périodiquement les données d'une base de données locale Access alimentée par des utilisateurs et les données géographiques de la BDCARTO Base Access SHP BDCARTO Base Sybase XML ... Serveur carto WMS Partie cliente SCP SHP