Colloque en l’honneur de Gauthier SALLET
        Atelier sur la gestion de données épidémiologiques
                     UGB, 6 et 7 décembre 2012




L INKED O PEN D ATA
                  POUR LA CONSOMMATION
DES INFORMATIONS ISSUES DE LA
COLLECTE DE DONNÉES ÉPIDÉMIOLOGIQUES


                              1
2        C ANEVAS DE LA PRÉSENTATION


    1.   Cycle des données dans les systèmes de collectes
         de données,

    2.   Enjeux de la publication des données,

    3.   C’est quoi l’open data,

    4.   Cas d’utilisation de l’open data pour le médical,

    5.   5 étapes pour publier les données liées
3
          S YSTÈME DE COLLECTE DE
        DONNÉES ÉPIDÉMIOLOGIQUES


       Volume énorme de données collectées,

       Données analysées pour détection d’épidémies,

       Actions entreprises par des décideurs,

       Données archivées,
4                          C YCLE        DE LA DONNÉE



                                Collecte de données




                                                       Rapport sur les données

    Réactions et actions




                                  Analyse de données
5       E NJEUX DE PUBLICATION DE DONNÉES



       Enjeu démocratique:
           La transparence,

       Enjeu socio-économique:
           Susciter la création de nouveaux secteurs
            économiques

       Enjeu universitaire:
           Amélioration de la détection des épidémies
6        L’ OPEN D ATA : U N OBJECTIF DOUBLE



       Rendre les données accessibles, exploitables et
        rentables par la majorité,

       Offrir la possibilité de croiser, traiter et analyser
        des données de sources différentes.
7   W EB   DES DOCUMENTS
8           WEB DES DOCUMENTS : CHALLENGES



       Accès:
            Liens non typés,

            Données faiblement structurées,

            Données déconnectées,

       Intégration
            Présenter les symptômes des maladies ayant fait l’objet
             d’une épidémie l’année dernière.

       Interrogation
            Quelles sont les régions ayant été victimes des mêmes
             épidémies l’années dernière?
9             API S W EB          ET MASHUPS


     Mashup                  Limites:
      Up
                                 APIs fournissent des
                                  interfaces propriétaires,
    API API   API   API
    WEB Web   Web   Web          Les mashups sont basées
                                  sur un ensemble de
                                  données fixes,

                                 Impossible de mettre des
     A   B     C     D            liens entre les données,
10           WEB               DE DONNÉES LIÉES


          Utiliser les technologies du web sémantique :
               Publier les données structurées sur le WEB,

               Lier les données d’une source de données à une
                autre

     RDF              RDF               RDF               RDF               RDF

     RDF              RDF               RDF               RDF               RDF

           Lien RDF         Liens RDF         Liens RDF         Liens RDF



      A                B                C                  D                 E
11            L INKED D ATA C ’ EST...

        ...Un moyen de publier des données sur le Web
         qui:
            Encourage la réutilisation,

            Réduit la redondance,

            Maximise la connectivité des données,

            Permet d’ajouter la valeur aux données par le
             réseau de connexion,
12
     I NGRÉDIENTS CLÉS DU LINKED
                            D ATA

        RDF (Resource description Framework) pour:
            Identifier les objets (URIs),

            Connecter les informations (relations),

        Ontologies (Vocabulaire) pour:
            Fournir une compréhension partagée du domaine,

            Organiser la connaissance de manière
             compréhensible par la machine,

            Fournir une compréhension exploitable des
             données,
13   E XEMPLE 1 : B ANQUE   MONDIALE
14   E XEMPLE 2 : OMS
15   E XEMPLE 3: PNUD
E XEMPLE 4 : CDC (C ENTERS FOR
16
     D ISEASE C ONTROL AND P REVENTION )
17
     E XEMPLE U TILISATION O PEN
                 D ATA : G OOGLE
18
     E XEMPLE U TILISATION O PEN
                 D ATA : G OOGLE
19
          5 ÉTAPES POUR PUBLIER LES
                                 DONNÉES LIÉES


     1.    Comprendre les principes,

     2.    Comprendre vos données,

     3.    Choisir les URIs pour vos éléments de donnée,

     4.    Lier aux autres sources de données,

     5.    Publier vos données
20
                         1- C OMPRENDRE LES
                                                   PRINCIPES

        Utiliser les URIs pour identifier vos éléments:
             Tout élément, pas seulement les documents,

        Utiliser les URIs HTTP:
             Noms globallement uniques,

             Permet l’accès par ces noms,

        Fournir une information utile en RDF
             Lorsque quelque accède à une URI,

        Inclure des liens RDF à d’autres URIs
             Pour permettre la découverte de l’information,
21
                         2- C OMPRENDRE VOS
                                             DONNÉES


        Quelles sont les informations clés présentes dans vos
         données:
            Maladies,
            Médicaments,
            Symptômes,
            Villes, …
        Quelles ontologies peuvent être réutilisées?
            Geo,
            FOAF,
22
         3- C HOISIR LES URI S POUR
             VOS ÉLÉMENTS DE DONNÉE


        Utiliser les espaces de nommage disjoints de
         ceux existant,

        Abstraire des détails d’implémentation
             http://dbpedia.org/resource/Berlin

             http://www4.wiwiss.fu-
              berlin.de:2020/demos/dbpedia/cgibin/resources.
              php?id=Berlin
23
         3- C HOISIR LES URI S POUR
             VOS ÉLÉMENTS DE DONNÉE


        Utiliser les slash
             http://mydomain.com/foaf.rdf#me

             http://mydomain.com/id/me

        Utiliser des patterns
             http://dbpedia.org/resource/New_York_City

             http://dbpedia.org/data/New_York_City

             http://dbpedia.org/page/New_York_City
24
      4- L IER AUX AUTRES
     SOURCES DE DONNÉES
25
                      4- L IER AUX AUTRES
                    SOURCES DE DONNÉES


        Utiliser des prédicats de liaison:
            owl:sameAs

            foaf:homepage, foaf:topic, foaf:based_near

            rdfs:seeAlso
26       5- P UBLIER            VOS DONNÉES


        Mettre en place votre infrastructure,

        Tester la négotiation de contenu,
27       5- P UBLIER             VOS DONNÉES


        Utiliser des outils:
            Joseki est un moteur HTTP qui supporte SPARQL,

            Virtuoso Universal Server fournit un serveur
             SPARQL et un stockage RDF,

            METAmorphoses est un outil de publication écrit
             en PHP

            http://www.w3.org/wiki/TaskForces/Community
             Projects/LinkingOpenData/PublishingTools
28                               C ONCLUSION

        Volume énorme de données produit par les
         systèmes de collecte de données,

        Plusieurs enjeux de publication de données,

        Émergence dans l’utilisation de l’open data,

        Processus de publication de données.

Linked open data pour la consommation des informations

  • 1.
    Colloque en l’honneurde Gauthier SALLET Atelier sur la gestion de données épidémiologiques UGB, 6 et 7 décembre 2012 L INKED O PEN D ATA POUR LA CONSOMMATION DES INFORMATIONS ISSUES DE LA COLLECTE DE DONNÉES ÉPIDÉMIOLOGIQUES 1
  • 2.
    2 C ANEVAS DE LA PRÉSENTATION 1. Cycle des données dans les systèmes de collectes de données, 2. Enjeux de la publication des données, 3. C’est quoi l’open data, 4. Cas d’utilisation de l’open data pour le médical, 5. 5 étapes pour publier les données liées
  • 3.
    3 S YSTÈME DE COLLECTE DE DONNÉES ÉPIDÉMIOLOGIQUES  Volume énorme de données collectées,  Données analysées pour détection d’épidémies,  Actions entreprises par des décideurs,  Données archivées,
  • 4.
    4 C YCLE DE LA DONNÉE Collecte de données Rapport sur les données Réactions et actions Analyse de données
  • 5.
    5 E NJEUX DE PUBLICATION DE DONNÉES  Enjeu démocratique:  La transparence,  Enjeu socio-économique:  Susciter la création de nouveaux secteurs économiques  Enjeu universitaire:  Amélioration de la détection des épidémies
  • 6.
    6 L’ OPEN D ATA : U N OBJECTIF DOUBLE  Rendre les données accessibles, exploitables et rentables par la majorité,  Offrir la possibilité de croiser, traiter et analyser des données de sources différentes.
  • 7.
    7 W EB DES DOCUMENTS
  • 8.
    8 WEB DES DOCUMENTS : CHALLENGES  Accès:  Liens non typés,  Données faiblement structurées,  Données déconnectées,  Intégration  Présenter les symptômes des maladies ayant fait l’objet d’une épidémie l’année dernière.  Interrogation  Quelles sont les régions ayant été victimes des mêmes épidémies l’années dernière?
  • 9.
    9 API S W EB ET MASHUPS Mashup  Limites: Up  APIs fournissent des interfaces propriétaires, API API API API WEB Web Web Web  Les mashups sont basées sur un ensemble de données fixes,  Impossible de mettre des A B C D liens entre les données,
  • 10.
    10 WEB DE DONNÉES LIÉES  Utiliser les technologies du web sémantique :  Publier les données structurées sur le WEB,  Lier les données d’une source de données à une autre RDF RDF RDF RDF RDF RDF RDF RDF RDF RDF Lien RDF Liens RDF Liens RDF Liens RDF A B C D E
  • 11.
    11 L INKED D ATA C ’ EST...  ...Un moyen de publier des données sur le Web qui:  Encourage la réutilisation,  Réduit la redondance,  Maximise la connectivité des données,  Permet d’ajouter la valeur aux données par le réseau de connexion,
  • 12.
    12 I NGRÉDIENTS CLÉS DU LINKED D ATA  RDF (Resource description Framework) pour:  Identifier les objets (URIs),  Connecter les informations (relations),  Ontologies (Vocabulaire) pour:  Fournir une compréhension partagée du domaine,  Organiser la connaissance de manière compréhensible par la machine,  Fournir une compréhension exploitable des données,
  • 13.
    13 E XEMPLE 1 : B ANQUE MONDIALE
  • 14.
    14 E XEMPLE 2 : OMS
  • 15.
    15 E XEMPLE 3: PNUD
  • 16.
    E XEMPLE 4: CDC (C ENTERS FOR 16 D ISEASE C ONTROL AND P REVENTION )
  • 17.
    17 E XEMPLE U TILISATION O PEN D ATA : G OOGLE
  • 18.
    18 E XEMPLE U TILISATION O PEN D ATA : G OOGLE
  • 19.
    19 5 ÉTAPES POUR PUBLIER LES DONNÉES LIÉES 1. Comprendre les principes, 2. Comprendre vos données, 3. Choisir les URIs pour vos éléments de donnée, 4. Lier aux autres sources de données, 5. Publier vos données
  • 20.
    20 1- C OMPRENDRE LES PRINCIPES  Utiliser les URIs pour identifier vos éléments:  Tout élément, pas seulement les documents,  Utiliser les URIs HTTP:  Noms globallement uniques,  Permet l’accès par ces noms,  Fournir une information utile en RDF  Lorsque quelque accède à une URI,  Inclure des liens RDF à d’autres URIs  Pour permettre la découverte de l’information,
  • 21.
    21 2- C OMPRENDRE VOS DONNÉES  Quelles sont les informations clés présentes dans vos données:  Maladies,  Médicaments,  Symptômes,  Villes, …  Quelles ontologies peuvent être réutilisées?  Geo,  FOAF,
  • 22.
    22 3- C HOISIR LES URI S POUR VOS ÉLÉMENTS DE DONNÉE  Utiliser les espaces de nommage disjoints de ceux existant,  Abstraire des détails d’implémentation  http://dbpedia.org/resource/Berlin  http://www4.wiwiss.fu- berlin.de:2020/demos/dbpedia/cgibin/resources. php?id=Berlin
  • 23.
    23 3- C HOISIR LES URI S POUR VOS ÉLÉMENTS DE DONNÉE  Utiliser les slash  http://mydomain.com/foaf.rdf#me  http://mydomain.com/id/me  Utiliser des patterns  http://dbpedia.org/resource/New_York_City  http://dbpedia.org/data/New_York_City  http://dbpedia.org/page/New_York_City
  • 24.
    24 4- L IER AUX AUTRES SOURCES DE DONNÉES
  • 25.
    25 4- L IER AUX AUTRES SOURCES DE DONNÉES  Utiliser des prédicats de liaison:  owl:sameAs  foaf:homepage, foaf:topic, foaf:based_near  rdfs:seeAlso
  • 26.
    26 5- P UBLIER VOS DONNÉES  Mettre en place votre infrastructure,  Tester la négotiation de contenu,
  • 27.
    27 5- P UBLIER VOS DONNÉES  Utiliser des outils:  Joseki est un moteur HTTP qui supporte SPARQL,  Virtuoso Universal Server fournit un serveur SPARQL et un stockage RDF,  METAmorphoses est un outil de publication écrit en PHP  http://www.w3.org/wiki/TaskForces/Community Projects/LinkingOpenData/PublishingTools
  • 28.
    28 C ONCLUSION  Volume énorme de données produit par les systèmes de collecte de données,  Plusieurs enjeux de publication de données,  Émergence dans l’utilisation de l’open data,  Processus de publication de données.