1. C2 : Open Data - DATAtourisme
@jftrichard
@pascalevinot
@pfabing
#ET12C2
@DGEntreprises
2. # Agrégation # Homogénéisation # Diffusion
OD
Qu’est ce que DATAtourisme ?
API
DATA
tourisme
3. Un enjeu national majeur
DATAtourisme est lauréat du
Programme d’Investissements d’Avenir
En réponse à l’appel à projets « Industrialisation de la mise
à disposition de données ouvertes » du
fonds gouvernemental « Transition numérique et
modernisation de l’action publique »
# Ouverture des données publiques : une obligation
# Plus de 40 SIT : faciliter la réutilisation des données
# Big data : rendre les données interopérables
# Start-ups : accélérer la création de services numériques
4. Un projet collectif porté par l’Etat
# Pilotage # Equipe projet
# Partenaires nationaux -
comOR
5. # Données brutes
# Qualifiées, fiables, à jour
# Source : les SIT
1ers jeux de données disponibles :
# Fêtes & manifestations
# POI « à voir »
# POI « à faire »
Quelles données ?
6. # Un projet collaboratif impliquant le terrain
# Plus de 85% du territoire mobilisé
# 40 OT/CDT/CRT impliqués dans la mise en œuvre
(comEX, GT…)
# Collaboration avec des experts du secteur privé :
sémantique / big data
# Un partenaire privé : IKOULA
# Des dizaines de start-ups et entreprises rencontrées
Une forte mobilisation du terrain
7. Une mise en œuvre autour de 4 chantiers
#QUALIFICATION
Garantir la qualité et la fiabilité
des données diffusées
#NORMALISATION
Définir le format commun de
diffusion des données
touristiques
#PLATEFORME
Développer la plateforme
d’agrégation / alignement /
stockage / diffusion des flux
#PERENNISATION
Préparer l’après R&D : quel
modèle économique et quelle
gouvernance pour pérenniser
le dispositif ?
2015 2016 2017
Décembre – Juillet
Consultations DGE pour les
deux marchés de R&D
Déploiement
final
1er semestre
Gouv. / Modèle éco
Qualification
8. # Produire un format commun d’échanges
de données touristiques, connecté aux
ontologies internationales, s’appuyant sur les
usages et expériences des utilisateurs
§ Thesaurus national
§ Ontologie
# Fournir la documentation d’exploitation
et d’actualisation de cette ontologie
Chantier NORMALISATION
CALENDRIER :
• Marché attribué en avril
• Démarrage des travaux en mai
ü Ateliers d’experts
ü Drive
• Livraison intermédiaire fin août
• Finalisation en cours pour
publication GIT novembre
Suivi du
marché : 12
OT/CDT/CRT
+ DGE /T&T
9. # Une brique technologique capable de
convertir des données XML hétérogènes vers
un format homogène (ontologie)
# Entrepôt national pour stocker les
données homogènes
# Une API pour les réutilisateurs
# Jeux de données déposés sur le portail
Data.gouv.fr
Chantier PLATEFORME
CALENDRIER :
• Marché attribué en juillet 2016
• Démarrage des travaux fin août
• Validation des specs en cours
• 1ers tests en déc./janvier 2017
• Finalisation prévue à l’été
2017
Suivi du
marché : 8
OT/CDT/CRT
+ DGE /T&T
10. # L’ontologie DATAtourisme
# La plateforme DATAtourisme
Du SIT au LinkedData
Jean-FrançoisTrichard,AMO
En avant-première …
11. DATAtourisme n’est pas un SIT
# La plateforme DATAtourisme effectuera 3 tâches
1. La collecte des données saisies dans les Systèmes d’Informations
Touristiques
2. Leur transformation vers un format d’échange commun
3. La mise à disposition en open data de ces données brutes
transformées
12. COLLECTER les données
# Quelles données ?
Informations requises pour décrire une ressource :
ü Titre, Géolocalisation,Adresse, Description textuelle, Classification (type de POI)
ü Autres informations complémentaires facultatives
Les informations collectées répondront donc à
Quoi ? Quand ? Où ?
# Comment ?
ü La donnée envoyée doit juste être au format XML
ü Chaque SIT garde la main sur la liste des données qu’il décide d’envoyer vers la
plateforme DATAtourisme
13. COLLECTER les données
Quand ?
# Automatisation de l’envoi des
données depuis le SIT vers
DATAtourisme
# Fréquence d’actualisation
réglable par les administrateurs
de SIT
# Un mode prioritaire en cas
d’’actualisation en urgence
Par qui ?
Création d’un ou plusieurs comptes
« producteurs » pour chaque SIT*
pour :
# Paramétrer les connexions entre
le SIT et la plateforme
(transmission des flux XML)
# Mapper les données avec le format
DATAtourisme
# Suivre les éventuelles anomalies de
traitement
14. TRANSFORMER les données
Vers un langage commun
# Dans le web des données, les informations sont exprimées en Triplet
RDF :
• Une forme d’expression très simple comprenant un sujet, un verbe
et un complément
• Possibilité de décrire tout type d’objet :
Ex: « Cet objet est une voiture » + « Cet objet est bleu » =Toutes les voitures ne sont
pas bleues, mais celle décrite l’est
DATAtourisme transformera les données XML en RDF
et les stockera dans ce format
15. TRANSFORMER les données
Vers un vocabulaire commun
# Dans le web des données les sujets, verbes et compléments sont identifiés par adresses
URI (une URL servant d’identifiant)
# Les termes utilisés font appel à de la grammaire et du vocabulaire
Ex: « voiture » est un type d’objet, « être » est un verbe, « bleu » est une couleur
# Nous pouvons regrouper les termes représentant des véhicules dans un concept
« véhicules » et préciser dans la grammaire qu’un véhicule ne peut pas être à la fois une
« voiture » et une « moto »
# Les termes sont recensés dans des thésaurii et la « grammaire » dans des règles. Cet
ensemble forme une ontologie.
Rédaction d’un ontologie spécifique DATAtourisme
16. TRANSFORMER les données
Pour l’interopérabilité
# L’ontologie DATAtourisme s’appuie sur les formats internationaux qui
font déjà autorité dans le web des données
Faciliter l’exploitation des données du tourisme
Lier des données entre elles à partir de concepts partagés
# Les liaisons entre les données permettront à tous d’enrichir
l’information fournie aux visiteurs et d’en multiplier la diffusion
17. TRANSFORMER les données
Des standards locaux à DATAtourisme
# Le thésaurus DATAtourisme est issu de la réconciliation des thésaurus de
chaque SIT et des éléments pertinents de la norme TIFv3
# Le choix du terme à utiliser dans l’ontologie DATAtourisme s’appuie sur des
références externes (ex: Schema.org, FOAF) qui se servent déjà de concepts
touristiques (ex: hotel, hotelroom, suite, campsite,…)
# La création de nouveaux concepts DATAtourisme lorsque les ontologies
internationales ne proposaient pas d’équivalence
18. TRANSFORMER les données
# Une ontologie « Vivante »
1. Remontée automatique des anomalies explicitées auprès de
DATAtourisme, système de notification centralisé
2. Outils collaboratifs de discussion sur l’évolution de l’ontologie
DATAtourisme, graphe des concepts et vocabulaires
3. Publication semestrielle des mises à jour de l’ontologie et des outils d’aide
à la réutilisation
19. TRANSFORMER les données
Un concept principal : le « PointOfInterest »
# Une donnée touristique qui porte un intérêt touristique
Ex : un évènement Quoi ? Quand ? Où ?
Ex : le lieu où se déroule l’évènement
# 4 typologies de « POI » distinguées :
ü les événements
ü les lieux d’intérêts
ü les produits
ü les itinéraires
20. TRANSFORMER les données
1- Les événements : « EntertainmentAndEvent »
# Dérivé de schema:Event
# Reprise des classifications internationales : BusinessEvent, DanceEvent, Exhibition,
Festival, MusicEvent, SaleEvent, SportsEvent, etc
# A ces typologies de fêtes et manifestations, des sous-types existent aussi : Meeting,
Congress et Conference par exemple pour BusinessEvent…
21. TRANSFORMER les données
2- Les lieux : « PlaceOfInterest »
# Dérivé de schema:Place et de schema:LocalBusiness
# Un lieu a une existence physique et est susceptible de recevoir la visite d’un
touriste.
# 9 sous-typologies issues pour la plupart de Schema.org :Accomodation,
CulturalSite, FoodEstablishment, HealthPlace, LeisurePlace, NaturalHeritage, Store,
TouristInformationCenter,Transport.
# Des sous-types existent aussi : CampingAndCaravanning,
CollectiveAccommodation, HotelTrade et RentalAccommodation par exemple
pour Accomodation…
22. TRANSFORMER les données
3- Les produits et services : « Product »
# Dérivé de schema:Product
# Les hôtels sont des lieux, ils vendent des chambres d’hôtels (produits). Principe
identique pour plusieurs autres concepts (activités de pleine nature, la location
de matériel)
# Un prestataire multi-activité sera donc considéré comme un « lieu d’intérêt »
proposant autant de « produit » qu’il a d’activités
# 3 sous-typologies suivantes :AccomodationProduct, Practice, Rental
23. TRANSFORMER les données
4- Les itinéraires touristiques : « TouristTour »
# collection de POI ordonnés autour d’un circuit
# autant de typologie qu’il y a de moyen de transport : vélo, pédestre…
24. TRANSFORMER les données
Les thématiques
# Chaque POI peut être associé à 1 ou plusieurs thèmes : culturels, sportifs,
marketing…
# Permet de questionner DATAtourisme autour de niches de marché et
récupérer tous les POIs d’un même thème.
Ex : retrouver ainsi les itinéraires, les prestataires d’activités pleine nature,
les évènements, les hébergements… qui seront rattachés au thème
« randonnée ».
25. DIFFUSER les données
Le Triplestore
# Toutes les données collectées et transformées sont stockées dans un entrepôt de triplets
RDF, ou « TripleStore »
# Données accessibles grâce à une version Html (page web) depuis le Triplestore + une
interface de requête au format Sparql
# Ce moteur de recherche propose de télécharger les résultats sous forme de Triplets
(pour les stocker dans un autre Triplestore), sous forme de fichier CSV, et en Json (pour
une exploitation dans une application internet)
Estimation DATAtourisme = 3 milliards de triplets
Un des plus important TripleStore de données ouvertes
et liées au niveau mondial
26. DIFFUSER les données
Afin de faciliter l’accès aux données DATAtourisme c’est aussi :
# Un site internet permettant de configurer des requêtes simplement, de les enregistrer
dans son profil et de paramétrer des exports automatiques pour l’actualisation
# Un format de sortie unique permettant d’exploiter facilement les données extraites
# Une bibliothèque de fonctions (API) pour utiliser les données extraites, afficher le
liste de POI ou le détail d’une fiche,…
# L’obligation pour tous les réutilisateurs et diffuseurs de stocker les données
extraites sur ses propres serveurs d’hébergement (pas d’exploitation « à la volée »)
# Des données publiées en open data sur Data.gouv.fr
27. DIFFUSER les données
OpenDATA LinkedDATA et OpenSource
# Les données DATAtourisme seront en accès libre (licence ouverte) pour la
partie open-data
# Réflexions en cours pour un éventuel modèle FREEMIUM ? (chantier
Pérennisation)
# L’ontologie, la plateforme et la bibliothèque de fonctions seront développés
open source et déposés par la DGE sur des plateformes de développement
collaboratif
28. Perspectives…
Des résultats affinés par les réflexions de professionnels de l’innovation et du
tourisme réunis sur 3 groupes de travail :
1 Une donnée touristique qualifiée doit être :
ü Fiable (à jour, contrôlée, objective et définie sur une fine connaissance du
terrain)
ü Exploitable (documentée et facilement accessible)
ü Segmentée (en s’appuyant sur des critères pertinents pour répondre au
mieux aux attentes de l’usager)
2 La valeur d’une donnée touristique se définit par sa qualité, son
exhaustivité et la valorisation de ses usages. Faut-il répercuter le coût de
production d’une donnée sur son coût de diffusion afin de lui donner une valeur
marchande?
3 L’identification des données qualitatives manquantes pour stimuler
l’innovation dans le tourisme doit s’appuyer sur le retour des utilisateurs dans la
perspective d’enrichir l’expérience de voyage.
Trois points de vigilance à retenir:
ü Communiquer sur tous les modes d’accès à une destination, en intégrant la
problématique du « dernier kilomètre »
ü Renseigner sur les activités locales du territoire, au-delà de l’événementiel
ü Veiller à la bonne géolocalisation des données
29. # Optimiser la fiabilité des données : démarche
de progrès, process de validation des
données, charte qualité
# Une réflexion juridique autour de :
- conventions SIT
- propriété des données
- fichiers multimédia (photos…)
# Participation aux réflexions autour de la
licence open-data et les CGS de la
plateforme
Chantier animé parTT
Chantier QUALIFICATION (hors PIA)
15 OT/CDT/CRT mobilisés
• 3 réunions en 2015
• 2 réunions en 2016
• À poursuivre en 2017
30. Les sujets abordés jusqu’à présent :
# Charte qualité / guide de saisie :
les pratiques locales, moyens de vérification (RH
auto), difficultés rencontrées…
# L’implication et l’appropriation par les
contributeurs locaux (OT, prestataires…)
# Les futures CGS DATAtourisme :
les exigences du dispositif
problématique juridique (propriété des
données, conventions SIT…)
le cas particulier des médias / photos
# L’animation de réseau au cœur d’une
bonne qualification des données et d’une bonne
gestion des SIT : bonnes pratiques.
Chantier QUALIFICATION (hors PIA)
A traiter par le groupe de travail :
# 1ers jeux de données open data :
affiner les catégories / champs
# Participation à la réflexion autour des CGS
DATAtourisme
# Charte d’engagements
# Problématique des médias / images
# Poursuite de l’étude des bonnes pratiques
vers une démarche de progrès
implication locale des contributeurs
# Déploiement du dispositif sur le terrain.
31. # Envisager la gouvernance et le modèle
économique du futur dispositif
DATAtourisme afin de garantir son autonomie
de gestion et de financement en phase
d’industrialisation
Chantier PERENNISATION (hors PIA)
Projets en réflexion :
• Automne 2016 : Lancement d’une
nouvelle consultation en ligne
• 1er trimestre 2017 : Lancement
d’un audit externalisé
Premiers travaux conduits :
ü Un GT rattaché au comOR
ü La validation de 4 guides d’entretien et d’une
liste de personnalités qualifiées à auditionner
ü Une étude nationale Observatoire du Big Data
lancée par la DGE :
§ Entretiens en 1to1 cet été complétés par un atelier
sectoriel en novembre
§ Recommandations opérationnelles en décembre
32. En savoir plus : www.datatourisme.fr
Vos contacts :
Magali Da Silva (DGE)
• Tel. 01 44 97 05 34 •
magali.da-silva@finances.gouv.fr
Pascale Vinot (Tourisme Territoires)
• Tel. 01 44 11 10 26 •
p.vinot@tourisme-territoires.net