IODS : Retour d’expériences au sein du Center for Data Science

Web 3.0 Hosting & Factory
Karima Rafes, BorderCloud
IODS
Input/Output Data Science
Retour d’expériences au sein du
Center for Data Science de l’université Paris-Saclay
06/07/2017

Karima Rafes
karima.rafes@gmail.com
@Karima_Rafes
http://karimarafes.me
Développeuse Web (des données) depuis 1999
CanalPlus (Canalnumédia), Orange Lab, Globecast, Experte UE, INRIA, etc.
Fondatrice et CEO de BorderCloud depuis 2010
Logiciels-Formations-Conseils
Email : karima.rafes@bordercloud.com
Twitter : @BorderCloudInfo
http://www.bordercloud.com/
Doctorante depuis 2014
Sujet de thèse : Gestion des données de la recherche en utilisant le Web sémantique

3
Nos services
Formations
Conseils
Editeur logiciel
Détails de nos services : http://www.bordercloud.com

4
Nos clients
Depuis 2010, BorderCloud ne vit que pour et grâce à ses clients.
(0% de subventions)

5
Introduction
BorderCloud développe :
• depuis 2010 des outils à destination des
entreprises afin de mettre en œuvre le
Web sémantique et
• depuis 2015 une plateforme adapté aux
data scientists dans les laboratoires de
recherche
• des formations
• des expérimentations

1. Formations et expérimentations :
prototypes, démonstrateurs & recherche

7
En production: IODS
Depuis janvier 2016, le Center for Data Science Paris Saclay
utilise la plateforme LinkedWiki V1 afin de réutiliser les données
entre les chercheurs de l’université Paris Saclay
https://io.datascience-paris-saclay.fr

8
En production: IODS
Plate-forme pour le référencement des
données et leurs réutilisations
– ouvert depuis février 2016 pour l’université
– 70 utilisateurs
– 35 jeux de données ouvertes
– 20 jeux de données semi-publics
– >100 requêtes SPARQL
 Formations internes et sensibilisation à
l’ouverture et la réutilisation des données

9
Version pour tous
Depuis septembre 2017, une version
de démonstration est ouverte à toutes
les personnes qui souhaitent tester la
version 1 du logiciel.
http://linkedwiki.com
60 utilisateurs, 34 sources de données,
>80 requêtes SPARQL

10
Actions de formation
depuis 2015
Mission de formation au Web des données au sein
des laboratoires :
• SHS : droit canonique, éducation (U-PSud Droit,
ENS Cachan)
• Chimie analytique : LipSys², IPS2 (U Paris Sud)
• Science de la vie : LATMOS (IPSL)
• Informatique : LRI
 Environ 20 chercheurs ont suivi entre 1 et 5
jours de formations qui a donné lieu ensuite à des
expérimentations

11
Les prototypes
en expérimentation
1. Banc de test pour vérifier l’interopérabilité
des solutions avant déploiement
2. Définition des ontologies au sein des
laboratoires par les scientifiques
3. Référencement des scientifiques par
chaque laboratoire
 Etape suivante la traçabilité des données et
l’environnement de travail pour les analyser

12
Les démonstrateurs
en expérimentation
1. Systèmes d’information de partage des
données au sein des laboratoires
2. Environnement de travail virtualisé pour
les data scientists
 Besoins de simplifier l’accès aux données tout en
offrant le moyen de réutiliser les ressources de
l’université (cloud, cluster,…)

13
Les recherches
en cours
• Mise à disposition des ressources données, cloud et
HPC auprès de tous les chercheurs, étudiants au travers
d’un guichet unique
 Wikidata pour la science 2017, 30 scientifiques simultanément
dans le cloud de l’université faisant du Big Data
1er cours/TP durant l’année scolaire 2017/18 afin de former les
étudiants à l’utilisation du Web des données et à la production de
données structurées dans leur domaine.
• Faciliter l’accès aux données au travers de nouvelles
fonctionnalités d’autocomplétion pour SPARQL
 Premier résultat en production à partir de 2019

2. Plateforme LinkedWiki
Plateforme pour le référencement des données
et la réutilisation les données
EN PRODUCTION

15
Plateforme LinkedWiki
Un seul logiciel pour la réutilisation des
données :
du Big Data
de la recherche
des archives ouvertes
des systèmes d’information
Mutualisation des coûts de développement et de la
maintenance
Une solution unique pour tous les data scientists (Video)

16
Notre produit
facilite la :
La réutilisation des données disponibles
dans une organisation.
La déclaration des sources de données
interopérables ou non.
Le contrôle d’accès.
Indispensable au sein d’un système
d’information complexe afin d’aider les
utilisateurs à réutiliser leurs données.

17
Problématiques (1/2)
Face au raz de marée des données, les
organisations rencontrent les difficultés
suivantes :
1.Comment découvrir les données
disponibles ?
2.Comment réutiliser des données avec des
descriptions insuffisantes ?
3.Comment consommer ces données
simplement dans nos applications ?

18
Problématiques (2/2)
4. Un scientifique passe 80% sont temps à
traiter de la donnée plutôt que de travailler
sur sa problématique. Comment
automatiser les tâches récurrentes ?
5. Comment industrialiser les calculs d’un
chercheur dans une organisation ?
6. Comment utiliser simplement les
ressources de calculs dans une
organisation ?

19
Sur le marché du
Big Data ou de l’Open Data ?
Les outils sont centrés sur :
L’analyse des données
La mise à disposition de fichiers
La visualisation
 Notre solution à l’inverse est centrée sur
la réutilisation des données.

20
Notre solution
centrée sur les données
Démo 1 : trouver des données

21
Notre solution
centrée sur les données
Cela lui confère des caractéristiques uniques :
Elle facilite la déclaration des données .
Elle permet d’illustrer par l’exemple la manière
de réutiliser les données.
Elle facilite la recherche des données au
travers d’un référentiel unique.
Elle permet de tester concrètement si les
données sont réellement accessibles.

22
Fonctionnement
Déclaration
Démo 2 : déclarer des données

23
Fonctionnement
Déclaration
Au sein d’un intranet ou d’un extranet, un
utilisateur peut :
Déclarer les sources des données privées ou
publiques
Fabriquer plus facilement les requêtes
d’interrogation à ces sources de données.
Rendre visible ou non aux autres utilisateurs du
service les sources de données et les requêtes qu’il
utilise.

24
Fonctionnement
Illustration par l’exemple
Démo 3 : apprentissage par l’exemple

25
Fonctionnement
Illustration par l’exemple
L’utilisateur peut facilement illustrer les
données disponibles à l’aide de :
Requêtes d’interrogation
Graphiques
Cartes
 Très simple de générer des exercices ou
des QCM à partir des données accessibles

26
Fonctionnement
Découverte
Démo 4 : découvrir des données

27
Fonctionnement
Découverte
Les utilisateurs peuvent lier leurs sources de
données entre elles.
Le référentiel utilisé est celui de Wikidata
qui contient déjà des millions de concepts.
L’utilisateur retrouve les données à travers
une interface de recherche ou directement
via Google et un gadget dans Wikipedia.
 Faire du Web des données sans s’en rendre
compte (Linked Data)

28
Fonctionnement
Comparaison
Démo 5 : réutilisation des données

29
Fonctionnement
Comparaison
L’utilisateur peut facilement
Ecrire des requêtes
Rejouer les requêtes écrites par ses collègues
Améliorer les requêtes pour améliorer la
description des données.
Tester immédiatement les problèmes de
qualité de service et la qualité réelle des
données disponibles.

30
Fonctionnement
Réutilisation
L’utilisateur peut :
Rechercher et télécharger intégralement une source de
données à travers sa description.
Rechercher des requêtes d’accès
Réutiliser ces données dans son application en
recopiant les codes d’exemples. Python, R,
Ruby,SPARQL, HTML, Javascript, PHP, etc.
Être notifié si la requête d’accès aux données change.
Permettre la modification d’ontologies dans le
temps et maintenir la QoS au sein d’un SI.

31
Points forts
1. Pour tous types de données :
Données privées
Données publiques
– Open Data, Linked Open Data
N'importe quel format :
– RDF, JSON, Excel, CSV, PDF, etc.
N'importe quel mode de distribution :
– SPARQL, API, Torrent, site Web, etc.

32
Points forts
2. Pour tous types d’utilisateurs :
Producteurs de données peuvent décrire leurs
données au travers de requêtes.
Administrateurs de bases de données pourront
optimiser leurs requêtes et leurs bases de
données.
Développeurs pourront réutiliser les requêtes
dans leurs applications en 1 click et être notifiés
en cas de changement.

33
Points forts
3. Pour toutes les phases
de la vie des données
Les utilisateurs des données et des requêtes
sont alertés en cas de modification.
4. Respect des standards du Web
des données (Linked Data, W3C)

34
Gains
Améliorer la collaboration
– Entre les producteurs et les consommateurs de données.
Partager plus efficacement les connaissances
– Entre les métiers : chercheurs, développeurs, architectes, etc.
Augmentation de la productivité
– Les analystes n’ont plus à modifier le format des données avant de
pouvoir les utiliser.

35
Mais bon…
et le Big Data ?
Black box du data-scientist
Fichiers
Flux
Requêtes
FTP, Torrent,…
Kafka, Storm…
SPARQL, REST,
SQL…
Interprétation
Résultats
Synthèse
Publication, livre blanc, sondage,…
Graphique, statistique, …
Données pour être traitées par
une autre machine ou pour les
reproduire et ainsi vérifier
l’interprétation ou la synthèse

36
Reproductibilité
& Big Data ?
Black box
RésultatsSources
La reproductibilité est presque
impossible si la configuration
d’exécution de la black-box
n’est pas reproduite.

37
Notre produit V2
permettra (fin 2018) :
De générer un environnement de travail
pour data-scientists pré-connecté aux
données
De mettre à disposition ses résultats en
respectant les standards du Web (partage
des données, des algorithmes et de son ontologie)
La mutualisation des ressources des
calculs pour faciliter la reproductibilité

38
Manuel en
attendant une
IA
Développement
des Interfaces
Du temps perdu
et des étapes négligées
Fichiers
Flux
Requêtes
FTP, Torrent,…
Kafka, Storm…
SPARQL, REST,
SQL…
Interprétation
Résultats
Synthèse
Traitement
ETL
Flux
Archivage
BDD
Partage de
l’ontologie, des
données
Calculs
Clusterdecalcul

39
Stratégie
2017-2020
Découverte de
l’env. de travail
(étudiant, jeune
chercheur)
Evaluation des
besoins
nécessaires et
premiers tests
Transfère des
volumes dans le
cloud ayant
accès au cluster
Mise à
disposition
de résultats
interopérables
Instance de travail temporaire/sécurisée dans le
cloud de l’université ou de l’organisation
Instance de travail sécurisée,
dimensionnée et archivée
Les techniques existent... Ce qu’il manque c’est la volonté de
le mettre en œuvre pour améliorer et accélérer la recherche.

40
Dernière démo
Démo 6 :
Générer mon environnement de travail

41
Journée Wikidata
pour la science : mars 2016
Fin mars, 30 scientifiques simultanément ont
testés la plateforme alpha V2 :
• Partage, découverte et navigation dans les
données au travers des protocoles du Web des
données (V1)
• Création d’un notebook pour faire du Big Data
au sein du cloud de l’université afin avoir un
environnement sécurisé en étant root avec
Jupyter, SPARQL, SPARK, KAFKA, etc… (V2)

48
Difficultés
Les solutions permettant l’hébergement de
données ne sont jamais à 100%
interopérable
 Déception et frustration
Il faut accompagner chaque laboratoire à
produire correctement des données
 Méthode à définir et à partager

2. TFT, Tests For Triplestores
Banc de test pour vérifier l’interopérabilité des solutions
avant déploiement

Banc de test
pour vérifier
l’interopérabilité
des bases de données
Les scientifiques
sont en mesure de
vérifier les
fonctionnalités des
BDD avant de les
déployer dans le
cloud de l’université.

3. Production des données
au sein des laboratoires par les scientifiques
Description des
connaissances de
manière non
structurée à travers
le wiki public DAAP
Validation et
traduction des
nouvelles
connaissances
Mise à disposition
automatique des
données structurées
à travers du wiki
Partage
de la base de
connaissances officielles
Partage
des protocoles
et des mesures
Sauvegarde des
scripts de traitement,
des données
sélectionnées qui ont
permis d’obtenir les
résultats (artefacts, la
publication)
Sauvegarde des
fichiers de données
au sein du serveur de
stockage en réseau
partagé au sein de
l’Université
Définition de la requête pour
sélectionner les données et
écriture du script de traitement
(MatLab ou R ou Python,...)
Extraction des métadonnées
en respectant la base de
connaissances officielles
Après chaque campagne
de mesure
En fonction des connaissance
acquises définition d’un
nouveau projet
Détection des divergences
entre la base de
connaissances officielles et les
nouvelles contributions
Validation et traduction des
connaissances en RDF
Déploiement de l’ontologie
Conception des infobox
permettant d’afficher la
base de connaissance
directement sur le Wiki
Public
Accès restreint
Hébergement des
connaissances et des
données brutes et
des traitements qui
ont permis de
déduire ces
connaissances
Partage des
nouvelles
connaissances
Publication
des résultats
Contributeur
Description des
protocoles
expérimentales de
manière non
structurée à travers
le wiki privé
DAAP
Groupe d’experts
Chercheurs

52
Processus de production de
données réutilisables au sein du
système d’information
Phase 1 : Formation des chercheurs et ingénieurs aux
technologies du Web des données (Linked Data) et à
Mediawiki qui souhaitent réutiliser des données au
travers de leurs applications
Phase 2 : Collaboration au travers du Wiki pour expliciter
l’ontologie de leurs activités et ainsi décrire les données
et les résultats qu’ils produisent
Phase 3 : Appel à un ingénieur pour formaliser dans le
Wiki les ontologies, définir les règles d’intégrité et
implémenter les infoboxes nécessaires pour alimenter le
système d’information.
Phase 4 : Développer les applications simplifiant la
collecte des données pour facilité la traçabilité des
données dans l’université.

53
Démonstration
Projet DAAP
http://daap.eu
Définition de l’ontologie dynamiquement
Insertion de la description de leurs concepts
Réutilisation des données au sein du Wiki
Vérification des incohérences et problèmes
d’intégrité

54
Démonstration
au sein du système d’information
Base de données RDF privées et publiques

55
Démonstration
Réutilisation des données

56
Démonstration
Facilite l’importation des données de la recherche

57
Démonstration
Vérifier la sauvegarde des données (avant traitement)

58
Exemple de requêtes pour accéder aux
données au sein du système d’informations

4.Accompagnement des
laboratoires
Exemple avec le LRI

60
Conclusion (1/3)
Le Web des données sert à fluidifier
l’information sur Internet
Le Big Data sert au traitement efficace des
données afin de faciliter la prise de
décisions
 Le Web données et le Big Data sont les
faces d’une même pièce qu’on appellera le
Web sémantique.

61
SPARQL
Conclusion (2/3)
Le Linked Data supporte
le fonctionnement des universités
SPARQL
Data
Data
Data
Data
Data
Data
Data
Data
Data
Data
Data
Data
Data
Data
Data
Data
Laboratoire
Université
Partenaire
SPARQL
httpLa décentralisation des données avec des structures différentes
à travers le Web permet aussi de garder le contrôle des données
par leurs propriétaires.
Le croisement des données peut se faire du côté du client
(respect des données privées) ou des serveurs.

Conclusion (3/3) : IODS
1er proposition de mise en œuvre opérationnelle
du Web des données à l’université.

63
Merci de soutenir
le Web des données
et BorderCloud !

http://www.bordercloud.com
contact@bordercloud.com
Web 3.0 Hosting & Factory

IODS : Retour d’expériences au sein du Center for Data Science

Recommandé

Recommandé

Contenu connexe

Tendances

Tendances (15)

Similaire à IODS : Retour d’expériences au sein du Center for Data Science

Similaire à IODS : Retour d’expériences au sein du Center for Data Science (20)

IODS : Retour d’expériences au sein du Center for Data Science