SlideShare une entreprise Scribd logo
Web 3.0 Hosting & Factory
Karima Rafes, BorderCloud
IODS
Input/Output Data Science
Retour d’expériences au sein du
Center for Data Science de l’université Paris-Saclay
06/07/2017
Karima Rafes
karima.rafes@gmail.com
@Karima_Rafes
http://karimarafes.me
Développeuse Web (des données) depuis 1999
CanalPlus (Canalnumédia), Orange Lab, Globecast, Experte UE, INRIA, etc.
Fondatrice et CEO de BorderCloud depuis 2010
Logiciels-Formations-Conseils
Email : karima.rafes@bordercloud.com
Twitter : @BorderCloudInfo
http://www.bordercloud.com/
Doctorante depuis 2014
Sujet de thèse : Gestion des données de la recherche en utilisant le Web sémantique
3
Nos services
Formations
Conseils
Editeur logiciel
Détails de nos services : http://www.bordercloud.com
4
Nos clients
Depuis 2010, BorderCloud ne vit que pour et grâce à ses clients.
(0% de subventions)
5
Introduction
BorderCloud développe :
• depuis 2010 des outils à destination des
entreprises afin de mettre en œuvre le
Web sémantique et
• depuis 2015 une plateforme adapté aux
data scientists dans les laboratoires de
recherche
• des formations
• des expérimentations
1. Formations et expérimentations :
prototypes, démonstrateurs & recherche
7
En production: IODS
Depuis janvier 2016, le Center for Data Science Paris Saclay
utilise la plateforme LinkedWiki V1 afin de réutiliser les données
entre les chercheurs de l’université Paris Saclay
https://io.datascience-paris-saclay.fr
8
En production: IODS
Plate-forme pour le référencement des
données et leurs réutilisations
– ouvert depuis février 2016 pour l’université
– 70 utilisateurs
– 35 jeux de données ouvertes
– 20 jeux de données semi-publics
– >100 requêtes SPARQL
 Formations internes et sensibilisation à
l’ouverture et la réutilisation des données
9
Version pour tous
Depuis septembre 2017, une version
de démonstration est ouverte à toutes
les personnes qui souhaitent tester la
version 1 du logiciel.
http://linkedwiki.com
60 utilisateurs, 34 sources de données,
>80 requêtes SPARQL
10
Actions de formation
depuis 2015
Mission de formation au Web des données au sein
des laboratoires :
• SHS : droit canonique, éducation (U-PSud Droit,
ENS Cachan)
• Chimie analytique : LipSys², IPS2 (U Paris Sud)
• Science de la vie : LATMOS (IPSL)
• Informatique : LRI
 Environ 20 chercheurs ont suivi entre 1 et 5
jours de formations qui a donné lieu ensuite à des
expérimentations
11
Les prototypes
en expérimentation
1. Banc de test pour vérifier l’interopérabilité
des solutions avant déploiement
2. Définition des ontologies au sein des
laboratoires par les scientifiques
3. Référencement des scientifiques par
chaque laboratoire
 Etape suivante la traçabilité des données et
l’environnement de travail pour les analyser
12
Les démonstrateurs
en expérimentation
1. Systèmes d’information de partage des
données au sein des laboratoires
2. Environnement de travail virtualisé pour
les data scientists
 Besoins de simplifier l’accès aux données tout en
offrant le moyen de réutiliser les ressources de
l’université (cloud, cluster,…)
13
Les recherches
en cours
• Mise à disposition des ressources données, cloud et
HPC auprès de tous les chercheurs, étudiants au travers
d’un guichet unique
 Wikidata pour la science 2017, 30 scientifiques simultanément
dans le cloud de l’université faisant du Big Data
1er cours/TP durant l’année scolaire 2017/18 afin de former les
étudiants à l’utilisation du Web des données et à la production de
données structurées dans leur domaine.
• Faciliter l’accès aux données au travers de nouvelles
fonctionnalités d’autocomplétion pour SPARQL
 Premier résultat en production à partir de 2019
2. Plateforme LinkedWiki
Plateforme pour le référencement des données
et la réutilisation les données
EN PRODUCTION
15
Plateforme LinkedWiki
Un seul logiciel pour la réutilisation des
données :
du Big Data
de la recherche
des archives ouvertes
des systèmes d’information
Mutualisation des coûts de développement et de la
maintenance
Une solution unique pour tous les data scientists (Video)
16
Notre produit
facilite la :
La réutilisation des données disponibles
dans une organisation.
La déclaration des sources de données
interopérables ou non.
Le contrôle d’accès.
Indispensable au sein d’un système
d’information complexe afin d’aider les
utilisateurs à réutiliser leurs données.
17
Problématiques (1/2)
Face au raz de marée des données, les
organisations rencontrent les difficultés
suivantes :
1.Comment découvrir les données
disponibles ?
2.Comment réutiliser des données avec des
descriptions insuffisantes ?
3.Comment consommer ces données
simplement dans nos applications ?
18
Problématiques (2/2)
4. Un scientifique passe 80% sont temps à
traiter de la donnée plutôt que de travailler
sur sa problématique. Comment
automatiser les tâches récurrentes ?
5. Comment industrialiser les calculs d’un
chercheur dans une organisation ?
6. Comment utiliser simplement les
ressources de calculs dans une
organisation ?
19
Sur le marché du
Big Data ou de l’Open Data ?
Les outils sont centrés sur :
L’analyse des données
La mise à disposition de fichiers
La visualisation
 Notre solution à l’inverse est centrée sur
la réutilisation des données.
20
Notre solution
centrée sur les données
Démo 1 : trouver des données
21
Notre solution
centrée sur les données
Cela lui confère des caractéristiques uniques :
Elle facilite la déclaration des données .
Elle permet d’illustrer par l’exemple la manière
de réutiliser les données.
Elle facilite la recherche des données au
travers d’un référentiel unique.
Elle permet de tester concrètement si les
données sont réellement accessibles.
22
Fonctionnement
Déclaration
Démo 2 : déclarer des données
23
Fonctionnement
Déclaration
Au sein d’un intranet ou d’un extranet, un
utilisateur peut :
Déclarer les sources des données privées ou
publiques
Fabriquer plus facilement les requêtes
d’interrogation à ces sources de données.
Rendre visible ou non aux autres utilisateurs du
service les sources de données et les requêtes qu’il
utilise.
24
Fonctionnement
Illustration par l’exemple
Démo 3 : apprentissage par l’exemple
25
Fonctionnement
Illustration par l’exemple
L’utilisateur peut facilement illustrer les
données disponibles à l’aide de :
Requêtes d’interrogation
Graphiques
Cartes
 Très simple de générer des exercices ou
des QCM à partir des données accessibles
26
Fonctionnement
Découverte
Démo 4 : découvrir des données
27
Fonctionnement
Découverte
Les utilisateurs peuvent lier leurs sources de
données entre elles.
Le référentiel utilisé est celui de Wikidata
qui contient déjà des millions de concepts.
L’utilisateur retrouve les données à travers
une interface de recherche ou directement
via Google et un gadget dans Wikipedia.
 Faire du Web des données sans s’en rendre
compte (Linked Data)
28
Fonctionnement
Comparaison
Démo 5 : réutilisation des données
29
Fonctionnement
Comparaison
L’utilisateur peut facilement
Ecrire des requêtes
Rejouer les requêtes écrites par ses collègues
Améliorer les requêtes pour améliorer la
description des données.
Tester immédiatement les problèmes de
qualité de service et la qualité réelle des
données disponibles.
30
Fonctionnement
Réutilisation
L’utilisateur peut :
Rechercher et télécharger intégralement une source de
données à travers sa description.
Rechercher des requêtes d’accès
Réutiliser ces données dans son application en
recopiant les codes d’exemples. Python, R,
Ruby,SPARQL, HTML, Javascript, PHP, etc.
Être notifié si la requête d’accès aux données change.
Permettre la modification d’ontologies dans le
temps et maintenir la QoS au sein d’un SI.
31
Points forts
1. Pour tous types de données :
Données privées
Données publiques
– Open Data, Linked Open Data
N'importe quel format :
– RDF, JSON, Excel, CSV, PDF, etc.
N'importe quel mode de distribution :
– SPARQL, API, Torrent, site Web, etc.
32
Points forts
2. Pour tous types d’utilisateurs :
Producteurs de données peuvent décrire leurs
données au travers de requêtes.
Administrateurs de bases de données pourront
optimiser leurs requêtes et leurs bases de
données.
Développeurs pourront réutiliser les requêtes
dans leurs applications en 1 click et être notifiés
en cas de changement.
33
Points forts
3. Pour toutes les phases
de la vie des données
Les utilisateurs des données et des requêtes
sont alertés en cas de modification.
4. Respect des standards du Web
des données (Linked Data, W3C)
34
Gains
Améliorer la collaboration
– Entre les producteurs et les consommateurs de données.
Partager plus efficacement les connaissances
– Entre les métiers : chercheurs, développeurs, architectes, etc.
Augmentation de la productivité
– Les analystes n’ont plus à modifier le format des données avant de
pouvoir les utiliser.
35
Mais bon…
et le Big Data ?
Black box du data-scientist
Fichiers
Flux
Requêtes
FTP, Torrent,…
Kafka, Storm…
SPARQL, REST,
SQL…
Interprétation
Résultats
Synthèse
Publication, livre blanc, sondage,…
Graphique, statistique, …
Données pour être traitées par
une autre machine ou pour les
reproduire et ainsi vérifier
l’interprétation ou la synthèse
36
Reproductibilité
& Big Data ?
Black box
RésultatsSources
La reproductibilité est presque
impossible si la configuration
d’exécution de la black-box
n’est pas reproduite.
37
Notre produit V2
permettra (fin 2018) :
De générer un environnement de travail
pour data-scientists pré-connecté aux
données
De mettre à disposition ses résultats en
respectant les standards du Web (partage
des données, des algorithmes et de son ontologie)
La mutualisation des ressources des
calculs pour faciliter la reproductibilité
38
Manuel en
attendant une
IA
Développement
des Interfaces
Du temps perdu
et des étapes négligées
Fichiers
Flux
Requêtes
FTP, Torrent,…
Kafka, Storm…
SPARQL, REST,
SQL…
Interprétation
Résultats
Synthèse
Traitement
ETL
Flux
Archivage
BDD
Partage de
l’ontologie, des
données
Calculs
Clusterdecalcul
39
Stratégie
2017-2020
Découverte de
l’env. de travail
(étudiant, jeune
chercheur)
Evaluation des
besoins
nécessaires et
premiers tests
Transfère des
volumes dans le
cloud ayant
accès au cluster
Mise à
disposition
de résultats
interopérables
Instance de travail temporaire/sécurisée dans le
cloud de l’université ou de l’organisation
Instance de travail sécurisée,
dimensionnée et archivée
Les techniques existent... Ce qu’il manque c’est la volonté de
le mettre en œuvre pour améliorer et accélérer la recherche.
40
Dernière démo
Démo 6 :
Générer mon environnement de travail
41
Journée Wikidata
pour la science : mars 2016
Fin mars, 30 scientifiques simultanément ont
testés la plateforme alpha V2 :
• Partage, découverte et navigation dans les
données au travers des protocoles du Web des
données (V1)
• Création d’un notebook pour faire du Big Data
au sein du cloud de l’université afin avoir un
environnement sécurisé en étant root avec
Jupyter, SPARQL, SPARK, KAFKA, etc… (V2)
48
Difficultés
Les solutions permettant l’hébergement de
données ne sont jamais à 100%
interopérable
 Déception et frustration
Il faut accompagner chaque laboratoire à
produire correctement des données
 Méthode à définir et à partager
2. TFT, Tests For Triplestores
Banc de test pour vérifier l’interopérabilité des solutions
avant déploiement
Banc de test
pour vérifier
l’interopérabilité
des bases de données
Les scientifiques
sont en mesure de
vérifier les
fonctionnalités des
BDD avant de les
déployer dans le
cloud de l’université.
3. Production des données
au sein des laboratoires par les scientifiques
Description des
connaissances de
manière non
structurée à travers
le wiki public DAAP
Validation et
traduction des
nouvelles
connaissances
Mise à disposition
automatique des
données structurées
à travers du wiki
Partage
de la base de
connaissances officielles
Partage
des protocoles
et des mesures
Sauvegarde des
scripts de traitement,
des données
sélectionnées qui ont
permis d’obtenir les
résultats (artefacts, la
publication)
Sauvegarde des
fichiers de données
au sein du serveur de
stockage en réseau
partagé au sein de
l’Université
Définition de la requête pour
sélectionner les données et
écriture du script de traitement
(MatLab ou R ou Python,...)
Extraction des métadonnées
en respectant la base de
connaissances officielles
Après chaque campagne
de mesure
En fonction des connaissance
acquises définition d’un
nouveau projet
Détection des divergences
entre la base de
connaissances officielles et les
nouvelles contributions
Validation et traduction des
connaissances en RDF
Déploiement de l’ontologie
Conception des infobox
permettant d’afficher la
base de connaissance
directement sur le Wiki
Public
Accès restreint
Hébergement des
connaissances et des
données brutes et
des traitements qui
ont permis de
déduire ces
connaissances
Partage des
nouvelles
connaissances
Publication
des résultats
Contributeur
Description des
protocoles
expérimentales de
manière non
structurée à travers
le wiki privé
DAAP
Groupe d’experts
Chercheurs
52
Processus de production de
données réutilisables au sein du
système d’information
Phase 1 : Formation des chercheurs et ingénieurs aux
technologies du Web des données (Linked Data) et à
Mediawiki qui souhaitent réutiliser des données au
travers de leurs applications
Phase 2 : Collaboration au travers du Wiki pour expliciter
l’ontologie de leurs activités et ainsi décrire les données
et les résultats qu’ils produisent
Phase 3 : Appel à un ingénieur pour formaliser dans le
Wiki les ontologies, définir les règles d’intégrité et
implémenter les infoboxes nécessaires pour alimenter le
système d’information.
Phase 4 : Développer les applications simplifiant la
collecte des données pour facilité la traçabilité des
données dans l’université.
53
Démonstration
Projet DAAP
http://daap.eu
Définition de l’ontologie dynamiquement
Insertion de la description de leurs concepts
Réutilisation des données au sein du Wiki
Vérification des incohérences et problèmes
d’intégrité
54
Démonstration
au sein du système d’information
Base de données RDF privées et publiques
55
Démonstration
au sein du système d’information
Réutilisation des données
56
Démonstration
au sein du système d’information
Facilite l’importation des données de la recherche
57
Démonstration
au sein du système d’information
Vérifier la sauvegarde des données (avant traitement)
58
Exemple de requêtes pour accéder aux
données au sein du système d’informations
4.Accompagnement des
laboratoires
Exemple avec le LRI
60
Conclusion (1/3)
Le Web des données sert à fluidifier
l’information sur Internet
Le Big Data sert au traitement efficace des
données afin de faciliter la prise de
décisions
 Le Web données et le Big Data sont les
faces d’une même pièce qu’on appellera le
Web sémantique.
61
SPARQL
Conclusion (2/3)
Le Linked Data supporte
le fonctionnement des universités
SPARQL
Data
Data
Data
Data
Data
Data
Data
Data
Data
Data
Data
Data
Data
Data
Data
Data
Laboratoire
Université
Partenaire
SPARQL
httpLa décentralisation des données avec des structures différentes
à travers le Web permet aussi de garder le contrôle des données
par leurs propriétaires.
Le croisement des données peut se faire du côté du client
(respect des données privées) ou des serveurs.
Conclusion (3/3) : IODS
1er proposition de mise en œuvre opérationnelle
du Web des données à l’université.
63
Merci de soutenir
le Web des données
et BorderCloud !
http://www.bordercloud.com
contact@bordercloud.com
Web 3.0 Hosting & Factory

Contenu connexe

Tendances

Entrepôt de données ouvertes IRD. Un service en ligne pour l’ouverture et le ...
Entrepôt de données ouvertes IRD. Un service en ligne pour l’ouverture et le ...Entrepôt de données ouvertes IRD. Un service en ligne pour l’ouverture et le ...
Entrepôt de données ouvertes IRD. Un service en ligne pour l’ouverture et le ...
IST IRD - Service IST de l'Institut de Recherche pour le Développement
 
L'offre de logiciels pour bibliothèque et les conditions d'acceptation d'un c...
L'offre de logiciels pour bibliothèque et les conditions d'acceptation d'un c...L'offre de logiciels pour bibliothèque et les conditions d'acceptation d'un c...
L'offre de logiciels pour bibliothèque et les conditions d'acceptation d'un c...
Marc Maisonneuve
 
Documation 2011 : de la recherche fédérée à l'accès unifié
Documation 2011 : de la recherche fédérée à l'accès unifiéDocumation 2011 : de la recherche fédérée à l'accès unifié
Documation 2011 : de la recherche fédérée à l'accès unifié
Antidot
 
Plan de Gestion de Données (PGD)_Claire Sowinski (INIST CNRS)_JeudIST IRD 202...
Plan de Gestion de Données (PGD)_Claire Sowinski (INIST CNRS)_JeudIST IRD 202...Plan de Gestion de Données (PGD)_Claire Sowinski (INIST CNRS)_JeudIST IRD 202...
Plan de Gestion de Données (PGD)_Claire Sowinski (INIST CNRS)_JeudIST IRD 202...
IST IRD - Service IST de l'Institut de Recherche pour le Développement
 
Introduction aux données de la recherche
Introduction aux données de la rechercheIntroduction aux données de la recherche
Livres Hebdo n°1030 Logiciels pour bibliothèques, l'arrivée des outils PNB
Livres Hebdo n°1030 Logiciels pour bibliothèques, l'arrivée des outils PNBLivres Hebdo n°1030 Logiciels pour bibliothèques, l'arrivée des outils PNB
Livres Hebdo n°1030 Logiciels pour bibliothèques, l'arrivée des outils PNB
Marc Maisonneuve
 
Initiation à SPARQL avec Wikidata
Initiation à SPARQL avec WikidataInitiation à SPARQL avec Wikidata
Initiation à SPARQL avec Wikidata
BorderCloud
 
Le standard de métadonnées XMP [Extensible Metadata Platform] et son applicab...
Le standard de métadonnées XMP [Extensible Metadata Platform] et son applicab...Le standard de métadonnées XMP [Extensible Metadata Platform] et son applicab...
Le standard de métadonnées XMP [Extensible Metadata Platform] et son applicab...Peccatte
 
Panorama de l'offre de logiciels libres pour bibliothèque v2
Panorama de l'offre de logiciels libres pour bibliothèque v2Panorama de l'offre de logiciels libres pour bibliothèque v2
Panorama de l'offre de logiciels libres pour bibliothèque v2
Marc Maisonneuve
 
Logiciels pour bibliothèques : un chiffre d’affaires en baisse de 5 %
Logiciels pour bibliothèques : un chiffre d’affaires en baisse de 5 %Logiciels pour bibliothèques : un chiffre d’affaires en baisse de 5 %
Logiciels pour bibliothèques : un chiffre d’affaires en baisse de 5 %
Marc Maisonneuve
 
9 30 fandre-dist_cnrs_piv_2017
9 30 fandre-dist_cnrs_piv_20179 30 fandre-dist_cnrs_piv_2017
9 30 fandre-dist_cnrs_piv_2017
Bertrand Tavitian
 
Introduction à la BIG DATA et l'Intelligence Artificielle
Introduction à la BIG DATA et l'Intelligence ArtificielleIntroduction à la BIG DATA et l'Intelligence Artificielle
Introduction à la BIG DATA et l'Intelligence Artificielle
Medhi Corneille Famibelle*
 
Les bases pour utiliser SPARQL
Les bases pour utiliser SPARQLLes bases pour utiliser SPARQL
Les bases pour utiliser SPARQL
BorderCloud
 
Numérique en pratique : les portails de bibliothèques
Numérique en pratique : les portails de bibliothèquesNumérique en pratique : les portails de bibliothèques
Numérique en pratique : les portails de bibliothèques
Marc Maisonneuve
 
Entreposer ses donnees-JeudIST IRD 20181213
Entreposer ses donnees-JeudIST IRD 20181213Entreposer ses donnees-JeudIST IRD 20181213

Tendances (15)

Entrepôt de données ouvertes IRD. Un service en ligne pour l’ouverture et le ...
Entrepôt de données ouvertes IRD. Un service en ligne pour l’ouverture et le ...Entrepôt de données ouvertes IRD. Un service en ligne pour l’ouverture et le ...
Entrepôt de données ouvertes IRD. Un service en ligne pour l’ouverture et le ...
 
L'offre de logiciels pour bibliothèque et les conditions d'acceptation d'un c...
L'offre de logiciels pour bibliothèque et les conditions d'acceptation d'un c...L'offre de logiciels pour bibliothèque et les conditions d'acceptation d'un c...
L'offre de logiciels pour bibliothèque et les conditions d'acceptation d'un c...
 
Documation 2011 : de la recherche fédérée à l'accès unifié
Documation 2011 : de la recherche fédérée à l'accès unifiéDocumation 2011 : de la recherche fédérée à l'accès unifié
Documation 2011 : de la recherche fédérée à l'accès unifié
 
Plan de Gestion de Données (PGD)_Claire Sowinski (INIST CNRS)_JeudIST IRD 202...
Plan de Gestion de Données (PGD)_Claire Sowinski (INIST CNRS)_JeudIST IRD 202...Plan de Gestion de Données (PGD)_Claire Sowinski (INIST CNRS)_JeudIST IRD 202...
Plan de Gestion de Données (PGD)_Claire Sowinski (INIST CNRS)_JeudIST IRD 202...
 
Introduction aux données de la recherche
Introduction aux données de la rechercheIntroduction aux données de la recherche
Introduction aux données de la recherche
 
Livres Hebdo n°1030 Logiciels pour bibliothèques, l'arrivée des outils PNB
Livres Hebdo n°1030 Logiciels pour bibliothèques, l'arrivée des outils PNBLivres Hebdo n°1030 Logiciels pour bibliothèques, l'arrivée des outils PNB
Livres Hebdo n°1030 Logiciels pour bibliothèques, l'arrivée des outils PNB
 
Initiation à SPARQL avec Wikidata
Initiation à SPARQL avec WikidataInitiation à SPARQL avec Wikidata
Initiation à SPARQL avec Wikidata
 
Le standard de métadonnées XMP [Extensible Metadata Platform] et son applicab...
Le standard de métadonnées XMP [Extensible Metadata Platform] et son applicab...Le standard de métadonnées XMP [Extensible Metadata Platform] et son applicab...
Le standard de métadonnées XMP [Extensible Metadata Platform] et son applicab...
 
Panorama de l'offre de logiciels libres pour bibliothèque v2
Panorama de l'offre de logiciels libres pour bibliothèque v2Panorama de l'offre de logiciels libres pour bibliothèque v2
Panorama de l'offre de logiciels libres pour bibliothèque v2
 
Logiciels pour bibliothèques : un chiffre d’affaires en baisse de 5 %
Logiciels pour bibliothèques : un chiffre d’affaires en baisse de 5 %Logiciels pour bibliothèques : un chiffre d’affaires en baisse de 5 %
Logiciels pour bibliothèques : un chiffre d’affaires en baisse de 5 %
 
9 30 fandre-dist_cnrs_piv_2017
9 30 fandre-dist_cnrs_piv_20179 30 fandre-dist_cnrs_piv_2017
9 30 fandre-dist_cnrs_piv_2017
 
Introduction à la BIG DATA et l'Intelligence Artificielle
Introduction à la BIG DATA et l'Intelligence ArtificielleIntroduction à la BIG DATA et l'Intelligence Artificielle
Introduction à la BIG DATA et l'Intelligence Artificielle
 
Les bases pour utiliser SPARQL
Les bases pour utiliser SPARQLLes bases pour utiliser SPARQL
Les bases pour utiliser SPARQL
 
Numérique en pratique : les portails de bibliothèques
Numérique en pratique : les portails de bibliothèquesNumérique en pratique : les portails de bibliothèques
Numérique en pratique : les portails de bibliothèques
 
Entreposer ses donnees-JeudIST IRD 20181213
Entreposer ses donnees-JeudIST IRD 20181213Entreposer ses donnees-JeudIST IRD 20181213
Entreposer ses donnees-JeudIST IRD 20181213
 

Similaire à IODS : Retour d’expériences au sein du Center for Data Science

Fiche pratique IST Agropolis : Les Données de la Recherche : Questions-Réponses
Fiche pratique IST Agropolis : Les Données de la Recherche : Questions-RéponsesFiche pratique IST Agropolis : Les Données de la Recherche : Questions-Réponses
Fiche pratique IST Agropolis : Les Données de la Recherche : Questions-Réponses
Agropolis International
 
FAIRisation d’analyses bioinformatiques.pdf
FAIRisation d’analyses bioinformatiques.pdfFAIRisation d’analyses bioinformatiques.pdf
FAIRisation d’analyses bioinformatiques.pdf
Thomas DENECKER
 
AGMQ 2011 : Les données libres et le territoire
AGMQ 2011 : Les données libres et le territoireAGMQ 2011 : Les données libres et le territoire
AGMQ 2011 : Les données libres et le territoire
noucher
 
Le "Lac de données" de l'Ina, un projet pour placer la donnée au cœur de l'or...
Le "Lac de données" de l'Ina, un projet pour placer la donnée au cœur de l'or...Le "Lac de données" de l'Ina, un projet pour placer la donnée au cœur de l'or...
Le "Lac de données" de l'Ina, un projet pour placer la donnée au cœur de l'or...
Gautier Poupeau
 
Mc jacquemot piv2017_c
Mc jacquemot piv2017_cMc jacquemot piv2017_c
Mc jacquemot piv2017_c
Bertrand Tavitian
 
La Duck Conf - Initier un Datalab : rien à voir avec ce que j'imaginais !
La Duck Conf - Initier un Datalab : rien à voir avec ce que j'imaginais !La Duck Conf - Initier un Datalab : rien à voir avec ce que j'imaginais !
La Duck Conf - Initier un Datalab : rien à voir avec ce que j'imaginais !
OCTO Technology
 
Le Web de données - nouvelles pratiques de publication et nouveaux services?
Le Web de données - nouvelles pratiques de publication et nouveaux services? Le Web de données - nouvelles pratiques de publication et nouveaux services?
Le Web de données - nouvelles pratiques de publication et nouveaux services?
chessmu
 
Introduction à la gestion des métadonnées
Introduction à la gestion des métadonnéesIntroduction à la gestion des métadonnées
Introduction à la gestion des métadonnéesOpen Data Support
 
Mémoire de fin d'étude - La big data et les réseaux sociaux
Mémoire de fin d'étude - La big data et les réseaux sociauxMémoire de fin d'étude - La big data et les réseaux sociaux
Mémoire de fin d'étude - La big data et les réseaux sociaux
Chloé Marty
 
Introduction au Plan de Gestion de Données
Introduction au Plan de Gestion de DonnéesIntroduction au Plan de Gestion de Données
De l’open source à l’open cloud
De l’open source à l’open cloudDe l’open source à l’open cloud
De l’open source à l’open cloud
Robert Viseur
 
Analytics & Machine Learning avec la Data Virtualization
Analytics & Machine Learning avec la Data VirtualizationAnalytics & Machine Learning avec la Data Virtualization
Analytics & Machine Learning avec la Data Virtualization
Denodo
 
Webinar Denodo & CRIP : Souveraineté, information sensible et data gouvernanc...
Webinar Denodo & CRIP : Souveraineté, information sensible et data gouvernanc...Webinar Denodo & CRIP : Souveraineté, information sensible et data gouvernanc...
Webinar Denodo & CRIP : Souveraineté, information sensible et data gouvernanc...
Denodo
 
Datalift, une plateforme Linked Data, Retour d'expériences
Datalift, une plateforme Linked Data, Retour d'expériencesDatalift, une plateforme Linked Data, Retour d'expériences
Datalift, une plateforme Linked Data, Retour d'expériences
SemWebPro
 
Les technologies big data avec speech commentaries
Les technologies big data avec speech commentariesLes technologies big data avec speech commentaries
Les technologies big data avec speech commentaries
Rima Jamli Faidi
 
Des ressources éducatives libres aux MOOC : Défis et orientations
Des ressources éducatives libres aux MOOC : Défis et orientationsDes ressources éducatives libres aux MOOC : Défis et orientations
Des ressources éducatives libres aux MOOC : Défis et orientations
Gilbert Paquette
 
Introduction au web des données (Linked Data)
Introduction au web des données (Linked Data)Introduction au web des données (Linked Data)
Introduction au web des données (Linked Data)
BorderCloud
 
Meito workshop api - 6 fev 2012 - compilation.
Meito   workshop api - 6 fev 2012 - compilation.Meito   workshop api - 6 fev 2012 - compilation.
Meito workshop api - 6 fev 2012 - compilation.Yann Dieulangard
 
Linked Enterprise Data : disposer d’une vue consolidée des données de l'entre...
Linked Enterprise Data : disposer d’une vue consolidée des données de l'entre...Linked Enterprise Data : disposer d’une vue consolidée des données de l'entre...
Linked Enterprise Data : disposer d’une vue consolidée des données de l'entre...
Antidot
 

Similaire à IODS : Retour d’expériences au sein du Center for Data Science (20)

Fiche pratique IST Agropolis : Les Données de la Recherche : Questions-Réponses
Fiche pratique IST Agropolis : Les Données de la Recherche : Questions-RéponsesFiche pratique IST Agropolis : Les Données de la Recherche : Questions-Réponses
Fiche pratique IST Agropolis : Les Données de la Recherche : Questions-Réponses
 
FAIRisation d’analyses bioinformatiques.pdf
FAIRisation d’analyses bioinformatiques.pdfFAIRisation d’analyses bioinformatiques.pdf
FAIRisation d’analyses bioinformatiques.pdf
 
AGMQ 2011 : Les données libres et le territoire
AGMQ 2011 : Les données libres et le territoireAGMQ 2011 : Les données libres et le territoire
AGMQ 2011 : Les données libres et le territoire
 
Le "Lac de données" de l'Ina, un projet pour placer la donnée au cœur de l'or...
Le "Lac de données" de l'Ina, un projet pour placer la donnée au cœur de l'or...Le "Lac de données" de l'Ina, un projet pour placer la donnée au cœur de l'or...
Le "Lac de données" de l'Ina, un projet pour placer la donnée au cœur de l'or...
 
Mc jacquemot piv2017_c
Mc jacquemot piv2017_cMc jacquemot piv2017_c
Mc jacquemot piv2017_c
 
La Duck Conf - Initier un Datalab : rien à voir avec ce que j'imaginais !
La Duck Conf - Initier un Datalab : rien à voir avec ce que j'imaginais !La Duck Conf - Initier un Datalab : rien à voir avec ce que j'imaginais !
La Duck Conf - Initier un Datalab : rien à voir avec ce que j'imaginais !
 
Le Web de données - nouvelles pratiques de publication et nouveaux services?
Le Web de données - nouvelles pratiques de publication et nouveaux services? Le Web de données - nouvelles pratiques de publication et nouveaux services?
Le Web de données - nouvelles pratiques de publication et nouveaux services?
 
Introduction à la gestion des métadonnées
Introduction à la gestion des métadonnéesIntroduction à la gestion des métadonnées
Introduction à la gestion des métadonnées
 
Mémoire de fin d'étude - La big data et les réseaux sociaux
Mémoire de fin d'étude - La big data et les réseaux sociauxMémoire de fin d'étude - La big data et les réseaux sociaux
Mémoire de fin d'étude - La big data et les réseaux sociaux
 
Introduction au Plan de Gestion de Données
Introduction au Plan de Gestion de DonnéesIntroduction au Plan de Gestion de Données
Introduction au Plan de Gestion de Données
 
De l’open source à l’open cloud
De l’open source à l’open cloudDe l’open source à l’open cloud
De l’open source à l’open cloud
 
Presentation Dess Ebi
Presentation Dess EbiPresentation Dess Ebi
Presentation Dess Ebi
 
Analytics & Machine Learning avec la Data Virtualization
Analytics & Machine Learning avec la Data VirtualizationAnalytics & Machine Learning avec la Data Virtualization
Analytics & Machine Learning avec la Data Virtualization
 
Webinar Denodo & CRIP : Souveraineté, information sensible et data gouvernanc...
Webinar Denodo & CRIP : Souveraineté, information sensible et data gouvernanc...Webinar Denodo & CRIP : Souveraineté, information sensible et data gouvernanc...
Webinar Denodo & CRIP : Souveraineté, information sensible et data gouvernanc...
 
Datalift, une plateforme Linked Data, Retour d'expériences
Datalift, une plateforme Linked Data, Retour d'expériencesDatalift, une plateforme Linked Data, Retour d'expériences
Datalift, une plateforme Linked Data, Retour d'expériences
 
Les technologies big data avec speech commentaries
Les technologies big data avec speech commentariesLes technologies big data avec speech commentaries
Les technologies big data avec speech commentaries
 
Des ressources éducatives libres aux MOOC : Défis et orientations
Des ressources éducatives libres aux MOOC : Défis et orientationsDes ressources éducatives libres aux MOOC : Défis et orientations
Des ressources éducatives libres aux MOOC : Défis et orientations
 
Introduction au web des données (Linked Data)
Introduction au web des données (Linked Data)Introduction au web des données (Linked Data)
Introduction au web des données (Linked Data)
 
Meito workshop api - 6 fev 2012 - compilation.
Meito   workshop api - 6 fev 2012 - compilation.Meito   workshop api - 6 fev 2012 - compilation.
Meito workshop api - 6 fev 2012 - compilation.
 
Linked Enterprise Data : disposer d’une vue consolidée des données de l'entre...
Linked Enterprise Data : disposer d’une vue consolidée des données de l'entre...Linked Enterprise Data : disposer d’une vue consolidée des données de l'entre...
Linked Enterprise Data : disposer d’une vue consolidée des données de l'entre...
 

IODS : Retour d’expériences au sein du Center for Data Science

  • 1. Web 3.0 Hosting & Factory Karima Rafes, BorderCloud IODS Input/Output Data Science Retour d’expériences au sein du Center for Data Science de l’université Paris-Saclay 06/07/2017
  • 2. Karima Rafes karima.rafes@gmail.com @Karima_Rafes http://karimarafes.me Développeuse Web (des données) depuis 1999 CanalPlus (Canalnumédia), Orange Lab, Globecast, Experte UE, INRIA, etc. Fondatrice et CEO de BorderCloud depuis 2010 Logiciels-Formations-Conseils Email : karima.rafes@bordercloud.com Twitter : @BorderCloudInfo http://www.bordercloud.com/ Doctorante depuis 2014 Sujet de thèse : Gestion des données de la recherche en utilisant le Web sémantique
  • 3. 3 Nos services Formations Conseils Editeur logiciel Détails de nos services : http://www.bordercloud.com
  • 4. 4 Nos clients Depuis 2010, BorderCloud ne vit que pour et grâce à ses clients. (0% de subventions)
  • 5. 5 Introduction BorderCloud développe : • depuis 2010 des outils à destination des entreprises afin de mettre en œuvre le Web sémantique et • depuis 2015 une plateforme adapté aux data scientists dans les laboratoires de recherche • des formations • des expérimentations
  • 6. 1. Formations et expérimentations : prototypes, démonstrateurs & recherche
  • 7. 7 En production: IODS Depuis janvier 2016, le Center for Data Science Paris Saclay utilise la plateforme LinkedWiki V1 afin de réutiliser les données entre les chercheurs de l’université Paris Saclay https://io.datascience-paris-saclay.fr
  • 8. 8 En production: IODS Plate-forme pour le référencement des données et leurs réutilisations – ouvert depuis février 2016 pour l’université – 70 utilisateurs – 35 jeux de données ouvertes – 20 jeux de données semi-publics – >100 requêtes SPARQL  Formations internes et sensibilisation à l’ouverture et la réutilisation des données
  • 9. 9 Version pour tous Depuis septembre 2017, une version de démonstration est ouverte à toutes les personnes qui souhaitent tester la version 1 du logiciel. http://linkedwiki.com 60 utilisateurs, 34 sources de données, >80 requêtes SPARQL
  • 10. 10 Actions de formation depuis 2015 Mission de formation au Web des données au sein des laboratoires : • SHS : droit canonique, éducation (U-PSud Droit, ENS Cachan) • Chimie analytique : LipSys², IPS2 (U Paris Sud) • Science de la vie : LATMOS (IPSL) • Informatique : LRI  Environ 20 chercheurs ont suivi entre 1 et 5 jours de formations qui a donné lieu ensuite à des expérimentations
  • 11. 11 Les prototypes en expérimentation 1. Banc de test pour vérifier l’interopérabilité des solutions avant déploiement 2. Définition des ontologies au sein des laboratoires par les scientifiques 3. Référencement des scientifiques par chaque laboratoire  Etape suivante la traçabilité des données et l’environnement de travail pour les analyser
  • 12. 12 Les démonstrateurs en expérimentation 1. Systèmes d’information de partage des données au sein des laboratoires 2. Environnement de travail virtualisé pour les data scientists  Besoins de simplifier l’accès aux données tout en offrant le moyen de réutiliser les ressources de l’université (cloud, cluster,…)
  • 13. 13 Les recherches en cours • Mise à disposition des ressources données, cloud et HPC auprès de tous les chercheurs, étudiants au travers d’un guichet unique  Wikidata pour la science 2017, 30 scientifiques simultanément dans le cloud de l’université faisant du Big Data 1er cours/TP durant l’année scolaire 2017/18 afin de former les étudiants à l’utilisation du Web des données et à la production de données structurées dans leur domaine. • Faciliter l’accès aux données au travers de nouvelles fonctionnalités d’autocomplétion pour SPARQL  Premier résultat en production à partir de 2019
  • 14. 2. Plateforme LinkedWiki Plateforme pour le référencement des données et la réutilisation les données EN PRODUCTION
  • 15. 15 Plateforme LinkedWiki Un seul logiciel pour la réutilisation des données : du Big Data de la recherche des archives ouvertes des systèmes d’information Mutualisation des coûts de développement et de la maintenance Une solution unique pour tous les data scientists (Video)
  • 16. 16 Notre produit facilite la : La réutilisation des données disponibles dans une organisation. La déclaration des sources de données interopérables ou non. Le contrôle d’accès. Indispensable au sein d’un système d’information complexe afin d’aider les utilisateurs à réutiliser leurs données.
  • 17. 17 Problématiques (1/2) Face au raz de marée des données, les organisations rencontrent les difficultés suivantes : 1.Comment découvrir les données disponibles ? 2.Comment réutiliser des données avec des descriptions insuffisantes ? 3.Comment consommer ces données simplement dans nos applications ?
  • 18. 18 Problématiques (2/2) 4. Un scientifique passe 80% sont temps à traiter de la donnée plutôt que de travailler sur sa problématique. Comment automatiser les tâches récurrentes ? 5. Comment industrialiser les calculs d’un chercheur dans une organisation ? 6. Comment utiliser simplement les ressources de calculs dans une organisation ?
  • 19. 19 Sur le marché du Big Data ou de l’Open Data ? Les outils sont centrés sur : L’analyse des données La mise à disposition de fichiers La visualisation  Notre solution à l’inverse est centrée sur la réutilisation des données.
  • 20. 20 Notre solution centrée sur les données Démo 1 : trouver des données
  • 21. 21 Notre solution centrée sur les données Cela lui confère des caractéristiques uniques : Elle facilite la déclaration des données . Elle permet d’illustrer par l’exemple la manière de réutiliser les données. Elle facilite la recherche des données au travers d’un référentiel unique. Elle permet de tester concrètement si les données sont réellement accessibles.
  • 23. 23 Fonctionnement Déclaration Au sein d’un intranet ou d’un extranet, un utilisateur peut : Déclarer les sources des données privées ou publiques Fabriquer plus facilement les requêtes d’interrogation à ces sources de données. Rendre visible ou non aux autres utilisateurs du service les sources de données et les requêtes qu’il utilise.
  • 24. 24 Fonctionnement Illustration par l’exemple Démo 3 : apprentissage par l’exemple
  • 25. 25 Fonctionnement Illustration par l’exemple L’utilisateur peut facilement illustrer les données disponibles à l’aide de : Requêtes d’interrogation Graphiques Cartes  Très simple de générer des exercices ou des QCM à partir des données accessibles
  • 26. 26 Fonctionnement Découverte Démo 4 : découvrir des données
  • 27. 27 Fonctionnement Découverte Les utilisateurs peuvent lier leurs sources de données entre elles. Le référentiel utilisé est celui de Wikidata qui contient déjà des millions de concepts. L’utilisateur retrouve les données à travers une interface de recherche ou directement via Google et un gadget dans Wikipedia.  Faire du Web des données sans s’en rendre compte (Linked Data)
  • 28. 28 Fonctionnement Comparaison Démo 5 : réutilisation des données
  • 29. 29 Fonctionnement Comparaison L’utilisateur peut facilement Ecrire des requêtes Rejouer les requêtes écrites par ses collègues Améliorer les requêtes pour améliorer la description des données. Tester immédiatement les problèmes de qualité de service et la qualité réelle des données disponibles.
  • 30. 30 Fonctionnement Réutilisation L’utilisateur peut : Rechercher et télécharger intégralement une source de données à travers sa description. Rechercher des requêtes d’accès Réutiliser ces données dans son application en recopiant les codes d’exemples. Python, R, Ruby,SPARQL, HTML, Javascript, PHP, etc. Être notifié si la requête d’accès aux données change. Permettre la modification d’ontologies dans le temps et maintenir la QoS au sein d’un SI.
  • 31. 31 Points forts 1. Pour tous types de données : Données privées Données publiques – Open Data, Linked Open Data N'importe quel format : – RDF, JSON, Excel, CSV, PDF, etc. N'importe quel mode de distribution : – SPARQL, API, Torrent, site Web, etc.
  • 32. 32 Points forts 2. Pour tous types d’utilisateurs : Producteurs de données peuvent décrire leurs données au travers de requêtes. Administrateurs de bases de données pourront optimiser leurs requêtes et leurs bases de données. Développeurs pourront réutiliser les requêtes dans leurs applications en 1 click et être notifiés en cas de changement.
  • 33. 33 Points forts 3. Pour toutes les phases de la vie des données Les utilisateurs des données et des requêtes sont alertés en cas de modification. 4. Respect des standards du Web des données (Linked Data, W3C)
  • 34. 34 Gains Améliorer la collaboration – Entre les producteurs et les consommateurs de données. Partager plus efficacement les connaissances – Entre les métiers : chercheurs, développeurs, architectes, etc. Augmentation de la productivité – Les analystes n’ont plus à modifier le format des données avant de pouvoir les utiliser.
  • 35. 35 Mais bon… et le Big Data ? Black box du data-scientist Fichiers Flux Requêtes FTP, Torrent,… Kafka, Storm… SPARQL, REST, SQL… Interprétation Résultats Synthèse Publication, livre blanc, sondage,… Graphique, statistique, … Données pour être traitées par une autre machine ou pour les reproduire et ainsi vérifier l’interprétation ou la synthèse
  • 36. 36 Reproductibilité & Big Data ? Black box RésultatsSources La reproductibilité est presque impossible si la configuration d’exécution de la black-box n’est pas reproduite.
  • 37. 37 Notre produit V2 permettra (fin 2018) : De générer un environnement de travail pour data-scientists pré-connecté aux données De mettre à disposition ses résultats en respectant les standards du Web (partage des données, des algorithmes et de son ontologie) La mutualisation des ressources des calculs pour faciliter la reproductibilité
  • 38. 38 Manuel en attendant une IA Développement des Interfaces Du temps perdu et des étapes négligées Fichiers Flux Requêtes FTP, Torrent,… Kafka, Storm… SPARQL, REST, SQL… Interprétation Résultats Synthèse Traitement ETL Flux Archivage BDD Partage de l’ontologie, des données Calculs Clusterdecalcul
  • 39. 39 Stratégie 2017-2020 Découverte de l’env. de travail (étudiant, jeune chercheur) Evaluation des besoins nécessaires et premiers tests Transfère des volumes dans le cloud ayant accès au cluster Mise à disposition de résultats interopérables Instance de travail temporaire/sécurisée dans le cloud de l’université ou de l’organisation Instance de travail sécurisée, dimensionnée et archivée Les techniques existent... Ce qu’il manque c’est la volonté de le mettre en œuvre pour améliorer et accélérer la recherche.
  • 40. 40 Dernière démo Démo 6 : Générer mon environnement de travail
  • 41. 41 Journée Wikidata pour la science : mars 2016 Fin mars, 30 scientifiques simultanément ont testés la plateforme alpha V2 : • Partage, découverte et navigation dans les données au travers des protocoles du Web des données (V1) • Création d’un notebook pour faire du Big Data au sein du cloud de l’université afin avoir un environnement sécurisé en étant root avec Jupyter, SPARQL, SPARK, KAFKA, etc… (V2)
  • 42. 48 Difficultés Les solutions permettant l’hébergement de données ne sont jamais à 100% interopérable  Déception et frustration Il faut accompagner chaque laboratoire à produire correctement des données  Méthode à définir et à partager
  • 43. 2. TFT, Tests For Triplestores Banc de test pour vérifier l’interopérabilité des solutions avant déploiement
  • 44. Banc de test pour vérifier l’interopérabilité des bases de données Les scientifiques sont en mesure de vérifier les fonctionnalités des BDD avant de les déployer dans le cloud de l’université.
  • 45. 3. Production des données au sein des laboratoires par les scientifiques Description des connaissances de manière non structurée à travers le wiki public DAAP Validation et traduction des nouvelles connaissances Mise à disposition automatique des données structurées à travers du wiki Partage de la base de connaissances officielles Partage des protocoles et des mesures Sauvegarde des scripts de traitement, des données sélectionnées qui ont permis d’obtenir les résultats (artefacts, la publication) Sauvegarde des fichiers de données au sein du serveur de stockage en réseau partagé au sein de l’Université Définition de la requête pour sélectionner les données et écriture du script de traitement (MatLab ou R ou Python,...) Extraction des métadonnées en respectant la base de connaissances officielles Après chaque campagne de mesure En fonction des connaissance acquises définition d’un nouveau projet Détection des divergences entre la base de connaissances officielles et les nouvelles contributions Validation et traduction des connaissances en RDF Déploiement de l’ontologie Conception des infobox permettant d’afficher la base de connaissance directement sur le Wiki Public Accès restreint Hébergement des connaissances et des données brutes et des traitements qui ont permis de déduire ces connaissances Partage des nouvelles connaissances Publication des résultats Contributeur Description des protocoles expérimentales de manière non structurée à travers le wiki privé DAAP Groupe d’experts Chercheurs
  • 46. 52 Processus de production de données réutilisables au sein du système d’information Phase 1 : Formation des chercheurs et ingénieurs aux technologies du Web des données (Linked Data) et à Mediawiki qui souhaitent réutiliser des données au travers de leurs applications Phase 2 : Collaboration au travers du Wiki pour expliciter l’ontologie de leurs activités et ainsi décrire les données et les résultats qu’ils produisent Phase 3 : Appel à un ingénieur pour formaliser dans le Wiki les ontologies, définir les règles d’intégrité et implémenter les infoboxes nécessaires pour alimenter le système d’information. Phase 4 : Développer les applications simplifiant la collecte des données pour facilité la traçabilité des données dans l’université.
  • 47. 53 Démonstration Projet DAAP http://daap.eu Définition de l’ontologie dynamiquement Insertion de la description de leurs concepts Réutilisation des données au sein du Wiki Vérification des incohérences et problèmes d’intégrité
  • 48. 54 Démonstration au sein du système d’information Base de données RDF privées et publiques
  • 49. 55 Démonstration au sein du système d’information Réutilisation des données
  • 50. 56 Démonstration au sein du système d’information Facilite l’importation des données de la recherche
  • 51. 57 Démonstration au sein du système d’information Vérifier la sauvegarde des données (avant traitement)
  • 52. 58 Exemple de requêtes pour accéder aux données au sein du système d’informations
  • 54. 60 Conclusion (1/3) Le Web des données sert à fluidifier l’information sur Internet Le Big Data sert au traitement efficace des données afin de faciliter la prise de décisions  Le Web données et le Big Data sont les faces d’une même pièce qu’on appellera le Web sémantique.
  • 55. 61 SPARQL Conclusion (2/3) Le Linked Data supporte le fonctionnement des universités SPARQL Data Data Data Data Data Data Data Data Data Data Data Data Data Data Data Data Laboratoire Université Partenaire SPARQL httpLa décentralisation des données avec des structures différentes à travers le Web permet aussi de garder le contrôle des données par leurs propriétaires. Le croisement des données peut se faire du côté du client (respect des données privées) ou des serveurs.
  • 56. Conclusion (3/3) : IODS 1er proposition de mise en œuvre opérationnelle du Web des données à l’université.
  • 57. 63 Merci de soutenir le Web des données et BorderCloud !