SlideShare une entreprise Scribd logo
1  sur  168
Gautier Poupeau
gautier.poupeau@gmail.com
@lespetitescases
http://www.lespetitescases.net
Réalisation d’un mashup
de données
Second cours
Visualisation du « flow »
RÉCUPÉRER DES DONNÉES DE
WIKIDATA
PRÉSENTATION DE WIKIDATA
Les limites de Dbpedia
• Données structurées complexes à modifier
dans les Wikipedias
• Délai d’attente pour disposer de la mise à jour
(dbpedia mis à jour une fois par an)
• Données dispersées dans les différentes
versions de Dbpedia
• Dbpedia ne propose pas un niveau de service
compatible avec des impératifs de production
• Erreurs dans les extractions
Wikidata
• Projet officiel de la Wikimedia
Foundation
• Développée à partir de 2012 à
l’initiative de l’association
Wikimedia Deutschland
• Ouvert à tous
• Les données sont libres : CC0
• Le site est entièrement multilingue
• Objectif 1er
: centraliser et faciliter la
maintenance des données
structurées des Wikipedias
La gestion des liens interlangues
Ancien système Nouveau système
Gestion disséminée (données
dispersées sur 280 Wikipédias)
Gestion centralisée
Maintenance par une noria de robots Collecte par robots (sauf
ambiguïté), maintenance à la
main
La gestion des liens interlangues
[[af:Victor Hugo]]
[[als:Victor Hugo]]
[[an:Victor Hugo]]
[[ar:]]
[[arz:]]
[[ast:Victor Hugo]]
[[az:Viktor Hüqo]]
[[bat-smg:Victor Hugo]]
[[ba: , ]]Гюго Виктор
[[be-x-old: ]]Віктор Юго
[[be: ]]Віктор Гюго
[[bg: ]]Виктор Юго
[[bn:]]
[[br:Victor Hugo]]
[[cv: ]]Виктор Гюго
[[cy:Victor Hugo]]
[[da:Victor Hugo]]
[[de:Victor Hugo]]
[[diq:Victor Hugo]]
[[el: ]]Βίκτωρ Ουγκώ
[[en:Victor Hugo]]
Ancien système
Wikipédia
Nouveau système
Wikidata
La gestion des infobox
Ancien système Nouveau système
données dispersées (280 Wikipédias) données centralisées
mise à jour variable selon les Wikipédias gestion simplifiée des données
La gestion des infobox
{{Infobox Conjoint politique
| nom = Berthe Faure
| image = Faure.1212301544-
1-.jpg
| légende = Dessin supposé de
Berthe Faure, debout et de dos, lors du
décès de son mari (une du ''[[Le Petit
Journal (quotidien)|Petit Journal]]'').
| statut = [[Liste des épouses
des présidents de la République française|
Épouse du {{7e}} président de la République
française]]
| début = {{date|17|janvier|
1895}}
| fin = {{date|16|février|
1899}}<br /><small>(4 ans et 29
jours)</small>
| conjoint = [[Félix Faure]]
| prédécesseur = [[Hélène Casimir-
Perier]]
| successeur = [[Marie-Louise
Loubet]]
| nom de naissance = Marie-Mathilde Berthe
Belluot
| date de naissance = {{date de naissance|
21|février|1842}}
| lieu de naissance =
| date de décès = [[1920]] (à 78 ans)
| lieu de décès =
| profession =
}}
STRUCTURE DES DONNÉES DE
WIKIDATA
Structure des données de Wikidata
Lien avec l’article dans Wikipedia
Etiquettes, description et nature
Lien avec une autre entité
CONSTRUIRE UNE REQUÊTE
SPARQL AVEC WIKIDATA
Explorer les données disponibles
pour le type d’entité interrogée
Repérer les codes qui vont servir à
construire votre requête
Repérer les codes qui vont servir à
construire votre requête
Repérer les codes qui vont servir à
construire votre requête
Repérer les codes qui vont servir à
construire votre requête
Résumé des ressources intéressantes
• Etiquette de l’entité
• Alias de l’entité
• Nature de l’entité : P31
• Date de publication : P577
• Identifiant Imdb : P345
• Film : Q11424
et les URIS correspondantes
• http://www.w3.org/2000/01/rdf-schema#label
• http://www.w3.org/2004/02/skos/core#altLabel
• http://www.wikidata.org/prop/direct/P31
• http://www.wikidata.org/prop/direct/P577
• http://www.wikidata.org/prop/direct/P345
• http://www.wikidata.org/entity/Q11424
Attention à la hiérarchie des natures
Ce n’est pas la nature « Film » mais ses sous-classes…
Attention à la hiérarchie des natures
Dans ce cas, il s’agit d’une sous-classe directe de film
mais la hiérarchie peut être plus importante avec des
entités associées à chaque niveau  à prendre en
compte dans la construction de la requête !
Construire la requête SPARQL
SPARQL endpoint de Wikidata : https://query.wikidata.org/
Zone de saisie de la requête SPARQL
Choix des préfixes à ajouter dans la requête
Bouton pour lancer la requête
Zone d’affichage des résultats de la requête
Ajout des préfixes les plus communs
pour construire une requête
Ajout des préfixes les plus communs
pour construire une requête
Chercher les entités d’une
nature précise
Chercher les entités d’une
nature précise
Nombre de résultats : 191 153 résultats pour des entités de
nature « film » mais ce résultat ne prend pas en compte les
entités qui ont pour nature une sous-classe de film
Chercher les entités d’une
nature précise et ses sous-classes
Cette ligne signifie : « les entités d’un type dont la super-
classe quelque soit le niveau dans la hiérarchie est Film ». On
utilise le caractère « * » placé juste après la propriété
wdt:P279 = sous-classe de
Chercher les entités d’une
nature précise et ses sous-classes
Nombre de résultats : 435 030 résultats pour des entités de
nature « film » ou une de ses sous-classes
Ajout de la fonction « blazegraph » pour
récupérer les étiquettes des ressources
Indication de la langue des étiquettes à récupérer
Ajout de la chaîne « Label » à la variable
de la ressource
Ajout de la fonction « blazegraph » pour
récupérer les étiquettes des ressources
La requête échoue car elle est trop large
Limiter le nombre de résultats
Récupérer la date de publication
Filtrer avec la date de publication
Filtrer avec la date de publication
La requête échoue car le filtre n’est pas assez restreint
Filtrer avec la date de publication
Récupérer uniquement l’année
Récupérer l’identifiant Imdb
Récupérer les étiquettes
alternatives éventuelles
CHARGER LES DONNÉES DANS
DATAIKU
Ajouter un jeu de données depuis une URL
Saisir l’URL
Récupérer l’URL de la requête SPARQL
Construction de l’URL de requêtage
URL du web service
https://query.wikidata.org/bigdata/namespace/wdq/sparql
Format de la réponse de la requête SPARQL valeur du paramètre « format »
format=json
Requête SPARQL avec l’encodage URL valeur du paramètre « query »
query=PREFIX%20wd%3A%20%3Chttp%3A%2F%2Fwww.wikidata.org%2Fentity%2F%3E%0APREFIX%20wdt%3A%20%3Chttp%3A%2F
%2Fwww.wikidata.org%2Fprop%2Fdirect%2F%3E%0APREFIX%20wikibase%3A%20%3Chttp%3A%2F%2Fwikiba.se%2Fontology%23%3E
%0APREFIX%20p%3A%20%3Chttp%3A%2F%2Fwww.wikidata.org%2Fprop%2F%3E%0APREFIX%20ps%3A%20%3Chttp%3A%2F
%2Fwww.wikidata.org%2Fprop%2Fstatement%2F%3E%0APREFIX%20pq%3A%20%3Chttp%3A%2F%2Fwww.wikidata.org%2Fprop%2Fqualifier
%2F%3E%0APREFIX%20rdfs%3A%20%3Chttp%3A%2F%2Fwww.w3.org%2F2000%2F01%2Frdf-schema%23%3E%0APREFIX%20bd%3A
%20%3Chttp%3A%2F%2Fwww.bigdata.com%2Frdf%23%3E%0A%0ASELECT%20DISTINCT%20%3Ffilm%20%3FfilmLabel%20%3FaltLabel
%20%3FimdbID%20%3Fyear%0AWHERE%20%7B%0A%20%7B%7B%3Ffilm%20wdt%3AP31%20wd%3AQ11424.%7D%20UNION%20%7B%3Ffilm
%20wdt%3AP31%20%3Ftype.%20%3Ftype%20wdt%3AP279*%20wd%3AQ11424%7D%7D%0A%20%20%3Ffilm%20wdt
%3AP345%20%3FimdbID.%0A%20%20OPTIONAL%20%7B%3Ffilm%20skos%3AaltLabel%20%3FaltLabel.%20FILTER%20(lang(%3FaltLabel)%3D
%27fr%27)%7D%0A%20%20%3Ffilm%20wdt%3AP577%20%3Fdate%0A%20%20BIND%20(year(%3Fdate)%20AS%20%3Fyear)%0A%20%20FILTER
%20(%3Fdate%20%3E%3D%20%222008-01-01T00%3A00%3A00Z%22%5E%5Exsd%3AdateTime)%0A%20%20FILTER%20(%3Fdate%20%3C%3D
%20%222015-12-31T00%3A00%3A00Z%22%5E%5Exsd%3AdateTime)%0A%20%20SERVICE%20wikibase%3Alabel%20%7B%20%0A%09bd
%3AserviceParam%20wikibase%3Alanguage%20%22fr%22%0A%20%20%7D%0A%20%20%0A%7D
Astuce : service en ligne pour encoder une
chaîne pour une URL
http://meyerweb.com/eric/tools/dencoder/
Astuce : service en ligne pour encoder une
chaîne pour une URL
http://meyerweb.com/eric/tools/dencoder/
Saisir l’URL construit
Télécharger le jeu de données
Echec du téléchargement 
relancer le
Téléchargement effectué
Configurer le jeu de données
Par défaut, Dataiku choisit le type CSV, il n’arrive donc pas à
analyser les données.
Sélectionner le type « json »
Renseigner le jsonPath de boucle
La prévisualisation des données
s’affiche
Exploration du jeu de données
Liste des jeux de données chargés
Reproduire la procédure pour charger les films
entre 2000 et 2007
Visualisation du « flow »
Empilement des deux jeux de données
Sélection du premier jeu de données
Sélection du second jeu de données
Saisie du nom du nouveau jeu de données
Interface pour empiler les jeux de données
Mise à jour du schéma
Visualisation du « flow »
PRÉPARER LE 1ER
JEU DE DONNÉES
AVANT SA MISE EN RELATION
Interface de préparation des données
AJOUTER UNE VALEUR FIXE DANS
DES CELLULES VIDES
Résultat d’une jointure pour la
colonne « Premier Film ? »
Une valeur n’est présente que
dans les lignes jointes
Sélectionner le traitement
« Fill empty cells with fixed value »
Configuration du traitement
Résultat du traitement
SIMPLIFIER UN TEXTE POUR SA
COMPARAISON
Sélectionner le traitement
« Simplify text »
Créer une colonne avec le texte simplifié
Validation du nouveau schéma
PRÉPARER LE 2ND
JEU DE DONNÉES
AVANT SA MISE EN RELATION
Exploration des données
Suppression des colonnes inutiles
Renommer les colonnes
Conserver uniquement
l’identifiant Wikidata
PRÉPARER LES DONNÉES POUR
COMPARER LES TITRES
Objectifs
• Obtenir une ligne par titre ou titre alternatif à
comparer avec l’autre jeu de données
• Conserver uniquement les colonnes
nécessaires à la comparaison
• Normaliser le texte de la chaîne de la même
manière que dans l’autre jeu de données
Créer une chaîne de caractère à
partir du titre et du titre alternatif
Créer une ligne pour chaque partie
de la chaîne créée précédemment
Paramétrer le traitement
Supprimer la colonne altLabel
Simplification du texte
PRÉPARER LES DONNÉES POUR
COMPARER LES ANNÉES
Problématique et objectifs
L’année de publication dans Wikidata correspond à l’année de
production du film alors que l’année dans le jeu de données du
CNC correspond à l’année de sortie du film en France, il peut
parfois se passer plusieurs années entre les deux.
Pour optimiser les chances de jointure sans trop augmenter le
risque d’erreur, il est nécessaire de comparer les deux jeux de
données à deux années près. C’est-à-dire dans le jeu de données
provenant de Wikidata de créer autant de lignes que d’années
en plus (deux ans avant, un an avant, un an après, deux après).
Construire la chaîne de caractères
Créer une ligne pour chaque année
Sauvegarde et exécution du traitement
RELIER LES DEUX JEUX DE DONNÉES
Visualisation du « flow »
Choix du 1er
jeu de données à joindre
Configuration du résultat de la jointure
Choix du type de jointure
Sélection des champs pour effectuer la jointure
Sélection des champs pour effectuer la jointure
Choix des colonnes à conserver
Sauvegarde et mise à jour du schéma
de données
Exécution du traitement
SUPPRIMER LES LIGNES EN
DOUBLONS ET RÉORGANISER LE
JEU DE DONNÉES
Utilisation des recettes Python
Certaines lignes sont identiques…
Sélection d’une recette python
Création d’un nouveau jeu de données
résultat de la recette python
Création de la recette
Interface de la recette python
Chargement de la bibliothèque Pandas
http://pandas.pydata.org
Code pour dédoubloner les lignes
Affichage des colonnes
Réorganisation/suppression
des colonnes
Résultat du traitement
RÉCUPÉRER LES IMAGES
D’IMDB VIA OMDB
Visualisation du « flow »
Utilisation du site OMDb API
OMDb API est un service gratuit qui
met à disposition une API pour
obtenir des informations sur les films
dont les images des affiches.
Un film est trouvé via
son identifiant IMDb
ou son titre
Récupérer les données d’OMDb API
Un plugin Dataiku propose une recette
spécifique pour récupérer les infos à
partir de l’identifiant IMDDB ce qui
correspond parfaitement à notre besoin.
Malheureusement, un petit bug empêche
son utilisation (cf.
https://github.com/dataiku/dataiku-contrib/issues/42
)
Pour simplifier le tutoriel, un jeu
de données contenant les
informations d’OMDb pour les
films traités est mis à disposition
sur GitHub :
https://github.com/lespetitescases/datasets/blob/master/imdbInformations.csv?raw=true
Ajout d’un nouveau jeu de données
depuis le « flow »
Saisie de l’URL et récupération
du jeu de données
Configuration du jeu de données
Création d’une jointure
Choix du type de jointure
Choix des colonnes pour la jointure
Choix des colonnes à conserver
Exécution du traitement
Résultat de la jointure
Création d’une recette à partir de
l’IHM d’exploration
Création d’une nouvelle recette de
préparation
Construire une URL complète pour les affiches
https://image.tmdb.org/t/p/w300/ + URL relative récupérée d’OMDB
Construire l’URL vers la page du film sur IMDb
http://www.imdb.com/title/ + imdbId +/
VISUALISER DANS PALLADIO
EXPORTER LES DONNÉES DE
DATAIKU
Exporter les données depuis Dataiku
Configuration de l’export
Exécution de l’export
CHARGER LES DONNÉES DANS
PALLADIO
Page d’accueil de Palladio
http://hdlab.stanford.edu/palladio/
Interface de chargement des données
Il faut glisser le fichier CSV obtenu
précédemment dans cette zone
Les données sont directement
chargées dans la zone de texte
Interface de configuration des données
Interface de configuration d’un champ
Configuration du type de
données
Si le champ contient un
identifiant, il est posible
de charger les données
associées via un autre
fichier CSV
Gestion des champs à valeurs multiples
Configuration du
caractère de séparation
des valeurs
Configuration du nom de la table
L’ONGLET « GALLERY »
Paramétrer la vue « Gallery »
Association d’un champ aux
différentes informations de
la Gallery
Choix du champ
Résultat final
Résultat final
QUELQUES RECETTES PYTHON
INDISPENSABLES
ANNEXES
http://pandas.pydata.org/
RÉORGANISER DES COLONNES
Recette n°1
Sélectionner une recette python
Modifier le script python
# -*- coding: utf-8 -*-
import dataiku
import pandas as pd, numpy as np
from dataiku import pandasutils as pdu
# Chargement du jeu de donnée Dataiku
Dataset_en_entree = dataiku.Dataset(« Nom_du_dataset")
# Transformation du jeu de donnée en Panda Dataframe
Dataset_en_entree _df = Dataset_en_entree .get_dataframe()
#Réorganisation et sélection des colonnes dans l’ordre de déclaration ci-dessous
final_df = Dataset_en_entree _df [[‘nom colonne 1', 'tnom colonne 2',‘nom colonne 3']]
# Déclaration d’un nouveau jeu de donnée Dataiku
final = dataiku.Dataset("final")
# Alimentation du jeu de donnée avec le dataframe obtenu précédemment
final.write_with_schema(final_df)
Par défaut, le script Python contient les déclarations d’imports de bibliothèques,
le jeu de données en entrée , le jeu de données en sortie
SUPPRIMER LES LIGNES EN DOUBLON
Recette n°2
Sélectionner une recette python
Modifier le script python
# -*- coding: utf-8 -*-
import dataiku
import pandas as pd, numpy as np
from dataiku import pandasutils as pdu
# Chargement du jeu de donnée Dataiku
Dataset_en_entree = dataiku.Dataset(« Nom_du_dataset")
# Transformation du jeu de donnée en Panda Dataframe
Dataset_en_entree _df = Dataset_en_entree .get_dataframe()
#Supprimer les lignes en doublon en prenant en compte les valeurs de toutes les colonnes
final_df = Dataset_en_entree _df.drop_duplicates()
#Supprimer les lignes en doublon en prenant en compte les valeurs d’une colonne
#final_df = Dataset_en_entree _df drop_duplicates(subset=‘nom de la colonne')
#Supprimer les lignes en doublon en prenant en compte les valeurs de plusieurs colonnes
#final_df = Dataset_en_entree _df drop_duplicates(subset=[‘nom de la colonne 1‘, ‘nom de la colonne 2‘])
# Déclaration d’un nouveau jeu de donnée Dataiku
final = dataiku.Dataset("final")
# Alimentation du jeu de donnée avec le dataframe obtenu précédemment
final.write_with_schema(final_df)
DÉNORMALISER LES LIGNES
Recette n°3
Objectif
Une ligne par film et
personne distincte
Une ligne par film
Sélectionner une recette python
Modifier le script python
# -*- coding: utf-8 -*-
import dataiku
import pandas as pd, numpy as np
from dataiku import pandasutils as pdu
# Chargement du jeu de donnée Dataiku
Dataset_en_entree = dataiku.Dataset(« Nom_du_dataset")
# Transformation du jeu de donnée en Panda Dataframe
Dataset_en_entree _df = Dataset_en_entree .get_dataframe()
#Supprimer les lignes en doublon en prenant en compte les valeurs de toutes les colonnes
groupby= Dataset_en_entree _df.groupby(‘nom colonne distincte‘)[‘nom colonne liste'].apply(lambda x:
x.tolist()).to_frame().reset_index().to_dict(orient='list')
#Transformer un dictionnaire Python en dataframe Panda
final_df = pd.DataFrame.from_dict(groupby)
# Déclaration d’un nouveau jeu de donnée Dataiku
final = dataiku.Dataset("final")
# Alimentation du jeu de donnée avec le dataframe obtenu précédemment
final.write_with_schema(final_df)
SYNCHRONISER LES DONNÉES AVEC
UNE BASE DE DONNÉES MYSQL
Installer le driver JDBC
https://doc.dataiku.com/dss/latest/installation/jdbc.html
Entrer dans l’administration
Ajouter une connexion
Configuration de la connexion
Exemple de connexion
Penser à ajouter la propriété
avancée suivante
Ajouter une recette de synchronisation
Paramétrer et exécuter la
synchronisation

Contenu connexe

Tendances

Designing ETL Pipelines with Structured Streaming and Delta Lake—How to Archi...
Designing ETL Pipelines with Structured Streaming and Delta Lake—How to Archi...Designing ETL Pipelines with Structured Streaming and Delta Lake—How to Archi...
Designing ETL Pipelines with Structured Streaming and Delta Lake—How to Archi...
Databricks
 
Knowledge Graphs - The Power of Graph-Based Search
Knowledge Graphs - The Power of Graph-Based SearchKnowledge Graphs - The Power of Graph-Based Search
Knowledge Graphs - The Power of Graph-Based Search
Neo4j
 

Tendances (20)

Secrets of the DSpace Submission Form
Secrets of the DSpace Submission FormSecrets of the DSpace Submission Form
Secrets of the DSpace Submission Form
 
ORC Deep Dive 2020
ORC Deep Dive 2020ORC Deep Dive 2020
ORC Deep Dive 2020
 
Designing ETL Pipelines with Structured Streaming and Delta Lake—How to Archi...
Designing ETL Pipelines with Structured Streaming and Delta Lake—How to Archi...Designing ETL Pipelines with Structured Streaming and Delta Lake—How to Archi...
Designing ETL Pipelines with Structured Streaming and Delta Lake—How to Archi...
 
Importing Data into Neo4j quickly and easily - StackOverflow
Importing Data into Neo4j quickly and easily - StackOverflowImporting Data into Neo4j quickly and easily - StackOverflow
Importing Data into Neo4j quickly and easily - StackOverflow
 
Time to Talk about Data Mesh
Time to Talk about Data MeshTime to Talk about Data Mesh
Time to Talk about Data Mesh
 
Metadata is a Love Note to the Future
Metadata is a Love Note to the FutureMetadata is a Love Note to the Future
Metadata is a Love Note to the Future
 
Spark SQL Deep Dive @ Melbourne Spark Meetup
Spark SQL Deep Dive @ Melbourne Spark MeetupSpark SQL Deep Dive @ Melbourne Spark Meetup
Spark SQL Deep Dive @ Melbourne Spark Meetup
 
Introduction SQL Analytics on Lakehouse Architecture
Introduction SQL Analytics on Lakehouse ArchitectureIntroduction SQL Analytics on Lakehouse Architecture
Introduction SQL Analytics on Lakehouse Architecture
 
File Format Benchmarks - Avro, JSON, ORC, & Parquet
File Format Benchmarks - Avro, JSON, ORC, & ParquetFile Format Benchmarks - Avro, JSON, ORC, & Parquet
File Format Benchmarks - Avro, JSON, ORC, & Parquet
 
Knowledge Graphs - The Power of Graph-Based Search
Knowledge Graphs - The Power of Graph-Based SearchKnowledge Graphs - The Power of Graph-Based Search
Knowledge Graphs - The Power of Graph-Based Search
 
Making Data Timelier and More Reliable with Lakehouse Technology
Making Data Timelier and More Reliable with Lakehouse TechnologyMaking Data Timelier and More Reliable with Lakehouse Technology
Making Data Timelier and More Reliable with Lakehouse Technology
 
Databricks Delta Lake and Its Benefits
Databricks Delta Lake and Its BenefitsDatabricks Delta Lake and Its Benefits
Databricks Delta Lake and Its Benefits
 
Architect’s Open-Source Guide for a Data Mesh Architecture
Architect’s Open-Source Guide for a Data Mesh ArchitectureArchitect’s Open-Source Guide for a Data Mesh Architecture
Architect’s Open-Source Guide for a Data Mesh Architecture
 
Redshift at Lightspeed: How to continuously optimize and modify Redshift sche...
Redshift at Lightspeed: How to continuously optimize and modify Redshift sche...Redshift at Lightspeed: How to continuously optimize and modify Redshift sche...
Redshift at Lightspeed: How to continuously optimize and modify Redshift sche...
 
Achieving Lakehouse Models with Spark 3.0
Achieving Lakehouse Models with Spark 3.0Achieving Lakehouse Models with Spark 3.0
Achieving Lakehouse Models with Spark 3.0
 
Data catalog
Data catalogData catalog
Data catalog
 
PostgreSQL Deep Internal
PostgreSQL Deep InternalPostgreSQL Deep Internal
PostgreSQL Deep Internal
 
Working with JSON Data in PostgreSQL vs. MongoDB
Working with JSON Data in PostgreSQL vs. MongoDBWorking with JSON Data in PostgreSQL vs. MongoDB
Working with JSON Data in PostgreSQL vs. MongoDB
 
Thinking big
Thinking bigThinking big
Thinking big
 
A la découverte du Web sémantique
A la découverte du Web sémantiqueA la découverte du Web sémantique
A la découverte du Web sémantique
 

En vedette

Open Source ETL vs Commercial ETL
Open Source ETL vs Commercial ETLOpen Source ETL vs Commercial ETL
Open Source ETL vs Commercial ETL
Jonathan Levin
 

En vedette (20)

Data in the center of the Information System
Data in the center of the Information SystemData in the center of the Information System
Data in the center of the Information System
 
Information numérique : défintions et enjeux
Information numérique : défintions et enjeuxInformation numérique : défintions et enjeux
Information numérique : défintions et enjeux
 
SPARQL, comment illuminer vos mashups en consommant les données du Linked Data ?
SPARQL, comment illuminer vos mashups en consommant les données du Linked Data ?SPARQL, comment illuminer vos mashups en consommant les données du Linked Data ?
SPARQL, comment illuminer vos mashups en consommant les données du Linked Data ?
 
Les technologies du Web appliquées aux données structurées (1ère partie : Enc...
Les technologies du Web appliquées aux données structurées (1ère partie : Enc...Les technologies du Web appliquées aux données structurées (1ère partie : Enc...
Les technologies du Web appliquées aux données structurées (1ère partie : Enc...
 
Le Web de données et les bibliothèques
Le Web de données et les bibliothèquesLe Web de données et les bibliothèques
Le Web de données et les bibliothèques
 
RDF en quelques slides
RDF en quelques slidesRDF en quelques slides
RDF en quelques slides
 
Antidot Content Classifier - Valorisez vos contenus
Antidot Content Classifier - Valorisez vos contenusAntidot Content Classifier - Valorisez vos contenus
Antidot Content Classifier - Valorisez vos contenus
 
Les technologies du Web appliquées aux données structurées (2ème partie : Rel...
Les technologies du Web appliquées aux données structurées (2ème partie : Rel...Les technologies du Web appliquées aux données structurées (2ème partie : Rel...
Les technologies du Web appliquées aux données structurées (2ème partie : Rel...
 
Scalable Text Mining
Scalable Text MiningScalable Text Mining
Scalable Text Mining
 
Standards et outils XML
Standards et outils XMLStandards et outils XML
Standards et outils XML
 
GeoKettle: A powerful open source spatial ETL tool
GeoKettle: A powerful open source spatial ETL toolGeoKettle: A powerful open source spatial ETL tool
GeoKettle: A powerful open source spatial ETL tool
 
Éléments de catalogage des livres anciens
Éléments de catalogage des livres anciensÉléments de catalogage des livres anciens
Éléments de catalogage des livres anciens
 
Web sémantique, Web de données, Web 3.0, Linked Data... Quelques repères pour...
Web sémantique, Web de données, Web 3.0, Linked Data... Quelques repères pour...Web sémantique, Web de données, Web 3.0, Linked Data... Quelques repères pour...
Web sémantique, Web de données, Web 3.0, Linked Data... Quelques repères pour...
 
Le web sémantique par l'exemple
Le web sémantique par l'exempleLe web sémantique par l'exemple
Le web sémantique par l'exemple
 
Graph Database Prototyping made easy with Graphgen
Graph Database Prototyping made easy with GraphgenGraph Database Prototyping made easy with Graphgen
Graph Database Prototyping made easy with Graphgen
 
L’apport des technologies du Web sémantique à la gestion des données structur...
L’apport des technologies du Web sémantique à la gestion des données structur...L’apport des technologies du Web sémantique à la gestion des données structur...
L’apport des technologies du Web sémantique à la gestion des données structur...
 
Open Source ETL vs Commercial ETL
Open Source ETL vs Commercial ETLOpen Source ETL vs Commercial ETL
Open Source ETL vs Commercial ETL
 
Les professionnels de l'information face aux défis du Web de données
Les professionnels de l'information face aux défis du Web de donnéesLes professionnels de l'information face aux défis du Web de données
Les professionnels de l'information face aux défis du Web de données
 
Atelier EDS - outil découverte
Atelier EDS - outil découverteAtelier EDS - outil découverte
Atelier EDS - outil découverte
 
Atelier Evernote
Atelier EvernoteAtelier Evernote
Atelier Evernote
 

Similaire à Réalisation d'un mashup de données avec DSS de Dataiku et visualisation avec Palladio - Deuxième partie

introduction au SQL et MySQL
introduction au SQL et MySQLintroduction au SQL et MySQL
introduction au SQL et MySQL
Abdoulaye Dieng
 
Digital GraphTour Paris - Neo4j 4.0, les nouveautés
Digital GraphTour Paris - Neo4j 4.0, les nouveautésDigital GraphTour Paris - Neo4j 4.0, les nouveautés
Digital GraphTour Paris - Neo4j 4.0, les nouveautés
Neo4j
 
B5260 g formation-ibm-cognos-bi-report-studio-creation-de-rapports
B5260 g formation-ibm-cognos-bi-report-studio-creation-de-rapportsB5260 g formation-ibm-cognos-bi-report-studio-creation-de-rapports
B5260 g formation-ibm-cognos-bi-report-studio-creation-de-rapports
CERTyou Formation
 

Similaire à Réalisation d'un mashup de données avec DSS de Dataiku et visualisation avec Palladio - Deuxième partie (20)

Sql &amp; excel
Sql &amp; excelSql &amp; excel
Sql &amp; excel
 
chapitre 1 Android 2.pptx
chapitre 1 Android 2.pptxchapitre 1 Android 2.pptx
chapitre 1 Android 2.pptx
 
resume-theorique-m106-partie3-0903-1-622f07613b825.pdf
resume-theorique-m106-partie3-0903-1-622f07613b825.pdfresume-theorique-m106-partie3-0903-1-622f07613b825.pdf
resume-theorique-m106-partie3-0903-1-622f07613b825.pdf
 
JABES 2018 - Focus sur l'exposition des données
JABES 2018 - Focus sur l'exposition des donnéesJABES 2018 - Focus sur l'exposition des données
JABES 2018 - Focus sur l'exposition des données
 
Livecast: Mettez à disposition de vos partenaires une base de données SQL Azure
Livecast: Mettez à disposition de vos partenaires une base de données SQL AzureLivecast: Mettez à disposition de vos partenaires une base de données SQL Azure
Livecast: Mettez à disposition de vos partenaires une base de données SQL Azure
 
Linq et Entity framework
Linq et Entity frameworkLinq et Entity framework
Linq et Entity framework
 
introduction au SQL et MySQL
introduction au SQL et MySQLintroduction au SQL et MySQL
introduction au SQL et MySQL
 
LabVIEW™ internet and network applications
LabVIEW™ internet and network applicationsLabVIEW™ internet and network applications
LabVIEW™ internet and network applications
 
aligner ses autorités avec Viaf et IdRef
aligner ses autorités avec Viaf et IdRefaligner ses autorités avec Viaf et IdRef
aligner ses autorités avec Viaf et IdRef
 
Gestion des données d'entreprise à l'ère de MongoDB et du Data Lake
Gestion des données d'entreprise à l'ère de MongoDB et du Data LakeGestion des données d'entreprise à l'ère de MongoDB et du Data Lake
Gestion des données d'entreprise à l'ère de MongoDB et du Data Lake
 
Mise à niveau de Sharepoint 2007 vers Sharepoint 20102010
Mise à niveau de Sharepoint 2007 vers Sharepoint 20102010Mise à niveau de Sharepoint 2007 vers Sharepoint 20102010
Mise à niveau de Sharepoint 2007 vers Sharepoint 20102010
 
Introduction au développement Web
Introduction au développement Web Introduction au développement Web
Introduction au développement Web
 
Journées SQL 2014 - Hive ou la convergence entre datawarehouse et Big Data
Journées SQL 2014 - Hive ou la convergence entre datawarehouse et Big DataJournées SQL 2014 - Hive ou la convergence entre datawarehouse et Big Data
Journées SQL 2014 - Hive ou la convergence entre datawarehouse et Big Data
 
Digital GraphTour Paris - Neo4j 4.0, les nouveautés
Digital GraphTour Paris - Neo4j 4.0, les nouveautésDigital GraphTour Paris - Neo4j 4.0, les nouveautés
Digital GraphTour Paris - Neo4j 4.0, les nouveautés
 
Présentaion sur le modéle JDBC JEE .pptx
Présentaion sur le modéle JDBC JEE .pptxPrésentaion sur le modéle JDBC JEE .pptx
Présentaion sur le modéle JDBC JEE .pptx
 
Alphorm.com Formation Informatica PowerCenter : Installer et Configurer
Alphorm.com Formation Informatica PowerCenter : Installer et ConfigurerAlphorm.com Formation Informatica PowerCenter : Installer et Configurer
Alphorm.com Formation Informatica PowerCenter : Installer et Configurer
 
Le langage sql
Le langage sqlLe langage sql
Le langage sql
 
Le langage sql
Le langage sqlLe langage sql
Le langage sql
 
Alphorm.com Formation SAP Crystal Reports : Niveau Perfectionnement
Alphorm.com Formation SAP Crystal Reports : Niveau PerfectionnementAlphorm.com Formation SAP Crystal Reports : Niveau Perfectionnement
Alphorm.com Formation SAP Crystal Reports : Niveau Perfectionnement
 
B5260 g formation-ibm-cognos-bi-report-studio-creation-de-rapports
B5260 g formation-ibm-cognos-bi-report-studio-creation-de-rapportsB5260 g formation-ibm-cognos-bi-report-studio-creation-de-rapports
B5260 g formation-ibm-cognos-bi-report-studio-creation-de-rapports
 

Plus de Gautier Poupeau

Plus de Gautier Poupeau (10)

Le "Lac de données" de l'Ina, un projet pour placer la donnée au cœur de l'or...
Le "Lac de données" de l'Ina, un projet pour placer la donnée au cœur de l'or...Le "Lac de données" de l'Ina, un projet pour placer la donnée au cœur de l'or...
Le "Lac de données" de l'Ina, un projet pour placer la donnée au cœur de l'or...
 
Why I don't use Semantic Web technologies anymore, event if they still influe...
Why I don't use Semantic Web technologies anymore, event if they still influe...Why I don't use Semantic Web technologies anymore, event if they still influe...
Why I don't use Semantic Web technologies anymore, event if they still influe...
 
Visite guidée au pays de la donnée - Du modèle conceptuel au modèle physique
Visite guidée au pays de la donnée - Du modèle conceptuel au modèle physiqueVisite guidée au pays de la donnée - Du modèle conceptuel au modèle physique
Visite guidée au pays de la donnée - Du modèle conceptuel au modèle physique
 
Visite guidée au pays de la donnée - Traitement automatique des données
Visite guidée au pays de la donnée - Traitement automatique des donnéesVisite guidée au pays de la donnée - Traitement automatique des données
Visite guidée au pays de la donnée - Traitement automatique des données
 
Visite guidée au pays de la donnée - Introduction et tour d'horizon
Visite guidée au pays de la donnée - Introduction et tour d'horizonVisite guidée au pays de la donnée - Introduction et tour d'horizon
Visite guidée au pays de la donnée - Introduction et tour d'horizon
 
Un modèle de données unique pour les collections de l'Ina, pourquoi ? Comment ?
Un modèle de données unique pour les collections de l'Ina, pourquoi ? Comment ?Un modèle de données unique pour les collections de l'Ina, pourquoi ? Comment ?
Un modèle de données unique pour les collections de l'Ina, pourquoi ? Comment ?
 
Big data, Intelligence artificielle, quelles conséquences pour les profession...
Big data, Intelligence artificielle, quelles conséquences pour les profession...Big data, Intelligence artificielle, quelles conséquences pour les profession...
Big data, Intelligence artificielle, quelles conséquences pour les profession...
 
Aligner vos données avec Wikidata grâce à l'outil Open Refine
Aligner vos données avec Wikidata grâce à l'outil Open RefineAligner vos données avec Wikidata grâce à l'outil Open Refine
Aligner vos données avec Wikidata grâce à l'outil Open Refine
 
Découverte du SPARQL endpoint de HAL
Découverte du SPARQL endpoint de HALDécouverte du SPARQL endpoint de HAL
Découverte du SPARQL endpoint de HAL
 
Index nominum to ontology
Index nominum to ontologyIndex nominum to ontology
Index nominum to ontology
 

Réalisation d'un mashup de données avec DSS de Dataiku et visualisation avec Palladio - Deuxième partie