Les TIC et l'art
OpenRefine
9 juin 2016
Institut national d'histoire de l'art
Accès:
6, rue des Petits-Champs
75002Paris
A...
Les TIC et l'art
OpenRefine
9 juin 2016
Institut national d'histoire de l'art
Accès:
6, rue des Petits-Champs
75002Paris
A...
Les TIC et l'art
OpenRefine
9 juin 2016
Institut national d'histoire de l'art
Accès:
6, rue des Petits-Champs
75002Paris
A...
Les TIC et l'art
OpenRefine
9 juin 2016
Institut national d'histoire de l'art
Accès:
6, rue des Petits-Champs
75002Paris
A...
Les TIC et l'art
OpenRefine
9 juin 2016
Institut national d'histoire de l'art
Accès:
6, rue des Petits-Champs
75002Paris
A...
Les TIC et l'art
OpenRefine
9 juin 2016
Institut national d'histoire de l'art
Accès:
6, rue des Petits-Champs
75002Paris
A...
Les TIC et l'art
OpenRefine
9 juin 2016
Institut national d'histoire de l'art
Accès:
6, rue des Petits-Champs
75002Paris
A...
Les TIC et l'art
OpenRefine
9 juin 2016
Institut national d'histoire de l'art
Accès:
6, rue des Petits-Champs
75002Paris
A...
Les TIC et l'art
OpenRefine
9 juin 2016
Institut national d'histoire de l'art
Accès:
6, rue des Petits-Champs
75002Paris
A...
Les TIC et l'art
OpenRefine
9 juin 2016
Institut national d'histoire de l'art
Accès:
6, rue des Petits-Champs
75002Paris
A...
Les TIC et l'art
OpenRefine
9 juin 2016
Institut national d'histoire de l'art
Accès:
6, rue des Petits-Champs
75002Paris
A...
Les TIC et l'art
OpenRefine
9 juin 2016
Institut national d'histoire de l'art
Accès:
6, rue des Petits-Champs
75002Paris
A...
Prochain SlideShare
Chargement dans…5
×

OpenRefine: traitement de données en masse

2 209 vues

Publié le

OpenRefine (anciennement Google Refine) est un outil puissant pour manipuler de grandes quantités de données, permettant des opérations de nettoyage en masse, l’exploration rapide de jeux de données, la conversion d’un format à l’autre, l’application de transformations cellulaires de base et avancées, le filtrage et le partitionnement des données avec des expressions régulières, l’extraction d’entités nommées sur des champs de texte intégral... Son usage, en tant qu’outil libre et gratuit, s’impose donc rapidement et cet atelier offrira un aperçu large de ses possibilités à l’appui de cas concrets.

Publié dans : Formation
0 commentaire
1 j’aime
Statistiques
Remarques
  • Soyez le premier à commenter

Aucun téléchargement
Vues
Nombre de vues
2 209
Sur SlideShare
0
Issues des intégrations
0
Intégrations
2
Actions
Partages
0
Téléchargements
3
Commentaires
0
J’aime
1
Intégrations 0
Aucune incorporation

Aucune remarque pour cette diapositive

OpenRefine: traitement de données en masse

  1. 1. Les TIC et l'art OpenRefine 9 juin 2016 Institut national d'histoire de l'art Accès: 6, rue des Petits-Champs 75002Paris Adresse postale: 2, rue Vivienne 75002Paris Métro : Bourse, Pyramides Palais royal/Musée du Louvre Tél. : +33 (0) 1 47 03 8984 Fax : +33 (0) 1 47 03 8636 lesticetlart@inha.fr http://invisu.inha.fr Les TIC et l’art OpenRefine traitement de données en masse Antoine Courtin / Pierre Mounier /Antonio Mendes da Silva – jeudi 9 juin 2016
  2. 2. Les TIC et l'art OpenRefine 9 juin 2016 Institut national d'histoire de l'art Accès: 6, rue des Petits-Champs 75002Paris Adresse postale: 2, rue Vivienne 75002Paris Métro : Bourse, Pyramides Palais royal/Musée du Louvre Tél. : +33 (0) 1 47 03 8984 Fax : +33 (0) 1 47 03 8636 lesticetlart@inha.fr http://invisu.inha.fr LOD cloud diagram d’août 2014 L’outil OpenRefine est historiquement lié à l’existence de Freebase, l’un des tous premiers projets collaboratifs d’entrepôts de données sémantiques sur le web
  3. 3. Les TIC et l'art OpenRefine 9 juin 2016 Institut national d'histoire de l'art Accès: 6, rue des Petits-Champs 75002Paris Adresse postale: 2, rue Vivienne 75002Paris Métro : Bourse, Pyramides Palais royal/Musée du Louvre Tél. : +33 (0) 1 47 03 8984 Fax : +33 (0) 1 47 03 8636 lesticetlart@inha.fr http://invisu.inha.fr Qu’est-ce qu’OpenRefine ? Historique : 2007 mars : Metaweb lance Freebase 2010 : Freebase est proposée avec l’outil de nettoyage et de traitement des données Gridworks (v1.0) 2010 juillet : Google rachète Metaweb 2010 nov : Gridworks devient Google Refine 2012 oct : Arrêt de Google Refine dont le code est libéré et qui devient OpenRefine [2012 : Le contenu de Freebase est transféré sur Wikidata 2014 déc : Google annonce la fermeture de Freebase 2015 : Fermeture progressive de Freebase et des services associés 2016 mai : Fermeture définitive de Freebase …………………..]
  4. 4. Les TIC et l'art OpenRefine 9 juin 2016 Institut national d'histoire de l'art Accès: 6, rue des Petits-Champs 75002Paris Adresse postale: 2, rue Vivienne 75002Paris Métro : Bourse, Pyramides Palais royal/Musée du Louvre Tél. : +33 (0) 1 47 03 8984 Fax : +33 (0) 1 47 03 8636 lesticetlart@inha.fr http://invisu.inha.fr Un tutoriel pas à pas sur OpenRefine : http://enipedia.tudelft.nl/wiki/OpenRefine_Tutorial
  5. 5. Les TIC et l'art OpenRefine 9 juin 2016 Institut national d'histoire de l'art Accès: 6, rue des Petits-Champs 75002Paris Adresse postale: 2, rue Vivienne 75002Paris Métro : Bourse, Pyramides Palais royal/Musée du Louvre Tél. : +33 (0) 1 47 03 8984 Fax : +33 (0) 1 47 03 8636 lesticetlart@inha.fr http://invisu.inha.fr 1. Installation d’OpenRefine : http://openrefine.org/download.html
  6. 6. Les TIC et l'art OpenRefine 9 juin 2016 Institut national d'histoire de l'art Accès: 6, rue des Petits-Champs 75002Paris Adresse postale: 2, rue Vivienne 75002Paris Métro : Bourse, Pyramides Palais royal/Musée du Louvre Tél. : +33 (0) 1 47 03 8984 Fax : +33 (0) 1 47 03 8636 lesticetlart@inha.fr http://invisu.inha.fr 2. Récupérer un set de données à nettoyer pour l’atelier : http://enipedia.tudelft.nl/wiki/OpenRefine_Tutorial
  7. 7. Les TIC et l'art OpenRefine 9 juin 2016 Institut national d'histoire de l'art Accès: 6, rue des Petits-Champs 75002Paris Adresse postale: 2, rue Vivienne 75002Paris Métro : Bourse, Pyramides Palais royal/Musée du Louvre Tél. : +33 (0) 1 47 03 8984 Fax : +33 (0) 1 47 03 8636 lesticetlart@inha.fr http://invisu.inha.fr Exercices…
  8. 8. Les TIC et l'art OpenRefine 9 juin 2016 Institut national d'histoire de l'art Accès: 6, rue des Petits-Champs 75002Paris Adresse postale: 2, rue Vivienne 75002Paris Métro : Bourse, Pyramides Palais royal/Musée du Louvre Tél. : +33 (0) 1 47 03 8984 Fax : +33 (0) 1 47 03 8636 lesticetlart@inha.fr http://invisu.inha.fr Où les trouver ? Comment les installer ? • Sur le site officiel, à la page des téléchargments -> http://openrefine.org/download.html • sur Github, dans des répertoires spécifiques (recherche sur « plugin et/ou extension) -> http://bit.ly/1X9TEx4 -> http://bit.ly/1UEghq1 • Fermer l’application • Se rendre dans le répertoire où se trouve l’application • Dans le dossier /webapp/, créer le dossier « extensions » si celui-ci n’existe pas • Télécharger l’extension souhaitée au format .zip, le dézipper et placer ce répertoire dans le répertoire /webapp/extensions • Relancer l’application « Augmenter » le comportement d’OpenRefine
  9. 9. Les TIC et l'art OpenRefine 9 juin 2016 Institut national d'histoire de l'art Accès: 6, rue des Petits-Champs 75002Paris Adresse postale: 2, rue Vivienne 75002Paris Métro : Bourse, Pyramides Palais royal/Musée du Louvre Tél. : +33 (0) 1 47 03 8984 Fax : +33 (0) 1 47 03 8636 lesticetlart@inha.fr http://invisu.inha.fr « Augmenter » le comportement d’OpenRefine Les plugins/extensions les + utiles • Exporter les données en RDF (à partir d’un squelette issue d’une ontologie par ex.) • https://github.com/fadmaa/grefine-rdf- extension/releases • (ATTENTION: renommer le dossier dezippé en « rdf-extension » avant de le copier dans le répertoire /webapp/extensions/) • Extraction d’entités nommées • https://github.com/RubenVerborgh/Refine-NER- Extension • VIB-BITS: 3 plugins (gestions des actions/historique; comparaison entre 2 textes; gestions des facettes) • https://www.bits.vib.be/index.php/software- overview/openrefine • Réaliser des statistiques • https://github.com/sparkica/refine-stats Des services à paramétrer • La reconciliation avec VIAF • http://refine.codefork.com/ • Aller dans « Add Standard Service » puis ajouter le code suivant: http://refine.codefork.com/reconcile/viaf
  10. 10. Les TIC et l'art OpenRefine 9 juin 2016 Institut national d'histoire de l'art Accès: 6, rue des Petits-Champs 75002Paris Adresse postale: 2, rue Vivienne 75002Paris Métro : Bourse, Pyramides Palais royal/Musée du Louvre Tél. : +33 (0) 1 47 03 8984 Fax : +33 (0) 1 47 03 8636 lesticetlart@inha.fr http://invisu.inha.fr Une utilisation « augmentée » d’OpenRefine Quelques exemples/exercices • Utiliser l’API de Google pour géolocaliser des lieux • Ajouter à la colonne Lieu_naissance 1, le terme de Etats-Unis • Jouer avec les filtres pour avoir dans la zone centrale, les architectes nés à Bennington, Aurora et Allegheny. • Lancer la géolocalisation via « by fetching URL » • "http://maps.google.com/maps/api/geocode/json?sensor=false&address=" + escape(value, "url ») • Extraite les coordonnées géographiques dans une autre colonne • Procéder à une « reconciliation » avec VIAF sur les élèves nés à New York • Créer une colonne avec pour créer le nom complet • Filtrer sur les élèves nés à New York • Procéder à la réconciliation en utilisant le VIAF • Utiliser l’interface pour valider et choisir la réconciliation • Créer une colonne en extrayant l’id des résultats de la reconciliation avec VIAF
  11. 11. Les TIC et l'art OpenRefine 9 juin 2016 Institut national d'histoire de l'art Accès: 6, rue des Petits-Champs 75002Paris Adresse postale: 2, rue Vivienne 75002Paris Métro : Bourse, Pyramides Palais royal/Musée du Louvre Tél. : +33 (0) 1 47 03 8984 Fax : +33 (0) 1 47 03 8636 lesticetlart@inha.fr http://invisu.inha.fr OpenRefine & les plugins • Utiliser l’API de Google pour géolocaliser des lieux • Ajouter à la colonne Lieu_naissance 1, le terme de Etats-Unis • cells['Lieu_naissance 1'].value + ", Etats-Unis" • Jouer avec les filtres pour avoir dans la zone centrale, les architectes nés à Bennington, Aurora et Allegheny. • Lancer la géolocalisation via « by fetching URL » • "http://maps.google.com/maps/api/geocode/json?sensor=false&address=" + escape(value, "url ») • Extraite les coordonnées géographiques dans une autre colonne • with(value.parseJson().results[0].geometry.location, pair, pair.lat +", " + pair.lng) • Procéder à une « reconciliation » avec VIAF sur les élèves nés à New York • Créer une colonne avec pour créer le nom complet • cells['Nom_usuel'].value + ", " + cells['Prenom_usuel'].value • Filtrer sur les élèves nés à New York • Procéder à la réconciliation en utilisant le VIAF • Utiliser l’interface pour valider et choisir la réconciliation • Créer une colonne en extrayant l’id des résultats de la reconciliation avec VIAF • cell.recon.match.id Quelques exemples/exercices -> réponses
  12. 12. Les TIC et l'art OpenRefine 9 juin 2016 Institut national d'histoire de l'art Accès: 6, rue des Petits-Champs 75002Paris Adresse postale: 2, rue Vivienne 75002Paris Métro : Bourse, Pyramides Palais royal/Musée du Louvre Tél. : +33 (0) 1 47 03 8984 Fax : +33 (0) 1 47 03 8636 lesticetlart@inha.fr http://invisu.inha.fr Certains des + d’OpenRefine • Pouvoir facilement relier 2 projets et ajouter des données de l’un à l’autre des projets • cell.cross("My Address Book", "friend")[0].cells["address"].value[0] • Pouvoir sauvegarder et rejouer un ensemble des tâches ultérieurement grâce à un fichier json • Aller dans l’onglet “Unod/Redo” puis dans Extract/Aplply • Extraire des données d’une page web • Grâce à lafonction “Add column by fetching URL” + la fonctionparseHTML Paramétrages pratiques • Paramétrer le nombre de facettes autorisées • http://127.0.0.1:3333/preferences • Ajouter ui.browsing.listFacet.limit (ex 10000) • Augmenter la mémoire allouer à OpenRefine (pour traiter des fichiers + gros) • modifier le paramètre-XXmx2048M dansle fichier “google.refine.l4j.ini”

×