Initiation à l'enquête journalistique sur de grands volumes de textes, en se basant sur un article du Monde décrivant la méthodologie de l'enquête sur les Panama Papers.
Nettoyer et transformer ses données avec Openrefine : partie 1Mathieu Saby
1re partie de la formation Openrefine donnée à l'URFIST de Paris le 25 mai 2018
La version pptx et les données sont disponibles librement sur Open Science Framework : https://osf.io/uqwrb/
Découvrez OpenRefine: un outil gratuit pour nettoyer, préparer et enrichir vo...Mathieu Saby
Atelier de découverte d'Openrefine organisé au Learning Centre SophiaTech
23/10/2017
par Mathieu Saby, BU de l'Université Nice Sophia-Antipolis
Adresse du dossier (contient la présentation aux formats Powerpoint et Google slide, l'affiche, et les données utilisées comme exercice): https://drive.google.com/drive/folders/0B1NKejaqcJG5MnJ2SXZSMFlVUEE?usp=sharing
Nettoyer et transformer ses données avec Openrefine : partie 1Mathieu Saby
1re partie de la formation Openrefine donnée à l'URFIST de Paris le 25 mai 2018
La version pptx et les données sont disponibles librement sur Open Science Framework : https://osf.io/uqwrb/
Découvrez OpenRefine: un outil gratuit pour nettoyer, préparer et enrichir vo...Mathieu Saby
Atelier de découverte d'Openrefine organisé au Learning Centre SophiaTech
23/10/2017
par Mathieu Saby, BU de l'Université Nice Sophia-Antipolis
Adresse du dossier (contient la présentation aux formats Powerpoint et Google slide, l'affiche, et les données utilisées comme exercice): https://drive.google.com/drive/folders/0B1NKejaqcJG5MnJ2SXZSMFlVUEE?usp=sharing
Réalisation d'un mashup de données avec DSS de Dataiku et visualisation avec ...Gautier Poupeau
cf. la première partie : https://www.slideshare.net/lespetitescases/ralisation-dun-mashup-de-donnes-avec-dss-de-dataiku-premire-partie
Tutoriel pour réaliser un mashup à partir de jeux de données libres téléchargés sur data.gouv.fr et Wikidata entre autres avec le logiciel DSS de Dataiku. Cette deuxième partie permet d'aborder le requêtage de Wikidata avec une requête SPARQL puis montre comment relier les jeux de données de data.gouv.fr et les données issues de Wikidata. Enfin, il aborde la visualisation des données via l'application en ligne Palladio.
Ce tutoriel a servi de support de cours au Master 2 "Technologies numériques appliqués à l'histoire" de l'Ecole nationale des chartes lors de l'année universitaire 2016-2017.
ElasticSearch vient avec un DSL très riche de requètage : recherche full text, recherche exact, analytiques, géolocalisation, "Search as you type" ... Nous vous proposons de venir découvrir avec ce hands-on, les possibilités offertes par ce moteur d’indexation en utilisant les différentes types de recherches proposées et en jouant sur le mapping. Quelles requêtes pour quel besoin et comment les utiliser de manière efficace.
Présentation donnée lors du JIT 2009 à Québec pour Infoglobe. Cette présentation présentait succintement l'installTool ainsi que l'outil "superadmin.php" et l'extension "lowlevel"
In this presentation, Marc Dutoo of Open Wide discusses document import in Alfresco document management solution, provides guidance to choose the best answer in each use case, and finally presents the Alfresco ETL Connector for Talend bulk import extension.
Réalisation d'un mashup de données avec DSS de Dataiku et visualisation avec ...Gautier Poupeau
cf. la première partie : https://www.slideshare.net/lespetitescases/ralisation-dun-mashup-de-donnes-avec-dss-de-dataiku-premire-partie
Tutoriel pour réaliser un mashup à partir de jeux de données libres téléchargés sur data.gouv.fr et Wikidata entre autres avec le logiciel DSS de Dataiku. Cette deuxième partie permet d'aborder le requêtage de Wikidata avec une requête SPARQL puis montre comment relier les jeux de données de data.gouv.fr et les données issues de Wikidata. Enfin, il aborde la visualisation des données via l'application en ligne Palladio.
Ce tutoriel a servi de support de cours au Master 2 "Technologies numériques appliqués à l'histoire" de l'Ecole nationale des chartes lors de l'année universitaire 2016-2017.
ElasticSearch vient avec un DSL très riche de requètage : recherche full text, recherche exact, analytiques, géolocalisation, "Search as you type" ... Nous vous proposons de venir découvrir avec ce hands-on, les possibilités offertes par ce moteur d’indexation en utilisant les différentes types de recherches proposées et en jouant sur le mapping. Quelles requêtes pour quel besoin et comment les utiliser de manière efficace.
Présentation donnée lors du JIT 2009 à Québec pour Infoglobe. Cette présentation présentait succintement l'installTool ainsi que l'outil "superadmin.php" et l'extension "lowlevel"
In this presentation, Marc Dutoo of Open Wide discusses document import in Alfresco document management solution, provides guidance to choose the best answer in each use case, and finally presents the Alfresco ETL Connector for Talend bulk import extension.
Logiciels d'archives open source - Introductioninfoclio.ch
Présentation sur les logiciels d'archives open source par Laurent Christeller, Baptiste De Coulon et Frédéric Deshusses dans le cadre du Forum des archivistes genevois, 19 avril 2010.
Démo Gatling au Performance User Group de Casablanca - 25 sept 2014Benoît de CHATEAUVIEUX
En 2008, la lenteur d'une application était ressentie au bout de 4 secondes, elle l'est au bout de 3 secondes en 2014.
La performance des applications web est devenue cruciale: la génération Y est beaucoup moins patiente (elle n'a pas connue le modèle 56k !) et switch très facilement.
Les impacts business de la performance des applications web sont donc forts: baisse de CA, perte de clients, etc.
Au cours de cette session du Performance User Group de Casablanca, j'ai présenté Gatling, un outils de test de charge Open-Source, simple, hautement scalable et intégrable dans une démarche de tests de performance en continue.
Si la baisse de la productivité est effective dans toutes les économies développées... elle est particulièrement marquée en France. Au niveau national, cet essoufflement touche tous les secteurs, et plus particulièrement celui de l’industrie, usuellement caractérisé par des gains de productivité élevés. Depuis la crise Covid, le secteur industriel contribue pour 35 % environ à cette perte, alors qu’il ne représente que 9,3 % de la valeur ajoutée nationale brute en 2023. Dans ce contexte, est-il possible de mener une politique de réindustrialisation du pays sans y associer un objectif de hausse des gains de productivité ?Non rappelle ce Cube. Au contraire, ces deux objectifs, jusqu’alors indépendants l’un de l’autre, sont désormais deux défis à relever conjointement. En analysant les différents explications à la baisse de celle-ci observée en France et dans les autres économies développées, ce Cube suggère que l’augmenter en parallèle d’une politique de réindustrialisation sous-entend une réallocation des facteurs de production vers les entreprises industrielles à fort potentiel. Elle suppose également une une meilleure affectation des ressources.
6. Essor du Web et fin des annuaires papier
ADSL (rappelez-vous les modems 56K…)
Numérisation des archives papier
Open Data et Open Administration
Enormes progrès informatiques
10. « Derrière les « Panama papers », ses centaines de
journalistes impliqués et ses milliers d’articles publiés, il y a
une base de données. Un « leak » massif de 2,6 téraoctets
(2 600 Go) transmis par une source anonyme à la
Süddeutsche Zeitung et partagée au Consortium international
des journalistes d’investigation (ICIJ). Confrontés à ce
« basculement de l’investigation dans l’ère du big data (…),
les 110 médias partenaires de l’enquête ont dû abandonner le
calepin et le crayon au profit d’outils informatiques avancés. »
11. Pas besoin d’un leak pour utiliser ces techniques et outils
Faisable à l’échelle communale et bien sûr nationale
Exemple : http://legilux.public.lu/memorialC/archives
20 Gb = 12 fois Wikileaks/Cablegate
Facilement téléchargeable avec DownThemAll (Firefox) ou
GetThemAll (Chrome)
Nous allons travailler sur un échantillon de 50 PDF
12.
13.
14. « Parcourir un à un chacun des documents des « Panama papers »
n’était tout simplement pas envisageable, même pour 376
journalistes. Il était donc indispensable de disposer d’un moteur de
recherche performant pour explorer la base de données.
Rompue à ce type d’investigation, l’équipe technique de l’ICIJ
disposait déjà d’un moteur solide, basé sur le système Solr, qui a
été amélioré pour cette nouvelle opération. »
18. https://www.overviewdocs.com/
Avantages
Peut être utilisé en ligne, en local (sur votre PC), comme serveur…
Basé notamment sur ElasticSearch
Conçu par des journalistes pour les journalistes
Nombreuses fonctionnalités (Regex, Word cloud, entités nommées…)
Inconvénients
Toujours en bêta (présence de bugs)
Export des résultats améliorable
Pas de mise en surbrillance des mots recherchés
19. File Locator Pro (Windows, $49 ) :
https://www.mythicsoft.com/filelocatorpro
PowerGrep (Windows, environ $140) : https://www.powergrep.com/
dtSearch Desktop (Windows, [Mac et Linux?], $200) :
https://dtsearch.com/
FoxTrot Personal Search (Mac, $39) :
http://www.ctmdev.com/foxtrot/personal_search/index.html
Open Semantic Search (toutes plateformes, gratuit) :
https://www.opensemanticsearch.org/
20. Créez un compte Overview et « uploadez » les 50 PDF
Pendant le téléchargement, indexez les documents avec
DocFetcher
Retrouvez le nom du joueur de foot Eden Hazard
21. « [Le moteur de recherche] dispose bien sûr d’opérateurs de
recherche avancés (« AND », « OR », recherche exacte avec
des guillemets) et d’un système de “facettes” pour trier les
milliers de résultats que généraient certaines recherches
grâce aux métadonnées (type de document, date de création,
société associée). Il permet aussi l’extraction du texte brut de
dizaines de formats de fichiers, du .pdf au .doc (...) »
22.
23.
24. Nous aimerions retrouver les documents qui parlent de
« Panama » ou des « îles Cayman », mais en évitant ceux
qui contiennent les mots « assemblée générale
extraordinaire ».
Quel est le numéro de ce ou ces documents ?
Vous pouvez utiliser DocFetcher ou Overview
25. « Mais surtout, le moteur était doté d’un mécanisme de
« requête approximative » (« fuzzy search »), qui permet
une recherche moins limitative. Ainsi, une requête
approximative sur « Jean Dupont » renvoie également
des résultats pour « Dupont Jean » ou « Jean Edouard
Michel Dupont ». »
26. Exemple Description
mari?uana Masque : remplace un seul caractère (marijuana ou marihuana)
chien* Troncature : remplace un ou plusieurs caractères (chien, chiens,
chienne(s)…)
« Loup Bureau » Recherche exacte : recherche un mot ou une phrase précise.
« Jean Dupont »~2 Recherche de proximité : retrouve « Dupont Jean », « Jean Albert
Dupont »…
Bruxcelle~, Buxelles~1 Recherche floue : retrouve dans les deux cas « Bruxelles » (par défaut,
2)
count:[10 TO *] Etendue : retrouve 10 et les chiffres plus grands que 10.
… Voir https://www.cheatography.com/jelle/cheat-sheets/elasticsearch-
query-string-syntax/
28. « L’ICIJ a mis en place, au cours du projet, un mécanisme de
recherches par lot (« batch search »). Plutôt que d’examiner
fastidieusement, et nom par nom, la liste des 500 familles les
plus riches de France, il était possible de soumettre au moteur
de recherche une liste structurée de nom. Quelques minutes
plus tard, l’outil retournait un tableau de résultats sous le
format .csv, contenant toutes les occurrences trouvées pour
chaque entrée de la liste. Restait à trier, comme pour chaque
recherche, le bon grain de l’ivraie. »
29. A l’aide d’Overview ou de DocFetcher, rechercher dans les 50
documents le nom des 500 familles les plus riches de Belgique.
Petit piège : DocFetcher ne possède pas de recherche par liste.
Comment faire ? (proposez une solution, je l’appliquerai pour vous)
Indice : https://manipulist.com/app/toolkit
30. L’extraction d’informations consiste toujours à trouver un équilibre entre rappel et
précision
Rappel = pourcentage de documents récupérés parmi les documents pertinents
Précision = pourcentage de documents pertinents parmi les documents récupérés.
31. « La compatibilité du moteur de recherche de l’ICIJ avec les
“expressions régulières ” (“regex”, pour les intimes) nous a
également permis de systématiser certaines recherches.
Ainsi, sachant que tous les comptes bancaires français ont
un identifiant IBAN de structure identique (d’abord “FR”, puis
deux chiffres, suivis d’au moins quatre groupes de quatre
chiffres), nous avons pu tous les retrouver grâce à
l’expression régulière suivante :
FR[0-9]*2 [0-9]*4 [0-9]*4 [0-9]*4 [0-9]*4 »
32. Mini-langage informatique
Spécialisé dans la recherche/remplacement de texte
Existent en différents « dialectes »
Indispensables pour la recherche de texte
A première vue effrayantes :
b((+|00)32s?|0)4(60|[789]d)(-|/|s|.|)(d{2})4(d{2})4(d{2})b
Mais finalement pas plus que :
MMCCCLXXXVIII (2388)
Rindfleischetikettierungsüberwachungsaufgabenübertragungsgesetz (« loi sur le
transfert des obligations de surveillance de l'étiquetage de la viande bovine »)
33. Regex101 : pour tester vos expressions
Regexpert : pour visualiser des expressions complexes
RegexOne : pour les apprendre
Regex Cheat Sheet : pour les retenir
Note : une version simplifiée (et en français) de la cheat sheet figure
dans vos documents, ainsi qu’un cours complet en vidéo (anglais)
34. Copiez-collez ce texte dans Regex101 : ( https://regex101.com/ )
Mon adresse mail officielle est erizza@ulb.ac.be, mais
j'utilise aussi ettorerizza@outlook.be et
ettorerizza@gmail.com. N'hésitez pas à me rejoindre sur
Twitter (@Ettore_Rizza). @plus !
35. « Aux 214 488 structures offshore étaient associées pas moins de
450 000 actionnaires, quasiment tous liés à une adresse postale.
Grâce au logiciel de traitement de données OpenRefine, nous avons
« nettoyé » et harmonisé ces adresses (via l’outil de “clustering”
notamment, qui permet de faire des regroupements automatiques)
pour en extraire une liste d’un millier d’actionnaires domiciliés en
France, que nous avons ensuite systématiquement « googlés » pour
détecter d’éventuelles personnalités d’importance. »
36. http://openrefine.org/download.html
Anciennement Google Refine
Open Source et gratuit
Une sorte d’Excel spécialisé en texte
Permet de le nettoyer, de le transformer, de l’enrichir…
Couteau-suisse du nettoyage de données textuelles
Mais n’est plus mis à jour aussi souvent que durant l’époque
Google…
37. A partir du fichier « députésExercice.csv » :
Certains noms de députés sont des doublons : saurez-vous les
retrouver ?
Comment identifier le genre (sexe) de chacun ?
Comment extraire leur parti politique ?
Comment extraire leur région d’origine ?
Bonus : et leur éventuelle fiche Wikipédia ?