SlideShare une entreprise Scribd logo
Ettore Rizza
Pourquoi fouiller des textes ?
Essor du Web et fin des annuaires papier
ADSL (rappelez-vous les modems 56K…)
Numérisation des archives papier
Open Data et Open Administration
Enormes progrès informatiques
Wikileaks/Cablegate (2010) : 1.7 Gb
Offshore Leaks (2013) : 260 Gb
Luxemburg Leaks (2014) : 4 Gb
Swiss Leaks (2015) : 3.3 Gb
Panama Papers (2016) : 2662 Gb !
http://data.blog.lemonde.fr/2016/04/08/panama-papers-un-defi-technique-pour-le-
journalisme-de-donnees/
Lecture de 6 extraits
Explications
Application
« Derrière les « Panama papers », ses centaines de
journalistes impliqués et ses milliers d’articles publiés, il y a
une base de données. Un « leak » massif de 2,6 téraoctets
(2 600 Go) transmis par une source anonyme à la
Süddeutsche Zeitung et partagée au Consortium international
des journalistes d’investigation (ICIJ). Confrontés à ce
« basculement de l’investigation dans l’ère du big data (…),
les 110 médias partenaires de l’enquête ont dû abandonner le
calepin et le crayon au profit d’outils informatiques avancés. »
 Pas besoin d’un leak pour utiliser ces techniques et outils
 Faisable à l’échelle communale et bien sûr nationale
 Exemple : http://legilux.public.lu/memorialC/archives
 20 Gb = 12 fois Wikileaks/Cablegate
 Facilement téléchargeable avec DownThemAll (Firefox) ou
GetThemAll (Chrome)
 Nous allons travailler sur un échantillon de 50 PDF
« Parcourir un à un chacun des documents des « Panama papers »
n’était tout simplement pas envisageable, même pour 376
journalistes. Il était donc indispensable de disposer d’un moteur de
recherche performant pour explorer la base de données.
Rompue à ce type d’investigation, l’équipe technique de l’ICIJ
disposait déjà d’un moteur solide, basé sur le système Solr, qui a
été amélioré pour cette nouvelle opération. »
http://docfetcher.sourceforge.net/en/index.html
Avantages
 Basé sur Lucene
 Installable ou portable
 Windows, Mac, Linux
Inconvénients
 Problèmes de mémoire si beaucoup de fichiers
 Pas d’expressions régulières full text
 Pas d’export des résultats
 Quelques bugs
 https://www.overviewdocs.com/
Avantages
 Peut être utilisé en ligne, en local (sur votre PC), comme serveur…
 Basé notamment sur ElasticSearch
 Conçu par des journalistes pour les journalistes
 Nombreuses fonctionnalités (Regex, Word cloud, entités nommées…)
Inconvénients
 Toujours en bêta (présence de bugs)
 Export des résultats améliorable
 Pas de mise en surbrillance des mots recherchés
 File Locator Pro (Windows, $49 ) :
https://www.mythicsoft.com/filelocatorpro
 PowerGrep (Windows, environ $140) : https://www.powergrep.com/
 dtSearch Desktop (Windows, [Mac et Linux?], $200) :
https://dtsearch.com/
 FoxTrot Personal Search (Mac, $39) :
http://www.ctmdev.com/foxtrot/personal_search/index.html
 Open Semantic Search (toutes plateformes, gratuit) :
https://www.opensemanticsearch.org/
Créez un compte Overview et « uploadez » les 50 PDF
Pendant le téléchargement, indexez les documents avec
DocFetcher
Retrouvez le nom du joueur de foot Eden Hazard
« [Le moteur de recherche] dispose bien sûr d’opérateurs de
recherche avancés (« AND », « OR », recherche exacte avec
des guillemets) et d’un système de “facettes” pour trier les
milliers de résultats que généraient certaines recherches
grâce aux métadonnées (type de document, date de création,
société associée). Il permet aussi l’extraction du texte brut de
dizaines de formats de fichiers, du .pdf au .doc (...) »
Nous aimerions retrouver les documents qui parlent de
« Panama » ou des « îles Cayman », mais en évitant ceux
qui contiennent les mots « assemblée générale
extraordinaire ».
Quel est le numéro de ce ou ces documents ?
Vous pouvez utiliser DocFetcher ou Overview
« Mais surtout, le moteur était doté d’un mécanisme de
« requête approximative » (« fuzzy search »), qui permet
une recherche moins limitative. Ainsi, une requête
approximative sur « Jean Dupont » renvoie également
des résultats pour « Dupont Jean » ou « Jean Edouard
Michel Dupont ». »
Exemple Description
mari?uana Masque : remplace un seul caractère (marijuana ou marihuana)
chien* Troncature : remplace un ou plusieurs caractères (chien, chiens,
chienne(s)…)
« Loup Bureau » Recherche exacte : recherche un mot ou une phrase précise.
« Jean Dupont »~2 Recherche de proximité : retrouve « Dupont Jean », « Jean Albert
Dupont »…
Bruxcelle~, Buxelles~1 Recherche floue : retrouve dans les deux cas « Bruxelles » (par défaut,
2)
count:[10 TO *] Etendue : retrouve 10 et les chiffres plus grands que 10.
… Voir https://www.cheatography.com/jelle/cheat-sheets/elasticsearch-
query-string-syntax/
Retrouvons dans les PDF un certain « Simon Stevens »,
citoyen britannique.
« L’ICIJ a mis en place, au cours du projet, un mécanisme de
recherches par lot (« batch search »). Plutôt que d’examiner
fastidieusement, et nom par nom, la liste des 500 familles les
plus riches de France, il était possible de soumettre au moteur
de recherche une liste structurée de nom. Quelques minutes
plus tard, l’outil retournait un tableau de résultats sous le
format .csv, contenant toutes les occurrences trouvées pour
chaque entrée de la liste. Restait à trier, comme pour chaque
recherche, le bon grain de l’ivraie. »
 A l’aide d’Overview ou de DocFetcher, rechercher dans les 50
documents le nom des 500 familles les plus riches de Belgique.
 Petit piège : DocFetcher ne possède pas de recherche par liste.
Comment faire ? (proposez une solution, je l’appliquerai pour vous)
 Indice : https://manipulist.com/app/toolkit
L’extraction d’informations consiste toujours à trouver un équilibre entre rappel et
précision
 Rappel = pourcentage de documents récupérés parmi les documents pertinents
 Précision = pourcentage de documents pertinents parmi les documents récupérés.
« La compatibilité du moteur de recherche de l’ICIJ avec les
“expressions régulières ” (“regex”, pour les intimes) nous a
également permis de systématiser certaines recherches.
Ainsi, sachant que tous les comptes bancaires français ont
un identifiant IBAN de structure identique (d’abord “FR”, puis
deux chiffres, suivis d’au moins quatre groupes de quatre
chiffres), nous avons pu tous les retrouver grâce à
l’expression régulière suivante :
FR[0-9]*2 [0-9]*4 [0-9]*4 [0-9]*4 [0-9]*4 »
 Mini-langage informatique
 Spécialisé dans la recherche/remplacement de texte
 Existent en différents « dialectes »
 Indispensables pour la recherche de texte
 A première vue effrayantes :
b((+|00)32s?|0)4(60|[789]d)(-|/|s|.|)(d{2})4(d{2})4(d{2})b
 Mais finalement pas plus que :
MMCCCLXXXVIII (2388)
Rindfleischetikettierungsüberwachungsaufgabenübertragungsgesetz (« loi sur le
transfert des obligations de surveillance de l'étiquetage de la viande bovine »)
 Regex101 : pour tester vos expressions
 Regexpert : pour visualiser des expressions complexes
 RegexOne : pour les apprendre
 Regex Cheat Sheet : pour les retenir
Note : une version simplifiée (et en français) de la cheat sheet figure
dans vos documents, ainsi qu’un cours complet en vidéo (anglais)
 Copiez-collez ce texte dans Regex101 : ( https://regex101.com/ )
Mon adresse mail officielle est erizza@ulb.ac.be, mais
j'utilise aussi ettorerizza@outlook.be et
ettorerizza@gmail.com. N'hésitez pas à me rejoindre sur
Twitter (@Ettore_Rizza). @plus !
« Aux 214 488 structures offshore étaient associées pas moins de
450 000 actionnaires, quasiment tous liés à une adresse postale.
Grâce au logiciel de traitement de données OpenRefine, nous avons
« nettoyé » et harmonisé ces adresses (via l’outil de “clustering”
notamment, qui permet de faire des regroupements automatiques)
pour en extraire une liste d’un millier d’actionnaires domiciliés en
France, que nous avons ensuite systématiquement « googlés » pour
détecter d’éventuelles personnalités d’importance. »
 http://openrefine.org/download.html
 Anciennement Google Refine
 Open Source et gratuit
 Une sorte d’Excel spécialisé en texte
 Permet de le nettoyer, de le transformer, de l’enrichir…
 Couteau-suisse du nettoyage de données textuelles
 Mais n’est plus mis à jour aussi souvent que durant l’époque
Google…
A partir du fichier « députésExercice.csv » :
 Certains noms de députés sont des doublons : saurez-vous les
retrouver ?
 Comment identifier le genre (sexe) de chacun ?
 Comment extraire leur parti politique ?
 Comment extraire leur région d’origine ?
 Bonus : et leur éventuelle fiche Wikipédia ?
Initiation à la fouille de texte - formation AJPro

Contenu connexe

Tendances

Jabes 2010 - Tutoriels "Le web sémantique : un web de métadonnées"
Jabes 2010 - Tutoriels "Le web sémantique : un web de métadonnées"Jabes 2010 - Tutoriels "Le web sémantique : un web de métadonnées"
Jabes 2010 - Tutoriels "Le web sémantique : un web de métadonnées"
ABES
 
Réalisation d'un mashup de données avec DSS de Dataiku et visualisation avec ...
Réalisation d'un mashup de données avec DSS de Dataiku et visualisation avec ...Réalisation d'un mashup de données avec DSS de Dataiku et visualisation avec ...
Réalisation d'un mashup de données avec DSS de Dataiku et visualisation avec ...
Gautier Poupeau
 
XebiCon'16 : Les requêtes avancées dans ElasticSearch Par Gérome Egron et I...
XebiCon'16  : Les requêtes avancées dans ElasticSearch  Par Gérome Egron et I...XebiCon'16  : Les requêtes avancées dans ElasticSearch  Par Gérome Egron et I...
XebiCon'16 : Les requêtes avancées dans ElasticSearch Par Gérome Egron et I...
Publicis Sapient Engineering
 
RDFS : une introduction
RDFS : une introductionRDFS : une introduction
RDFS : une introduction
Thomas Francart
 
DNS sous linux
DNS sous linuxDNS sous linux
DNS sous linux
Souhaib El
 
TEI HAL - import SWORD
TEI HAL - import SWORDTEI HAL - import SWORD
TEI HAL - import SWORD
OAccsd
 
Theme 9(bis)
Theme 9(bis)Theme 9(bis)
Theme 9(bis)salmazen
 
Livres, périodiques, thèses et manuscrits en réseau
Livres, périodiques, thèses et manuscrits en réseauLivres, périodiques, thèses et manuscrits en réseau
Livres, périodiques, thèses et manuscrits en réseau
Y. Nicolas
 
Administration de plusieurs sites TYPO3
Administration de plusieurs sites TYPO3Administration de plusieurs sites TYPO3
Administration de plusieurs sites TYPO3
Yannick Pavard
 

Tendances (13)

Jabes 2010 - Tutoriels "Le web sémantique : un web de métadonnées"
Jabes 2010 - Tutoriels "Le web sémantique : un web de métadonnées"Jabes 2010 - Tutoriels "Le web sémantique : un web de métadonnées"
Jabes 2010 - Tutoriels "Le web sémantique : un web de métadonnées"
 
Réalisation d'un mashup de données avec DSS de Dataiku et visualisation avec ...
Réalisation d'un mashup de données avec DSS de Dataiku et visualisation avec ...Réalisation d'un mashup de données avec DSS de Dataiku et visualisation avec ...
Réalisation d'un mashup de données avec DSS de Dataiku et visualisation avec ...
 
XebiCon'16 : Les requêtes avancées dans ElasticSearch Par Gérome Egron et I...
XebiCon'16  : Les requêtes avancées dans ElasticSearch  Par Gérome Egron et I...XebiCon'16  : Les requêtes avancées dans ElasticSearch  Par Gérome Egron et I...
XebiCon'16 : Les requêtes avancées dans ElasticSearch Par Gérome Egron et I...
 
RDFS : une introduction
RDFS : une introductionRDFS : une introduction
RDFS : une introduction
 
5 installation de prolog
5 installation de prolog5 installation de prolog
5 installation de prolog
 
DNS sous linux
DNS sous linuxDNS sous linux
DNS sous linux
 
Theme 8
Theme 8Theme 8
Theme 8
 
TEI HAL - import SWORD
TEI HAL - import SWORDTEI HAL - import SWORD
TEI HAL - import SWORD
 
Compteur de visites
Compteur de visitesCompteur de visites
Compteur de visites
 
Theme 9(bis)
Theme 9(bis)Theme 9(bis)
Theme 9(bis)
 
Livres, périodiques, thèses et manuscrits en réseau
Livres, périodiques, thèses et manuscrits en réseauLivres, périodiques, thèses et manuscrits en réseau
Livres, périodiques, thèses et manuscrits en réseau
 
Administration de plusieurs sites TYPO3
Administration de plusieurs sites TYPO3Administration de plusieurs sites TYPO3
Administration de plusieurs sites TYPO3
 
Zotero
ZoteroZotero
Zotero
 

Similaire à Initiation à la fouille de texte - formation AJPro

Formation AJPro fact-checking 2 octobre 2019 1/2
Formation AJPro fact-checking 2 octobre 2019 1/2Formation AJPro fact-checking 2 octobre 2019 1/2
Formation AJPro fact-checking 2 octobre 2019 1/2
Ettore Rizza
 
Internet et le site de la FCGA - 1998
Internet et le site de la FCGA - 1998Internet et le site de la FCGA - 1998
Internet et le site de la FCGA - 1998
Xavier LAIR
 
Présentation de Digital Factory, Vincent MAS, Lagardère Active
Présentation de Digital Factory, Vincent MAS, Lagardère ActivePrésentation de Digital Factory, Vincent MAS, Lagardère Active
Présentation de Digital Factory, Vincent MAS, Lagardère Activemug-fr
 
Naviguer sur internet
Naviguer sur internetNaviguer sur internet
Naviguer sur internet
Espace Public Numérique Orsay
 
Lyon JUG - Elasticsearch
Lyon JUG - ElasticsearchLyon JUG - Elasticsearch
Lyon JUG - Elasticsearch
David Pilato
 
Des Outils 2.0 En Bdp 19 FéVrier Bdp 13
Des Outils 2.0 En Bdp 19 FéVrier Bdp 13Des Outils 2.0 En Bdp 19 FéVrier Bdp 13
Des Outils 2.0 En Bdp 19 FéVrier Bdp 13
Franck Queyraud
 
Informatique, web... Préparation au C2i
Informatique, web... Préparation au C2iInformatique, web... Préparation au C2i
Informatique, web... Préparation au C2i
Clément Dussarps
 
Alfresco Meetup - ETL Connector & Talend
Alfresco Meetup - ETL Connector & TalendAlfresco Meetup - ETL Connector & Talend
Alfresco Meetup - ETL Connector & Talend
Marc Dutoo
 
Td pascal tdD
Td pascal tdDTd pascal tdD
Td pascal tdD
Chawki Riadh
 
Formation Informatique base et généralités
Formation Informatique base et généralitésFormation Informatique base et généralités
Formation Informatique base et généralités
Sinovatia
 
L\'informatique documentaire à l\'heure du tout web
L\'informatique documentaire à l\'heure du tout webL\'informatique documentaire à l\'heure du tout web
L\'informatique documentaire à l\'heure du tout webNicolas Morin
 
Développement d'un moteur de recherche avec Zend Search
Développement d'un moteur de recherche avec Zend SearchDéveloppement d'un moteur de recherche avec Zend Search
Développement d'un moteur de recherche avec Zend SearchRobert Viseur
 
Génération automatique de texte
Génération automatique de texteGénération automatique de texte
Génération automatique de texte
Estelle Delpech
 
Databases for Bioinformatics
Databases for BioinformaticsDatabases for Bioinformatics
Databases for Bioinformatics
Karim Mezhoud
 
Logiciels d'archives open source - Introduction
Logiciels d'archives open source - IntroductionLogiciels d'archives open source - Introduction
Logiciels d'archives open source - Introduction
infoclio.ch
 
Poitou charentes JUG - Elasticsearch
Poitou charentes JUG - ElasticsearchPoitou charentes JUG - Elasticsearch
Poitou charentes JUG - Elasticsearch
David Pilato
 
Démo Gatling au Performance User Group de Casablanca - 25 sept 2014
Démo Gatling au Performance User Group de Casablanca - 25 sept 2014Démo Gatling au Performance User Group de Casablanca - 25 sept 2014
Démo Gatling au Performance User Group de Casablanca - 25 sept 2014
Benoît de CHATEAUVIEUX
 
Elasticsearch - Montpellier JUG
Elasticsearch - Montpellier JUGElasticsearch - Montpellier JUG
Elasticsearch - Montpellier JUG
David Pilato
 
Retour d'expérience sur notre stack de log
Retour d'expérience sur notre stack de logRetour d'expérience sur notre stack de log
Retour d'expérience sur notre stack de log
Julien Maitrehenry
 

Similaire à Initiation à la fouille de texte - formation AJPro (20)

Formation AJPro fact-checking 2 octobre 2019 1/2
Formation AJPro fact-checking 2 octobre 2019 1/2Formation AJPro fact-checking 2 octobre 2019 1/2
Formation AJPro fact-checking 2 octobre 2019 1/2
 
Internet et le site de la FCGA - 1998
Internet et le site de la FCGA - 1998Internet et le site de la FCGA - 1998
Internet et le site de la FCGA - 1998
 
Présentation de Digital Factory, Vincent MAS, Lagardère Active
Présentation de Digital Factory, Vincent MAS, Lagardère ActivePrésentation de Digital Factory, Vincent MAS, Lagardère Active
Présentation de Digital Factory, Vincent MAS, Lagardère Active
 
Naviguer sur internet
Naviguer sur internetNaviguer sur internet
Naviguer sur internet
 
Naviguer sur internet
Naviguer sur internetNaviguer sur internet
Naviguer sur internet
 
Lyon JUG - Elasticsearch
Lyon JUG - ElasticsearchLyon JUG - Elasticsearch
Lyon JUG - Elasticsearch
 
Des Outils 2.0 En Bdp 19 FéVrier Bdp 13
Des Outils 2.0 En Bdp 19 FéVrier Bdp 13Des Outils 2.0 En Bdp 19 FéVrier Bdp 13
Des Outils 2.0 En Bdp 19 FéVrier Bdp 13
 
Informatique, web... Préparation au C2i
Informatique, web... Préparation au C2iInformatique, web... Préparation au C2i
Informatique, web... Préparation au C2i
 
Alfresco Meetup - ETL Connector & Talend
Alfresco Meetup - ETL Connector & TalendAlfresco Meetup - ETL Connector & Talend
Alfresco Meetup - ETL Connector & Talend
 
Td pascal tdD
Td pascal tdDTd pascal tdD
Td pascal tdD
 
Formation Informatique base et généralités
Formation Informatique base et généralitésFormation Informatique base et généralités
Formation Informatique base et généralités
 
L\'informatique documentaire à l\'heure du tout web
L\'informatique documentaire à l\'heure du tout webL\'informatique documentaire à l\'heure du tout web
L\'informatique documentaire à l\'heure du tout web
 
Développement d'un moteur de recherche avec Zend Search
Développement d'un moteur de recherche avec Zend SearchDéveloppement d'un moteur de recherche avec Zend Search
Développement d'un moteur de recherche avec Zend Search
 
Génération automatique de texte
Génération automatique de texteGénération automatique de texte
Génération automatique de texte
 
Databases for Bioinformatics
Databases for BioinformaticsDatabases for Bioinformatics
Databases for Bioinformatics
 
Logiciels d'archives open source - Introduction
Logiciels d'archives open source - IntroductionLogiciels d'archives open source - Introduction
Logiciels d'archives open source - Introduction
 
Poitou charentes JUG - Elasticsearch
Poitou charentes JUG - ElasticsearchPoitou charentes JUG - Elasticsearch
Poitou charentes JUG - Elasticsearch
 
Démo Gatling au Performance User Group de Casablanca - 25 sept 2014
Démo Gatling au Performance User Group de Casablanca - 25 sept 2014Démo Gatling au Performance User Group de Casablanca - 25 sept 2014
Démo Gatling au Performance User Group de Casablanca - 25 sept 2014
 
Elasticsearch - Montpellier JUG
Elasticsearch - Montpellier JUGElasticsearch - Montpellier JUG
Elasticsearch - Montpellier JUG
 
Retour d'expérience sur notre stack de log
Retour d'expérience sur notre stack de logRetour d'expérience sur notre stack de log
Retour d'expérience sur notre stack de log
 

Initiation à la fouille de texte - formation AJPro

  • 2.
  • 4.
  • 5.
  • 6. Essor du Web et fin des annuaires papier ADSL (rappelez-vous les modems 56K…) Numérisation des archives papier Open Data et Open Administration Enormes progrès informatiques
  • 7. Wikileaks/Cablegate (2010) : 1.7 Gb Offshore Leaks (2013) : 260 Gb Luxemburg Leaks (2014) : 4 Gb Swiss Leaks (2015) : 3.3 Gb Panama Papers (2016) : 2662 Gb !
  • 8.
  • 10. « Derrière les « Panama papers », ses centaines de journalistes impliqués et ses milliers d’articles publiés, il y a une base de données. Un « leak » massif de 2,6 téraoctets (2 600 Go) transmis par une source anonyme à la Süddeutsche Zeitung et partagée au Consortium international des journalistes d’investigation (ICIJ). Confrontés à ce « basculement de l’investigation dans l’ère du big data (…), les 110 médias partenaires de l’enquête ont dû abandonner le calepin et le crayon au profit d’outils informatiques avancés. »
  • 11.  Pas besoin d’un leak pour utiliser ces techniques et outils  Faisable à l’échelle communale et bien sûr nationale  Exemple : http://legilux.public.lu/memorialC/archives  20 Gb = 12 fois Wikileaks/Cablegate  Facilement téléchargeable avec DownThemAll (Firefox) ou GetThemAll (Chrome)  Nous allons travailler sur un échantillon de 50 PDF
  • 12.
  • 13.
  • 14. « Parcourir un à un chacun des documents des « Panama papers » n’était tout simplement pas envisageable, même pour 376 journalistes. Il était donc indispensable de disposer d’un moteur de recherche performant pour explorer la base de données. Rompue à ce type d’investigation, l’équipe technique de l’ICIJ disposait déjà d’un moteur solide, basé sur le système Solr, qui a été amélioré pour cette nouvelle opération. »
  • 15.
  • 16.
  • 17. http://docfetcher.sourceforge.net/en/index.html Avantages  Basé sur Lucene  Installable ou portable  Windows, Mac, Linux Inconvénients  Problèmes de mémoire si beaucoup de fichiers  Pas d’expressions régulières full text  Pas d’export des résultats  Quelques bugs
  • 18.  https://www.overviewdocs.com/ Avantages  Peut être utilisé en ligne, en local (sur votre PC), comme serveur…  Basé notamment sur ElasticSearch  Conçu par des journalistes pour les journalistes  Nombreuses fonctionnalités (Regex, Word cloud, entités nommées…) Inconvénients  Toujours en bêta (présence de bugs)  Export des résultats améliorable  Pas de mise en surbrillance des mots recherchés
  • 19.  File Locator Pro (Windows, $49 ) : https://www.mythicsoft.com/filelocatorpro  PowerGrep (Windows, environ $140) : https://www.powergrep.com/  dtSearch Desktop (Windows, [Mac et Linux?], $200) : https://dtsearch.com/  FoxTrot Personal Search (Mac, $39) : http://www.ctmdev.com/foxtrot/personal_search/index.html  Open Semantic Search (toutes plateformes, gratuit) : https://www.opensemanticsearch.org/
  • 20. Créez un compte Overview et « uploadez » les 50 PDF Pendant le téléchargement, indexez les documents avec DocFetcher Retrouvez le nom du joueur de foot Eden Hazard
  • 21. « [Le moteur de recherche] dispose bien sûr d’opérateurs de recherche avancés (« AND », « OR », recherche exacte avec des guillemets) et d’un système de “facettes” pour trier les milliers de résultats que généraient certaines recherches grâce aux métadonnées (type de document, date de création, société associée). Il permet aussi l’extraction du texte brut de dizaines de formats de fichiers, du .pdf au .doc (...) »
  • 22.
  • 23.
  • 24. Nous aimerions retrouver les documents qui parlent de « Panama » ou des « îles Cayman », mais en évitant ceux qui contiennent les mots « assemblée générale extraordinaire ». Quel est le numéro de ce ou ces documents ? Vous pouvez utiliser DocFetcher ou Overview
  • 25. « Mais surtout, le moteur était doté d’un mécanisme de « requête approximative » (« fuzzy search »), qui permet une recherche moins limitative. Ainsi, une requête approximative sur « Jean Dupont » renvoie également des résultats pour « Dupont Jean » ou « Jean Edouard Michel Dupont ». »
  • 26. Exemple Description mari?uana Masque : remplace un seul caractère (marijuana ou marihuana) chien* Troncature : remplace un ou plusieurs caractères (chien, chiens, chienne(s)…) « Loup Bureau » Recherche exacte : recherche un mot ou une phrase précise. « Jean Dupont »~2 Recherche de proximité : retrouve « Dupont Jean », « Jean Albert Dupont »… Bruxcelle~, Buxelles~1 Recherche floue : retrouve dans les deux cas « Bruxelles » (par défaut, 2) count:[10 TO *] Etendue : retrouve 10 et les chiffres plus grands que 10. … Voir https://www.cheatography.com/jelle/cheat-sheets/elasticsearch- query-string-syntax/
  • 27. Retrouvons dans les PDF un certain « Simon Stevens », citoyen britannique.
  • 28. « L’ICIJ a mis en place, au cours du projet, un mécanisme de recherches par lot (« batch search »). Plutôt que d’examiner fastidieusement, et nom par nom, la liste des 500 familles les plus riches de France, il était possible de soumettre au moteur de recherche une liste structurée de nom. Quelques minutes plus tard, l’outil retournait un tableau de résultats sous le format .csv, contenant toutes les occurrences trouvées pour chaque entrée de la liste. Restait à trier, comme pour chaque recherche, le bon grain de l’ivraie. »
  • 29.  A l’aide d’Overview ou de DocFetcher, rechercher dans les 50 documents le nom des 500 familles les plus riches de Belgique.  Petit piège : DocFetcher ne possède pas de recherche par liste. Comment faire ? (proposez une solution, je l’appliquerai pour vous)  Indice : https://manipulist.com/app/toolkit
  • 30. L’extraction d’informations consiste toujours à trouver un équilibre entre rappel et précision  Rappel = pourcentage de documents récupérés parmi les documents pertinents  Précision = pourcentage de documents pertinents parmi les documents récupérés.
  • 31. « La compatibilité du moteur de recherche de l’ICIJ avec les “expressions régulières ” (“regex”, pour les intimes) nous a également permis de systématiser certaines recherches. Ainsi, sachant que tous les comptes bancaires français ont un identifiant IBAN de structure identique (d’abord “FR”, puis deux chiffres, suivis d’au moins quatre groupes de quatre chiffres), nous avons pu tous les retrouver grâce à l’expression régulière suivante : FR[0-9]*2 [0-9]*4 [0-9]*4 [0-9]*4 [0-9]*4 »
  • 32.  Mini-langage informatique  Spécialisé dans la recherche/remplacement de texte  Existent en différents « dialectes »  Indispensables pour la recherche de texte  A première vue effrayantes : b((+|00)32s?|0)4(60|[789]d)(-|/|s|.|)(d{2})4(d{2})4(d{2})b  Mais finalement pas plus que : MMCCCLXXXVIII (2388) Rindfleischetikettierungsüberwachungsaufgabenübertragungsgesetz (« loi sur le transfert des obligations de surveillance de l'étiquetage de la viande bovine »)
  • 33.  Regex101 : pour tester vos expressions  Regexpert : pour visualiser des expressions complexes  RegexOne : pour les apprendre  Regex Cheat Sheet : pour les retenir Note : une version simplifiée (et en français) de la cheat sheet figure dans vos documents, ainsi qu’un cours complet en vidéo (anglais)
  • 34.  Copiez-collez ce texte dans Regex101 : ( https://regex101.com/ ) Mon adresse mail officielle est erizza@ulb.ac.be, mais j'utilise aussi ettorerizza@outlook.be et ettorerizza@gmail.com. N'hésitez pas à me rejoindre sur Twitter (@Ettore_Rizza). @plus !
  • 35. « Aux 214 488 structures offshore étaient associées pas moins de 450 000 actionnaires, quasiment tous liés à une adresse postale. Grâce au logiciel de traitement de données OpenRefine, nous avons « nettoyé » et harmonisé ces adresses (via l’outil de “clustering” notamment, qui permet de faire des regroupements automatiques) pour en extraire une liste d’un millier d’actionnaires domiciliés en France, que nous avons ensuite systématiquement « googlés » pour détecter d’éventuelles personnalités d’importance. »
  • 36.  http://openrefine.org/download.html  Anciennement Google Refine  Open Source et gratuit  Une sorte d’Excel spécialisé en texte  Permet de le nettoyer, de le transformer, de l’enrichir…  Couteau-suisse du nettoyage de données textuelles  Mais n’est plus mis à jour aussi souvent que durant l’époque Google…
  • 37. A partir du fichier « députésExercice.csv » :  Certains noms de députés sont des doublons : saurez-vous les retrouver ?  Comment identifier le genre (sexe) de chacun ?  Comment extraire leur parti politique ?  Comment extraire leur région d’origine ?  Bonus : et leur éventuelle fiche Wikipédia ?