Initiation à la fouille de texte - formation AJPro

Pourquoi fouiller des textes ?

Essor du Web et fin des annuaires papier
ADSL (rappelez-vous les modems 56K…)
Numérisation des archives papier
Open Data et Open Administration
Enormes progrès informatiques

Wikileaks/Cablegate (2010) : 1.7 Gb
Offshore Leaks (2013) : 260 Gb
Luxemburg Leaks (2014) : 4 Gb
Swiss Leaks (2015) : 3.3 Gb
Panama Papers (2016) : 2662 Gb !

http://data.blog.lemonde.fr/2016/04/08/panama-papers-un-defi-technique-pour-le-
journalisme-de-donnees/
Lecture de 6 extraits
Explications
Application

« Derrière les « Panama papers », ses centaines de
journalistes impliqués et ses milliers d’articles publiés, il y a
une base de données. Un « leak » massif de 2,6 téraoctets
(2 600 Go) transmis par une source anonyme à la
Süddeutsche Zeitung et partagée au Consortium international
des journalistes d’investigation (ICIJ). Confrontés à ce
« basculement de l’investigation dans l’ère du big data (…),
les 110 médias partenaires de l’enquête ont dû abandonner le
calepin et le crayon au profit d’outils informatiques avancés. »

 Pas besoin d’un leak pour utiliser ces techniques et outils
 Faisable à l’échelle communale et bien sûr nationale
 Exemple : http://legilux.public.lu/memorialC/archives
 20 Gb = 12 fois Wikileaks/Cablegate
 Facilement téléchargeable avec DownThemAll (Firefox) ou
GetThemAll (Chrome)
 Nous allons travailler sur un échantillon de 50 PDF

« Parcourir un à un chacun des documents des « Panama papers »
n’était tout simplement pas envisageable, même pour 376
journalistes. Il était donc indispensable de disposer d’un moteur de
recherche performant pour explorer la base de données.
Rompue à ce type d’investigation, l’équipe technique de l’ICIJ
disposait déjà d’un moteur solide, basé sur le système Solr, qui a
été amélioré pour cette nouvelle opération. »

http://docfetcher.sourceforge.net/en/index.html
Avantages
 Basé sur Lucene
 Installable ou portable
 Windows, Mac, Linux
Inconvénients
 Problèmes de mémoire si beaucoup de fichiers
 Pas d’expressions régulières full text
 Pas d’export des résultats
 Quelques bugs

 https://www.overviewdocs.com/
Avantages
 Peut être utilisé en ligne, en local (sur votre PC), comme serveur…
 Basé notamment sur ElasticSearch
 Conçu par des journalistes pour les journalistes
 Nombreuses fonctionnalités (Regex, Word cloud, entités nommées…)
Inconvénients
 Toujours en bêta (présence de bugs)
 Export des résultats améliorable
 Pas de mise en surbrillance des mots recherchés

 File Locator Pro (Windows, $49 ) :
https://www.mythicsoft.com/filelocatorpro
 PowerGrep (Windows, environ $140) : https://www.powergrep.com/
 dtSearch Desktop (Windows, [Mac et Linux?], $200) :
https://dtsearch.com/
 FoxTrot Personal Search (Mac, $39) :
http://www.ctmdev.com/foxtrot/personal_search/index.html
 Open Semantic Search (toutes plateformes, gratuit) :
https://www.opensemanticsearch.org/

Créez un compte Overview et « uploadez » les 50 PDF
Pendant le téléchargement, indexez les documents avec
DocFetcher
Retrouvez le nom du joueur de foot Eden Hazard

« [Le moteur de recherche] dispose bien sûr d’opérateurs de
recherche avancés (« AND », « OR », recherche exacte avec
des guillemets) et d’un système de “facettes” pour trier les
milliers de résultats que généraient certaines recherches
grâce aux métadonnées (type de document, date de création,
société associée). Il permet aussi l’extraction du texte brut de
dizaines de formats de fichiers, du .pdf au .doc (...) »

Nous aimerions retrouver les documents qui parlent de
« Panama » ou des « îles Cayman », mais en évitant ceux
qui contiennent les mots « assemblée générale
extraordinaire ».
Quel est le numéro de ce ou ces documents ?
Vous pouvez utiliser DocFetcher ou Overview

« Mais surtout, le moteur était doté d’un mécanisme de
« requête approximative » (« fuzzy search »), qui permet
une recherche moins limitative. Ainsi, une requête
approximative sur « Jean Dupont » renvoie également
des résultats pour « Dupont Jean » ou « Jean Edouard
Michel Dupont ». »

Exemple Description
mari?uana Masque : remplace un seul caractère (marijuana ou marihuana)
chien* Troncature : remplace un ou plusieurs caractères (chien, chiens,
chienne(s)…)
« Loup Bureau » Recherche exacte : recherche un mot ou une phrase précise.
« Jean Dupont »~2 Recherche de proximité : retrouve « Dupont Jean », « Jean Albert
Dupont »…
Bruxcelle~, Buxelles~1 Recherche floue : retrouve dans les deux cas « Bruxelles » (par défaut,
2)
count:[10 TO *] Etendue : retrouve 10 et les chiffres plus grands que 10.
… Voir https://www.cheatography.com/jelle/cheat-sheets/elasticsearch-
query-string-syntax/

Retrouvons dans les PDF un certain « Simon Stevens »,
citoyen britannique.

« L’ICIJ a mis en place, au cours du projet, un mécanisme de
recherches par lot (« batch search »). Plutôt que d’examiner
fastidieusement, et nom par nom, la liste des 500 familles les
plus riches de France, il était possible de soumettre au moteur
de recherche une liste structurée de nom. Quelques minutes
plus tard, l’outil retournait un tableau de résultats sous le
format .csv, contenant toutes les occurrences trouvées pour
chaque entrée de la liste. Restait à trier, comme pour chaque
recherche, le bon grain de l’ivraie. »

 A l’aide d’Overview ou de DocFetcher, rechercher dans les 50
documents le nom des 500 familles les plus riches de Belgique.
 Petit piège : DocFetcher ne possède pas de recherche par liste.
Comment faire ? (proposez une solution, je l’appliquerai pour vous)
 Indice : https://manipulist.com/app/toolkit

L’extraction d’informations consiste toujours à trouver un équilibre entre rappel et
précision
 Rappel = pourcentage de documents récupérés parmi les documents pertinents
 Précision = pourcentage de documents pertinents parmi les documents récupérés.

« La compatibilité du moteur de recherche de l’ICIJ avec les
“expressions régulières ” (“regex”, pour les intimes) nous a
également permis de systématiser certaines recherches.
Ainsi, sachant que tous les comptes bancaires français ont
un identifiant IBAN de structure identique (d’abord “FR”, puis
deux chiffres, suivis d’au moins quatre groupes de quatre
chiffres), nous avons pu tous les retrouver grâce à
l’expression régulière suivante :
FR[0-9]*2 [0-9]*4 [0-9]*4 [0-9]*4 [0-9]*4 »

 Mini-langage informatique
 Spécialisé dans la recherche/remplacement de texte
 Existent en différents « dialectes »
 Indispensables pour la recherche de texte
 A première vue effrayantes :
b((+|00)32s?|0)4(60|[789]d)(-|/|s|.|)(d{2})4(d{2})4(d{2})b
 Mais finalement pas plus que :
MMCCCLXXXVIII (2388)
Rindfleischetikettierungsüberwachungsaufgabenübertragungsgesetz (« loi sur le
transfert des obligations de surveillance de l'étiquetage de la viande bovine »)

 Regex101 : pour tester vos expressions
 Regexpert : pour visualiser des expressions complexes
 RegexOne : pour les apprendre
 Regex Cheat Sheet : pour les retenir
Note : une version simplifiée (et en français) de la cheat sheet figure
dans vos documents, ainsi qu’un cours complet en vidéo (anglais)

 Copiez-collez ce texte dans Regex101 : ( https://regex101.com/ )
Mon adresse mail officielle est erizza@ulb.ac.be, mais
j'utilise aussi ettorerizza@outlook.be et
ettorerizza@gmail.com. N'hésitez pas à me rejoindre sur
Twitter (@Ettore_Rizza). @plus !

« Aux 214 488 structures offshore étaient associées pas moins de
450 000 actionnaires, quasiment tous liés à une adresse postale.
Grâce au logiciel de traitement de données OpenRefine, nous avons
« nettoyé » et harmonisé ces adresses (via l’outil de “clustering”
notamment, qui permet de faire des regroupements automatiques)
pour en extraire une liste d’un millier d’actionnaires domiciliés en
France, que nous avons ensuite systématiquement « googlés » pour
détecter d’éventuelles personnalités d’importance. »

 http://openrefine.org/download.html
 Anciennement Google Refine
 Open Source et gratuit
 Une sorte d’Excel spécialisé en texte
 Permet de le nettoyer, de le transformer, de l’enrichir…
 Couteau-suisse du nettoyage de données textuelles
 Mais n’est plus mis à jour aussi souvent que durant l’époque
Google…

A partir du fichier « députésExercice.csv » :
 Certains noms de députés sont des doublons : saurez-vous les
retrouver ?
 Comment identifier le genre (sexe) de chacun ?
 Comment extraire leur parti politique ?
 Comment extraire leur région d’origine ?
 Bonus : et leur éventuelle fiche Wikipédia ?

Initiation à la fouille de texte - formation AJPro

Initiation à la fouille de texte - formation AJPro

Contenu connexe

Tendances

Plus de Ettore Rizza

Initiation à la fouille de texte - formation AJPro