Ce diaporama a bien été signalé.
Le téléchargement de votre SlideShare est en cours. ×

Initiation à la fouille de texte - formation AJPro

Publicité
Publicité
Publicité
Publicité
Publicité
Publicité
Publicité
Publicité
Publicité
Publicité
Publicité
Publicité
Chargement dans…3
×

Consultez-les par la suite

1 sur 38 Publicité

Initiation à la fouille de texte - formation AJPro

Télécharger pour lire hors ligne

Initiation à l'enquête journalistique sur de grands volumes de textes, en se basant sur un article du Monde décrivant la méthodologie de l'enquête sur les Panama Papers.

Initiation à l'enquête journalistique sur de grands volumes de textes, en se basant sur un article du Monde décrivant la méthodologie de l'enquête sur les Panama Papers.

Publicité
Publicité

Plus De Contenu Connexe

Similaire à Initiation à la fouille de texte - formation AJPro (20)

Publicité

Plus récents (20)

Initiation à la fouille de texte - formation AJPro

  1. 1. Ettore Rizza
  2. 2. Pourquoi fouiller des textes ?
  3. 3. Essor du Web et fin des annuaires papier ADSL (rappelez-vous les modems 56K…) Numérisation des archives papier Open Data et Open Administration Enormes progrès informatiques
  4. 4. Wikileaks/Cablegate (2010) : 1.7 Gb Offshore Leaks (2013) : 260 Gb Luxemburg Leaks (2014) : 4 Gb Swiss Leaks (2015) : 3.3 Gb Panama Papers (2016) : 2662 Gb !
  5. 5. http://data.blog.lemonde.fr/2016/04/08/panama-papers-un-defi-technique-pour-le- journalisme-de-donnees/ Lecture de 6 extraits Explications Application
  6. 6. « Derrière les « Panama papers », ses centaines de journalistes impliqués et ses milliers d’articles publiés, il y a une base de données. Un « leak » massif de 2,6 téraoctets (2 600 Go) transmis par une source anonyme à la Süddeutsche Zeitung et partagée au Consortium international des journalistes d’investigation (ICIJ). Confrontés à ce « basculement de l’investigation dans l’ère du big data (…), les 110 médias partenaires de l’enquête ont dû abandonner le calepin et le crayon au profit d’outils informatiques avancés. »
  7. 7.  Pas besoin d’un leak pour utiliser ces techniques et outils  Faisable à l’échelle communale et bien sûr nationale  Exemple : http://legilux.public.lu/memorialC/archives  20 Gb = 12 fois Wikileaks/Cablegate  Facilement téléchargeable avec DownThemAll (Firefox) ou GetThemAll (Chrome)  Nous allons travailler sur un échantillon de 50 PDF
  8. 8. « Parcourir un à un chacun des documents des « Panama papers » n’était tout simplement pas envisageable, même pour 376 journalistes. Il était donc indispensable de disposer d’un moteur de recherche performant pour explorer la base de données. Rompue à ce type d’investigation, l’équipe technique de l’ICIJ disposait déjà d’un moteur solide, basé sur le système Solr, qui a été amélioré pour cette nouvelle opération. »
  9. 9. http://docfetcher.sourceforge.net/en/index.html Avantages  Basé sur Lucene  Installable ou portable  Windows, Mac, Linux Inconvénients  Problèmes de mémoire si beaucoup de fichiers  Pas d’expressions régulières full text  Pas d’export des résultats  Quelques bugs
  10. 10.  https://www.overviewdocs.com/ Avantages  Peut être utilisé en ligne, en local (sur votre PC), comme serveur…  Basé notamment sur ElasticSearch  Conçu par des journalistes pour les journalistes  Nombreuses fonctionnalités (Regex, Word cloud, entités nommées…) Inconvénients  Toujours en bêta (présence de bugs)  Export des résultats améliorable  Pas de mise en surbrillance des mots recherchés
  11. 11.  File Locator Pro (Windows, $49 ) : https://www.mythicsoft.com/filelocatorpro  PowerGrep (Windows, environ $140) : https://www.powergrep.com/  dtSearch Desktop (Windows, [Mac et Linux?], $200) : https://dtsearch.com/  FoxTrot Personal Search (Mac, $39) : http://www.ctmdev.com/foxtrot/personal_search/index.html  Open Semantic Search (toutes plateformes, gratuit) : https://www.opensemanticsearch.org/
  12. 12. Créez un compte Overview et « uploadez » les 50 PDF Pendant le téléchargement, indexez les documents avec DocFetcher Retrouvez le nom du joueur de foot Eden Hazard
  13. 13. « [Le moteur de recherche] dispose bien sûr d’opérateurs de recherche avancés (« AND », « OR », recherche exacte avec des guillemets) et d’un système de “facettes” pour trier les milliers de résultats que généraient certaines recherches grâce aux métadonnées (type de document, date de création, société associée). Il permet aussi l’extraction du texte brut de dizaines de formats de fichiers, du .pdf au .doc (...) »
  14. 14. Nous aimerions retrouver les documents qui parlent de « Panama » ou des « îles Cayman », mais en évitant ceux qui contiennent les mots « assemblée générale extraordinaire ». Quel est le numéro de ce ou ces documents ? Vous pouvez utiliser DocFetcher ou Overview
  15. 15. « Mais surtout, le moteur était doté d’un mécanisme de « requête approximative » (« fuzzy search »), qui permet une recherche moins limitative. Ainsi, une requête approximative sur « Jean Dupont » renvoie également des résultats pour « Dupont Jean » ou « Jean Edouard Michel Dupont ». »
  16. 16. Exemple Description mari?uana Masque : remplace un seul caractère (marijuana ou marihuana) chien* Troncature : remplace un ou plusieurs caractères (chien, chiens, chienne(s)…) « Loup Bureau » Recherche exacte : recherche un mot ou une phrase précise. « Jean Dupont »~2 Recherche de proximité : retrouve « Dupont Jean », « Jean Albert Dupont »… Bruxcelle~, Buxelles~1 Recherche floue : retrouve dans les deux cas « Bruxelles » (par défaut, 2) count:[10 TO *] Etendue : retrouve 10 et les chiffres plus grands que 10. … Voir https://www.cheatography.com/jelle/cheat-sheets/elasticsearch- query-string-syntax/
  17. 17. Retrouvons dans les PDF un certain « Simon Stevens », citoyen britannique.
  18. 18. « L’ICIJ a mis en place, au cours du projet, un mécanisme de recherches par lot (« batch search »). Plutôt que d’examiner fastidieusement, et nom par nom, la liste des 500 familles les plus riches de France, il était possible de soumettre au moteur de recherche une liste structurée de nom. Quelques minutes plus tard, l’outil retournait un tableau de résultats sous le format .csv, contenant toutes les occurrences trouvées pour chaque entrée de la liste. Restait à trier, comme pour chaque recherche, le bon grain de l’ivraie. »
  19. 19.  A l’aide d’Overview ou de DocFetcher, rechercher dans les 50 documents le nom des 500 familles les plus riches de Belgique.  Petit piège : DocFetcher ne possède pas de recherche par liste. Comment faire ? (proposez une solution, je l’appliquerai pour vous)  Indice : https://manipulist.com/app/toolkit
  20. 20. L’extraction d’informations consiste toujours à trouver un équilibre entre rappel et précision  Rappel = pourcentage de documents récupérés parmi les documents pertinents  Précision = pourcentage de documents pertinents parmi les documents récupérés.
  21. 21. « La compatibilité du moteur de recherche de l’ICIJ avec les “expressions régulières ” (“regex”, pour les intimes) nous a également permis de systématiser certaines recherches. Ainsi, sachant que tous les comptes bancaires français ont un identifiant IBAN de structure identique (d’abord “FR”, puis deux chiffres, suivis d’au moins quatre groupes de quatre chiffres), nous avons pu tous les retrouver grâce à l’expression régulière suivante : FR[0-9]*2 [0-9]*4 [0-9]*4 [0-9]*4 [0-9]*4 »
  22. 22.  Mini-langage informatique  Spécialisé dans la recherche/remplacement de texte  Existent en différents « dialectes »  Indispensables pour la recherche de texte  A première vue effrayantes : b((+|00)32s?|0)4(60|[789]d)(-|/|s|.|)(d{2})4(d{2})4(d{2})b  Mais finalement pas plus que : MMCCCLXXXVIII (2388) Rindfleischetikettierungsüberwachungsaufgabenübertragungsgesetz (« loi sur le transfert des obligations de surveillance de l'étiquetage de la viande bovine »)
  23. 23.  Regex101 : pour tester vos expressions  Regexpert : pour visualiser des expressions complexes  RegexOne : pour les apprendre  Regex Cheat Sheet : pour les retenir Note : une version simplifiée (et en français) de la cheat sheet figure dans vos documents, ainsi qu’un cours complet en vidéo (anglais)
  24. 24.  Copiez-collez ce texte dans Regex101 : ( https://regex101.com/ ) Mon adresse mail officielle est erizza@ulb.ac.be, mais j'utilise aussi ettorerizza@outlook.be et ettorerizza@gmail.com. N'hésitez pas à me rejoindre sur Twitter (@Ettore_Rizza). @plus !
  25. 25. « Aux 214 488 structures offshore étaient associées pas moins de 450 000 actionnaires, quasiment tous liés à une adresse postale. Grâce au logiciel de traitement de données OpenRefine, nous avons « nettoyé » et harmonisé ces adresses (via l’outil de “clustering” notamment, qui permet de faire des regroupements automatiques) pour en extraire une liste d’un millier d’actionnaires domiciliés en France, que nous avons ensuite systématiquement « googlés » pour détecter d’éventuelles personnalités d’importance. »
  26. 26.  http://openrefine.org/download.html  Anciennement Google Refine  Open Source et gratuit  Une sorte d’Excel spécialisé en texte  Permet de le nettoyer, de le transformer, de l’enrichir…  Couteau-suisse du nettoyage de données textuelles  Mais n’est plus mis à jour aussi souvent que durant l’époque Google…
  27. 27. A partir du fichier « députésExercice.csv » :  Certains noms de députés sont des doublons : saurez-vous les retrouver ?  Comment identifier le genre (sexe) de chacun ?  Comment extraire leur parti politique ?  Comment extraire leur région d’origine ?  Bonus : et leur éventuelle fiche Wikipédia ?

×