3. Vous donnez les clés pour vous lancer et
vous perfectionner par vous-même.
1. Apprendre des techniques
2. Apprendre à utiliser un outil
3. Apprendre des concepts
4. Apprendre une manière de penser
3
5. Matin
10h: Propos liminaires
10h30: Projet 1 (débutant)
11h30: Projet 2 (débutant)
12h30: Intro aux regexes
13h: Lunch
Après-midi
14h: Projet 3 (intermédiaire)
17h00: Fin de la formation
5
10. Stephen « Steve »
Doig
Type : journaliste « à l’ancienne »
Objectif : produire un bon article
Aime : l’odeur du papier
Type : « journo-codeur »
Objectif : produire une bonne appli web
Aime : la culture open source
1
0
Nicolas Kayser-Bril
11. Stephen « Steve »
Doig
Nicolas Kayser-Bril
C’est moi !
Type : journaliste « à l’ancienne »
Objectif : produire un bon article
Aime : l’odeur du papier
Type : « journo-codeur »
Objectif : produire une bonne appli web
Aime : la culture open source
1
1
lol
12. Utiliser des méthodes informatiques pour
automatiser des tâches fastidieuses;
Utiliser des données fiables pour
approcher le plus rigoureusement
possible d’une certaine vérité.
1
2
15. INFORMATIQUE
GÉNÉRALE
RELATIVEMENT À
L’AISE AVEC UN
ORDINATEUR
WEB
NOTIONS DE
HTML/CSS
DONNÉES
FAMILIARISÉ AVEC
LES FICHIERS
TABULAIRES (.CSV,
EXCEL…)
OUTILS
CONNAISSANCE
SUPERFICIELLE/MOYENNE
DE QUELQUES CLASSIQUES
(EXCEL/GOOGLE
SPREADSHEETS,
OPENREFINE, GOOGLE
FUSION TABLE…)
MATHÉMATIQUES
MOYENNE ET MÉDIANE,
CALCUL DE
POURCENTAGES…
1
5
30. Boîte à outils de base
Tout-en-un (relativement)
Fait par des journalistes pour des journalistes
Nouveau (et en phase de test)
Modulaire et facilement extensible
Open Source
En ligne, mais installable en « local »
Simple et didactique
Met l’accent sur la reproductibilité (workflows)
3
0
31. Pour le public (crédibilité, vérification…)
Pour vos collègues/confrères (travail collaboratif,
partage de bonnes pratiques…)
Pour VOUS au moment d’écrire l’article.
Pour VOUS dans 6 mois.
3
1
40. Dès que je dis « regardez ! », merci de
lever les yeux pour regarder ce que je fais.
Quand je dis « c’est à vous », vous pouvez
commencer à reproduire ce que j’ai montré
4
0
42. 4
2
Que représentent les lignes ?
Que contient chaque colonne ?
Y a-t-il des colonnes, valeurs, codes… que vousne
comprenez pas ?
Quelle est l’unité des valeurs ? (prix en euros ?)
Y a-t-il des valeurs manquantes ou clairement
erronées ?
Les données doivent-elles être nettoyées ?
(Inspiré deWorkbench)
43. Si tu vas au Delhaize, prends:
4
3
- 2 paquets de yaourt Donane
- 1 bocal de cornichons
- 2 bouteilles de Chianti
Ton lapinou
44. Quantité Type Produit Marque
2 paquet yaourt Donane
1 bocal cornichon *
2 bouteille vin Chianti
Si tu vas au Delhaize, prends:
- 2 paquets de yaourt Donane
- 1 bocal de cornichons
- 2 bouteilles de Chianti
Ton lapinou
4
4
45. ISBN TITLE AUTHOR PUBDATE PUBLISHER PUBLOCATION
9783640246991
Les Misérables -
Tome I - Fantine
Victor Hugo 2009-01-19 GRIN Publishing London
9782807302150
Introduction aux
humanités
numériques :
méthodes et
pratiques
Seth VanHooland 2016-06-05
de Boeck
Supérieur
Bruxelles
9782075047449
Notre-Dame de
Paris
Victor Hugo 2015-05-21 Gallimard Paris
9782253087663
Vernon Subutex
Tome 1
Virginie Despentes 2016-03-02 Grasset Paris
4
5
46. ISBN,TITLE,AUTHORS,PUBDATE,PUBLISHER,PUBLOCATION
9783640246991,Les Misérables - Tome I - Fantine,Hugo Victor,19/01/2009,GRIN
Publishing,London
9782807302150,Introduction aux humanités numériques : méthodes et pratiques,Seth
Van Hooland,05/06/2016,de Boeck Supérieur,Bruxelles
9782075047449,Notre-Dame de Paris,Victor Hugo,21/05/2015,Gallimard,Paris
9782253087663,Vernon Subutex Tome 1,Virginie Despentes,02/03/2016,Graset,Paris
4
6
48. ISBN;TITLE;AUTHORS;PUBDATE;PUBLISHER;PUBLOCATION
9783640246991;Les Misérables - Tome I - Fantine;Hugo Victor;19/01/2009;GRIN
Publishing;London
9782807302150;Introduction aux humanités numériques : méthodes et pratiques;Seth
Van Hooland;05/06/2016;de Boeck Supérieur;Bruxelles
9782075047449;Notre-Dame de Paris;Victor Hugo;21/05/2015;Gallimard;Paris
9782253087663;Vernon Subutex Tome 1;Virginie Despentes;02/03/2016;Graset;Paris
4
8
50. <?xml version='1.0' encoding='utf-8’?>
<ma_bibliotheque>
<book>
<publisher>de Boeck Supérieur</publisher>
<isbn>9782807302150</isbn>
<title>Introduction aux humanités numériques : méthodes et pratiques</title>
<authors>
<author>Seth Van Hooland</author>
<author>Florence Gillet</author>
<author>Simon Hengchen</author>
<author>Max De Wilde</author>
</authors>
<pubdate>2016-06-05</pubdate>
</book>
</ma_bibliotheque>
5
0
51. Pays Année Valeur (OSEF)
France 2010 1
Allemagne 2010 1
France 2011 2
Chine 2010 1
Allemagne 2011 2
Chine 2011 7
5
1
52. Pays Année Valeur (OSEF)
France 2010 1
Allemagne 2010 1
France 2011 2
Chine 2010 1
Allemagne 2011 2
Chine 2011 7
Pays (groupés) Count(pays)
France 2
Allemagne 2
Chine 2
Compte par groupe
5
2
53. Pays Année Valeur (OSEF)
France 2010 1
Allemagne 2010 1
France 2011 2
Chine 2010 1
Allemagne 2011 2
Chine 2011 7
Pays (groupés) Somme(Valeur)
France 3
Allemagne 3
Chine 8
Somme groupée
5
3
54. Pays Année Valeur (OSEF)
France 2010 1
Allemagne 2010 1
France 2011 2
Chine 2010 1
Allemagne 2011 2
Chine 2011 7
Pays (groupés) Somme(Valeur)
France 3
Allemagne 3
Chine 8
Somme groupée
5
4
55. Pays Année Valeur (OSEF)
France 2010 1
Allemagne 2010 1
France 2011 2
Chine 2010 1
Allemagne 2011 2
Chine 2011 7
Pays (groupés) Moyenne(Valeur)
France 1.5
Allemagne 1.5
Chine 4
Moyenne groupée
5
5
56. Pays Année Valeur (OSEF)
France 2010 1
Allemagne 2010 1
France 2011 2
Chine 2010 1
Allemagne 2011 2
Chine 2011 7
Pays (groupés) Max(Valeur)
France 2
Allemagne 2
Chine 7
Maximum du groupe
5
6
77. Identifier les gens les plus retweetés parmi
ceux qui discutent encore de la #ligueduLOL
7
7
78. Si vous le souhaitez, vous pouvez travailler par
groupes de deux voire trois en vous partageant
le projet.
7
8
79. On cherche des tweets sur un thème, et non les
tweets d’une personne en particulier.
On peut s’aider de « filtres » lors de la recherche
Notez que les colonnes renvoyées ne sont pas
exactement les mêmes
On s’intéresse au nombre de retweets
Tenir compte des doublons
7
9
80. Une (petite) série de symboles (?$*^()[]+d)
Permettent de retrouver et/ou remplacer des
motifs de texte
Indispensables pour travailler sérieusement sur
du texte brut
8
0
83. Mini-exercice : matcher tous les « chiens » ou « chiennes »,ainsi
que « chienchien », mais pas chienchienchien ni chienlit
8
3
https://regex101.com/r/MzK7Ak/7
84. A première vue effrayantes :
b((+|00)32s?|0)4(60|[789]d)(-|/|s|.|)(d{2})4(d{2})4(d{2})b
Mais finalement pas plus que :
MMCCCLXXXVIII (2388)
Rindfleischetikettierungsüberwachungsaufgabenübertragungsgesetz (« loi
sur le transfert des obligations de surveillance de l'étiquetage de la viande
bovine »)
8
4
94. A l’aide d’un fichier de l’activité des députés
fédéraux :
Fact-checking : vérifier si, à vue d’œil, il y a du
vrai dans la déclaration de la députée - à savoir
que les jeunes élues sont particulièrement
actives.
94
95. Si vous le souhaitez, vous pouvez travailler par
groupes de deux ou trois en vous partageant le
projet.
95
97. Nom Naissance Parti
Charles Michel 21/12/1975 MR
Elio Di Rupo 18/07/1951 PS
Yves Leterme 06/10/1960 CD&V
Herman Van Rompuy 31/10/1947 CD&V
… … …
97
98. Processus qui consiste à convertir
automatiquement des ressources présentes sur le
web en un format structuré.
Un script informatique parcourt une série de
pages web et extrait certains éléments.
Le résultat est le plus souvent renvoyé sous forme
de tableau (csv, Excel…).
98
100. 1. Rendez-vous sur la page de départ avec la liste des députés. Copiez l’URL de cette page.
2. Ouvrez le web développer de Chrome (F12), et allez dans l’onglet web scraper.
3. Créez une nouvelle « Sitemap » en indiquant comme « Start URL » celle de votre page de départ.
Donnez un nom à votre sitemap, par exemple « députés fédéraux »
4. Cliquez sur « add new selector ». Une fois l’outil ouvert, cliquez sur « select » et donnez quelques
exemples de ce que vous voulez sélectionner, jusqu’à ce que le logiciel comprenne. N’oubliez pas de
cliquer ensuite sur « Done selecting ! ».
5. Sélectionnez dans la liste déroulante « Type » la catégorie adéquate (par exemple « links »), cochez
au besoin la case « Multiple ». Donnez un nom au sélecteur et sauvegardez.
6. Cliquez sur le sélecteur que vous venez de créer. En même temps, cliquez sur l’un des liens de la
page afin d’afficher à l’écran les informations que vous souhaitez récupérer.
7. Ajoutez de nouveaux sélecteurs pour extraire des éléments de la page (comme aux étapes 4 et 5).
8. Une fois terminé, cliquez sur le menu « Sitemap député fédéraux », puis sur « scrape ». Patientez.
9. Une fois le scraping terminé, cliquez sur « refresh ».
10. Si le résultat vous convient, cliquez à nouveau sur « sitemap député fédéraux », puis sur « Export data
as CSV ». Sauvegardez le CSV sur votre bureau.
10
0
116. Nous aurions pu en voir beaucoup plus
Nous avons survolé les outils et techniques
11
6
117. N’hésitez pas à vous former de votre côté
A demander des formations AJPro, publiques
ou pour entreprise
A utiliser votre service après-vente :
3 questions par mail chacun.e !
11
7
118. Documentation des modules :
http://help.workbenchdata.com/modules
Quelques tutoriels :
https://app.workbenchdata.com/lessons/
Initiation au DDJ :
https://app.workbenchdata.com/courses/intro- to-
data-journalism/first-story
11
8
119. Un screencast en français (de moi) :
https://www.youtube.com/watch?v=-cxNhoVufEo
Documentation : https://www.webscraper.io/documentation
Tutos : https://www.webscraper.io/tutorials
Forum : https://forum.webscraper.io/latest
11
9
120. RegExr ou Regex101: pour tester vos expressions
Regexpert : pour visualiser des expressions complexes
RegexOne : tutoriel pour les apprendre
Regex Cheat Sheet : en attendant de les retenir
Regular-expressions.info : une référence
Regular expressions library : des regex toutes faites
12
0