SlideShare une entreprise Scribd logo
1  sur  121
Ettore
Rizza2018-
02-28
1
2
Vous donnez les clés pour vous lancer et
vous perfectionner par vous-même.
1. Apprendre des techniques
2. Apprendre à utiliser un outil
3. Apprendre des concepts
4. Apprendre une manière de penser
3
4
Matin
10h: Propos liminaires
10h30: Projet 1 (débutant)
11h30: Projet 2 (débutant)
12h30: Intro aux regexes
13h: Lunch
Après-midi
14h: Projet 3 (intermédiaire)
17h00: Fin de la formation
5
6
I
Définition
7
 Pulitzer classique : https://www.flickr.com/photos/juggernautco/sets/72157607210036175/
 Application : https://www.lecho.be/monargent/immobilier/immoinvest.html
 Analyse : https://www.ft.com/content/62d782d6-31a7-11e7-9555-23ef563ecf9a
 Pure « dataviz » : https://www.hindustantimes.com/static/olympics/every-country-fastest-man-in-
one-race-100m/
 Enquête web : https://www.buzzfeednews.com/article/johntemplon/how-we-used-data-to-
investigate-match-fixing-in-tennis#.bjpMp0Rpw
 Mix de texte-viz : https://pudding.cool/2018/07/women-in-parliament/
8
http://www.ohmybox.info/datajournalisme.html
Stephen « Steve »
Doig
Type : journaliste « à l’ancienne »
Objectif : produire un bon article
Aime : l’odeur du papier
Type : « journo-codeur »
Objectif : produire une bonne appli web
Aime : la culture open source
1
0
Nicolas Kayser-Bril
Stephen « Steve »
Doig
Nicolas Kayser-Bril
C’est moi !
Type : journaliste « à l’ancienne »
Objectif : produire un bon article
Aime : l’odeur du papier
Type : « journo-codeur »
Objectif : produire une bonne appli web
Aime : la culture open source
1
1
lol
Utiliser des méthodes informatiques pour
automatiser des tâches fastidieuses;
Utiliser des données fiables pour
approcher le plus rigoureusement
possible d’une certaine vérité.
1
2
(Ou infographie,
ou statistiques...)
1
3
Mais il est loin d’être le seul
1
4
INFORMATIQUE
GÉNÉRALE
RELATIVEMENT À
L’AISE AVEC UN
ORDINATEUR
WEB
NOTIONS DE
HTML/CSS
DONNÉES
FAMILIARISÉ AVEC
LES FICHIERS
TABULAIRES (.CSV,
EXCEL…)
OUTILS
CONNAISSANCE
SUPERFICIELLE/MOYENNE
DE QUELQUES CLASSIQUES
(EXCEL/GOOGLE
SPREADSHEETS,
OPENREFINE, GOOGLE
FUSION TABLE…)
MATHÉMATIQUES
MOYENNE ET MÉDIANE,
CALCUL DE
POURCENTAGES…
1
5
Même des travaux de débutant
peuvent faire la une
1
6
1
7
1
8
1
9
2
0
2
1
2
2
2
3
« Ma question de départ était-elle la bonne ? »
2
4
2
5
Partie opérationnelle
2
6
2
7
2
8
2
9
 Boîte à outils de base
 Tout-en-un (relativement)
 Fait par des journalistes pour des journalistes
 Nouveau (et en phase de test)
 Modulaire et facilement extensible
 Open Source
 En ligne, mais installable en « local »
 Simple et didactique
 Met l’accent sur la reproductibilité (workflows)
3
0
Pour le public (crédibilité, vérification…)
Pour vos collègues/confrères (travail collaboratif,
partage de bonnes pratiques…)
Pour VOUS au moment d’écrire l’article.
Pour VOUS dans 6 mois.
3
1
Mise en situation 1
3
2
VOUS ÊTES À LA
RÉDACTION…
3
3
LE JOURNAL PRÉPARE UN
DOSSIER SUR
MATHIEU KASSOVITZ
3
4
LE CHEF CULTURE
VIENT VOUS 3
5
Identifier les gens que Mathieu Kassovitz
aime sur Twitter
(C’est tout)
3
6
3
7
3
8
https://twitter.com/kassovitz1
3
9
Dès que je dis « regardez ! », merci de
lever les yeux pour regarder ce que je fais.
Quand je dis « c’est à vous », vous pouvez
commencer à reproduire ce que j’ai montré 
4
0
Ouvrez votre sessions sur :
4
1
https://app.workbenchdata.com/
4
2
Que représentent les lignes ?
Que contient chaque colonne ?
Y a-t-il des colonnes, valeurs, codes… que vousne
comprenez pas ?
Quelle est l’unité des valeurs ? (prix en euros ?)
Y a-t-il des valeurs manquantes ou clairement
erronées ?
Les données doivent-elles être nettoyées ?
(Inspiré deWorkbench)
Si tu vas au Delhaize, prends:
4
3
- 2 paquets de yaourt Donane
- 1 bocal de cornichons
- 2 bouteilles de Chianti
Ton lapinou
Quantité Type Produit Marque
2 paquet yaourt Donane
1 bocal cornichon *
2 bouteille vin Chianti
Si tu vas au Delhaize, prends:
- 2 paquets de yaourt Donane
- 1 bocal de cornichons
- 2 bouteilles de Chianti
Ton lapinou
4
4
ISBN TITLE AUTHOR PUBDATE PUBLISHER PUBLOCATION
9783640246991
Les Misérables -
Tome I - Fantine
Victor Hugo 2009-01-19 GRIN Publishing London
9782807302150
Introduction aux
humanités
numériques :
méthodes et
pratiques
Seth VanHooland 2016-06-05
de Boeck
Supérieur
Bruxelles
9782075047449
Notre-Dame de
Paris
Victor Hugo 2015-05-21 Gallimard Paris
9782253087663
Vernon Subutex
Tome 1
Virginie Despentes 2016-03-02 Grasset Paris
4
5
ISBN,TITLE,AUTHORS,PUBDATE,PUBLISHER,PUBLOCATION
9783640246991,Les Misérables - Tome I - Fantine,Hugo Victor,19/01/2009,GRIN
Publishing,London
9782807302150,Introduction aux humanités numériques : méthodes et pratiques,Seth
Van Hooland,05/06/2016,de Boeck Supérieur,Bruxelles
9782075047449,Notre-Dame de Paris,Victor Hugo,21/05/2015,Gallimard,Paris
9782253087663,Vernon Subutex Tome 1,Virginie Despentes,02/03/2016,Graset,Paris
4
6
ISBN,TITLE,AUTHORS,PUBDATE,PUBLISHER,PUBLOCATION
9783640246991,Les Misérables - Tome I - Fantine,Hugo Victor,19/01/2009,GRIN
Publishing,London
4
7
9782807302150,Introduction aux humanités numériques : méthodes et pratiques,Seth
Van Hooland,05/06/2016,de Boeck Supérieur,Bruxelles
…
ISBN;TITLE;AUTHORS;PUBDATE;PUBLISHER;PUBLOCATION
9783640246991;Les Misérables - Tome I - Fantine;Hugo Victor;19/01/2009;GRIN
Publishing;London
9782807302150;Introduction aux humanités numériques : méthodes et pratiques;Seth
Van Hooland;05/06/2016;de Boeck Supérieur;Bruxelles
9782075047449;Notre-Dame de Paris;Victor Hugo;21/05/2015;Gallimard;Paris
9782253087663;Vernon Subutex Tome 1;Virginie Despentes;02/03/2016;Graset;Paris
4
8
4
9
{
"9782075047449": {
"publisher": {
"publisher_name": "Gallimard",
"publisher_location": "Paris"
},
"title": "Notre-Dame de Paris",
"authors": {
"author": "Victor Hugo"
},
"pubdate": "2015-05-21",
"tags": {
"tag": [
"Romans - Historique",
"Classics",
"Juvenile Fiction",
"General"
]
}
}
}
<?xml version='1.0' encoding='utf-8’?>
<ma_bibliotheque>
<book>
<publisher>de Boeck Supérieur</publisher>
<isbn>9782807302150</isbn>
<title>Introduction aux humanités numériques : méthodes et pratiques</title>
<authors>
<author>Seth Van Hooland</author>
<author>Florence Gillet</author>
<author>Simon Hengchen</author>
<author>Max De Wilde</author>
</authors>
<pubdate>2016-06-05</pubdate>
</book>
</ma_bibliotheque>
5
0
Pays Année Valeur (OSEF)
France 2010 1
Allemagne 2010 1
France 2011 2
Chine 2010 1
Allemagne 2011 2
Chine 2011 7
5
1
Pays Année Valeur (OSEF)
France 2010 1
Allemagne 2010 1
France 2011 2
Chine 2010 1
Allemagne 2011 2
Chine 2011 7
Pays (groupés) Count(pays)
France 2
Allemagne 2
Chine 2
Compte par groupe
5
2
Pays Année Valeur (OSEF)
France 2010 1
Allemagne 2010 1
France 2011 2
Chine 2010 1
Allemagne 2011 2
Chine 2011 7
Pays (groupés) Somme(Valeur)
France 3
Allemagne 3
Chine 8
Somme groupée
5
3
Pays Année Valeur (OSEF)
France 2010 1
Allemagne 2010 1
France 2011 2
Chine 2010 1
Allemagne 2011 2
Chine 2011 7
Pays (groupés) Somme(Valeur)
France 3
Allemagne 3
Chine 8
Somme groupée
5
4
Pays Année Valeur (OSEF)
France 2010 1
Allemagne 2010 1
France 2011 2
Chine 2010 1
Allemagne 2011 2
Chine 2011 7
Pays (groupés) Moyenne(Valeur)
France 1.5
Allemagne 1.5
Chine 4
Moyenne groupée
5
5
Pays Année Valeur (OSEF)
France 2010 1
Allemagne 2010 1
France 2011 2
Chine 2010 1
Allemagne 2011 2
Chine 2011 7
Pays (groupés) Max(Valeur)
France 2
Allemagne 2
Chine 7
Maximum du groupe
5
6
5
7
5
8
5
9
Y
CE QUE L’ON COMPTE
X
LA QUANTITÉ
6
0
Pour voir les
corrélations
6
1
Pour les variables
continues
6
2
6
3
6
4
6
5
Pays Population
France 61 000 000
Belgique 11 000 000
Allemagne 82 000 000
6
6
Pays Superficie
France 547 030
Allemagne 357 021
Etats-Unis 9 631 418
Chine 9 596 960
Dataset 1
Dataset 2
Pays Population
France 61 000 000
Belgique 11 000 000
Allemagne 82 000 000
Pays Superficie
France 547 030
Allemagne 357 021
Etats-Unis 9 631 418
Chine 9 596 960
Dataset 1
Dataset 2
Pays Population Superficie
France 61 000 000 547 030
Belgique 11 000 000 null
Allemagne 82 000 000 357 021
Dataset joint « à gauche »
6
7
Pays Population
France 61 000 000
Belgique 11 000 000
Allemagne 82 000 000
Pays Superficie
France 547 030
Allemagne 357 021
Etats-Unis 9 631 418
Chine 9 596 960
Dataset 1
Dataset 2
Pays Population Superficie
France 61 000 000 547 030
Belgique 11 000 000 null
Allemagne 82 000 000 357 021
Dataset joint « à gauche »
6
8
Pays Population
France 61 000 000
Belgique 11 000 000
Allemagne 82 000 000
Pays Superficie
France 547 030
Allemagne 357 021
Etats-Unis 9 631 418
Chine 9 596 960
Dataset 1
Dataset 2
Dataset joint « à droite »
Pays Superficie Population
France 547 030 61 000 000
Allemagne 357 021 82 000 000
Etats-Unis 9 631 418 null
Chine 9 596 960 null
6
9
Pays Population
France 61 000 000
Belgique 11 000 000
Allemagne 82 000 000
Pays Superficie
France 547 030
Allemagne 357 021
Etats-Unis 9 631 418
Chine 9 596 960
Dataset 1
Dataset 2
Dataset joint « en interne »
Pays Superficie Population
France 547 030 61 000 000
Allemagne 357 021 82 000 000
7
0
Pays Population
France 61 000 000
Belgique 11 000 000
Allemagne 82 000 000
Pays Superficie
FRANCE 643 801
Allemagne 357 021
Etats-Unis 9 631 418
Chine 9 596 960
Dataset 1
Dataset 2
Dataset joint « en interne »
Pays Superficie Population
Allemagne 357 021 82 000 000
7
1
Pays Population
France 61 000 000
Belgique 11 000 000
Allemagne 82 000 000
Pays Superficie
France 643 801
Allemagne 357 021
Etats-Unis 9 631 418
Chine 9 596 960
Dataset 1
Dataset 2
Dataset joint « en interne »
Pays Superficie Population
Allemagne 357 021 82 000 000
7
2
Mise en situation 2
7
3
VOUS ÊTES À LA
RÉDACTION…
7
4
NOUVEAU
REBONDISSEMENT
DANS L’AFFAIRE DE
LA #LIGUEDULOL
7
5
LE CHEF SOCIÉTÉ
VIENT VOUS 7
6
Identifier les gens les plus retweetés parmi
ceux qui discutent encore de la #ligueduLOL
7
7
Si vous le souhaitez, vous pouvez travailler par
groupes de deux voire trois en vous partageant
le projet.
7
8
On cherche des tweets sur un thème, et non les
tweets d’une personne en particulier.
On peut s’aider de « filtres » lors de la recherche
Notez que les colonnes renvoyées ne sont pas
exactement les mêmes
On s’intéresse au nombre de retweets
Tenir compte des doublons
7
9
Une (petite) série de symboles (?$*^()[]+d)
Permettent de retrouver et/ou remplacer des
motifs de texte
Indispensables pour travailler sérieusement sur
du texte brut
8
0
http://data.blog.lemonde.fr/2016/04/
08/panama-papers-un-defi- technique-
pour-le-journalisme-de- donnees/
Comment les journalistes du
Monde ont recherché des
numéros d’entreprises français
dans les Panama Papers
8
1
Démo : https://regex101.com/r/MzK7Ak/7
8
2
Mini-exercice : matcher tous les « chiens » ou « chiennes »,ainsi
que « chienchien », mais pas chienchienchien ni chienlit
8
3
https://regex101.com/r/MzK7Ak/7
 A première vue effrayantes :
b((+|00)32s?|0)4(60|[789]d)(-|/|s|.|)(d{2})4(d{2})4(d{2})b
 Mais finalement pas plus que :
MMCCCLXXXVIII (2388)
Rindfleischetikettierungsüberwachungsaufgabenübertragungsgesetz (« loi
sur le transfert des obligations de surveillance de l'étiquetage de la viande
bovine »)
8
4
 https://regex101.com/r/8zGHYb/2
8
5
Suivez le lien ci-dessous et :
8
6
Essayez de « matcher » les adresses email (et
seulement elles).
https://regex101.com/r/LqTv7c/3
8
7
Mise en situation 3
8
8
VOUS ÊTES À LA
RÉDACTION…
8
9
UNE DÉPUTÉE FÉDÉRALE
PUBLIE UN TWEET
POLÉMIQUE… 9
0
9
1
LA CHEFFE POLITIQUE
VIENT VOUS 9
2
93
A l’aide d’un fichier de l’activité des députés
fédéraux :
Fact-checking : vérifier si, à vue d’œil, il y a du
vrai dans la déclaration de la députée - à savoir
que les jeunes élues sont particulièrement
actives.
94
Si vous le souhaitez, vous pouvez travailler par
groupes de deux ou trois en vous partageant le
projet.
95
51 pages web
96
https://fr.wikipedia.org/wiki/Liste_d
es_Premiers_ministres_de_Belgique
Nom Naissance Parti
Charles Michel 21/12/1975 MR
Elio Di Rupo 18/07/1951 PS
Yves Leterme 06/10/1960 CD&V
Herman Van Rompuy 31/10/1947 CD&V
… … …
97
Processus qui consiste à convertir
automatiquement des ressources présentes sur le
web en un format structuré.
Un script informatique parcourt une série de
pages web et extrait certains éléments.
Le résultat est le plus souvent renvoyé sous forme
de tableau (csv, Excel…).
98
 http://www.lachambre.be/kvvcr/show
page.cfm?section=/depute&language
=fr&cfm=/site/wwwcfm/depute/cvlist5
4.cfm
99
1. Rendez-vous sur la page de départ avec la liste des députés. Copiez l’URL de cette page.
2. Ouvrez le web développer de Chrome (F12), et allez dans l’onglet web scraper.
3. Créez une nouvelle « Sitemap » en indiquant comme « Start URL » celle de votre page de départ.
Donnez un nom à votre sitemap, par exemple « députés fédéraux »
4. Cliquez sur « add new selector ». Une fois l’outil ouvert, cliquez sur « select » et donnez quelques
exemples de ce que vous voulez sélectionner, jusqu’à ce que le logiciel comprenne. N’oubliez pas de
cliquer ensuite sur « Done selecting ! ».
5. Sélectionnez dans la liste déroulante « Type » la catégorie adéquate (par exemple « links »), cochez
au besoin la case « Multiple ». Donnez un nom au sélecteur et sauvegardez.
6. Cliquez sur le sélecteur que vous venez de créer. En même temps, cliquez sur l’un des liens de la
page afin d’afficher à l’écran les informations que vous souhaitez récupérer.
7. Ajoutez de nouveaux sélecteurs pour extraire des éléments de la page (comme aux étapes 4 et 5).
8. Une fois terminé, cliquez sur le menu « Sitemap député fédéraux », puis sur « scrape ». Patientez.
9. Une fois le scraping terminé, cliquez sur « refresh ».
10. Si le résultat vous convient, cliquez à nouveau sur « sitemap député fédéraux », puis sur « Export data
as CSV ». Sauvegardez le CSV sur votre bureau.
10
0
String 1 String 2 Question
Désiré Marcel marcel, desire MÊME CHOSE ?
10
1
String 1 String 2 Opérations
Désiré Marcel marcel, desire Début
désiré marcel marcel, desire Tout en minuscules 1
désiré marcel marcel desire Ponctuation, espaces en trop… 2
desire marcel marcel desire Diacritiques 3
desire marcel desire marcel Ordre alphabétique 4
desire marcel desire marcel Comparaison 5
MATCH ! 6
10
2
Note : le fingerprint est un algorithme
plutôt sûr, mais limité.
Céréale == cereale
Céréale != Céérale
Céréale != Céréales
10
3
 Comment estimer la différence entre les deux mots suivants :
10
4
INTENTION
EXECUTIO
N
10
5
Edit distance = 5
10
6
Pays Année Valeur (OSEF)
France 2010 1
Allemagne 2010 1
France 2011 2
Chine 2010 1
Allemagne 2011 2
Chine 2011 7
10
7
Pays Année Valeur (OSEF)
France 2010 1
Allemagne 2010 1
France 2011 2
Chine 2010 1
Allemagne 2011 2
Chine 2011 7
Pays 2010 2011
France 1 2
Allemagne 1 2
Chine 1 7
10
8
Pays Année Valeur
France 2010 1
France 2011 2
Allemagne 2010 1
Allemagne 2011 2
Chine 2010 1
Chine 2011 7
Pays 2010 2011
France 1 2
Allemagne 1 2
Chine 1 7
10
9
France Allemagne Chine
2010 1 1 1
2011 2 2 7
2010 2011
France 1 2
Allemagne 1 2
Chine 1 7
11
0
Conclusion
11
1
11
2
11
3
Summer School AJPro 2018 (souviens-toi, l’été dernier…)
11
4
11
5
Nous aurions pu en voir beaucoup plus
Nous avons survolé les outils et techniques
11
6
N’hésitez pas à vous former de votre côté
A demander des formations AJPro, publiques
ou pour entreprise
A utiliser votre service après-vente :
3 questions par mail chacun.e !
11
7
Documentation des modules :
http://help.workbenchdata.com/modules
Quelques tutoriels :
https://app.workbenchdata.com/lessons/
Initiation au DDJ :
https://app.workbenchdata.com/courses/intro- to-
data-journalism/first-story
11
8
 Un screencast en français (de moi) :
https://www.youtube.com/watch?v=-cxNhoVufEo
 Documentation : https://www.webscraper.io/documentation
 Tutos : https://www.webscraper.io/tutorials
 Forum : https://forum.webscraper.io/latest
11
9
 RegExr ou Regex101: pour tester vos expressions
 Regexpert : pour visualiser des expressions complexes
 RegexOne : tutoriel pour les apprendre
 Regex Cheat Sheet : en attendant de les retenir
 Regular-expressions.info : une référence
 Regular expressions library : des regex toutes faites
12
0
12
1

Contenu connexe

Tendances

Veille et méthodologie de veille
Veille et méthodologie de veilleVeille et méthodologie de veille
Veille et méthodologie de veillePatrick Bérard
 
Nettoyer et préparer des données avec OpenRefine
Nettoyer et préparer des données avec OpenRefineNettoyer et préparer des données avec OpenRefine
Nettoyer et préparer des données avec OpenRefineMathieu Saby
 
LA COMPETENCE ET LA FORMATION PROFESSIONNELLE Ezzeddine MBAREK
LA COMPETENCE ET LA FORMATION PROFESSIONNELLE Ezzeddine MBAREKLA COMPETENCE ET LA FORMATION PROFESSIONNELLE Ezzeddine MBAREK
LA COMPETENCE ET LA FORMATION PROFESSIONNELLE Ezzeddine MBAREKezzeddine
 
Présentation mémoire session 1 0927
Présentation mémoire session 1 0927Présentation mémoire session 1 0927
Présentation mémoire session 1 0927Sue Guzek
 
Seminaire methodo-recherche-clauzard
Seminaire methodo-recherche-clauzardSeminaire methodo-recherche-clauzard
Seminaire methodo-recherche-clauzardphilip61
 
[Étude 2014] Le brand content au coeur du pilotage de la marque
[Étude 2014] Le brand content au coeur du pilotage de la marque[Étude 2014] Le brand content au coeur du pilotage de la marque
[Étude 2014] Le brand content au coeur du pilotage de la marqueLe Club des Annonceurs
 
Sensibilisation à la veille documentaire (Doctorants SHS, juin 2022)
Sensibilisation à la veille documentaire (Doctorants SHS, juin 2022)Sensibilisation à la veille documentaire (Doctorants SHS, juin 2022)
Sensibilisation à la veille documentaire (Doctorants SHS, juin 2022)Alain Marois
 
Management des services: spécificités et typologies
Management des services: spécificités et typologiesManagement des services: spécificités et typologies
Management des services: spécificités et typologiesFrançois Mangin
 
Exemple de tableau pour reconnaitre les compétences
Exemple de tableau pour reconnaitre les compétencesExemple de tableau pour reconnaitre les compétences
Exemple de tableau pour reconnaitre les compétencesPhilippe-Didier GAUTHIER
 
Technique de Redaction 1 du Business plan
Technique de Redaction 1 du Business plan Technique de Redaction 1 du Business plan
Technique de Redaction 1 du Business plan kkassifred
 
Présentation hayla meddeb
Présentation hayla meddebPrésentation hayla meddeb
Présentation hayla meddebAmine Bousnina
 
Documents pour créer un journal écriture journalistique
Documents pour créer un journal écriture journalistiqueDocuments pour créer un journal écriture journalistique
Documents pour créer un journal écriture journalistiqueKDerraze
 
Veille Concurrentielle : Analyser et Benchmarker l'activité de vos Concurrents
Veille Concurrentielle : Analyser et Benchmarker l'activité de vos ConcurrentsVeille Concurrentielle : Analyser et Benchmarker l'activité de vos Concurrents
Veille Concurrentielle : Analyser et Benchmarker l'activité de vos ConcurrentsPaul-Louis Valat
 
Enseigner avec les TICE : considérations, approches et outils
Enseigner avec les TICE : considérations, approches et outilsEnseigner avec les TICE : considérations, approches et outils
Enseigner avec les TICE : considérations, approches et outilsCaféine.Studio
 
Les différentes strategies concurrentielles
Les différentes strategies concurrentiellesLes différentes strategies concurrentielles
Les différentes strategies concurrentiellesRajae Boujnah
 
Design thinking empathie
Design thinking empathieDesign thinking empathie
Design thinking empathieVanessa Lirus
 
Orange Business Services présentation corporate
Orange Business Services présentation corporateOrange Business Services présentation corporate
Orange Business Services présentation corporateOrange Business Services
 

Tendances (20)

Veille et méthodologie de veille
Veille et méthodologie de veilleVeille et méthodologie de veille
Veille et méthodologie de veille
 
Nettoyer et préparer des données avec OpenRefine
Nettoyer et préparer des données avec OpenRefineNettoyer et préparer des données avec OpenRefine
Nettoyer et préparer des données avec OpenRefine
 
LA COMPETENCE ET LA FORMATION PROFESSIONNELLE Ezzeddine MBAREK
LA COMPETENCE ET LA FORMATION PROFESSIONNELLE Ezzeddine MBAREKLA COMPETENCE ET LA FORMATION PROFESSIONNELLE Ezzeddine MBAREK
LA COMPETENCE ET LA FORMATION PROFESSIONNELLE Ezzeddine MBAREK
 
Présentation mémoire session 1 0927
Présentation mémoire session 1 0927Présentation mémoire session 1 0927
Présentation mémoire session 1 0927
 
Mémoire Data-journalisme
Mémoire Data-journalismeMémoire Data-journalisme
Mémoire Data-journalisme
 
Seminaire methodo-recherche-clauzard
Seminaire methodo-recherche-clauzardSeminaire methodo-recherche-clauzard
Seminaire methodo-recherche-clauzard
 
[Étude 2014] Le brand content au coeur du pilotage de la marque
[Étude 2014] Le brand content au coeur du pilotage de la marque[Étude 2014] Le brand content au coeur du pilotage de la marque
[Étude 2014] Le brand content au coeur du pilotage de la marque
 
Sensibilisation à la veille documentaire (Doctorants SHS, juin 2022)
Sensibilisation à la veille documentaire (Doctorants SHS, juin 2022)Sensibilisation à la veille documentaire (Doctorants SHS, juin 2022)
Sensibilisation à la veille documentaire (Doctorants SHS, juin 2022)
 
Management des services: spécificités et typologies
Management des services: spécificités et typologiesManagement des services: spécificités et typologies
Management des services: spécificités et typologies
 
Presentation Storytelling : Partie 1, Les enjeux du Storytelling
Presentation Storytelling : Partie 1, Les enjeux du StorytellingPresentation Storytelling : Partie 1, Les enjeux du Storytelling
Presentation Storytelling : Partie 1, Les enjeux du Storytelling
 
Exemple de tableau pour reconnaitre les compétences
Exemple de tableau pour reconnaitre les compétencesExemple de tableau pour reconnaitre les compétences
Exemple de tableau pour reconnaitre les compétences
 
Technique de Redaction 1 du Business plan
Technique de Redaction 1 du Business plan Technique de Redaction 1 du Business plan
Technique de Redaction 1 du Business plan
 
Présentation hayla meddeb
Présentation hayla meddebPrésentation hayla meddeb
Présentation hayla meddeb
 
Documents pour créer un journal écriture journalistique
Documents pour créer un journal écriture journalistiqueDocuments pour créer un journal écriture journalistique
Documents pour créer un journal écriture journalistique
 
Veille Concurrentielle : Analyser et Benchmarker l'activité de vos Concurrents
Veille Concurrentielle : Analyser et Benchmarker l'activité de vos ConcurrentsVeille Concurrentielle : Analyser et Benchmarker l'activité de vos Concurrents
Veille Concurrentielle : Analyser et Benchmarker l'activité de vos Concurrents
 
Enseigner avec les TICE : considérations, approches et outils
Enseigner avec les TICE : considérations, approches et outilsEnseigner avec les TICE : considérations, approches et outils
Enseigner avec les TICE : considérations, approches et outils
 
Les différentes strategies concurrentielles
Les différentes strategies concurrentiellesLes différentes strategies concurrentielles
Les différentes strategies concurrentielles
 
formation
formation formation
formation
 
Design thinking empathie
Design thinking empathieDesign thinking empathie
Design thinking empathie
 
Orange Business Services présentation corporate
Orange Business Services présentation corporateOrange Business Services présentation corporate
Orange Business Services présentation corporate
 

Similaire à Initiation au data journalisme

Jabes 2010 - Tutoriels "Le web sémantique : un web de métadonnées"
Jabes 2010 - Tutoriels "Le web sémantique : un web de métadonnées"Jabes 2010 - Tutoriels "Le web sémantique : un web de métadonnées"
Jabes 2010 - Tutoriels "Le web sémantique : un web de métadonnées"ABES
 
CR Ces2015 - Business Innovation Network focusing on usages
CR Ces2015  - Business Innovation Network focusing on usagesCR Ces2015  - Business Innovation Network focusing on usages
CR Ces2015 - Business Innovation Network focusing on usagesBertrand Petit
 
2019 Atelier numérique les reseaux-sociaux instagram et twitter le vignoble ...
2019 Atelier numérique  les reseaux-sociaux instagram et twitter le vignoble ...2019 Atelier numérique  les reseaux-sociaux instagram et twitter le vignoble ...
2019 Atelier numérique les reseaux-sociaux instagram et twitter le vignoble ...LevignobledeNantes
 
Egc05 atelier rnti-e-5_(extraits)
Egc05 atelier rnti-e-5_(extraits)Egc05 atelier rnti-e-5_(extraits)
Egc05 atelier rnti-e-5_(extraits)sinfst
 
Egc05 atelier rnti-e-5_(extraits)
Egc05 atelier rnti-e-5_(extraits)Egc05 atelier rnti-e-5_(extraits)
Egc05 atelier rnti-e-5_(extraits)sinfst
 
Construire des infographies déclinables sur le print et sur le web
Construire des infographies déclinables sur le print et sur le webConstruire des infographies déclinables sur le print et sur le web
Construire des infographies déclinables sur le print et sur le webCap'Com
 
Quelles filières pour l’industrie de demain ?
Quelles filières pour l’industrie de demain ?Quelles filières pour l’industrie de demain ?
Quelles filières pour l’industrie de demain ?La Fabrique de l'industrie
 
Atelier data visualisation une image vaut mieux qu'un long discours
Atelier data visualisation une image vaut mieux qu'un long discoursAtelier data visualisation une image vaut mieux qu'un long discours
Atelier data visualisation une image vaut mieux qu'un long discourspolenumerique33
 
Atelier data visualisation une image vaut mieux qu'un long discours
Atelier data visualisation une image vaut mieux qu'un long discoursAtelier data visualisation une image vaut mieux qu'un long discours
Atelier data visualisation une image vaut mieux qu'un long discoursbsaintorens
 
Réseaux sociaux-entreprise
Réseaux sociaux-entrepriseRéseaux sociaux-entreprise
Réseaux sociaux-entrepriseNeocamino
 
Médias sociaux
Médias sociauxMédias sociaux
Médias sociauxThonnard
 
#MuseumWeekAnalyzes : Pistes méthodologiques autour de l'opération MuseumWeek
#MuseumWeekAnalyzes : Pistes méthodologiques autour de l'opération MuseumWeek#MuseumWeekAnalyzes : Pistes méthodologiques autour de l'opération MuseumWeek
#MuseumWeekAnalyzes : Pistes méthodologiques autour de l'opération MuseumWeekAntoine Courtin
 
Le renseignement humain augmenté
Le renseignement humain augmentéLe renseignement humain augmenté
Le renseignement humain augmentéTerry ZIMMER
 
Fractures françaises - 10ème édition - 2022
Fractures françaises - 10ème édition - 2022Fractures françaises - 10ème édition - 2022
Fractures françaises - 10ème édition - 2022Ipsos France
 
La veille de Red Guy du 05.02.14 - Le flat design
La veille de Red Guy du 05.02.14 - Le flat designLa veille de Red Guy du 05.02.14 - Le flat design
La veille de Red Guy du 05.02.14 - Le flat designRed Guy
 
Recherches dans le SEO: tests, investigations et études SEO - SEO Camp'us Par...
Recherches dans le SEO: tests, investigations et études SEO - SEO Camp'us Par...Recherches dans le SEO: tests, investigations et études SEO - SEO Camp'us Par...
Recherches dans le SEO: tests, investigations et études SEO - SEO Camp'us Par...iProspect France
 
Book de Michel Gaschy, concepteur-Rédacteur
Book de Michel Gaschy, concepteur-RédacteurBook de Michel Gaschy, concepteur-Rédacteur
Book de Michel Gaschy, concepteur-RédacteurMichel Gaschy
 
Atelier Communication digitale et développement des publics - BIS 2014
Atelier Communication digitale et développement des publics - BIS 2014Atelier Communication digitale et développement des publics - BIS 2014
Atelier Communication digitale et développement des publics - BIS 2014Nicolas Bariteau
 
Livre blanc - Twitter conté par 50 personnalités de la banque finance assurance
Livre blanc -  Twitter conté par 50 personnalités de la banque finance assuranceLivre blanc -  Twitter conté par 50 personnalités de la banque finance assurance
Livre blanc - Twitter conté par 50 personnalités de la banque finance assuranceAlban Jarry
 

Similaire à Initiation au data journalisme (20)

la veille
la veillela veille
la veille
 
Jabes 2010 - Tutoriels "Le web sémantique : un web de métadonnées"
Jabes 2010 - Tutoriels "Le web sémantique : un web de métadonnées"Jabes 2010 - Tutoriels "Le web sémantique : un web de métadonnées"
Jabes 2010 - Tutoriels "Le web sémantique : un web de métadonnées"
 
CR Ces2015 - Business Innovation Network focusing on usages
CR Ces2015  - Business Innovation Network focusing on usagesCR Ces2015  - Business Innovation Network focusing on usages
CR Ces2015 - Business Innovation Network focusing on usages
 
2019 Atelier numérique les reseaux-sociaux instagram et twitter le vignoble ...
2019 Atelier numérique  les reseaux-sociaux instagram et twitter le vignoble ...2019 Atelier numérique  les reseaux-sociaux instagram et twitter le vignoble ...
2019 Atelier numérique les reseaux-sociaux instagram et twitter le vignoble ...
 
Egc05 atelier rnti-e-5_(extraits)
Egc05 atelier rnti-e-5_(extraits)Egc05 atelier rnti-e-5_(extraits)
Egc05 atelier rnti-e-5_(extraits)
 
Egc05 atelier rnti-e-5_(extraits)
Egc05 atelier rnti-e-5_(extraits)Egc05 atelier rnti-e-5_(extraits)
Egc05 atelier rnti-e-5_(extraits)
 
Construire des infographies déclinables sur le print et sur le web
Construire des infographies déclinables sur le print et sur le webConstruire des infographies déclinables sur le print et sur le web
Construire des infographies déclinables sur le print et sur le web
 
Quelles filières pour l’industrie de demain ?
Quelles filières pour l’industrie de demain ?Quelles filières pour l’industrie de demain ?
Quelles filières pour l’industrie de demain ?
 
Atelier data visualisation une image vaut mieux qu'un long discours
Atelier data visualisation une image vaut mieux qu'un long discoursAtelier data visualisation une image vaut mieux qu'un long discours
Atelier data visualisation une image vaut mieux qu'un long discours
 
Atelier data visualisation une image vaut mieux qu'un long discours
Atelier data visualisation une image vaut mieux qu'un long discoursAtelier data visualisation une image vaut mieux qu'un long discours
Atelier data visualisation une image vaut mieux qu'un long discours
 
Réseaux sociaux-entreprise
Réseaux sociaux-entrepriseRéseaux sociaux-entreprise
Réseaux sociaux-entreprise
 
Médias sociaux
Médias sociauxMédias sociaux
Médias sociaux
 
#MuseumWeekAnalyzes : Pistes méthodologiques autour de l'opération MuseumWeek
#MuseumWeekAnalyzes : Pistes méthodologiques autour de l'opération MuseumWeek#MuseumWeekAnalyzes : Pistes méthodologiques autour de l'opération MuseumWeek
#MuseumWeekAnalyzes : Pistes méthodologiques autour de l'opération MuseumWeek
 
Le renseignement humain augmenté
Le renseignement humain augmentéLe renseignement humain augmenté
Le renseignement humain augmenté
 
Fractures françaises - 10ème édition - 2022
Fractures françaises - 10ème édition - 2022Fractures françaises - 10ème édition - 2022
Fractures françaises - 10ème édition - 2022
 
La veille de Red Guy du 05.02.14 - Le flat design
La veille de Red Guy du 05.02.14 - Le flat designLa veille de Red Guy du 05.02.14 - Le flat design
La veille de Red Guy du 05.02.14 - Le flat design
 
Recherches dans le SEO: tests, investigations et études SEO - SEO Camp'us Par...
Recherches dans le SEO: tests, investigations et études SEO - SEO Camp'us Par...Recherches dans le SEO: tests, investigations et études SEO - SEO Camp'us Par...
Recherches dans le SEO: tests, investigations et études SEO - SEO Camp'us Par...
 
Book de Michel Gaschy, concepteur-Rédacteur
Book de Michel Gaschy, concepteur-RédacteurBook de Michel Gaschy, concepteur-Rédacteur
Book de Michel Gaschy, concepteur-Rédacteur
 
Atelier Communication digitale et développement des publics - BIS 2014
Atelier Communication digitale et développement des publics - BIS 2014Atelier Communication digitale et développement des publics - BIS 2014
Atelier Communication digitale et développement des publics - BIS 2014
 
Livre blanc - Twitter conté par 50 personnalités de la banque finance assurance
Livre blanc -  Twitter conté par 50 personnalités de la banque finance assuranceLivre blanc -  Twitter conté par 50 personnalités de la banque finance assurance
Livre blanc - Twitter conté par 50 personnalités de la banque finance assurance
 

Plus de Ettore Rizza

Initiation au Web scraping - AJPro
Initiation au Web scraping - AJProInitiation au Web scraping - AJPro
Initiation au Web scraping - AJProEttore Rizza
 
Formation AJPro fact-checking 2 octobre 2019 2/2
Formation AJPro fact-checking 2 octobre 2019 2/2Formation AJPro fact-checking 2 octobre 2019 2/2
Formation AJPro fact-checking 2 octobre 2019 2/2Ettore Rizza
 
Formation AJPro fact-checking 2 octobre 2019 1/2
Formation AJPro fact-checking 2 octobre 2019 1/2Formation AJPro fact-checking 2 octobre 2019 1/2
Formation AJPro fact-checking 2 octobre 2019 1/2Ettore Rizza
 
Initiation à la fouille de texte - formation AJPro
Initiation à la fouille de texte - formation AJProInitiation à la fouille de texte - formation AJPro
Initiation à la fouille de texte - formation AJProEttore Rizza
 
Outils data visualisation
Outils data visualisationOutils data visualisation
Outils data visualisationEttore Rizza
 
Vocabulaire politique du crisp
Vocabulaire politique du crispVocabulaire politique du crisp
Vocabulaire politique du crispEttore Rizza
 

Plus de Ettore Rizza (6)

Initiation au Web scraping - AJPro
Initiation au Web scraping - AJProInitiation au Web scraping - AJPro
Initiation au Web scraping - AJPro
 
Formation AJPro fact-checking 2 octobre 2019 2/2
Formation AJPro fact-checking 2 octobre 2019 2/2Formation AJPro fact-checking 2 octobre 2019 2/2
Formation AJPro fact-checking 2 octobre 2019 2/2
 
Formation AJPro fact-checking 2 octobre 2019 1/2
Formation AJPro fact-checking 2 octobre 2019 1/2Formation AJPro fact-checking 2 octobre 2019 1/2
Formation AJPro fact-checking 2 octobre 2019 1/2
 
Initiation à la fouille de texte - formation AJPro
Initiation à la fouille de texte - formation AJProInitiation à la fouille de texte - formation AJPro
Initiation à la fouille de texte - formation AJPro
 
Outils data visualisation
Outils data visualisationOutils data visualisation
Outils data visualisation
 
Vocabulaire politique du crisp
Vocabulaire politique du crispVocabulaire politique du crisp
Vocabulaire politique du crisp
 

Initiation au data journalisme

  • 2. 2
  • 3. Vous donnez les clés pour vous lancer et vous perfectionner par vous-même. 1. Apprendre des techniques 2. Apprendre à utiliser un outil 3. Apprendre des concepts 4. Apprendre une manière de penser 3
  • 4. 4
  • 5. Matin 10h: Propos liminaires 10h30: Projet 1 (débutant) 11h30: Projet 2 (débutant) 12h30: Intro aux regexes 13h: Lunch Après-midi 14h: Projet 3 (intermédiaire) 17h00: Fin de la formation 5
  • 6. 6
  • 8.  Pulitzer classique : https://www.flickr.com/photos/juggernautco/sets/72157607210036175/  Application : https://www.lecho.be/monargent/immobilier/immoinvest.html  Analyse : https://www.ft.com/content/62d782d6-31a7-11e7-9555-23ef563ecf9a  Pure « dataviz » : https://www.hindustantimes.com/static/olympics/every-country-fastest-man-in- one-race-100m/  Enquête web : https://www.buzzfeednews.com/article/johntemplon/how-we-used-data-to- investigate-match-fixing-in-tennis#.bjpMp0Rpw  Mix de texte-viz : https://pudding.cool/2018/07/women-in-parliament/ 8
  • 10. Stephen « Steve » Doig Type : journaliste « à l’ancienne » Objectif : produire un bon article Aime : l’odeur du papier Type : « journo-codeur » Objectif : produire une bonne appli web Aime : la culture open source 1 0 Nicolas Kayser-Bril
  • 11. Stephen « Steve » Doig Nicolas Kayser-Bril C’est moi ! Type : journaliste « à l’ancienne » Objectif : produire un bon article Aime : l’odeur du papier Type : « journo-codeur » Objectif : produire une bonne appli web Aime : la culture open source 1 1 lol
  • 12. Utiliser des méthodes informatiques pour automatiser des tâches fastidieuses; Utiliser des données fiables pour approcher le plus rigoureusement possible d’une certaine vérité. 1 2
  • 14. Mais il est loin d’être le seul 1 4
  • 15. INFORMATIQUE GÉNÉRALE RELATIVEMENT À L’AISE AVEC UN ORDINATEUR WEB NOTIONS DE HTML/CSS DONNÉES FAMILIARISÉ AVEC LES FICHIERS TABULAIRES (.CSV, EXCEL…) OUTILS CONNAISSANCE SUPERFICIELLE/MOYENNE DE QUELQUES CLASSIQUES (EXCEL/GOOGLE SPREADSHEETS, OPENREFINE, GOOGLE FUSION TABLE…) MATHÉMATIQUES MOYENNE ET MÉDIANE, CALCUL DE POURCENTAGES… 1 5
  • 16. Même des travaux de débutant peuvent faire la une 1 6
  • 17. 1 7
  • 18. 1 8
  • 19. 1 9
  • 20. 2 0
  • 21. 2 1
  • 22. 2 2
  • 23. 2 3
  • 24. « Ma question de départ était-elle la bonne ? » 2 4
  • 25. 2 5
  • 27. 2 7
  • 28. 2 8
  • 29. 2 9
  • 30.  Boîte à outils de base  Tout-en-un (relativement)  Fait par des journalistes pour des journalistes  Nouveau (et en phase de test)  Modulaire et facilement extensible  Open Source  En ligne, mais installable en « local »  Simple et didactique  Met l’accent sur la reproductibilité (workflows) 3 0
  • 31. Pour le public (crédibilité, vérification…) Pour vos collègues/confrères (travail collaboratif, partage de bonnes pratiques…) Pour VOUS au moment d’écrire l’article. Pour VOUS dans 6 mois. 3 1
  • 33. VOUS ÊTES À LA RÉDACTION… 3 3
  • 34. LE JOURNAL PRÉPARE UN DOSSIER SUR MATHIEU KASSOVITZ 3 4
  • 36. Identifier les gens que Mathieu Kassovitz aime sur Twitter (C’est tout) 3 6
  • 37. 3 7
  • 38. 3 8
  • 40. Dès que je dis « regardez ! », merci de lever les yeux pour regarder ce que je fais. Quand je dis « c’est à vous », vous pouvez commencer à reproduire ce que j’ai montré  4 0
  • 41. Ouvrez votre sessions sur : 4 1 https://app.workbenchdata.com/
  • 42. 4 2 Que représentent les lignes ? Que contient chaque colonne ? Y a-t-il des colonnes, valeurs, codes… que vousne comprenez pas ? Quelle est l’unité des valeurs ? (prix en euros ?) Y a-t-il des valeurs manquantes ou clairement erronées ? Les données doivent-elles être nettoyées ? (Inspiré deWorkbench)
  • 43. Si tu vas au Delhaize, prends: 4 3 - 2 paquets de yaourt Donane - 1 bocal de cornichons - 2 bouteilles de Chianti Ton lapinou
  • 44. Quantité Type Produit Marque 2 paquet yaourt Donane 1 bocal cornichon * 2 bouteille vin Chianti Si tu vas au Delhaize, prends: - 2 paquets de yaourt Donane - 1 bocal de cornichons - 2 bouteilles de Chianti Ton lapinou 4 4
  • 45. ISBN TITLE AUTHOR PUBDATE PUBLISHER PUBLOCATION 9783640246991 Les Misérables - Tome I - Fantine Victor Hugo 2009-01-19 GRIN Publishing London 9782807302150 Introduction aux humanités numériques : méthodes et pratiques Seth VanHooland 2016-06-05 de Boeck Supérieur Bruxelles 9782075047449 Notre-Dame de Paris Victor Hugo 2015-05-21 Gallimard Paris 9782253087663 Vernon Subutex Tome 1 Virginie Despentes 2016-03-02 Grasset Paris 4 5
  • 46. ISBN,TITLE,AUTHORS,PUBDATE,PUBLISHER,PUBLOCATION 9783640246991,Les Misérables - Tome I - Fantine,Hugo Victor,19/01/2009,GRIN Publishing,London 9782807302150,Introduction aux humanités numériques : méthodes et pratiques,Seth Van Hooland,05/06/2016,de Boeck Supérieur,Bruxelles 9782075047449,Notre-Dame de Paris,Victor Hugo,21/05/2015,Gallimard,Paris 9782253087663,Vernon Subutex Tome 1,Virginie Despentes,02/03/2016,Graset,Paris 4 6
  • 47. ISBN,TITLE,AUTHORS,PUBDATE,PUBLISHER,PUBLOCATION 9783640246991,Les Misérables - Tome I - Fantine,Hugo Victor,19/01/2009,GRIN Publishing,London 4 7 9782807302150,Introduction aux humanités numériques : méthodes et pratiques,Seth Van Hooland,05/06/2016,de Boeck Supérieur,Bruxelles …
  • 48. ISBN;TITLE;AUTHORS;PUBDATE;PUBLISHER;PUBLOCATION 9783640246991;Les Misérables - Tome I - Fantine;Hugo Victor;19/01/2009;GRIN Publishing;London 9782807302150;Introduction aux humanités numériques : méthodes et pratiques;Seth Van Hooland;05/06/2016;de Boeck Supérieur;Bruxelles 9782075047449;Notre-Dame de Paris;Victor Hugo;21/05/2015;Gallimard;Paris 9782253087663;Vernon Subutex Tome 1;Virginie Despentes;02/03/2016;Graset;Paris 4 8
  • 49. 4 9 { "9782075047449": { "publisher": { "publisher_name": "Gallimard", "publisher_location": "Paris" }, "title": "Notre-Dame de Paris", "authors": { "author": "Victor Hugo" }, "pubdate": "2015-05-21", "tags": { "tag": [ "Romans - Historique", "Classics", "Juvenile Fiction", "General" ] } } }
  • 50. <?xml version='1.0' encoding='utf-8’?> <ma_bibliotheque> <book> <publisher>de Boeck Supérieur</publisher> <isbn>9782807302150</isbn> <title>Introduction aux humanités numériques : méthodes et pratiques</title> <authors> <author>Seth Van Hooland</author> <author>Florence Gillet</author> <author>Simon Hengchen</author> <author>Max De Wilde</author> </authors> <pubdate>2016-06-05</pubdate> </book> </ma_bibliotheque> 5 0
  • 51. Pays Année Valeur (OSEF) France 2010 1 Allemagne 2010 1 France 2011 2 Chine 2010 1 Allemagne 2011 2 Chine 2011 7 5 1
  • 52. Pays Année Valeur (OSEF) France 2010 1 Allemagne 2010 1 France 2011 2 Chine 2010 1 Allemagne 2011 2 Chine 2011 7 Pays (groupés) Count(pays) France 2 Allemagne 2 Chine 2 Compte par groupe 5 2
  • 53. Pays Année Valeur (OSEF) France 2010 1 Allemagne 2010 1 France 2011 2 Chine 2010 1 Allemagne 2011 2 Chine 2011 7 Pays (groupés) Somme(Valeur) France 3 Allemagne 3 Chine 8 Somme groupée 5 3
  • 54. Pays Année Valeur (OSEF) France 2010 1 Allemagne 2010 1 France 2011 2 Chine 2010 1 Allemagne 2011 2 Chine 2011 7 Pays (groupés) Somme(Valeur) France 3 Allemagne 3 Chine 8 Somme groupée 5 4
  • 55. Pays Année Valeur (OSEF) France 2010 1 Allemagne 2010 1 France 2011 2 Chine 2010 1 Allemagne 2011 2 Chine 2011 7 Pays (groupés) Moyenne(Valeur) France 1.5 Allemagne 1.5 Chine 4 Moyenne groupée 5 5
  • 56. Pays Année Valeur (OSEF) France 2010 1 Allemagne 2010 1 France 2011 2 Chine 2010 1 Allemagne 2011 2 Chine 2011 7 Pays (groupés) Max(Valeur) France 2 Allemagne 2 Chine 7 Maximum du groupe 5 6
  • 57. 5 7
  • 58. 5 8
  • 59. 5 9 Y CE QUE L’ON COMPTE X LA QUANTITÉ
  • 60. 6 0
  • 63. 6 3
  • 64. 6 4
  • 65. 6 5
  • 66. Pays Population France 61 000 000 Belgique 11 000 000 Allemagne 82 000 000 6 6 Pays Superficie France 547 030 Allemagne 357 021 Etats-Unis 9 631 418 Chine 9 596 960 Dataset 1 Dataset 2
  • 67. Pays Population France 61 000 000 Belgique 11 000 000 Allemagne 82 000 000 Pays Superficie France 547 030 Allemagne 357 021 Etats-Unis 9 631 418 Chine 9 596 960 Dataset 1 Dataset 2 Pays Population Superficie France 61 000 000 547 030 Belgique 11 000 000 null Allemagne 82 000 000 357 021 Dataset joint « à gauche » 6 7
  • 68. Pays Population France 61 000 000 Belgique 11 000 000 Allemagne 82 000 000 Pays Superficie France 547 030 Allemagne 357 021 Etats-Unis 9 631 418 Chine 9 596 960 Dataset 1 Dataset 2 Pays Population Superficie France 61 000 000 547 030 Belgique 11 000 000 null Allemagne 82 000 000 357 021 Dataset joint « à gauche » 6 8
  • 69. Pays Population France 61 000 000 Belgique 11 000 000 Allemagne 82 000 000 Pays Superficie France 547 030 Allemagne 357 021 Etats-Unis 9 631 418 Chine 9 596 960 Dataset 1 Dataset 2 Dataset joint « à droite » Pays Superficie Population France 547 030 61 000 000 Allemagne 357 021 82 000 000 Etats-Unis 9 631 418 null Chine 9 596 960 null 6 9
  • 70. Pays Population France 61 000 000 Belgique 11 000 000 Allemagne 82 000 000 Pays Superficie France 547 030 Allemagne 357 021 Etats-Unis 9 631 418 Chine 9 596 960 Dataset 1 Dataset 2 Dataset joint « en interne » Pays Superficie Population France 547 030 61 000 000 Allemagne 357 021 82 000 000 7 0
  • 71. Pays Population France 61 000 000 Belgique 11 000 000 Allemagne 82 000 000 Pays Superficie FRANCE 643 801 Allemagne 357 021 Etats-Unis 9 631 418 Chine 9 596 960 Dataset 1 Dataset 2 Dataset joint « en interne » Pays Superficie Population Allemagne 357 021 82 000 000 7 1
  • 72. Pays Population France 61 000 000 Belgique 11 000 000 Allemagne 82 000 000 Pays Superficie France 643 801 Allemagne 357 021 Etats-Unis 9 631 418 Chine 9 596 960 Dataset 1 Dataset 2 Dataset joint « en interne » Pays Superficie Population Allemagne 357 021 82 000 000 7 2
  • 74. VOUS ÊTES À LA RÉDACTION… 7 4
  • 77. Identifier les gens les plus retweetés parmi ceux qui discutent encore de la #ligueduLOL 7 7
  • 78. Si vous le souhaitez, vous pouvez travailler par groupes de deux voire trois en vous partageant le projet. 7 8
  • 79. On cherche des tweets sur un thème, et non les tweets d’une personne en particulier. On peut s’aider de « filtres » lors de la recherche Notez que les colonnes renvoyées ne sont pas exactement les mêmes On s’intéresse au nombre de retweets Tenir compte des doublons 7 9
  • 80. Une (petite) série de symboles (?$*^()[]+d) Permettent de retrouver et/ou remplacer des motifs de texte Indispensables pour travailler sérieusement sur du texte brut 8 0
  • 81. http://data.blog.lemonde.fr/2016/04/ 08/panama-papers-un-defi- technique- pour-le-journalisme-de- donnees/ Comment les journalistes du Monde ont recherché des numéros d’entreprises français dans les Panama Papers 8 1
  • 83. Mini-exercice : matcher tous les « chiens » ou « chiennes »,ainsi que « chienchien », mais pas chienchienchien ni chienlit 8 3 https://regex101.com/r/MzK7Ak/7
  • 84.  A première vue effrayantes : b((+|00)32s?|0)4(60|[789]d)(-|/|s|.|)(d{2})4(d{2})4(d{2})b  Mais finalement pas plus que : MMCCCLXXXVIII (2388) Rindfleischetikettierungsüberwachungsaufgabenübertragungsgesetz (« loi sur le transfert des obligations de surveillance de l'étiquetage de la viande bovine ») 8 4
  • 86. Suivez le lien ci-dessous et : 8 6 Essayez de « matcher » les adresses email (et seulement elles). https://regex101.com/r/LqTv7c/3
  • 87. 8 7
  • 89. VOUS ÊTES À LA RÉDACTION… 8 9
  • 90. UNE DÉPUTÉE FÉDÉRALE PUBLIE UN TWEET POLÉMIQUE… 9 0
  • 91. 9 1
  • 93. 93
  • 94. A l’aide d’un fichier de l’activité des députés fédéraux : Fact-checking : vérifier si, à vue d’œil, il y a du vrai dans la déclaration de la députée - à savoir que les jeunes élues sont particulièrement actives. 94
  • 95. Si vous le souhaitez, vous pouvez travailler par groupes de deux ou trois en vous partageant le projet. 95
  • 97. Nom Naissance Parti Charles Michel 21/12/1975 MR Elio Di Rupo 18/07/1951 PS Yves Leterme 06/10/1960 CD&V Herman Van Rompuy 31/10/1947 CD&V … … … 97
  • 98. Processus qui consiste à convertir automatiquement des ressources présentes sur le web en un format structuré. Un script informatique parcourt une série de pages web et extrait certains éléments. Le résultat est le plus souvent renvoyé sous forme de tableau (csv, Excel…). 98
  • 100. 1. Rendez-vous sur la page de départ avec la liste des députés. Copiez l’URL de cette page. 2. Ouvrez le web développer de Chrome (F12), et allez dans l’onglet web scraper. 3. Créez une nouvelle « Sitemap » en indiquant comme « Start URL » celle de votre page de départ. Donnez un nom à votre sitemap, par exemple « députés fédéraux » 4. Cliquez sur « add new selector ». Une fois l’outil ouvert, cliquez sur « select » et donnez quelques exemples de ce que vous voulez sélectionner, jusqu’à ce que le logiciel comprenne. N’oubliez pas de cliquer ensuite sur « Done selecting ! ». 5. Sélectionnez dans la liste déroulante « Type » la catégorie adéquate (par exemple « links »), cochez au besoin la case « Multiple ». Donnez un nom au sélecteur et sauvegardez. 6. Cliquez sur le sélecteur que vous venez de créer. En même temps, cliquez sur l’un des liens de la page afin d’afficher à l’écran les informations que vous souhaitez récupérer. 7. Ajoutez de nouveaux sélecteurs pour extraire des éléments de la page (comme aux étapes 4 et 5). 8. Une fois terminé, cliquez sur le menu « Sitemap député fédéraux », puis sur « scrape ». Patientez. 9. Une fois le scraping terminé, cliquez sur « refresh ». 10. Si le résultat vous convient, cliquez à nouveau sur « sitemap député fédéraux », puis sur « Export data as CSV ». Sauvegardez le CSV sur votre bureau. 10 0
  • 101. String 1 String 2 Question Désiré Marcel marcel, desire MÊME CHOSE ? 10 1
  • 102. String 1 String 2 Opérations Désiré Marcel marcel, desire Début désiré marcel marcel, desire Tout en minuscules 1 désiré marcel marcel desire Ponctuation, espaces en trop… 2 desire marcel marcel desire Diacritiques 3 desire marcel desire marcel Ordre alphabétique 4 desire marcel desire marcel Comparaison 5 MATCH ! 6 10 2
  • 103. Note : le fingerprint est un algorithme plutôt sûr, mais limité. Céréale == cereale Céréale != Céérale Céréale != Céréales 10 3
  • 104.  Comment estimer la différence entre les deux mots suivants : 10 4 INTENTION EXECUTIO N
  • 105. 10 5
  • 106. Edit distance = 5 10 6
  • 107. Pays Année Valeur (OSEF) France 2010 1 Allemagne 2010 1 France 2011 2 Chine 2010 1 Allemagne 2011 2 Chine 2011 7 10 7
  • 108. Pays Année Valeur (OSEF) France 2010 1 Allemagne 2010 1 France 2011 2 Chine 2010 1 Allemagne 2011 2 Chine 2011 7 Pays 2010 2011 France 1 2 Allemagne 1 2 Chine 1 7 10 8
  • 109. Pays Année Valeur France 2010 1 France 2011 2 Allemagne 2010 1 Allemagne 2011 2 Chine 2010 1 Chine 2011 7 Pays 2010 2011 France 1 2 Allemagne 1 2 Chine 1 7 10 9
  • 110. France Allemagne Chine 2010 1 1 1 2011 2 2 7 2010 2011 France 1 2 Allemagne 1 2 Chine 1 7 11 0
  • 112. 11 2
  • 113. 11 3
  • 114. Summer School AJPro 2018 (souviens-toi, l’été dernier…) 11 4
  • 115. 11 5
  • 116. Nous aurions pu en voir beaucoup plus Nous avons survolé les outils et techniques 11 6
  • 117. N’hésitez pas à vous former de votre côté A demander des formations AJPro, publiques ou pour entreprise A utiliser votre service après-vente : 3 questions par mail chacun.e ! 11 7
  • 118. Documentation des modules : http://help.workbenchdata.com/modules Quelques tutoriels : https://app.workbenchdata.com/lessons/ Initiation au DDJ : https://app.workbenchdata.com/courses/intro- to- data-journalism/first-story 11 8
  • 119.  Un screencast en français (de moi) : https://www.youtube.com/watch?v=-cxNhoVufEo  Documentation : https://www.webscraper.io/documentation  Tutos : https://www.webscraper.io/tutorials  Forum : https://forum.webscraper.io/latest 11 9
  • 120.  RegExr ou Regex101: pour tester vos expressions  Regexpert : pour visualiser des expressions complexes  RegexOne : tutoriel pour les apprendre  Regex Cheat Sheet : en attendant de les retenir  Regular-expressions.info : une référence  Regular expressions library : des regex toutes faites 12 0
  • 121. 12 1