Big data et open data

BOSA.be
INTEC Brussel
2018-08-21
Bart Hanssens
SPF BOSA Transformation digitale
Big Data &
Open Data

• Data
• Quelques concepts
• Big Data
• Qu'est-ce que c'est + exemples
• Open Data
• Qu'est-ce que c'est + exemples
• Questions ?
Agenda
2

• Données (électroniques)
• Photos, documents, cartes, données de mesure …
• Structuré ou non-structuré
Qu'est-ce que data ?
4

• Métadonnées sont également des données
• Données sur des autres données
• Souvent utiliser pour la recherche
• Par exemple:
• Donnée: vidéo YouTube
• Métadonnées: titre, date, nom de l’artiste, …
Qu’est-ce que metadata ?
5

• Enregistrer et récupérer des données, ça coûte
• Du temps, de l’argent, de l’espace
• La collecte de données ne suffit pas
• Le but est de faire quelque chose avec les donnéess
• Une analyse correcte des données peut être très difficile
• La sécurité des données est importante
• Surtout lorsque des données privés sont stockées/traitées
Points d’attention (méta)données
6

Taille Data (environ)
Zettabyte ZB 15 ZB: toutes les données sur internet
Exabyte EB 2 EB: (par jour) nouvelles données dans le monde entier
Petabyte PB 4 PB: (par jour) data sur Facebook
Terabyte TB 8 TB: disque dur plus large (consommateur)
Gigabyte GB 60 GB: Wikipedia en anglais (sans historique)
3 GB: (par heure) film Netflix en qualité HD
1 GB: (par mois) limite d‘un abonnement GSM bon marché
Megabyte MB 2 MB: présentation PowerPoint
Kilobyte kB 3 KB: texte d’une page A4
Byte B
Combien est beaucoup ?
8

Type Prix par GB (environ) Max. vitesse de lecture (environ)
Disque dur 0.03 EUR 250 MB/s
Clé USB 0.2 EUR 150 MB/s
SSD m.2 0.3 EUR 3 500 MB/s
DDR4 RAM 10 EUR 25 600 MB/s
Comparaison mémoire / stockage
9

Type Commentaire Max.vitesse (en réalitié)
4G 5 MB/s
Wifi (n) 5 GHz 30 MB/s
Wifi (ac) 90 MB/s
Ethernet (Gigabit) 115 MB/s
Ethernet (10 GbE) 1 150 MB/s
MAREA Câble réseau Est USA - Espagne 20 000 000 MB/s
Comparaison vitesse de téléchargement
10

Dans les articles sur Big Data, on parle souvent de "V":
• Volume: beaucoup de données
• Velocity: traitement rapide
• Variety: structures et sources différentes
Actuellement des "V" supplémentaires sont mentionnés
• Value: valeur
• …
Les “V”s de Big Data
11

• Produire et stocker des données devient moins cher
• De plus en plus services "personnels" basés sur données:
• Google: publicité basée sur des recherches
• Netflix: suggestions de films
• TomTom: trajets plus rapides basés sur info embouteillages
• “Internet of Things”, “Smart City”, “Connected Cars”
• De plus en plus de communication entre les machines
Pourquoi de plus en plus Big Data ?
12

• Des capteurs partout, (souvent) connectés::
• Smartphones avec GPS, camera et capteur de mouvement
• Capteur de qualité de l’air, radiation, …
• Systèmes d’alarme, domotique
• Cameras et détecteurs trafic
• Voitures (autonomes)
• Capteurs dans des machines industrielles
Internet des Objets
13

• Online et médiaux sociaux
• Twitter, Facebook, Google, …
• Sciences
• Météo et climat, physique, astronomie
• Banques et industrie
• Bourse, assurances, chimie, secteur de santé
• Mobilité et transport
• Circulation plus fluide, voitures autonomes
• Sports
Applications
14

• Avantages et désavantages
• “Si le produit est gratuit alors vous êtes le produit ”
• Souvent l'intention de vendre quelque chose, basé sur
• Quelles applications vous utilisez et quand
• Où vous êtes, et avec qui
• Quelles pages, vidéos ... vous regardez et partagez
• Le produits que vous avez déjà acheté en ligne
• …
Exemple: médiaux sociaux et plateformes en ligne
15

• Grande quantité de photos et de mesures
• La terre: photos de bâtiments, température
• L’espace: étoiles, planètes
• USA: 25+ PB data, code et exemples NASA
• https://open.nasa.gov/open-data
• Belgique:
• Agriculture: croissance des cultures (https://watchitgrow.be)
• Plateforme Terrascope (https://terrascope.be)
Exemple: données satellite
16

Exemple: est-ce que ma commune est verte?
17

• Véhicules enregistrent la situation sur la route
• Trous sur la route, glace, routes glissantes, …
• L'information est partagée
• Avertissement aux véhicules dans le voisinage
• Message au gestionnaire de la route (souffleuse à neige …)
• Exemple: « BADA » projet Volvo / Scania (Suède)
• http://www.nvfnorden.org/library/Files/Per-
Olof%20Svensk_BADA%207%20June%202017.pdf
Exemple: améliorer la situation des autoroutes
18

• Beaucoup de gens garde leur mobile à portée de main
• En contact avec les antennes
• Opérateurs peuvent faire des analyses des événements
• Quel trajet les visiteurs suivent-ils ?
• Combien de temps restent-ils ?
• Exemple: Proximus MyAnalytics
• https://www.proximusanalytics.be
• Rapports anonymisés (payants)
• Seules des données Proximus (estimation autres opérateurs)
Exemple: visiteurs d’un événement basé sur GSM
19

Exemple: célébration Diables Rouges
20

• « La vie deviendra-t-elle plus chère en Belgique ? »
• Achats tels que nourriture/boisson… carburant, vêtements
• Influence indirecte sur l'indexation (augmentation) du loyer
• E.a. articles scannés aux caisses des supermarchés
• Comparaison n'est pas toujours facile
• Produits saisonniers, même produit / autre code
• https://statbel.fgov.be/fr/propos-de-
statbel/methodologie/analyses
Exemple: prix de consommation Statbel
21

• Formule 1
• 100 – 300 capteurs par bolide F1
• Vitesse, pression des pneus, freins, carburant …
• Football: FC Barcelona
• (big) data analytics
• Performance sportive, interaction personnalisée aves les fans
Exemples: sports
22

• CERN “Large Hadron Collider” accélérateur de particules
• 10 PB/s, « seulement » 30 PB données / an sont conservées
• https://home.cern/about/computing/processing-what-record
• NASA “Square Kilometre Array” télescope
• Prêt en 2024 ? 1 EB/jour, au moins 200 PB/an conservé
• https://www.skatelescope.org
Exemple: science
23

Analyse et visualisation des données
24

• Le stockage des données devient moins cher
• Tout n'est pas utile pour l’analyse
• Pas toujours clair ce qui a / n'a pas d'influence
• Souvent fait pour prédictions ou améliorer quelque chose
• Prévoir le temps, la qualité de l'air, les ventes, ...
• Détection de la fraude
• Composer de nouveaux matériaux et médicaments
Analyse de données
25

• « Entraîner » les machines de reconnaître des structures
• Images: personnes, panneaux de signalisation, tumeurs
• Textes et produits: catégorisation automatique
• Recherche sur le ML par les grandes entreprises TIC
• https://www.tensorflow.org (Google)
• http://www.paddlepaddle.org (Baidu)
• http://torch.ch (Facebook)
• https://www.ibm.com/watson (IBM)
Machine learning
26

• Par exemple via “notebooks” ou “dashboards”
• Alternative en ligne pour rapports et documents
• Particulièrement populaire auprès des chercheurs
• Peut aussi être utilisé sans big data
• Souvent écrit en Python, “R” et/ou Javascript
• http://shiny.rstudio.com
• http://jupyter.org
Visualisation des données
27

Quand Big Data / comment choisir les composants ?
29
• N'a de sens que pour de grandes quantités de données
• Terabytes ou plus
• Beaucoup de composants différents
• évoluent encore très vite
• Ne devraient pas tous être utilisés
• Aucun système parfait dans toutes les situations
• Recherches compliquées ou pas ?
• Données structurées ou non-structurées ?
• Interaction avec d'autres systèmes ?

Plateforme Big Data Hadoop
31
• Pas la seule plateforme, mais très populaire
• Se compose de différents composants
• HDFS, MapReduce, …
• Java open source: usage libre sur vos propres serveurs
• Paquets commerciaux: Cloudera, MapR, Hortonworks …
• Installation sur vos propres machines ou “dans le cloud”
• Amazon, Google, Microsoft, Oracle, SAP …
• Attention: pas gratuit, stocker/récupérer les données coûte

Hadoop HDFS, simplifié
32
HDFS

Apache Hadoop HDFS
33
• Système de fichiers distribué
• (partie des) disques séparés se comportent comme 1
• Optimisé pour les grandes opérations de lecture « batch »
• Pas pour des petites opérations d'écriture “random”
• Peut être utilisé avec de nombreux disques "normaux"
• Même milliers de machines, dizaines de milliers de disques
• Centaines de petabytes
• Données automatiquement distribuées et copiées
• Détection + réparation rapide des erreurs (ex: disque cassé)

Pourquoi diviser les données / plusieurs systèmes ?
34
• Lecture / écriture des données n'est pas infiniment rapide
• Distribuer le travail entre différentes machines
• Éviter que les utilisateurs doivent attendre trop longtemps
• Faciliter la résolution des problèmes
• Machines et réseaux peuvent temporairement échouer

MapReduce
35
• Manière d'exécuter des tâches en parallèle
• Ex: compter mots, chercher
• Très grandes quantités de données
• (beaucoup) plus que rentre à la mémoire
• Destiné aux tâches où toutes les données sont lues 1 fois
• Distribuer les calculs
• Exécuter le plus près possible des données
• Éviter d'envoyer des données dans les deux sens
• Combiner les résultats

Apache HBase
36
• Base de données qui peuvent tourner sur HDFS
• Très grandes bases de données (milliards de lignes)
• Ne remplace pas les bases de données "classiques"
• Pas des enquêtes compliquées
• Pas beaucoup de structure
• Postgresql, Oracle… ont des fonctions supplémentaires

Quelques autres composants
37
• Apache Cassandra
• Également une base de données
• "Toujours disponible" plus important que « même données »
• Apache Hive
• Langage comme SQL, au-dessus de Hadoop
• Facilite l'utilisation d'Hadoop

Aperçu simplifié
38
HDFS
HBase
Map
Reduce
API
API
Hive

• Apache open source
• https://projects.apache.org/projects.html?category#big-data
• http://hadoop.apache.org
• http://spark.apache.org
• Communauté Big Data:
• http://bigdata.be
• Évènement annuel Data Science:
• https://datasciencebe.com
Quelques liens big data / data science
39

Caractéristiques Apache Spark
41
• Peut fonctionner sur HDFS ou séparément
• Alternative à MapReduce
• Peut effectuer des traitements en mémoire
• Beaucoup plus rapide pour petites quantités de données
• Plus pratique pour parcourir mêmes données plusieurs fois

• Données sans informations sensibles / personnelles
• Oui: statistiques
• Non: dossier médical
• Dans un format facile à traiter
• Ex: tableaux au format MS-Excel, CSV, XML …
• Peut être utilisé gratuitement par tout le monde
• Aussi à des fins commerciales
Qu’est ce que Open Data ?
43

Open
Data
Big
Data
Open Data et Big Data
44

• Big data n’est pas toujours open data
• Ex: données des entreprises ne sont pas publiques / gratuites
• Open data n’est pas toujours big data
• Exemple: liste des écoles bruxelloises est courte
Open Data et Big Data (2)
45

• Généralement des services publics
• Villes, régions, gouvernement fédéral …
• Payé par les impôts des citoyens et des entreprises
• Obligations imposées par l'Union européenne
• Parfois des entreprises
• Ex: entreprises louant des vélos ou des voitures
• Souvent aussi des personnes / bénévoles
• Ex: WikiPedia, OpenStreetMap, …
Qui publie des données ouvertes ?
46

• Surtout les villes publient des info d'adresses
• Places, piscines, …
• Données cartographiques
• Limites communales, carte 3D (Flandre) …
• Beaucoup de statistiques
• Population par commune, prix moyens, ...
De quel type de données s'agit-il ?
47

• Combiner avec autres données
• Publier des articles
• Ex: prix moyen maison/appartement par commune
• Créer des sites web
• Ex: https://ici.brussels/fr
• Créer des apps
• Ex: “Top Baby Names”: prénoms le plus populaires
Que faire avec open data ?
48

Exemple: site web Limbourg en chiffres
49

• Différentes formats sont utilisés
• CSV, MS-Excel, XML, JSON…
• Différentes par région possible
• Mentionner la source est parfois obligatoire, parfois pas
• Souvent pas de garantie de disponibilité / mises à jour
• Pas de contrat
Points d’attention open data
50

• Portail open data:
• https://data.gov.be
• Évènement annuel open data:
• http://www.openbelgium.be
• Communauté OpenKnowledge:
• https://www.openknowledge.be
Quelques liens autour l’open data
51

BOSA.be
@BartHanssens
bart.hanssens@bosa.fgov.be
opendata@belgium.be
Merci !

Big data et open data

Contenu connexe

Tendances

Similaire à Big data et open data

Plus de Bart Hanssens

Big data et open data