2. ● Tout le monde voit à peu près ce que
représente le Big Data aujourd'hui
● Cependant, très peu de vulgarisation technique
● But : voir pas à pas les étapes, les outils et les
compétences nécessaires pour réaliser un projet
Big Data
● S'appuie énormément sur les outils du Cloud,
qui simplifie grandement les pratiques
3. Cinq étapes dans la réalisation d'un projet Big Data :
1. Récupération des données
2. Stockage des données
3. Nettoyage et enrichissement des données
4. Analyse des données
5. Visualisation des données
4. Récupération des données
● Première étape, jamais aussi simple que ce
que l'on pense
● Nécessite souvent des compétences web
(développer une API), de structure de données
(savoir gérer des queues) et de réseaux (VPN,
FTP...)
5. Stockage des données
● Les données nécessitent d'être stockées en
base (structuré ou non structuré)
● Nécessite des compétences en système,
indexation et base de données
6. Nettoyage et enrichissement des
données
● Principe de base : votre donnée est sale
● Étape beaucoup plus importante que ce que
l'on croit et qui nécessite beaucoup de temps
● Nécessite des compétences en script
7. Analyse des données
● Deux types principaux : regroupement et
machine learning
● Nécessite des compétences en script et
machine learning
8. Visualisation des données
● Étape souvent négligée mais qui doit être
soignée : représente souvent la seule
restitution au client
● Nécessite des compétences en front-end et en
datavisualisation
9. Bilan
● Travailler dans le Big Data nécessite d'être
touche à tout
● S'étend sur de nombreux domaines
● Mieux vaut s'y connaître un peu en tout que
beaucoup dans peu de domaines
10. Bilan
● Travailler dans le Big Data nécessite d'être
touche à tout
● S'étend sur de nombreux domaines
● Mieux vaut s'y connaître un peu en tout que
beaucoup dans peu de domaines
Notes de l'éditeur
Dans notre cas, on parlera notamment des outils de Google Cloud Platform car c'est ceux que je connais
Un projet n'a pas forcément ces cinq étapes, toute combinaison formé d'une ou plusieurs de ces étapes peut répondre à un projet Big data
Beaucoup de données, et un firewall
Le plus simple est parfois de se ramener avec un disque dur chez le client
On utilise beaucoup de fichiers, pas mal de SQL, du relationnel si besoin
Système → configurer les clusters, la communication, le firewall
Indexation → pour les métadonnées
Base de données:mongodb, hbase, cassandra...
Formattage, dédoublonnage, jointure…
80 % du temps
Bash : très puissant et rapide, parfait pour avoir une idée de la donnée
Python : langage de script par excellence, choisi car très polyvalent et s'itnerface avec tous nos outils
Pig : map-reduce sur hadoop
Spark : toute la donnée en RAM
C'est là qu'on va tâcher de faire parler la donnée
Pas forcément besoin de lancer des trucs très compliqués, ou de connaître à fond les algos → si on veut plus de rpécision, besoin d'un data scientist
Parler bilan leroy-merlin
Datavisualisation : sciences co, connaître les meilleurs modes de représentations (pas de camembert pr ex!)
Nécessite de connaître beaucoup de concepts afin de plonger facilement dans un domaine quand il y a besoin. C'est là que la formation UTC est une grande force
On cherche des stagiaires