Gestion d'un projet Big Data
Pierrick Boitel
GI FDD diplômé A14 shaarli.bwatt.eu Affini-Tech
● Tout le monde voit à peu près ce que
représente le Big Data aujourd'hui
● Cependant, très peu de vulgarisation technique
● But : voir pas à pas les étapes, les outils et les
compétences nécessaires pour réaliser un projet
Big Data
● S'appuie énormément sur les outils du Cloud,
qui simplifie grandement les pratiques
Cinq étapes dans la réalisation d'un projet Big Data :
1. Récupération des données
2. Stockage des données
3. Nettoyage et enrichissement des données
4. Analyse des données
5. Visualisation des données
Récupération des données
● Première étape, jamais aussi simple que ce
que l'on pense
● Nécessite souvent des compétences web
(développer une API), de structure de données
(savoir gérer des queues) et de réseaux (VPN,
FTP...)
Stockage des données
● Les données nécessitent d'être stockées en
base (structuré ou non structuré)
● Nécessite des compétences en système,
indexation et base de données
Nettoyage et enrichissement des
données
● Principe de base : votre donnée est sale
● Étape beaucoup plus importante que ce que
l'on croit et qui nécessite beaucoup de temps
● Nécessite des compétences en script
Analyse des données
● Deux types principaux : regroupement et
machine learning
● Nécessite des compétences en script et
machine learning
Visualisation des données
● Étape souvent négligée mais qui doit être
soignée : représente souvent la seule
restitution au client
● Nécessite des compétences en front-end et en
datavisualisation
Bilan
● Travailler dans le Big Data nécessite d'être
touche à tout
● S'étend sur de nombreux domaines
● Mieux vaut s'y connaître un peu en tout que
beaucoup dans peu de domaines
Bilan
● Travailler dans le Big Data nécessite d'être
touche à tout
● S'étend sur de nombreux domaines
● Mieux vaut s'y connaître un peu en tout que
beaucoup dans peu de domaines

Human talk pres

  • 1.
    Gestion d'un projet Big Data Pierrick Boitel GI FDDdiplômé A14 shaarli.bwatt.eu Affini-Tech
  • 2.
    ● Tout lemonde voit à peu près ce que représente le Big Data aujourd'hui ● Cependant, très peu de vulgarisation technique ● But : voir pas à pas les étapes, les outils et les compétences nécessaires pour réaliser un projet Big Data ● S'appuie énormément sur les outils du Cloud, qui simplifie grandement les pratiques
  • 3.
    Cinq étapes dansla réalisation d'un projet Big Data : 1. Récupération des données 2. Stockage des données 3. Nettoyage et enrichissement des données 4. Analyse des données 5. Visualisation des données
  • 4.
    Récupération des données ●Première étape, jamais aussi simple que ce que l'on pense ● Nécessite souvent des compétences web (développer une API), de structure de données (savoir gérer des queues) et de réseaux (VPN, FTP...)
  • 5.
    Stockage des données ●Les données nécessitent d'être stockées en base (structuré ou non structuré) ● Nécessite des compétences en système, indexation et base de données
  • 6.
    Nettoyage et enrichissementdes données ● Principe de base : votre donnée est sale ● Étape beaucoup plus importante que ce que l'on croit et qui nécessite beaucoup de temps ● Nécessite des compétences en script
  • 7.
    Analyse des données ●Deux types principaux : regroupement et machine learning ● Nécessite des compétences en script et machine learning
  • 8.
    Visualisation des données ●Étape souvent négligée mais qui doit être soignée : représente souvent la seule restitution au client ● Nécessite des compétences en front-end et en datavisualisation
  • 9.
    Bilan ● Travailler dansle Big Data nécessite d'être touche à tout ● S'étend sur de nombreux domaines ● Mieux vaut s'y connaître un peu en tout que beaucoup dans peu de domaines
  • 10.
    Bilan ● Travailler dansle Big Data nécessite d'être touche à tout ● S'étend sur de nombreux domaines ● Mieux vaut s'y connaître un peu en tout que beaucoup dans peu de domaines

Notes de l'éditeur

  • #3 Dans notre cas, on parlera notamment des outils de Google Cloud Platform car c'est ceux que je connais
  • #4 Un projet n'a pas forcément ces cinq étapes, toute combinaison formé d'une ou plusieurs de ces étapes peut répondre à un projet Big data
  • #5 Beaucoup de données, et un firewall Le plus simple est parfois de se ramener avec un disque dur chez le client
  • #6 On utilise beaucoup de fichiers, pas mal de SQL, du relationnel si besoin Système → configurer les clusters, la communication, le firewall Indexation → pour les métadonnées Base de données:mongodb, hbase, cassandra...
  • #7 Formattage, dédoublonnage, jointure… 80 % du temps Bash : très puissant et rapide, parfait pour avoir une idée de la donnée Python : langage de script par excellence, choisi car très polyvalent et s'itnerface avec tous nos outils Pig : map-reduce sur hadoop Spark : toute la donnée en RAM
  • #8 C'est là qu'on va tâcher de faire parler la donnée Pas forcément besoin de lancer des trucs très compliqués, ou de connaître à fond les algos → si on veut plus de rpécision, besoin d'un data scientist
  • #9 Parler bilan leroy-merlin Datavisualisation : sciences co, connaître les meilleurs modes de représentations (pas de camembert pr ex!)
  • #10 Nécessite de connaître beaucoup de concepts afin de plonger facilement dans un domaine quand il y a besoin. C'est là que la formation UTC est une grande force On cherche des stagiaires