Human talk pres

312 vues

Publié le

This is the presentation I made for Human Talk on "Managing a Big-Data Project" at Compiègne, the 2015/12/05

Publié dans : Données & analyses
0 commentaire
0 j’aime
Statistiques
Remarques
  • Soyez le premier à commenter

  • Soyez le premier à aimer ceci

Aucun téléchargement
Vues
Nombre de vues
312
Sur SlideShare
0
Issues des intégrations
0
Intégrations
35
Actions
Partages
0
Téléchargements
4
Commentaires
0
J’aime
0
Intégrations 0
Aucune incorporation

Aucune remarque pour cette diapositive
  • Dans notre cas, on parlera notamment des outils de Google Cloud Platform car c'est ceux que je connais
  • Un projet n'a pas forcément ces cinq étapes, toute combinaison formé d'une ou plusieurs de ces étapes peut répondre à un projet Big data
  • Beaucoup de données, et un firewall
    Le plus simple est parfois de se ramener avec un disque dur chez le client
  • On utilise beaucoup de fichiers, pas mal de SQL, du relationnel si besoin
    Système → configurer les clusters, la communication, le firewall
    Indexation → pour les métadonnées
    Base de données:mongodb, hbase, cassandra...
  • Formattage, dédoublonnage, jointure…
    80 % du temps
    Bash : très puissant et rapide, parfait pour avoir une idée de la donnée
    Python : langage de script par excellence, choisi car très polyvalent et s'itnerface avec tous nos outils
    Pig : map-reduce sur hadoop
    Spark : toute la donnée en RAM
  • C'est là qu'on va tâcher de faire parler la donnée
    Pas forcément besoin de lancer des trucs très compliqués, ou de connaître à fond les algos → si on veut plus de rpécision, besoin d'un data scientist
  • Parler bilan leroy-merlin
    Datavisualisation : sciences co, connaître les meilleurs modes de représentations (pas de camembert pr ex!)
  • Nécessite de connaître beaucoup de concepts afin de plonger facilement dans un domaine quand il y a besoin. C'est là que la formation UTC est une grande force
    On cherche des stagiaires
  • Human talk pres

    1. 1. Gestion d'un projet Big Data Pierrick Boitel GI FDD diplômé A14 shaarli.bwatt.eu Affini-Tech
    2. 2. ● Tout le monde voit à peu près ce que représente le Big Data aujourd'hui ● Cependant, très peu de vulgarisation technique ● But : voir pas à pas les étapes, les outils et les compétences nécessaires pour réaliser un projet Big Data ● S'appuie énormément sur les outils du Cloud, qui simplifie grandement les pratiques
    3. 3. Cinq étapes dans la réalisation d'un projet Big Data : 1. Récupération des données 2. Stockage des données 3. Nettoyage et enrichissement des données 4. Analyse des données 5. Visualisation des données
    4. 4. Récupération des données ● Première étape, jamais aussi simple que ce que l'on pense ● Nécessite souvent des compétences web (développer une API), de structure de données (savoir gérer des queues) et de réseaux (VPN, FTP...)
    5. 5. Stockage des données ● Les données nécessitent d'être stockées en base (structuré ou non structuré) ● Nécessite des compétences en système, indexation et base de données
    6. 6. Nettoyage et enrichissement des données ● Principe de base : votre donnée est sale ● Étape beaucoup plus importante que ce que l'on croit et qui nécessite beaucoup de temps ● Nécessite des compétences en script
    7. 7. Analyse des données ● Deux types principaux : regroupement et machine learning ● Nécessite des compétences en script et machine learning
    8. 8. Visualisation des données ● Étape souvent négligée mais qui doit être soignée : représente souvent la seule restitution au client ● Nécessite des compétences en front-end et en datavisualisation
    9. 9. Bilan ● Travailler dans le Big Data nécessite d'être touche à tout ● S'étend sur de nombreux domaines ● Mieux vaut s'y connaître un peu en tout que beaucoup dans peu de domaines
    10. 10. Bilan ● Travailler dans le Big Data nécessite d'être touche à tout ● S'étend sur de nombreux domaines ● Mieux vaut s'y connaître un peu en tout que beaucoup dans peu de domaines

    ×