SlideShare une entreprise Scribd logo
1  sur  10
Gestion d'un projet Big Data
Pierrick Boitel
GI FDD diplômé A14 shaarli.bwatt.eu Affini-Tech
● Tout le monde voit à peu près ce que
représente le Big Data aujourd'hui
● Cependant, très peu de vulgarisation technique
● But : voir pas à pas les étapes, les outils et les
compétences nécessaires pour réaliser un projet
Big Data
● S'appuie énormément sur les outils du Cloud,
qui simplifie grandement les pratiques
Cinq étapes dans la réalisation d'un projet Big Data :
1. Récupération des données
2. Stockage des données
3. Nettoyage et enrichissement des données
4. Analyse des données
5. Visualisation des données
Récupération des données
● Première étape, jamais aussi simple que ce
que l'on pense
● Nécessite souvent des compétences web
(développer une API), de structure de données
(savoir gérer des queues) et de réseaux (VPN,
FTP...)
Stockage des données
● Les données nécessitent d'être stockées en
base (structuré ou non structuré)
● Nécessite des compétences en système,
indexation et base de données
Nettoyage et enrichissement des
données
● Principe de base : votre donnée est sale
● Étape beaucoup plus importante que ce que
l'on croit et qui nécessite beaucoup de temps
● Nécessite des compétences en script
Analyse des données
● Deux types principaux : regroupement et
machine learning
● Nécessite des compétences en script et
machine learning
Visualisation des données
● Étape souvent négligée mais qui doit être
soignée : représente souvent la seule
restitution au client
● Nécessite des compétences en front-end et en
datavisualisation
Bilan
● Travailler dans le Big Data nécessite d'être
touche à tout
● S'étend sur de nombreux domaines
● Mieux vaut s'y connaître un peu en tout que
beaucoup dans peu de domaines
Bilan
● Travailler dans le Big Data nécessite d'être
touche à tout
● S'étend sur de nombreux domaines
● Mieux vaut s'y connaître un peu en tout que
beaucoup dans peu de domaines

Contenu connexe

En vedette

NATURE
NATURENATURE
NATUREelo
 
Aire y cielos de asturias nº1
Aire y cielos de asturias nº1Aire y cielos de asturias nº1
Aire y cielos de asturias nº1marcos diaz
 
Profil organisationnel ONG C.RE.D.O
Profil organisationnel ONG C.RE.D.OProfil organisationnel ONG C.RE.D.O
Profil organisationnel ONG C.RE.D.OFadi HAYIN M.B.A
 
Tutoriel teeal
Tutoriel teealTutoriel teeal
Tutoriel teealGora LO
 
fiches projets situation au 31102016
fiches projets situation au 31102016fiches projets situation au 31102016
fiches projets situation au 31102016Sophie Decelle
 
Les Palmes De La Galanterie
Les Palmes De La GalanterieLes Palmes De La Galanterie
Les Palmes De La GalanterieChris56
 
Betisier Chats
Betisier ChatsBetisier Chats
Betisier Chatsokumi
 
La migracion oficcial
La migracion  oficcialLa migracion  oficcial
La migracion oficcialjesus
 
Le dédoublonnage
Le dédoublonnageLe dédoublonnage
Le dédoublonnagewdmmdp
 

En vedette (20)

NATURE
NATURENATURE
NATURE
 
Aire y cielos de asturias nº1
Aire y cielos de asturias nº1Aire y cielos de asturias nº1
Aire y cielos de asturias nº1
 
Profil organisationnel ONG C.RE.D.O
Profil organisationnel ONG C.RE.D.OProfil organisationnel ONG C.RE.D.O
Profil organisationnel ONG C.RE.D.O
 
Tutoriel teeal
Tutoriel teealTutoriel teeal
Tutoriel teeal
 
AFFAIRE EXPORT
AFFAIRE EXPORTAFFAIRE EXPORT
AFFAIRE EXPORT
 
preparatorio2
preparatorio2preparatorio2
preparatorio2
 
Thesis (Intro.)
Thesis (Intro.)Thesis (Intro.)
Thesis (Intro.)
 
Aula actividades especiales
Aula actividades especialesAula actividades especiales
Aula actividades especiales
 
Clase A sangre fría
Clase A sangre fría Clase A sangre fría
Clase A sangre fría
 
Futuro Digital 2012 - Perú
Futuro Digital 2012 - PerúFuturo Digital 2012 - Perú
Futuro Digital 2012 - Perú
 
fiches projets situation au 31102016
fiches projets situation au 31102016fiches projets situation au 31102016
fiches projets situation au 31102016
 
Autrans - Rhonealpes Tourisme
Autrans - Rhonealpes TourismeAutrans - Rhonealpes Tourisme
Autrans - Rhonealpes Tourisme
 
Codigo de etica
Codigo de eticaCodigo de etica
Codigo de etica
 
Les Palmes De La Galanterie
Les Palmes De La GalanterieLes Palmes De La Galanterie
Les Palmes De La Galanterie
 
Trophées 2007
Trophées 2007Trophées 2007
Trophées 2007
 
Betisier Chats
Betisier ChatsBetisier Chats
Betisier Chats
 
Atmosphere en tu hogar
Atmosphere en tu hogarAtmosphere en tu hogar
Atmosphere en tu hogar
 
La migracion oficcial
La migracion  oficcialLa migracion  oficcial
La migracion oficcial
 
Juego Billar Americano
Juego Billar AmericanoJuego Billar Americano
Juego Billar Americano
 
Le dédoublonnage
Le dédoublonnageLe dédoublonnage
Le dédoublonnage
 

Similaire à Human talk pres

Démonstration : Comment la plateforme Denodo permet d'accélérer l'analyse de ...
Démonstration : Comment la plateforme Denodo permet d'accélérer l'analyse de ...Démonstration : Comment la plateforme Denodo permet d'accélérer l'analyse de ...
Démonstration : Comment la plateforme Denodo permet d'accélérer l'analyse de ...Denodo
 
Ecosystème Big Data
Ecosystème Big DataEcosystème Big Data
Ecosystème Big DataIdriss22
 
Réussissez vos projets d’analytique self-service avec une couche de services ...
Réussissez vos projets d’analytique self-service avec une couche de services ...Réussissez vos projets d’analytique self-service avec une couche de services ...
Réussissez vos projets d’analytique self-service avec une couche de services ...Denodo
 
Projet Business Intelligence en Lean-Agile ?
Projet Business Intelligence en Lean-Agile ?Projet Business Intelligence en Lean-Agile ?
Projet Business Intelligence en Lean-Agile ?KraftInside
 
Projet Business Intelligence en Lean-Agile ?
Projet Business Intelligence en Lean-Agile ?Projet Business Intelligence en Lean-Agile ?
Projet Business Intelligence en Lean-Agile ?PierreAntoineJoly1
 
Oxalide MorningTech #1 - BigData
Oxalide MorningTech #1 - BigDataOxalide MorningTech #1 - BigData
Oxalide MorningTech #1 - BigDataLudovic Piot
 
Cours Devops Sparks.pptx.pdf
Cours Devops Sparks.pptx.pdfCours Devops Sparks.pptx.pdf
Cours Devops Sparks.pptx.pdfboulonvert
 
Le « libre-service » dans les solutions clientes de GeoBI
Le « libre-service » dans les solutions clientes de GeoBILe « libre-service » dans les solutions clientes de GeoBI
Le « libre-service » dans les solutions clientes de GeoBIACSG - Section Montréal
 
Lesclsdevotrestratgieebusinesslinternational 131209074509-phpapp02
Lesclsdevotrestratgieebusinesslinternational 131209074509-phpapp02Lesclsdevotrestratgieebusinesslinternational 131209074509-phpapp02
Lesclsdevotrestratgieebusinesslinternational 131209074509-phpapp02Thierry Pastorello
 
Prez ia big_data_bruno_v3_finale
Prez ia big_data_bruno_v3_finalePrez ia big_data_bruno_v3_finale
Prez ia big_data_bruno_v3_finaleBruno Seznec
 
Morning with MongoDB Paris 2012 - Fast Connect
Morning with MongoDB Paris 2012 - Fast ConnectMorning with MongoDB Paris 2012 - Fast Connect
Morning with MongoDB Paris 2012 - Fast ConnectMongoDB
 
Morning Tech#1 BigData - Oxalide Academy
Morning Tech#1 BigData - Oxalide AcademyMorning Tech#1 BigData - Oxalide Academy
Morning Tech#1 BigData - Oxalide AcademyOxalide
 
SharePoint Online comme GED à la ville de Victoriaville - Congrès des archivi...
SharePoint Online comme GED à la ville de Victoriaville - Congrès des archivi...SharePoint Online comme GED à la ville de Victoriaville - Congrès des archivi...
SharePoint Online comme GED à la ville de Victoriaville - Congrès des archivi...EricFontaineTeknov
 
Arrow Group: Techday Big Data - Etat et Enjeu pour l'Assurance
Arrow Group: Techday Big Data - Etat et Enjeu pour l'AssuranceArrow Group: Techday Big Data - Etat et Enjeu pour l'Assurance
Arrow Group: Techday Big Data - Etat et Enjeu pour l'AssuranceArrow Group
 
Km201 g formation-ibm-infosphere-datastage-essentials-v8-7
Km201 g formation-ibm-infosphere-datastage-essentials-v8-7Km201 g formation-ibm-infosphere-datastage-essentials-v8-7
Km201 g formation-ibm-infosphere-datastage-essentials-v8-7CERTyou Formation
 
Quel est l'avenir des stratégies de données?
Quel est l'avenir des stratégies de données?Quel est l'avenir des stratégies de données?
Quel est l'avenir des stratégies de données?Denodo
 
Big data analytics focus technique et nouvelles perspectives pour les actuaires
Big data analytics focus technique et nouvelles perspectives pour les actuairesBig data analytics focus technique et nouvelles perspectives pour les actuaires
Big data analytics focus technique et nouvelles perspectives pour les actuairesKezhan SHI
 
Disaster Recovery Plan (DRP) & Business Continuity Plan 2012 - Computerland
Disaster Recovery Plan (DRP) & Business Continuity Plan 2012 - ComputerlandDisaster Recovery Plan (DRP) & Business Continuity Plan 2012 - Computerland
Disaster Recovery Plan (DRP) & Business Continuity Plan 2012 - ComputerlandPatricia NENZI
 
Km622 g formation-ibm-infosphere-metadata-workbench-essentials-v9-1
Km622 g formation-ibm-infosphere-metadata-workbench-essentials-v9-1Km622 g formation-ibm-infosphere-metadata-workbench-essentials-v9-1
Km622 g formation-ibm-infosphere-metadata-workbench-essentials-v9-1CERTyou Formation
 

Similaire à Human talk pres (20)

Démonstration : Comment la plateforme Denodo permet d'accélérer l'analyse de ...
Démonstration : Comment la plateforme Denodo permet d'accélérer l'analyse de ...Démonstration : Comment la plateforme Denodo permet d'accélérer l'analyse de ...
Démonstration : Comment la plateforme Denodo permet d'accélérer l'analyse de ...
 
Ecosystème Big Data
Ecosystème Big DataEcosystème Big Data
Ecosystème Big Data
 
Présentation bi 1.0
Présentation bi 1.0Présentation bi 1.0
Présentation bi 1.0
 
Réussissez vos projets d’analytique self-service avec une couche de services ...
Réussissez vos projets d’analytique self-service avec une couche de services ...Réussissez vos projets d’analytique self-service avec une couche de services ...
Réussissez vos projets d’analytique self-service avec une couche de services ...
 
Projet Business Intelligence en Lean-Agile ?
Projet Business Intelligence en Lean-Agile ?Projet Business Intelligence en Lean-Agile ?
Projet Business Intelligence en Lean-Agile ?
 
Projet Business Intelligence en Lean-Agile ?
Projet Business Intelligence en Lean-Agile ?Projet Business Intelligence en Lean-Agile ?
Projet Business Intelligence en Lean-Agile ?
 
Oxalide MorningTech #1 - BigData
Oxalide MorningTech #1 - BigDataOxalide MorningTech #1 - BigData
Oxalide MorningTech #1 - BigData
 
Cours Devops Sparks.pptx.pdf
Cours Devops Sparks.pptx.pdfCours Devops Sparks.pptx.pdf
Cours Devops Sparks.pptx.pdf
 
Le « libre-service » dans les solutions clientes de GeoBI
Le « libre-service » dans les solutions clientes de GeoBILe « libre-service » dans les solutions clientes de GeoBI
Le « libre-service » dans les solutions clientes de GeoBI
 
Lesclsdevotrestratgieebusinesslinternational 131209074509-phpapp02
Lesclsdevotrestratgieebusinesslinternational 131209074509-phpapp02Lesclsdevotrestratgieebusinesslinternational 131209074509-phpapp02
Lesclsdevotrestratgieebusinesslinternational 131209074509-phpapp02
 
Prez ia big_data_bruno_v3_finale
Prez ia big_data_bruno_v3_finalePrez ia big_data_bruno_v3_finale
Prez ia big_data_bruno_v3_finale
 
Morning with MongoDB Paris 2012 - Fast Connect
Morning with MongoDB Paris 2012 - Fast ConnectMorning with MongoDB Paris 2012 - Fast Connect
Morning with MongoDB Paris 2012 - Fast Connect
 
Morning Tech#1 BigData - Oxalide Academy
Morning Tech#1 BigData - Oxalide AcademyMorning Tech#1 BigData - Oxalide Academy
Morning Tech#1 BigData - Oxalide Academy
 
SharePoint Online comme GED à la ville de Victoriaville - Congrès des archivi...
SharePoint Online comme GED à la ville de Victoriaville - Congrès des archivi...SharePoint Online comme GED à la ville de Victoriaville - Congrès des archivi...
SharePoint Online comme GED à la ville de Victoriaville - Congrès des archivi...
 
Arrow Group: Techday Big Data - Etat et Enjeu pour l'Assurance
Arrow Group: Techday Big Data - Etat et Enjeu pour l'AssuranceArrow Group: Techday Big Data - Etat et Enjeu pour l'Assurance
Arrow Group: Techday Big Data - Etat et Enjeu pour l'Assurance
 
Km201 g formation-ibm-infosphere-datastage-essentials-v8-7
Km201 g formation-ibm-infosphere-datastage-essentials-v8-7Km201 g formation-ibm-infosphere-datastage-essentials-v8-7
Km201 g formation-ibm-infosphere-datastage-essentials-v8-7
 
Quel est l'avenir des stratégies de données?
Quel est l'avenir des stratégies de données?Quel est l'avenir des stratégies de données?
Quel est l'avenir des stratégies de données?
 
Big data analytics focus technique et nouvelles perspectives pour les actuaires
Big data analytics focus technique et nouvelles perspectives pour les actuairesBig data analytics focus technique et nouvelles perspectives pour les actuaires
Big data analytics focus technique et nouvelles perspectives pour les actuaires
 
Disaster Recovery Plan (DRP) & Business Continuity Plan 2012 - Computerland
Disaster Recovery Plan (DRP) & Business Continuity Plan 2012 - ComputerlandDisaster Recovery Plan (DRP) & Business Continuity Plan 2012 - Computerland
Disaster Recovery Plan (DRP) & Business Continuity Plan 2012 - Computerland
 
Km622 g formation-ibm-infosphere-metadata-workbench-essentials-v9-1
Km622 g formation-ibm-infosphere-metadata-workbench-essentials-v9-1Km622 g formation-ibm-infosphere-metadata-workbench-essentials-v9-1
Km622 g formation-ibm-infosphere-metadata-workbench-essentials-v9-1
 

Human talk pres

  • 1. Gestion d'un projet Big Data Pierrick Boitel GI FDD diplômé A14 shaarli.bwatt.eu Affini-Tech
  • 2. ● Tout le monde voit à peu près ce que représente le Big Data aujourd'hui ● Cependant, très peu de vulgarisation technique ● But : voir pas à pas les étapes, les outils et les compétences nécessaires pour réaliser un projet Big Data ● S'appuie énormément sur les outils du Cloud, qui simplifie grandement les pratiques
  • 3. Cinq étapes dans la réalisation d'un projet Big Data : 1. Récupération des données 2. Stockage des données 3. Nettoyage et enrichissement des données 4. Analyse des données 5. Visualisation des données
  • 4. Récupération des données ● Première étape, jamais aussi simple que ce que l'on pense ● Nécessite souvent des compétences web (développer une API), de structure de données (savoir gérer des queues) et de réseaux (VPN, FTP...)
  • 5. Stockage des données ● Les données nécessitent d'être stockées en base (structuré ou non structuré) ● Nécessite des compétences en système, indexation et base de données
  • 6. Nettoyage et enrichissement des données ● Principe de base : votre donnée est sale ● Étape beaucoup plus importante que ce que l'on croit et qui nécessite beaucoup de temps ● Nécessite des compétences en script
  • 7. Analyse des données ● Deux types principaux : regroupement et machine learning ● Nécessite des compétences en script et machine learning
  • 8. Visualisation des données ● Étape souvent négligée mais qui doit être soignée : représente souvent la seule restitution au client ● Nécessite des compétences en front-end et en datavisualisation
  • 9. Bilan ● Travailler dans le Big Data nécessite d'être touche à tout ● S'étend sur de nombreux domaines ● Mieux vaut s'y connaître un peu en tout que beaucoup dans peu de domaines
  • 10. Bilan ● Travailler dans le Big Data nécessite d'être touche à tout ● S'étend sur de nombreux domaines ● Mieux vaut s'y connaître un peu en tout que beaucoup dans peu de domaines

Notes de l'éditeur

  1. Dans notre cas, on parlera notamment des outils de Google Cloud Platform car c'est ceux que je connais
  2. Un projet n'a pas forcément ces cinq étapes, toute combinaison formé d'une ou plusieurs de ces étapes peut répondre à un projet Big data
  3. Beaucoup de données, et un firewall Le plus simple est parfois de se ramener avec un disque dur chez le client
  4. On utilise beaucoup de fichiers, pas mal de SQL, du relationnel si besoin Système → configurer les clusters, la communication, le firewall Indexation → pour les métadonnées Base de données:mongodb, hbase, cassandra...
  5. Formattage, dédoublonnage, jointure… 80 % du temps Bash : très puissant et rapide, parfait pour avoir une idée de la donnée Python : langage de script par excellence, choisi car très polyvalent et s'itnerface avec tous nos outils Pig : map-reduce sur hadoop Spark : toute la donnée en RAM
  6. C'est là qu'on va tâcher de faire parler la donnée Pas forcément besoin de lancer des trucs très compliqués, ou de connaître à fond les algos → si on veut plus de rpécision, besoin d'un data scientist
  7. Parler bilan leroy-merlin Datavisualisation : sciences co, connaître les meilleurs modes de représentations (pas de camembert pr ex!)
  8. Nécessite de connaître beaucoup de concepts afin de plonger facilement dans un domaine quand il y a besoin. C'est là que la formation UTC est une grande force On cherche des stagiaires