Human talk pres

•Télécharger en tant que ODP, PDF•

0 j'aime•529 vues

Pierrick BOITEL

This is the presentation I made for Human Talk on "Managing a Big-Data Project" at Compiègne, the 2015/12/05

Données & analyses

Gestion d'un projet Big Data
Pierrick Boitel
GI FDD diplômé A14 shaarli.bwatt.eu Affini-Tech

● Tout le monde voit à peu près ce que
représente le Big Data aujourd'hui
● Cependant, très peu de vulgarisation technique
● But : voir pas à pas les étapes, les outils et les
compétences nécessaires pour réaliser un projet
Big Data
● S'appuie énormément sur les outils du Cloud,
qui simplifie grandement les pratiques

Cinq étapes dans la réalisation d'un projet Big Data :
1. Récupération des données
2. Stockage des données
3. Nettoyage et enrichissement des données
4. Analyse des données
5. Visualisation des données

Récupération des données
● Première étape, jamais aussi simple que ce
que l'on pense
● Nécessite souvent des compétences web
(développer une API), de structure de données
(savoir gérer des queues) et de réseaux (VPN,
FTP...)

Stockage des données
● Les données nécessitent d'être stockées en
base (structuré ou non structuré)
● Nécessite des compétences en système,
indexation et base de données

Nettoyage et enrichissement des
données
● Principe de base : votre donnée est sale
● Étape beaucoup plus importante que ce que
l'on croit et qui nécessite beaucoup de temps
● Nécessite des compétences en script

Analyse des données
● Deux types principaux : regroupement et
machine learning
● Nécessite des compétences en script et
machine learning

Visualisation des données
● Étape souvent négligée mais qui doit être
soignée : représente souvent la seule
restitution au client
● Nécessite des compétences en front-end et en
datavisualisation

Bilan
● Travailler dans le Big Data nécessite d'être
touche à tout
● S'étend sur de nombreux domaines
● Mieux vaut s'y connaître un peu en tout que
beaucoup dans peu de domaines

Contenu connexe

En vedette

NATUREelo

Aire y cielos de asturias nº1marcos diaz

Profil organisationnel ONG C.RE.D.OFadi HAYIN M.B.A

Tutoriel teealGora LO

AFFAIRE EXPORTMeriem AKREMI

preparatorio2Jaime Zapata

Thesis (Intro.)Martin De Moor

Aula actividades especialesDoñihue Sexta Region

Clase A sangre fría Jessica Ovando

Futuro Digital 2012 - PerúSebastian Alejandro Parraguez Soto

fiches projets situation au 31102016Sophie Decelle

Autrans - Rhonealpes TourismeLudovic Dublanchet

Codigo de eticatecnologico

Les Palmes De La GalanterieChris56

Trophées 2007Ludovic Dublanchet

Betisier Chatsokumi

Atmosphere en tu hogarNegocio en Redes

La migracion oficcialjesus

Juego Billar AmericanoJugar Con Juegos

Le dédoublonnagewdmmdp

En vedette (20)

NATURE

Aire y cielos de asturias nº1

Profil organisationnel ONG C.RE.D.O

Tutoriel teeal

AFFAIRE EXPORT

preparatorio2

Thesis (Intro.)

Aula actividades especiales

Clase A sangre fría

Futuro Digital 2012 - Perú

fiches projets situation au 31102016

Autrans - Rhonealpes Tourisme

Codigo de etica

Les Palmes De La Galanterie

Trophées 2007

Betisier Chats

Atmosphere en tu hogar

La migracion oficcial

Juego Billar Americano

Le dédoublonnage

Similaire à Human talk pres

Démonstration : Comment la plateforme Denodo permet d'accélérer l'analyse de ...Denodo

Ecosystème Big DataIdriss22

Présentation bi 1.0Alexandre Bodin

Réussissez vos projets d’analytique self-service avec une couche de services ...Denodo

Projet Business Intelligence en Lean-Agile ?KraftInside

Projet Business Intelligence en Lean-Agile ?PierreAntoineJoly1

Oxalide MorningTech #1 - BigDataLudovic Piot

Cours Devops Sparks.pptx.pdfboulonvert

Le « libre-service » dans les solutions clientes de GeoBIACSG - Section Montréal

Lesclsdevotrestratgieebusinesslinternational 131209074509-phpapp02Thierry Pastorello

Prez ia big_data_bruno_v3_finaleBruno Seznec

Morning with MongoDB Paris 2012 - Fast ConnectMongoDB

Morning Tech#1 BigData - Oxalide AcademyOxalide

SharePoint Online comme GED à la ville de Victoriaville - Congrès des archivi...EricFontaineTeknov

Arrow Group: Techday Big Data - Etat et Enjeu pour l'AssuranceArrow Group

Km201 g formation-ibm-infosphere-datastage-essentials-v8-7CERTyou Formation

Quel est l'avenir des stratégies de données?Denodo

Big data analytics focus technique et nouvelles perspectives pour les actuairesKezhan SHI

Disaster Recovery Plan (DRP) & Business Continuity Plan 2012 - ComputerlandPatricia NENZI

Km622 g formation-ibm-infosphere-metadata-workbench-essentials-v9-1CERTyou Formation

Similaire à Human talk pres (20)

Démonstration : Comment la plateforme Denodo permet d'accélérer l'analyse de ...

Ecosystème Big Data

Présentation bi 1.0

Réussissez vos projets d’analytique self-service avec une couche de services ...

Projet Business Intelligence en Lean-Agile ?

Oxalide MorningTech #1 - BigData

Cours Devops Sparks.pptx.pdf

Le « libre-service » dans les solutions clientes de GeoBI

Lesclsdevotrestratgieebusinesslinternational 131209074509-phpapp02

Prez ia big_data_bruno_v3_finale

Morning with MongoDB Paris 2012 - Fast Connect

Morning Tech#1 BigData - Oxalide Academy

SharePoint Online comme GED à la ville de Victoriaville - Congrès des archivi...

Arrow Group: Techday Big Data - Etat et Enjeu pour l'Assurance

Km201 g formation-ibm-infosphere-datastage-essentials-v8-7

Quel est l'avenir des stratégies de données?

Big data analytics focus technique et nouvelles perspectives pour les actuaires

Disaster Recovery Plan (DRP) & Business Continuity Plan 2012 - Computerland

Km622 g formation-ibm-infosphere-metadata-workbench-essentials-v9-1

Human talk pres

1. Gestion d'un projet Big Data Pierrick Boitel GI FDD diplômé A14 shaarli.bwatt.eu Affini-Tech

2. ● Tout le monde voit à peu près ce que représente le Big Data aujourd'hui ● Cependant, très peu de vulgarisation technique ● But : voir pas à pas les étapes, les outils et les compétences nécessaires pour réaliser un projet Big Data ● S'appuie énormément sur les outils du Cloud, qui simplifie grandement les pratiques

3. Cinq étapes dans la réalisation d'un projet Big Data : 1. Récupération des données 2. Stockage des données 3. Nettoyage et enrichissement des données 4. Analyse des données 5. Visualisation des données

4. Récupération des données ● Première étape, jamais aussi simple que ce que l'on pense ● Nécessite souvent des compétences web (développer une API), de structure de données (savoir gérer des queues) et de réseaux (VPN, FTP...)

5. Stockage des données ● Les données nécessitent d'être stockées en base (structuré ou non structuré) ● Nécessite des compétences en système, indexation et base de données

6. Nettoyage et enrichissement des données ● Principe de base : votre donnée est sale ● Étape beaucoup plus importante que ce que l'on croit et qui nécessite beaucoup de temps ● Nécessite des compétences en script

7. Analyse des données ● Deux types principaux : regroupement et machine learning ● Nécessite des compétences en script et machine learning

8. Visualisation des données ● Étape souvent négligée mais qui doit être soignée : représente souvent la seule restitution au client ● Nécessite des compétences en front-end et en datavisualisation

9. Bilan ● Travailler dans le Big Data nécessite d'être touche à tout ● S'étend sur de nombreux domaines ● Mieux vaut s'y connaître un peu en tout que beaucoup dans peu de domaines

10. Bilan ● Travailler dans le Big Data nécessite d'être touche à tout ● S'étend sur de nombreux domaines ● Mieux vaut s'y connaître un peu en tout que beaucoup dans peu de domaines

Notes de l'éditeur

Dans notre cas, on parlera notamment des outils de Google Cloud Platform car c&apos;est ceux que je connais
Un projet n&apos;a pas forcément ces cinq étapes, toute combinaison formé d&apos;une ou plusieurs de ces étapes peut répondre à un projet Big data
Beaucoup de données, et un firewall Le plus simple est parfois de se ramener avec un disque dur chez le client
On utilise beaucoup de fichiers, pas mal de SQL, du relationnel si besoin Système → configurer les clusters, la communication, le firewall Indexation → pour les métadonnées Base de données:mongodb, hbase, cassandra...
Formattage, dédoublonnage, jointure… 80 % du temps Bash : très puissant et rapide, parfait pour avoir une idée de la donnée Python : langage de script par excellence, choisi car très polyvalent et s&apos;itnerface avec tous nos outils Pig : map-reduce sur hadoop Spark : toute la donnée en RAM
C&apos;est là qu&apos;on va tâcher de faire parler la donnée Pas forcément besoin de lancer des trucs très compliqués, ou de connaître à fond les algos → si on veut plus de rpécision, besoin d&apos;un data scientist
Parler bilan leroy-merlin Datavisualisation : sciences co, connaître les meilleurs modes de représentations (pas de camembert pr ex!)
Nécessite de connaître beaucoup de concepts afin de plonger facilement dans un domaine quand il y a besoin. C&apos;est là que la formation UTC est une grande force On cherche des stagiaires

Human talk pres

Recommandé

Recommandé

Contenu connexe

En vedette

En vedette (20)

Similaire à Human talk pres

Similaire à Human talk pres (20)

Human talk pres

Notes de l'éditeur