BIG DATA l ANALYTICS l DATAVIZ
www.data-business.fr
Big Data l Analytics l
DataViz
Introduction aux technologies
Big Data
2Copyright © Data-Business.fr. BIG DATA – ESILV – Septembre 2014
Cheminement du cours
Volume
Variété2
Vitesse3
Eco-System Hadoop4
1
3BIG DATA – Meetup Introduction aux Technologies Big Data– Février 2015
Cette année nous fêtons les 80 ans de l’
informatique
• 1934 : Alan Turing
• 1968 : Intel
• 1972 : Internet
• 1977 : Oracle
• 1992 : Internet = 1 million de PCs
• 1995 : MySQL / PostGreSQL
• 1996 : Internet = 36 millions de PCs
• 2000 : Internet = 360 millions de Pcs
• 2007 : Iphone
• 2015 : 2 milliards de smartphones
• 2020 : 50 milliards d’objets connectés ?
Limit MySQL PostGreSQL MongoDB Oracle
Database Size Limité par l'OS Unlimited 128 TB
Table Size 16 TB 32 TB
Row Size 65 000 bytes 1.6 TB
Field Size … 0,06Mb 1 GB 16 Mb
Rows per Table illimiteds Unlimited 4b or illimited
Columns per Table 85 250 - 1600
Indexes per Table Unlimited unlimited
4BIG DATA – Meetup Introduction aux Technologies Big Data– Février 2015
% de personnes se connectant à internet
5BIG DATA – Meetup Introduction aux Technologies Big Data– Février 2015
Où vont les données ? Sur des disques !
6BIG DATA – Meetup Introduction aux Technologies Big Data– Février 2015
La meilleure config sur Rue du Commerce :
60 To
➢ Les interfaces de connexion au disque dur:
• IDE-ATA : 133 Mo/s ( obsolète )
• SCSI : de 5 à 600 Mo/s ( intelligent, plus rapide, standardisé )
• S-ATA : de 150 à 600 Mo/s ( standard actuel )
➢ Carte mères : 500 eur
• 2 x SATA3 6.0 Gb / s
• 8 x SAS2/SATA3 6.0 Gb / s
➢ Taille des disques : 6 To – 300 euros
➢ Configuration : 60 To max / 3500 euros
➢ Temps de lecture :
• Théorique : 10 000 secondes / 2.7 heures
• Pratique : Deux ou trois fois plus lent : environ 9 heures
IDE-ATA
SCSI
S-ATA
=> Combien de temps pour tout lire ?
7BIG DATA – Meetup Introduction aux Technologies Big Data– Février 2015
IBM Benchmark ( 2011) : 480 disques !
480 disques de 146 Gb : 71 Tb
15 K RPM
14 Gb / s
5 000 secondes pour tout lire : 80 minutes !=> Combien de temps pour tout lire ?
=> A quel prix ?
8BIG DATA – Meetup Introduction aux Technologies Big Data– Février 2015
MTBF : Mean Time Before Failure
100 disques | MTBF 5 ans = 20 pannes / an
Soit un disque à changer toutes les 2 semaines.
Risques :
1. Coût
2. Instabilité du système
3. Perte d’information !
Hadoop résout le MTBF en déduplicant la donnée :
replication factor = 3
Si un disque tombe en panne, on retrouve l’
information sur un des deux autres disques.
9BIG DATA – Meetup Introduction aux Technologies Big Data– Février 2015
MTBF : Transformer un problème en atout
Lent (dédié au mode “batch”)
Pas cher
(12 Keur/machine)
mais redondant !
Rapide
Map (Sort) Reduce
mais complexe !
10BIG DATA – Meetup Introduction aux Technologies Big Data– Février 2015
Map-Reduce Algorihtm
MAP (MAGIC SORT) REDUCE (RESULT)
11Copyright © Data-Business.fr. BIG DATA – ESILV – Septembre 2014
Cheminement du cours
Volume
Variété2
Vitesse3
Eco-System Hadoop4
1
12BIG DATA – Meetup Introduction aux Technologies Big Data– Février 2015
Des sources de plus en plus diverses
13BIG DATA – Meetup Introduction aux Technologies Big Data– Février 2015
La fin d’un monde
1950 - 2009
2015
JSON
14BIG DATA – Meetup Introduction aux Technologies Big Data– Février 2015
Formalisme JSON :
15BIG DATA – Meetup Introduction aux Technologies Big Data– Février 2015
Des caractéristiques différentes ...
1950 - 2009
2015
Online Transaction Processing
Transactions garanties
Lecture et écriture
Schéma défini
Banques / Systèmes de sécurité
Oracle / Access
PostGreSQL / MySQL
Online Analytical Processing
Pas de transactions
Principalement en lecture
Sans schéma
Sites Web / Applications non critiques
MongoDB / CouchDB
HBase / Cassandra
16BIG DATA – Meetup Introduction aux Technologies Big Data– Février 2015
Pour de nouveaux usages :
1950 - 2009
2015
Online Transaction Processing
Transactions garanties
Lecture et écriture
Schéma défini
Banques / Systèmes de sécurité
Oracle / Access
PostGreSQL / MySQL
Online Analytical Processing
Pas de transactions
Principalement en lecture
Sans schéma
Sites Web / Applications non critiques
MongoDB / CouchDB
HBase / Cassandra
17BIG DATA – Meetup Introduction aux Technologies Big Data– Février 2015
Un vocabulaire qui change :
1950 - 2009
2015
Online Transaction Processing
MCD / Schéma / Relationnel
UML / MERISE
Référentiel / dictionnaires de données
SQL Triggers
Silos / Logiciels / Licences / BI
Online Analytical Processing
NoSQL / Schemaless
Machine Learning / Prédictif
Apprentissage (Non) Supervisé
Partage / API / Open Sources /
Dashboard / Data Visualisation
18Copyright © Data-Business.fr. BIG DATA – ESILV – Septembre 2014
Cheminement du cours
Volume
Variété2
Vitesse3
Eco-System Hadoop4
1
19BIG DATA – Meetup Introduction aux Technologies Big Data– Février 2015
Support matters
La RAM est jusqu’à 70 fois plus rapide que le disque en écriture
et 50 fois en lecture
20BIG DATA – Meetup Introduction aux Technologies Big Data– Février 2015
Support matters
x 388
21BIG DATA – Meetup Introduction aux Technologies Big Data– Février 2015
Support matters
x 388
x 777
22BIG DATA – Meetup Introduction aux Technologies Big Data– Février 2015
Support matters
x 388
x 777
x 1314
23BIG DATA – Meetup Introduction aux Technologies Big Data– Février 2015
Lambda architecture
24BIG DATA – Meetup Introduction aux Technologies Big Data– Février 2015
Lambda architecture
25BIG DATA – Meetup Introduction aux Technologies Big Data– Février 2015
Lambda architecture
26BIG DATA – Meetup Introduction aux Technologies Big Data– Février 2015
Lambda architecture
27BIG DATA – Meetup Introduction aux Technologies Big Data– Février 2015
Lambda architecture
20 € / Tb
28BIG DATA – Meetup Introduction aux Technologies Big Data– Février 2015
Lambda architecture
9 000 € / Tb
20 € / Tb
29BIG DATA – Meetup Introduction aux Technologies Big Data– Février 2015
Lambda architecture
9 000 € / Tb
20 € / Tb
30Copyright © Data-Business.fr. BIG DATA – ESILV – Septembre 2014
Cheminement du cours
Volume
Variété2
Vitesse3
Eco-système Hadoop4
1
31BIG DATA – ESILV – Septembre 2014
Coordination complexe dans les Systèmes Parallèles
Loi d’Amdhal :
Soit un programme :
• P = % possible en parallèle sans synchronisation (dans [ 0, 1[ )
• N = nombre de processeurs
• 1 = durée nécessaire pour effectuer l’algorithme avec un processeur
Gain possible en temps :
• Gain sur P = P/N < P < 1
• Partie sur laquelle on ne peut rien gagner : 1 – P < 1
• Durée nécessaire : (1-P) + P/N <1
• Accélération possible : 1 / Durée nécessaire > 1
• Exemples :
• 95% parallélisable : P = 0.95
• 100 processeurs : N = 100
• Accélération = 1 / ( 0.05 + 0.95/100) = 16,8 fois plus rapide
• Avec 50 processeurs : 1 / (0.05 + 0.95/10) = 14,5 fois plus rapide
32BIG DATA – ESILV – Septembre 2014
Rendez vos codes Parralélisables !
33BIG DATA – Meetup Introduction aux Technologies Big Data– Février 2015
HADOOP 1.0
34BIG DATA – Meetup Introduction aux Technologies Big Data– Février 2015
HADOOP 2.0
35BIG DATA – Meetup Introduction aux Technologies Big Data– Février 2015
Zookeeper
36BIG DATA – Meetup Introduction aux Technologies Big Data– Février 2015
Front - End
37BIG DATA – Meetup Introduction aux Technologies Big Data– Février 2015
D3JS
38BIG DATA – Meetup Introduction aux Technologies Big Data– Février 2015
Présentation de Memorandum.pro
▪ Fondateur cabinet Mémorandum
▪ Alcatel-Lucent, Toshiba Services
▪ ESCP, Télécom Paris
Romain Jouin
▪ Développement informatique
▪ Développement commercial
▪ Stratégie Big Data
▪ Analyse de données
COMPÉTENCES
▪ Jaccede.com – gestion d’infrastructure
▪ EDF – E-reputation
▪ Toshiba –1ère
plateforme de Cloud Computing
▪ Alcatel – Développement commercial Ex-URSS
SELECTION DE PROJETS RECENTS
• Cabinet de conseil en Stratégie Big Data
• Expertise Usages et Applications Big Data
• Missions de conseil et formations
• Développement logiciel
• Gestion d’industrialisation Big Data
39BIG DATA – Meetup Introduction aux Technologies Big Data– Février 2015
History
41BIG DATA – Meetup Introduction aux Technologies Big Data– Février 2015
La base :
BIG DATA l ANALYTICS l DATAVIZ
www.data-business.fr
CONTACT
romain@data-business.fr
06.52.86.87.30

Meetup intro techno big data

  • 1.
    BIG DATA lANALYTICS l DATAVIZ www.data-business.fr Big Data l Analytics l DataViz Introduction aux technologies Big Data
  • 2.
    2Copyright © Data-Business.fr.BIG DATA – ESILV – Septembre 2014 Cheminement du cours Volume Variété2 Vitesse3 Eco-System Hadoop4 1
  • 3.
    3BIG DATA –Meetup Introduction aux Technologies Big Data– Février 2015 Cette année nous fêtons les 80 ans de l’ informatique • 1934 : Alan Turing • 1968 : Intel • 1972 : Internet • 1977 : Oracle • 1992 : Internet = 1 million de PCs • 1995 : MySQL / PostGreSQL • 1996 : Internet = 36 millions de PCs • 2000 : Internet = 360 millions de Pcs • 2007 : Iphone • 2015 : 2 milliards de smartphones • 2020 : 50 milliards d’objets connectés ? Limit MySQL PostGreSQL MongoDB Oracle Database Size Limité par l'OS Unlimited 128 TB Table Size 16 TB 32 TB Row Size 65 000 bytes 1.6 TB Field Size … 0,06Mb 1 GB 16 Mb Rows per Table illimiteds Unlimited 4b or illimited Columns per Table 85 250 - 1600 Indexes per Table Unlimited unlimited
  • 4.
    4BIG DATA –Meetup Introduction aux Technologies Big Data– Février 2015 % de personnes se connectant à internet
  • 5.
    5BIG DATA –Meetup Introduction aux Technologies Big Data– Février 2015 Où vont les données ? Sur des disques !
  • 6.
    6BIG DATA –Meetup Introduction aux Technologies Big Data– Février 2015 La meilleure config sur Rue du Commerce : 60 To ➢ Les interfaces de connexion au disque dur: • IDE-ATA : 133 Mo/s ( obsolète ) • SCSI : de 5 à 600 Mo/s ( intelligent, plus rapide, standardisé ) • S-ATA : de 150 à 600 Mo/s ( standard actuel ) ➢ Carte mères : 500 eur • 2 x SATA3 6.0 Gb / s • 8 x SAS2/SATA3 6.0 Gb / s ➢ Taille des disques : 6 To – 300 euros ➢ Configuration : 60 To max / 3500 euros ➢ Temps de lecture : • Théorique : 10 000 secondes / 2.7 heures • Pratique : Deux ou trois fois plus lent : environ 9 heures IDE-ATA SCSI S-ATA => Combien de temps pour tout lire ?
  • 7.
    7BIG DATA –Meetup Introduction aux Technologies Big Data– Février 2015 IBM Benchmark ( 2011) : 480 disques ! 480 disques de 146 Gb : 71 Tb 15 K RPM 14 Gb / s 5 000 secondes pour tout lire : 80 minutes !=> Combien de temps pour tout lire ? => A quel prix ?
  • 8.
    8BIG DATA –Meetup Introduction aux Technologies Big Data– Février 2015 MTBF : Mean Time Before Failure 100 disques | MTBF 5 ans = 20 pannes / an Soit un disque à changer toutes les 2 semaines. Risques : 1. Coût 2. Instabilité du système 3. Perte d’information ! Hadoop résout le MTBF en déduplicant la donnée : replication factor = 3 Si un disque tombe en panne, on retrouve l’ information sur un des deux autres disques.
  • 9.
    9BIG DATA –Meetup Introduction aux Technologies Big Data– Février 2015 MTBF : Transformer un problème en atout Lent (dédié au mode “batch”) Pas cher (12 Keur/machine) mais redondant ! Rapide Map (Sort) Reduce mais complexe !
  • 10.
    10BIG DATA –Meetup Introduction aux Technologies Big Data– Février 2015 Map-Reduce Algorihtm MAP (MAGIC SORT) REDUCE (RESULT)
  • 11.
    11Copyright © Data-Business.fr.BIG DATA – ESILV – Septembre 2014 Cheminement du cours Volume Variété2 Vitesse3 Eco-System Hadoop4 1
  • 12.
    12BIG DATA –Meetup Introduction aux Technologies Big Data– Février 2015 Des sources de plus en plus diverses
  • 13.
    13BIG DATA –Meetup Introduction aux Technologies Big Data– Février 2015 La fin d’un monde 1950 - 2009 2015 JSON
  • 14.
    14BIG DATA –Meetup Introduction aux Technologies Big Data– Février 2015 Formalisme JSON :
  • 15.
    15BIG DATA –Meetup Introduction aux Technologies Big Data– Février 2015 Des caractéristiques différentes ... 1950 - 2009 2015 Online Transaction Processing Transactions garanties Lecture et écriture Schéma défini Banques / Systèmes de sécurité Oracle / Access PostGreSQL / MySQL Online Analytical Processing Pas de transactions Principalement en lecture Sans schéma Sites Web / Applications non critiques MongoDB / CouchDB HBase / Cassandra
  • 16.
    16BIG DATA –Meetup Introduction aux Technologies Big Data– Février 2015 Pour de nouveaux usages : 1950 - 2009 2015 Online Transaction Processing Transactions garanties Lecture et écriture Schéma défini Banques / Systèmes de sécurité Oracle / Access PostGreSQL / MySQL Online Analytical Processing Pas de transactions Principalement en lecture Sans schéma Sites Web / Applications non critiques MongoDB / CouchDB HBase / Cassandra
  • 17.
    17BIG DATA –Meetup Introduction aux Technologies Big Data– Février 2015 Un vocabulaire qui change : 1950 - 2009 2015 Online Transaction Processing MCD / Schéma / Relationnel UML / MERISE Référentiel / dictionnaires de données SQL Triggers Silos / Logiciels / Licences / BI Online Analytical Processing NoSQL / Schemaless Machine Learning / Prédictif Apprentissage (Non) Supervisé Partage / API / Open Sources / Dashboard / Data Visualisation
  • 18.
    18Copyright © Data-Business.fr.BIG DATA – ESILV – Septembre 2014 Cheminement du cours Volume Variété2 Vitesse3 Eco-System Hadoop4 1
  • 19.
    19BIG DATA –Meetup Introduction aux Technologies Big Data– Février 2015 Support matters La RAM est jusqu’à 70 fois plus rapide que le disque en écriture et 50 fois en lecture
  • 20.
    20BIG DATA –Meetup Introduction aux Technologies Big Data– Février 2015 Support matters x 388
  • 21.
    21BIG DATA –Meetup Introduction aux Technologies Big Data– Février 2015 Support matters x 388 x 777
  • 22.
    22BIG DATA –Meetup Introduction aux Technologies Big Data– Février 2015 Support matters x 388 x 777 x 1314
  • 23.
    23BIG DATA –Meetup Introduction aux Technologies Big Data– Février 2015 Lambda architecture
  • 24.
    24BIG DATA –Meetup Introduction aux Technologies Big Data– Février 2015 Lambda architecture
  • 25.
    25BIG DATA –Meetup Introduction aux Technologies Big Data– Février 2015 Lambda architecture
  • 26.
    26BIG DATA –Meetup Introduction aux Technologies Big Data– Février 2015 Lambda architecture
  • 27.
    27BIG DATA –Meetup Introduction aux Technologies Big Data– Février 2015 Lambda architecture 20 € / Tb
  • 28.
    28BIG DATA –Meetup Introduction aux Technologies Big Data– Février 2015 Lambda architecture 9 000 € / Tb 20 € / Tb
  • 29.
    29BIG DATA –Meetup Introduction aux Technologies Big Data– Février 2015 Lambda architecture 9 000 € / Tb 20 € / Tb
  • 30.
    30Copyright © Data-Business.fr.BIG DATA – ESILV – Septembre 2014 Cheminement du cours Volume Variété2 Vitesse3 Eco-système Hadoop4 1
  • 31.
    31BIG DATA –ESILV – Septembre 2014 Coordination complexe dans les Systèmes Parallèles Loi d’Amdhal : Soit un programme : • P = % possible en parallèle sans synchronisation (dans [ 0, 1[ ) • N = nombre de processeurs • 1 = durée nécessaire pour effectuer l’algorithme avec un processeur Gain possible en temps : • Gain sur P = P/N < P < 1 • Partie sur laquelle on ne peut rien gagner : 1 – P < 1 • Durée nécessaire : (1-P) + P/N <1 • Accélération possible : 1 / Durée nécessaire > 1 • Exemples : • 95% parallélisable : P = 0.95 • 100 processeurs : N = 100 • Accélération = 1 / ( 0.05 + 0.95/100) = 16,8 fois plus rapide • Avec 50 processeurs : 1 / (0.05 + 0.95/10) = 14,5 fois plus rapide
  • 32.
    32BIG DATA –ESILV – Septembre 2014 Rendez vos codes Parralélisables !
  • 33.
    33BIG DATA –Meetup Introduction aux Technologies Big Data– Février 2015 HADOOP 1.0
  • 34.
    34BIG DATA –Meetup Introduction aux Technologies Big Data– Février 2015 HADOOP 2.0
  • 35.
    35BIG DATA –Meetup Introduction aux Technologies Big Data– Février 2015 Zookeeper
  • 36.
    36BIG DATA –Meetup Introduction aux Technologies Big Data– Février 2015 Front - End
  • 37.
    37BIG DATA –Meetup Introduction aux Technologies Big Data– Février 2015 D3JS
  • 38.
    38BIG DATA –Meetup Introduction aux Technologies Big Data– Février 2015 Présentation de Memorandum.pro ▪ Fondateur cabinet Mémorandum ▪ Alcatel-Lucent, Toshiba Services ▪ ESCP, Télécom Paris Romain Jouin ▪ Développement informatique ▪ Développement commercial ▪ Stratégie Big Data ▪ Analyse de données COMPÉTENCES ▪ Jaccede.com – gestion d’infrastructure ▪ EDF – E-reputation ▪ Toshiba –1ère plateforme de Cloud Computing ▪ Alcatel – Développement commercial Ex-URSS SELECTION DE PROJETS RECENTS • Cabinet de conseil en Stratégie Big Data • Expertise Usages et Applications Big Data • Missions de conseil et formations • Développement logiciel • Gestion d’industrialisation Big Data
  • 39.
    39BIG DATA –Meetup Introduction aux Technologies Big Data– Février 2015 History
  • 41.
    41BIG DATA –Meetup Introduction aux Technologies Big Data– Février 2015 La base :
  • 42.
    BIG DATA lANALYTICS l DATAVIZ www.data-business.fr CONTACT romain@data-business.fr 06.52.86.87.30