« Tout va toujours plus vite que prévu »
When the world gets smaller, the data gets bigger
Par : Chaabane Takwa
Takoua.chaabane@gmail.com
1
plan
❖ Introduction un monde numérique.
❖ Evolution de volumétrie de données.
❖ problème et solution .
❖ Big data ca signifie quoi !
❖ objectif de Big data
❖ une nouvelle vue sur le Big data
❖ évolution des technologies de stockage
❖ Caractéristiques de BIG DATA
❖ Les perspective d’utilisations de ces données
❖ les 4 V
❖ les 8 V
❖ Technologie hadoop : base de Big data
2
Un monde numérique
 Nous vivons aujourd’hui dans une ère du numérique:
✓ Les données sont partout : sondages, indices de
popularité, scores électoraux, statistiques
économiques voire sportives...
✓ Nous produisons nous-mêmes des données : photos,
interactions sur les réseaux sociaux, objets
connectés...
✓ sans le vouloir vraiment : recherches sur Internet,
traces laissées par nos actions (achats, réseaux
sociaux ...)..
✓ ou en échange de services (pas si) gratuits…
3
4
5
 En quelqes
années, le
volume
des
données
brassées
par les
entreprise
s a
considérab
lement
augmenté.
Émanant
de sources
diverses
(transactio
ns,
comporte
ments,
réseaux
sociaux,
géolocalisa
tion...),
6
Exemple:
Données d’une avion pour un ans
7
Les perspective d’utilisations de ces données
 Les perspective d’utilisations de ces données sont énormes, notamment pour
l’analyse d’opinions politiques, de tendance industrielles, la génomique, la lutte
contre la criminalité et la fraude, les méthodes de marketing publicitaire et de
vente etc …
8
Résultat !
problèmes de gestion des données massives
 Les bases de données relationnelles
classiques ne permettent pas de gérer les
volumes de ses données .
 De nouveaux modèles de représentation
permettent de garantir les performances
sur les volumétries en jeu.
9
Et La solution !!!
10
Le, la ou les Big Data ?
 Big Data est un nom anglais (littéralement « grosses
données » et ne nécessite pas d’être mis au féminin ni
au masculin.
 Le mot « data » étant le pluriel latin de Datum,.
11
Big Data c’est quoi !
LITTERALEMENT
grosse données ou volume massif de données
structurées ou non. On parle aussi de Datamasse
par similitude avec la biomasse.
CONCEPTUELLEMENT
Ce terme focalise à la fois sur la représentation le
volume des données mais aussi les infrastructures
liées au traitement de ces données.
le Big Data a pour objectif d’exploiter des volumes de données qui sont en
croissance exponentielle et qui deviennent difficiles à travailler avec des
outils classiques de gestion de base de données
12
EVOLUTION DES TECHNOLOGIES DE
STOCKAGE DES DONNES
 LE STOCKAGE EN 1956
 IBM 305 RAMAC 5Mb de stockage sur disque 50 disques
24 pouces temps d’accès de 10 caractères par seconde.
 BIG DATA : GENERALITES EVOLUTION DES
TECHNOLOGIES DE STOCKAGE DES DONNES
 LE STOCKAGE EN 2013 IBM FlashSystem
 1 Petabyte 22 millions d’IOPS Temps de latence en
microseconde (µ= 10-6 secondes)
13
Le stockage au niveau atomique
 LE STOCKAGE AU NIVEAU ATOMATIQUE ATTEINT EN 2012
PAR IBM Les chercheurs d’IBM ont réussi a stocker 1 bit
sur seulement 12 atomes à l’aide d’un microscope a
effet tunnel très puissant.
Takoua.chaabane@gmail.com
https://takwa-1993.blogspot.com/2018/04/le-stockage-au-niveau-atomique-62-tb-en.html
14
Conséquences :
▪ La facilité d’acquisition des données:
- capteurs, télescopes, cartes de fidélité, traces sur les sites
internet, simulations, …
▪ La baisse des prix des supports de stockage
- Le prix du Go ..
15
Caractéristiques de BIG DATA
 Lorsque l’on parle du Big Data, on se retrouve confronté à
plusieurs problèmes. Comment stocker les données ? Quelles sont
les sources de ces données ? A quelles fréquences seront-elles
collectées ? Les Big Data sont caractérisés par plusieurs facteurs,
souvent appelés les « 4V ».
 Ce sont 4axes « classiques » du développement du big :
➢ - VOLUME
➢ -VARIETE.
➢ -VEOLOCITE.
➢ -VIRACITE .
16
COUVERTURE DE QUATRE DIMENSIONS

Takoua.chaabane@gmail.com
17
mais la
définition
peut
s’étendre à
8 aspects
= 8V
Takoua.chaabane@gmail.com
18
Volume
 La quantité de données produites est très importante dans le
contexte des big data.
Variété :
 Le volume de données collectées pose un problème
aux data-centers, un grand volume implique un nombre important de
sources qui ne peuvent être toutes traitées de la même manière,
car elles sont structurées en formats, langages et codes
différents.
Vélocité :
 les entreprises se bénéficient financièrement de ces énormes
données diffusées ou partagées .
 Visibilite :
 Big data = stream data
 • Les données arrivent en continu parfois sans contrôle
19
Les 8 aspects de Big Data
Visualisation
 Les données doivent être lues et comprises par les
utilisateurs et décideurs. On doit pouvoir comprendre
les données d’un simple coup d’oeil et ces
présentations peuvent être simples ou dynamiques. On
parle alors de « data vizualisation ».
Variabilite :
 • Comment retrouver les aiguilles dans les tas de
foins ?
 • Un algorithme quadratique ou même linéaire en la
taille des entrées peut être jugé comme efficace pour
les « small data » mais pas pour les données massives
Les 8 aspects de Big Data
20
Veracite :
• Les sujets observés sont difficilement identifiables:
– Identifier une personne qui a plusieurs
numéros de téléphone
• Identifier un internaute avec son adresse IP
Big data = données incertaines .
Valorisation :
Collecter les données importantes et leur donner de la valeur ,
Big data = machine learning +deep learning
Les 8 aspects de Big Data21
 La gestion des données peut devenir un processus très
complexe et gérer les 8V demande beaucoup ressources.
 Aujourd’hui les données viennent de différentes sources dans
un très grand volume.
 Elles doivent être reliées, nettoyées, transformées et
hiérarchisées à travers les différents systèmes afin que l’on
puisse comprendre et saisir l’information produite par ces
données. Cette situation est appelée comme la
« complexité » du Big Data.
22
Les 8 aspects de Big Data
Technologie Big Data
 - Les bases de données (NoSql)
 - Les plateformes de développement et de traitement
des données La majorité de ces entreprises ont décidés
d’ouvrir ces développements internes au monde Open
Source.
 Un certains nombre de ces technologies comme «
hadoop » font partie de la fondation Apache et ont été
intégrés aux offres de
 « Big Data » des grands acteurs tel que IBM, Oracle,
Microsoft, EMC …
23
Technologie Hadoop
 • Map-Reduce est un paradigme de
programmation qui permet au développeur de
se concentrer sur une solution « haut-niveau ».
24
MapReduce
 MapReduce Il joue un rôle majeur dans le traitement des
grandes quantités de données. La distribution des données au
sein de nombreux serveurs permet le traitement parallélisé de
plusieurs tâches portant chacune sur des morceaux de fichiers.

 La fonction Map accomplit une opération spécifique sur
chaque élément. L'opération Reduce combine les éléments
selon un algorithme particulier, et fournit le résultat.
 Soulignons que le principe de délégation peut être récursif :
les nœuds à qui sont confiées des tâches peuvent aussi
déléguer des opérations à d'autres nœuds
25
MAPREDUCE LE FRONTAL D’HADOOP
26
Merci pour votre attention
Takoua.chaabane@gmail.com
27

Big data

  • 1.
    « Tout vatoujours plus vite que prévu » When the world gets smaller, the data gets bigger Par : Chaabane Takwa Takoua.chaabane@gmail.com 1
  • 2.
    plan ❖ Introduction unmonde numérique. ❖ Evolution de volumétrie de données. ❖ problème et solution . ❖ Big data ca signifie quoi ! ❖ objectif de Big data ❖ une nouvelle vue sur le Big data ❖ évolution des technologies de stockage ❖ Caractéristiques de BIG DATA ❖ Les perspective d’utilisations de ces données ❖ les 4 V ❖ les 8 V ❖ Technologie hadoop : base de Big data 2
  • 3.
    Un monde numérique Nous vivons aujourd’hui dans une ère du numérique: ✓ Les données sont partout : sondages, indices de popularité, scores électoraux, statistiques économiques voire sportives... ✓ Nous produisons nous-mêmes des données : photos, interactions sur les réseaux sociaux, objets connectés... ✓ sans le vouloir vraiment : recherches sur Internet, traces laissées par nos actions (achats, réseaux sociaux ...).. ✓ ou en échange de services (pas si) gratuits… 3
  • 4.
  • 5.
  • 6.
     En quelqes années,le volume des données brassées par les entreprise s a considérab lement augmenté. Émanant de sources diverses (transactio ns, comporte ments, réseaux sociaux, géolocalisa tion...), 6
  • 7.
  • 8.
    Les perspective d’utilisationsde ces données  Les perspective d’utilisations de ces données sont énormes, notamment pour l’analyse d’opinions politiques, de tendance industrielles, la génomique, la lutte contre la criminalité et la fraude, les méthodes de marketing publicitaire et de vente etc … 8
  • 9.
    Résultat ! problèmes degestion des données massives  Les bases de données relationnelles classiques ne permettent pas de gérer les volumes de ses données .  De nouveaux modèles de représentation permettent de garantir les performances sur les volumétries en jeu. 9
  • 10.
  • 11.
    Le, la oules Big Data ?  Big Data est un nom anglais (littéralement « grosses données » et ne nécessite pas d’être mis au féminin ni au masculin.  Le mot « data » étant le pluriel latin de Datum,. 11
  • 12.
    Big Data c’estquoi ! LITTERALEMENT grosse données ou volume massif de données structurées ou non. On parle aussi de Datamasse par similitude avec la biomasse. CONCEPTUELLEMENT Ce terme focalise à la fois sur la représentation le volume des données mais aussi les infrastructures liées au traitement de ces données. le Big Data a pour objectif d’exploiter des volumes de données qui sont en croissance exponentielle et qui deviennent difficiles à travailler avec des outils classiques de gestion de base de données 12
  • 13.
    EVOLUTION DES TECHNOLOGIESDE STOCKAGE DES DONNES  LE STOCKAGE EN 1956  IBM 305 RAMAC 5Mb de stockage sur disque 50 disques 24 pouces temps d’accès de 10 caractères par seconde.  BIG DATA : GENERALITES EVOLUTION DES TECHNOLOGIES DE STOCKAGE DES DONNES  LE STOCKAGE EN 2013 IBM FlashSystem  1 Petabyte 22 millions d’IOPS Temps de latence en microseconde (µ= 10-6 secondes) 13
  • 14.
    Le stockage auniveau atomique  LE STOCKAGE AU NIVEAU ATOMATIQUE ATTEINT EN 2012 PAR IBM Les chercheurs d’IBM ont réussi a stocker 1 bit sur seulement 12 atomes à l’aide d’un microscope a effet tunnel très puissant. Takoua.chaabane@gmail.com https://takwa-1993.blogspot.com/2018/04/le-stockage-au-niveau-atomique-62-tb-en.html 14
  • 15.
    Conséquences : ▪ Lafacilité d’acquisition des données: - capteurs, télescopes, cartes de fidélité, traces sur les sites internet, simulations, … ▪ La baisse des prix des supports de stockage - Le prix du Go .. 15
  • 16.
    Caractéristiques de BIGDATA  Lorsque l’on parle du Big Data, on se retrouve confronté à plusieurs problèmes. Comment stocker les données ? Quelles sont les sources de ces données ? A quelles fréquences seront-elles collectées ? Les Big Data sont caractérisés par plusieurs facteurs, souvent appelés les « 4V ».  Ce sont 4axes « classiques » du développement du big : ➢ - VOLUME ➢ -VARIETE. ➢ -VEOLOCITE. ➢ -VIRACITE . 16
  • 17.
    COUVERTURE DE QUATREDIMENSIONS  Takoua.chaabane@gmail.com 17
  • 18.
    mais la définition peut s’étendre à 8aspects = 8V Takoua.chaabane@gmail.com 18
  • 19.
    Volume  La quantitéde données produites est très importante dans le contexte des big data. Variété :  Le volume de données collectées pose un problème aux data-centers, un grand volume implique un nombre important de sources qui ne peuvent être toutes traitées de la même manière, car elles sont structurées en formats, langages et codes différents. Vélocité :  les entreprises se bénéficient financièrement de ces énormes données diffusées ou partagées .  Visibilite :  Big data = stream data  • Les données arrivent en continu parfois sans contrôle 19 Les 8 aspects de Big Data
  • 20.
    Visualisation  Les donnéesdoivent être lues et comprises par les utilisateurs et décideurs. On doit pouvoir comprendre les données d’un simple coup d’oeil et ces présentations peuvent être simples ou dynamiques. On parle alors de « data vizualisation ». Variabilite :  • Comment retrouver les aiguilles dans les tas de foins ?  • Un algorithme quadratique ou même linéaire en la taille des entrées peut être jugé comme efficace pour les « small data » mais pas pour les données massives Les 8 aspects de Big Data 20
  • 21.
    Veracite : • Lessujets observés sont difficilement identifiables: – Identifier une personne qui a plusieurs numéros de téléphone • Identifier un internaute avec son adresse IP Big data = données incertaines . Valorisation : Collecter les données importantes et leur donner de la valeur , Big data = machine learning +deep learning Les 8 aspects de Big Data21
  • 22.
     La gestiondes données peut devenir un processus très complexe et gérer les 8V demande beaucoup ressources.  Aujourd’hui les données viennent de différentes sources dans un très grand volume.  Elles doivent être reliées, nettoyées, transformées et hiérarchisées à travers les différents systèmes afin que l’on puisse comprendre et saisir l’information produite par ces données. Cette situation est appelée comme la « complexité » du Big Data. 22 Les 8 aspects de Big Data
  • 23.
    Technologie Big Data - Les bases de données (NoSql)  - Les plateformes de développement et de traitement des données La majorité de ces entreprises ont décidés d’ouvrir ces développements internes au monde Open Source.  Un certains nombre de ces technologies comme « hadoop » font partie de la fondation Apache et ont été intégrés aux offres de  « Big Data » des grands acteurs tel que IBM, Oracle, Microsoft, EMC … 23
  • 24.
    Technologie Hadoop  •Map-Reduce est un paradigme de programmation qui permet au développeur de se concentrer sur une solution « haut-niveau ». 24
  • 25.
    MapReduce  MapReduce Iljoue un rôle majeur dans le traitement des grandes quantités de données. La distribution des données au sein de nombreux serveurs permet le traitement parallélisé de plusieurs tâches portant chacune sur des morceaux de fichiers.   La fonction Map accomplit une opération spécifique sur chaque élément. L'opération Reduce combine les éléments selon un algorithme particulier, et fournit le résultat.  Soulignons que le principe de délégation peut être récursif : les nœuds à qui sont confiées des tâches peuvent aussi déléguer des opérations à d'autres nœuds 25
  • 26.
    MAPREDUCE LE FRONTALD’HADOOP 26
  • 27.
    Merci pour votreattention Takoua.chaabane@gmail.com 27