5.
L’évolution du stockage chez Google
• Stockage et traitement de données en masse pour la recherche
GFS et MapReduce
• Stockage structuré
BigTable
• Requêtes plus complexes et réplication multi-datacenter
MegaStore
6.
Architecture du stockage Google
DSL pour le traitement
API Java de haut niveau
MegaStore Sawzall FlumeJava
BigTable
MapReduce
Chubby GFS
Traitement
Consensus distribué distribué
10.
MapReduce
Fragment Map Fragment Map
HDFS Reduce HDFS Reduce
Instance 1 Instance 3
Fragment Map Fragment Map
HDFS Reduce HDFS Reduce
Instance 2 Instance 4
Les traitements et les
données sont co-localisés
11.
MapReduce
Au sein de MapReduce tout est
manipulé en tant que clé-valeur
HDFS Adaptateur Adaptateur HDFS
MapReduce
12.
MapReduce
Trie les données par clé
Split_1 Map Out_1
Split_2 Map Out_2 Merge Reduce Out
Vers HDFS
Split_3 Map Out_3
Le traitement peut
être réparti sur autant
Depuis HDFS d’instances que nécessaire !
13.
Exemple avec MapReduce
public void map(LongWritable key, Text value, ...
String line = value.toString();
StringTokenizer tokenizer = new StringTokenizer(line);
while (tokenizer.hasMoreTokens()) {
String word = tokenizer.nextToken();
output.collect(word, 1);
}
}
public void reduce(Text key, Iterator<IntWritable> values, ...
int sum = 0;
while (values.hasNext()) {
sum += values.next().get();
}
output.collect(key, new IntWritable(sum));
}
14.
Pig
• Pig apporte une abstraction au dessus de MapReduce
Pour une meilleure productivité
• Langage familier de SQL
Facile à lire, mais apprentissage pour l’écrire
• Convertit chaque opération en MapReduce
Fonctionnement distribué
15.
Exemple avec Pig
hour_frequency2 = FOREACH hour_frequency1 GENERATE flatten($0), COUNT($1) as
count;
uniq_frequency1 = GROUP hour_frequency2 BY group::ngram;
filtered_uniq_frequency = FILTER uniq_frequency3 BY score > 2.0;
STORE ordered_uniq_frequency INTO '/tmp/tutorial-results' USING PigStorage();
same = JOIN hour00 BY $0, hour12 BY $0;
26.
Le modèle en famille de colonnes
A chaque ID de ligne correspond
une liste de couples clé-valeur
BDD relationnelle BDD orientée colonnes
27.
Exemple avec un panier d’achat
johndoe 17:21 Iphone 17:32 DVD Player 17:44 MacBook
willsmith 6:10 Camera 8:29 Ipad
pitdavis 14:45 PlayStation 15:01 Asus EEE 15:03 Iphone
Famille de colonnes
28.
HBase
• Utilise le modèle orientée colonne de Google BigTable
Modélisation délicate ...
• Basé sur HDFS, scalabilité horizontale linéaire
Jusqu’à plusieurs milliers de serveurs
• Tolérance aux pannes
Panne d’un serveur, d’un data-center...
30.
Ecriture append-only de HBase
MemTable
RAM
HDFS
Log SSTable
31.
HBase
• Utilise le modèle orientée colonne de Google BigTable
Modélisation délicate ...
• Basé sur HDFS, scalabilité horizontale linéaire
Jusqu’à plusieurs milliers de serveurs
• Tolérance aux pannes
Panne d’un serveur, d’un data-center...
33.
Online Business Intelligence avec Hadoop / HBase
Stockage des
informations en Traitement batch
production distribué
Application HBase Hadoop
Exploitation Stockage
des résultats des résultats
34.
Recommandations Amazon
Amazon récolte l’ensemble des clics
utilisateurs dans Dynamo et génère des
recommandations par analyse de ces données
35.
Google Analytics
Google Analytics
s’appuie sur BigTable
pour le stockage et
l’analyse des clics
utilisateurs en temps
réel
36.
Intérêt pour les entreprises
• Rapprochement du BI et des applications
Stockage commun
• Rationalisation du budget licences
NoSQL (presque) = OpenSource
• La possibilité crée le besoin
Ouverture vers de nouveaux use-cases
Il semblerait que vous ayez déjà ajouté cette diapositive à .
Créer un clipboard
Vous avez clippé votre première diapositive !
En clippant ainsi les diapos qui vous intéressent, vous pourrez les revoir plus tard. Personnalisez le nom d’un clipboard pour mettre de côté vos diapositives.
Créer un clipboard
Partager ce SlideShare
Vous avez les pubs en horreur?
Obtenez SlideShare sans publicité
Bénéficiez d'un accès à des millions de présentations, documents, e-books, de livres audio, de magazines et bien plus encore, sans la moindre publicité.
Offre spéciale pour les lecteurs de SlideShare
Juste pour vous: Essai GRATUIT de 60 jours dans la plus grande bibliothèque numérique du monde.
La famille SlideShare vient de s'agrandir. Profitez de l'accès à des millions de livres numériques, livres audio, magazines et bien plus encore sur Scribd.
Apparemment, vous utilisez un bloqueur de publicités qui est en cours d'exécution. En ajoutant SlideShare à la liste blanche de votre bloqueur de publicités, vous soutenez notre communauté de créateurs de contenu.
Vous détestez les publicités?
Nous avons mis à jour notre politique de confidentialité.
Nous avons mis à jour notre politique de confidentialité pour nous conformer à l'évolution des réglementations mondiales en matière de confidentialité et pour vous informer de la manière dont nous utilisons vos données de façon limitée.
Vous pouvez consulter les détails ci-dessous. En cliquant sur Accepter, vous acceptez la politique de confidentialité mise à jour.