mix-it 2011

N(ot) O(nly) SQL Des alternatives aux bases de données relationnelles MALLASSI Olivier OCTOTechnology Email : omallassi@octo.com Twitter : @omallassi LinkedIn : http://www.linkedin.com/pub/olivier-mallassi/1/46/21 Blog : http://blog.octo.com

Objectifs Proposer une vision synthétique du « monde NoSQL » Fournir un premier guide de lecture http://www.flickr.com/photos/nuagedenuit/155699074/sizes/o/

@omallassi Architecte @OCTO http://blog.octo.com noSQL User Group @Paris #nosqlfr 3

Au commencement était… …le fichier séquentiel (indexé)… … et COBOL Une interrogation « limitée », par index SELECT BookFile ASSIGN TO "BOOKS.DAT" ORGANIZATION IS INDEXED ACCESS MODE IS DYNAMIC RECORD KEY IS BookNumber ALTERNATE RECORD KEY IS AuthorNumber WITH DUPLICATES FILE STATUS IS BookErrorStatus. …

Vers 1970les premiers modèles relationnels Un référentiel unique de données structurées et couplées Un système centralisé Une donnée unique (structure, valeur, consistance…) pour toutes les utilisations On modélise les données puis on développe des applications

Puis vinrent… Objectif : stocker et rechercher dans le web en temps réel Objectif : vendre la plus grande variété d’articles (livres, bricolage…) Des enjeux communs Performance (malgré les volumétries) Disponibilité (>99,99%) Résilience Scalabilité horizontale Enjeux : Agréger de gros volumes de données  BigTable + Map/Reduce Enjeux Débit important en écriture tout en assurant la disponibilité Derniers incidents majeurs : 2004 <40 minutes d’indisponibilité par an  Dynamo

Et dans le même temps, Le secteur de la finance se lancent dans une course à la latence… Lowlatency messaging Grille de calcul …et aide au développement des « caches distribués » : Data Grid

NoSQL aujourd’huiun foisonnement de solutions…

HadoopUn écosystème riche et complexe Une « stack » complexe Le cauchemar de la compatibilité des versions Des leaders différents : Apache, Cloudera… Des équipes distinctes : Hive, Hadoop, Sqoop… Pig Dataflowlanguage & compiler Hive SQL LikequeriesDSL Oozie Workflow for interdependentHadoop Jobs MapReduce Framework permettant de « cruncher » des données en parallèle Sqoop Intégration RDBMS & Hadoop Hbase Base de données pour des accès aléatoires read/write Zookeeper Service de coordination HDFS Un système de fichiers distribués Write-once, readmany Flume, Chukwa, Scribe Collection de données fiable et résiliente

HadoopDistributed File System Un système de fichier distribué Permet de stocker des fichiers plus volumineux que ce que peut contenir un disque dur… Répartir les données sur plusieurs machines physiques Répliquer ces données pour assurer le « fail-over » ? N * le volume de données core-site.xml hdfs-site.xml masters, slaves ,[object Object],dfs.block.size (64MB par défaut) ,[object Object],dfs.replication : le nombre de réplica dfs.replication.min : le nombre de réplica à assurer pour valider une écriture

MapReduce Le système de requêtage : MapReduce Traiter des volumes de données plus faibles Paralléliser ces traitements « plus » unitaires Co-localiser traitements / données masters slaves core-site.xml hdfs-site.xml mapred-site.xml hadoop-metrics.properties log4j.properties hadoop-env.sh

MapReducePrincipe de l’algorithme Objectif : réaliser la somme des deals sur un axe d’agrégation GEDEQSWAP John 15/09/2010 EUR10200 CreditSG GEDSWAPTION John 14/09/2010 EUR11000 CreditHSBC … GEDSWAPTION John 17/09/2010 EUR 5500 CreditHSBC IRDIRS Simon 13/09/2010 USD10000 DebitSG IRDIRS Simon 14/09/2010 USD11000 CreditBoF (K1, V1) Map agrégation par devise EUR 10200 USD -10000 EUR 11000 EUR 5500 USD 11000 List(K2, V2) Shuffle & Sort EUR 10200,11000, 5500 USD -10000,11000 K2,list(V2) Reduce somme sur l’axe d’agrégation Itération sur l’ensemble des K2 EUR 26700 USD 1000 List(K3, V3)

L’avantage d’un DSL import org.apache.hadoop.mapred; public static class MapextendsMapReduceBaseimplements Mapper { public voidmap(LongWritablekey, Text value, OutputCollector output, Reporter reporter) throwsIOException { String line = value.toString(); String[] lineAsArray = line.split(""); String currentCurrency = lineAsArray[4]; String amountAsString = lineAsArray[5]; String sens = lineAsArray[6]; DoubleWritable data = null; if("Debit".equals(sens)){ data = new DoubleWritable(Double.parseDouble("-" + amountAsString)); } else if("Credit".equals(sens)) { data = new DoubleWritable(Double.parseDouble(amountAsString)); } output.collect(new Text(currentCurrency), data); } } SELECT Currency, SUM(Amount) FROMcash_flow WHERE Direction='Credit' AND DueDate < = unix_timestamp('2010-09-15 00:00:00') GROUP BY Currency public class CurrencyAggregateextendsConfiguredimplementsTool { @Override public intrun(String[] args) throws Exception{ JobConfconf = new JobConf(CurrencyAggregate.class); conf.setJobName("CurrencyAggregate"); //output of the Mapper ); conf.setOutpconf.setOutputKeyClass(Text.classutValueClass(DoubleWritable.class); conf.setMapperClass(Map.class); conf.setReducerClass(Reduce.class); conf.setInputFormat(TextInputFormat.class); conf.setOutputFormat(TextOutputFormat.class); FileInputFormat.setInputPaths(conf, new Path(args[0])); FileOutputFormat.setOutputPath(conf, new Path(args[1])); JobClient.runJob(conf); return 0; } public staticvoid main(String[] args) throws Exception { intexitCode = ToolRunner.run(new CurrencyAggregate(), args); System.exit(exitCode); } /The reduce is called once per key in the output map of the map() function public static class Reduce extends MapReduceBase implements Reducer { public void reduce(Text key, Iterator values, OutputCollector output, Reporter reporter) throws IOException { double sum = 0; while (values.hasNext()) { double amount = values.next().get(); sum += amount; } output.collect(key, new DoubleWritable(sum)); } }

Hashmap distribuéele modèle Amazon : Dynamo, S3, SimpleDB, Cassandra, Riak, Voldemort…

Rappelez vous… Objectif : stocker et rechercher dans le web en temps réel Objectif : vendre la plus grande variété d’articles (livres, bricolage…) Des enjeux communs Performance (malgré les volumétries) Disponibilité (>99,99%) Résilience Scalabilité horizontale Enjeux : Agréger de gros volumes de données  BigTable + Map/Reduce Enjeux Débit important en écriture tout en assurant la disponibilité Derniers incidents majeurs : 2004 <40 minutes d’indisponibilité par an  Dynamo

Des enjeux différents de ceux de Google Un objectif « simple » : être capable d’accepter une demande d’achat… …quelque soit la panne ! Enjeux: reporting(induit une modélisation riche), Indisponibilité temporaire acceptable Enjeux: disponibilité en écriture, tolérance à la panne Le modèle RDBMS atteint ces limites en terme ,[object Object]

Gestion du « capacity planning » Le modèle RDBMS est adapté ,[object Object]

Hashmap distribuéeModèle de données Modèle de données : une Map Cassandra offre un modèle de données « plus riche » en reprenant le modèle « column-oriented » de BigTable : un Map de Map Sans aller jusqu’au stockage physique en colonne Propose des index secondaires (v.0.7) : get users where state = 'UT' and birth_date > 1970;

« Event Sourcing »Le pattern… vision « stock » ou « mouvements »? 09/2010 400 Credit 13/09/2010 10000 Debit 15/09/2010 10200 Credit 14/09/2010 11000 Credit 15/09/2010 5500 Debit 16/09/2010 5500 Debit 15/09/2010 11000 Debit 16/09/2010 5500 Credit 17/09/2010 5500 Credit 13/09/2010 10000 Debit 15/09/2010 10200 Credit 13/09/2010 20000 Debit 14/09/2010 11000 Credit 15/09/2010 3900 Credit 16/09/2010 0 Credit 17/09/2010 5500 Credit

« Event Sourcing »Le pattern… Permet d’adresser des enjeux différents Source d’évènements, collecte ,[object Object]

Hautement disponible-… Des représentations adaptées aux usages, restitution ,[object Object]

Hashmap distribuée Gestion de la consistance Consistance faible Consistance forte Client (Write) Client (Read) Client (Write) Client (Read) Quorum basedprotocol : N/2 + 1 ou W + R > N Trade off entre consistance, latence, tolérance à la panne en fonction de la donnée #2 «3» #2 «3»

mix-it 2011

Recommandé

Recommandé

Contenu connexe

Tendances

Tendances (15)

En vedette

En vedette (20)

Similaire à mix-it 2011

Similaire à mix-it 2011 (20)

mix-it 2011