Ce diaporama a bien été signalé.
Nous utilisons votre profil LinkedIn et vos données d’activité pour vous proposer des publicités personnalisées et pertinentes. Vous pouvez changer vos préférences de publicités à tout moment.

20151205 Japan.R SparkRとParquet

12 661 vues

Publié le

RからSparkとParquetを使う話です。

Publié dans : Technologie

20151205 Japan.R SparkRとParquet

  1. 1. SparkR and Parquet Ryuji Tamagawa from Osaka Japan.R 2015
  2. 2. Who am I ?
  3. 3. Works of 2015 Sparkによる 実践データ解析 2016年1月発売予定
  4. 4. 前処理、困っていませんか?
  5. 5. SparkR Rの環境からSparkでデー タ処理できます Rで処理しやすい(主にサ イズ)ところまでデータ を前処理するのに便利! SparkRのDataFrameをR のDataFrameに変換可能 高柳さん・牧山さんの 「SparkRについて」 収録
  6. 6. Parquet ビッグデータ関係で一般的になりつ つあるデータフォーマット 列指向 高度な圧縮 SparkRから簡単に読み書きできます 高速 http://parquet.apache.org
  7. 7. Demonstration CSVを変換してみました 10GBのデータが300MB程度になりました いったんParquetにするのにノートPCで数時間(Pythonでやってます) 変換できてしまえば、3000万件のデータからダウンサンプリングも楽勝 https://spark.apache.org/docs/latest/sparkr.html#selecting-rows-columns Sys.setenv(SPARK_HOME="/usr/local/opt/spark") .libPaths(c(file.path(Sys.getenv("SPARK_HOME"),"R","lib"), .libPaths())) library(SparkR) sc <- sparkR.init(master="local") sqlContext <- sparkRSQL.init(sc) df = read.df(sqlContext, ‘/Users/…/foo.parquet’) count(df) df_sel <- select(df, “bar”, “baz”) df_sampled <- sample(df_sel, FALSE, 0.01) dfR <- collect(df_sampled)
  8. 8. ご静聴ありがとうござい ました。

×