SlideShare une entreprise Scribd logo
1  sur  66
リクルートライフスタイルの
売上を支える共通分析基盤
RLS Meetup #3
07/05 2017
山田 雄
ネットビジネス本部
データ基盤チーム
1.自己紹介
2.分析基盤の続け方
3.リクルートライフスタイルの分析基盤
4.あとがき
本日のアジェンダ
1.自己紹介
2.分析基盤の続け方
3.リクルートライフスタイルの分析基盤
4.あとがき
本日のアジェンダ
■山田 雄(ヤマダ ユウ)
株式会社 リクルートライフスタイル
ネットビジネス本部
データ基盤T
Twitter:@nii_yan
GitHub:https://github.com/yu-yamada
・以前はフリーランスエンジニア
縁があってリクルートライフスタイルにお世話になることになった。
ビックデータ、Ruby、ビール、カップ焼きそばが好き。
自己紹介
会社紹介
Engineering
for data
Business
with data
技術でビジネスを
ドライブする
Stable Infrastructure Continual Innovation+
リクルートライフスタイルにおけるエンジニアの役割
みなさんカップ焼きそば食べ
てますか?
ある朝会社に来てみると・・・
(つд⊂)ゴシゴシ
ショートケー
キだと!?
出来ればご飯
と食べたかっ
たな・・・
すっぱさが焼
きそばとマッ
チしてめっ
ちゃ箸進む!
すっぱくて、臭くてまずい!
チョコに振り
切れていない
脂っこいけど
うまい!!
わさびが強す
ぎて、食べよ
うとするだけ
で泣いたToT
なんでメーカーはこんな変な
味の焼きそばを出すのか?
実はマーケティング的な戦略
が裏にはあった
昔カップ焼きそば食べた
ことあるけど、もう食べて
ないユーザ
よくカップ焼きそば食べ
るけど色々派
たまにカップ焼きそば食
べるけど固定派
よくカップ焼きそば食べ
る固定派
昔カップ焼きそば食べた
ことあるけど、もう食べて
ないユーザ
よくカップ焼きそば食べ
るけど色々派
たまにカップ焼きそば食
べるけど固定派
よくカップ焼きそば食べ
る固定派
1.自己紹介
2.分析基盤の続け方
3.DWHの選定方法
4.リクルートライフスタイルの分析基盤
5.あとがき
本日のアジェンダ
#1
ユーザーファーストの基盤を作る
なぜユーザーファーストにするのか
使ってくれる人がいないと分析基盤は継続しないか
ら!
• とにかくユーザが使い易い基盤にする
• 新しい技術使いたいからとかエンジニア善がりの基盤
はNG(IFがAPIのみとか
• ユーザの声を常に聞ける環境を整える
リクルートライフスタイルで取り組んでいること
• 問い合わせ用にslackのchannelを開設
• ユーザアンケートを行う
• 基盤を使う立場になる(マーケターに兼務で入るなど
• データを使うチームを近くに置く
• 毎月メルマガ発行をする
• 社内散歩をする
などなどを行いユーザと仲良くする!
#2
売上の上がる施策バッチを走らせる
なぜ売上を上げないといけないか
売上を上げないと予算がつかないから!
• 分析基盤はとにかくお金がかかる
• 予算はほぼ毎年純増(データ量に相関する場合が多い
• 売上が上がれば予算がついて、より良い基盤が作れる
• さらに売上が上がるバッチを走らせられる
• ROIは計算しなくて良い
• インフラってそんなもんだと思います
• この基盤があるおかげでこんだけ売上の上がるバッチが走っ
てるんだよ〜ぐらいで
• KPIは持ちましょう
#3
運用コストを下げる
なぜ運用コストを下げたいのか
運用は人を幸せにしないから!
• キャパシティ管理をしなくていいように
• ビックデータ基盤で将来のデータ量予測はほぼ不可能
• 障害が起きた際に単純に再実行できるデータパイプラ
インを作る
• 冪等性を担保する
• クラウドに任せるところは任せる
• 魔改造しない
• SLAを緩くする
#4
ユーザの教育を行う
なぜユーザ教育を行うのか
双方の幸せのため
• DWHごとに最適なクエリの書き方があるが、ユーザは
特に意識せずに負荷の高いクエリを投げる場合がある
• DWH全体の負荷が上がり、ユーザ全員に影響する
• クエリ課金のエンジン使っていた際は目も当てられない
• RedshiftなどRDBの用に使えるが、決して使ってはいけ
ない
• Index無い
• 正規化しない方がいい
• カラムナ?なにそれおいしいの?
• パーティション?机の前にあるやつ?
• order byとかcount(distinct)とかコストの高いクエリ多様
リクルートライフスタイルで取り組んでいること
• 半期に1度の勉強会
• おもにその半年間の新規参画者向け
• Redshiftについて
• TreasureDataについて
• BigQueryについて
• Tableauについて
• DataRobotについて・・・など数回に分けて実施
#5
データレイク構成にしておく
なぜデータレイク構成にしておくのか
進化を続けられる基盤になれる
• 新しいエンジンがどんどん出てきている
• 用途によって使いたいエンジンは違う
• スケールアウト出来る分析基盤に対応
• サイズ制限からの解放
データレイクにしておくことによって、新しいエンジンや新
しいニーズが出てきた際も柔軟に対応出来る、進化を続
ける基盤となれる
1.自己紹介
2.分析基盤の続け方
3.リクルートライフスタイルの分析基盤
4.あとがき
本日のアジェンダ
リクルートライフスタイルの持つデータ
リクルートライフスタイルの分析基盤
DWH
HPB JLN
HPG
・・・
各事業データ
施策Batch用
Netezza
サイトログ保存用
TreasureData
Adhoc分析用
Redshift
外部データ
TSV CSV
3
行動ログ
SDK
Adhoc分析用
Redshift
AWS
S3
S3
S3
GCP
模索中
BigQuery
リクルートライフスタイルの分析基盤
DWH
HPB JLN
HPG
・・・
各事業データ
施策Batch用
Netezza
サイトログ保存用
TreasureData
Adhoc分析用
Redshift
外部データ
TSV CSV
3
行動ログ
SDK
Adhoc分析用
Redshift
AWS
S3
S3
S3
GCP
模索中
BigQuery
事業データや、サイトの行動ログを日次
DWHに連携し、横断的に分析できる環境を
ユーザに提供
リクルートライフスタイルの分析基盤
DWH
HPB JLN
HPG
・・・
各事業データ
施策Batch用
Netezza
サイトログ保存用
TreasureData
Adhoc分析用
Redshift
外部データ
TSV CSV
3
行動ログ
SDK
Adhoc分析用
Redshift
AWS
S3
S3
S3
GCP
模索中
BigQuery
各事業のデータを日次バッチで連携
連携テーブル数2000以上
1度フラットファイルにしてからS3に
uploadして、Redshiftにload
リクルートライフスタイルの分析基盤
DWH
HPB JLN
HPG
・・・
各事業データ
施策Batch用
Netezza
サイトログ保存用
TreasureData
Adhoc分析用
Redshift
外部データ
TSV CSV
3
行動ログ
SDK
Adhoc分析用
Redshift
AWS
S3
S3
S3
GCP
模索中
BigQuery
DB以外のデータも連携したいという要
望があるので、S3をIFとして連携
リクルートライフスタイルの分析基盤
DWH
HPB JLN
HPG
・・・
各事業データ
施策Batch用
Netezza
サイトログ保存用
TreasureData
Adhoc分析用
Redshift
外部データ
TSV CSV
3
行動ログ
SDK
Adhoc分析用
Redshift
AWS
S3
S3
S3
GCP
模索中
BigQuery
サイトの行動ログは1度TreasureData
に入れた後、マートを作成し、マートの
みRedshift,Netezzaへ連携
リクルートライフスタイルの分析基盤
DWH
HPB JLN
HPG
・・・
各事業データ
施策Batch用
Netezza
サイトログ保存用
TreasureData
Adhoc分析用
Redshift
外部データ
TSV CSV
3
行動ログ
SDK
Adhoc分析用
Redshift
AWS
S3
S3
S3
GCP
模索中
BigQuery
IFをS3に統一することにより、S3をデー
タレイクとして使用
リクルートライフスタイルの分析基盤
DWH
HPB JLN
HPG
・・・
各事業データ
施策Batch用
Netezza
サイトログ保存用
TreasureData
Adhoc分析用
Redshift
外部データ
TSV CSV
3
行動ログ
SDK
Adhoc分析用
Redshift
AWS
S3
S3
S3
GCP
模索中
BigQuery
Netezzaは売上に直結する施策バッチ
を走らせる環境
一般ユーザには解放しないことによっ
てアドホッククエリの影響を受けない
環境を作っている
リクルートライフスタイルの分析基盤
DWH
HPB JLN
HPG
・・・
各事業データ
施策Batch用
Netezza
サイトログ保存用
TreasureData
Adhoc分析用
Redshift
外部データ
TSV CSV
3
行動ログ
SDK
Adhoc分析用
Redshift
AWS
S3
S3
S3
GCP
模索中
BigQuery
ユーザに一般開放している環境
日次更新されてデータ鮮度は高いが、常に
loadとupdateが走っているため負荷が高い
日次1500テーブルのload,1000テーブルの
updateが走っている
負荷が高くて単純なselectにも時間がかか
る・・・orz
負荷は高くてもいいから鮮度の高いデータが
欲しいユーザ向け
RedshiftはCRUDが使えるので、ユーザも使い
易い
リクルートライフスタイルの分析基盤
DWH
HPB JLN
HPG
・・・
各事業データ
施策Batch用
Netezza
サイトログ保存用
TreasureData
Adhoc分析用
Redshift
外部データ
TSV CSV
3
行動ログ
SDK
Adhoc分析用
Redshift
AWS
S3
S3
S3
GCP
模索中
BigQuery
ユーザに一般開放している環境
左のクラスタのsnapshotから週次で作成
データ鮮度は古いがload,updateが走らないた
め負荷が低く、快適にクエリが投げられる
使われないデータは削除し、データ量的に最小
のクラスタ構成としている
鮮度は古いデータでもいいが、負荷の低い環境
を使いたいユーザ向け
クエリの実行テストにも使われる
リクルートライフスタイルの分析基盤
DWH
HPB JLN
HPG
・・・
各事業データ
施策Batch用
Netezza
サイトログ保存用
TreasureData
Adhoc分析用
Redshift
外部データ
TSV CSV
3
行動ログ
SDK
Adhoc分析用
Redshift
AWS
S3
S3
S3
GCP
模索中
BigQuery
鮮度の高いデータを付き合わせたい時のために、
slackでテーブル名を呟くとS3のデータをloadしてく
れるbotを用意
ユーザ主体でload出来ることによって運用コスト
削減
リクルートライフスタイルの分析基盤
DWH
HPB JLN
HPG
・・・
各事業データ
施策Batch用
Netezza
サイトログ保存用
TreasureData
Adhoc分析用
Redshift
外部データ
TSV CSV
3
行動ログ
SDK
Adhoc分析用
Redshift
AWS
S3
S3
S3
GCP
模索中
BigQuery
サイトカタリストの生ログやアプリのSDKログをた
めている
毎月約100億レコード増加
運用は全て任せられるので、運用コストが低い
リクルートライフスタイルの分析基盤
DWH
HPB JLN
HPG
・・・
各事業データ
施策Batch用
Netezza
サイトログ保存用
TreasureData
Adhoc分析用
Redshift
外部データ
TSV CSV
3
行動ログ
SDK
Adhoc分析用
Redshift
AWS
S3
S3
S3
GCP
模索中
BigQuery
サイトカタリストのログ、Redshiftに入っている
データを入れ、TreasureData、Redshiftを掛け合
わせた環境になれないか模索中
キャパシティ管理をしなくて良いので運用コスト
が低い
リクルートライフスタイルの分析基盤
DWH
HPB JLN
HPG
・・・
各事業データ
施策Batch用
Netezza
サイトログ保存用
TreasureData
Adhoc分析用
Redshift
外部データ
TSV CSV
3
行動ログ
SDK
Adhoc分析用
Redshift
AWS
S3
S3
S3
GCP
模索中
BigQuery
約300人のユーザが、自分にあった環境を使い、
日々データの分析を行っている
データサイエンティスト、マーケター、ディレクター、
営業と様々な職種の人が分析基盤を使用
Tableauを用意することにより、クエリが書けない
人でも利用が出来る
リクルートライフスタイルの分析基盤
DWH
HPB JLN
HPG
・・・
各事業データ
施策Batch用
Netezza
サイトログ保存用
TreasureData
Adhoc分析用
Redshift
外部データ
TSV CSV
3
行動ログ
SDK
Adhoc分析用
Redshift
AWS
S3
S3
S3
GCP
模索中
BigQuery
約300人のユーザが、自分にあった環境を使い、
日々データの分析を行っている
データサイエンティスト、マーケター、ディレクター、
営業と様々な職種の人が分析基盤を使用
Tableauを用意することにより、クエリが書けない
人でも利用が出来る
約300人のユーザが、自分にあった環境を使い、
日々データの分析を行っている
データサイエンティスト、マーケター、ディレクター、
営業と様々な職種の人が分析基盤を使用
Tableauを用意することにより、クエリが書けない
人でも利用が出来る
DWHに集まったデータを使い、SPSSやRでデータ
分析をし、CMSなどに連携することで売り上げを
上げる施策を走らせている
メルマガのOnetoOne
ユーザ毎の広告の出しわけ
ポイント付与など・・・
ETLフレームワーク
独自で実装した ETLのフレームワークを用意し、SQLと
YAMLを作るだけでデータの移動を出来るようにしている
フレームワークで出来ること
Redshift運用Tips
Redshiftの負荷は
cloudwatchでは見られる
範囲が狭いため、独自に
監視用dashboardを作成
Redshiftへの負荷を減ら
すため、RDSにマテビュー
を作成し、RDSから負荷
状況データ取得
stl_query stl_s3client
stl_wlm_qu
ery
etc…
stv_recents
stl_insert
pg_database
stl_scan
MATERIALIZED VIEW
PostgreSQL
Redshift
負荷監視用Dashboard
Meta情報管理
Meta情報管理
事業DBやDWH、Adobe Analyticsのメタデータを日次
で連携し、どのテーブルはどんな定義でどんなデータ
が入ってるいるのかを一元的に管理。
また、カラムに対してのコメント機能もあるため、単純
なDDLよりもわかりやすい情報が載っている。
DynamoDB Lambda
API
Gateway
Kafka
on-premises
Configuration
Management
Monitoring
Grafana
リアルタイムデータを扱う基盤
DynamoDB Lambda
API
Gateway
on-premises
Configuration
Management
Monitoring
Grafana
Kafka
データハブ基盤
Lambda
API
Gateway
on-premises
Configuration
Management
Monitoring
Grafana
Kafka DynamoDB
ストリーム処理基盤
Kafka
on-premises
Configuration
Management
Monitoring
Grafana
DynamoDB Lambda
API
Gateway
データ提供部分(API)
1.自己紹介
2.分析基盤の続け方
3.リクルートライフスタイルの分析基盤
4.あとがき
本日のアジェンダ
どんな人が分析基盤に向いて
いるか?
よく言われるT字型のエンジニア
よく言われるT字型のエンジニア
分析基盤では基盤の知識はもとより、開発力、分析
力、マーケティング知識、ビジネス力、コミュ力、語学
力などなど様々なスキルが必要になってくるので、T
字型のエンジニアは向いていない。
目指したい形
命名:つらら型エンジニア
目指したい形
命名:つらら型エンジニア
T字型にプラスして他の分野もそこそこ深ぼれるエン
ジニア。
つらら型エンジニアを目指しな
がら一緒に酒飲んでくれる人
募集中!
ご清聴ありがとうございました

Contenu connexe

Tendances

kafkaのデータをRedshiftへ入れるパイプライン作ってみた
kafkaのデータをRedshiftへ入れるパイプライン作ってみたkafkaのデータをRedshiftへ入れるパイプライン作ってみた
kafkaのデータをRedshiftへ入れるパイプライン作ってみたYu Yamada
 
オンプレとクラウドのHadoopを比較して僕の思うとこ
オンプレとクラウドのHadoopを比較して僕の思うとこオンプレとクラウドのHadoopを比較して僕の思うとこ
オンプレとクラウドのHadoopを比較して僕の思うとこYu Yamada
 
売上に効くデータ組織~データから売上や利益を作るために何をしているか~
売上に効くデータ組織~データから売上や利益を作るために何をしているか~売上に効くデータ組織~データから売上や利益を作るために何をしているか~
売上に効くデータ組織~データから売上や利益を作るために何をしているか~Recruit Lifestyle Co., Ltd.
 
大規模システムリプレイスへの道
大規模システムリプレイスへの道大規模システムリプレイスへの道
大規模システムリプレイスへの道Recruit Lifestyle Co., Ltd.
 
データ分析基盤を支えるエンジニアリング
データ分析基盤を支えるエンジニアリングデータ分析基盤を支えるエンジニアリング
データ分析基盤を支えるエンジニアリングRecruit Lifestyle Co., Ltd.
 
データプロダクト開発を成功に導くには
データプロダクト開発を成功に導くにはデータプロダクト開発を成功に導くには
データプロダクト開発を成功に導くにはRecruit Lifestyle Co., Ltd.
 
攻めるアクセス解析〜メンテナンス屋から事業利益貢献者への変革
攻めるアクセス解析〜メンテナンス屋から事業利益貢献者への変革攻めるアクセス解析〜メンテナンス屋から事業利益貢献者への変革
攻めるアクセス解析〜メンテナンス屋から事業利益貢献者への変革Recruit Lifestyle Co., Ltd.
 
Uuidはどこまでuuidか試してみた
Uuidはどこまでuuidか試してみたUuidはどこまでuuidか試してみた
Uuidはどこまでuuidか試してみたYu Yamada
 
リクルートライフスタイル流!分析基盤との賢い付き合い方
リクルートライフスタイル流!分析基盤との賢い付き合い方リクルートライフスタイル流!分析基盤との賢い付き合い方
リクルートライフスタイル流!分析基盤との賢い付き合い方Recruit Lifestyle Co., Ltd.
 
20201130 rpal tvol26
20201130 rpal tvol2620201130 rpal tvol26
20201130 rpal tvol26KEI INOUE
 
一人三役!一気通貫でデータ活用するエンジニアリング
一人三役!一気通貫でデータ活用するエンジニアリング一人三役!一気通貫でデータ活用するエンジニアリング
一人三役!一気通貫でデータ活用するエンジニアリングRecruit Lifestyle Co., Ltd.
 
Machine Learning Casual Talks #4 ビッグデータチームを発足するにあたって気をつけておきたいn個のこと
Machine Learning Casual Talks #4 ビッグデータチームを発足するにあたって気をつけておきたいn個のことMachine Learning Casual Talks #4 ビッグデータチームを発足するにあたって気をつけておきたいn個のこと
Machine Learning Casual Talks #4 ビッグデータチームを発足するにあたって気をつけておきたいn個のことNaoto Tamiya
 
実務で役立つデータベースの活用法
実務で役立つデータベースの活用法実務で役立つデータベースの活用法
実務で役立つデータベースの活用法Soudai Sone
 
Rとデータベース 第61回 Tokyo.R
Rとデータベース 第61回 Tokyo.RRとデータベース 第61回 Tokyo.R
Rとデータベース 第61回 Tokyo.RTakashi Minoda
 
チケット駆動開発導入のヒント - 自律と規律 -
チケット駆動開発導入のヒント - 自律と規律 -チケット駆動開発導入のヒント - 自律と規律 -
チケット駆動開発導入のヒント - 自律と規律 -Makoto SAKAI
 
DX Suite & UiPath さっくり読み取りさっくり連携
DX Suite & UiPath さっくり読み取りさっくり連携DX Suite & UiPath さっくり読み取りさっくり連携
DX Suite & UiPath さっくり読み取りさっくり連携Chuki ちゅき
 
プロダクト中心のデータ駆動を推進していくために必要なこと
プロダクト中心のデータ駆動を推進していくために必要なことプロダクト中心のデータ駆動を推進していくために必要なこと
プロダクト中心のデータ駆動を推進していくために必要なことKazuhito Osabe
 
統計を始める方へ①_データ環境Rの基本的なプログラミング|データアーティスト
統計を始める方へ①_データ環境Rの基本的なプログラミング|データアーティスト統計を始める方へ①_データ環境Rの基本的なプログラミング|データアーティスト
統計を始める方へ①_データ環境Rの基本的なプログラミング|データアーティストSatoru Yamamoto
 
dplyrとは何だったのか
dplyrとは何だったのかdplyrとは何だったのか
dplyrとは何だったのかyutannihilation
 

Tendances (20)

kafkaのデータをRedshiftへ入れるパイプライン作ってみた
kafkaのデータをRedshiftへ入れるパイプライン作ってみたkafkaのデータをRedshiftへ入れるパイプライン作ってみた
kafkaのデータをRedshiftへ入れるパイプライン作ってみた
 
オンプレとクラウドのHadoopを比較して僕の思うとこ
オンプレとクラウドのHadoopを比較して僕の思うとこオンプレとクラウドのHadoopを比較して僕の思うとこ
オンプレとクラウドのHadoopを比較して僕の思うとこ
 
売上に効くデータ組織~データから売上や利益を作るために何をしているか~
売上に効くデータ組織~データから売上や利益を作るために何をしているか~売上に効くデータ組織~データから売上や利益を作るために何をしているか~
売上に効くデータ組織~データから売上や利益を作るために何をしているか~
 
大規模システムリプレイスへの道
大規模システムリプレイスへの道大規模システムリプレイスへの道
大規模システムリプレイスへの道
 
データ分析基盤を支えるエンジニアリング
データ分析基盤を支えるエンジニアリングデータ分析基盤を支えるエンジニアリング
データ分析基盤を支えるエンジニアリング
 
データプロダクト開発を成功に導くには
データプロダクト開発を成功に導くにはデータプロダクト開発を成功に導くには
データプロダクト開発を成功に導くには
 
攻めるアクセス解析〜メンテナンス屋から事業利益貢献者への変革
攻めるアクセス解析〜メンテナンス屋から事業利益貢献者への変革攻めるアクセス解析〜メンテナンス屋から事業利益貢献者への変革
攻めるアクセス解析〜メンテナンス屋から事業利益貢献者への変革
 
Uuidはどこまでuuidか試してみた
Uuidはどこまでuuidか試してみたUuidはどこまでuuidか試してみた
Uuidはどこまでuuidか試してみた
 
リクルートライフスタイル流!分析基盤との賢い付き合い方
リクルートライフスタイル流!分析基盤との賢い付き合い方リクルートライフスタイル流!分析基盤との賢い付き合い方
リクルートライフスタイル流!分析基盤との賢い付き合い方
 
RLS Meetup#7 会社紹介
RLS Meetup#7 会社紹介RLS Meetup#7 会社紹介
RLS Meetup#7 会社紹介
 
20201130 rpal tvol26
20201130 rpal tvol2620201130 rpal tvol26
20201130 rpal tvol26
 
一人三役!一気通貫でデータ活用するエンジニアリング
一人三役!一気通貫でデータ活用するエンジニアリング一人三役!一気通貫でデータ活用するエンジニアリング
一人三役!一気通貫でデータ活用するエンジニアリング
 
Machine Learning Casual Talks #4 ビッグデータチームを発足するにあたって気をつけておきたいn個のこと
Machine Learning Casual Talks #4 ビッグデータチームを発足するにあたって気をつけておきたいn個のことMachine Learning Casual Talks #4 ビッグデータチームを発足するにあたって気をつけておきたいn個のこと
Machine Learning Casual Talks #4 ビッグデータチームを発足するにあたって気をつけておきたいn個のこと
 
実務で役立つデータベースの活用法
実務で役立つデータベースの活用法実務で役立つデータベースの活用法
実務で役立つデータベースの活用法
 
Rとデータベース 第61回 Tokyo.R
Rとデータベース 第61回 Tokyo.RRとデータベース 第61回 Tokyo.R
Rとデータベース 第61回 Tokyo.R
 
チケット駆動開発導入のヒント - 自律と規律 -
チケット駆動開発導入のヒント - 自律と規律 -チケット駆動開発導入のヒント - 自律と規律 -
チケット駆動開発導入のヒント - 自律と規律 -
 
DX Suite & UiPath さっくり読み取りさっくり連携
DX Suite & UiPath さっくり読み取りさっくり連携DX Suite & UiPath さっくり読み取りさっくり連携
DX Suite & UiPath さっくり読み取りさっくり連携
 
プロダクト中心のデータ駆動を推進していくために必要なこと
プロダクト中心のデータ駆動を推進していくために必要なことプロダクト中心のデータ駆動を推進していくために必要なこと
プロダクト中心のデータ駆動を推進していくために必要なこと
 
統計を始める方へ①_データ環境Rの基本的なプログラミング|データアーティスト
統計を始める方へ①_データ環境Rの基本的なプログラミング|データアーティスト統計を始める方へ①_データ環境Rの基本的なプログラミング|データアーティスト
統計を始める方へ①_データ環境Rの基本的なプログラミング|データアーティスト
 
dplyrとは何だったのか
dplyrとは何だったのかdplyrとは何だったのか
dplyrとは何だったのか
 

Similaire à リクルートライフスタイルの売上を支える共通分析基盤

RStudioでRをはじめよう(R for Beginner using RStudio)
RStudioでRをはじめよう(R for Beginner using RStudio)RStudioでRをはじめよう(R for Beginner using RStudio)
RStudioでRをはじめよう(R for Beginner using RStudio)Takashi Minoda
 
Step functionsとaws batchでオーケストレートするイベントドリブンな機械学習基盤
Step functionsとaws batchでオーケストレートするイベントドリブンな機械学習基盤Step functionsとaws batchでオーケストレートするイベントドリブンな機械学習基盤
Step functionsとaws batchでオーケストレートするイベントドリブンな機械学習基盤Yu Yamada
 
杉並診断士会向けKintoneご紹介コンテンツr2
杉並診断士会向けKintoneご紹介コンテンツr2杉並診断士会向けKintoneご紹介コンテンツr2
杉並診断士会向けKintoneご紹介コンテンツr2junji kumooka
 
ビックデータ分析基盤の成⻑の軌跡
ビックデータ分析基盤の成⻑の軌跡ビックデータ分析基盤の成⻑の軌跡
ビックデータ分析基盤の成⻑の軌跡Recruit Lifestyle Co., Ltd.
 
CSIRT立ち上げ時の心得
CSIRT立ち上げ時の心得CSIRT立ち上げ時の心得
CSIRT立ち上げ時の心得eg819
 
データ分析基盤におけるOpsのためのDev with event driven + serverless
データ分析基盤におけるOpsのためのDev with event driven + serverlessデータ分析基盤におけるOpsのためのDev with event driven + serverless
データ分析基盤におけるOpsのためのDev with event driven + serverlessShoji Shirotori
 
データプロダクトを支えるビッグデータ基盤
データプロダクトを支えるビッグデータ基盤データプロダクトを支えるビッグデータ基盤
データプロダクトを支えるビッグデータ基盤Google Cloud Platform - Japan
 
「なりたい自分」になろう - 自分探しエンジニアの生存戦略 - インフラエンジニアのためのキャリアセミナー2018
「なりたい自分」になろう - 自分探しエンジニアの生存戦略 - インフラエンジニアのためのキャリアセミナー2018「なりたい自分」になろう - 自分探しエンジニアの生存戦略 - インフラエンジニアのためのキャリアセミナー2018
「なりたい自分」になろう - 自分探しエンジニアの生存戦略 - インフラエンジニアのためのキャリアセミナー2018Yasutaka Hamada
 
第6回 itil講義資料
第6回 itil講義資料第6回 itil講義資料
第6回 itil講義資料Mugen Fujii
 
Tokyo r80 beginnerssession1
Tokyo r80 beginnerssession1Tokyo r80 beginnerssession1
Tokyo r80 beginnerssession1kotora_0507
 
Career - design, adaption and diversity - for EMC I&D event
Career - design, adaption and diversity - for EMC I&D eventCareer - design, adaption and diversity - for EMC I&D event
Career - design, adaption and diversity - for EMC I&D eventMiya Kohno
 
Tokyo webmining発表資料 20111127
Tokyo webmining発表資料 20111127Tokyo webmining発表資料 20111127
Tokyo webmining発表資料 20111127kan_yukiko
 
Jtf2018 自律的運用に向けた第一歩
Jtf2018 自律的運用に向けた第一歩Jtf2018 自律的運用に向けた第一歩
Jtf2018 自律的運用に向けた第一歩Daisuke Ikeda
 
ビジネスインテリジェンス入門~Ossでbiを始めよう~version5(2013 tokyofall)
ビジネスインテリジェンス入門~Ossでbiを始めよう~version5(2013 tokyofall)ビジネスインテリジェンス入門~Ossでbiを始めよう~version5(2013 tokyofall)
ビジネスインテリジェンス入門~Ossでbiを始めよう~version5(2013 tokyofall)Kensuke SAEKI
 
このIRのグラフがすごい!上場企業2017
このIRのグラフがすごい!上場企業2017このIRのグラフがすごい!上場企業2017
このIRのグラフがすごい!上場企業2017itoyan110
 
管理部門の仕事をチームから組織にした話
管理部門の仕事をチームから組織にした話管理部門の仕事をチームから組織にした話
管理部門の仕事をチームから組織にした話Yukie Ozaki
 
TokyoR79 beginnerssession1
TokyoR79 beginnerssession1TokyoR79 beginnerssession1
TokyoR79 beginnerssession1kotora_0507
 
【ビズリーチ事例】Tableauの活用によるWebマーケティングデータのビジュアライズの自動化について
【ビズリーチ事例】Tableauの活用によるWebマーケティングデータのビジュアライズの自動化について【ビズリーチ事例】Tableauの活用によるWebマーケティングデータのビジュアライズの自動化について
【ビズリーチ事例】Tableauの活用によるWebマーケティングデータのビジュアライズの自動化について寛 成松
 
データサイエンスを支える基盤とそのテクノロジー@WebDBフォーラム2015 #webdbf2015
データサイエンスを支える基盤とそのテクノロジー@WebDBフォーラム2015 #webdbf2015データサイエンスを支える基盤とそのテクノロジー@WebDBフォーラム2015 #webdbf2015
データサイエンスを支える基盤とそのテクノロジー@WebDBフォーラム2015 #webdbf2015Yahoo!デベロッパーネットワーク
 
IT技術者でも1から学べるビジネスモデルキャンバス入門
IT技術者でも1から学べるビジネスモデルキャンバス入門IT技術者でも1から学べるビジネスモデルキャンバス入門
IT技術者でも1から学べるビジネスモデルキャンバス入門陽一 滝川
 

Similaire à リクルートライフスタイルの売上を支える共通分析基盤 (20)

RStudioでRをはじめよう(R for Beginner using RStudio)
RStudioでRをはじめよう(R for Beginner using RStudio)RStudioでRをはじめよう(R for Beginner using RStudio)
RStudioでRをはじめよう(R for Beginner using RStudio)
 
Step functionsとaws batchでオーケストレートするイベントドリブンな機械学習基盤
Step functionsとaws batchでオーケストレートするイベントドリブンな機械学習基盤Step functionsとaws batchでオーケストレートするイベントドリブンな機械学習基盤
Step functionsとaws batchでオーケストレートするイベントドリブンな機械学習基盤
 
杉並診断士会向けKintoneご紹介コンテンツr2
杉並診断士会向けKintoneご紹介コンテンツr2杉並診断士会向けKintoneご紹介コンテンツr2
杉並診断士会向けKintoneご紹介コンテンツr2
 
ビックデータ分析基盤の成⻑の軌跡
ビックデータ分析基盤の成⻑の軌跡ビックデータ分析基盤の成⻑の軌跡
ビックデータ分析基盤の成⻑の軌跡
 
CSIRT立ち上げ時の心得
CSIRT立ち上げ時の心得CSIRT立ち上げ時の心得
CSIRT立ち上げ時の心得
 
データ分析基盤におけるOpsのためのDev with event driven + serverless
データ分析基盤におけるOpsのためのDev with event driven + serverlessデータ分析基盤におけるOpsのためのDev with event driven + serverless
データ分析基盤におけるOpsのためのDev with event driven + serverless
 
データプロダクトを支えるビッグデータ基盤
データプロダクトを支えるビッグデータ基盤データプロダクトを支えるビッグデータ基盤
データプロダクトを支えるビッグデータ基盤
 
「なりたい自分」になろう - 自分探しエンジニアの生存戦略 - インフラエンジニアのためのキャリアセミナー2018
「なりたい自分」になろう - 自分探しエンジニアの生存戦略 - インフラエンジニアのためのキャリアセミナー2018「なりたい自分」になろう - 自分探しエンジニアの生存戦略 - インフラエンジニアのためのキャリアセミナー2018
「なりたい自分」になろう - 自分探しエンジニアの生存戦略 - インフラエンジニアのためのキャリアセミナー2018
 
第6回 itil講義資料
第6回 itil講義資料第6回 itil講義資料
第6回 itil講義資料
 
Tokyo r80 beginnerssession1
Tokyo r80 beginnerssession1Tokyo r80 beginnerssession1
Tokyo r80 beginnerssession1
 
Career - design, adaption and diversity - for EMC I&D event
Career - design, adaption and diversity - for EMC I&D eventCareer - design, adaption and diversity - for EMC I&D event
Career - design, adaption and diversity - for EMC I&D event
 
Tokyo webmining発表資料 20111127
Tokyo webmining発表資料 20111127Tokyo webmining発表資料 20111127
Tokyo webmining発表資料 20111127
 
Jtf2018 自律的運用に向けた第一歩
Jtf2018 自律的運用に向けた第一歩Jtf2018 自律的運用に向けた第一歩
Jtf2018 自律的運用に向けた第一歩
 
ビジネスインテリジェンス入門~Ossでbiを始めよう~version5(2013 tokyofall)
ビジネスインテリジェンス入門~Ossでbiを始めよう~version5(2013 tokyofall)ビジネスインテリジェンス入門~Ossでbiを始めよう~version5(2013 tokyofall)
ビジネスインテリジェンス入門~Ossでbiを始めよう~version5(2013 tokyofall)
 
このIRのグラフがすごい!上場企業2017
このIRのグラフがすごい!上場企業2017このIRのグラフがすごい!上場企業2017
このIRのグラフがすごい!上場企業2017
 
管理部門の仕事をチームから組織にした話
管理部門の仕事をチームから組織にした話管理部門の仕事をチームから組織にした話
管理部門の仕事をチームから組織にした話
 
TokyoR79 beginnerssession1
TokyoR79 beginnerssession1TokyoR79 beginnerssession1
TokyoR79 beginnerssession1
 
【ビズリーチ事例】Tableauの活用によるWebマーケティングデータのビジュアライズの自動化について
【ビズリーチ事例】Tableauの活用によるWebマーケティングデータのビジュアライズの自動化について【ビズリーチ事例】Tableauの活用によるWebマーケティングデータのビジュアライズの自動化について
【ビズリーチ事例】Tableauの活用によるWebマーケティングデータのビジュアライズの自動化について
 
データサイエンスを支える基盤とそのテクノロジー@WebDBフォーラム2015 #webdbf2015
データサイエンスを支える基盤とそのテクノロジー@WebDBフォーラム2015 #webdbf2015データサイエンスを支える基盤とそのテクノロジー@WebDBフォーラム2015 #webdbf2015
データサイエンスを支える基盤とそのテクノロジー@WebDBフォーラム2015 #webdbf2015
 
IT技術者でも1から学べるビジネスモデルキャンバス入門
IT技術者でも1から学べるビジネスモデルキャンバス入門IT技術者でも1から学べるビジネスモデルキャンバス入門
IT技術者でも1から学べるビジネスモデルキャンバス入門
 

Dernier

AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdfAWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdfFumieNakayama
 
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)UEHARA, Tetsutaro
 
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...博三 太田
 
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案sugiuralab
 
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?akihisamiyanaga1
 
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineerYuki Kikuchi
 
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdfクラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdfFumieNakayama
 
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)NTT DATA Technology & Innovation
 
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)Hiroshi Tomioka
 

Dernier (9)

AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdfAWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
 
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
 
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
 
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
 
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
 
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
 
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdfクラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
 
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
 
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
 

リクルートライフスタイルの売上を支える共通分析基盤

Notes de l'éditeur

  1. 弊社の特徴として、エンジニアがビジネスのとても近くにいるというのがあります。 図のようにエンジニアの役割は技術によってビジネスをドライブさせることになります。 エンジニアからビジネス側へ提案することが多くある。 あとは、毎年エンジニアがビジネスプランを発表するコンテストもありますし、技術とビジネス両方学べる良い環境だと思います。 リクルートライフスタイルとエンジニアが結びつかない人も多数いるとは思いますが、技術でビジネスをドライブしてる実績が認められ最近はエンジニアを増やすことに注力しています。
  2. ユーザが使い易い基盤を作らないと、あそこ使いにくいから独自で作ろうという子になり、同じような基盤が社内でいっぱいできたりする
  3. ETLフレームワークを独自実装
  4. 様々な部署からの要望に応えられるよう構築
  5. 様々な部署からの要望に応えられるよう構築
  6. 様々な部署からの要望に応えられるよう構築
  7. 様々な部署からの要望に応えられるよう構築
  8. 様々な部署からの要望に応えられるよう構築
  9. まず、データハブ基盤です。 オンプレミス環境にあるデータはFluentdを介してAWSクラウド上に送られます。 Fluentdから送られたデータはKafkaに保存され、ここがデータハブとして機能しています。 Kafka 0.8 SSL対応してないため、publisherとaggrigator用意 今後は0.9を使ってsslで通信
  10. 次にKafkaに保存されたデータを、Spark Streamingが取り出し、データを加工・集計します。 ここがストリーム処理基盤として機能しています。
  11. Spark-Streamingが加工・集計したデータは、DynamoDBに保存され、Key-Valueの形で保存されます。 エンドユーザーとなるデータ利用者は、APIゲートウェイ・Lambdaを介して取得することで リクエストに対するキャパシティを担保した状態でデータを提供することが可能となります。
  12. でも最強ではないですね。最強ってのは誰にも負けない状態ですから。
  13. 特にビックデータのエンジニアだといろんな知識が必要なので、T字は理想に見える
  14. 特にビックデータのエンジニアだといろんな知識が必要なので、T字は理想に見える
  15. こんな形になると最強に近づけるのでは
  16. こんな形になると最強に近づけるのでは