SlideShare une entreprise Scribd logo
1  sur  72
Télécharger pour lire hors ligne
Struggling with BIGDATA
-リクルートおけるデータサイエンス/エンジニアリング-
株式会社リクルートテクノロジーズ
ITソリューション統括部 ビッグデータ部
2Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
趣味etc
学歴
略歴
所属
氏名
RTC ITソリューション統括部
ビッグデータ部 IT-EXE
西郷 彰
大阪大学工学部
筑波大学大学院ビジネス科学研究科(MBA)
2009年リクルート中途入社。
じゃらん、ポンパレなどのCRMやレコメンドのプ
ロジェクトを推進。BD専門組織の立上げを経て、
現在、BD部IDP領域Gのマネージャー兼RHD_IDP
戦略企画統括データ解析Gを担当。
スノーボード(インストラクター資格有)
-子育てが忙しくめっきり行けなくなりました
自己紹介
3Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
1
2 ビッグデータ部とビッグデータを取り巻く環境
3
4
5
データ活用事例紹介
新技術検証 R&D
全社データ基盤
アジェンダ
仕事内容のイメージ
6
リクルートグループについて
まとめと今後7
4Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
リクルートグループについて
5Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
リクルートのビジネスモデル
さまざまなドメインでマッチングモデルに基づいたビジネスを展開。
Matching
Business
HR
Bridal
Group
Buying
Used
Cars
Travel
Real
Estate
Beauty Gourmet
Social Games
E-Commerce
Ad Network
New Business
Consumers Enterprise
6Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
リクルートの事業領域
「選択」をサポートするような情報サービスを展開
Life event area Lifestyle Area
Travel
IT/ TrendLifestyle
Health & Beauty
Job Hunt
Marriage
Job Change
Home Purchase
Car Purchase
Child Birth
Education
7Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
ビッグデータ部と
ビッグデータを取り巻く環境
8Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
Infrastructure
/Security
Project
Management
UXD/SEO
Internet Marketing
Big Data Solutions
Technology R&D
Systems
Development
リクルートテクノロジーズの立ち位置
リクルートホールディングスは7つの主要事業会社と3つの機能会社から成り立っている。
Recruit
Holdings
Recruit Career
Recruit Sumai Company
Recruit Lifestyle
Recruit Jobs
Recruit Staffing
Recruit Marketing Partners
Staff service Holdings
Recruit Technologies
Recruit Administration
Recruit Communications
Business/
Service
Function/
Support
9Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
数値で見るデータ解析案件状況
約200 データ解析案件数(年間)
ビッグデータ部の案件従事人数 約250
10Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
ビッグデータ部で扱うデータ
事業のトランザクションや
マスタデータを用いた解析
※ 主にオンプレ
非構造データを用いた
Deep Learningなどの解析
※ 主にパブリッククラウド
11Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
ビッグデータ解析部門の組織体制
ITソリューション統括部
ビッグデータビジネス
コンサルティング
グループ
ビッグデータ人材領域
グループ
ビッグデータ販促・
バイト領域グループ
ソリューションを
軸とした予測、BI、
競合分析
人材領域を軸とした
各種レコメンド等の
開発・分析
販促・バイトを軸と
した各種レコメンド
等の開発・分析
ビッグデータID・
ポイント領域グループ
IDポイントを軸とし
た各種レコメンドの
開発・分析
ビッグデータプロダ
クト開発グループ
ビッグデータインフ
ラグループ
IDポイントビッグ
データシステムグ
ループ
ソリューションを
軸とした各種&D系
プロダクトの開発
ビックデータ基盤
の構築・運用
ビックデータ部
IDポイントPRJの
基盤の構築・運用
・・・
12Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
仕事内容のイメージ
13Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
事業の参謀としての役割
・MP
・事業企画
・営業
・BDGメンバー
提案
相談
事業のみなさんと協働しデータ解析を行う。
こちらから技術ベースの提案を行ったり、相談を受けたりする。
14Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
リクルートにおけるR&Dの考え方
R-Stage Dev-Stage β-Stage 運用-Stage
技術要素調査
技術の実態を
把握する
効果的な仕組み
としてプレ実装
活用方法をさらに
開拓
正式にフィジビ
リティスタディと
して推進~展
開をする
実運用へ
Gate Review
15Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
データ利活用案件紹介
16Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
紹介案件
画像解析クロスユース施策
 ネイルデザイン判定 アイテムレコメンド
転職支援
 マッチング&AI
17Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
2016年6月7日 日経産業新聞
リクルートの主力領域で人工知能が求職をサポート
18Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
サイト間クロスユースレコメンド
 リクルートポイントからホットペッパーグルメのほか、じゃらん、ホットペッパービューティ、カーセン
サーなどからポンパレモールへのクロスユースレコメンドを展開。
 リクルート全社でのクロスユースレコメンドを推進している。
19Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
ホットペッパービューティ ネイル判別実装
似ているデザインから探す
カラーから探す
39色から選択可能
似ている画像を表示
New①
New②
New① New②
20Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
新技術検証 R&D
21Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
ビッグデータの概念
Volume
データ量
データの多様性
Variety
Velocity
データの発生頻度
ビッグデータの定義で示されるデータの多様性に注目。
22Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
非構造データに注目
情報誌やフリーペーパーといった紙媒体が多く存在していたという経緯もあって、いまだ内部に画
像、テキスト、動画などのさまざまな非構造データが存在する。
テキスト 画像
23Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
多様化するデータ解析
利益貢献 コスト削減
レコメンデーション 帳票レポート
指標・目的
 CVR最大化
 CPA最適化
指標・目的
 最適化
 次期戦略策定
指標・目的
 無駄の排除
 工数削減
 人はよりクリエイティブに
作業代替・支援
(AI領域)
非構造データは、機械的解釈のむずかしさから人の手でその解釈が行われてきた。
テキストや画像などから特徴抽出をするための手法が数多く、オープンソース化され
機械で扱えるようになってきた昨今、レコメンド、帳票以外に「人の作業代替」という新たなジャン
ルのデータ解析ソリューションが増えつつある。
24Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
API化による効率化
リクルート内多様なサービス
モデル化
API
API
API
モデル・技術共有
コール
再学習
25Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
R&D取組紹介
A3RTシリーズ
26Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
A3RTサービスリスト(一部)
レコメンド
バナー
ターゲティング
OCR
画像解析
原稿サジェスト
文章校閲
文章要約
文章分類
音声テキスト化
屋内位置測位
27Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
背景
 リクルートにおいて広告主であるクライアント原稿の品質担保は大事な要素である
 現在、多くの人件費をかけて「人手で」校閲作業を行っている。
 一方で、校閲作業は人のナレッジや感覚に左右され、品質が一定ではないばかりか、すべての
原稿を人手でチェックすることは労力的には難しい状況である。
この校閲作業を機械で一部代替できないかという取組を開始している。
28Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
プロダクト開発状況
 一部の事業と協力して検証を開始している。
 はじめはルールベースのものから実装し、機械学習による分類やDeep Learningを用いた誤
字脱字チェックなど実装難易度をあげていくという進め方。
 100%人の代替は不能ということをきちんと事業と認識しながら進めている。要はその人の作
業をリプレイスする意味合いであり、その人自身の作業も100%の精度ではできていないこと
を自覚する必要がある。
29Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
DeepLearningによる誤字脱字チェック
 原稿データを学習させたモデルに文章を読み込ませ、その系列のなかで特定の単語が出現す
る確率を算出。確率が閾値より低い場合はアラートをあげ、代わりに確率の高い単語をサ
ジェストする機能を開発。
30Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
ArGonのデモ
31Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
A3RTサービスリスト(一部)
レコメンド
バナー
ターゲティング
OCR
画像解析
原稿サジェスト
文章校閲
文章要約
文章分類
音声テキスト化
屋内位置測位
32Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
車種判別機能:背景
近年?? 若者が車に詳しくない!!
かっちょえええええ
かわええええええ
名前わかんね
凄く大きな機会損失
33Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
車種判別機能とは
カーセンサーのアプリの機能で、
車の写真を撮ってアップすると、似た車種名と一致率のTOP5が分かる。
そして、そのままその車種の検索結果一覧へと遷移できる。
34Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
車種判別フロー概要
…
…
…
CNNで作成した
車種判別モデル
車の写真
2674車種
・オデッセイ
・エスティマ
・CRV
・MPV
・
・
・
・
・
・フェラーリ
車種精度
68.2%
35Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
学習データの作成に工夫
外装
ラベル名 画像例
内装
トランク
ダッシュ
ボード
その他
学習枚数
約3500枚
約2000枚
約1000枚
約1000枚
約2500枚
カーセンサーの物件画像を
内装/外装/トランク/ダッシュボード
/その他に分類するモデルを作成。
これにカーセンサーの約37万物件
の画像を全て投入
外装と判別された約80万枚を
そのまま学習に利用
結果、2674車種という、
これまでにない多種な分類でも
70%弱の精度を叩き出せた
36Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
学習データの作成に工夫
ただし「流通量が多い車種=学習画像が多い車種=精度が高い車種」
となり、掲載数の多い上位500車種では平均92.4%の精度を出すが
掲載数の少ない下位の車種では、精度が一桁を切ることもある状態。
そこで利用者に正解しているかを
フードバックしてもらう機能を実装。
これで「正しい」を選んでくれたら、
その画像を追加で学習すれば良い!
# 現在は、本機能が本当に正しい時に押
されるかなどを検証中。
37Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
Twitterでバズりました!
プレスリリースを10/26に実施。
10/26中にTwitterで「#カーセンサーチャレンジ」
というハッシュタグが作成され、最高風速で
分間4ツイートくらいされてました。(肌感)
一時、appleのトレンド検索に「ポケモンgoマップ」などと並
んで「カーセンサー」が!!!
ありがたいことにたくさんの人に利用してもらえました!
38Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
2ヶ月前
モデル作成
3週間
2年前
モデル作成
3ヶ月
紹介した案件はモデル作成時間が大きく違う
2年という歳月におけるノウハウの蓄積の差もあるものの
CNNでのモデル構築を効率的にする周辺技術の存在が大きい
ネイルでの学びから、周辺技術を作成していきました。
39Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
ネイル時に立ちふさがった大きな壁
①判別モデルを作りたいけど都合良く
学習データがない・・・
②学習始めたけどパラメータが
多すぎて最適解がわからん・・・
40Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
困難① 学習データがない
爪デザイン当て 初めはクライアントが入稿するときに付与するタグを利用。
例えば、左の例では、「ドット(水玉)」が付与。
これを学習用のデータとして使用した結果、
驚愕の精度18%!?(ランダムでも5%の精度)
そもそも、リボンも映っているし、ワンカラー(何も柄なし)も映っている。
これが「ドット」で良いのか??
人によってデザインとして付与するタグが異なるのでは・・・・
なら、誰もが同じタグになるようにしてあげれば良い!
CNN使えないじゃないか・・・
発想を変える。
41Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
ただし、僕らの部署はIT系の業務をやる部署。
ネイルなんて分からない男性が多い中、必死にネイルの知識を付ける。
:マーブル
:ピーコック
:プッチ
副産物として
合コンで相手の手を見て、「ダブルフレンチ
か・・・」と呟く、気持ち悪い男性(私)の
出来上がり。
せんせー
ピーコックとマーブルとプッチの
違いがわかりませーん!
このようなやりとりを通し、まず主要メンバがネイル
判別のセミプロになり、徐々に作業メンバもセミプ
ロになってしまった。
約20人で合計4万枚もの爪画像に、正解タグを
振る。
結果、ある程度誰が見ても納得できる正解データ
が作成できた。
困難① 学習データがない
42Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
VATを用いた半教師有り学習
• VATを用いた半教師有り学習
• 半教師有り学習:少量の教師付きデータと大量の教師なしデータを用い
て、比較的高精度のモデル作成する手法。
• ICLR2016の採択論文の手法を試す。
mnist[0~9の手書きデータ]を利用し、
以下を検証。
教師有りを600枚使っただけで、
60000枚全て利用した時とほぼ同等の
精度が得られた。
学習利用枚数
誤
差
率
(%)
=大量の画像全てに正解ラベルを付与しなくても良い。
→学習データの収集コストが大幅に下がることが期待できる。
・60000万枚の画像を学習に使った精度
・各枚数を学習に利用した時の精度
・各枚数を教師有り、残りを教師なしと
して学習した精度
43Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
全社データ基盤
44Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
リクルートID
45Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
サービスA
事業DB
アクセス
ログ
サービスB
事業DB
アクセス
ログ
サービスC
事業DB
アクセス
ログ
データソース データ格納 演算処理・活用 利用者
Hadoop
エコシステム全社DWH
中央Hadoop
• モニタリング
• レポート
• モデル作成
• データ収集
• 整形・加工
• データストレージ
• 高速分析処理
サービスA
担当
サービスB
担当
リクルートID
担当
サービスC
担当
リクルート統合データ分析基盤
クエリ発行/月
• 膨大なデータを使ったデータ活用業務全般
• レポート/モニタリング、レコメンド、DMP、etc
46Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
最初に苦労したこと、「データ理解」
データ意味情報(メタデータ)の問い合わせに忙殺される。
会員情報はどこにある!?
XXの意味を教えてください!
利用者
テーブル定義書(ファイル)
DWH
Select * from XX limit 100
Select * from YY limit 100
Select * from ZZ limit 100
・・・
開発者
システム管理者
分からないです…
“平均的なビジネスマンは、探し物のためだけに、1年間で約150時間を費やしている”
利用者がわかる形で回答
×
データの質・量の増加
利用者の増加
47Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
メタデータ管理Web
データ意味情報(メタデータ)を機械化するためのシステムを作成
48Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
意味検索によるユーザビリティ改善
Library
A → Z
Discovery
Search Engine
49Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
設計情報→Knowledge共有+SQL_Analysis
ER図表示
analysis
SQLを解析し、設計情報に出てこないDB
を跨いだテーブル間の関係性も可視化
関連の強い順に表示
50Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
ココに来れば必要な情報があるという状態を作り出し、分析担当者のデータ
特定に至る時間やシステム担当者の負担を軽減させる。
 探す手間が省ける
 ナレッジが共有される
利用者
テーブル定義書(ファイル)
システム管理者
探す
メタデータ管理Web
DWH
システム管理者
 問合せが減る!
 潜在的なニーズを拾える!
 問合せが減る!
 自分のDBの最新情報が把握できる!
開発者
自動
自動
自動
年間75人月超の工数削減効果
(20分/セッションの工数削減効果)
+
問合せを受けるシステム管理者の工数削減
メタデータ管理Webで実現した世界
51Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
横断データ活用:フェーズにおける課題
• ID基盤が整いデータが増加し、我々は成長期の真っ只中
• 爆発的な成長を目指すが・・・技術的負債が顕在化
51
黎明期 成長期
52Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
黎明期:
• 各サービスから各種データを収集、DWH/Datalakeに蓄積し活用
• サイト毎の仕様差異の吸収 個人情報のマスキング 重複や欠損のクリーニング…
• 横断データ活用への最初の要求は、経営陣からの「経営指標」の集計
• 日次/月次実行する”資産”となり、加速度的に増加
• DMTを機械学習の学習データとして転用
• 次々と機械学習アルゴリズムを変えるため、データ間の依存度が加速
• システムが一旦出来上がるが・・・
DWH
横断データ
活用施策
53Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
黎明期:システム運用
DWH MLlibDWH
0001
0002
0003
0004
Change
prediction
corrupt
Change Change
more
users
Bigger
DMT
more
data
source
We changed
log spec!
bug
Mis
match
Mis
match
rerun!
more
work
54Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
考察:なぜ仕事が増えるのか
最初はシンプルな業務フローを考えるが、業務は複雑化して増えていくもの
DWH DMT APP
開発業務の増加
・クエリ複雑化
・依存性複雑化
・再発明
・リカバリ
・仕様変更対応
運用業務の増加
・Hadoop等バグ調査
・繁忙期データ負荷対応
・リソース不足
・データ転送
待ちの増加
・機械学習用DMT開発
における低再利用性
・DMT処理時間待ち
・アルゴリズム変更に伴う
入力仕様変更
55Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
技術的負債の溜まり場
黎明期に描かれた古典モデルの破綻
昔から言われていることでも有る、データマネジメント業務の不・課題
DWH
DMT APP
どうしてもココに課題が貯
まっちゃうんですよね・・・
56Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
フレームワークプロジェクト(var/log)
• 技術的負債を徹底的に排除するためのコードベース(jar)
Integrate
software
resources &
unlock
their full
potential
“Absolute DRY”
common process
auto generated
DSL for
processing
typically
structured
data of Recruit
Codebas
e
57Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
DRY(Don’t repeat yourself)
もっとも大切な要素として、コードの再利用
コンポーネント + コード生成
補完前
Loading
Mahout
Saving
xml 補完後
Recommend
User (Int)
Item (Int)
Dictionary
UserId (Int)
User (String)
Dictionary
ItemId(Int)
Item(String)
Input
UserId (Int)
ItemId(Int)
Loading
Mahout
Saving
Indexing
Format
58Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
Simple
• DASE ”MVC for Data Science”
• それ以外は極力隠蔽 <data/> <algorithm/> <serving/> <evaluation/>
xml .Jar
Loading
Query
Query
RDD
+Scala
Jar内部で判定
• 次のAlgorithmは何?
• データ量はどのくらい?
• 過去の判定結果は?
MR
Parallel
Query
Hdfs+
External
59Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
プロジェクト完了!?
• 半年後、var/logは完成し、最初のvar/logジョブがリリース!
• その後、新規ジョブはvar/log上に実装されるようになった。
• 半年後var/logは完成し、運用に乗ったが、2通りの社内顧客
が見えてきた。
Business Engineer
Scientist Engineer
1.[High-end Customers]
ニーズ : 速度・定常運用・生産性
2.[Early Adopters]
ニーズ : 最新論文・実験・Lean
コードは使い捨て
データがあり
動けばいい
60Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
Move onto Agility
DWH DMT APP
DWH DMT Produ
ction
pub
sub
Sand
box
Business
Engineer
Scientist
Everyone
黎明期
成長期
61Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
Early Adopter向け機能とは何か
ニーズ:さあ、実験をしよう。
秒単位の応答性能
その場の思いつきを実データに適用
新しいライブラリ・・・
新しい特徴量・・・
新しい数式・・・
新しい自作関数・・・
そして、、、 そのままリリース
→ jar + xml configuration ではない
62Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
import varlog.jar on Zeppelin
.Jar
その場で作った
自作関数(動作確認後varlog.jarにコミット)
データ抜きだし・加工
63Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
Workflow Change : Happy Analytics
• Before:
• After:
.Jar
Scientist
Scientist
HBase Hive Oracle
sqoop
“accessible data”
• 実験
• 生産性
• 共同作業
• 即時性/インタラクティブ性
Java
・・・
64Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
我々が今目指している環境について
Analysis Ops
Engineering
Study
Idea
try
Scientist
65Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
DevOps for BIGDATA全体像
バージョン管理
チケット管理 メトリクス可視化
開発環境
Biz
必要に応じて相互に
開発協力。
Ops
Dev
本番環境構成管理
CI / CD
サンドボックス環境
66Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
DevOps for BD 独自の取組紹介
• ベンダー製ジョブ管理ツールの可視化
ジョブ可視化ツール データフロー可視化ツール
ジョブおよびデータフローがリアルタイムに可視化されたことで、
障害検知および対応が高速化に寄与
内製開発ツール
67Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
文化面での取組
• カイゼントレーニング
• 組織メンバー全員参加での集合研修
• 目的
• 自分たちの提供しているサービスの価値をあげるために、
• 改善のやり方を学ぶ
• コミュニケーションの仕方を学ぶ
• 実際にいまのプロセスを見える化し、全員で現状の共通認識や
課題を明らかにする
バリューストリームマップを作成し、業務にお
けるボトルネックを全員で切り分けている様子
68Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
文化面での取組
• Mob Programming
• チーム全体が同じことを、同じ時に、同じ場所で、同じコンピュータ上
で作業するソフトウェア開発アプローチ
• 目的
• 全員が同一作業を行うことによるコンフリクトの解消と、黒魔術
的な個人ナレッジの共有を図る。
毎週金曜に2時間、全員で同一作業を行う時間
を設定し、ワイガヤをあえて演出
69Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
まとめ
70Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
データ活用における大きな変化と今後
?
?分析→CV改善施策
ディスプレイ
API
レコメンド API
アドホックな分析
71Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
Web企業におけるデータ活用の本命は?
No single standard
それくらい多様化、常に進化。
より新しいことをフロンティアしていかないといけない、自ら。
クライアント
BtoB 分析
OtoO
リアル情報解析
超大規模データ
活用
非構造
/Deeplearning
ご静聴ありがとうございました
リクルートテクノロジーズ
Now, We Are Hiring!
自ら高い山を設定し、ビジネス活用にコミットし
た分析・エンジニアリングにチャレンジできる方。
ぜひご連絡ください。

Contenu connexe

Tendances

リクルートにおけるデータのインフラ化への取組
リクルートにおけるデータのインフラ化への取組リクルートにおけるデータのインフラ化への取組
リクルートにおけるデータのインフラ化への取組Recruit Technologies
 
A3RT -The details and actual use cases of“Analytics & Artificial intelligence...
A3RT -The details and actual use cases of“Analytics & Artificial intelligence...A3RT -The details and actual use cases of“Analytics & Artificial intelligence...
A3RT -The details and actual use cases of“Analytics & Artificial intelligence...Recruit Technologies
 
[Developers Summit 2015 講演資料] リクルートテクノロジーズ 14,000件/秒の配信を実現した リクルートのモバイルアプリを支え...
[Developers Summit 2015 講演資料] リクルートテクノロジーズ 14,000件/秒の配信を実現した リクルートのモバイルアプリを支え...[Developers Summit 2015 講演資料] リクルートテクノロジーズ 14,000件/秒の配信を実現した リクルートのモバイルアプリを支え...
[Developers Summit 2015 講演資料] リクルートテクノロジーズ 14,000件/秒の配信を実現した リクルートのモバイルアプリを支え...Recruit Technologies
 
リクルートにおけるマルチモーダル Deep Learning Web API 開発事例
リクルートにおけるマルチモーダル Deep Learning Web API 開発事例リクルートにおけるマルチモーダル Deep Learning Web API 開発事例
リクルートにおけるマルチモーダル Deep Learning Web API 開発事例Recruit Technologies
 
リクルートテクノロジーズが語る 企業における、「AI/ディープラーニング」活用のリアル
リクルートテクノロジーズが語る 企業における、「AI/ディープラーニング」活用のリアルリクルートテクノロジーズが語る 企業における、「AI/ディープラーニング」活用のリアル
リクルートテクノロジーズが語る 企業における、「AI/ディープラーニング」活用のリアルRecruit Technologies
 
リクルートのWebサービスを支える「RAFTEL」
リクルートのWebサービスを支える「RAFTEL」リクルートのWebサービスを支える「RAFTEL」
リクルートのWebサービスを支える「RAFTEL」Recruit Technologies
 
リクルート式 自然言語処理技術の適応事例紹介
リクルート式 自然言語処理技術の適応事例紹介リクルート式 自然言語処理技術の適応事例紹介
リクルート式 自然言語処理技術の適応事例紹介Recruit Technologies
 
A3RT - the details and actual use cases of "Analytics & Artificial intelligen...
A3RT - the details and actual use cases of "Analytics & Artificial intelligen...A3RT - the details and actual use cases of "Analytics & Artificial intelligen...
A3RT - the details and actual use cases of "Analytics & Artificial intelligen...DataWorks Summit/Hadoop Summit
 
UXDの職能要件とキャリアパスについて
UXDの職能要件とキャリアパスについてUXDの職能要件とキャリアパスについて
UXDの職能要件とキャリアパスについてRecruit Technologies
 
ユーザー企業内製CSIRTにおける対応のポイント
ユーザー企業内製CSIRTにおける対応のポイントユーザー企業内製CSIRTにおける対応のポイント
ユーザー企業内製CSIRTにおける対応のポイントRecruit Technologies
 
リクルート式ビッグデータ活用術
リクルート式ビッグデータ活用術リクルート式ビッグデータ活用術
リクルート式ビッグデータ活用術Recruit Technologies
 
R-tech BDGにおける自然言語処理活動
R-tech BDGにおける自然言語処理活動R-tech BDGにおける自然言語処理活動
R-tech BDGにおける自然言語処理活動Recruit Technologies
 
運用で泣かないアーキテクチャで動く原稿作成支援システム ~リクルートにおけるDeepLearning活用事例~
運用で泣かないアーキテクチャで動く原稿作成支援システム ~リクルートにおけるDeepLearning活用事例~運用で泣かないアーキテクチャで動く原稿作成支援システム ~リクルートにおけるDeepLearning活用事例~
運用で泣かないアーキテクチャで動く原稿作成支援システム ~リクルートにおけるDeepLearning活用事例~Recruit Technologies
 
JJUG CCC リクルートの Java に対する取り組み
JJUG CCC リクルートの Java に対する取り組みJJUG CCC リクルートの Java に対する取り組み
JJUG CCC リクルートの Java に対する取り組みRecruit Technologies
 
ユーザー企業内製CSIRTにおける対応のポイント
ユーザー企業内製CSIRTにおける対応のポイントユーザー企業内製CSIRTにおける対応のポイント
ユーザー企業内製CSIRTにおける対応のポイントRecruit Technologies
 
Case study of DevOps for Hadoop in Recruit.
Case study of DevOps for Hadoop in Recruit.Case study of DevOps for Hadoop in Recruit.
Case study of DevOps for Hadoop in Recruit.Recruit Technologies
 
Struggle against cross-domain data complexity in Recruit group
Struggle against cross-domain data complexity in Recruit groupStruggle against cross-domain data complexity in Recruit group
Struggle against cross-domain data complexity in Recruit groupRecruit Technologies
 
Rancherを活用した開発事例の紹介 ~Rancherのメリットと辛いところ~
Rancherを活用した開発事例の紹介 ~Rancherのメリットと辛いところ~Rancherを活用した開発事例の紹介 ~Rancherのメリットと辛いところ~
Rancherを活用した開発事例の紹介 ~Rancherのメリットと辛いところ~Recruit Technologies
 
リクルートにおける画像解析事例紹介と周辺技術紹介
リクルートにおける画像解析事例紹介と周辺技術紹介リクルートにおける画像解析事例紹介と周辺技術紹介
リクルートにおける画像解析事例紹介と周辺技術紹介Recruit Technologies
 

Tendances (20)

リクルートにおけるデータのインフラ化への取組
リクルートにおけるデータのインフラ化への取組リクルートにおけるデータのインフラ化への取組
リクルートにおけるデータのインフラ化への取組
 
A3RT -The details and actual use cases of“Analytics & Artificial intelligence...
A3RT -The details and actual use cases of“Analytics & Artificial intelligence...A3RT -The details and actual use cases of“Analytics & Artificial intelligence...
A3RT -The details and actual use cases of“Analytics & Artificial intelligence...
 
[Developers Summit 2015 講演資料] リクルートテクノロジーズ 14,000件/秒の配信を実現した リクルートのモバイルアプリを支え...
[Developers Summit 2015 講演資料] リクルートテクノロジーズ 14,000件/秒の配信を実現した リクルートのモバイルアプリを支え...[Developers Summit 2015 講演資料] リクルートテクノロジーズ 14,000件/秒の配信を実現した リクルートのモバイルアプリを支え...
[Developers Summit 2015 講演資料] リクルートテクノロジーズ 14,000件/秒の配信を実現した リクルートのモバイルアプリを支え...
 
リクルートにおけるマルチモーダル Deep Learning Web API 開発事例
リクルートにおけるマルチモーダル Deep Learning Web API 開発事例リクルートにおけるマルチモーダル Deep Learning Web API 開発事例
リクルートにおけるマルチモーダル Deep Learning Web API 開発事例
 
リクルートテクノロジーズが語る 企業における、「AI/ディープラーニング」活用のリアル
リクルートテクノロジーズが語る 企業における、「AI/ディープラーニング」活用のリアルリクルートテクノロジーズが語る 企業における、「AI/ディープラーニング」活用のリアル
リクルートテクノロジーズが語る 企業における、「AI/ディープラーニング」活用のリアル
 
リクルートのWebサービスを支える「RAFTEL」
リクルートのWebサービスを支える「RAFTEL」リクルートのWebサービスを支える「RAFTEL」
リクルートのWebサービスを支える「RAFTEL」
 
リクルート式 自然言語処理技術の適応事例紹介
リクルート式 自然言語処理技術の適応事例紹介リクルート式 自然言語処理技術の適応事例紹介
リクルート式 自然言語処理技術の適応事例紹介
 
A3RT - the details and actual use cases of "Analytics & Artificial intelligen...
A3RT - the details and actual use cases of "Analytics & Artificial intelligen...A3RT - the details and actual use cases of "Analytics & Artificial intelligen...
A3RT - the details and actual use cases of "Analytics & Artificial intelligen...
 
UXDの職能要件とキャリアパスについて
UXDの職能要件とキャリアパスについてUXDの職能要件とキャリアパスについて
UXDの職能要件とキャリアパスについて
 
ユーザー企業内製CSIRTにおける対応のポイント
ユーザー企業内製CSIRTにおける対応のポイントユーザー企業内製CSIRTにおける対応のポイント
ユーザー企業内製CSIRTにおける対応のポイント
 
リクルート式ビッグデータ活用術
リクルート式ビッグデータ活用術リクルート式ビッグデータ活用術
リクルート式ビッグデータ活用術
 
R-tech BDGにおける自然言語処理活動
R-tech BDGにおける自然言語処理活動R-tech BDGにおける自然言語処理活動
R-tech BDGにおける自然言語処理活動
 
運用で泣かないアーキテクチャで動く原稿作成支援システム ~リクルートにおけるDeepLearning活用事例~
運用で泣かないアーキテクチャで動く原稿作成支援システム ~リクルートにおけるDeepLearning活用事例~運用で泣かないアーキテクチャで動く原稿作成支援システム ~リクルートにおけるDeepLearning活用事例~
運用で泣かないアーキテクチャで動く原稿作成支援システム ~リクルートにおけるDeepLearning活用事例~
 
20150625 cloudera
20150625 cloudera20150625 cloudera
20150625 cloudera
 
JJUG CCC リクルートの Java に対する取り組み
JJUG CCC リクルートの Java に対する取り組みJJUG CCC リクルートの Java に対する取り組み
JJUG CCC リクルートの Java に対する取り組み
 
ユーザー企業内製CSIRTにおける対応のポイント
ユーザー企業内製CSIRTにおける対応のポイントユーザー企業内製CSIRTにおける対応のポイント
ユーザー企業内製CSIRTにおける対応のポイント
 
Case study of DevOps for Hadoop in Recruit.
Case study of DevOps for Hadoop in Recruit.Case study of DevOps for Hadoop in Recruit.
Case study of DevOps for Hadoop in Recruit.
 
Struggle against cross-domain data complexity in Recruit group
Struggle against cross-domain data complexity in Recruit groupStruggle against cross-domain data complexity in Recruit group
Struggle against cross-domain data complexity in Recruit group
 
Rancherを活用した開発事例の紹介 ~Rancherのメリットと辛いところ~
Rancherを活用した開発事例の紹介 ~Rancherのメリットと辛いところ~Rancherを活用した開発事例の紹介 ~Rancherのメリットと辛いところ~
Rancherを活用した開発事例の紹介 ~Rancherのメリットと辛いところ~
 
リクルートにおける画像解析事例紹介と周辺技術紹介
リクルートにおける画像解析事例紹介と周辺技術紹介リクルートにおける画像解析事例紹介と周辺技術紹介
リクルートにおける画像解析事例紹介と周辺技術紹介
 

En vedette

リクルートグループの現場事例から見る AI/ディープラーニング ビジネス活用の勘所
リクルートグループの現場事例から見る AI/ディープラーニング ビジネス活用の勘所リクルートグループの現場事例から見る AI/ディープラーニング ビジネス活用の勘所
リクルートグループの現場事例から見る AI/ディープラーニング ビジネス活用の勘所Recruit Technologies
 
リクルートのビッグデータ活用基盤とデータ活用に向けた取組み
リクルートのビッグデータ活用基盤とデータ活用に向けた取組みリクルートのビッグデータ活用基盤とデータ活用に向けた取組み
リクルートのビッグデータ活用基盤とデータ活用に向けた取組みRecruit Technologies
 
リクルートのビッグデータ活用基盤とビッグデータ活用のためのメタデータ管理Webのご紹介
リクルートのビッグデータ活用基盤とビッグデータ活用のためのメタデータ管理Webのご紹介リクルートのビッグデータ活用基盤とビッグデータ活用のためのメタデータ管理Webのご紹介
リクルートのビッグデータ活用基盤とビッグデータ活用のためのメタデータ管理Webのご紹介Recruit Technologies
 
リクルート式 自然言語処理技術の適応事例紹介
リクルート式 自然言語処理技術の適応事例紹介リクルート式 自然言語処理技術の適応事例紹介
リクルート式 自然言語処理技術の適応事例紹介Recruit Technologies
 
ビッグデータ処理データベースの全体像と使い分け - 2017年 Version -
ビッグデータ処理データベースの全体像と使い分け - 2017年 Version - ビッグデータ処理データベースの全体像と使い分け - 2017年 Version -
ビッグデータ処理データベースの全体像と使い分け - 2017年 Version - Tetsutaro Watanabe
 
EMRでスポットインスタンスの自動入札ツールを作成する
EMRでスポットインスタンスの自動入札ツールを作成するEMRでスポットインスタンスの自動入札ツールを作成する
EMRでスポットインスタンスの自動入札ツールを作成するRecruit Technologies
 
Company Recommendation for New Graduates via Implicit Feedback Multiple Matri...
Company Recommendation for New Graduates via Implicit Feedback Multiple Matri...Company Recommendation for New Graduates via Implicit Feedback Multiple Matri...
Company Recommendation for New Graduates via Implicit Feedback Multiple Matri...Recruit Technologies
 
リクルートにおけるセキュリティ施策方針とCSIRT組織運営のポイント
リクルートにおけるセキュリティ施策方針とCSIRT組織運営のポイントリクルートにおけるセキュリティ施策方針とCSIRT組織運営のポイント
リクルートにおけるセキュリティ施策方針とCSIRT組織運営のポイントRecruit Technologies
 
HadoopをBQにマイグレしようとしてる話
HadoopをBQにマイグレしようとしてる話HadoopをBQにマイグレしようとしてる話
HadoopをBQにマイグレしようとしてる話Recruit Technologies
 
「リクルートデータセット」 ~公開までの道のりとこれから~
「リクルートデータセット」 ~公開までの道のりとこれから~「リクルートデータセット」 ~公開までの道のりとこれから~
「リクルートデータセット」 ~公開までの道のりとこれから~Recruit Technologies
 
企業文化をサービスデザインスタイルに
企業文化をサービスデザインスタイルに企業文化をサービスデザインスタイルに
企業文化をサービスデザインスタイルにRecruit Technologies
 
カーセンサーで深層学習を使ってUX改善を行った事例とそこからの学び
カーセンサーで深層学習を使ってUX改善を行った事例とそこからの学びカーセンサーで深層学習を使ってUX改善を行った事例とそこからの学び
カーセンサーで深層学習を使ってUX改善を行った事例とそこからの学びRecruit Technologies
 
新卒2年目が鍛えられたコードレビュー道場
新卒2年目が鍛えられたコードレビュー道場新卒2年目が鍛えられたコードレビュー道場
新卒2年目が鍛えられたコードレビュー道場Recruit Technologies
 
ユーザーからみたre:Inventのこれまでと今後
ユーザーからみたre:Inventのこれまでと今後ユーザーからみたre:Inventのこれまでと今後
ユーザーからみたre:Inventのこれまでと今後Recruit Technologies
 

En vedette (18)

リクルートグループの現場事例から見る AI/ディープラーニング ビジネス活用の勘所
リクルートグループの現場事例から見る AI/ディープラーニング ビジネス活用の勘所リクルートグループの現場事例から見る AI/ディープラーニング ビジネス活用の勘所
リクルートグループの現場事例から見る AI/ディープラーニング ビジネス活用の勘所
 
リクルートのビッグデータ活用基盤とデータ活用に向けた取組み
リクルートのビッグデータ活用基盤とデータ活用に向けた取組みリクルートのビッグデータ活用基盤とデータ活用に向けた取組み
リクルートのビッグデータ活用基盤とデータ活用に向けた取組み
 
リクルートのビッグデータ活用基盤とビッグデータ活用のためのメタデータ管理Webのご紹介
リクルートのビッグデータ活用基盤とビッグデータ活用のためのメタデータ管理Webのご紹介リクルートのビッグデータ活用基盤とビッグデータ活用のためのメタデータ管理Webのご紹介
リクルートのビッグデータ活用基盤とビッグデータ活用のためのメタデータ管理Webのご紹介
 
リクルート式 自然言語処理技術の適応事例紹介
リクルート式 自然言語処理技術の適応事例紹介リクルート式 自然言語処理技術の適応事例紹介
リクルート式 自然言語処理技術の適応事例紹介
 
ビッグデータ処理データベースの全体像と使い分け - 2017年 Version -
ビッグデータ処理データベースの全体像と使い分け - 2017年 Version - ビッグデータ処理データベースの全体像と使い分け - 2017年 Version -
ビッグデータ処理データベースの全体像と使い分け - 2017年 Version -
 
EMRでスポットインスタンスの自動入札ツールを作成する
EMRでスポットインスタンスの自動入札ツールを作成するEMRでスポットインスタンスの自動入札ツールを作成する
EMRでスポットインスタンスの自動入札ツールを作成する
 
事業とUXデザイン
事業とUXデザイン事業とUXデザイン
事業とUXデザイン
 
Company Recommendation for New Graduates via Implicit Feedback Multiple Matri...
Company Recommendation for New Graduates via Implicit Feedback Multiple Matri...Company Recommendation for New Graduates via Implicit Feedback Multiple Matri...
Company Recommendation for New Graduates via Implicit Feedback Multiple Matri...
 
リクルートにおけるセキュリティ施策方針とCSIRT組織運営のポイント
リクルートにおけるセキュリティ施策方針とCSIRT組織運営のポイントリクルートにおけるセキュリティ施策方針とCSIRT組織運営のポイント
リクルートにおけるセキュリティ施策方針とCSIRT組織運営のポイント
 
HadoopをBQにマイグレしようとしてる話
HadoopをBQにマイグレしようとしてる話HadoopをBQにマイグレしようとしてる話
HadoopをBQにマイグレしようとしてる話
 
銀行ロビーアシスタント
銀行ロビーアシスタント銀行ロビーアシスタント
銀行ロビーアシスタント
 
「リクルートデータセット」 ~公開までの道のりとこれから~
「リクルートデータセット」 ~公開までの道のりとこれから~「リクルートデータセット」 ~公開までの道のりとこれから~
「リクルートデータセット」 ~公開までの道のりとこれから~
 
企業文化をサービスデザインスタイルに
企業文化をサービスデザインスタイルに企業文化をサービスデザインスタイルに
企業文化をサービスデザインスタイルに
 
Tableau活用4年の軌跡
Tableau活用4年の軌跡Tableau活用4年の軌跡
Tableau活用4年の軌跡
 
カーセンサーで深層学習を使ってUX改善を行った事例とそこからの学び
カーセンサーで深層学習を使ってUX改善を行った事例とそこからの学びカーセンサーで深層学習を使ってUX改善を行った事例とそこからの学び
カーセンサーで深層学習を使ってUX改善を行った事例とそこからの学び
 
新卒2年目が鍛えられたコードレビュー道場
新卒2年目が鍛えられたコードレビュー道場新卒2年目が鍛えられたコードレビュー道場
新卒2年目が鍛えられたコードレビュー道場
 
LT(自由)
LT(自由)LT(自由)
LT(自由)
 
ユーザーからみたre:Inventのこれまでと今後
ユーザーからみたre:Inventのこれまでと今後ユーザーからみたre:Inventのこれまでと今後
ユーザーからみたre:Inventのこれまでと今後
 

Similaire à Struggling with BIGDATA -リクルートおけるデータサイエンス/エンジニアリング-

[db tech showcase Tokyo 2018] #dbts2018 #D23 『機械学習の自動化を実現するDataRobotによるAIの民主化とは』
[db tech showcase Tokyo 2018] #dbts2018 #D23 『機械学習の自動化を実現するDataRobotによるAIの民主化とは』[db tech showcase Tokyo 2018] #dbts2018 #D23 『機械学習の自動化を実現するDataRobotによるAIの民主化とは』
[db tech showcase Tokyo 2018] #dbts2018 #D23 『機械学習の自動化を実現するDataRobotによるAIの民主化とは』Insight Technology, Inc.
 
不足するAI人材に対する「パソナテックの人材育成ソリューション」
不足するAI人材に対する「パソナテックの人材育成ソリューション」不足するAI人材に対する「パソナテックの人材育成ソリューション」
不足するAI人材に対する「パソナテックの人材育成ソリューション」Natsutani Minoru
 
リクルートはいかにして、ディープラーニング(深層学習)の導入を成功させたか
リクルートはいかにして、ディープラーニング(深層学習)の導入を成功させたかリクルートはいかにして、ディープラーニング(深層学習)の導入を成功させたか
リクルートはいかにして、ディープラーニング(深層学習)の導入を成功させたかRecruit Technologies
 
Pycon reject banditアルゴリズムを用いた自動abテスト
Pycon reject banditアルゴリズムを用いた自動abテストPycon reject banditアルゴリズムを用いた自動abテスト
Pycon reject banditアルゴリズムを用いた自動abテストShoichi Taguchi
 
Oracle Data Miner で始める簡単・高速な機械学習
Oracle Data Miner で始める簡単・高速な機械学習Oracle Data Miner で始める簡単・高速な機械学習
Oracle Data Miner で始める簡単・高速な機械学習Tamakoshi Hironori
 
基調講演「データのグループウェア化」
基調講演「データのグループウェア化」基調講演「データのグループウェア化」
基調講演「データのグループウェア化」Cybozucommunity
 
「シン・テストエンジニアのキャリアについて~[序・破・急]の先に向けて~」
「シン・テストエンジニアのキャリアについて~[序・破・急]の先に向けて~」「シン・テストエンジニアのキャリアについて~[序・破・急]の先に向けて~」
「シン・テストエンジニアのキャリアについて~[序・破・急]の先に向けて~」久仁朗 山本(旧姓 村上)
 
キャリアコンサルタント向け「企業で求められるITスキルの実態」と実践スキル向上研修
キャリアコンサルタント向け「企業で求められるITスキルの実態」と実践スキル向上研修キャリアコンサルタント向け「企業で求められるITスキルの実態」と実践スキル向上研修
キャリアコンサルタント向け「企業で求められるITスキルの実態」と実践スキル向上研修Daiyu Hatakeyama
 
リクルートを支える横断データ基盤と機械学習の適用事例
リクルートを支える横断データ基盤と機械学習の適用事例リクルートを支える横断データ基盤と機械学習の適用事例
リクルートを支える横断データ基盤と機械学習の適用事例Tetsutaro Watanabe
 
データマイニングCROSS 第2部-機械学習・大規模分散処理
データマイニングCROSS 第2部-機械学習・大規模分散処理データマイニングCROSS 第2部-機械学習・大規模分散処理
データマイニングCROSS 第2部-機械学習・大規模分散処理Koichi Hamada
 
[GTC 2018] DGXフォーラム Ridge-i発表資料
[GTC 2018] DGXフォーラム Ridge-i発表資料[GTC 2018] DGXフォーラム Ridge-i発表資料
[GTC 2018] DGXフォーラム Ridge-i発表資料Ridge-i
 
Microsoft Intelligent Data Platform -データ活用のための最新技術-
Microsoft Intelligent Data Platform -データ活用のための最新技術-Microsoft Intelligent Data Platform -データ活用のための最新技術-
Microsoft Intelligent Data Platform -データ活用のための最新技術-Daiyu Hatakeyama
 
コンピュータビジョン技術の実応用とビジネス
コンピュータビジョン技術の実応用とビジネスコンピュータビジョン技術の実応用とビジネス
コンピュータビジョン技術の実応用とビジネスYusuke Uchida
 
<インフラ管理者向け>チームでのAI開発を支援するAI開発プラットフォームKAMONOHASHI
<インフラ管理者向け>チームでのAI開発を支援するAI開発プラットフォームKAMONOHASHI<インフラ管理者向け>チームでのAI開発を支援するAI開発プラットフォームKAMONOHASHI
<インフラ管理者向け>チームでのAI開発を支援するAI開発プラットフォームKAMONOHASHIKamonohashi
 
AI-OCR 導入最前線 (AI inside)
AI-OCR 導入最前線 (AI inside)AI-OCR 導入最前線 (AI inside)
AI-OCR 導入最前線 (AI inside)Shotaro Umeda
 

Similaire à Struggling with BIGDATA -リクルートおけるデータサイエンス/エンジニアリング- (20)

Dlc ri
Dlc riDlc ri
Dlc ri
 
[db tech showcase Tokyo 2018] #dbts2018 #D23 『機械学習の自動化を実現するDataRobotによるAIの民主化とは』
[db tech showcase Tokyo 2018] #dbts2018 #D23 『機械学習の自動化を実現するDataRobotによるAIの民主化とは』[db tech showcase Tokyo 2018] #dbts2018 #D23 『機械学習の自動化を実現するDataRobotによるAIの民主化とは』
[db tech showcase Tokyo 2018] #dbts2018 #D23 『機械学習の自動化を実現するDataRobotによるAIの民主化とは』
 
Smfl20201001
Smfl20201001Smfl20201001
Smfl20201001
 
不足するAI人材に対する「パソナテックの人材育成ソリューション」
不足するAI人材に対する「パソナテックの人材育成ソリューション」不足するAI人材に対する「パソナテックの人材育成ソリューション」
不足するAI人材に対する「パソナテックの人材育成ソリューション」
 
リクルートはいかにして、ディープラーニング(深層学習)の導入を成功させたか
リクルートはいかにして、ディープラーニング(深層学習)の導入を成功させたかリクルートはいかにして、ディープラーニング(深層学習)の導入を成功させたか
リクルートはいかにして、ディープラーニング(深層学習)の導入を成功させたか
 
Pycon reject banditアルゴリズムを用いた自動abテスト
Pycon reject banditアルゴリズムを用いた自動abテストPycon reject banditアルゴリズムを用いた自動abテスト
Pycon reject banditアルゴリズムを用いた自動abテスト
 
Oracle Data Miner で始める簡単・高速な機械学習
Oracle Data Miner で始める簡単・高速な機械学習Oracle Data Miner で始める簡単・高速な機械学習
Oracle Data Miner で始める簡単・高速な機械学習
 
基調講演「データのグループウェア化」
基調講演「データのグループウェア化」基調講演「データのグループウェア化」
基調講演「データのグループウェア化」
 
Ridge-iの画像解析アルゴリズムの実用事例の紹介_DLLAB Case Study Day
Ridge-iの画像解析アルゴリズムの実用事例の紹介_DLLAB Case Study DayRidge-iの画像解析アルゴリズムの実用事例の紹介_DLLAB Case Study Day
Ridge-iの画像解析アルゴリズムの実用事例の紹介_DLLAB Case Study Day
 
200821 swest
200821 swest200821 swest
200821 swest
 
JSUG 2018 BTC
JSUG 2018 BTCJSUG 2018 BTC
JSUG 2018 BTC
 
「シン・テストエンジニアのキャリアについて~[序・破・急]の先に向けて~」
「シン・テストエンジニアのキャリアについて~[序・破・急]の先に向けて~」「シン・テストエンジニアのキャリアについて~[序・破・急]の先に向けて~」
「シン・テストエンジニアのキャリアについて~[序・破・急]の先に向けて~」
 
キャリアコンサルタント向け「企業で求められるITスキルの実態」と実践スキル向上研修
キャリアコンサルタント向け「企業で求められるITスキルの実態」と実践スキル向上研修キャリアコンサルタント向け「企業で求められるITスキルの実態」と実践スキル向上研修
キャリアコンサルタント向け「企業で求められるITスキルの実態」と実践スキル向上研修
 
リクルートを支える横断データ基盤と機械学習の適用事例
リクルートを支える横断データ基盤と機械学習の適用事例リクルートを支える横断データ基盤と機械学習の適用事例
リクルートを支える横断データ基盤と機械学習の適用事例
 
データマイニングCROSS 第2部-機械学習・大規模分散処理
データマイニングCROSS 第2部-機械学習・大規模分散処理データマイニングCROSS 第2部-機械学習・大規模分散処理
データマイニングCROSS 第2部-機械学習・大規模分散処理
 
[GTC 2018] DGXフォーラム Ridge-i発表資料
[GTC 2018] DGXフォーラム Ridge-i発表資料[GTC 2018] DGXフォーラム Ridge-i発表資料
[GTC 2018] DGXフォーラム Ridge-i発表資料
 
Microsoft Intelligent Data Platform -データ活用のための最新技術-
Microsoft Intelligent Data Platform -データ活用のための最新技術-Microsoft Intelligent Data Platform -データ活用のための最新技術-
Microsoft Intelligent Data Platform -データ活用のための最新技術-
 
コンピュータビジョン技術の実応用とビジネス
コンピュータビジョン技術の実応用とビジネスコンピュータビジョン技術の実応用とビジネス
コンピュータビジョン技術の実応用とビジネス
 
<インフラ管理者向け>チームでのAI開発を支援するAI開発プラットフォームKAMONOHASHI
<インフラ管理者向け>チームでのAI開発を支援するAI開発プラットフォームKAMONOHASHI<インフラ管理者向け>チームでのAI開発を支援するAI開発プラットフォームKAMONOHASHI
<インフラ管理者向け>チームでのAI開発を支援するAI開発プラットフォームKAMONOHASHI
 
AI-OCR 導入最前線 (AI inside)
AI-OCR 導入最前線 (AI inside)AI-OCR 導入最前線 (AI inside)
AI-OCR 導入最前線 (AI inside)
 

Dernier

業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)Hiroshi Tomioka
 
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdfクラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdfFumieNakayama
 
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...博三 太田
 
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?akihisamiyanaga1
 
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)UEHARA, Tetsutaro
 
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)NTT DATA Technology & Innovation
 
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdfAWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdfFumieNakayama
 
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineerYuki Kikuchi
 

Dernier (8)

業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
 
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdfクラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
 
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
 
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
 
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
 
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
 
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdfAWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
 
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
 

Struggling with BIGDATA -リクルートおけるデータサイエンス/エンジニアリング-

  • 2. 2Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. 趣味etc 学歴 略歴 所属 氏名 RTC ITソリューション統括部 ビッグデータ部 IT-EXE 西郷 彰 大阪大学工学部 筑波大学大学院ビジネス科学研究科(MBA) 2009年リクルート中途入社。 じゃらん、ポンパレなどのCRMやレコメンドのプ ロジェクトを推進。BD専門組織の立上げを経て、 現在、BD部IDP領域Gのマネージャー兼RHD_IDP 戦略企画統括データ解析Gを担当。 スノーボード(インストラクター資格有) -子育てが忙しくめっきり行けなくなりました 自己紹介
  • 3. 3Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. 1 2 ビッグデータ部とビッグデータを取り巻く環境 3 4 5 データ活用事例紹介 新技術検証 R&D 全社データ基盤 アジェンダ 仕事内容のイメージ 6 リクルートグループについて まとめと今後7
  • 4. 4Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. リクルートグループについて
  • 5. 5Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. リクルートのビジネスモデル さまざまなドメインでマッチングモデルに基づいたビジネスを展開。 Matching Business HR Bridal Group Buying Used Cars Travel Real Estate Beauty Gourmet Social Games E-Commerce Ad Network New Business Consumers Enterprise
  • 6. 6Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. リクルートの事業領域 「選択」をサポートするような情報サービスを展開 Life event area Lifestyle Area Travel IT/ TrendLifestyle Health & Beauty Job Hunt Marriage Job Change Home Purchase Car Purchase Child Birth Education
  • 7. 7Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. ビッグデータ部と ビッグデータを取り巻く環境
  • 8. 8Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. Infrastructure /Security Project Management UXD/SEO Internet Marketing Big Data Solutions Technology R&D Systems Development リクルートテクノロジーズの立ち位置 リクルートホールディングスは7つの主要事業会社と3つの機能会社から成り立っている。 Recruit Holdings Recruit Career Recruit Sumai Company Recruit Lifestyle Recruit Jobs Recruit Staffing Recruit Marketing Partners Staff service Holdings Recruit Technologies Recruit Administration Recruit Communications Business/ Service Function/ Support
  • 9. 9Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. 数値で見るデータ解析案件状況 約200 データ解析案件数(年間) ビッグデータ部の案件従事人数 約250
  • 10. 10Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. ビッグデータ部で扱うデータ 事業のトランザクションや マスタデータを用いた解析 ※ 主にオンプレ 非構造データを用いた Deep Learningなどの解析 ※ 主にパブリッククラウド
  • 11. 11Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. ビッグデータ解析部門の組織体制 ITソリューション統括部 ビッグデータビジネス コンサルティング グループ ビッグデータ人材領域 グループ ビッグデータ販促・ バイト領域グループ ソリューションを 軸とした予測、BI、 競合分析 人材領域を軸とした 各種レコメンド等の 開発・分析 販促・バイトを軸と した各種レコメンド 等の開発・分析 ビッグデータID・ ポイント領域グループ IDポイントを軸とし た各種レコメンドの 開発・分析 ビッグデータプロダ クト開発グループ ビッグデータインフ ラグループ IDポイントビッグ データシステムグ ループ ソリューションを 軸とした各種&D系 プロダクトの開発 ビックデータ基盤 の構築・運用 ビックデータ部 IDポイントPRJの 基盤の構築・運用 ・・・
  • 12. 12Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. 仕事内容のイメージ
  • 13. 13Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. 事業の参謀としての役割 ・MP ・事業企画 ・営業 ・BDGメンバー 提案 相談 事業のみなさんと協働しデータ解析を行う。 こちらから技術ベースの提案を行ったり、相談を受けたりする。
  • 14. 14Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. リクルートにおけるR&Dの考え方 R-Stage Dev-Stage β-Stage 運用-Stage 技術要素調査 技術の実態を 把握する 効果的な仕組み としてプレ実装 活用方法をさらに 開拓 正式にフィジビ リティスタディと して推進~展 開をする 実運用へ Gate Review
  • 15. 15Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. データ利活用案件紹介
  • 16. 16Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. 紹介案件 画像解析クロスユース施策  ネイルデザイン判定 アイテムレコメンド 転職支援  マッチング&AI
  • 17. 17Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. 2016年6月7日 日経産業新聞 リクルートの主力領域で人工知能が求職をサポート
  • 18. 18Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. サイト間クロスユースレコメンド  リクルートポイントからホットペッパーグルメのほか、じゃらん、ホットペッパービューティ、カーセン サーなどからポンパレモールへのクロスユースレコメンドを展開。  リクルート全社でのクロスユースレコメンドを推進している。
  • 19. 19Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. ホットペッパービューティ ネイル判別実装 似ているデザインから探す カラーから探す 39色から選択可能 似ている画像を表示 New① New② New① New②
  • 20. 20Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. 新技術検証 R&D
  • 21. 21Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. ビッグデータの概念 Volume データ量 データの多様性 Variety Velocity データの発生頻度 ビッグデータの定義で示されるデータの多様性に注目。
  • 22. 22Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. 非構造データに注目 情報誌やフリーペーパーといった紙媒体が多く存在していたという経緯もあって、いまだ内部に画 像、テキスト、動画などのさまざまな非構造データが存在する。 テキスト 画像
  • 23. 23Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. 多様化するデータ解析 利益貢献 コスト削減 レコメンデーション 帳票レポート 指標・目的  CVR最大化  CPA最適化 指標・目的  最適化  次期戦略策定 指標・目的  無駄の排除  工数削減  人はよりクリエイティブに 作業代替・支援 (AI領域) 非構造データは、機械的解釈のむずかしさから人の手でその解釈が行われてきた。 テキストや画像などから特徴抽出をするための手法が数多く、オープンソース化され 機械で扱えるようになってきた昨今、レコメンド、帳票以外に「人の作業代替」という新たなジャン ルのデータ解析ソリューションが増えつつある。
  • 24. 24Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. API化による効率化 リクルート内多様なサービス モデル化 API API API モデル・技術共有 コール 再学習
  • 25. 25Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. R&D取組紹介 A3RTシリーズ
  • 26. 26Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. A3RTサービスリスト(一部) レコメンド バナー ターゲティング OCR 画像解析 原稿サジェスト 文章校閲 文章要約 文章分類 音声テキスト化 屋内位置測位
  • 27. 27Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. 背景  リクルートにおいて広告主であるクライアント原稿の品質担保は大事な要素である  現在、多くの人件費をかけて「人手で」校閲作業を行っている。  一方で、校閲作業は人のナレッジや感覚に左右され、品質が一定ではないばかりか、すべての 原稿を人手でチェックすることは労力的には難しい状況である。 この校閲作業を機械で一部代替できないかという取組を開始している。
  • 28. 28Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. プロダクト開発状況  一部の事業と協力して検証を開始している。  はじめはルールベースのものから実装し、機械学習による分類やDeep Learningを用いた誤 字脱字チェックなど実装難易度をあげていくという進め方。  100%人の代替は不能ということをきちんと事業と認識しながら進めている。要はその人の作 業をリプレイスする意味合いであり、その人自身の作業も100%の精度ではできていないこと を自覚する必要がある。
  • 29. 29Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. DeepLearningによる誤字脱字チェック  原稿データを学習させたモデルに文章を読み込ませ、その系列のなかで特定の単語が出現す る確率を算出。確率が閾値より低い場合はアラートをあげ、代わりに確率の高い単語をサ ジェストする機能を開発。
  • 30. 30Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. ArGonのデモ
  • 31. 31Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. A3RTサービスリスト(一部) レコメンド バナー ターゲティング OCR 画像解析 原稿サジェスト 文章校閲 文章要約 文章分類 音声テキスト化 屋内位置測位
  • 32. 32Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. 車種判別機能:背景 近年?? 若者が車に詳しくない!! かっちょえええええ かわええええええ 名前わかんね 凄く大きな機会損失
  • 33. 33Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. 車種判別機能とは カーセンサーのアプリの機能で、 車の写真を撮ってアップすると、似た車種名と一致率のTOP5が分かる。 そして、そのままその車種の検索結果一覧へと遷移できる。
  • 34. 34Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. 車種判別フロー概要 … … … CNNで作成した 車種判別モデル 車の写真 2674車種 ・オデッセイ ・エスティマ ・CRV ・MPV ・ ・ ・ ・ ・ ・フェラーリ 車種精度 68.2%
  • 35. 35Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. 学習データの作成に工夫 外装 ラベル名 画像例 内装 トランク ダッシュ ボード その他 学習枚数 約3500枚 約2000枚 約1000枚 約1000枚 約2500枚 カーセンサーの物件画像を 内装/外装/トランク/ダッシュボード /その他に分類するモデルを作成。 これにカーセンサーの約37万物件 の画像を全て投入 外装と判別された約80万枚を そのまま学習に利用 結果、2674車種という、 これまでにない多種な分類でも 70%弱の精度を叩き出せた
  • 36. 36Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. 学習データの作成に工夫 ただし「流通量が多い車種=学習画像が多い車種=精度が高い車種」 となり、掲載数の多い上位500車種では平均92.4%の精度を出すが 掲載数の少ない下位の車種では、精度が一桁を切ることもある状態。 そこで利用者に正解しているかを フードバックしてもらう機能を実装。 これで「正しい」を選んでくれたら、 その画像を追加で学習すれば良い! # 現在は、本機能が本当に正しい時に押 されるかなどを検証中。
  • 37. 37Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. Twitterでバズりました! プレスリリースを10/26に実施。 10/26中にTwitterで「#カーセンサーチャレンジ」 というハッシュタグが作成され、最高風速で 分間4ツイートくらいされてました。(肌感) 一時、appleのトレンド検索に「ポケモンgoマップ」などと並 んで「カーセンサー」が!!! ありがたいことにたくさんの人に利用してもらえました!
  • 38. 38Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. 2ヶ月前 モデル作成 3週間 2年前 モデル作成 3ヶ月 紹介した案件はモデル作成時間が大きく違う 2年という歳月におけるノウハウの蓄積の差もあるものの CNNでのモデル構築を効率的にする周辺技術の存在が大きい ネイルでの学びから、周辺技術を作成していきました。
  • 39. 39Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. ネイル時に立ちふさがった大きな壁 ①判別モデルを作りたいけど都合良く 学習データがない・・・ ②学習始めたけどパラメータが 多すぎて最適解がわからん・・・
  • 40. 40Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. 困難① 学習データがない 爪デザイン当て 初めはクライアントが入稿するときに付与するタグを利用。 例えば、左の例では、「ドット(水玉)」が付与。 これを学習用のデータとして使用した結果、 驚愕の精度18%!?(ランダムでも5%の精度) そもそも、リボンも映っているし、ワンカラー(何も柄なし)も映っている。 これが「ドット」で良いのか?? 人によってデザインとして付与するタグが異なるのでは・・・・ なら、誰もが同じタグになるようにしてあげれば良い! CNN使えないじゃないか・・・ 発想を変える。
  • 41. 41Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. ただし、僕らの部署はIT系の業務をやる部署。 ネイルなんて分からない男性が多い中、必死にネイルの知識を付ける。 :マーブル :ピーコック :プッチ 副産物として 合コンで相手の手を見て、「ダブルフレンチ か・・・」と呟く、気持ち悪い男性(私)の 出来上がり。 せんせー ピーコックとマーブルとプッチの 違いがわかりませーん! このようなやりとりを通し、まず主要メンバがネイル 判別のセミプロになり、徐々に作業メンバもセミプ ロになってしまった。 約20人で合計4万枚もの爪画像に、正解タグを 振る。 結果、ある程度誰が見ても納得できる正解データ が作成できた。 困難① 学習データがない
  • 42. 42Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. VATを用いた半教師有り学習 • VATを用いた半教師有り学習 • 半教師有り学習:少量の教師付きデータと大量の教師なしデータを用い て、比較的高精度のモデル作成する手法。 • ICLR2016の採択論文の手法を試す。 mnist[0~9の手書きデータ]を利用し、 以下を検証。 教師有りを600枚使っただけで、 60000枚全て利用した時とほぼ同等の 精度が得られた。 学習利用枚数 誤 差 率 (%) =大量の画像全てに正解ラベルを付与しなくても良い。 →学習データの収集コストが大幅に下がることが期待できる。 ・60000万枚の画像を学習に使った精度 ・各枚数を学習に利用した時の精度 ・各枚数を教師有り、残りを教師なしと して学習した精度
  • 43. 43Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. 全社データ基盤
  • 44. 44Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. リクルートID
  • 45. 45Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. サービスA 事業DB アクセス ログ サービスB 事業DB アクセス ログ サービスC 事業DB アクセス ログ データソース データ格納 演算処理・活用 利用者 Hadoop エコシステム全社DWH 中央Hadoop • モニタリング • レポート • モデル作成 • データ収集 • 整形・加工 • データストレージ • 高速分析処理 サービスA 担当 サービスB 担当 リクルートID 担当 サービスC 担当 リクルート統合データ分析基盤 クエリ発行/月 • 膨大なデータを使ったデータ活用業務全般 • レポート/モニタリング、レコメンド、DMP、etc
  • 46. 46Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. 最初に苦労したこと、「データ理解」 データ意味情報(メタデータ)の問い合わせに忙殺される。 会員情報はどこにある!? XXの意味を教えてください! 利用者 テーブル定義書(ファイル) DWH Select * from XX limit 100 Select * from YY limit 100 Select * from ZZ limit 100 ・・・ 開発者 システム管理者 分からないです… “平均的なビジネスマンは、探し物のためだけに、1年間で約150時間を費やしている” 利用者がわかる形で回答 × データの質・量の増加 利用者の増加
  • 47. 47Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. メタデータ管理Web データ意味情報(メタデータ)を機械化するためのシステムを作成
  • 48. 48Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. 意味検索によるユーザビリティ改善 Library A → Z Discovery Search Engine
  • 49. 49Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. 設計情報→Knowledge共有+SQL_Analysis ER図表示 analysis SQLを解析し、設計情報に出てこないDB を跨いだテーブル間の関係性も可視化 関連の強い順に表示
  • 50. 50Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. ココに来れば必要な情報があるという状態を作り出し、分析担当者のデータ 特定に至る時間やシステム担当者の負担を軽減させる。  探す手間が省ける  ナレッジが共有される 利用者 テーブル定義書(ファイル) システム管理者 探す メタデータ管理Web DWH システム管理者  問合せが減る!  潜在的なニーズを拾える!  問合せが減る!  自分のDBの最新情報が把握できる! 開発者 自動 自動 自動 年間75人月超の工数削減効果 (20分/セッションの工数削減効果) + 問合せを受けるシステム管理者の工数削減 メタデータ管理Webで実現した世界
  • 51. 51Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. 横断データ活用:フェーズにおける課題 • ID基盤が整いデータが増加し、我々は成長期の真っ只中 • 爆発的な成長を目指すが・・・技術的負債が顕在化 51 黎明期 成長期
  • 52. 52Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. 黎明期: • 各サービスから各種データを収集、DWH/Datalakeに蓄積し活用 • サイト毎の仕様差異の吸収 個人情報のマスキング 重複や欠損のクリーニング… • 横断データ活用への最初の要求は、経営陣からの「経営指標」の集計 • 日次/月次実行する”資産”となり、加速度的に増加 • DMTを機械学習の学習データとして転用 • 次々と機械学習アルゴリズムを変えるため、データ間の依存度が加速 • システムが一旦出来上がるが・・・ DWH 横断データ 活用施策
  • 53. 53Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. 黎明期:システム運用 DWH MLlibDWH 0001 0002 0003 0004 Change prediction corrupt Change Change more users Bigger DMT more data source We changed log spec! bug Mis match Mis match rerun! more work
  • 54. 54Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. 考察:なぜ仕事が増えるのか 最初はシンプルな業務フローを考えるが、業務は複雑化して増えていくもの DWH DMT APP 開発業務の増加 ・クエリ複雑化 ・依存性複雑化 ・再発明 ・リカバリ ・仕様変更対応 運用業務の増加 ・Hadoop等バグ調査 ・繁忙期データ負荷対応 ・リソース不足 ・データ転送 待ちの増加 ・機械学習用DMT開発 における低再利用性 ・DMT処理時間待ち ・アルゴリズム変更に伴う 入力仕様変更
  • 55. 55Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. 技術的負債の溜まり場 黎明期に描かれた古典モデルの破綻 昔から言われていることでも有る、データマネジメント業務の不・課題 DWH DMT APP どうしてもココに課題が貯 まっちゃうんですよね・・・
  • 56. 56Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. フレームワークプロジェクト(var/log) • 技術的負債を徹底的に排除するためのコードベース(jar) Integrate software resources & unlock their full potential “Absolute DRY” common process auto generated DSL for processing typically structured data of Recruit Codebas e
  • 57. 57Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. DRY(Don’t repeat yourself) もっとも大切な要素として、コードの再利用 コンポーネント + コード生成 補完前 Loading Mahout Saving xml 補完後 Recommend User (Int) Item (Int) Dictionary UserId (Int) User (String) Dictionary ItemId(Int) Item(String) Input UserId (Int) ItemId(Int) Loading Mahout Saving Indexing Format
  • 58. 58Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. Simple • DASE ”MVC for Data Science” • それ以外は極力隠蔽 <data/> <algorithm/> <serving/> <evaluation/> xml .Jar Loading Query Query RDD +Scala Jar内部で判定 • 次のAlgorithmは何? • データ量はどのくらい? • 過去の判定結果は? MR Parallel Query Hdfs+ External
  • 59. 59Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. プロジェクト完了!? • 半年後、var/logは完成し、最初のvar/logジョブがリリース! • その後、新規ジョブはvar/log上に実装されるようになった。 • 半年後var/logは完成し、運用に乗ったが、2通りの社内顧客 が見えてきた。 Business Engineer Scientist Engineer 1.[High-end Customers] ニーズ : 速度・定常運用・生産性 2.[Early Adopters] ニーズ : 最新論文・実験・Lean コードは使い捨て データがあり 動けばいい
  • 60. 60Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. Move onto Agility DWH DMT APP DWH DMT Produ ction pub sub Sand box Business Engineer Scientist Everyone 黎明期 成長期
  • 61. 61Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. Early Adopter向け機能とは何か ニーズ:さあ、実験をしよう。 秒単位の応答性能 その場の思いつきを実データに適用 新しいライブラリ・・・ 新しい特徴量・・・ 新しい数式・・・ 新しい自作関数・・・ そして、、、 そのままリリース → jar + xml configuration ではない
  • 62. 62Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. import varlog.jar on Zeppelin .Jar その場で作った 自作関数(動作確認後varlog.jarにコミット) データ抜きだし・加工
  • 63. 63Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. Workflow Change : Happy Analytics • Before: • After: .Jar Scientist Scientist HBase Hive Oracle sqoop “accessible data” • 実験 • 生産性 • 共同作業 • 即時性/インタラクティブ性 Java ・・・
  • 64. 64Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. 我々が今目指している環境について Analysis Ops Engineering Study Idea try Scientist
  • 65. 65Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. DevOps for BIGDATA全体像 バージョン管理 チケット管理 メトリクス可視化 開発環境 Biz 必要に応じて相互に 開発協力。 Ops Dev 本番環境構成管理 CI / CD サンドボックス環境
  • 66. 66Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. DevOps for BD 独自の取組紹介 • ベンダー製ジョブ管理ツールの可視化 ジョブ可視化ツール データフロー可視化ツール ジョブおよびデータフローがリアルタイムに可視化されたことで、 障害検知および対応が高速化に寄与 内製開発ツール
  • 67. 67Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. 文化面での取組 • カイゼントレーニング • 組織メンバー全員参加での集合研修 • 目的 • 自分たちの提供しているサービスの価値をあげるために、 • 改善のやり方を学ぶ • コミュニケーションの仕方を学ぶ • 実際にいまのプロセスを見える化し、全員で現状の共通認識や 課題を明らかにする バリューストリームマップを作成し、業務にお けるボトルネックを全員で切り分けている様子
  • 68. 68Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. 文化面での取組 • Mob Programming • チーム全体が同じことを、同じ時に、同じ場所で、同じコンピュータ上 で作業するソフトウェア開発アプローチ • 目的 • 全員が同一作業を行うことによるコンフリクトの解消と、黒魔術 的な個人ナレッジの共有を図る。 毎週金曜に2時間、全員で同一作業を行う時間 を設定し、ワイガヤをあえて演出
  • 69. 69Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. まとめ
  • 70. 70Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. データ活用における大きな変化と今後 ? ?分析→CV改善施策 ディスプレイ API レコメンド API アドホックな分析
  • 71. 71Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. Web企業におけるデータ活用の本命は? No single standard それくらい多様化、常に進化。 より新しいことをフロンティアしていかないといけない、自ら。 クライアント BtoB 分析 OtoO リアル情報解析 超大規模データ 活用 非構造 /Deeplearning
  • 72. ご静聴ありがとうございました リクルートテクノロジーズ Now, We Are Hiring! 自ら高い山を設定し、ビジネス活用にコミットし た分析・エンジニアリングにチャレンジできる方。 ぜひご連絡ください。