SlideShare une entreprise Scribd logo
1  sur  43
Télécharger pour lire hors ligne
Copyright © TIS Inc. All rights reserved.
Reinforcement Learning Inside Business
戦略技術センター
久保隆宏
強化学習のビジネス適用に挑戦する現場より
Copyright © TIS Inc. All rights reserved. 2
◼ はじめに
◼ 強化学習活用の現場より
◼ モビリティ
◼ ゲーム
◼ 広告配信
◼ おわりに
Reinforcement Learning inside Business
Copyright © TIS Inc. All rights reserved. 3
久保隆宏
TIS株式会社 戦略技術センター
◼ 化学系メーカーの業務コンサルタント出身。
◼ 既存の技術では業務改善を行える範囲に限界があるとの実感から、戦
略技術センターへ異動。
◼ 現在は会計/投資分野をテーマとし、主にESG評価への活用をテーマに
研究中。
自己紹介
チュートリアル講演:深層学習
の判断根拠を理解するための研
究とその意義(@PRMU 2017)
機械学習をシステムに組み込む
際の依存性管理について
(@MANABIYA 2018)
あるべきESG投資の評価に向け
た、自然言語処理の活用
(@CCSE 2019)
Copyright © TIS Inc. All rights reserved. 4
「強化学習はビジネスで使えるのか?」
この問いは、強化学習を学んでいたら一度は考えたことがあると思います。
事例自体はいくつも公開されています。
ただ、本当に使っているのか研究だけなのかは曖昧です。
そこで、「使っている」企業の方へヒアリングをしてきました。
ビジネスで使う際の効果や課題、そして思いなど、生の声をお届けできた
ら幸いです。
はじめに
Copyright © TIS Inc. All rights reserved. 5
◼ 強化学習を採用した背景
◼ (採用時)強化学習に期待していた効果と、実際の差異
◼ 強化学習を扱う際の難しさ
◼ 現在着目している手法・事例
◼ 今後、強化学習が克服すべきと考えている課題
ヒアリング対象企業
◼ D社様: モビリティ/ゲーム開発
◼ A社様: 広告配信/ゲーム開発
◼ G社様: ゲーム開発
◼ P社様: モビリティ
参考: ヒアリング項目
ご協力ありがとうございます!
強化学習活用の現場より
Copyright © TIS Inc. All rights reserved. 7
モビリティ
Mobility
photo by Warrick Wynne
Copyright © TIS Inc. All rights reserved. 8
◼ モビリティ(交通)は、強化学習の活用が進んでいる領域の一つ。
◼ KDD2018では、モビリティの将来として3階層が提示されている。
Background (1/3)
KDD2018 Artificial Intelligence in Transportation より
◼ 「交通インフラ」の上に「乗り物」が走り、さらに乗り物を利用した
「サービス」が展開されるというイメージ。
◼ 配車最適化以外に、信号機制御などの事例も紹介されている。
◼ 今回は「運行経路の最適化」「配送経路の最適化」についてお話を
伺ってきました。
Copyright © TIS Inc. All rights reserved. 9
◼ 運行経路の最適化
◼ タクシードライバーに運行経路の提案を行う。
◼ 「流し」と「配車」の違い。
◼ 流し: お客さんを見つけたらピックアップする。
◼ 配車: お客さんに呼び出されていく。
◼ 「流し」の場合、事前に誰がどこまで行きたいか把握できない。
◼ 「運行経路の最適化」は、「流し」のサポートを行う。
◼ どの辺を走っていればピックアップできそうか?を提案する。
◼ 海外の機械学習勢は配車が多い(Uber/DiDiなど)。
Background (2/3)
流し 配車
※画像はイメージです
Copyright © TIS Inc. All rights reserved. 10
◼ 配送経路の最適化
◼ 大型物流拠点以後の配送(ラストテンマイルぐらい)の最適化。
◼ 中小の物流業者が担っており、人手で輸送経路を考えている。
◼ 1回2時間ぐらいの配送を4回/日。そのたびに経路を考える・・・
Background (3/3)
「キングダム」より
Copyright © TIS Inc. All rights reserved. 11
◼ 運行経路の最適化
◼ Value Function
◼ 場所をStateとし、遷移先の状態価値から行き先を提案する。
◼ エピソード長はチューニングを行っている。
◼ 逆強化学習
◼ タクシー運転手の軌跡から、報酬関数を逆算する。
◼ 配送経路の最適化
◼ 逆強化学習
◼ ベテランドライバーの軌跡から、報酬関数を逆算する。
Application
Copyright © TIS Inc. All rights reserved. 12
◼ 運行経路の最適化
◼ Value Function
◼ 既存の最適化手法でも解けるかも(事前に比較したわけではない)。
◼ ただ個別の流しや配車よりトータル(=長期)で見てどうかを評価したい。
◼ この点がプラットフォーム全体での最適化(=収益最大化)に繋がる。
◼ 逆強化学習
◼ 人間の実際の行動から報酬関数を推定するために使用した。
◼ 「流し」には独特のノウハウがあり、逐一報酬にするのは難しい。
◼ お客さんは常に左で拾うため右折をあんまりしない、など。
◼ ただすべては信用できないため、学習データにフィルタを掛けて
いる。
Why RL? (1/3)
Copyright © TIS Inc. All rights reserved. 13
◼ 配送経路最適化
◼ 逆強化学習 (Maximum Entropy Deep IRL)
◼ 人間の実際の行動から報酬関数を推定するために使用した。
◼ メタヒューリスティックで解いたが、最短経路優先になる。
◼ ドライバーならではの評価(幹線道路通らないetc)を加味したかった。
Why RL? (2/3)
Copyright © TIS Inc. All rights reserved. 14
補足:
数理最適化については"数理最適化とメタヒューリスティクス"が良い資料。
◼ 数理最適化
◼ 問題について厳密な数理解を求める。
◼ 厳密な解を求めるのが可能だが、規模が大きくなると適用困難。
◼ メタヒューリスティック
◼ 定義がややこしいが(参考)、機械学習はこの中に含まれる。
◼ ヒューリスティック(最適解保証なし)+近似解への収束保証がある手法。
◼ パラメーターを変えることで様々な問題を解ける汎用的(メタ)な解法。
◼ なんかかはやりの手法(「モダン」ヒューリスティックともいわれる)
問題の規模が数理最適化で解けるか、解ける単位に分割可能かが分岐点。
既存のソルバーが提供されている場合もあるため、自作しなくても適用/
組み合わせで様々な問題を解くことができる。
Why RL? (3/3)
Copyright © TIS Inc. All rights reserved. 15
◼ 運行経路の最適化
◼ 戦略の良さを評価できない
◼ 自分自身がタクシードライバーではないので・・・
◼ 実際使う人と納得感を得ていくプロセスが必要になる。
◼ メタ的な方策を学ばせるのが難しい
◼ この地域はお客がいなくなったので、別の地域へ行こう、など。
◼ 「別の地域へ行く」には、短期的に報酬が下がることになる。
◼ ただ、別の地域へ行けば留まるより報酬は得られるかもしれない。
◼ こうした大局的な判断を学習させるのが難しい。
Difficulty of RL (1/2)
Copyright © TIS Inc. All rights reserved. 16
◼ 配送経路の最適化
◼ 思ったよりドライバーの経路を再現できなかった。
◼ 最終的には逆強化学習でない手法(パーティクルフィルタ)を使用。
◼ 十分な学習にはそれなりのデータ量が必要
◼ 10万件程度必要だが、実際に取れるのは数千件。
◼ 過学習しやすい(未知の配送経路に対応できない)。
Difficulty of RL (2/2)
Copyright © TIS Inc. All rights reserved. 17
◼ 運行経路の最適化
◼ 「流し」を扱う難しさ。
◼ 「流し」の場合、潜在需要を予測する必要がある。
◼ 需要予測のモデルとValue Functionを組み合わせられたらいい。
◼ 「配車」の方がビジネス的にもアルゴリズム的にも予測しやすい。
◼ ただ、「配車」を行うにはアプリがまず普及する必要がある。
◼ DiDiの事例は注目しているが、 DiDiは「配車」。
Focus & Future (1/3)
Copyright © TIS Inc. All rights reserved. 18
◼ 配送経路の最適化
◼ 少量データによる逆強化学習。
◼ エキスパートのデータが十分に取れないことがある。
◼ 報酬の優先順位を加味できる手法。
◼ 時間、安全性、コスト、ドライバーによって優先度が若干異なる。
◼ 学習済み逆強化学習モデルの汎化/転移。
◼ ある地域で学習したモデルを他の地域でも使用するなど。
Focus & Future (2/3)
Copyright © TIS Inc. All rights reserved. 19
◼ 強化学習活用プロジェクトの特性
◼ 不確実性がとても高い。
◼ 小さな事例をどんどん出して経験を蓄積する必要がある。
◼ サンプル効率の悪さはかなりネックになっている。
◼ シミュレーターの作成が難しい。
Focus & Future (3/3)
Copyright © TIS Inc. All rights reserved. 20
ゲーム
Game
photo from Hubert Figuière
Copyright © TIS Inc. All rights reserved. 21
◼ ゲームは強化学習の十八番と言える。
◼ ただ、人間をメタクソに負かしても「活用」とはいえない。
◼ ゲームへの適用は以下3つのパターンに分けられる。
◼ テストプレイ
◼ ゲーム作成の支援
◼ ゲーム内キャラクター操作
Background (1/2)
テストプレイ(手法は教師あり)
Human-Like Playtesting with
Deep Learning
レベルに応じたマップ生成
Human-Like Playtesting with Deep
Learning
NPC操作(現在の主目的は品質管理)
AIエージェントに「バトルフィールド
1」のプレイを教えるには?
Copyright © TIS Inc. All rights reserved. 22
◼ 今回は「テストプレイ」についてお話を伺ってきました。
◼ テストプレイは事例としても多いです。
Background (2/2)
Copyright © TIS Inc. All rights reserved. 23
◼ Value Function
◼ シンプルなゲームなら、素のDeep Q-Networkでもプレイ可能。
◼ 「テストプレイ」としての効果はまだ検証段階。
◼ 「テスト」という意味なら、全探索プレイの方が良いケースも。
◼ (バリエーションを試せる進化戦略の方が用いられている印象あり)。
◼ 新要素(新キャラクター)を加えた場合の影響調査に使いたい。
◼ Policy系は学習が安定しないことが多い。
Application
Copyright © TIS Inc. All rights reserved. 24
◼ 強化学習 vs 模倣学習/教師あり学習
◼ プレイログを使用した模倣学習/教師あり学習はどこも行っている。
◼ 逆強化学習による報酬の見える化なども行われている。
Why RL?
Copyright © TIS Inc. All rights reserved. 25
◼ シミュレーターの開発
◼ ゲームの状態取得、行動実行をAPI経由で行える必要がある。
◼ 元々APIを備えていることは少ないため、環境整備から始まる。
◼ iOSのゲームなので実行にMacが必要など(Mac=エミュレーター)。
◼ プレイ速度が実時間
◼ 人間が実際にプレイするのと同じ時間がかかる。
◼ サンプル効率を考えると・・・?
Difficulty of RL (1/2)
from: Writing Code for NLP Research
Copyright © TIS Inc. All rights reserved. 26
◼ ゲーム特性と強化学習が想定する前提の差異
◼ 例: 麻雀
◼ 自分の戦略と関係のない要素で報酬が決まる(相手のツモ上がり等)。
◼ 最後の一手以外に落ち度がない(振り込み)。
◼ 戦略のスイッチ(上がるか、降りるか)。
◼ 不完全情報の場合、既存の最適化保証が維持されるか?という問題も。
Difficulty of RL (2/2)
Microsoftがオンライン麻雀対戦プラットフォーム「天
鳳」で10段に到達:
手法は未発表だが、どんな手法を使っているのか注目
Copyright © TIS Inc. All rights reserved. 27
◼ シミュレーターレスな学習方法
◼ オフラインでの学習方法の模索。
◼ プレイログを使用したモデルベース手法。
◼ ゲーム制作支援に向けた人との協調
◼ コンテンツ更新は頻繁で、制作支援の必要性は高い。
◼ ただ職人肌の人が多く、支援を欲しがらないケースもある。
◼ AIに任せず自分でやる、など。
◼ 強化学習で安定的な結果を出すことに成功していない背景もある。
◼ (AIこんなもんか?的な)
◼ ベストプラクティスの模索
◼ 強化学習で「こう効果が出せる」という勝ちパターンがまだない。
◼ これは強化学習に限らず、機械学習全般にいえる。
Focus & Future
Copyright © TIS Inc. All rights reserved. 28
広告配信
Advertisement
photo from 1950sUnlimited
Copyright © TIS Inc. All rights reserved. 29
◼ 広告配信の基本的な仕組み。
Background (1/4)
メディア運営者
メディアの出品
(売り先/価格を指定)
SSP
(Supply Side Platform)
DSP
(Demand Side Platform)
広告の出品
(広告表示先、価格)
企業(広告主)
RTB
(Real Time Bidding)
メディア運営者の条件に合う広告のうち、
最も高い購入価格が高い広告が(メディアの広告枠に)配信される
=広告枠のオークション
訪問ユーザーの属性 購入価格の提示
Copyright © TIS Inc. All rights reserved. 30
◼ 広告配信の基本的な仕組み。
Background (2/4)
広告を呼び出すJavaScript
広告を呼び出す
JavaScript
メディア運営者: Slideshare
Copyright © TIS Inc. All rights reserved. 31
◼ 広告配信の基本的な仕組み。
Background (3/4)
メディア運営者
(SlideShare)
SSP
(Supply Side Platform)
①出品
機械学習のスライドを見ている
30代 男性
RTB
(Real Time Bidding)
DSP
(Demand Side Platform)
企業(広告主)
(LinkedIn, BizReach等)
②入札
¥100で枠を買う by 企業A
¥150で枠を買う by 企業B
¥90で枠を買う by 企業C
③企業Bが落札!
※落札額は2番目の入札者の金額(この場合¥100)とされることが多い。
④企業Bの広告が配信される
Copyright © TIS Inc. All rights reserved. 32
◼ DSPで強化学習が使われている。
◼ 状態=どのメディア枠に
◼ 行動=どの広告を出せば
◼ 報酬=クリックされるか
◼ いくらで出すべきか?など他にも考えることはいろいろある。
◼ 詳細:ネット広告講義資料 at 東京大学 2017/07/11
今回は広告配信についてお話を伺ってきました。
Background (4/4)
Copyright © TIS Inc. All rights reserved. 33
◼ Bandit Algorithm
◼ 2011年ごろThompson Samplingを利用した事例が出て普及した。
◼ An Empirical Evaluation of Thompson Sampling
◼ 大幅なアルゴリズムの改善はそこからあまりない?
◼ 因果推論
◼ アルゴリズムの性能評価に利用している。
◼ 比較対象のユーザー属性が同じならどの手法が有効か?を検証する。
◼ A/Bテストと同じ考え方で、 Rubin派の手法を用いている。
◼ 非ランダムな状況でも、ランダムな状況と同じ結果を得たい。
◼ 余談だが、因果推論にはRubin派とPearl派などいろいろな流派がある。
◼ Rubin派は帰納的(データの分析/解析重視)、Pearl派は演繹的(因果
の関係/DAG重視)という印象だが、この点は突っ込むと火種にな
るため興味がある方はTheories of causation in psychological
scienceを参照されたし(日本語解説記事)。
Application
Copyright © TIS Inc. All rights reserved. 34
◼ 強化学習 vs 教師あり学習
◼ 過去のログから学習する場合、双方にほとんど差はない。
◼ ただ、教師ありの方が汎化性能が低い。
Why RL?
Copyright © TIS Inc. All rights reserved. 35
◼ 広告配信の速度
◼ ミリセカンドの単位で取引されるため、計算時間がとてもシビア。
◼ ユーザー属性を利用したContexual Banditも使いたいが、属性をベク
トル化している暇がない。
◼ そのため、ベクトル化せずに直で扱う手法を検討している。
◼ モデルの更新はバッチで行っている。
◼ 速すぎてリアルタイムにはデプロイできない。
◼ いきなり全適用はせず、徐々に適用率を上げていく。
Difficulty of RL (1/2)
「呪術廻戦」
Copyright © TIS Inc. All rights reserved. 36
◼ Policy単体の評価が難しい
◼ ε-greedyのεの調整で大きく差が出る。
◼ オフラインでの評価≠本番での評価
◼ ログデータが本番の分布とどれだけ近いか。
◼ 実際得られるデータは、広告枠を競り落とせたものに限られる。
◼ 「全部出せたら」を推定するには補正が必要。
◼ 補正は手元のデータに基づいて行うため、過学習を招く可能性がある。
Difficulty of RL (2/2)
Copyright © TIS Inc. All rights reserved. 37
◼ 転移学習/AutoMLへの期待
◼ 多様な広告に対し、多様なモデルを構築してカバーする。
◼ 過学習が問題なくなる頻度でモデルを更新する。
◼ 過去データとの乖離が大きくなるころにはモデルを更新する。
Focus & Future
おわりに
Copyright © TIS Inc. All rights reserved. 39
手法としては、逆強化学習が多く使われている印象。
◼ 人間の行動を分析したい。
◼ 人間の行動を反映したい。
こうしたニーズは多いと考えられる。逆強化学習で推定した報酬関数を、
数理計画のソルバーで使うという合わせ技もある。
ただ、逆強化学習はまだ研究が盛んとは言えない領域。
GAIL以降は模倣学習とセットで語られることが多く、単体での研究をあまり見ない印象。
実務での問題点が、まだ研究トピックとして認知されてない?
おわりに (1/4)
Copyright © TIS Inc. All rights reserved. 40
活用の課題は、シミュレーターと評価にあり?
◼ シミュレーター
◼ 既存環境(ゲームや配車)に、強化学習が介入できる口(API)が必要。
◼ あらかじめ備えられていることは少ないため、その対応がまず必要。
◼ 実プレイより短い時間でプレイできないと時間的に厳しい。
◼ そもそもシミュレーターレスで学習する手法の開発。
おわりに (2/4)
Copyright © TIS Inc. All rights reserved. 41
活用の課題は、シミュレーターと評価にあり?
◼ 評価
◼ どんな行動が最適かは、エキスパートでないと判断が難しい。
◼ 比較実験を行うには状態をそろえる必要があるが、コストが高い
◼ 同じ時間、同じ場所から「流し」をスタートするなど。
◼ 因果推論はこの助けになるかもしれない。
◼ 純粋な戦略以外の要素(εなど)も評価に大きな影響がある。
◼ 安定的な評価が出せて、はじめてエキスパートの信頼が得られる。
◼ エキスパートが先か、結果が先かの鶏卵問題。
おわりに (3/4)
Copyright © TIS Inc. All rights reserved. 42
"ビジネス適用に挑戦する現場"から見た強化学習の課題
◼ 強化学習が有用なビジネスシーンは確かに存在する。
◼ 長期的な行動の観点から見た状態・個別行動の評価。
◼ 配車や広告だけでなく、他ビジネス領域でも有効なはず。
◼ ゲームやロボットだけが強化学習の用途ではない。
◼ ビジネスで求められる領域と、学術研究の領域が少しずれている?
◼ 学術はWithout Human、現場はWith Humanの印象。
◼ 現場はお手本となる人/ログがある前提。
◼ 逆強化学習/模倣学習、転移性/ロバスト性が注目技術。
◼ 学術はWithout/Exceed Humanの領域拡大に注力している印象。
◼ 2D => 3D => Real
◼ シングルプレイヤーからマルチプレイヤー
◼ 完全情報から不完全情報
◼ 各領域で人間を超えよう
おわりに (4/4)
THANK YOU

Contenu connexe

Tendances

機械学習技術の紹介
機械学習技術の紹介機械学習技術の紹介
機械学習技術の紹介Takahiro Kubo
 
財務・非財務一体型の企業分析に向けて
財務・非財務一体型の企業分析に向けて財務・非財務一体型の企業分析に向けて
財務・非財務一体型の企業分析に向けてTakahiro Kubo
 
ESG評価を支える自然言語処理基盤の構築
ESG評価を支える自然言語処理基盤の構築ESG評価を支える自然言語処理基盤の構築
ESG評価を支える自然言語処理基盤の構築Takahiro Kubo
 
自然言語処理で読み解く金融文書
自然言語処理で読み解く金融文書自然言語処理で読み解く金融文書
自然言語処理で読み解く金融文書Takahiro Kubo
 
Machine learningbootstrap For Business
Machine learningbootstrap For BusinessMachine learningbootstrap For Business
Machine learningbootstrap For BusinessTakahiro Kubo
 
TISにおける、研究開発の方針とメソッド 2018
TISにおける、研究開発の方針とメソッド 2018TISにおける、研究開発の方針とメソッド 2018
TISにおける、研究開発の方針とメソッド 2018Takahiro Kubo
 
「人工知能」をあなたのビジネスで活用するには
「人工知能」をあなたのビジネスで活用するには「人工知能」をあなたのビジネスで活用するには
「人工知能」をあなたのビジネスで活用するにはTakahiro Kubo
 
文章を読み、理解する機能の獲得に向けて-Machine Comprehensionの研究動向-
文章を読み、理解する機能の獲得に向けて-Machine Comprehensionの研究動向-文章を読み、理解する機能の獲得に向けて-Machine Comprehensionの研究動向-
文章を読み、理解する機能の獲得に向けて-Machine Comprehensionの研究動向-Takahiro Kubo
 
「人工知能」との正しい付き合い方
「人工知能」との正しい付き合い方「人工知能」との正しい付き合い方
「人工知能」との正しい付き合い方Takahiro Kubo
 
機械学習を用いた会議診断システムの開発
機械学習を用いた会議診断システムの開発機械学習を用いた会議診断システムの開発
機械学習を用いた会議診断システムの開発Takahiro Kubo
 
データ視点のit資産価値評価の検討(経営情報学会2014)
データ視点のit資産価値評価の検討(経営情報学会2014)データ視点のit資産価値評価の検討(経営情報学会2014)
データ視点のit資産価値評価の検討(経営情報学会2014)Tetsu Kawata
 
A3RT -The details and actual use cases of“Analytics & Artificial intelligence...
A3RT -The details and actual use cases of“Analytics & Artificial intelligence...A3RT -The details and actual use cases of“Analytics & Artificial intelligence...
A3RT -The details and actual use cases of“Analytics & Artificial intelligence...Recruit Technologies
 
リクルートのビッグデータ活用基盤とデータ活用に向けた取組み
リクルートのビッグデータ活用基盤とデータ活用に向けた取組みリクルートのビッグデータ活用基盤とデータ活用に向けた取組み
リクルートのビッグデータ活用基盤とデータ活用に向けた取組みRecruit Technologies
 
機械学習で泣かないためのコード設計 2018
機械学習で泣かないためのコード設計 2018機械学習で泣かないためのコード設計 2018
機械学習で泣かないためのコード設計 2018Takahiro Kubo
 
自然言語処理で新型コロナウィルスに立ち向かう
自然言語処理で新型コロナウィルスに立ち向かう自然言語処理で新型コロナウィルスに立ち向かう
自然言語処理で新型コロナウィルスに立ち向かうTakahiro Kubo
 
TIS 戦略技術センター AI技術推進室紹介
TIS 戦略技術センター AI技術推進室紹介TIS 戦略技術センター AI技術推進室紹介
TIS 戦略技術センター AI技術推進室紹介Takahiro Kubo
 
[db tech showcase Tokyo 2018] #dbts2018 #D23 『機械学習の自動化を実現するDataRobotによるAIの民主化とは』
[db tech showcase Tokyo 2018] #dbts2018 #D23 『機械学習の自動化を実現するDataRobotによるAIの民主化とは』[db tech showcase Tokyo 2018] #dbts2018 #D23 『機械学習の自動化を実現するDataRobotによるAIの民主化とは』
[db tech showcase Tokyo 2018] #dbts2018 #D23 『機械学習の自動化を実現するDataRobotによるAIの民主化とは』Insight Technology, Inc.
 

Tendances (20)

機械学習技術の紹介
機械学習技術の紹介機械学習技術の紹介
機械学習技術の紹介
 
財務・非財務一体型の企業分析に向けて
財務・非財務一体型の企業分析に向けて財務・非財務一体型の企業分析に向けて
財務・非財務一体型の企業分析に向けて
 
ESG評価を支える自然言語処理基盤の構築
ESG評価を支える自然言語処理基盤の構築ESG評価を支える自然言語処理基盤の構築
ESG評価を支える自然言語処理基盤の構築
 
EMNLP2018 Overview
EMNLP2018 OverviewEMNLP2018 Overview
EMNLP2018 Overview
 
自然言語処理で読み解く金融文書
自然言語処理で読み解く金融文書自然言語処理で読み解く金融文書
自然言語処理で読み解く金融文書
 
Machine learningbootstrap For Business
Machine learningbootstrap For BusinessMachine learningbootstrap For Business
Machine learningbootstrap For Business
 
TISにおける、研究開発の方針とメソッド 2018
TISにおける、研究開発の方針とメソッド 2018TISにおける、研究開発の方針とメソッド 2018
TISにおける、研究開発の方針とメソッド 2018
 
「人工知能」をあなたのビジネスで活用するには
「人工知能」をあなたのビジネスで活用するには「人工知能」をあなたのビジネスで活用するには
「人工知能」をあなたのビジネスで活用するには
 
文章を読み、理解する機能の獲得に向けて-Machine Comprehensionの研究動向-
文章を読み、理解する機能の獲得に向けて-Machine Comprehensionの研究動向-文章を読み、理解する機能の獲得に向けて-Machine Comprehensionの研究動向-
文章を読み、理解する機能の獲得に向けて-Machine Comprehensionの研究動向-
 
「人工知能」との正しい付き合い方
「人工知能」との正しい付き合い方「人工知能」との正しい付き合い方
「人工知能」との正しい付き合い方
 
機械学習を用いた会議診断システムの開発
機械学習を用いた会議診断システムの開発機械学習を用いた会議診断システムの開発
機械学習を用いた会議診断システムの開発
 
データ視点のit資産価値評価の検討(経営情報学会2014)
データ視点のit資産価値評価の検討(経営情報学会2014)データ視点のit資産価値評価の検討(経営情報学会2014)
データ視点のit資産価値評価の検討(経営情報学会2014)
 
A3RT -The details and actual use cases of“Analytics & Artificial intelligence...
A3RT -The details and actual use cases of“Analytics & Artificial intelligence...A3RT -The details and actual use cases of“Analytics & Artificial intelligence...
A3RT -The details and actual use cases of“Analytics & Artificial intelligence...
 
20150625 cloudera
20150625 cloudera20150625 cloudera
20150625 cloudera
 
リクルートのビッグデータ活用基盤とデータ活用に向けた取組み
リクルートのビッグデータ活用基盤とデータ活用に向けた取組みリクルートのビッグデータ活用基盤とデータ活用に向けた取組み
リクルートのビッグデータ活用基盤とデータ活用に向けた取組み
 
機械学習で泣かないためのコード設計 2018
機械学習で泣かないためのコード設計 2018機械学習で泣かないためのコード設計 2018
機械学習で泣かないためのコード設計 2018
 
自然言語処理で新型コロナウィルスに立ち向かう
自然言語処理で新型コロナウィルスに立ち向かう自然言語処理で新型コロナウィルスに立ち向かう
自然言語処理で新型コロナウィルスに立ち向かう
 
TIS 戦略技術センター AI技術推進室紹介
TIS 戦略技術センター AI技術推進室紹介TIS 戦略技術センター AI技術推進室紹介
TIS 戦略技術センター AI技術推進室紹介
 
リクルート式AIの活用法
リクルート式AIの活用法リクルート式AIの活用法
リクルート式AIの活用法
 
[db tech showcase Tokyo 2018] #dbts2018 #D23 『機械学習の自動化を実現するDataRobotによるAIの民主化とは』
[db tech showcase Tokyo 2018] #dbts2018 #D23 『機械学習の自動化を実現するDataRobotによるAIの民主化とは』[db tech showcase Tokyo 2018] #dbts2018 #D23 『機械学習の自動化を実現するDataRobotによるAIの民主化とは』
[db tech showcase Tokyo 2018] #dbts2018 #D23 『機械学習の自動化を実現するDataRobotによるAIの民主化とは』
 

Similaire à Reinforcement Learning Inside Business

データマイニングCROSS 第2部-機械学習・大規模分散処理
データマイニングCROSS 第2部-機械学習・大規模分散処理データマイニングCROSS 第2部-機械学習・大規模分散処理
データマイニングCROSS 第2部-機械学習・大規模分散処理Koichi Hamada
 
アドテクを支える人と技術
アドテクを支える人と技術アドテクを支える人と技術
アドテクを支える人と技術Ransui Iso
 
Struggling with BIGDATA -リクルートおけるデータサイエンス/エンジニアリング-
Struggling with BIGDATA -リクルートおけるデータサイエンス/エンジニアリング-Struggling with BIGDATA -リクルートおけるデータサイエンス/エンジニアリング-
Struggling with BIGDATA -リクルートおけるデータサイエンス/エンジニアリング-Recruit Technologies
 
【新卒採用】Webセミナー大全。過去と現在、そして未来まで by レプモス
【新卒採用】Webセミナー大全。過去と現在、そして未来まで by レプモス【新卒採用】Webセミナー大全。過去と現在、そして未来まで by レプモス
【新卒採用】Webセミナー大全。過去と現在、そして未来まで by レプモスHiro Sakuma
 
Yahoo!プロモーション広告のビックデータ基盤を支える技術と今後の展望
Yahoo!プロモーション広告のビックデータ基盤を支える技術と今後の展望Yahoo!プロモーション広告のビックデータ基盤を支える技術と今後の展望
Yahoo!プロモーション広告のビックデータ基盤を支える技術と今後の展望Yahoo!デベロッパーネットワーク
 
ポストAiを見据えた日本企業の経営戦略 加藤整 20171020_v1.2
ポストAiを見据えた日本企業の経営戦略 加藤整 20171020_v1.2ポストAiを見据えた日本企業の経営戦略 加藤整 20171020_v1.2
ポストAiを見据えた日本企業の経営戦略 加藤整 20171020_v1.2Sei Kato (加藤 整)
 
アドテク案件入門講座
アドテク案件入門講座アドテク案件入門講座
アドテク案件入門講座伊藤 孝
 
JTF2018 FIWARE x robot x IoT
JTF2018 FIWARE x robot x IoTJTF2018 FIWARE x robot x IoT
JTF2018 FIWARE x robot x IoTNobuyuki Matsui
 
Pycon reject banditアルゴリズムを用いた自動abテスト
Pycon reject banditアルゴリズムを用いた自動abテストPycon reject banditアルゴリズムを用いた自動abテスト
Pycon reject banditアルゴリズムを用いた自動abテストShoichi Taguchi
 
リクルートにおけるPaaS活用事例
リクルートにおけるPaaS活用事例リクルートにおけるPaaS活用事例
リクルートにおけるPaaS活用事例Recruit Technologies
 
Base 20141011 1_for_slideshre
Base 20141011 1_for_slideshreBase 20141011 1_for_slideshre
Base 20141011 1_for_slideshre正善 大島
 
A3RT - the details and actual use cases of "Analytics & Artificial intelligen...
A3RT - the details and actual use cases of "Analytics & Artificial intelligen...A3RT - the details and actual use cases of "Analytics & Artificial intelligen...
A3RT - the details and actual use cases of "Analytics & Artificial intelligen...DataWorks Summit/Hadoop Summit
 
リクルートを支える横断データ基盤と機械学習の適用事例
リクルートを支える横断データ基盤と機械学習の適用事例リクルートを支える横断データ基盤と機械学習の適用事例
リクルートを支える横断データ基盤と機械学習の適用事例Tetsutaro Watanabe
 
<インフラ管理者向け>チームでのAI開発を支援するAI開発プラットフォームKAMONOHASHI
<インフラ管理者向け>チームでのAI開発を支援するAI開発プラットフォームKAMONOHASHI<インフラ管理者向け>チームでのAI開発を支援するAI開発プラットフォームKAMONOHASHI
<インフラ管理者向け>チームでのAI開発を支援するAI開発プラットフォームKAMONOHASHIKamonohashi
 
モデリングの彼方に未来を見た
モデリングの彼方に未来を見たモデリングの彼方に未来を見た
モデリングの彼方に未来を見たHagimoto Junzo
 
Pydata_リクルートにおけるbanditアルゴリズム_実装前までのプロセス
Pydata_リクルートにおけるbanditアルゴリズム_実装前までのプロセスPydata_リクルートにおけるbanditアルゴリズム_実装前までのプロセス
Pydata_リクルートにおけるbanditアルゴリズム_実装前までのプロセスShoichi Taguchi
 
Coldfusionを活かすシステム企画をリーンスタートアップに学ぶ
Coldfusionを活かすシステム企画をリーンスタートアップに学ぶColdfusionを活かすシステム企画をリーンスタートアップに学ぶ
Coldfusionを活かすシステム企画をリーンスタートアップに学ぶmasashi takehara
 

Similaire à Reinforcement Learning Inside Business (20)

データマイニングCROSS 第2部-機械学習・大規模分散処理
データマイニングCROSS 第2部-機械学習・大規模分散処理データマイニングCROSS 第2部-機械学習・大規模分散処理
データマイニングCROSS 第2部-機械学習・大規模分散処理
 
アドテクを支える人と技術
アドテクを支える人と技術アドテクを支える人と技術
アドテクを支える人と技術
 
Struggling with BIGDATA -リクルートおけるデータサイエンス/エンジニアリング-
Struggling with BIGDATA -リクルートおけるデータサイエンス/エンジニアリング-Struggling with BIGDATA -リクルートおけるデータサイエンス/エンジニアリング-
Struggling with BIGDATA -リクルートおけるデータサイエンス/エンジニアリング-
 
【新卒採用】Webセミナー大全。過去と現在、そして未来まで by レプモス
【新卒採用】Webセミナー大全。過去と現在、そして未来まで by レプモス【新卒採用】Webセミナー大全。過去と現在、そして未来まで by レプモス
【新卒採用】Webセミナー大全。過去と現在、そして未来まで by レプモス
 
Yahoo!プロモーション広告のビックデータ基盤を支える技術と今後の展望
Yahoo!プロモーション広告のビックデータ基盤を支える技術と今後の展望Yahoo!プロモーション広告のビックデータ基盤を支える技術と今後の展望
Yahoo!プロモーション広告のビックデータ基盤を支える技術と今後の展望
 
株式会社ディレクタス サービス紹介資料
株式会社ディレクタス サービス紹介資料株式会社ディレクタス サービス紹介資料
株式会社ディレクタス サービス紹介資料
 
ポストAiを見据えた日本企業の経営戦略 加藤整 20171020_v1.2
ポストAiを見据えた日本企業の経営戦略 加藤整 20171020_v1.2ポストAiを見据えた日本企業の経営戦略 加藤整 20171020_v1.2
ポストAiを見据えた日本企業の経営戦略 加藤整 20171020_v1.2
 
アドテク案件入門講座
アドテク案件入門講座アドテク案件入門講座
アドテク案件入門講座
 
JTF2018 FIWARE x robot x IoT
JTF2018 FIWARE x robot x IoTJTF2018 FIWARE x robot x IoT
JTF2018 FIWARE x robot x IoT
 
Pycon reject banditアルゴリズムを用いた自動abテスト
Pycon reject banditアルゴリズムを用いた自動abテストPycon reject banditアルゴリズムを用いた自動abテスト
Pycon reject banditアルゴリズムを用いた自動abテスト
 
リクルートにおけるPaaS活用事例
リクルートにおけるPaaS活用事例リクルートにおけるPaaS活用事例
リクルートにおけるPaaS活用事例
 
Base 20141011 1_for_slideshre
Base 20141011 1_for_slideshreBase 20141011 1_for_slideshre
Base 20141011 1_for_slideshre
 
A3RT - the details and actual use cases of "Analytics & Artificial intelligen...
A3RT - the details and actual use cases of "Analytics & Artificial intelligen...A3RT - the details and actual use cases of "Analytics & Artificial intelligen...
A3RT - the details and actual use cases of "Analytics & Artificial intelligen...
 
BPStudy#101発表資料
BPStudy#101発表資料BPStudy#101発表資料
BPStudy#101発表資料
 
リクルートを支える横断データ基盤と機械学習の適用事例
リクルートを支える横断データ基盤と機械学習の適用事例リクルートを支える横断データ基盤と機械学習の適用事例
リクルートを支える横断データ基盤と機械学習の適用事例
 
AWSでの金融系システム構築・運用勘所
AWSでの金融系システム構築・運用勘所AWSでの金融系システム構築・運用勘所
AWSでの金融系システム構築・運用勘所
 
<インフラ管理者向け>チームでのAI開発を支援するAI開発プラットフォームKAMONOHASHI
<インフラ管理者向け>チームでのAI開発を支援するAI開発プラットフォームKAMONOHASHI<インフラ管理者向け>チームでのAI開発を支援するAI開発プラットフォームKAMONOHASHI
<インフラ管理者向け>チームでのAI開発を支援するAI開発プラットフォームKAMONOHASHI
 
モデリングの彼方に未来を見た
モデリングの彼方に未来を見たモデリングの彼方に未来を見た
モデリングの彼方に未来を見た
 
Pydata_リクルートにおけるbanditアルゴリズム_実装前までのプロセス
Pydata_リクルートにおけるbanditアルゴリズム_実装前までのプロセスPydata_リクルートにおけるbanditアルゴリズム_実装前までのプロセス
Pydata_リクルートにおけるbanditアルゴリズム_実装前までのプロセス
 
Coldfusionを活かすシステム企画をリーンスタートアップに学ぶ
Coldfusionを活かすシステム企画をリーンスタートアップに学ぶColdfusionを活かすシステム企画をリーンスタートアップに学ぶ
Coldfusionを活かすシステム企画をリーンスタートアップに学ぶ
 

Plus de Takahiro Kubo

自然言語処理による企業の気候変動対策分析
自然言語処理による企業の気候変動対策分析自然言語処理による企業の気候変動対策分析
自然言語処理による企業の気候変動対策分析Takahiro Kubo
 
国際会計基準(IFRS)適用企業の財務評価方法
国際会計基準(IFRS)適用企業の財務評価方法国際会計基準(IFRS)適用企業の財務評価方法
国際会計基準(IFRS)適用企業の財務評価方法Takahiro Kubo
 
Expressing Visual Relationships via Language: 自然言語による画像編集を目指して
Expressing Visual Relationships via Language: 自然言語による画像編集を目指してExpressing Visual Relationships via Language: 自然言語による画像編集を目指して
Expressing Visual Relationships via Language: 自然言語による画像編集を目指してTakahiro Kubo
 
あるべきESG投資の評価に向けた、自然言語処理の活用
あるべきESG投資の評価に向けた、自然言語処理の活用あるべきESG投資の評価に向けた、自然言語処理の活用
あるべきESG投資の評価に向けた、自然言語処理の活用Takahiro Kubo
 
nlpaper.challenge NLP/CV交流勉強会 画像認識 7章
nlpaper.challenge NLP/CV交流勉強会 画像認識 7章nlpaper.challenge NLP/CV交流勉強会 画像認識 7章
nlpaper.challenge NLP/CV交流勉強会 画像認識 7章Takahiro Kubo
 
Curiosity may drives your output routine.
Curiosity may drives  your output routine.Curiosity may drives  your output routine.
Curiosity may drives your output routine.Takahiro Kubo
 
2018年12月4日までに『呪術廻戦』を読む理由
2018年12月4日までに『呪術廻戦』を読む理由2018年12月4日までに『呪術廻戦』を読む理由
2018年12月4日までに『呪術廻戦』を読む理由Takahiro Kubo
 
Graph Attention Network
Graph Attention NetworkGraph Attention Network
Graph Attention NetworkTakahiro Kubo
 
感情の出どころを探る、一歩進んだ感情解析
感情の出どころを探る、一歩進んだ感情解析感情の出どころを探る、一歩進んだ感情解析
感情の出どころを探る、一歩進んだ感情解析Takahiro Kubo
 
技術文書を書く際の、心技体<改訂版>
技術文書を書く際の、心技体<改訂版>技術文書を書く際の、心技体<改訂版>
技術文書を書く際の、心技体<改訂版>Takahiro Kubo
 
kintone evangelist meetup 2017
kintone evangelist meetup 2017kintone evangelist meetup 2017
kintone evangelist meetup 2017Takahiro Kubo
 
深層学習の判断根拠を理解するための 研究とその意義 @PRMU 2017熊本
深層学習の判断根拠を理解するための 研究とその意義 @PRMU 2017熊本深層学習の判断根拠を理解するための 研究とその意義 @PRMU 2017熊本
深層学習の判断根拠を理解するための 研究とその意義 @PRMU 2017熊本Takahiro Kubo
 
言葉のもつ広がりを、モデルの学習に活かそう -one-hot to distribution in language modeling-
言葉のもつ広がりを、モデルの学習に活かそう -one-hot to distribution in language modeling-言葉のもつ広がりを、モデルの学習に活かそう -one-hot to distribution in language modeling-
言葉のもつ広がりを、モデルの学習に活かそう -one-hot to distribution in language modeling-Takahiro Kubo
 
Tech Circle #23 Next Music Production by Google Magenta
Tech Circle #23 Next Music Productionby Google MagentaTech Circle #23 Next Music Productionby Google Magenta
Tech Circle #23 Next Music Production by Google MagentaTakahiro Kubo
 
開発の本質:チケット数を1/100にする方法
開発の本質:チケット数を1/100にする方法開発の本質:チケット数を1/100にする方法
開発の本質:チケット数を1/100にする方法Takahiro Kubo
 

Plus de Takahiro Kubo (15)

自然言語処理による企業の気候変動対策分析
自然言語処理による企業の気候変動対策分析自然言語処理による企業の気候変動対策分析
自然言語処理による企業の気候変動対策分析
 
国際会計基準(IFRS)適用企業の財務評価方法
国際会計基準(IFRS)適用企業の財務評価方法国際会計基準(IFRS)適用企業の財務評価方法
国際会計基準(IFRS)適用企業の財務評価方法
 
Expressing Visual Relationships via Language: 自然言語による画像編集を目指して
Expressing Visual Relationships via Language: 自然言語による画像編集を目指してExpressing Visual Relationships via Language: 自然言語による画像編集を目指して
Expressing Visual Relationships via Language: 自然言語による画像編集を目指して
 
あるべきESG投資の評価に向けた、自然言語処理の活用
あるべきESG投資の評価に向けた、自然言語処理の活用あるべきESG投資の評価に向けた、自然言語処理の活用
あるべきESG投資の評価に向けた、自然言語処理の活用
 
nlpaper.challenge NLP/CV交流勉強会 画像認識 7章
nlpaper.challenge NLP/CV交流勉強会 画像認識 7章nlpaper.challenge NLP/CV交流勉強会 画像認識 7章
nlpaper.challenge NLP/CV交流勉強会 画像認識 7章
 
Curiosity may drives your output routine.
Curiosity may drives  your output routine.Curiosity may drives  your output routine.
Curiosity may drives your output routine.
 
2018年12月4日までに『呪術廻戦』を読む理由
2018年12月4日までに『呪術廻戦』を読む理由2018年12月4日までに『呪術廻戦』を読む理由
2018年12月4日までに『呪術廻戦』を読む理由
 
Graph Attention Network
Graph Attention NetworkGraph Attention Network
Graph Attention Network
 
感情の出どころを探る、一歩進んだ感情解析
感情の出どころを探る、一歩進んだ感情解析感情の出どころを探る、一歩進んだ感情解析
感情の出どころを探る、一歩進んだ感情解析
 
技術文書を書く際の、心技体<改訂版>
技術文書を書く際の、心技体<改訂版>技術文書を書く際の、心技体<改訂版>
技術文書を書く際の、心技体<改訂版>
 
kintone evangelist meetup 2017
kintone evangelist meetup 2017kintone evangelist meetup 2017
kintone evangelist meetup 2017
 
深層学習の判断根拠を理解するための 研究とその意義 @PRMU 2017熊本
深層学習の判断根拠を理解するための 研究とその意義 @PRMU 2017熊本深層学習の判断根拠を理解するための 研究とその意義 @PRMU 2017熊本
深層学習の判断根拠を理解するための 研究とその意義 @PRMU 2017熊本
 
言葉のもつ広がりを、モデルの学習に活かそう -one-hot to distribution in language modeling-
言葉のもつ広がりを、モデルの学習に活かそう -one-hot to distribution in language modeling-言葉のもつ広がりを、モデルの学習に活かそう -one-hot to distribution in language modeling-
言葉のもつ広がりを、モデルの学習に活かそう -one-hot to distribution in language modeling-
 
Tech Circle #23 Next Music Production by Google Magenta
Tech Circle #23 Next Music Productionby Google MagentaTech Circle #23 Next Music Productionby Google Magenta
Tech Circle #23 Next Music Production by Google Magenta
 
開発の本質:チケット数を1/100にする方法
開発の本質:チケット数を1/100にする方法開発の本質:チケット数を1/100にする方法
開発の本質:チケット数を1/100にする方法
 

Reinforcement Learning Inside Business

  • 1. Copyright © TIS Inc. All rights reserved. Reinforcement Learning Inside Business 戦略技術センター 久保隆宏 強化学習のビジネス適用に挑戦する現場より
  • 2. Copyright © TIS Inc. All rights reserved. 2 ◼ はじめに ◼ 強化学習活用の現場より ◼ モビリティ ◼ ゲーム ◼ 広告配信 ◼ おわりに Reinforcement Learning inside Business
  • 3. Copyright © TIS Inc. All rights reserved. 3 久保隆宏 TIS株式会社 戦略技術センター ◼ 化学系メーカーの業務コンサルタント出身。 ◼ 既存の技術では業務改善を行える範囲に限界があるとの実感から、戦 略技術センターへ異動。 ◼ 現在は会計/投資分野をテーマとし、主にESG評価への活用をテーマに 研究中。 自己紹介 チュートリアル講演:深層学習 の判断根拠を理解するための研 究とその意義(@PRMU 2017) 機械学習をシステムに組み込む 際の依存性管理について (@MANABIYA 2018) あるべきESG投資の評価に向け た、自然言語処理の活用 (@CCSE 2019)
  • 4. Copyright © TIS Inc. All rights reserved. 4 「強化学習はビジネスで使えるのか?」 この問いは、強化学習を学んでいたら一度は考えたことがあると思います。 事例自体はいくつも公開されています。 ただ、本当に使っているのか研究だけなのかは曖昧です。 そこで、「使っている」企業の方へヒアリングをしてきました。 ビジネスで使う際の効果や課題、そして思いなど、生の声をお届けできた ら幸いです。 はじめに
  • 5. Copyright © TIS Inc. All rights reserved. 5 ◼ 強化学習を採用した背景 ◼ (採用時)強化学習に期待していた効果と、実際の差異 ◼ 強化学習を扱う際の難しさ ◼ 現在着目している手法・事例 ◼ 今後、強化学習が克服すべきと考えている課題 ヒアリング対象企業 ◼ D社様: モビリティ/ゲーム開発 ◼ A社様: 広告配信/ゲーム開発 ◼ G社様: ゲーム開発 ◼ P社様: モビリティ 参考: ヒアリング項目 ご協力ありがとうございます!
  • 7. Copyright © TIS Inc. All rights reserved. 7 モビリティ Mobility photo by Warrick Wynne
  • 8. Copyright © TIS Inc. All rights reserved. 8 ◼ モビリティ(交通)は、強化学習の活用が進んでいる領域の一つ。 ◼ KDD2018では、モビリティの将来として3階層が提示されている。 Background (1/3) KDD2018 Artificial Intelligence in Transportation より ◼ 「交通インフラ」の上に「乗り物」が走り、さらに乗り物を利用した 「サービス」が展開されるというイメージ。 ◼ 配車最適化以外に、信号機制御などの事例も紹介されている。 ◼ 今回は「運行経路の最適化」「配送経路の最適化」についてお話を 伺ってきました。
  • 9. Copyright © TIS Inc. All rights reserved. 9 ◼ 運行経路の最適化 ◼ タクシードライバーに運行経路の提案を行う。 ◼ 「流し」と「配車」の違い。 ◼ 流し: お客さんを見つけたらピックアップする。 ◼ 配車: お客さんに呼び出されていく。 ◼ 「流し」の場合、事前に誰がどこまで行きたいか把握できない。 ◼ 「運行経路の最適化」は、「流し」のサポートを行う。 ◼ どの辺を走っていればピックアップできそうか?を提案する。 ◼ 海外の機械学習勢は配車が多い(Uber/DiDiなど)。 Background (2/3) 流し 配車 ※画像はイメージです
  • 10. Copyright © TIS Inc. All rights reserved. 10 ◼ 配送経路の最適化 ◼ 大型物流拠点以後の配送(ラストテンマイルぐらい)の最適化。 ◼ 中小の物流業者が担っており、人手で輸送経路を考えている。 ◼ 1回2時間ぐらいの配送を4回/日。そのたびに経路を考える・・・ Background (3/3) 「キングダム」より
  • 11. Copyright © TIS Inc. All rights reserved. 11 ◼ 運行経路の最適化 ◼ Value Function ◼ 場所をStateとし、遷移先の状態価値から行き先を提案する。 ◼ エピソード長はチューニングを行っている。 ◼ 逆強化学習 ◼ タクシー運転手の軌跡から、報酬関数を逆算する。 ◼ 配送経路の最適化 ◼ 逆強化学習 ◼ ベテランドライバーの軌跡から、報酬関数を逆算する。 Application
  • 12. Copyright © TIS Inc. All rights reserved. 12 ◼ 運行経路の最適化 ◼ Value Function ◼ 既存の最適化手法でも解けるかも(事前に比較したわけではない)。 ◼ ただ個別の流しや配車よりトータル(=長期)で見てどうかを評価したい。 ◼ この点がプラットフォーム全体での最適化(=収益最大化)に繋がる。 ◼ 逆強化学習 ◼ 人間の実際の行動から報酬関数を推定するために使用した。 ◼ 「流し」には独特のノウハウがあり、逐一報酬にするのは難しい。 ◼ お客さんは常に左で拾うため右折をあんまりしない、など。 ◼ ただすべては信用できないため、学習データにフィルタを掛けて いる。 Why RL? (1/3)
  • 13. Copyright © TIS Inc. All rights reserved. 13 ◼ 配送経路最適化 ◼ 逆強化学習 (Maximum Entropy Deep IRL) ◼ 人間の実際の行動から報酬関数を推定するために使用した。 ◼ メタヒューリスティックで解いたが、最短経路優先になる。 ◼ ドライバーならではの評価(幹線道路通らないetc)を加味したかった。 Why RL? (2/3)
  • 14. Copyright © TIS Inc. All rights reserved. 14 補足: 数理最適化については"数理最適化とメタヒューリスティクス"が良い資料。 ◼ 数理最適化 ◼ 問題について厳密な数理解を求める。 ◼ 厳密な解を求めるのが可能だが、規模が大きくなると適用困難。 ◼ メタヒューリスティック ◼ 定義がややこしいが(参考)、機械学習はこの中に含まれる。 ◼ ヒューリスティック(最適解保証なし)+近似解への収束保証がある手法。 ◼ パラメーターを変えることで様々な問題を解ける汎用的(メタ)な解法。 ◼ なんかかはやりの手法(「モダン」ヒューリスティックともいわれる) 問題の規模が数理最適化で解けるか、解ける単位に分割可能かが分岐点。 既存のソルバーが提供されている場合もあるため、自作しなくても適用/ 組み合わせで様々な問題を解くことができる。 Why RL? (3/3)
  • 15. Copyright © TIS Inc. All rights reserved. 15 ◼ 運行経路の最適化 ◼ 戦略の良さを評価できない ◼ 自分自身がタクシードライバーではないので・・・ ◼ 実際使う人と納得感を得ていくプロセスが必要になる。 ◼ メタ的な方策を学ばせるのが難しい ◼ この地域はお客がいなくなったので、別の地域へ行こう、など。 ◼ 「別の地域へ行く」には、短期的に報酬が下がることになる。 ◼ ただ、別の地域へ行けば留まるより報酬は得られるかもしれない。 ◼ こうした大局的な判断を学習させるのが難しい。 Difficulty of RL (1/2)
  • 16. Copyright © TIS Inc. All rights reserved. 16 ◼ 配送経路の最適化 ◼ 思ったよりドライバーの経路を再現できなかった。 ◼ 最終的には逆強化学習でない手法(パーティクルフィルタ)を使用。 ◼ 十分な学習にはそれなりのデータ量が必要 ◼ 10万件程度必要だが、実際に取れるのは数千件。 ◼ 過学習しやすい(未知の配送経路に対応できない)。 Difficulty of RL (2/2)
  • 17. Copyright © TIS Inc. All rights reserved. 17 ◼ 運行経路の最適化 ◼ 「流し」を扱う難しさ。 ◼ 「流し」の場合、潜在需要を予測する必要がある。 ◼ 需要予測のモデルとValue Functionを組み合わせられたらいい。 ◼ 「配車」の方がビジネス的にもアルゴリズム的にも予測しやすい。 ◼ ただ、「配車」を行うにはアプリがまず普及する必要がある。 ◼ DiDiの事例は注目しているが、 DiDiは「配車」。 Focus & Future (1/3)
  • 18. Copyright © TIS Inc. All rights reserved. 18 ◼ 配送経路の最適化 ◼ 少量データによる逆強化学習。 ◼ エキスパートのデータが十分に取れないことがある。 ◼ 報酬の優先順位を加味できる手法。 ◼ 時間、安全性、コスト、ドライバーによって優先度が若干異なる。 ◼ 学習済み逆強化学習モデルの汎化/転移。 ◼ ある地域で学習したモデルを他の地域でも使用するなど。 Focus & Future (2/3)
  • 19. Copyright © TIS Inc. All rights reserved. 19 ◼ 強化学習活用プロジェクトの特性 ◼ 不確実性がとても高い。 ◼ 小さな事例をどんどん出して経験を蓄積する必要がある。 ◼ サンプル効率の悪さはかなりネックになっている。 ◼ シミュレーターの作成が難しい。 Focus & Future (3/3)
  • 20. Copyright © TIS Inc. All rights reserved. 20 ゲーム Game photo from Hubert Figuière
  • 21. Copyright © TIS Inc. All rights reserved. 21 ◼ ゲームは強化学習の十八番と言える。 ◼ ただ、人間をメタクソに負かしても「活用」とはいえない。 ◼ ゲームへの適用は以下3つのパターンに分けられる。 ◼ テストプレイ ◼ ゲーム作成の支援 ◼ ゲーム内キャラクター操作 Background (1/2) テストプレイ(手法は教師あり) Human-Like Playtesting with Deep Learning レベルに応じたマップ生成 Human-Like Playtesting with Deep Learning NPC操作(現在の主目的は品質管理) AIエージェントに「バトルフィールド 1」のプレイを教えるには?
  • 22. Copyright © TIS Inc. All rights reserved. 22 ◼ 今回は「テストプレイ」についてお話を伺ってきました。 ◼ テストプレイは事例としても多いです。 Background (2/2)
  • 23. Copyright © TIS Inc. All rights reserved. 23 ◼ Value Function ◼ シンプルなゲームなら、素のDeep Q-Networkでもプレイ可能。 ◼ 「テストプレイ」としての効果はまだ検証段階。 ◼ 「テスト」という意味なら、全探索プレイの方が良いケースも。 ◼ (バリエーションを試せる進化戦略の方が用いられている印象あり)。 ◼ 新要素(新キャラクター)を加えた場合の影響調査に使いたい。 ◼ Policy系は学習が安定しないことが多い。 Application
  • 24. Copyright © TIS Inc. All rights reserved. 24 ◼ 強化学習 vs 模倣学習/教師あり学習 ◼ プレイログを使用した模倣学習/教師あり学習はどこも行っている。 ◼ 逆強化学習による報酬の見える化なども行われている。 Why RL?
  • 25. Copyright © TIS Inc. All rights reserved. 25 ◼ シミュレーターの開発 ◼ ゲームの状態取得、行動実行をAPI経由で行える必要がある。 ◼ 元々APIを備えていることは少ないため、環境整備から始まる。 ◼ iOSのゲームなので実行にMacが必要など(Mac=エミュレーター)。 ◼ プレイ速度が実時間 ◼ 人間が実際にプレイするのと同じ時間がかかる。 ◼ サンプル効率を考えると・・・? Difficulty of RL (1/2) from: Writing Code for NLP Research
  • 26. Copyright © TIS Inc. All rights reserved. 26 ◼ ゲーム特性と強化学習が想定する前提の差異 ◼ 例: 麻雀 ◼ 自分の戦略と関係のない要素で報酬が決まる(相手のツモ上がり等)。 ◼ 最後の一手以外に落ち度がない(振り込み)。 ◼ 戦略のスイッチ(上がるか、降りるか)。 ◼ 不完全情報の場合、既存の最適化保証が維持されるか?という問題も。 Difficulty of RL (2/2) Microsoftがオンライン麻雀対戦プラットフォーム「天 鳳」で10段に到達: 手法は未発表だが、どんな手法を使っているのか注目
  • 27. Copyright © TIS Inc. All rights reserved. 27 ◼ シミュレーターレスな学習方法 ◼ オフラインでの学習方法の模索。 ◼ プレイログを使用したモデルベース手法。 ◼ ゲーム制作支援に向けた人との協調 ◼ コンテンツ更新は頻繁で、制作支援の必要性は高い。 ◼ ただ職人肌の人が多く、支援を欲しがらないケースもある。 ◼ AIに任せず自分でやる、など。 ◼ 強化学習で安定的な結果を出すことに成功していない背景もある。 ◼ (AIこんなもんか?的な) ◼ ベストプラクティスの模索 ◼ 強化学習で「こう効果が出せる」という勝ちパターンがまだない。 ◼ これは強化学習に限らず、機械学習全般にいえる。 Focus & Future
  • 28. Copyright © TIS Inc. All rights reserved. 28 広告配信 Advertisement photo from 1950sUnlimited
  • 29. Copyright © TIS Inc. All rights reserved. 29 ◼ 広告配信の基本的な仕組み。 Background (1/4) メディア運営者 メディアの出品 (売り先/価格を指定) SSP (Supply Side Platform) DSP (Demand Side Platform) 広告の出品 (広告表示先、価格) 企業(広告主) RTB (Real Time Bidding) メディア運営者の条件に合う広告のうち、 最も高い購入価格が高い広告が(メディアの広告枠に)配信される =広告枠のオークション 訪問ユーザーの属性 購入価格の提示
  • 30. Copyright © TIS Inc. All rights reserved. 30 ◼ 広告配信の基本的な仕組み。 Background (2/4) 広告を呼び出すJavaScript 広告を呼び出す JavaScript メディア運営者: Slideshare
  • 31. Copyright © TIS Inc. All rights reserved. 31 ◼ 広告配信の基本的な仕組み。 Background (3/4) メディア運営者 (SlideShare) SSP (Supply Side Platform) ①出品 機械学習のスライドを見ている 30代 男性 RTB (Real Time Bidding) DSP (Demand Side Platform) 企業(広告主) (LinkedIn, BizReach等) ②入札 ¥100で枠を買う by 企業A ¥150で枠を買う by 企業B ¥90で枠を買う by 企業C ③企業Bが落札! ※落札額は2番目の入札者の金額(この場合¥100)とされることが多い。 ④企業Bの広告が配信される
  • 32. Copyright © TIS Inc. All rights reserved. 32 ◼ DSPで強化学習が使われている。 ◼ 状態=どのメディア枠に ◼ 行動=どの広告を出せば ◼ 報酬=クリックされるか ◼ いくらで出すべきか?など他にも考えることはいろいろある。 ◼ 詳細:ネット広告講義資料 at 東京大学 2017/07/11 今回は広告配信についてお話を伺ってきました。 Background (4/4)
  • 33. Copyright © TIS Inc. All rights reserved. 33 ◼ Bandit Algorithm ◼ 2011年ごろThompson Samplingを利用した事例が出て普及した。 ◼ An Empirical Evaluation of Thompson Sampling ◼ 大幅なアルゴリズムの改善はそこからあまりない? ◼ 因果推論 ◼ アルゴリズムの性能評価に利用している。 ◼ 比較対象のユーザー属性が同じならどの手法が有効か?を検証する。 ◼ A/Bテストと同じ考え方で、 Rubin派の手法を用いている。 ◼ 非ランダムな状況でも、ランダムな状況と同じ結果を得たい。 ◼ 余談だが、因果推論にはRubin派とPearl派などいろいろな流派がある。 ◼ Rubin派は帰納的(データの分析/解析重視)、Pearl派は演繹的(因果 の関係/DAG重視)という印象だが、この点は突っ込むと火種にな るため興味がある方はTheories of causation in psychological scienceを参照されたし(日本語解説記事)。 Application
  • 34. Copyright © TIS Inc. All rights reserved. 34 ◼ 強化学習 vs 教師あり学習 ◼ 過去のログから学習する場合、双方にほとんど差はない。 ◼ ただ、教師ありの方が汎化性能が低い。 Why RL?
  • 35. Copyright © TIS Inc. All rights reserved. 35 ◼ 広告配信の速度 ◼ ミリセカンドの単位で取引されるため、計算時間がとてもシビア。 ◼ ユーザー属性を利用したContexual Banditも使いたいが、属性をベク トル化している暇がない。 ◼ そのため、ベクトル化せずに直で扱う手法を検討している。 ◼ モデルの更新はバッチで行っている。 ◼ 速すぎてリアルタイムにはデプロイできない。 ◼ いきなり全適用はせず、徐々に適用率を上げていく。 Difficulty of RL (1/2) 「呪術廻戦」
  • 36. Copyright © TIS Inc. All rights reserved. 36 ◼ Policy単体の評価が難しい ◼ ε-greedyのεの調整で大きく差が出る。 ◼ オフラインでの評価≠本番での評価 ◼ ログデータが本番の分布とどれだけ近いか。 ◼ 実際得られるデータは、広告枠を競り落とせたものに限られる。 ◼ 「全部出せたら」を推定するには補正が必要。 ◼ 補正は手元のデータに基づいて行うため、過学習を招く可能性がある。 Difficulty of RL (2/2)
  • 37. Copyright © TIS Inc. All rights reserved. 37 ◼ 転移学習/AutoMLへの期待 ◼ 多様な広告に対し、多様なモデルを構築してカバーする。 ◼ 過学習が問題なくなる頻度でモデルを更新する。 ◼ 過去データとの乖離が大きくなるころにはモデルを更新する。 Focus & Future
  • 39. Copyright © TIS Inc. All rights reserved. 39 手法としては、逆強化学習が多く使われている印象。 ◼ 人間の行動を分析したい。 ◼ 人間の行動を反映したい。 こうしたニーズは多いと考えられる。逆強化学習で推定した報酬関数を、 数理計画のソルバーで使うという合わせ技もある。 ただ、逆強化学習はまだ研究が盛んとは言えない領域。 GAIL以降は模倣学習とセットで語られることが多く、単体での研究をあまり見ない印象。 実務での問題点が、まだ研究トピックとして認知されてない? おわりに (1/4)
  • 40. Copyright © TIS Inc. All rights reserved. 40 活用の課題は、シミュレーターと評価にあり? ◼ シミュレーター ◼ 既存環境(ゲームや配車)に、強化学習が介入できる口(API)が必要。 ◼ あらかじめ備えられていることは少ないため、その対応がまず必要。 ◼ 実プレイより短い時間でプレイできないと時間的に厳しい。 ◼ そもそもシミュレーターレスで学習する手法の開発。 おわりに (2/4)
  • 41. Copyright © TIS Inc. All rights reserved. 41 活用の課題は、シミュレーターと評価にあり? ◼ 評価 ◼ どんな行動が最適かは、エキスパートでないと判断が難しい。 ◼ 比較実験を行うには状態をそろえる必要があるが、コストが高い ◼ 同じ時間、同じ場所から「流し」をスタートするなど。 ◼ 因果推論はこの助けになるかもしれない。 ◼ 純粋な戦略以外の要素(εなど)も評価に大きな影響がある。 ◼ 安定的な評価が出せて、はじめてエキスパートの信頼が得られる。 ◼ エキスパートが先か、結果が先かの鶏卵問題。 おわりに (3/4)
  • 42. Copyright © TIS Inc. All rights reserved. 42 "ビジネス適用に挑戦する現場"から見た強化学習の課題 ◼ 強化学習が有用なビジネスシーンは確かに存在する。 ◼ 長期的な行動の観点から見た状態・個別行動の評価。 ◼ 配車や広告だけでなく、他ビジネス領域でも有効なはず。 ◼ ゲームやロボットだけが強化学習の用途ではない。 ◼ ビジネスで求められる領域と、学術研究の領域が少しずれている? ◼ 学術はWithout Human、現場はWith Humanの印象。 ◼ 現場はお手本となる人/ログがある前提。 ◼ 逆強化学習/模倣学習、転移性/ロバスト性が注目技術。 ◼ 学術はWithout/Exceed Humanの領域拡大に注力している印象。 ◼ 2D => 3D => Real ◼ シングルプレイヤーからマルチプレイヤー ◼ 完全情報から不完全情報 ◼ 各領域で人間を超えよう おわりに (4/4)