SlideShare a Scribd company logo
1 of 25
NIPS+読み会・関西#7
逆強化学習の行動解析への応用
Eiji Uchibe
Dept. of Brain Robot Interface, ATR Computational Neuroscience Labs.
逆強化学習
• 最適方策(エキスパート)から生成された状態・行動系列から
報酬を推定する方法
• 不良設定問題なので、報酬は唯一には求められない
• 順強化学習と組み合わせて、ロボット制御のための
模倣学習法として研究されることが多い
• 次世代脳プロジェクト冬のシンポジウムで、行動解析
のための逆強化学習について講演する予定なので
そのネタつくりの一環として今日は2本の論文を紹介
報酬・コスト
(目的関数)
(順) 強化学習
逆強化学習
最適方策
(エキスパート)
逆強化学習の行動解析への応用例
[Mueling et al., 2014]
[Shimosaka et al., 2014; 2015] [Collette et al., 2017]
[Yamaguchi et al., 2018]
Modeling sensory-motor decisions in
natural behavior
R. Zhang , S. Zhang, M. H. Tong, Y. Cui, C. A. Rothkopf, D. H. Ballard,
M. M. Hayhoe
PLoS Computational Biology, 2018
論文の概要
• 3次元仮想環境下での人の
ナビゲーションの解析
• モジュール逆強化学習の提案
– 各モジュールの報酬関数を
簡単なクラスに制限できる
– 割引率も同時に推定
モジュラー行動価値関数
• 本来の状態行動価値関数を
𝑁個のモジュール価値で表現
• 𝑀 𝑛
: 𝑛番目のモジュールで
関連する物体の個数
𝑄 𝑠, 𝑎 = ෍
𝑛=1
𝑁
𝑄 𝑛 𝑠 𝑛 , 𝑎
= ෍
𝑛=1
𝑁
෍
𝑚=1
𝑀 𝑛
𝑄 𝑛 𝑠 𝑛,𝑚 , 𝑎
モジュール化による価値関数の簡単化
• 各モジュールはfollow a path across the room, avoiding obstacles,
heading towards target objectsなど単純化されていると仮定
• さらに状態遷移が決定論的だと仮定
• モジュール𝑛の行動価値が次のように表現できる
– 𝑟 𝑛 , 𝛾 𝑛 が逆強化学習で推定するパラメータ
– 𝑑(𝑠(𝑛.𝑚), 𝑎)が状態𝑠 𝑛,𝑚 で行動𝑎をとった
あと、オブジェクト𝑚までの「距離」
𝑄 𝑛
𝑠 𝑛,𝑚
, 𝑎 = 𝑟 𝑛
× 𝛾 𝑛 𝑑 𝑠 𝑛,𝑚 ,𝑎
[Doya, 2008]
割引率とは
• 報酬が有界なら、割引積算報酬も有界なので
扱いやすい
• Prediction of immediate and future rewards
differentially recruits cortico-basal ganglia loops
The robot does not move
towards the battery
The robot tries to catch
the battery
large 𝜸
small 𝜸𝑟 ≤ 𝑅max
෍
𝑡
𝛾 𝑡
𝑟𝑡 ≤
𝑅max
1 − 𝛾
[Tanaka et al., 2004]
逆強化学習の目的関数
• Softmax行動選択を仮定
– 𝜂: 逆温度メタパラメータ
• 行動データ𝒟 = 𝑠𝑡, 𝑎 𝑡 𝑡=1
𝑇
が与えられたとき
対数尤度関数は
𝜋(𝑎 ∣ 𝑠) =
exp 𝜂𝑄 𝑠, 𝑎
σ 𝑎′ exp 𝜂𝑄 𝑠, 𝑎′
𝜂 = 3
𝜂 = 0.05
log ℒ = ෍
𝑡=1
𝑇
൮෍
𝑛=1
𝑁
෍
𝑚=1
𝑀 𝑛
𝜂𝑟 𝑛 𝛾 𝑛 𝑑 𝑠 𝑡
𝑛,𝑚
,𝑎 𝑡
− log ෍
𝑎
ෑ
𝑛=1
𝑁
ෑ
𝑚=1
𝑀 𝑛
exp 𝜂𝑟 𝑛
𝛾 𝑛 𝑑 𝑠 𝑡
𝑛,𝑚
,𝑎
実際に最適化計算をするときの注意
• 𝑟 1
, … , 𝑟 𝑁
についてのスパースネス正則項(L1)を導入
• 𝛾 1 , … , 𝛾 𝑁 は基本的にスパースではないので何もしない
• 𝜂は報酬との積の形でしか対数尤度に出てこないので推定不可
• 𝑟 1:𝑁 と𝛾 1:𝑁 を同時に推定すると対数尤度は凸ではないので、
最適化が困難
– 𝛾 1:𝑁
はグリッドサーチ
– 𝑟 1:𝑁 は勾配法で最適化。𝛾 1:𝑁 が与えられたとき対数尤度は凸
[Dvijotham and Todorov, 2010]
被験者の行動と逆強化学習の推定結果の比較
• 黒線: 被験者の行動、緑線: 推定された方策から生成、3人の被験
者
Task1: Follow the path only
Task2: Follow the path and avoid obstacles
Task3: Follow the path and collect the targets
Task4: Follow, avoid, and collect together
タスク間の差異
• 全ての被験者のデータをまとめて解析
被験者間の差異
推定された方策と人の行動の定量的な比較
• 提案手法MIRLは人の行動と近い
個人的な意見
• モジュール化によって報酬や価値関数を簡単にするのは面白い
– モジュール数𝑁を可変にするのは可能
– 𝑑(𝑠, 𝑎)が計算できるということは現状態から報酬の源までの距離が
計算できることを意味するので、本質的にモデルベース手法?
– 𝑑(𝑠, 𝑎)を特徴量とみなせばモデルフリーと解釈できる?
• 各モジュールの報酬の総和𝑟 = σ 𝑛 𝑟 𝑛 を使って学習した最適行動
価値関数𝑄∗
はモジュールの行動価値の和ではない
エントロピ正則された強化学習のように𝑄∗
とσ 𝑛 𝑄 𝑛
のギャップ
(のbound)を評価する手法を使う必要がある?
Can AI predict animal movements? Filling
gaps in animal trajectories using inverse
reinforcement learning
T. Hirakawa, T. Yamashita, T. Tamaki, H. Fujiyoshi, Y. Umezu,
I. Takeuchi, S. Matsumoto, and K. Yoda
Ecosphere, 2018
論文の概要と選択理由
• 海鳥(オオミズナギドリ)の飛行経路予測
– GPSの情報が得られない場合に、うまく
経路を予測できるか?
計測データ
• 106 trajectories (53 males and 53 females)
報酬を表現する特徴量オス メス
最大エントロピ逆強化学習の適用
• モデルベース逆強化学習MaxEnt IRL [Ziebart et al., 2010]を適用
• 環境を量子化し、離散状態・離散行動MDP環境を作成
– 元の連続状態は位置(𝑥𝑡, 𝑦𝑡)と経過時間𝑧𝑡
逆強化学習MaxEnt IRLの概念図
MaxEnt IRL [Ziebart et al., 2008]
• 前述のModular IRLとは異なり、軌跡𝜏 = {𝑠1, 𝑎1, … , 𝑠 𝑇, 𝑎 𝑇}に対して
確率モデルを導入
– 𝜽は即時報酬のパラメータ
• 勾配計算には𝑍 𝜃 の微分
が必要だが、𝑍(𝜃)の評価
には順方向の強化学習計算が必要
• 何度も順方向の問題を解く必要がある
𝑃 𝜏 𝜽 =
1
𝑍 𝜽
exp ෍
𝑡=1
𝑇
𝑟(𝑠𝑡, 𝑎 𝑡; 𝜽) , 𝑍(𝜽) = ෍
𝜏
exp ෍
𝑡=1
𝑇
𝑟 𝑠𝑡, 𝑎 𝑡; 𝜽
𝜏 総報酬
𝜏
Pr(𝜏𝑖)
𝜏
オスの行動データからの予測の比較
• 実際の計測データを
– 黒線: 観測されたデータ
– 青線: 正解データ
• 黒線のデータが与えられた
とき青線を予測できるか?
• 赤線: 逆強化学習で推定した
報酬を用いた予測
• オレンジ: 従来の線形予測
推定された報酬関数
個人的な意見
• 機械学習の観点からは単純なMaxEnt IRLの適用
• 生態学の分野で逆強化学習が応用された例としては興味深い
• 実装が公開されているので、自分で確認したい
https://github.com/thirakawa/MaxEnt_IRL_trajectory_interpolation
• 単純な線形補間ではなく、単純なダイナミカルシステムとして
処理した結果の比較も見たい
• 結果として得られた報酬は専門家から見て興味深いのかどうか
References
• Doya K. (2008). Modulators of decision making. Nature neuroscience, 11(4):410–416.
• Hirakawa, T., Yamashita, T., Tamaki, T., Fujiyoshi, H., Umezu, Y., Takeuchi, I., Matsumoto, S., and
Yoda, K. (2018). Can AI predict animal movements? Filling gaps in animal trajectories using inverse
reinforcement learning. Ecosphere.
• Tanaka, S.C., Doya, K., Okada, G., Ueda, K., Okamoto, Y., and Yamawaki, S. (2004). Prediction of
immediate and future rewards differentially recruits cortico-basal ganglia loops. Nature
Neuroscience, 7(8): 887-893.
• Zhang , R., Zhang, S., Tong, M. H., Cui, Y., Rothkopf, C. A., Ballard, D. H., and Hayhoe, M. M. (2018).
Modeling sensory-motor decisions in natural behavior. PLoS Computational Biology.
• Ziebart, B., et al. (2008). Maximum entropy inverse reinforcement learning. In Proc. of AAAI.

More Related Content

What's hot

強化学習エージェントの内発的動機付けによる探索とその応用(第4回 統計・機械学習若手シンポジウム 招待公演)
強化学習エージェントの内発的動機付けによる探索とその応用(第4回 統計・機械学習若手シンポジウム 招待公演)強化学習エージェントの内発的動機付けによる探索とその応用(第4回 統計・機械学習若手シンポジウム 招待公演)
強化学習エージェントの内発的動機付けによる探索とその応用(第4回 統計・機械学習若手シンポジウム 招待公演)Shota Imai
 
最近強化学習の良記事がたくさん出てきたので勉強しながらまとめた
最近強化学習の良記事がたくさん出てきたので勉強しながらまとめた最近強化学習の良記事がたくさん出てきたので勉強しながらまとめた
最近強化学習の良記事がたくさん出てきたので勉強しながらまとめたKatsuya Ito
 
ノンパラメトリックベイズを用いた逆強化学習
ノンパラメトリックベイズを用いた逆強化学習ノンパラメトリックベイズを用いた逆強化学習
ノンパラメトリックベイズを用いた逆強化学習Shota Ishikawa
 
タクシー運行最適化を実現する機械学習システムの社会実装
タクシー運行最適化を実現する機械学習システムの社会実装タクシー運行最適化を実現する機械学習システムの社会実装
タクシー運行最適化を実現する機械学習システムの社会実装RyuichiKanoh
 
報酬設計と逆強化学習
報酬設計と逆強化学習報酬設計と逆強化学習
報酬設計と逆強化学習Yusuke Nakata
 
Optimizer入門&最新動向
Optimizer入門&最新動向Optimizer入門&最新動向
Optimizer入門&最新動向Motokawa Tetsuya
 
Reinforcement Learning @ NeurIPS2018
Reinforcement Learning @ NeurIPS2018Reinforcement Learning @ NeurIPS2018
Reinforcement Learning @ NeurIPS2018佑 甲野
 
[DL輪読会]`強化学習のための状態表現学習 -より良い「世界モデル」の獲得に向けて-
[DL輪読会]`強化学習のための状態表現学習 -より良い「世界モデル」の獲得に向けて-[DL輪読会]`強化学習のための状態表現学習 -より良い「世界モデル」の獲得に向けて-
[DL輪読会]`強化学習のための状態表現学習 -より良い「世界モデル」の獲得に向けて-Deep Learning JP
 
[DL輪読会]Temporal Abstraction in NeurIPS2019
[DL輪読会]Temporal Abstraction in NeurIPS2019[DL輪読会]Temporal Abstraction in NeurIPS2019
[DL輪読会]Temporal Abstraction in NeurIPS2019Deep Learning JP
 
[DL輪読会]Learning Latent Dynamics for Planning from Pixels
[DL輪読会]Learning Latent Dynamics for Planning from Pixels[DL輪読会]Learning Latent Dynamics for Planning from Pixels
[DL輪読会]Learning Latent Dynamics for Planning from PixelsDeep Learning JP
 
強化学習その3
強化学習その3強化学習その3
強化学習その3nishio
 
[Dl輪読会]introduction of reinforcement learning
[Dl輪読会]introduction of reinforcement learning[Dl輪読会]introduction of reinforcement learning
[Dl輪読会]introduction of reinforcement learningDeep Learning JP
 
強化学習その2
強化学習その2強化学習その2
強化学習その2nishio
 
ゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement Learning
ゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement Learningゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement Learning
ゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement LearningPreferred Networks
 
[DL輪読会]ドメイン転移と不変表現に関するサーベイ
[DL輪読会]ドメイン転移と不変表現に関するサーベイ[DL輪読会]ドメイン転移と不変表現に関するサーベイ
[DL輪読会]ドメイン転移と不変表現に関するサーベイDeep Learning JP
 
バンディット問題について
バンディット問題についてバンディット問題について
バンディット問題についてjkomiyama
 
勾配降下法の 最適化アルゴリズム
勾配降下法の最適化アルゴリズム勾配降下法の最適化アルゴリズム
勾配降下法の 最適化アルゴリズムnishio
 
強化学習の基礎的な考え方と問題の分類
強化学習の基礎的な考え方と問題の分類強化学習の基礎的な考え方と問題の分類
強化学習の基礎的な考え方と問題の分類佑 甲野
 
[DL輪読会]Reinforcement Learning with Deep Energy-Based Policies
[DL輪読会]Reinforcement Learning with Deep Energy-Based Policies[DL輪読会]Reinforcement Learning with Deep Energy-Based Policies
[DL輪読会]Reinforcement Learning with Deep Energy-Based PoliciesDeep Learning JP
 

What's hot (20)

強化学習エージェントの内発的動機付けによる探索とその応用(第4回 統計・機械学習若手シンポジウム 招待公演)
強化学習エージェントの内発的動機付けによる探索とその応用(第4回 統計・機械学習若手シンポジウム 招待公演)強化学習エージェントの内発的動機付けによる探索とその応用(第4回 統計・機械学習若手シンポジウム 招待公演)
強化学習エージェントの内発的動機付けによる探索とその応用(第4回 統計・機械学習若手シンポジウム 招待公演)
 
最近強化学習の良記事がたくさん出てきたので勉強しながらまとめた
最近強化学習の良記事がたくさん出てきたので勉強しながらまとめた最近強化学習の良記事がたくさん出てきたので勉強しながらまとめた
最近強化学習の良記事がたくさん出てきたので勉強しながらまとめた
 
ノンパラメトリックベイズを用いた逆強化学習
ノンパラメトリックベイズを用いた逆強化学習ノンパラメトリックベイズを用いた逆強化学習
ノンパラメトリックベイズを用いた逆強化学習
 
タクシー運行最適化を実現する機械学習システムの社会実装
タクシー運行最適化を実現する機械学習システムの社会実装タクシー運行最適化を実現する機械学習システムの社会実装
タクシー運行最適化を実現する機械学習システムの社会実装
 
報酬設計と逆強化学習
報酬設計と逆強化学習報酬設計と逆強化学習
報酬設計と逆強化学習
 
Optimizer入門&最新動向
Optimizer入門&最新動向Optimizer入門&最新動向
Optimizer入門&最新動向
 
Reinforcement Learning @ NeurIPS2018
Reinforcement Learning @ NeurIPS2018Reinforcement Learning @ NeurIPS2018
Reinforcement Learning @ NeurIPS2018
 
[DL輪読会]`強化学習のための状態表現学習 -より良い「世界モデル」の獲得に向けて-
[DL輪読会]`強化学習のための状態表現学習 -より良い「世界モデル」の獲得に向けて-[DL輪読会]`強化学習のための状態表現学習 -より良い「世界モデル」の獲得に向けて-
[DL輪読会]`強化学習のための状態表現学習 -より良い「世界モデル」の獲得に向けて-
 
[DL輪読会]Temporal Abstraction in NeurIPS2019
[DL輪読会]Temporal Abstraction in NeurIPS2019[DL輪読会]Temporal Abstraction in NeurIPS2019
[DL輪読会]Temporal Abstraction in NeurIPS2019
 
[DL輪読会]Learning Latent Dynamics for Planning from Pixels
[DL輪読会]Learning Latent Dynamics for Planning from Pixels[DL輪読会]Learning Latent Dynamics for Planning from Pixels
[DL輪読会]Learning Latent Dynamics for Planning from Pixels
 
強化学習その3
強化学習その3強化学習その3
強化学習その3
 
[Dl輪読会]introduction of reinforcement learning
[Dl輪読会]introduction of reinforcement learning[Dl輪読会]introduction of reinforcement learning
[Dl輪読会]introduction of reinforcement learning
 
強化学習その2
強化学習その2強化学習その2
強化学習その2
 
ゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement Learning
ゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement Learningゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement Learning
ゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement Learning
 
[DL輪読会]ドメイン転移と不変表現に関するサーベイ
[DL輪読会]ドメイン転移と不変表現に関するサーベイ[DL輪読会]ドメイン転移と不変表現に関するサーベイ
[DL輪読会]ドメイン転移と不変表現に関するサーベイ
 
A3C解説
A3C解説A3C解説
A3C解説
 
バンディット問題について
バンディット問題についてバンディット問題について
バンディット問題について
 
勾配降下法の 最適化アルゴリズム
勾配降下法の最適化アルゴリズム勾配降下法の最適化アルゴリズム
勾配降下法の 最適化アルゴリズム
 
強化学習の基礎的な考え方と問題の分類
強化学習の基礎的な考え方と問題の分類強化学習の基礎的な考え方と問題の分類
強化学習の基礎的な考え方と問題の分類
 
[DL輪読会]Reinforcement Learning with Deep Energy-Based Policies
[DL輪読会]Reinforcement Learning with Deep Energy-Based Policies[DL輪読会]Reinforcement Learning with Deep Energy-Based Policies
[DL輪読会]Reinforcement Learning with Deep Energy-Based Policies
 

Similar to NIPS KANSAI Reading Group #7: 逆強化学習の行動解析への応用

Computational Motor Control: Reinforcement Learning (JAIST summer course)
Computational Motor Control: Reinforcement Learning (JAIST summer course) Computational Motor Control: Reinforcement Learning (JAIST summer course)
Computational Motor Control: Reinforcement Learning (JAIST summer course) hirokazutanaka
 
WI2研究会(公開用) “データ分析でよく使う前処理の整理と対処”
WI2研究会(公開用) “データ分析でよく使う前処理の整理と対処” WI2研究会(公開用) “データ分析でよく使う前処理の整理と対処”
WI2研究会(公開用) “データ分析でよく使う前処理の整理と対処” Hajime Sasaki
 
心理学におけるベイズ統計の流行を整理する
心理学におけるベイズ統計の流行を整理する心理学におけるベイズ統計の流行を整理する
心理学におけるベイズ統計の流行を整理するHiroshi Shimizu
 
東大大学院 電子情報学特論講義資料「深層学習概論と理論解析の課題」大野健太
東大大学院 電子情報学特論講義資料「深層学習概論と理論解析の課題」大野健太東大大学院 電子情報学特論講義資料「深層学習概論と理論解析の課題」大野健太
東大大学院 電子情報学特論講義資料「深層学習概論と理論解析の課題」大野健太Preferred Networks
 
[DL輪読会]Meta-Learning Probabilistic Inference for Prediction
[DL輪読会]Meta-Learning Probabilistic Inference for Prediction[DL輪読会]Meta-Learning Probabilistic Inference for Prediction
[DL輪読会]Meta-Learning Probabilistic Inference for PredictionDeep Learning JP
 
iOS_Consortium_20170120
iOS_Consortium_20170120iOS_Consortium_20170120
iOS_Consortium_20170120陽平 山口
 
Active Learning 入門
Active Learning 入門Active Learning 入門
Active Learning 入門Shuyo Nakatani
 
データサイエンティストに聞く!今更聞けない機械学習の基礎から応用まで V7
データサイエンティストに聞く!今更聞けない機械学習の基礎から応用まで V7データサイエンティストに聞く!今更聞けない機械学習の基礎から応用まで V7
データサイエンティストに聞く!今更聞けない機械学習の基礎から応用まで V7Shunsuke Nakamura
 
WWW2018 論文読み会 Web Search and Mining
WWW2018 論文読み会 Web Search and MiningWWW2018 論文読み会 Web Search and Mining
WWW2018 論文読み会 Web Search and Miningcyberagent
 
分析・モニタリングのために作文活動を測定するシステムの設計
分析・モニタリングのために作文活動を測定するシステムの設計分析・モニタリングのために作文活動を測定するシステムの設計
分析・モニタリングのために作文活動を測定するシステムの設計yamahige
 
Self-Critical Sequence Training for Image Captioning (関東CV勉強会 CVPR 2017 読み会)
Self-Critical Sequence Training for Image Captioning (関東CV勉強会 CVPR 2017 読み会)Self-Critical Sequence Training for Image Captioning (関東CV勉強会 CVPR 2017 読み会)
Self-Critical Sequence Training for Image Captioning (関東CV勉強会 CVPR 2017 読み会)Yoshitaka Ushiku
 
Dots deep learning部_20161221
Dots deep learning部_20161221Dots deep learning部_20161221
Dots deep learning部_20161221陽平 山口
 
Jubatusにおける大規模分散オンライン機械学習
Jubatusにおける大規模分散オンライン機械学習Jubatusにおける大規模分散オンライン機械学習
Jubatusにおける大規模分散オンライン機械学習Preferred Networks
 
CVPR2019読み会@関東CV
CVPR2019読み会@関東CVCVPR2019読み会@関東CV
CVPR2019読み会@関東CVTakanori Ogata
 
論文紹介 Identifying Implementation Bugs in Machine Learning based Image Classifi...
論文紹介 Identifying Implementation Bugs in Machine Learning based Image Classifi...論文紹介 Identifying Implementation Bugs in Machine Learning based Image Classifi...
論文紹介 Identifying Implementation Bugs in Machine Learning based Image Classifi...y-uti
 
鷲崎 愛媛大学講演-プロジェクト型演習2014年12月15日
鷲崎 愛媛大学講演-プロジェクト型演習2014年12月15日鷲崎 愛媛大学講演-プロジェクト型演習2014年12月15日
鷲崎 愛媛大学講演-プロジェクト型演習2014年12月15日Hironori Washizaki
 
LCCC2010:Learning on Cores, Clusters and Cloudsの解説
LCCC2010:Learning on Cores,  Clusters and Cloudsの解説LCCC2010:Learning on Cores,  Clusters and Cloudsの解説
LCCC2010:Learning on Cores, Clusters and Cloudsの解説Preferred Networks
 
20170618論文読み会 伊藤
20170618論文読み会 伊藤20170618論文読み会 伊藤
20170618論文読み会 伊藤Tomoki Itou
 
分散型強化学習手法の最近の動向と分散計算フレームワークRayによる実装の試み
分散型強化学習手法の最近の動向と分散計算フレームワークRayによる実装の試み分散型強化学習手法の最近の動向と分散計算フレームワークRayによる実装の試み
分散型強化学習手法の最近の動向と分散計算フレームワークRayによる実装の試みSusumuOTA
 

Similar to NIPS KANSAI Reading Group #7: 逆強化学習の行動解析への応用 (20)

Computational Motor Control: Reinforcement Learning (JAIST summer course)
Computational Motor Control: Reinforcement Learning (JAIST summer course) Computational Motor Control: Reinforcement Learning (JAIST summer course)
Computational Motor Control: Reinforcement Learning (JAIST summer course)
 
WI2研究会(公開用) “データ分析でよく使う前処理の整理と対処”
WI2研究会(公開用) “データ分析でよく使う前処理の整理と対処” WI2研究会(公開用) “データ分析でよく使う前処理の整理と対処”
WI2研究会(公開用) “データ分析でよく使う前処理の整理と対処”
 
心理学におけるベイズ統計の流行を整理する
心理学におけるベイズ統計の流行を整理する心理学におけるベイズ統計の流行を整理する
心理学におけるベイズ統計の流行を整理する
 
東大大学院 電子情報学特論講義資料「深層学習概論と理論解析の課題」大野健太
東大大学院 電子情報学特論講義資料「深層学習概論と理論解析の課題」大野健太東大大学院 電子情報学特論講義資料「深層学習概論と理論解析の課題」大野健太
東大大学院 電子情報学特論講義資料「深層学習概論と理論解析の課題」大野健太
 
[DL輪読会]Meta-Learning Probabilistic Inference for Prediction
[DL輪読会]Meta-Learning Probabilistic Inference for Prediction[DL輪読会]Meta-Learning Probabilistic Inference for Prediction
[DL輪読会]Meta-Learning Probabilistic Inference for Prediction
 
iOS_Consortium_20170120
iOS_Consortium_20170120iOS_Consortium_20170120
iOS_Consortium_20170120
 
Active Learning 入門
Active Learning 入門Active Learning 入門
Active Learning 入門
 
データサイエンティストに聞く!今更聞けない機械学習の基礎から応用まで V7
データサイエンティストに聞く!今更聞けない機械学習の基礎から応用まで V7データサイエンティストに聞く!今更聞けない機械学習の基礎から応用まで V7
データサイエンティストに聞く!今更聞けない機械学習の基礎から応用まで V7
 
WWW2018 論文読み会 Web Search and Mining
WWW2018 論文読み会 Web Search and MiningWWW2018 論文読み会 Web Search and Mining
WWW2018 論文読み会 Web Search and Mining
 
分析・モニタリングのために作文活動を測定するシステムの設計
分析・モニタリングのために作文活動を測定するシステムの設計分析・モニタリングのために作文活動を測定するシステムの設計
分析・モニタリングのために作文活動を測定するシステムの設計
 
Self-Critical Sequence Training for Image Captioning (関東CV勉強会 CVPR 2017 読み会)
Self-Critical Sequence Training for Image Captioning (関東CV勉強会 CVPR 2017 読み会)Self-Critical Sequence Training for Image Captioning (関東CV勉強会 CVPR 2017 読み会)
Self-Critical Sequence Training for Image Captioning (関東CV勉強会 CVPR 2017 読み会)
 
Dots deep learning部_20161221
Dots deep learning部_20161221Dots deep learning部_20161221
Dots deep learning部_20161221
 
Jubatusにおける大規模分散オンライン機械学習
Jubatusにおける大規模分散オンライン機械学習Jubatusにおける大規模分散オンライン機械学習
Jubatusにおける大規模分散オンライン機械学習
 
CVPR2019読み会@関東CV
CVPR2019読み会@関東CVCVPR2019読み会@関東CV
CVPR2019読み会@関東CV
 
論文紹介 Identifying Implementation Bugs in Machine Learning based Image Classifi...
論文紹介 Identifying Implementation Bugs in Machine Learning based Image Classifi...論文紹介 Identifying Implementation Bugs in Machine Learning based Image Classifi...
論文紹介 Identifying Implementation Bugs in Machine Learning based Image Classifi...
 
DevLove20141206
DevLove20141206DevLove20141206
DevLove20141206
 
鷲崎 愛媛大学講演-プロジェクト型演習2014年12月15日
鷲崎 愛媛大学講演-プロジェクト型演習2014年12月15日鷲崎 愛媛大学講演-プロジェクト型演習2014年12月15日
鷲崎 愛媛大学講演-プロジェクト型演習2014年12月15日
 
LCCC2010:Learning on Cores, Clusters and Cloudsの解説
LCCC2010:Learning on Cores,  Clusters and Cloudsの解説LCCC2010:Learning on Cores,  Clusters and Cloudsの解説
LCCC2010:Learning on Cores, Clusters and Cloudsの解説
 
20170618論文読み会 伊藤
20170618論文読み会 伊藤20170618論文読み会 伊藤
20170618論文読み会 伊藤
 
分散型強化学習手法の最近の動向と分散計算フレームワークRayによる実装の試み
分散型強化学習手法の最近の動向と分散計算フレームワークRayによる実装の試み分散型強化学習手法の最近の動向と分散計算フレームワークRayによる実装の試み
分散型強化学習手法の最近の動向と分散計算フレームワークRayによる実装の試み
 

NIPS KANSAI Reading Group #7: 逆強化学習の行動解析への応用