SlideShare une entreprise Scribd logo
1  sur  27
Deep Auto-Encoder Neural
Networks in Reiforcement Learnning
Sascha Lange and Martin Riedmiller
Computer Science Department,Albert-Ludwigs
University of Freiburg, D-79194 Freiburg, Germany
(IJCNN2010)
2013/02/15
M1  金子 貴輝
概要
• 強化学習の状態観測に DL を使った研究
• 強化学習で一般的な、迷路でのゴールタ
スク
– ただし状態は迷路の拡大画像で得られる
• バッチ型強化学習に Deep Auto Encoder を
組み合わせたモデルを提案
• ディスプレイ画像をカメラで撮ったもの
でも 15Hz で画像処理して良い方策を学習
した
– 初めて実画像に RL を適用できた
迷路課題
• 床と壁とゴールからなる格子世界
• ランダムな位置から始まり、ゴールするまで負の報
酬が与えられる
• スタートからゴールまで( 1 エピソード)が繰り返
される
• 簡単な強化学習では、位置を直接見て行動決定でき
る
• この論文では迷路を俯瞰した画像が与えられる
提案モデル:強化学習エージェントの構成
• Deep encoder
– 特徴空間を 2 次元まで
落としこむエンコーダ
– Deep auto-encoder と
して学習する
• 関数近似器
– 行動決定の指標になる
行動価値関数 Q(s,a)
– 学習には Fitted Q-
iteration を用いる
Deep Learning とバッチ強化学習の 2 つからなる
提案モデル:学習の流れ
• 1 エピソードの状態遷移
全てを記録する
– 観測系列を抜き出して
Deep Learning する
– エンコーダで特徴空間での
状態遷移に翻訳して、
バッチ強化学習手法を使う
(inner loop)
• 1 エピソードごとに、エンコーダと関数近似器が
学習を行う  (outer loop)
Deep Auto Encoder の学習
• 層ごとの事前学習+全体での微調整
• 再構成誤差を最小化するのに、勾配法をベースに
した RProp 学習側 [1] を利用する
– RProp は勾配ベクトルを正規化する
– 正規化によって BP よりも局所解にはまりにくい
– パラメータ調整に対して頑健でもある
1
2
3
Fitted Q-iteration[2]
• 得られている状態遷移集合 F から Q(s,a) を近似する関数を作る
• 動的計画法を用いて Q(s,a) を反復計算する
– 0 で Q(s,a) を初期化する
– 観測したそれぞれの状態行動対 (s,a) に、現在の Q(s,a) から推測
される Q 値を加え、訓練データ P とする
– 訓練データ P から Q(s,a) を近似して置き換える
提案モデル (Deep Fitted Q-Iterations)
• ランダムな重みのエンコー
ダとランダムな方策のエー
ジェントで初期化する
• エピソードごとにエンコー
ダと関数近似器を学習
– 毎回、事前学習と微調整を
行ってエンコーダを学習する
– 関数近似器はエピソードのた
びに初期化され、 Inner loop
で再計算される
• 得られた Q(s,a) を基に、方
策を決定する (ε-greedy な
ど)
変化形と最適化
• 受容野の使用
– 画像の近傍関係から窓を設定する
• 古い Q(s,a) の再利用
– エピソードごとの Q(s,a) の反復計算の初期値に前の
Q(s,a) を再利用する
– 収束が早くなる
• エンコーダの学習タイミングの間引き
– 状態の観測回数が 2 倍になるタイミングのみ更新
実験 1 :概念の検証
• 迷路画像を拡大してノイズなしで与える
• スタート位置も各セルの中心に限定する
– 移動量が 1 セル分なので状態数が 31 個に限定さ
れる
実験 1 の結果
• 11 層の Deep Encoder を使用
– 素子数は下の層から順に、
900-900-484-225-121-113-57-29-
15-8-2
– 下 5 つの層で 9x9 の受容野を使
用
– 190 エポックの微調整後の平均
再構成誤差は 10.9
– ノイズに対する 2 次元特徴の頑
健性はない
• 500x500 格子で状態を近似して強化学習
– 65 エピソードで最適方策に収束
実験 2 :特徴空間の評価
• エージェントの位置をセルの中心に限定しない
– 状態数は 775 に増加
• 強化学習のアルゴリズムを切り離して実験
– さまざまな状態の迷路画像を 6200 枚用意
• 迷路画像にノイズを乗せる
– 標準偏差 0.1 のガウスノイズを乗せる
実験 2 の結果:再構成誤
差• 再構成の例は右図
• 平均再構成誤差は 7.3
– 事前学習のみのときは 17
実験 2 の結果:特徴空間の位相の変化
• 拡大する前の 6x6 セルでエンコードされたデー
タを色分けして視覚化
• 事前学習後、各エポック数での微調整後でプ
ロット
– 層ごとの事前学習では、全体に分散している
– 全体での微調整をかけるとセルごとにまとまってく
る
実験 2 の結果:クラス分類の正答率
• 先ほどの特徴空間で実際のセルを当てられるか実
験
• セルを当てるために「タスクネット」を学習させ
る
– 素子数は下の層から 2-25-25-2
– 入力は先ほどの特徴量
– 教師信号はセル中心座標
• 出力の最近傍に正しいセルがあれば正解とする
実験 2 の結果:クラス分類の正答率
• 使用する画像の枚数を変化させて比較
– 少ない枚数( 465,775 )のときはランダム
• 状態数の 4 倍の枚数で 80.1% の正答率
実験 2 の結果:クラス分類の正答率
• PCA で作った特徴量と比較
– PCA0X は X 番目の主成分まで使用
• PCA02 では Deep Learning の性能に及ばない
実験 2 の結果: PCA との比較
• PCA の基底画像(左上)
• 再構成画像(左下)
• PCA02 でエンコードされたデータの散布図
(右)
PCA より Deep Learning はコンパクトな表現
を作っている
実験 3 :教師あり学習による特徴空間の改
善
• 教師データで特徴空間がさらに改善するか実
験
• 3 つの隠れ層の「タスクネット」を Deep
Encoder に結合する
– 誤差項が教師あり学習時にエンコーダまで伝播
する
• 正答率が 99.46% まで上昇
実験 3 の結果:位相の改善
• 位相を格子で表現する(上)
• 出力座標のずれと位相の改善
(右列)
– 収束したのち、正答率 99.46% を
達成した
実験 3 の結果:位相の改善
• 均一に画像を取れなかったとき (775 枚 ) で実験
• 正答率を 59.61% から 80.87% へ改善
• 位相も下図のように改善
実験 4 :最適な状態価値関数の学習
• 強化学習での使いやすさを調べたい
• 最適な状態価値関数を教師ありで学習する
– 「タスクネット」を独立で学習させると正答率
78.65%
– エンコーダも修正しつつ学習すると正答率
99.45%
– 位相は右下図のように変化
実験 5 :方策の学習
• 再び強化学習タスクで実験
– 入力画像は特徴空間の評価実験のときと同じ
– エピソードは 20 ステップで強制終了
• エージェントの設定
– 関数近似には 20x20 格子を使用
– 探索には ε-greedy を使用
– エンコーダは入力数が 100,200,400, ・・・になったと
き学習される
実験 5 :方策の学習
• 平均報酬の上限は -5.1
• 最大 -5.6 まで到達した
• 位相と状態価値関数は
下図のようになった
実験 6 :実画像からの強化学習
• ほぼ 15Hz でカメラ画像 (80x60) を処理
• 関数近似にクラスタリング手法のものを使用(右
下図)
• 635 エピソード内に -6.13 の平均報酬を達成
まとめ
• 良い特徴空間を学習できた
– システム状態を同定可能
– 画像ノイズに頑健
– ある程度、システム状態の位相も保たれる
• 教師あり学習で位相を改善できた
• 少なすぎるサンプル数では受容野の狭さが問題
– 一度も学習したことのない状態は検出できない
– 十分なサンプル数と適切な探索戦略が大事
– 畳み込みも効きそう
まとめ
• バッチ強化学習なので特徴空間の変化に対応でき
る
– オンライン学習では 0 からのスタートになる
• 実画像での強化学習に Deep Learning は必要か?
– 今回は使いやすい特徴を得ることができた
– 伝統的な特徴抽出法 (PCA など ) より、良い特徴を得
ることができた
• これから、ダイナミクスを扱う強化学習に挑戦
したい
– サッカーや車の運転など
– 前の特徴との差を使おうと考えている
参考文献
[1] M. Riedmiller and H. Braun, “A Direct Adaptive Method for
Faster Backpropagation Learning: The RPROP Algorithm,” in
Proc. of the ICNN, 1993, pp. 586–591.
[2] D. Ernst, P. Geurts, and L. Wehenkel, “Tree-Based Batch
Mode Reinforcement Learning,” Journal of Machine Learning
Research, vol. 6, no. 1, pp. 503–556, 2006.

Contenu connexe

Tendances

最近(2020/09/13)のarxivの分布外検知の論文を紹介
最近(2020/09/13)のarxivの分布外検知の論文を紹介最近(2020/09/13)のarxivの分布外検知の論文を紹介
最近(2020/09/13)のarxivの分布外検知の論文を紹介ぱんいち すみもと
 
Anomaly detection 系の論文を一言でまとめた
Anomaly detection 系の論文を一言でまとめたAnomaly detection 系の論文を一言でまとめた
Anomaly detection 系の論文を一言でまとめたぱんいち すみもと
 
Icml2019 kyoto ohno_ver20190805
Icml2019 kyoto ohno_ver20190805Icml2019 kyoto ohno_ver20190805
Icml2019 kyoto ohno_ver20190805Shuntaro Ohno
 
Back propagation
Back propagationBack propagation
Back propagationT2C_
 

Tendances (6)

最近(2020/09/13)のarxivの分布外検知の論文を紹介
最近(2020/09/13)のarxivの分布外検知の論文を紹介最近(2020/09/13)のarxivの分布外検知の論文を紹介
最近(2020/09/13)のarxivの分布外検知の論文を紹介
 
Anomaly detection 系の論文を一言でまとめた
Anomaly detection 系の論文を一言でまとめたAnomaly detection 系の論文を一言でまとめた
Anomaly detection 系の論文を一言でまとめた
 
機械学習ゼミ2018 06 15
機械学習ゼミ2018 06 15機械学習ゼミ2018 06 15
機械学習ゼミ2018 06 15
 
Icml2019 kyoto ohno_ver20190805
Icml2019 kyoto ohno_ver20190805Icml2019 kyoto ohno_ver20190805
Icml2019 kyoto ohno_ver20190805
 
Back propagation
Back propagationBack propagation
Back propagation
 
深層学習①
深層学習①深層学習①
深層学習①
 

En vedette

2N2-04:3次元電子マットと人体パターン認証を用いた予測型見守り機能 安川徹(nkワークス株式会社)
2N2-04:3次元電子マットと人体パターン認証を用いた予測型見守り機能 安川徹(nkワークス株式会社)2N2-04:3次元電子マットと人体パターン認証を用いた予測型見守り機能 安川徹(nkワークス株式会社)
2N2-04:3次元電子マットと人体パターン認証を用いた予測型見守り機能 安川徹(nkワークス株式会社)robotcare
 
20161027 robot seminar in Nagasaki
20161027 robot seminar in Nagasaki20161027 robot seminar in Nagasaki
20161027 robot seminar in NagasakiSatoshi Makita
 
超音波センサーを用いた4点杖の使用者のコンテキスト推定法の提案
超音波センサーを用いた4点杖の使用者のコンテキスト推定法の提案超音波センサーを用いた4点杖の使用者のコンテキスト推定法の提案
超音波センサーを用いた4点杖の使用者のコンテキスト推定法の提案Yuta Takahashi
 
筋電制御を支援するIoTプラットフォームと 把持戦略の構築
筋電制御を支援するIoTプラットフォームと把持戦略の構築筋電制御を支援するIoTプラットフォームと把持戦略の構築
筋電制御を支援するIoTプラットフォームと 把持戦略の構築Yuta Takahashi
 
ホームエレクトロニクスと身近なセンサ
ホームエレクトロニクスと身近なセンサホームエレクトロニクスと身近なセンサ
ホームエレクトロニクスと身近なセンサYoichi Yamazaki
 
二関節筋・シナジーとロボティクス
二関節筋・シナジーとロボティクス二関節筋・シナジーとロボティクス
二関節筋・シナジーとロボティクスKenji Urai
 
2 n2 02:ロボット介護機器の力学的効果評価 吉田英一(産総研)
2 n2 02:ロボット介護機器の力学的効果評価 吉田英一(産総研)2 n2 02:ロボット介護機器の力学的効果評価 吉田英一(産総研)
2 n2 02:ロボット介護機器の力学的効果評価 吉田英一(産総研)robotcare
 
茨城高専から九州と関西へ飛び出た話
茨城高専から九州と関西へ飛び出た話茨城高専から九州と関西へ飛び出た話
茨城高専から九州と関西へ飛び出た話Yuta Takahashi
 
HASCとWekaを使って行動認識
HASCとWekaを使って行動認識HASCとWekaを使って行動認識
HASCとWekaを使って行動認識Yuta Takahashi
 
S16 t1 python学習奮闘記#6
S16 t1 python学習奮闘記#6S16 t1 python学習奮闘記#6
S16 t1 python学習奮闘記#6Takeshi Akutsu
 
131111 東工大授業「ロボット技術」資料
131111 東工大授業「ロボット技術」資料131111 東工大授業「ロボット技術」資料
131111 東工大授業「ロボット技術」資料openrtm
 
統計的学習の基礎 4章 前半
統計的学習の基礎 4章 前半統計的学習の基礎 4章 前半
統計的学習の基礎 4章 前半Ken'ichi Matsui
 
チームで活用するAnaconda入門
チームで活用するAnaconda入門チームで活用するAnaconda入門
チームで活用するAnaconda入門Takeshi Akutsu
 
"Deep Learning" Chap.6 Convolutional Neural Net
"Deep Learning" Chap.6 Convolutional Neural Net"Deep Learning" Chap.6 Convolutional Neural Net
"Deep Learning" Chap.6 Convolutional Neural NetKen'ichi Matsui
 
論文紹介 Compressing Neural Networks with the Hashing Trick
論文紹介 Compressing Neural Networks with the Hashing Trick論文紹介 Compressing Neural Networks with the Hashing Trick
論文紹介 Compressing Neural Networks with the Hashing TrickSeiya Tokui
 
DIY音響浮揚装置を作ってみた
DIY音響浮揚装置を作ってみたDIY音響浮揚装置を作ってみた
DIY音響浮揚装置を作ってみたTakayuki Hoshi
 
Introduction to Chainer
Introduction to ChainerIntroduction to Chainer
Introduction to ChainerSeiya Tokui
 

En vedette (20)

2N2-04:3次元電子マットと人体パターン認証を用いた予測型見守り機能 安川徹(nkワークス株式会社)
2N2-04:3次元電子マットと人体パターン認証を用いた予測型見守り機能 安川徹(nkワークス株式会社)2N2-04:3次元電子マットと人体パターン認証を用いた予測型見守り機能 安川徹(nkワークス株式会社)
2N2-04:3次元電子マットと人体パターン認証を用いた予測型見守り機能 安川徹(nkワークス株式会社)
 
20161027 robot seminar in Nagasaki
20161027 robot seminar in Nagasaki20161027 robot seminar in Nagasaki
20161027 robot seminar in Nagasaki
 
tsuji m
tsuji mtsuji m
tsuji m
 
超音波センサーを用いた4点杖の使用者のコンテキスト推定法の提案
超音波センサーを用いた4点杖の使用者のコンテキスト推定法の提案超音波センサーを用いた4点杖の使用者のコンテキスト推定法の提案
超音波センサーを用いた4点杖の使用者のコンテキスト推定法の提案
 
筋電制御を支援するIoTプラットフォームと 把持戦略の構築
筋電制御を支援するIoTプラットフォームと把持戦略の構築筋電制御を支援するIoTプラットフォームと把持戦略の構築
筋電制御を支援するIoTプラットフォームと 把持戦略の構築
 
ホームエレクトロニクスと身近なセンサ
ホームエレクトロニクスと身近なセンサホームエレクトロニクスと身近なセンサ
ホームエレクトロニクスと身近なセンサ
 
Pre
PrePre
Pre
 
二関節筋・シナジーとロボティクス
二関節筋・シナジーとロボティクス二関節筋・シナジーとロボティクス
二関節筋・シナジーとロボティクス
 
2 n2 02:ロボット介護機器の力学的効果評価 吉田英一(産総研)
2 n2 02:ロボット介護機器の力学的効果評価 吉田英一(産総研)2 n2 02:ロボット介護機器の力学的効果評価 吉田英一(産総研)
2 n2 02:ロボット介護機器の力学的効果評価 吉田英一(産総研)
 
茨城高専から九州と関西へ飛び出た話
茨城高専から九州と関西へ飛び出た話茨城高専から九州と関西へ飛び出た話
茨城高専から九州と関西へ飛び出た話
 
HASCとWekaを使って行動認識
HASCとWekaを使って行動認識HASCとWekaを使って行動認識
HASCとWekaを使って行動認識
 
S16 t1 python学習奮闘記#6
S16 t1 python学習奮闘記#6S16 t1 python学習奮闘記#6
S16 t1 python学習奮闘記#6
 
131111 東工大授業「ロボット技術」資料
131111 東工大授業「ロボット技術」資料131111 東工大授業「ロボット技術」資料
131111 東工大授業「ロボット技術」資料
 
S18 t0 introduction
S18 t0 introductionS18 t0 introduction
S18 t0 introduction
 
統計的学習の基礎 4章 前半
統計的学習の基礎 4章 前半統計的学習の基礎 4章 前半
統計的学習の基礎 4章 前半
 
チームで活用するAnaconda入門
チームで活用するAnaconda入門チームで活用するAnaconda入門
チームで活用するAnaconda入門
 
"Deep Learning" Chap.6 Convolutional Neural Net
"Deep Learning" Chap.6 Convolutional Neural Net"Deep Learning" Chap.6 Convolutional Neural Net
"Deep Learning" Chap.6 Convolutional Neural Net
 
論文紹介 Compressing Neural Networks with the Hashing Trick
論文紹介 Compressing Neural Networks with the Hashing Trick論文紹介 Compressing Neural Networks with the Hashing Trick
論文紹介 Compressing Neural Networks with the Hashing Trick
 
DIY音響浮揚装置を作ってみた
DIY音響浮揚装置を作ってみたDIY音響浮揚装置を作ってみた
DIY音響浮揚装置を作ってみた
 
Introduction to Chainer
Introduction to ChainerIntroduction to Chainer
Introduction to Chainer
 

Similaire à Deep Auto-Encoder Neural Networks in Reiforcement Learnning (第 9 回 Deep Learning 勉強会資料; 金子)

LCCC2010:Learning on Cores, Clusters and Cloudsの解説
LCCC2010:Learning on Cores,  Clusters and Cloudsの解説LCCC2010:Learning on Cores,  Clusters and Cloudsの解説
LCCC2010:Learning on Cores, Clusters and Cloudsの解説Preferred Networks
 
[DL輪読会]SOLAR: Deep Structured Representations for Model-Based Reinforcement L...
[DL輪読会]SOLAR: Deep Structured Representations for Model-Based Reinforcement L...[DL輪読会]SOLAR: Deep Structured Representations for Model-Based Reinforcement L...
[DL輪読会]SOLAR: Deep Structured Representations for Model-Based Reinforcement L...Deep Learning JP
 
attention_is_all_you_need_nips17_論文紹介
attention_is_all_you_need_nips17_論文紹介attention_is_all_you_need_nips17_論文紹介
attention_is_all_you_need_nips17_論文紹介Masayoshi Kondo
 
【メタサーベイ】Neural Fields
【メタサーベイ】Neural Fields【メタサーベイ】Neural Fields
【メタサーベイ】Neural Fieldscvpaper. challenge
 
行列およびテンソルデータに対する機械学習(数理助教の会 2011/11/28)
行列およびテンソルデータに対する機械学習(数理助教の会 2011/11/28)行列およびテンソルデータに対する機械学習(数理助教の会 2011/11/28)
行列およびテンソルデータに対する機械学習(数理助教の会 2011/11/28)ryotat
 
論文紹介:Dueling network architectures for deep reinforcement learning
論文紹介:Dueling network architectures for deep reinforcement learning論文紹介:Dueling network architectures for deep reinforcement learning
論文紹介:Dueling network architectures for deep reinforcement learningKazuki Adachi
 
[DL輪読会]Swin Transformer: Hierarchical Vision Transformer using Shifted Windows
[DL輪読会]Swin Transformer: Hierarchical Vision Transformer using Shifted Windows[DL輪読会]Swin Transformer: Hierarchical Vision Transformer using Shifted Windows
[DL輪読会]Swin Transformer: Hierarchical Vision Transformer using Shifted WindowsDeep Learning JP
 
Learning Deep Architectures for AI (第 3 回 Deep Learning 勉強会資料; 松尾)
Learning Deep Architectures for AI (第 3 回 Deep Learning 勉強会資料; 松尾)Learning Deep Architectures for AI (第 3 回 Deep Learning 勉強会資料; 松尾)
Learning Deep Architectures for AI (第 3 回 Deep Learning 勉強会資料; 松尾)Ohsawa Goodfellow
 
Deep Forest: Towards An Alternative to Deep Neural Networks
Deep Forest: Towards An Alternative to Deep Neural NetworksDeep Forest: Towards An Alternative to Deep Neural Networks
Deep Forest: Towards An Alternative to Deep Neural Networksharmonylab
 
深層学習の数理:カーネル法, スパース推定との接点
深層学習の数理:カーネル法, スパース推定との接点深層学習の数理:カーネル法, スパース推定との接点
深層学習の数理:カーネル法, スパース推定との接点Taiji Suzuki
 
深層学習 - 画像認識のための深層学習 ①
深層学習 - 画像認識のための深層学習 ①深層学習 - 画像認識のための深層学習 ①
深層学習 - 画像認識のための深層学習 ①Shohei Miyashita
 
[DL輪読会]Learning to Act by Predicting the Future
[DL輪読会]Learning to Act by Predicting the Future[DL輪読会]Learning to Act by Predicting the Future
[DL輪読会]Learning to Act by Predicting the FutureDeep Learning JP
 
Generative adversarial nets
Generative adversarial netsGenerative adversarial nets
Generative adversarial netsKeisuke Hosaka
 
130323 slide all
130323 slide all130323 slide all
130323 slide allikea0064
 
[論文紹介] Convolutional Neural Network(CNN)による超解像
[論文紹介] Convolutional Neural Network(CNN)による超解像[論文紹介] Convolutional Neural Network(CNN)による超解像
[論文紹介] Convolutional Neural Network(CNN)による超解像Rei Takami
 
Superpixel Sampling Networks
Superpixel Sampling NetworksSuperpixel Sampling Networks
Superpixel Sampling Networksyukihiro domae
 

Similaire à Deep Auto-Encoder Neural Networks in Reiforcement Learnning (第 9 回 Deep Learning 勉強会資料; 金子) (17)

LCCC2010:Learning on Cores, Clusters and Cloudsの解説
LCCC2010:Learning on Cores,  Clusters and Cloudsの解説LCCC2010:Learning on Cores,  Clusters and Cloudsの解説
LCCC2010:Learning on Cores, Clusters and Cloudsの解説
 
[DL輪読会]SOLAR: Deep Structured Representations for Model-Based Reinforcement L...
[DL輪読会]SOLAR: Deep Structured Representations for Model-Based Reinforcement L...[DL輪読会]SOLAR: Deep Structured Representations for Model-Based Reinforcement L...
[DL輪読会]SOLAR: Deep Structured Representations for Model-Based Reinforcement L...
 
attention_is_all_you_need_nips17_論文紹介
attention_is_all_you_need_nips17_論文紹介attention_is_all_you_need_nips17_論文紹介
attention_is_all_you_need_nips17_論文紹介
 
【メタサーベイ】Neural Fields
【メタサーベイ】Neural Fields【メタサーベイ】Neural Fields
【メタサーベイ】Neural Fields
 
行列およびテンソルデータに対する機械学習(数理助教の会 2011/11/28)
行列およびテンソルデータに対する機械学習(数理助教の会 2011/11/28)行列およびテンソルデータに対する機械学習(数理助教の会 2011/11/28)
行列およびテンソルデータに対する機械学習(数理助教の会 2011/11/28)
 
論文紹介:Dueling network architectures for deep reinforcement learning
論文紹介:Dueling network architectures for deep reinforcement learning論文紹介:Dueling network architectures for deep reinforcement learning
論文紹介:Dueling network architectures for deep reinforcement learning
 
[DL輪読会]Swin Transformer: Hierarchical Vision Transformer using Shifted Windows
[DL輪読会]Swin Transformer: Hierarchical Vision Transformer using Shifted Windows[DL輪読会]Swin Transformer: Hierarchical Vision Transformer using Shifted Windows
[DL輪読会]Swin Transformer: Hierarchical Vision Transformer using Shifted Windows
 
Rainbow
RainbowRainbow
Rainbow
 
Learning Deep Architectures for AI (第 3 回 Deep Learning 勉強会資料; 松尾)
Learning Deep Architectures for AI (第 3 回 Deep Learning 勉強会資料; 松尾)Learning Deep Architectures for AI (第 3 回 Deep Learning 勉強会資料; 松尾)
Learning Deep Architectures for AI (第 3 回 Deep Learning 勉強会資料; 松尾)
 
Deep Forest: Towards An Alternative to Deep Neural Networks
Deep Forest: Towards An Alternative to Deep Neural NetworksDeep Forest: Towards An Alternative to Deep Neural Networks
Deep Forest: Towards An Alternative to Deep Neural Networks
 
深層学習の数理:カーネル法, スパース推定との接点
深層学習の数理:カーネル法, スパース推定との接点深層学習の数理:カーネル法, スパース推定との接点
深層学習の数理:カーネル法, スパース推定との接点
 
深層学習 - 画像認識のための深層学習 ①
深層学習 - 画像認識のための深層学習 ①深層学習 - 画像認識のための深層学習 ①
深層学習 - 画像認識のための深層学習 ①
 
[DL輪読会]Learning to Act by Predicting the Future
[DL輪読会]Learning to Act by Predicting the Future[DL輪読会]Learning to Act by Predicting the Future
[DL輪読会]Learning to Act by Predicting the Future
 
Generative adversarial nets
Generative adversarial netsGenerative adversarial nets
Generative adversarial nets
 
130323 slide all
130323 slide all130323 slide all
130323 slide all
 
[論文紹介] Convolutional Neural Network(CNN)による超解像
[論文紹介] Convolutional Neural Network(CNN)による超解像[論文紹介] Convolutional Neural Network(CNN)による超解像
[論文紹介] Convolutional Neural Network(CNN)による超解像
 
Superpixel Sampling Networks
Superpixel Sampling NetworksSuperpixel Sampling Networks
Superpixel Sampling Networks
 

Plus de Ohsawa Goodfellow

Open-ended Learning in Symmetric Zero-sum Games @ ICML19
Open-ended Learning in Symmetric Zero-sum Games @ ICML19 Open-ended Learning in Symmetric Zero-sum Games @ ICML19
Open-ended Learning in Symmetric Zero-sum Games @ ICML19 Ohsawa Goodfellow
 
PRML上巻勉強会 at 東京大学 資料 第1章後半
PRML上巻勉強会 at 東京大学 資料 第1章後半PRML上巻勉強会 at 東京大学 資料 第1章後半
PRML上巻勉強会 at 東京大学 資料 第1章後半Ohsawa Goodfellow
 
PRML上巻勉強会 at 東京大学 資料 第1章前半
PRML上巻勉強会 at 東京大学 資料 第1章前半PRML上巻勉強会 at 東京大学 資料 第1章前半
PRML上巻勉強会 at 東京大学 資料 第1章前半Ohsawa Goodfellow
 
Natural Language Processing (Almost) from Scratch(第 6 回 Deep Learning 勉強会資料; 榊)
Natural Language Processing (Almost) from Scratch(第 6 回 Deep Learning 勉強会資料; 榊)Natural Language Processing (Almost) from Scratch(第 6 回 Deep Learning 勉強会資料; 榊)
Natural Language Processing (Almost) from Scratch(第 6 回 Deep Learning 勉強会資料; 榊)Ohsawa Goodfellow
 
Deep Learning via Semi-Supervised Embedding (第 7 回 Deep Learning 勉強会資料; 大澤)
Deep Learning via Semi-Supervised Embedding (第 7 回 Deep Learning 勉強会資料; 大澤)Deep Learning via Semi-Supervised Embedding (第 7 回 Deep Learning 勉強会資料; 大澤)
Deep Learning via Semi-Supervised Embedding (第 7 回 Deep Learning 勉強会資料; 大澤)Ohsawa Goodfellow
 
Semi-Supervised Autoencoders for Predicting Sentiment Distributions(第 5 回 De...
 Semi-Supervised Autoencoders for Predicting Sentiment Distributions(第 5 回 De... Semi-Supervised Autoencoders for Predicting Sentiment Distributions(第 5 回 De...
Semi-Supervised Autoencoders for Predicting Sentiment Distributions(第 5 回 De...Ohsawa Goodfellow
 
Deep Learning 勉強会 (Chapter 7-12)
Deep Learning 勉強会 (Chapter 7-12)Deep Learning 勉強会 (Chapter 7-12)
Deep Learning 勉強会 (Chapter 7-12)Ohsawa Goodfellow
 
Deep learning勉強会20121214ochi
Deep learning勉強会20121214ochiDeep learning勉強会20121214ochi
Deep learning勉強会20121214ochiOhsawa Goodfellow
 
第9章 ネットワーク上の他の確率過程
第9章 ネットワーク上の他の確率過程第9章 ネットワーク上の他の確率過程
第9章 ネットワーク上の他の確率過程Ohsawa Goodfellow
 
XLWrapについてのご紹介
XLWrapについてのご紹介XLWrapについてのご紹介
XLWrapについてのご紹介Ohsawa Goodfellow
 
XLWrapについてのご紹介
XLWrapについてのご紹介XLWrapについてのご紹介
XLWrapについてのご紹介Ohsawa Goodfellow
 

Plus de Ohsawa Goodfellow (11)

Open-ended Learning in Symmetric Zero-sum Games @ ICML19
Open-ended Learning in Symmetric Zero-sum Games @ ICML19 Open-ended Learning in Symmetric Zero-sum Games @ ICML19
Open-ended Learning in Symmetric Zero-sum Games @ ICML19
 
PRML上巻勉強会 at 東京大学 資料 第1章後半
PRML上巻勉強会 at 東京大学 資料 第1章後半PRML上巻勉強会 at 東京大学 資料 第1章後半
PRML上巻勉強会 at 東京大学 資料 第1章後半
 
PRML上巻勉強会 at 東京大学 資料 第1章前半
PRML上巻勉強会 at 東京大学 資料 第1章前半PRML上巻勉強会 at 東京大学 資料 第1章前半
PRML上巻勉強会 at 東京大学 資料 第1章前半
 
Natural Language Processing (Almost) from Scratch(第 6 回 Deep Learning 勉強会資料; 榊)
Natural Language Processing (Almost) from Scratch(第 6 回 Deep Learning 勉強会資料; 榊)Natural Language Processing (Almost) from Scratch(第 6 回 Deep Learning 勉強会資料; 榊)
Natural Language Processing (Almost) from Scratch(第 6 回 Deep Learning 勉強会資料; 榊)
 
Deep Learning via Semi-Supervised Embedding (第 7 回 Deep Learning 勉強会資料; 大澤)
Deep Learning via Semi-Supervised Embedding (第 7 回 Deep Learning 勉強会資料; 大澤)Deep Learning via Semi-Supervised Embedding (第 7 回 Deep Learning 勉強会資料; 大澤)
Deep Learning via Semi-Supervised Embedding (第 7 回 Deep Learning 勉強会資料; 大澤)
 
Semi-Supervised Autoencoders for Predicting Sentiment Distributions(第 5 回 De...
 Semi-Supervised Autoencoders for Predicting Sentiment Distributions(第 5 回 De... Semi-Supervised Autoencoders for Predicting Sentiment Distributions(第 5 回 De...
Semi-Supervised Autoencoders for Predicting Sentiment Distributions(第 5 回 De...
 
Deep Learning 勉強会 (Chapter 7-12)
Deep Learning 勉強会 (Chapter 7-12)Deep Learning 勉強会 (Chapter 7-12)
Deep Learning 勉強会 (Chapter 7-12)
 
Deep learning勉強会20121214ochi
Deep learning勉強会20121214ochiDeep learning勉強会20121214ochi
Deep learning勉強会20121214ochi
 
第9章 ネットワーク上の他の確率過程
第9章 ネットワーク上の他の確率過程第9章 ネットワーク上の他の確率過程
第9章 ネットワーク上の他の確率過程
 
XLWrapについてのご紹介
XLWrapについてのご紹介XLWrapについてのご紹介
XLWrapについてのご紹介
 
XLWrapについてのご紹介
XLWrapについてのご紹介XLWrapについてのご紹介
XLWrapについてのご紹介
 

Deep Auto-Encoder Neural Networks in Reiforcement Learnning (第 9 回 Deep Learning 勉強会資料; 金子)

  • 1. Deep Auto-Encoder Neural Networks in Reiforcement Learnning Sascha Lange and Martin Riedmiller Computer Science Department,Albert-Ludwigs University of Freiburg, D-79194 Freiburg, Germany (IJCNN2010) 2013/02/15 M1  金子 貴輝
  • 2. 概要 • 強化学習の状態観測に DL を使った研究 • 強化学習で一般的な、迷路でのゴールタ スク – ただし状態は迷路の拡大画像で得られる • バッチ型強化学習に Deep Auto Encoder を 組み合わせたモデルを提案 • ディスプレイ画像をカメラで撮ったもの でも 15Hz で画像処理して良い方策を学習 した – 初めて実画像に RL を適用できた
  • 3. 迷路課題 • 床と壁とゴールからなる格子世界 • ランダムな位置から始まり、ゴールするまで負の報 酬が与えられる • スタートからゴールまで( 1 エピソード)が繰り返 される • 簡単な強化学習では、位置を直接見て行動決定でき る • この論文では迷路を俯瞰した画像が与えられる
  • 4. 提案モデル:強化学習エージェントの構成 • Deep encoder – 特徴空間を 2 次元まで 落としこむエンコーダ – Deep auto-encoder と して学習する • 関数近似器 – 行動決定の指標になる 行動価値関数 Q(s,a) – 学習には Fitted Q- iteration を用いる Deep Learning とバッチ強化学習の 2 つからなる
  • 5. 提案モデル:学習の流れ • 1 エピソードの状態遷移 全てを記録する – 観測系列を抜き出して Deep Learning する – エンコーダで特徴空間での 状態遷移に翻訳して、 バッチ強化学習手法を使う (inner loop) • 1 エピソードごとに、エンコーダと関数近似器が 学習を行う  (outer loop)
  • 6. Deep Auto Encoder の学習 • 層ごとの事前学習+全体での微調整 • 再構成誤差を最小化するのに、勾配法をベースに した RProp 学習側 [1] を利用する – RProp は勾配ベクトルを正規化する – 正規化によって BP よりも局所解にはまりにくい – パラメータ調整に対して頑健でもある 1 2 3
  • 7. Fitted Q-iteration[2] • 得られている状態遷移集合 F から Q(s,a) を近似する関数を作る • 動的計画法を用いて Q(s,a) を反復計算する – 0 で Q(s,a) を初期化する – 観測したそれぞれの状態行動対 (s,a) に、現在の Q(s,a) から推測 される Q 値を加え、訓練データ P とする – 訓練データ P から Q(s,a) を近似して置き換える
  • 8. 提案モデル (Deep Fitted Q-Iterations) • ランダムな重みのエンコー ダとランダムな方策のエー ジェントで初期化する • エピソードごとにエンコー ダと関数近似器を学習 – 毎回、事前学習と微調整を 行ってエンコーダを学習する – 関数近似器はエピソードのた びに初期化され、 Inner loop で再計算される • 得られた Q(s,a) を基に、方 策を決定する (ε-greedy な ど)
  • 9. 変化形と最適化 • 受容野の使用 – 画像の近傍関係から窓を設定する • 古い Q(s,a) の再利用 – エピソードごとの Q(s,a) の反復計算の初期値に前の Q(s,a) を再利用する – 収束が早くなる • エンコーダの学習タイミングの間引き – 状態の観測回数が 2 倍になるタイミングのみ更新
  • 10. 実験 1 :概念の検証 • 迷路画像を拡大してノイズなしで与える • スタート位置も各セルの中心に限定する – 移動量が 1 セル分なので状態数が 31 個に限定さ れる
  • 11. 実験 1 の結果 • 11 層の Deep Encoder を使用 – 素子数は下の層から順に、 900-900-484-225-121-113-57-29- 15-8-2 – 下 5 つの層で 9x9 の受容野を使 用 – 190 エポックの微調整後の平均 再構成誤差は 10.9 – ノイズに対する 2 次元特徴の頑 健性はない • 500x500 格子で状態を近似して強化学習 – 65 エピソードで最適方策に収束
  • 12. 実験 2 :特徴空間の評価 • エージェントの位置をセルの中心に限定しない – 状態数は 775 に増加 • 強化学習のアルゴリズムを切り離して実験 – さまざまな状態の迷路画像を 6200 枚用意 • 迷路画像にノイズを乗せる – 標準偏差 0.1 のガウスノイズを乗せる 実験 2 の結果:再構成誤 差• 再構成の例は右図 • 平均再構成誤差は 7.3 – 事前学習のみのときは 17
  • 13. 実験 2 の結果:特徴空間の位相の変化 • 拡大する前の 6x6 セルでエンコードされたデー タを色分けして視覚化 • 事前学習後、各エポック数での微調整後でプ ロット – 層ごとの事前学習では、全体に分散している – 全体での微調整をかけるとセルごとにまとまってく る
  • 14. 実験 2 の結果:クラス分類の正答率 • 先ほどの特徴空間で実際のセルを当てられるか実 験 • セルを当てるために「タスクネット」を学習させ る – 素子数は下の層から 2-25-25-2 – 入力は先ほどの特徴量 – 教師信号はセル中心座標 • 出力の最近傍に正しいセルがあれば正解とする
  • 15. 実験 2 の結果:クラス分類の正答率 • 使用する画像の枚数を変化させて比較 – 少ない枚数( 465,775 )のときはランダム • 状態数の 4 倍の枚数で 80.1% の正答率
  • 16. 実験 2 の結果:クラス分類の正答率 • PCA で作った特徴量と比較 – PCA0X は X 番目の主成分まで使用 • PCA02 では Deep Learning の性能に及ばない
  • 17. 実験 2 の結果: PCA との比較 • PCA の基底画像(左上) • 再構成画像(左下) • PCA02 でエンコードされたデータの散布図 (右) PCA より Deep Learning はコンパクトな表現 を作っている
  • 18. 実験 3 :教師あり学習による特徴空間の改 善 • 教師データで特徴空間がさらに改善するか実 験 • 3 つの隠れ層の「タスクネット」を Deep Encoder に結合する – 誤差項が教師あり学習時にエンコーダまで伝播 する • 正答率が 99.46% まで上昇
  • 19. 実験 3 の結果:位相の改善 • 位相を格子で表現する(上) • 出力座標のずれと位相の改善 (右列) – 収束したのち、正答率 99.46% を 達成した
  • 20. 実験 3 の結果:位相の改善 • 均一に画像を取れなかったとき (775 枚 ) で実験 • 正答率を 59.61% から 80.87% へ改善 • 位相も下図のように改善
  • 21. 実験 4 :最適な状態価値関数の学習 • 強化学習での使いやすさを調べたい • 最適な状態価値関数を教師ありで学習する – 「タスクネット」を独立で学習させると正答率 78.65% – エンコーダも修正しつつ学習すると正答率 99.45% – 位相は右下図のように変化
  • 22. 実験 5 :方策の学習 • 再び強化学習タスクで実験 – 入力画像は特徴空間の評価実験のときと同じ – エピソードは 20 ステップで強制終了 • エージェントの設定 – 関数近似には 20x20 格子を使用 – 探索には ε-greedy を使用 – エンコーダは入力数が 100,200,400, ・・・になったと き学習される
  • 23. 実験 5 :方策の学習 • 平均報酬の上限は -5.1 • 最大 -5.6 まで到達した • 位相と状態価値関数は 下図のようになった
  • 24. 実験 6 :実画像からの強化学習 • ほぼ 15Hz でカメラ画像 (80x60) を処理 • 関数近似にクラスタリング手法のものを使用(右 下図) • 635 エピソード内に -6.13 の平均報酬を達成
  • 25. まとめ • 良い特徴空間を学習できた – システム状態を同定可能 – 画像ノイズに頑健 – ある程度、システム状態の位相も保たれる • 教師あり学習で位相を改善できた • 少なすぎるサンプル数では受容野の狭さが問題 – 一度も学習したことのない状態は検出できない – 十分なサンプル数と適切な探索戦略が大事 – 畳み込みも効きそう
  • 26. まとめ • バッチ強化学習なので特徴空間の変化に対応でき る – オンライン学習では 0 からのスタートになる • 実画像での強化学習に Deep Learning は必要か? – 今回は使いやすい特徴を得ることができた – 伝統的な特徴抽出法 (PCA など ) より、良い特徴を得 ることができた • これから、ダイナミクスを扱う強化学習に挑戦 したい – サッカーや車の運転など – 前の特徴との差を使おうと考えている
  • 27. 参考文献 [1] M. Riedmiller and H. Braun, “A Direct Adaptive Method for Faster Backpropagation Learning: The RPROP Algorithm,” in Proc. of the ICNN, 1993, pp. 586–591. [2] D. Ernst, P. Geurts, and L. Wehenkel, “Tree-Based Batch Mode Reinforcement Learning,” Journal of Machine Learning Research, vol. 6, no. 1, pp. 503–556, 2006.