Soumettre la recherche
Mettre en ligne
A3C解説
•
Télécharger en tant que PPTX, PDF
•
6 j'aime
•
14,183 vues
H
harmonylab
Suivre
DQNを開発したチームによる非同期並列な深層教科学習アルゴリズムの論文を紹介しています。
Lire moins
Lire la suite
Technologie
Signaler
Partager
Signaler
Partager
1 sur 14
Télécharger maintenant
Recommandé
【DL輪読会】時系列予測 Transfomers の精度向上手法
【DL輪読会】時系列予測 Transfomers の精度向上手法
Deep Learning JP
方策勾配型強化学習の基礎と応用
方策勾配型強化学習の基礎と応用
Ryo Iwaki
最適輸送入門
最適輸送入門
joisino
強化学習 DQNからPPOまで
強化学習 DQNからPPOまで
harmonylab
[DL輪読会]“SimPLe”,“Improved Dynamics Model”,“PlaNet” 近年のVAEベース系列モデルの進展とそのモデルベース...
[DL輪読会]“SimPLe”,“Improved Dynamics Model”,“PlaNet” 近年のVAEベース系列モデルの進展とそのモデルベース...
Deep Learning JP
【DL輪読会】Mastering Diverse Domains through World Models
【DL輪読会】Mastering Diverse Domains through World Models
Deep Learning JP
POMDP下での強化学習の基礎と応用
POMDP下での強化学習の基礎と応用
Yasunori Ozaki
[DL輪読会]Deep Learning 第15章 表現学習
[DL輪読会]Deep Learning 第15章 表現学習
Deep Learning JP
Recommandé
【DL輪読会】時系列予測 Transfomers の精度向上手法
【DL輪読会】時系列予測 Transfomers の精度向上手法
Deep Learning JP
方策勾配型強化学習の基礎と応用
方策勾配型強化学習の基礎と応用
Ryo Iwaki
最適輸送入門
最適輸送入門
joisino
強化学習 DQNからPPOまで
強化学習 DQNからPPOまで
harmonylab
[DL輪読会]“SimPLe”,“Improved Dynamics Model”,“PlaNet” 近年のVAEベース系列モデルの進展とそのモデルベース...
[DL輪読会]“SimPLe”,“Improved Dynamics Model”,“PlaNet” 近年のVAEベース系列モデルの進展とそのモデルベース...
Deep Learning JP
【DL輪読会】Mastering Diverse Domains through World Models
【DL輪読会】Mastering Diverse Domains through World Models
Deep Learning JP
POMDP下での強化学習の基礎と応用
POMDP下での強化学習の基礎と応用
Yasunori Ozaki
[DL輪読会]Deep Learning 第15章 表現学習
[DL輪読会]Deep Learning 第15章 表現学習
Deep Learning JP
多様な強化学習の概念と課題認識
多様な強化学習の概念と課題認識
佑 甲野
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
Deep Learning JP
【DL輪読会】論文解説:Offline Reinforcement Learning as One Big Sequence Modeling Problem
【DL輪読会】論文解説:Offline Reinforcement Learning as One Big Sequence Modeling Problem
Deep Learning JP
SSII2021 [TS2] 深層強化学習 〜 強化学習の基礎から応用まで 〜
SSII2021 [TS2] 深層強化学習 〜 強化学習の基礎から応用まで 〜
SSII
[DL輪読会]Learning Latent Dynamics for Planning from Pixels
[DL輪読会]Learning Latent Dynamics for Planning from Pixels
Deep Learning JP
[DL輪読会]Scalable Training of Inference Networks for Gaussian-Process Models
[DL輪読会]Scalable Training of Inference Networks for Gaussian-Process Models
Deep Learning JP
強化学習の分散アーキテクチャ変遷
強化学習の分散アーキテクチャ変遷
Eiji Sekiya
「世界モデル」と関連研究について
「世界モデル」と関連研究について
Masahiro Suzuki
[DL輪読会]GQNと関連研究,世界モデルとの関係について
[DL輪読会]GQNと関連研究,世界モデルとの関係について
Deep Learning JP
ポーカーAIの最新動向 20171031
ポーカーAIの最新動向 20171031
Jun Okumura
Graph Neural Networks
Graph Neural Networks
tm1966
Control as Inference (強化学習とベイズ統計)
Control as Inference (強化学習とベイズ統計)
Shohei Taniguchi
[DL輪読会]逆強化学習とGANs
[DL輪読会]逆強化学習とGANs
Deep Learning JP
【論文読み会】Deep Clustering for Unsupervised Learning of Visual Features
【論文読み会】Deep Clustering for Unsupervised Learning of Visual Features
ARISE analytics
劣モジュラ最適化と機械学習1章
劣モジュラ最適化と機械学習1章
Hakky St
強化学習と逆強化学習を組み合わせた模倣学習
強化学習と逆強化学習を組み合わせた模倣学習
Eiji Uchibe
強化学習の基礎的な考え方と問題の分類
強化学習の基礎的な考え方と問題の分類
佑 甲野
Introduction to A3C model
Introduction to A3C model
WEBFARMER. ltd.
強化学習アルゴリズムPPOの解説と実験
強化学習アルゴリズムPPOの解説と実験
克海 納谷
A3Cという強化学習アルゴリズムで遊んでみた話
A3Cという強化学習アルゴリズムで遊んでみた話
mooopan
7月10日(月)dl
7月10日(月)dl
harmonylab
Contenu connexe
Tendances
多様な強化学習の概念と課題認識
多様な強化学習の概念と課題認識
佑 甲野
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
Deep Learning JP
【DL輪読会】論文解説:Offline Reinforcement Learning as One Big Sequence Modeling Problem
【DL輪読会】論文解説:Offline Reinforcement Learning as One Big Sequence Modeling Problem
Deep Learning JP
SSII2021 [TS2] 深層強化学習 〜 強化学習の基礎から応用まで 〜
SSII2021 [TS2] 深層強化学習 〜 強化学習の基礎から応用まで 〜
SSII
[DL輪読会]Learning Latent Dynamics for Planning from Pixels
[DL輪読会]Learning Latent Dynamics for Planning from Pixels
Deep Learning JP
[DL輪読会]Scalable Training of Inference Networks for Gaussian-Process Models
[DL輪読会]Scalable Training of Inference Networks for Gaussian-Process Models
Deep Learning JP
強化学習の分散アーキテクチャ変遷
強化学習の分散アーキテクチャ変遷
Eiji Sekiya
「世界モデル」と関連研究について
「世界モデル」と関連研究について
Masahiro Suzuki
[DL輪読会]GQNと関連研究,世界モデルとの関係について
[DL輪読会]GQNと関連研究,世界モデルとの関係について
Deep Learning JP
ポーカーAIの最新動向 20171031
ポーカーAIの最新動向 20171031
Jun Okumura
Graph Neural Networks
Graph Neural Networks
tm1966
Control as Inference (強化学習とベイズ統計)
Control as Inference (強化学習とベイズ統計)
Shohei Taniguchi
[DL輪読会]逆強化学習とGANs
[DL輪読会]逆強化学習とGANs
Deep Learning JP
【論文読み会】Deep Clustering for Unsupervised Learning of Visual Features
【論文読み会】Deep Clustering for Unsupervised Learning of Visual Features
ARISE analytics
劣モジュラ最適化と機械学習1章
劣モジュラ最適化と機械学習1章
Hakky St
強化学習と逆強化学習を組み合わせた模倣学習
強化学習と逆強化学習を組み合わせた模倣学習
Eiji Uchibe
強化学習の基礎的な考え方と問題の分類
強化学習の基礎的な考え方と問題の分類
佑 甲野
Introduction to A3C model
Introduction to A3C model
WEBFARMER. ltd.
強化学習アルゴリズムPPOの解説と実験
強化学習アルゴリズムPPOの解説と実験
克海 納谷
Tendances
(20)
多様な強化学習の概念と課題認識
多様な強化学習の概念と課題認識
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
【DL輪読会】論文解説:Offline Reinforcement Learning as One Big Sequence Modeling Problem
【DL輪読会】論文解説:Offline Reinforcement Learning as One Big Sequence Modeling Problem
SSII2021 [TS2] 深層強化学習 〜 強化学習の基礎から応用まで 〜
SSII2021 [TS2] 深層強化学習 〜 強化学習の基礎から応用まで 〜
[DL輪読会]Learning Latent Dynamics for Planning from Pixels
[DL輪読会]Learning Latent Dynamics for Planning from Pixels
[DL輪読会]Scalable Training of Inference Networks for Gaussian-Process Models
[DL輪読会]Scalable Training of Inference Networks for Gaussian-Process Models
強化学習の分散アーキテクチャ変遷
強化学習の分散アーキテクチャ変遷
「世界モデル」と関連研究について
「世界モデル」と関連研究について
[DL輪読会]GQNと関連研究,世界モデルとの関係について
[DL輪読会]GQNと関連研究,世界モデルとの関係について
ポーカーAIの最新動向 20171031
ポーカーAIの最新動向 20171031
Graph Neural Networks
Graph Neural Networks
Control as Inference (強化学習とベイズ統計)
Control as Inference (強化学習とベイズ統計)
[DL輪読会]逆強化学習とGANs
[DL輪読会]逆強化学習とGANs
【論文読み会】Deep Clustering for Unsupervised Learning of Visual Features
【論文読み会】Deep Clustering for Unsupervised Learning of Visual Features
劣モジュラ最適化と機械学習1章
劣モジュラ最適化と機械学習1章
強化学習と逆強化学習を組み合わせた模倣学習
強化学習と逆強化学習を組み合わせた模倣学習
強化学習の基礎的な考え方と問題の分類
強化学習の基礎的な考え方と問題の分類
Introduction to A3C model
Introduction to A3C model
強化学習アルゴリズムPPOの解説と実験
強化学習アルゴリズムPPOの解説と実験
En vedette
A3Cという強化学習アルゴリズムで遊んでみた話
A3Cという強化学習アルゴリズムで遊んでみた話
mooopan
7月10日(月)dl
7月10日(月)dl
harmonylab
Globally and Locally Consistent Image Completion
Globally and Locally Consistent Image Completion
harmonylab
Generating Videos with Scene Dynamics
Generating Videos with Scene Dynamics
harmonylab
Colorful image colorization
Colorful image colorization
harmonylab
Deeply-Recursive Convolutional Network for Image Super-Resolution
Deeply-Recursive Convolutional Network for Image Super-Resolution
harmonylab
Deep Forest: Towards An Alternative to Deep Neural Networks
Deep Forest: Towards An Alternative to Deep Neural Networks
harmonylab
DLゼミ20170522
DLゼミ20170522
harmonylab
勉強会用スライド
勉強会用スライド
harmonylab
Mobilenet
Mobilenet
harmonylab
勉強会用スライド
勉強会用スライド
harmonylab
Deep voice
Deep voice
harmonylab
Ai勉強会20170127
Ai勉強会20170127
harmonylab
Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Network
Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Network
harmonylab
AI勉強会用スライド
AI勉強会用スライド
harmonylab
DeepLoco
DeepLoco
harmonylab
A simple neural network mnodule for relation reasoning
A simple neural network mnodule for relation reasoning
harmonylab
Densely Connected Convolutional Networks
Densely Connected Convolutional Networks
harmonylab
Continuous control with deep reinforcement learning (DDPG)
Continuous control with deep reinforcement learning (DDPG)
Taehoon Kim
【2016.01】(1/3)cvpaper.challenge2016
【2016.01】(1/3)cvpaper.challenge2016
cvpaper. challenge
En vedette
(20)
A3Cという強化学習アルゴリズムで遊んでみた話
A3Cという強化学習アルゴリズムで遊んでみた話
7月10日(月)dl
7月10日(月)dl
Globally and Locally Consistent Image Completion
Globally and Locally Consistent Image Completion
Generating Videos with Scene Dynamics
Generating Videos with Scene Dynamics
Colorful image colorization
Colorful image colorization
Deeply-Recursive Convolutional Network for Image Super-Resolution
Deeply-Recursive Convolutional Network for Image Super-Resolution
Deep Forest: Towards An Alternative to Deep Neural Networks
Deep Forest: Towards An Alternative to Deep Neural Networks
DLゼミ20170522
DLゼミ20170522
勉強会用スライド
勉強会用スライド
Mobilenet
Mobilenet
勉強会用スライド
勉強会用スライド
Deep voice
Deep voice
Ai勉強会20170127
Ai勉強会20170127
Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Network
Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Network
AI勉強会用スライド
AI勉強会用スライド
DeepLoco
DeepLoco
A simple neural network mnodule for relation reasoning
A simple neural network mnodule for relation reasoning
Densely Connected Convolutional Networks
Densely Connected Convolutional Networks
Continuous control with deep reinforcement learning (DDPG)
Continuous control with deep reinforcement learning (DDPG)
【2016.01】(1/3)cvpaper.challenge2016
【2016.01】(1/3)cvpaper.challenge2016
Similaire à A3C解説
1017 論文紹介第四回
1017 論文紹介第四回
Kohei Wakamatsu
分散型強化学習手法の最近の動向と分散計算フレームワークRayによる実装の試み
分散型強化学習手法の最近の動向と分散計算フレームワークRayによる実装の試み
SusumuOTA
Rainbow: Combining Improvements in Deep Reinforcement Learning (AAAI2018 unde...
Rainbow: Combining Improvements in Deep Reinforcement Learning (AAAI2018 unde...
Toru Fujino
NeurIPS'21参加報告 tanimoto_public
NeurIPS'21参加報告 tanimoto_public
Akira Tanimoto
北大調和系 DLゼミ A3C
北大調和系 DLゼミ A3C
Tomoya Oda
ブースティング入門
ブースティング入門
Retrieva inc.
Image net classification with Deep Convolutional Neural Networks
Image net classification with Deep Convolutional Neural Networks
Shingo Horiuchi
SoCC12報告
SoCC12報告
Hirotaka Ogawa
Similaire à A3C解説
(8)
1017 論文紹介第四回
1017 論文紹介第四回
分散型強化学習手法の最近の動向と分散計算フレームワークRayによる実装の試み
分散型強化学習手法の最近の動向と分散計算フレームワークRayによる実装の試み
Rainbow: Combining Improvements in Deep Reinforcement Learning (AAAI2018 unde...
Rainbow: Combining Improvements in Deep Reinforcement Learning (AAAI2018 unde...
NeurIPS'21参加報告 tanimoto_public
NeurIPS'21参加報告 tanimoto_public
北大調和系 DLゼミ A3C
北大調和系 DLゼミ A3C
ブースティング入門
ブースティング入門
Image net classification with Deep Convolutional Neural Networks
Image net classification with Deep Convolutional Neural Networks
SoCC12報告
SoCC12報告
Plus de harmonylab
【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究 千坂知也
【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究 千坂知也
harmonylab
【修士論文】経路探索のための媒介中心性に基づく道路ネットワーク階層化手法に関する研究
【修士論文】経路探索のための媒介中心性に基づく道路ネットワーク階層化手法に関する研究
harmonylab
A Study on Decision Support System for Snow Removal Dispatch using Road Surfa...
A Study on Decision Support System for Snow Removal Dispatch using Road Surfa...
harmonylab
【卒業論文】印象タグを用いた衣服画像生成システムに関する研究
【卒業論文】印象タグを用いた衣服画像生成システムに関する研究
harmonylab
【卒業論文】大規模言語モデルを用いたマニュアル文章修正手法に関する研究
【卒業論文】大規模言語モデルを用いたマニュアル文章修正手法に関する研究
harmonylab
DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...
DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...
harmonylab
DLゼミ: MobileOne: An Improved One millisecond Mobile Backbone
DLゼミ: MobileOne: An Improved One millisecond Mobile Backbone
harmonylab
DLゼミ: Llama 2: Open Foundation and Fine-Tuned Chat Models
DLゼミ: Llama 2: Open Foundation and Fine-Tuned Chat Models
harmonylab
DLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
DLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
harmonylab
Voyager: An Open-Ended Embodied Agent with Large Language Models
Voyager: An Open-Ended Embodied Agent with Large Language Models
harmonylab
DLゼミ: Ego-Body Pose Estimation via Ego-Head Pose Estimation
DLゼミ: Ego-Body Pose Estimation via Ego-Head Pose Estimation
harmonylab
ReAct: Synergizing Reasoning and Acting in Language Models
ReAct: Synergizing Reasoning and Acting in Language Models
harmonylab
形態素解析を用いた帝国議会議事速記録の変遷に関する研究
形態素解析を用いた帝国議会議事速記録の変遷に関する研究
harmonylab
【卒業論文】深層生成モデルを用いたユーザ意図に基づく衣服画像の生成に関する研究
【卒業論文】深層生成モデルを用いたユーザ意図に基づく衣服画像の生成に関する研究
harmonylab
灯油タンク内の液面高計測を用いた灯油残量推定システムに関する研究
灯油タンク内の液面高計測を用いた灯油残量推定システムに関する研究
harmonylab
深層自己回帰モデルを用いた俳句の生成と評価に関する研究
深層自己回帰モデルを用いた俳句の生成と評価に関する研究
harmonylab
競輪におけるレーティングシステムを用いた予想記事生成に関する研究
競輪におけるレーティングシステムを用いた予想記事生成に関する研究
harmonylab
【卒業論文】B2Bオークションにおけるユーザ別 入札行動予測に関する研究
【卒業論文】B2Bオークションにおけるユーザ別 入札行動予測に関する研究
harmonylab
A Study on Estimation of Household Kerosene Consumption for Optimization of D...
A Study on Estimation of Household Kerosene Consumption for Optimization of D...
harmonylab
マルチエージェント深層強化学習による自動運転車両の追越行動の獲得に関する研究
マルチエージェント深層強化学習による自動運転車両の追越行動の獲得に関する研究
harmonylab
Plus de harmonylab
(20)
【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究 千坂知也
【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究 千坂知也
【修士論文】経路探索のための媒介中心性に基づく道路ネットワーク階層化手法に関する研究
【修士論文】経路探索のための媒介中心性に基づく道路ネットワーク階層化手法に関する研究
A Study on Decision Support System for Snow Removal Dispatch using Road Surfa...
A Study on Decision Support System for Snow Removal Dispatch using Road Surfa...
【卒業論文】印象タグを用いた衣服画像生成システムに関する研究
【卒業論文】印象タグを用いた衣服画像生成システムに関する研究
【卒業論文】大規模言語モデルを用いたマニュアル文章修正手法に関する研究
【卒業論文】大規模言語モデルを用いたマニュアル文章修正手法に関する研究
DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...
DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...
DLゼミ: MobileOne: An Improved One millisecond Mobile Backbone
DLゼミ: MobileOne: An Improved One millisecond Mobile Backbone
DLゼミ: Llama 2: Open Foundation and Fine-Tuned Chat Models
DLゼミ: Llama 2: Open Foundation and Fine-Tuned Chat Models
DLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
DLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
Voyager: An Open-Ended Embodied Agent with Large Language Models
Voyager: An Open-Ended Embodied Agent with Large Language Models
DLゼミ: Ego-Body Pose Estimation via Ego-Head Pose Estimation
DLゼミ: Ego-Body Pose Estimation via Ego-Head Pose Estimation
ReAct: Synergizing Reasoning and Acting in Language Models
ReAct: Synergizing Reasoning and Acting in Language Models
形態素解析を用いた帝国議会議事速記録の変遷に関する研究
形態素解析を用いた帝国議会議事速記録の変遷に関する研究
【卒業論文】深層生成モデルを用いたユーザ意図に基づく衣服画像の生成に関する研究
【卒業論文】深層生成モデルを用いたユーザ意図に基づく衣服画像の生成に関する研究
灯油タンク内の液面高計測を用いた灯油残量推定システムに関する研究
灯油タンク内の液面高計測を用いた灯油残量推定システムに関する研究
深層自己回帰モデルを用いた俳句の生成と評価に関する研究
深層自己回帰モデルを用いた俳句の生成と評価に関する研究
競輪におけるレーティングシステムを用いた予想記事生成に関する研究
競輪におけるレーティングシステムを用いた予想記事生成に関する研究
【卒業論文】B2Bオークションにおけるユーザ別 入札行動予測に関する研究
【卒業論文】B2Bオークションにおけるユーザ別 入札行動予測に関する研究
A Study on Estimation of Household Kerosene Consumption for Optimization of D...
A Study on Estimation of Household Kerosene Consumption for Optimization of D...
マルチエージェント深層強化学習による自動運転車両の追越行動の獲得に関する研究
マルチエージェント深層強化学習による自動運転車両の追越行動の獲得に関する研究
A3C解説
1.
Volodymyr Mnih,Adrià Puigdomènech
Badia,Mehdi Mirza,et al. arXiv:1602.01783v2 [cs.LG] 16 Jun 2016 Asynchronous Methods for Deep Reinforcement Learning DeepLearningゼミ M1小川一太郎
2.
DQNおさらい • 𝑄 𝑠,
𝑎 ← 𝑄 𝑠, 𝑎 + 𝛼( 𝑟 + 𝛾𝑚𝑎𝑥𝑄∗ 𝑠′ , 𝑎′ − 𝑄(𝑠, 𝑎)) • 行動したあとの状態をもとに、報酬(r)と遷移後の行動価値(Q*)を判断する • Experience Replay 学習データをランダムに選択 • 学習データの相関をなくす • Reword Clipping • 報酬を±1に(大きさの固定) • Target Network • 教師データのNNを遅れて更新 • Loss Clipping • Qの更新時の勾配の大きさの最大最小値を±1に(大きな更新を防ぐ)
3.
Deep Rainforce Learningの改善の方向性 今までのDRL •
Online-agentによるデータは否定常 • OnlineRLの更新は非常に相関が強い • バッチ化やExperience Replayで改善 • Off-PolicyなRLメソッドに限定していた(例:過去のデータから学習) Experience Replay メモリ使用大 計算量大 改善の方向性:より定常なプロセスでデータ収集出来るのではないか
4.
非同期並列な学習 • データを非同期並列に学習する • エージェント&学習部の探索方針が違う 利点:学習が安定化 •
学習時間がactor-learnerの分だけ減らせる • Experience Replayに頼らないため、on-poicyなメソッドを使用できる Off-Policy ON-Policy Q学習 • Sarsa • n-step methods • Actor-Critic methods メソッド例
5.
On-Policyなメソッド① Sarsa • ほぼQ学習と同じ • 更新式𝑄
𝑠, 𝑎 ← 𝑄 𝑠, 𝑎 + 𝛼 𝑟 + 𝛾𝑄 𝑠′ , 𝑎′ − 𝑄 𝑠, 𝑎 • maxQ*ではなく、実際の行動a’を使用 N-step Q-Learning • 更新式(変化部分だけ) (𝑟𝑡+𝛾𝑟𝑡+1 + 𝛾2 𝑟𝑡+2 + ⋯ + 𝛾 𝑛−1 𝑟𝑡+𝑛−1) + 𝛾 𝑛 𝑚𝑎𝑥𝑄∗ 𝑠𝑡+𝑛, 𝑎 𝑡+𝑛 − 𝑄 𝑠, 𝑎 • N回分まで実際に得た報酬を使用して学習
6.
On-Policyなメソッド② Actor-Critic • 状態の表現方法 • 価値関数とは別に方策を表現する •
行動選択(P:状態sで行動aとる確率) • 𝜋 𝑡 𝑠, 𝑎 = 𝑃𝑟 𝑎 𝑡 = 𝑎 𝑠𝑡 = 𝑠 = 𝑒 𝑃(𝑠,𝑎) 𝑏 𝑒 𝑃(𝑠,𝑏) • 状態価値観数 • 𝑉 𝑠𝑡 ← 𝑉 𝑠𝑡 + 𝛼[𝑟𝑡+1 + 𝛾𝑉 𝑠𝑡+1 − 𝑉(𝑠𝑡)] • 𝑃 𝑠𝑡, 𝑎 𝑡 ← 𝑃 𝑠𝑡, 𝑎 𝑡 + 𝛽𝛿𝑡
7.
非同期並列な強化学習(Q学習) ローカルなQネット(θ)を使用して それぞれのacter-learnerで勾配を蓄積 一定回数ごとにTネット(θ-)を グローバルなQネット(θ)から更新 蓄積した勾配をもとに、一定回数ごとに グローバルなQネット(θ)を更新 異なる探索方式が存在しているた め、ロバスト性が改善される
8.
A3C asynchronous advantage
actor-critic 規定の回数まで行動する 行動にはθを用いる 報酬計算はθ’を用いる 終了から報酬を逆算する θとθ’を更新 CNN層のみ共有し、出力は 方策:ソフトマックス 価値:線形結合
9.
実験 Atari2600 • DQNと同様にAtari2600のスコアを計算 •
グラフの縦軸はスコア、横軸は時間 • 16スレッド • エピソード長5 同期頻度5 NNの構造 • 16filter 8*8size stride4 • 32filter 4*4size stride2 • 256 hidden 57ゲームにおいて人間のスコアと比較。 A3CにLSTM層を追加したものが非常に 高い値を記録している。
10.
実験 Atari2600 • 各手法でゲームをしたときのスコアを比較 •
それぞれの値は提唱された論文に記載のものを使用 • 57種類のゲームのうち最大の点数となったもの • A3C FF, 1day 3種類 • A3C FF 4種類 • L3C LSTM 19種類 (最後に256のLSTM層) 他手法との比較(例)
11.
TORCS Car Racing
Simulator • Atariの時と同じアーキテクチャ • 12時間の学習 • 人のテスターが得たスコアのだいたい75%~90%を得ることができる
12.
Labyrinth • りんごを獲得 1pt •
ゴールに到達 10pt • 60秒で1エピソード
13.
まとめ • 非同期並列なDRLの方法を提唱した • A3Cは既存の手法よりも良い結果を残した •
ARLの利点として • Experience Replayを使用しないため探索に方策を持つことができる • エージェント、学習部の探索方針が違うため、学習データの相関が減少 • マルチCPUで動作するため、通信コストが削減
14.
参考資料 • Asynchronous Methods
for Deep Reinforcement Learning (紹介論文) Volodymyr Mnih,Adrià Puigdomènech Badia,Mehdi Mirza,et al. https://arxiv.org/pdf/1602.01783.pdf • 強化学習の基礎 小池 康晴 東京工業大学 精密工学研究所 鮫島 和行 科学技術振興事業団 ERATO 川人学習動態脳プロジェク ト http://www.jnns.org/previous/niss/2000/text/koike2.pdf
Télécharger maintenant