SlideShare une entreprise Scribd logo
1  sur  24
Télécharger pour lire hors ligne
Decision Transformer: Reinforcement
Learning via Sequence Modeling
Lili Chen, Kevin Lu, Aravind Rajeswaran, Kimin Lee,
Aditya Grover, Michael Laskin, Pieter Abbeel, Aravind Srinivasy, Igor Mordatchy
尾崎安範
株式会社サイバーエージェント
尾崎安範 (Yasunori OZAKI)
• 例によって⾃⼰紹介
サイバーエージェント 研究員 兼
⼤阪⼤学 招聘研究員 兼
⼤阪⼤学 ⽯⿊研究室 社会⼈博⼠2年⽣
← NTT研(開発寄り) 研究員
← 東⼤ 情報理⼯
最近やっていること
ロボットによる接客を強化学習する研究開発
@alfredplpl
Transformerってやつで
強化学習したい︕
要約
• Transformerってやつがすごいらしい
• オフライン強化学習ができるTransformer、Decision Transformerを提案してみた
• Decision Transformerは連続制御に強いらしいことがわかった
はじめに
• Transformerってやつがすごいらしい
• だから、逐次意思決定問題にも使ってみたい
逐次意思決定問題を解くのが強化学習ってやつらしい
• 強化学習の主流であるTD法のパラダイムを変えてやりたい
特に⻑い時間間隔を考えることにしたい
• ちなみにオフラインRLを考えるからよろしく
準備: オフライン強化学習
• 問題そのものはMDPで記述できる
• 過去の履歴を利⽤して学習する
• 通常の強化学習と違い、探索ができない
• つまり、通常の強化学習より難しい
準備: Transformer
• TransformerとはAttentionと呼ばれる以下の数式を特徴とするニューラルネットワーク
• Transformerでスペイン語を英語に翻訳するイメージは以下の通り。
[1] https://qiita.com/omiita/items/07e69aef6c156d23c538
[1] より引⽤
提案⼿法: Decision Transformer
• こんなアニメーション(リンク先[2]参照)のような感じらしい
[2] https://sites.google.com/berkeley.edu/decision-transformer
[2] より引⽤
Decision Transformerの履歴表現
• 履歴の表現が即時報酬でなくリターンになっている
Decision Transformerのアーキテクチャ
• 3000トークンを⼊⼒として使う
1トークンはリターン、⾏動、状態の集まり
• 基本的にはGPTと同じモデル
補⾜: GPTのアーキテクチャ
• GPTのアーキテクチャは下図のとおりである
[3] Alec Radford, Karthik Narasimhan, Tim Salimans, and Ilya Sutskever. Improving language understanding by generative pre-training. 2018.
[3] より引⽤
Decision Transformerの擬似コード
# R, s, a, t: returns -to -go , states , actions , or timesteps
# transformer : transformer with causal masking (GPT)
# embed_s , embed_a , embed_R : linear embedding layers
# embed_t : learned episode positional embedding
# pred_a : linear action prediction layer
# main model
def DecisionTransformer (R, s, a, t):
# compute embeddings for tokens
pos_embedding = embed_t (t) # per - timestep ( note : not per - token )
s_embedding = embed_s (s) + pos_embedding
a_embedding = embed_a (a) + pos_embedding
R_embedding = embed_R (R) + pos_embedding
# interleave tokens as (R_1 , s_1 , a_1 , ... , R_K , s_K )
input_embeds = stack ( R_embedding , s_embedding , a_embedding )
# use transformer to get hidden states
hidden_states = transformer ( input_embeds = input_embeds )
# select hidden states for action prediction tokens
a_hidden = unstack ( hidden_states ). Actions
# predict action
return pred_a ( a_hidden )
Decision Transformerの学習
• 履歴を⼊⼒として使う
• 損失関数はタスクの⾏動が連続の場合はMSE、離散であるならば、cross entropy
学習の擬似コード
# training loop
for (R, s, a, t) in dataloader : # dims : ( batch_size , K, dim )
a_preds = DecisionTransformer (R, s, a, t)
loss = mean (( a_preds - a )**2) # L2 loss for continuous actions
optimizer . zero_grad (); loss . backward (); optimizer . step ()
評価実験
• 他のオフライン強化学習⼿法と⽐べてどんな性質があるか調べてみた
実験環境
Atari: 離散制御
Open AI gym: 連続制御
Key-to-door: 右下図のような環境
評価指標
リターンを元に正規化された指標
評価条件
TD法: 特にCQLを利⽤
模倣学習: 特にBCを利⽤
テスト時の初期リターン値
望む値
[4] Thomas Mesnard, Th ophane Weber, Fabio Viola, Shantanu Thakoor, Alaa Saade,
Anna Harutyunyan, Will Dabney, Tom Stepleton, Nicolas Heess, Arthur Guez, et al.
Counterfactual credit assignment in model-free reinforcement learning. arXiv preprint
arXiv:2011.09464, 2020
[4] より引⽤
評価実験の擬似コード
# evaluation loop
target_return = 1 # for instance , expert - level return
R, s, a, t, done = [ target_return ], [env. reset ()] , [], [1] , False
while not done : # autoregressive generation / sampling
# sample next action
action = DecisionTransformer (R, s, a, t)[ -1] # for cts actions
new_s , r, done , _ = env. step ( action )
# append new tokens to sequence
R = R + [R[ -1] - r] # decrement returns -to -go with reward
s, a, t = s + [ new_s ], a + [ action ], t + [len(R)]
R, s, a, t = R[-K:], ... # only keep context length of
評価実験結果の総論
• 離散の⾏動はあんまり変わらないらしい
• 連続制御は強いらしい
• 特にkey-to-doorがすごい強い
実験結果: Atari
• Breakoutは強いらしい
• Qbertがまぁまぁ弱いらしい
実験結果: OpenAI Gym
• D4RLというデータセットのうち、HalfCheetah、Hopper、Walkerの運動を学習させたらしい
Medium: エキスパートに対して1/3のスコアを出す中レベル⽅策が100万回のタイムスタンプを試⾏し
たデータセット。
Medium-Replay: 最⼤40万回のタイプスタンプを中レベル⽅策で集め、リプレイさせたデータセット。
Medium-Expert: 中レベル⽅策が100万回のタイプスタンプを試⾏したデータとエキスパートが100万
回のタイプスタンプを試⾏したデータセット。
[5] Justin Fu, Aviral Kumar, Ofir Nachum, George Tucker, and Sergey
Levine. D4rl: Datasets for deep data-driven reinforcement learning. arXiv
preprint arXiv:2004.07219, 2020.
[5] より引⽤
考察
• めちゃくちゃ疑問がおおい
Does Decision Transformer perform behavior cloning on a subset of the data?
How well does Decision Transformer model the distribution of returns?
What is the benefit of using a longer context length?
Does Decision Transformer perform effective long-term credit assignment?
Does Decision Transformer perform well in sparse reward settings?
Why does Decision Transformer avoid the need for value pessimism or behavior regularization?
How can Decision Transformer benefit online RL regimes?
• なので、気になった疑問だけを紹介
⽂脈情報はどれぐらい役⽴っているのか
• 特にAtariではめちゃくちゃ役⽴っている
作者は「シーケンスモデリング」のような働きをして⽂脈に即した⾏動ができているのではない
かと仮説⽴てている
提案⼿法をオンラインにすると︖
• うまく⾏けば、Go-Exploreの「記憶エンジン」として使えるんじゃないかな
補⾜: Go-ExploreとはAtariの中でも最も難しいゲームをぶっちぎりのスコアを出した⼿法
[5] Adrien Ecoffet, Joost Huizinga, Joel Lehman, Kenneth O Stanley, and Jeff Clune. Go-explore: a new approach for hard-exploration
problems. arXiv preprint arXiv:1901.10995, 2019.
[5] より引⽤
[5] より引⽤
まとめ
• Decision TransformerというTransformerベースの強化学習を提案した
• 強化学習界隈でTransformerをもっと使ってほしい
• 現状では実世界応⽤には難があるかもしれない
特に怪しいデータを突っ込むと意図しない⾏動を起こすかもしれない
[2] より引⽤
発表者の感想
• 良かったところ
ソースコードが公開されているのが親切
議論が尽くされていて、機械学習の論⽂としては親切
• つっこみところ
⼊⼒にリターンを使うのはleakageを起こしているのではないか
ちなみにコードに対応するところはこちら
https://github.com/kzl/decision-transformer/blob/master/gym/experiment.py#L41
オンラインだとリターンが計算できないため、どうするつもりなのだろうか
CQLとかと⽐べて、DTはパラメータ数多すぎることないか

Contenu connexe

Tendances

「世界モデル」と関連研究について
「世界モデル」と関連研究について「世界モデル」と関連研究について
「世界モデル」と関連研究についてMasahiro Suzuki
 
時系列予測にTransformerを使うのは有効か?
時系列予測にTransformerを使うのは有効か?時系列予測にTransformerを使うのは有効か?
時系列予測にTransformerを使うのは有効か?Fumihiko Takahashi
 
[DL輪読会]“SimPLe”,“Improved Dynamics Model”,“PlaNet” 近年のVAEベース系列モデルの進展とそのモデルベース...
[DL輪読会]“SimPLe”,“Improved Dynamics Model”,“PlaNet” 近年のVAEベース系列モデルの進展とそのモデルベース...[DL輪読会]“SimPLe”,“Improved Dynamics Model”,“PlaNet” 近年のVAEベース系列モデルの進展とそのモデルベース...
[DL輪読会]“SimPLe”,“Improved Dynamics Model”,“PlaNet” 近年のVAEベース系列モデルの進展とそのモデルベース...Deep Learning JP
 
【DL輪読会】Scaling Laws for Neural Language Models
【DL輪読会】Scaling Laws for Neural Language Models【DL輪読会】Scaling Laws for Neural Language Models
【DL輪読会】Scaling Laws for Neural Language ModelsDeep Learning JP
 
[DL輪読会]相互情報量最大化による表現学習
[DL輪読会]相互情報量最大化による表現学習[DL輪読会]相互情報量最大化による表現学習
[DL輪読会]相互情報量最大化による表現学習Deep Learning JP
 
[DL輪読会]逆強化学習とGANs
[DL輪読会]逆強化学習とGANs[DL輪読会]逆強化学習とGANs
[DL輪読会]逆強化学習とGANsDeep Learning JP
 
[DL輪読会]GLIDE: Guided Language to Image Diffusion for Generation and Editing
[DL輪読会]GLIDE: Guided Language to Image Diffusion  for Generation and Editing[DL輪読会]GLIDE: Guided Language to Image Diffusion  for Generation and Editing
[DL輪読会]GLIDE: Guided Language to Image Diffusion for Generation and EditingDeep Learning JP
 
【DL輪読会】Implicit Behavioral Cloning
【DL輪読会】Implicit Behavioral Cloning【DL輪読会】Implicit Behavioral Cloning
【DL輪読会】Implicit Behavioral CloningDeep Learning JP
 
強化学習における好奇心
強化学習における好奇心強化学習における好奇心
強化学習における好奇心Shota Imai
 
【DL輪読会】時系列予測 Transfomers の精度向上手法
【DL輪読会】時系列予測 Transfomers の精度向上手法【DL輪読会】時系列予測 Transfomers の精度向上手法
【DL輪読会】時系列予測 Transfomers の精度向上手法Deep Learning JP
 
【DL輪読会】A Path Towards Autonomous Machine Intelligence
【DL輪読会】A Path Towards Autonomous Machine Intelligence【DL輪読会】A Path Towards Autonomous Machine Intelligence
【DL輪読会】A Path Towards Autonomous Machine IntelligenceDeep Learning JP
 
強化学習アルゴリズムPPOの解説と実験
強化学習アルゴリズムPPOの解説と実験強化学習アルゴリズムPPOの解説と実験
強化学習アルゴリズムPPOの解説と実験克海 納谷
 
方策勾配型強化学習の基礎と応用
方策勾配型強化学習の基礎と応用方策勾配型強化学習の基礎と応用
方策勾配型強化学習の基礎と応用Ryo Iwaki
 
最近のディープラーニングのトレンド紹介_20200925
最近のディープラーニングのトレンド紹介_20200925最近のディープラーニングのトレンド紹介_20200925
最近のディープラーニングのトレンド紹介_20200925小川 雄太郎
 
【論文読み会】Deep Clustering for Unsupervised Learning of Visual Features
【論文読み会】Deep Clustering for Unsupervised Learning of Visual Features【論文読み会】Deep Clustering for Unsupervised Learning of Visual Features
【論文読み会】Deep Clustering for Unsupervised Learning of Visual FeaturesARISE analytics
 
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
【DL輪読会】Efficiently Modeling Long Sequences with Structured State SpacesDeep Learning JP
 
ゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement Learning
ゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement Learningゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement Learning
ゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement LearningPreferred Networks
 
[DL輪読会]ドメイン転移と不変表現に関するサーベイ
[DL輪読会]ドメイン転移と不変表現に関するサーベイ[DL輪読会]ドメイン転移と不変表現に関するサーベイ
[DL輪読会]ドメイン転移と不変表現に関するサーベイDeep Learning JP
 
【DL輪読会】Contrastive Learning as Goal-Conditioned Reinforcement Learning
【DL輪読会】Contrastive Learning as Goal-Conditioned Reinforcement Learning【DL輪読会】Contrastive Learning as Goal-Conditioned Reinforcement Learning
【DL輪読会】Contrastive Learning as Goal-Conditioned Reinforcement LearningDeep Learning JP
 

Tendances (20)

「世界モデル」と関連研究について
「世界モデル」と関連研究について「世界モデル」と関連研究について
「世界モデル」と関連研究について
 
時系列予測にTransformerを使うのは有効か?
時系列予測にTransformerを使うのは有効か?時系列予測にTransformerを使うのは有効か?
時系列予測にTransformerを使うのは有効か?
 
[DL輪読会]“SimPLe”,“Improved Dynamics Model”,“PlaNet” 近年のVAEベース系列モデルの進展とそのモデルベース...
[DL輪読会]“SimPLe”,“Improved Dynamics Model”,“PlaNet” 近年のVAEベース系列モデルの進展とそのモデルベース...[DL輪読会]“SimPLe”,“Improved Dynamics Model”,“PlaNet” 近年のVAEベース系列モデルの進展とそのモデルベース...
[DL輪読会]“SimPLe”,“Improved Dynamics Model”,“PlaNet” 近年のVAEベース系列モデルの進展とそのモデルベース...
 
【DL輪読会】Scaling Laws for Neural Language Models
【DL輪読会】Scaling Laws for Neural Language Models【DL輪読会】Scaling Laws for Neural Language Models
【DL輪読会】Scaling Laws for Neural Language Models
 
深層強化学習と実装例
深層強化学習と実装例深層強化学習と実装例
深層強化学習と実装例
 
[DL輪読会]相互情報量最大化による表現学習
[DL輪読会]相互情報量最大化による表現学習[DL輪読会]相互情報量最大化による表現学習
[DL輪読会]相互情報量最大化による表現学習
 
[DL輪読会]逆強化学習とGANs
[DL輪読会]逆強化学習とGANs[DL輪読会]逆強化学習とGANs
[DL輪読会]逆強化学習とGANs
 
[DL輪読会]GLIDE: Guided Language to Image Diffusion for Generation and Editing
[DL輪読会]GLIDE: Guided Language to Image Diffusion  for Generation and Editing[DL輪読会]GLIDE: Guided Language to Image Diffusion  for Generation and Editing
[DL輪読会]GLIDE: Guided Language to Image Diffusion for Generation and Editing
 
【DL輪読会】Implicit Behavioral Cloning
【DL輪読会】Implicit Behavioral Cloning【DL輪読会】Implicit Behavioral Cloning
【DL輪読会】Implicit Behavioral Cloning
 
強化学習における好奇心
強化学習における好奇心強化学習における好奇心
強化学習における好奇心
 
【DL輪読会】時系列予測 Transfomers の精度向上手法
【DL輪読会】時系列予測 Transfomers の精度向上手法【DL輪読会】時系列予測 Transfomers の精度向上手法
【DL輪読会】時系列予測 Transfomers の精度向上手法
 
【DL輪読会】A Path Towards Autonomous Machine Intelligence
【DL輪読会】A Path Towards Autonomous Machine Intelligence【DL輪読会】A Path Towards Autonomous Machine Intelligence
【DL輪読会】A Path Towards Autonomous Machine Intelligence
 
強化学習アルゴリズムPPOの解説と実験
強化学習アルゴリズムPPOの解説と実験強化学習アルゴリズムPPOの解説と実験
強化学習アルゴリズムPPOの解説と実験
 
方策勾配型強化学習の基礎と応用
方策勾配型強化学習の基礎と応用方策勾配型強化学習の基礎と応用
方策勾配型強化学習の基礎と応用
 
最近のディープラーニングのトレンド紹介_20200925
最近のディープラーニングのトレンド紹介_20200925最近のディープラーニングのトレンド紹介_20200925
最近のディープラーニングのトレンド紹介_20200925
 
【論文読み会】Deep Clustering for Unsupervised Learning of Visual Features
【論文読み会】Deep Clustering for Unsupervised Learning of Visual Features【論文読み会】Deep Clustering for Unsupervised Learning of Visual Features
【論文読み会】Deep Clustering for Unsupervised Learning of Visual Features
 
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
 
ゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement Learning
ゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement Learningゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement Learning
ゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement Learning
 
[DL輪読会]ドメイン転移と不変表現に関するサーベイ
[DL輪読会]ドメイン転移と不変表現に関するサーベイ[DL輪読会]ドメイン転移と不変表現に関するサーベイ
[DL輪読会]ドメイン転移と不変表現に関するサーベイ
 
【DL輪読会】Contrastive Learning as Goal-Conditioned Reinforcement Learning
【DL輪読会】Contrastive Learning as Goal-Conditioned Reinforcement Learning【DL輪読会】Contrastive Learning as Goal-Conditioned Reinforcement Learning
【DL輪読会】Contrastive Learning as Goal-Conditioned Reinforcement Learning
 

Similaire à Decision Transformer: Reinforcement Learning via Sequence Modeling

[Dl輪読会]introduction of reinforcement learning
[Dl輪読会]introduction of reinforcement learning[Dl輪読会]introduction of reinforcement learning
[Dl輪読会]introduction of reinforcement learningDeep Learning JP
 
A Deep Reinforcement Learning Chatbot
A Deep Reinforcement Learning ChatbotA Deep Reinforcement Learning Chatbot
A Deep Reinforcement Learning ChatbotTakahiro Yoshinaga
 
Inspection of CloudML Hyper Parameter Tuning
Inspection of CloudML Hyper Parameter TuningInspection of CloudML Hyper Parameter Tuning
Inspection of CloudML Hyper Parameter Tuningnagachika t
 
性能測定道 実践編
性能測定道 実践編性能測定道 実践編
性能測定道 実践編Yuto Hayamizu
 
1017 論文紹介第四回
1017 論文紹介第四回1017 論文紹介第四回
1017 論文紹介第四回Kohei Wakamatsu
 
Paper intoduction "Playing Atari with deep reinforcement learning"
Paper intoduction   "Playing Atari with deep reinforcement learning"Paper intoduction   "Playing Atari with deep reinforcement learning"
Paper intoduction "Playing Atari with deep reinforcement learning"Hiroshi Tsukahara
 
Chainerの使い方と自然言語処理への応用
Chainerの使い方と自然言語処理への応用Chainerの使い方と自然言語処理への応用
Chainerの使い方と自然言語処理への応用Seiya Tokui
 
分散型強化学習手法の最近の動向と分散計算フレームワークRayによる実装の試み
分散型強化学習手法の最近の動向と分散計算フレームワークRayによる実装の試み分散型強化学習手法の最近の動向と分散計算フレームワークRayによる実装の試み
分散型強化学習手法の最近の動向と分散計算フレームワークRayによる実装の試みSusumuOTA
 
NIPS KANSAI Reading Group #7: Temporal Difference Models: Model-Free Deep RL ...
NIPS KANSAI Reading Group #7: Temporal Difference Models: Model-Free Deep RL ...NIPS KANSAI Reading Group #7: Temporal Difference Models: Model-Free Deep RL ...
NIPS KANSAI Reading Group #7: Temporal Difference Models: Model-Free Deep RL ...Eiji Uchibe
 
タダで始めるテストファースト入門 ~ C# Express + NUnit
タダで始めるテストファースト入門 ~ C# Express + NUnitタダで始めるテストファースト入門 ~ C# Express + NUnit
タダで始めるテストファースト入門 ~ C# Express + NUnitYasuhiko Yamamoto
 
「機械学習とは?」から始める Deep learning実践入門
「機械学習とは?」から始める Deep learning実践入門「機械学習とは?」から始める Deep learning実践入門
「機械学習とは?」から始める Deep learning実践入門Hideto Masuoka
 
LCCC2010:Learning on Cores, Clusters and Cloudsの解説
LCCC2010:Learning on Cores,  Clusters and Cloudsの解説LCCC2010:Learning on Cores,  Clusters and Cloudsの解説
LCCC2010:Learning on Cores, Clusters and Cloudsの解説Preferred Networks
 
強化学習メモスライド
強化学習メモスライド強化学習メモスライド
強化学習メモスライドtwiponta_suzuki
 
Computational Motor Control: Reinforcement Learning (JAIST summer course)
Computational Motor Control: Reinforcement Learning (JAIST summer course) Computational Motor Control: Reinforcement Learning (JAIST summer course)
Computational Motor Control: Reinforcement Learning (JAIST summer course) hirokazutanaka
 
Nagoya.R #12 入門者講習
Nagoya.R #12 入門者講習Nagoya.R #12 入門者講習
Nagoya.R #12 入門者講習Yusaku Kawaguchi
 
"Playing Atari with Deep Reinforcement Learning"
"Playing Atari with Deep Reinforcement Learning""Playing Atari with Deep Reinforcement Learning"
"Playing Atari with Deep Reinforcement Learning"mooopan
 
北大調和系 DLゼミ A3C
北大調和系 DLゼミ A3C北大調和系 DLゼミ A3C
北大調和系 DLゼミ A3CTomoya Oda
 

Similaire à Decision Transformer: Reinforcement Learning via Sequence Modeling (20)

[Dl輪読会]introduction of reinforcement learning
[Dl輪読会]introduction of reinforcement learning[Dl輪読会]introduction of reinforcement learning
[Dl輪読会]introduction of reinforcement learning
 
A Deep Reinforcement Learning Chatbot
A Deep Reinforcement Learning ChatbotA Deep Reinforcement Learning Chatbot
A Deep Reinforcement Learning Chatbot
 
Inspection of CloudML Hyper Parameter Tuning
Inspection of CloudML Hyper Parameter TuningInspection of CloudML Hyper Parameter Tuning
Inspection of CloudML Hyper Parameter Tuning
 
PFI Christmas seminar 2009
PFI Christmas seminar 2009PFI Christmas seminar 2009
PFI Christmas seminar 2009
 
性能測定道 実践編
性能測定道 実践編性能測定道 実践編
性能測定道 実践編
 
Machine Learning Fundamentals IEEE
Machine Learning Fundamentals IEEEMachine Learning Fundamentals IEEE
Machine Learning Fundamentals IEEE
 
1017 論文紹介第四回
1017 論文紹介第四回1017 論文紹介第四回
1017 論文紹介第四回
 
Paper intoduction "Playing Atari with deep reinforcement learning"
Paper intoduction   "Playing Atari with deep reinforcement learning"Paper intoduction   "Playing Atari with deep reinforcement learning"
Paper intoduction "Playing Atari with deep reinforcement learning"
 
Chainerの使い方と自然言語処理への応用
Chainerの使い方と自然言語処理への応用Chainerの使い方と自然言語処理への応用
Chainerの使い方と自然言語処理への応用
 
分散型強化学習手法の最近の動向と分散計算フレームワークRayによる実装の試み
分散型強化学習手法の最近の動向と分散計算フレームワークRayによる実装の試み分散型強化学習手法の最近の動向と分散計算フレームワークRayによる実装の試み
分散型強化学習手法の最近の動向と分散計算フレームワークRayによる実装の試み
 
NIPS KANSAI Reading Group #7: Temporal Difference Models: Model-Free Deep RL ...
NIPS KANSAI Reading Group #7: Temporal Difference Models: Model-Free Deep RL ...NIPS KANSAI Reading Group #7: Temporal Difference Models: Model-Free Deep RL ...
NIPS KANSAI Reading Group #7: Temporal Difference Models: Model-Free Deep RL ...
 
タダで始めるテストファースト入門 ~ C# Express + NUnit
タダで始めるテストファースト入門 ~ C# Express + NUnitタダで始めるテストファースト入門 ~ C# Express + NUnit
タダで始めるテストファースト入門 ~ C# Express + NUnit
 
「機械学習とは?」から始める Deep learning実践入門
「機械学習とは?」から始める Deep learning実践入門「機械学習とは?」から始める Deep learning実践入門
「機械学習とは?」から始める Deep learning実践入門
 
LCCC2010:Learning on Cores, Clusters and Cloudsの解説
LCCC2010:Learning on Cores,  Clusters and Cloudsの解説LCCC2010:Learning on Cores,  Clusters and Cloudsの解説
LCCC2010:Learning on Cores, Clusters and Cloudsの解説
 
強化学習メモスライド
強化学習メモスライド強化学習メモスライド
強化学習メモスライド
 
Computational Motor Control: Reinforcement Learning (JAIST summer course)
Computational Motor Control: Reinforcement Learning (JAIST summer course) Computational Motor Control: Reinforcement Learning (JAIST summer course)
Computational Motor Control: Reinforcement Learning (JAIST summer course)
 
Nagoya.R #12 入門者講習
Nagoya.R #12 入門者講習Nagoya.R #12 入門者講習
Nagoya.R #12 入門者講習
 
"Playing Atari with Deep Reinforcement Learning"
"Playing Atari with Deep Reinforcement Learning""Playing Atari with Deep Reinforcement Learning"
"Playing Atari with Deep Reinforcement Learning"
 
北大調和系 DLゼミ A3C
北大調和系 DLゼミ A3C北大調和系 DLゼミ A3C
北大調和系 DLゼミ A3C
 
はじめての「R」
はじめての「R」はじめての「R」
はじめての「R」
 

Plus de Yasunori Ozaki

インタラクションのためのコンピュータビジョンのお仕事
インタラクションのためのコンピュータビジョンのお仕事インタラクションのためのコンピュータビジョンのお仕事
インタラクションのためのコンピュータビジョンのお仕事Yasunori Ozaki
 
CHI 2021 Human, ML & AI のまとめ
CHI 2021 Human, ML & AI のまとめCHI 2021 Human, ML & AI のまとめ
CHI 2021 Human, ML & AI のまとめYasunori Ozaki
 
POMDP下での強化学習の基礎と応用
POMDP下での強化学習の基礎と応用POMDP下での強化学習の基礎と応用
POMDP下での強化学習の基礎と応用Yasunori Ozaki
 
第六回全日本コンピュータビジョン勉強会資料 UniT (旧題: Transformer is all you need)
第六回全日本コンピュータビジョン勉強会資料 UniT (旧題: Transformer is all you need)第六回全日本コンピュータビジョン勉強会資料 UniT (旧題: Transformer is all you need)
第六回全日本コンピュータビジョン勉強会資料 UniT (旧題: Transformer is all you need)Yasunori Ozaki
 
Reinforcement Learning: An Introduction 輪読会第1回資料
Reinforcement Learning: An Introduction 輪読会第1回資料Reinforcement Learning: An Introduction 輪読会第1回資料
Reinforcement Learning: An Introduction 輪読会第1回資料Yasunori Ozaki
 
第四回 全日本CV勉強会スライド(MOTS: Multi-Object Tracking and Segmentation)
第四回 全日本CV勉強会スライド(MOTS: Multi-Object Tracking and Segmentation)第四回 全日本CV勉強会スライド(MOTS: Multi-Object Tracking and Segmentation)
第四回 全日本CV勉強会スライド(MOTS: Multi-Object Tracking and Segmentation)Yasunori Ozaki
 
Detecting attended visual targets in video の勉強会用資料
Detecting attended visual targets in video の勉強会用資料Detecting attended visual targets in video の勉強会用資料
Detecting attended visual targets in video の勉強会用資料Yasunori Ozaki
 
IROS 2019 参加報告詳細版
IROS 2019 参加報告詳細版IROS 2019 参加報告詳細版
IROS 2019 参加報告詳細版Yasunori Ozaki
 
Interact with AI (CHI 2019)
Interact with AI (CHI 2019)Interact with AI (CHI 2019)
Interact with AI (CHI 2019)Yasunori Ozaki
 
CVPR2019読み会 (Rethinking the Evaluation of Video Summaries)
CVPR2019読み会 (Rethinking the Evaluation of Video Summaries)CVPR2019読み会 (Rethinking the Evaluation of Video Summaries)
CVPR2019読み会 (Rethinking the Evaluation of Video Summaries)Yasunori Ozaki
 
ビジョンとロボットの強化学習(更新版) Reinforcement Learning in Computer Vision and Robotics.
ビジョンとロボットの強化学習(更新版) Reinforcement Learning in Computer Vision and Robotics.ビジョンとロボットの強化学習(更新版) Reinforcement Learning in Computer Vision and Robotics.
ビジョンとロボットの強化学習(更新版) Reinforcement Learning in Computer Vision and Robotics.Yasunori Ozaki
 
ビジョンとロボットの強化学習
ビジョンとロボットの強化学習ビジョンとロボットの強化学習
ビジョンとロボットの強化学習Yasunori Ozaki
 
Kaggleのテクニック
KaggleのテクニックKaggleのテクニック
KaggleのテクニックYasunori Ozaki
 
10分でわかるRandom forest
10分でわかるRandom forest10分でわかるRandom forest
10分でわかるRandom forestYasunori Ozaki
 
PRMLの線形回帰モデル(線形基底関数モデル)
PRMLの線形回帰モデル(線形基底関数モデル)PRMLの線形回帰モデル(線形基底関数モデル)
PRMLの線形回帰モデル(線形基底関数モデル)Yasunori Ozaki
 
Japanese Summary; Domain Adaptation for Object Recognition: An Unsupervised A...
Japanese Summary; Domain Adaptation for Object Recognition: An Unsupervised A...Japanese Summary; Domain Adaptation for Object Recognition: An Unsupervised A...
Japanese Summary; Domain Adaptation for Object Recognition: An Unsupervised A...Yasunori Ozaki
 
Introduction of my works
Introduction of my worksIntroduction of my works
Introduction of my worksYasunori Ozaki
 

Plus de Yasunori Ozaki (17)

インタラクションのためのコンピュータビジョンのお仕事
インタラクションのためのコンピュータビジョンのお仕事インタラクションのためのコンピュータビジョンのお仕事
インタラクションのためのコンピュータビジョンのお仕事
 
CHI 2021 Human, ML & AI のまとめ
CHI 2021 Human, ML & AI のまとめCHI 2021 Human, ML & AI のまとめ
CHI 2021 Human, ML & AI のまとめ
 
POMDP下での強化学習の基礎と応用
POMDP下での強化学習の基礎と応用POMDP下での強化学習の基礎と応用
POMDP下での強化学習の基礎と応用
 
第六回全日本コンピュータビジョン勉強会資料 UniT (旧題: Transformer is all you need)
第六回全日本コンピュータビジョン勉強会資料 UniT (旧題: Transformer is all you need)第六回全日本コンピュータビジョン勉強会資料 UniT (旧題: Transformer is all you need)
第六回全日本コンピュータビジョン勉強会資料 UniT (旧題: Transformer is all you need)
 
Reinforcement Learning: An Introduction 輪読会第1回資料
Reinforcement Learning: An Introduction 輪読会第1回資料Reinforcement Learning: An Introduction 輪読会第1回資料
Reinforcement Learning: An Introduction 輪読会第1回資料
 
第四回 全日本CV勉強会スライド(MOTS: Multi-Object Tracking and Segmentation)
第四回 全日本CV勉強会スライド(MOTS: Multi-Object Tracking and Segmentation)第四回 全日本CV勉強会スライド(MOTS: Multi-Object Tracking and Segmentation)
第四回 全日本CV勉強会スライド(MOTS: Multi-Object Tracking and Segmentation)
 
Detecting attended visual targets in video の勉強会用資料
Detecting attended visual targets in video の勉強会用資料Detecting attended visual targets in video の勉強会用資料
Detecting attended visual targets in video の勉強会用資料
 
IROS 2019 参加報告詳細版
IROS 2019 参加報告詳細版IROS 2019 参加報告詳細版
IROS 2019 参加報告詳細版
 
Interact with AI (CHI 2019)
Interact with AI (CHI 2019)Interact with AI (CHI 2019)
Interact with AI (CHI 2019)
 
CVPR2019読み会 (Rethinking the Evaluation of Video Summaries)
CVPR2019読み会 (Rethinking the Evaluation of Video Summaries)CVPR2019読み会 (Rethinking the Evaluation of Video Summaries)
CVPR2019読み会 (Rethinking the Evaluation of Video Summaries)
 
ビジョンとロボットの強化学習(更新版) Reinforcement Learning in Computer Vision and Robotics.
ビジョンとロボットの強化学習(更新版) Reinforcement Learning in Computer Vision and Robotics.ビジョンとロボットの強化学習(更新版) Reinforcement Learning in Computer Vision and Robotics.
ビジョンとロボットの強化学習(更新版) Reinforcement Learning in Computer Vision and Robotics.
 
ビジョンとロボットの強化学習
ビジョンとロボットの強化学習ビジョンとロボットの強化学習
ビジョンとロボットの強化学習
 
Kaggleのテクニック
KaggleのテクニックKaggleのテクニック
Kaggleのテクニック
 
10分でわかるRandom forest
10分でわかるRandom forest10分でわかるRandom forest
10分でわかるRandom forest
 
PRMLの線形回帰モデル(線形基底関数モデル)
PRMLの線形回帰モデル(線形基底関数モデル)PRMLの線形回帰モデル(線形基底関数モデル)
PRMLの線形回帰モデル(線形基底関数モデル)
 
Japanese Summary; Domain Adaptation for Object Recognition: An Unsupervised A...
Japanese Summary; Domain Adaptation for Object Recognition: An Unsupervised A...Japanese Summary; Domain Adaptation for Object Recognition: An Unsupervised A...
Japanese Summary; Domain Adaptation for Object Recognition: An Unsupervised A...
 
Introduction of my works
Introduction of my worksIntroduction of my works
Introduction of my works
 

Decision Transformer: Reinforcement Learning via Sequence Modeling