Soumettre la recherche
Mettre en ligne
[DL輪読会]Grandmaster level in StarCraft II using multi-agent reinforcement learning
•
Télécharger en tant que PPTX, PDF
•
4 j'aime
•
1,550 vues
Deep Learning JP
Suivre
2019/12/13 Deep Learning JP: http://deeplearning.jp/seminar-2/
Lire moins
Lire la suite
Technologie
Signaler
Partager
Signaler
Partager
1 sur 32
Télécharger maintenant
Recommandé
[DL輪読会]AlphaStarとその関連技術
[DL輪読会]AlphaStarとその関連技術
Deep Learning JP
多様な強化学習の概念と課題認識
多様な強化学習の概念と課題認識
佑 甲野
強化学習アルゴリズムPPOの解説と実験
強化学習アルゴリズムPPOの解説と実験
克海 納谷
SSII2021 [TS2] 深層強化学習 〜 強化学習の基礎から応用まで 〜
SSII2021 [TS2] 深層強化学習 〜 強化学習の基礎から応用まで 〜
SSII
[DL輪読会]`強化学習のための状態表現学習 -より良い「世界モデル」の獲得に向けて-
[DL輪読会]`強化学習のための状態表現学習 -より良い「世界モデル」の獲得に向けて-
Deep Learning JP
深層強化学習の分散化・RNN利用の動向〜R2D2の紹介をもとに〜
深層強化学習の分散化・RNN利用の動向〜R2D2の紹介をもとに〜
Jun Okumura
方策勾配型強化学習の基礎と応用
方策勾配型強化学習の基礎と応用
Ryo Iwaki
[DL輪読会] マルチエージェント強化学習と心の理論
[DL輪読会] マルチエージェント強化学習と心の理論
Deep Learning JP
Recommandé
[DL輪読会]AlphaStarとその関連技術
[DL輪読会]AlphaStarとその関連技術
Deep Learning JP
多様な強化学習の概念と課題認識
多様な強化学習の概念と課題認識
佑 甲野
強化学習アルゴリズムPPOの解説と実験
強化学習アルゴリズムPPOの解説と実験
克海 納谷
SSII2021 [TS2] 深層強化学習 〜 強化学習の基礎から応用まで 〜
SSII2021 [TS2] 深層強化学習 〜 強化学習の基礎から応用まで 〜
SSII
[DL輪読会]`強化学習のための状態表現学習 -より良い「世界モデル」の獲得に向けて-
[DL輪読会]`強化学習のための状態表現学習 -より良い「世界モデル」の獲得に向けて-
Deep Learning JP
深層強化学習の分散化・RNN利用の動向〜R2D2の紹介をもとに〜
深層強化学習の分散化・RNN利用の動向〜R2D2の紹介をもとに〜
Jun Okumura
方策勾配型強化学習の基礎と応用
方策勾配型強化学習の基礎と応用
Ryo Iwaki
[DL輪読会] マルチエージェント強化学習と心の理論
[DL輪読会] マルチエージェント強化学習と心の理論
Deep Learning JP
【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展
【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展
Deep Learning JP
強化学習の分散アーキテクチャ変遷
強化学習の分散アーキテクチャ変遷
Eiji Sekiya
[DL輪読会]大規模分散強化学習の難しい問題設定への適用
[DL輪読会]大規模分散強化学習の難しい問題設定への適用
Deep Learning JP
[DL輪読会]近年のオフライン強化学習のまとめ —Offline Reinforcement Learning: Tutorial, Review, an...
[DL輪読会]近年のオフライン強化学習のまとめ —Offline Reinforcement Learning: Tutorial, Review, an...
Deep Learning JP
ゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement Learning
ゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement Learning
Preferred Networks
NIPS2017読み会@PFN: Hierarchical Reinforcement Learning + α
NIPS2017読み会@PFN: Hierarchical Reinforcement Learning + α
佑 甲野
FeUdal Networks for Hierarchical Reinforcement Learning
FeUdal Networks for Hierarchical Reinforcement Learning
佑 甲野
最近強化学習の良記事がたくさん出てきたので勉強しながらまとめた
最近強化学習の良記事がたくさん出てきたので勉強しながらまとめた
Katsuya Ito
強化学習 DQNからPPOまで
強化学習 DQNからPPOまで
harmonylab
[DL輪読会]逆強化学習とGANs
[DL輪読会]逆強化学習とGANs
Deep Learning JP
分散型強化学習手法の最近の動向と分散計算フレームワークRayによる実装の試み
分散型強化学習手法の最近の動向と分散計算フレームワークRayによる実装の試み
SusumuOTA
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
Deep Learning JP
POMDP下での強化学習の基礎と応用
POMDP下での強化学習の基礎と応用
Yasunori Ozaki
【DL輪読会】論文解説:Offline Reinforcement Learning as One Big Sequence Modeling Problem
【DL輪読会】論文解説:Offline Reinforcement Learning as One Big Sequence Modeling Problem
Deep Learning JP
強化学習 と ゲーム理論 (MARL)
強化学習 と ゲーム理論 (MARL)
HarukaKiyohara
強化学習と逆強化学習を組み合わせた模倣学習
強化学習と逆強化学習を組み合わせた模倣学習
Eiji Uchibe
Introduction to A3C model
Introduction to A3C model
WEBFARMER. ltd.
【DL輪読会】Prompting Decision Transformer for Few-Shot Policy Generalization
【DL輪読会】Prompting Decision Transformer for Few-Shot Policy Generalization
Deep Learning JP
Maximum Entropy IRL(最大エントロピー逆強化学習)とその発展系について
Maximum Entropy IRL(最大エントロピー逆強化学習)とその発展系について
Yusuke Nakata
Decision Transformer: Reinforcement Learning via Sequence Modeling
Decision Transformer: Reinforcement Learning via Sequence Modeling
Yasunori Ozaki
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
Deep Learning JP
【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについて
Deep Learning JP
Contenu connexe
Tendances
【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展
【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展
Deep Learning JP
強化学習の分散アーキテクチャ変遷
強化学習の分散アーキテクチャ変遷
Eiji Sekiya
[DL輪読会]大規模分散強化学習の難しい問題設定への適用
[DL輪読会]大規模分散強化学習の難しい問題設定への適用
Deep Learning JP
[DL輪読会]近年のオフライン強化学習のまとめ —Offline Reinforcement Learning: Tutorial, Review, an...
[DL輪読会]近年のオフライン強化学習のまとめ —Offline Reinforcement Learning: Tutorial, Review, an...
Deep Learning JP
ゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement Learning
ゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement Learning
Preferred Networks
NIPS2017読み会@PFN: Hierarchical Reinforcement Learning + α
NIPS2017読み会@PFN: Hierarchical Reinforcement Learning + α
佑 甲野
FeUdal Networks for Hierarchical Reinforcement Learning
FeUdal Networks for Hierarchical Reinforcement Learning
佑 甲野
最近強化学習の良記事がたくさん出てきたので勉強しながらまとめた
最近強化学習の良記事がたくさん出てきたので勉強しながらまとめた
Katsuya Ito
強化学習 DQNからPPOまで
強化学習 DQNからPPOまで
harmonylab
[DL輪読会]逆強化学習とGANs
[DL輪読会]逆強化学習とGANs
Deep Learning JP
分散型強化学習手法の最近の動向と分散計算フレームワークRayによる実装の試み
分散型強化学習手法の最近の動向と分散計算フレームワークRayによる実装の試み
SusumuOTA
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
Deep Learning JP
POMDP下での強化学習の基礎と応用
POMDP下での強化学習の基礎と応用
Yasunori Ozaki
【DL輪読会】論文解説:Offline Reinforcement Learning as One Big Sequence Modeling Problem
【DL輪読会】論文解説:Offline Reinforcement Learning as One Big Sequence Modeling Problem
Deep Learning JP
強化学習 と ゲーム理論 (MARL)
強化学習 と ゲーム理論 (MARL)
HarukaKiyohara
強化学習と逆強化学習を組み合わせた模倣学習
強化学習と逆強化学習を組み合わせた模倣学習
Eiji Uchibe
Introduction to A3C model
Introduction to A3C model
WEBFARMER. ltd.
【DL輪読会】Prompting Decision Transformer for Few-Shot Policy Generalization
【DL輪読会】Prompting Decision Transformer for Few-Shot Policy Generalization
Deep Learning JP
Maximum Entropy IRL(最大エントロピー逆強化学習)とその発展系について
Maximum Entropy IRL(最大エントロピー逆強化学習)とその発展系について
Yusuke Nakata
Decision Transformer: Reinforcement Learning via Sequence Modeling
Decision Transformer: Reinforcement Learning via Sequence Modeling
Yasunori Ozaki
Tendances
(20)
【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展
【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展
強化学習の分散アーキテクチャ変遷
強化学習の分散アーキテクチャ変遷
[DL輪読会]大規模分散強化学習の難しい問題設定への適用
[DL輪読会]大規模分散強化学習の難しい問題設定への適用
[DL輪読会]近年のオフライン強化学習のまとめ —Offline Reinforcement Learning: Tutorial, Review, an...
[DL輪読会]近年のオフライン強化学習のまとめ —Offline Reinforcement Learning: Tutorial, Review, an...
ゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement Learning
ゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement Learning
NIPS2017読み会@PFN: Hierarchical Reinforcement Learning + α
NIPS2017読み会@PFN: Hierarchical Reinforcement Learning + α
FeUdal Networks for Hierarchical Reinforcement Learning
FeUdal Networks for Hierarchical Reinforcement Learning
最近強化学習の良記事がたくさん出てきたので勉強しながらまとめた
最近強化学習の良記事がたくさん出てきたので勉強しながらまとめた
強化学習 DQNからPPOまで
強化学習 DQNからPPOまで
[DL輪読会]逆強化学習とGANs
[DL輪読会]逆強化学習とGANs
分散型強化学習手法の最近の動向と分散計算フレームワークRayによる実装の試み
分散型強化学習手法の最近の動向と分散計算フレームワークRayによる実装の試み
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
POMDP下での強化学習の基礎と応用
POMDP下での強化学習の基礎と応用
【DL輪読会】論文解説:Offline Reinforcement Learning as One Big Sequence Modeling Problem
【DL輪読会】論文解説:Offline Reinforcement Learning as One Big Sequence Modeling Problem
強化学習 と ゲーム理論 (MARL)
強化学習 と ゲーム理論 (MARL)
強化学習と逆強化学習を組み合わせた模倣学習
強化学習と逆強化学習を組み合わせた模倣学習
Introduction to A3C model
Introduction to A3C model
【DL輪読会】Prompting Decision Transformer for Few-Shot Policy Generalization
【DL輪読会】Prompting Decision Transformer for Few-Shot Policy Generalization
Maximum Entropy IRL(最大エントロピー逆強化学習)とその発展系について
Maximum Entropy IRL(最大エントロピー逆強化学習)とその発展系について
Decision Transformer: Reinforcement Learning via Sequence Modeling
Decision Transformer: Reinforcement Learning via Sequence Modeling
Plus de Deep Learning JP
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
Deep Learning JP
【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについて
Deep Learning JP
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
Deep Learning JP
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
Deep Learning JP
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
Deep Learning JP
【DL輪読会】マルチモーダル LLM
【DL輪読会】マルチモーダル LLM
Deep Learning JP
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
Deep Learning JP
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
Deep Learning JP
【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?
Deep Learning JP
【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について
Deep Learning JP
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
Deep Learning JP
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
Deep Learning JP
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
Deep Learning JP
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
Deep Learning JP
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
Deep Learning JP
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
Deep Learning JP
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
Deep Learning JP
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
Deep Learning JP
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
Deep Learning JP
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
Deep Learning JP
Plus de Deep Learning JP
(20)
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについて
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】マルチモーダル LLM
【DL輪読会】マルチモーダル LLM
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
Dernier
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
atsushi061452
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
Hiroshi Tomioka
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
Toru Tamaki
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
Toru Tamaki
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
iPride Co., Ltd.
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
Hiroshi Tomioka
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
iPride Co., Ltd.
新人研修 後半 2024/04/26の勉強会で発表されたものです。
新人研修 後半 2024/04/26の勉強会で発表されたものです。
iPride Co., Ltd.
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NTT DATA Technology & Innovation
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
CRI Japan, Inc.
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
CRI Japan, Inc.
Dernier
(11)
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
新人研修 後半 2024/04/26の勉強会で発表されたものです。
新人研修 後半 2024/04/26の勉強会で発表されたものです。
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
[DL輪読会]Grandmaster level in StarCraft II using multi-agent reinforcement learning
1.
1 1 DEEP LEARNING JP [DL
Papers] http://deeplearning.jp/ えるエル @learn_learning3 DL輪読会2019/12/13 Grandmaster level in StarCraft II using multi-agent reinforcement learning
2.
22 書誌情報 筆者 • Oriol
Vinyals(ML界隈的にはseq2seqとかWaveNetとかの人),その他 David Silverなどによる 総勢40名近くのDeepMindチーム 掲載 • Nature 575, 350–354 (2019)
3.
33 論文概要 Blizzard Entertainmentが運営するリアルタイムストラテジー(RTS) ゲームStarCraft2のゲームAIであるAlphaStarを開発
人間と対戦する場合に公平になるよう仕様変更したAlphaStar (Final)を用い,SC2のオンラインマッチで人間のプレイヤー達と対戦 複雑なNNアーキテクチャ,人のプレイデータを用いた教師あり学習, 強化学習,マルチエージェント学習により,SC2最高のプレイヤーで あるグランドマスターと同等のレートに到達
4.
44 発表の前に ゲームのドメイン知識がないと理解できない事項が多すぎ,この 会に来てる人の興味分野と大分違うので,面白いかどうか微妙 理論的にガチガチな論文かと思ったが,そうでもない
「Alpha」が付いているだけあって,手法的にはAlphaGo~AlphaZero 辺りのアルゴリズムと近い(最初の教師あり学習,自己対戦,強化 学習等) 敵対的学習っぽい?(個人的な感想) ゲーム理論はどこへ行った?
5.
55 目次 StarCraft2の基礎知識 AlphaStar •
初代AlphaStarとFinalの違い • 学習アーキテクチャ全体 • 人のプレイデータを用いた教師あり学習 • 強化学習 • マルチエージェント学習と自己対戦 • 評価,分析 所感・その他
6.
66 基礎知識/StarCraft2 この辺は以前の輪読会の資料(https://www.slideshare.net/DeepLearningJP2016/dlalphastar)にも 書いてあるので,さらっと解説 3つの種族から一つを選び,俯瞰的な視点からリアルタイム(ターン性ではない)に,複数のユ ニットと戦闘手段を駆使して相手と戦うゲーム プレイヤーはフィールド内の資源を回収し,それをもとに建物,戦闘ユニットを生産し,相手の ユニットと対戦
プレイ中に同時に見れるのはマップ全体の一部のみで,自分のユニットがいないマップは見る ことができない不完全情報ゲーム
7.
77 基礎知識/ベンチマークとしてのSC2 環境内には複数の操作対称,敵が存在 状態空間,行動空間ともに非常に大きい
不完全情報ゲーム 時間的に一貫した意味のある行動が必要 大きく分けてマクロとマイクロの戦略的要素がある • マクロ:大局的な戦略(建物の建造純順,攻め込むタイミング等) • マイクロ:正確かつ多量の細かいユニット操作 複数の行動主体が存在し,行動や観測も極めて多様,行動主体は不完全な情報しか 得られない,過去の情報を使った効果的な行動が必要という現実世界の性質を StarCraftは反映している ←AlphaStarはこちら重視
8.
88 今までのスタークラフトAI スタークラフトをベンチマークとしたAIはいくつか開発されてきたが, ほとんどはミニゲームでマルチエージェント学習の有効性を示した りする程度にとどまり,フルゲームできるものは少数 僕の知る限りだと,2018年に出たTStarBotsという手法が最強で, ゲーム内bot最上位のチートクラス相手にフルゲームで勝利 →少し強いプレイヤーなら最上位botにも簡単に勝てるので,微妙
9.
99 SC2における強さの評価 オンライン対戦でマッチングを決定するMMR (Match
Making Rate)を基準としてプレイヤーの 強さを評価(ただし,グランドマスター以上はあまりMMRを気にしない傾向) 99.8%のプレイヤーがグランドマスターの次のマスターレベルまでで,グランドマスタークラスの MMRのプレイヤーは上位0.2% →AlphaStarはこの0.2%に到達
10.
1010 AlphaStar(初代)とAlphaStar(Final)の違い 今年の1月にデモを行ったAlphaStar(初代)と今回の論文で用いら れたAlphaStar(Final)にはいくつかの違いが存在 初代をさらに強化してFinalにしたわけではなく,プロのプレイヤー 監修のもと,人間と対戦を行うときに公平になるように学習や行動 に制限をかけて仕様変更
特に論文内で言及されている仕様変更は, • 初代ではプロトスという種族にしか対応してなかったが,今回は他の2種族 にも対応 • 入力としてゲームの内部情報を直接受け取るのではなく,人間と同じ視点の カメラインタフェースから入力を得る • コンピュータは人間にはできない高速操作ができてしまうため,これを制限
11.
1111 3体全ての種族で学習 AlphaStar(Final)では,プロトス以外のザーグ,テランでもメイン エージェントを学習 特性は違っても,基本的に同じくらいの強さになるような設定だが, AlphaStarの場合はプロトスが微妙に他より強い
論文内の分析では結局プロトスのデータをほとんど使っており, DeepMindのプロトスへのこだわりがうかがえる
12.
12 エージェントへの入力の違い AlphaStar(初代)の入力 →学習環境PySC2から得た生データ 人間の視点では本来見えないものが移って いた 人間の視点と比べて重要な情報が集約され すぎ AlphaStar(Final)の入力 →カメラインタフェースで得た画像
人間がプレイ中に見てる画面とまったく同じ ものを入力として受け取る PySC2から得たFeature Layers
13.
13 行動数(APM)の制限 AlphaStar(初代)の行動数 →制限なし DeepMind側は,試合中の平均のAPM (Action Per
Minute, 一分間の行動数)は人 間と同じくらいと主張していた 実際には,ユニットの交戦時は,AlphaStar側 が滅茶苦茶なAPMで押し切っていた AlphaStar(Final)の行動数 →Monitoring Layerによる行動数制限導入 交戦時に1500 近いAPMをたた き出す 人間ではありえない行動回数にならないよう, 専用の機構で調整 DeepMind側としては,マシンパワーのマイク ロ行動ではなく,大局的な戦略で勝てること を主張したい感じ まともなAPM
14.
1414 人間とAlphaStarのAPM分析 Finalと人間のゲームでは,全体的に人間の方がAPMが大きくなっている 平均APM,ゲーム中の最大APM共に人間の方が上 →初代のときとは違い,人間以下の条件でもグランドマスターレベルに到達
15.
1515 AlphaStarのエージェント LSTM, Transformer, ResNet,
PointerNetwork 等からなるエージェント本体 カメラインタフェースの画像 から得たユニットその他 諸々の入力 AlphaStarの行動回数を,5秒 で22回(同じ行動の繰り返し は除く)に制限する機構 行動の出力.どの種類の行動を, どのユニットに対して,どこに向けて 行うか選択 AlphaStarのニューラルネッ ト本体.次のページで紹介
16.
1616 エージェントNNへの入力,行動の詳細 今までのDeepな手法のオールスター感 入力や出力の特性に合わせて,いろいろな手法を使っているが, 中心となるのは長いSC2ゲームのシーケンスを処理する巨大LSTM コアのLSTM
17.
1717 エージェントの入力と出力 入力 出力 ・・・ゲームやってない人からするとあまり気にしないところかも その他に,方策更新に用いる観測のValue出力も含む
18.
1818 AlphaStarの学習インフラ 計算資源:8コアのTPUv3を32個,28コアの CPU150個に相当 エージェントの学習構造 •
Learner: 勾配降下で方策学習するNN本体 • Actor: Leanerから受け取った方策で環境から経験収集 • Environment: SC2でエージェント同士対戦 • Coordinator: エージェント集団の利得行列を保持し, マッチング決定 • Evaluator: 利得行列の補完?(あまりよくわからない) その他:各Learnerのバッチサイズは512, 1秒間に 50000の経験サンプルを処理,LearnerからActorへの パラメータコピーは10秒ごと 学習時間は上記の計算資源で44日(!!!)
19.
1919 AlphaStarの学習概要 1. 人間のプレイデータを用いた教師あり学習 • 971,000個のリプレイデータを仕様 •
入力に対して,NNの出力行動分布が人間のものに近くなるよう学習 AlphaZeroとかでは人間の教師データなしだったのに,AlphaGoの時代に逆戻り? →StarCraft2は,行動空間が大きすぎるのと,誰がやっても必須な「常識」の型が存在するため 2. 教師あり学習したエージェント同士のマルチエージェントのリーグ戦で 自己対戦+強化学習 • エージェント同士で対戦して強化学習.過去のエージェントのパラメータは凍結しつつ,学習 によるパラメータ更新を行ったエージェントを生成し,過去と最新エージェントが混ざった環 境でマチング • メインの学習エージェントの他に,Main ExploiterやLeague Exploiterと呼ばれる特殊なエー ジェントが存在 • 自己対戦自体は,他のAlpha Zero系と同じだが,AlphaStarはゲーム理論の観点(たぶん) から,戦略の多様性が増すような仕掛けになっている
20.
2020 人間のプレイデータからの教師あり学習 SC2のリプレイデータを用い,AlphaStarのエージェ ントの出力が人間の行動の分布と近くなるよう教 師あり学習 AlphaStarと人間の行動分布のKLダイバージェンス をとって最適化
AlphaStarの方策は𝜋 𝜃(𝑎 𝑡|𝑠𝑡, 𝑧)で表され,条件付 けのzは人間のデータから得た統計量
21.
2121 強化学習 リーグ戦の中でマッチングしたエージェント同士対戦し,強化 学習を行う ベースRLアルゴリズムはオフポリシー分散型強化学習の IMPALA(V-trace)と,この論文で提案したSelf
Imitation Learningの改良型であるUPGO(Upgoing policy update) 強化学習による方策更新中も,教師あり学習直後のモデル を用いて,方策蒸留を行う RL中も人間のデータからの統計量zで条件付けを行う 報酬 • 対戦結果による報酬𝒓 𝑻:勝ち負けでプラスorマイナス1 • 疑似報酬𝒓 𝒑:人のビルドオーダー(ユニットの生産順序)や あるユニットを建築したかどうかなど,ランダムでサンプル された条件を満たしているかどうかで報酬 • 最終的な報酬は𝑟𝑇と𝑟𝑇の合計
22.
2222 強化学習/UPGO 既存の模倣学習アルゴリズムであるSelf Imitation
Learningを改良 したアルゴリズム おさらい:Self Imitation Learning • 過去のエージェントの行動を保存し,学習中の価値推定値よりも,過去の経 験で得た収益の方が高かった場合,その行動を選択するように方策更新 • SILでは以下のようにロスを計算する SILの方策ロス,価値のロス共に, RよりVが大きい場合はR-Vの部 分が0となって ,(1)のロスによる 更新が行われない
23.
2323 強化学習/UPGO UPGOの方策更新では,方策を以下の方向へ更新 • SILの時は収益Rを使用したが,今回は収益の代わりにGを導入 •
Gは,𝑠𝑡+1における行動𝑎 𝑡+1の行動価値が状態価値(Vから派生する行動全 体の価値平均)より高ければ再帰的に求める.そうでなければ,ただの報酬 プラス次の状態価値 • 𝜌𝑡は,元々V-traceで用いられる重みづけの計数.
24.
2424マルチエージェント学習の前提知識/推移的な ゲームと非推移的なゲーム 推移的(transitive)ゲーム:プレイヤーA, B,
Cがいた場合,AがBに勝利し, BがCに勝利するなら,AはCにも勝利するという条件が満たされるゲーム 非推移的(non-transitive)ゲーム:プレイヤーA, B, Cがいた場合,AがB に勝利し,BがCに勝利する場合でも,AがCに勝利するという条件が満た されないゲーム.つまり循環があるゲーム(じゃんけんが代表的) スタークラフトは,「基本的に」非推移的なゲームで,ある戦略AがBに勝ち, BがCに勝つ場合でも,そのまま強さの序列がA>B>Cにはならない.従って, ただ単に最新モデルvs直前のモデルの自己対戦を繰り返した場合,昔の 戦略に勝てなくなる可能性 →AlphaStarでは,自己対戦の時に工夫して,過去の複数戦略と自己対戦
25.
2525 マルチエージェント学習 リーグ全体で多様な戦略を保持し,学習の対象となるメイン エージェントがそれら多くの戦略に勝てるロバストな方策を 得るよう, マルチエージェントのリーグ戦を行う
エージェントの構成 • Main agent: 実際にテストで用いる方策を学習するエージェント.対戦 相手は過去の凍結された方策パラメータのエージェントで,全体の35% をただの自己対戦,50%をPFPS (後で解説),15%を最新モデルに一切 勝てなくなった過去のエージェントや過去のMain Exploiterと対戦 • League exploiter: リーグ全体の弱みを突くエージェント.全てのエー ジェントに勝利でき,勝率が70%を超えた時点でパラメータを凍結して, リーグ内に放流(上記条件を満たさなかった場合は別の制限時間で凍 結).たまにパラメータリセット • Main exploiter: Main agentの弱みを突くエージェント.3体のメインエー ジェントに勝ち,勝率が70%を超えたらパラメータを凍結して放流
26.
2626 単純な自己対戦の欠点の克服 じゃんけんのようなゲームでは,グーチョキパーの戦略の種類だけで勝敗が決まるが,スター クラフトでは,戦略の種類が同じでも,強さが違う(例えばユニット量が単純に多いなど) 自己対戦で循環を避けて強くなろうとした場合,同じ種類の戦略でひたすら強くなり続ける局 所解に陥る可能性 →AlphaStarで導入しているExploiterエージェントにより,上記の問題を回避して戦略に多様性 ←たぶんこの図はゲームをしてない人 にはわかりづらい 航空ユニット(Void
ray)>装甲ユニット(immortal>軽量 対空ユニット(Stalker)>航空ユニット・・・ という強弱の循環関係がある場合に起こることを 解説している
27.
2727 PFPS (Prioritized Fictionius
Self Play) 仰々しい名前だが,大したことは言っていない 循環を避けるため,原則AlphaStarのマルチエージェント学習では過去の全てのエー ジェントと自己対戦させたいが,例えば明らかに勝率が高いエージェントなどと戦わ せるのは無駄 →対戦相手のマッチング確率を勝率に合わせて選択 Aを学習対象のエージェント,Cを対戦相手候補全体の集合,Bを対戦相手の候補とした場合,Bとの対 戦確率を以下のように計算 ここで,fは勝率により,マッチング確率を調整する関数で,今回の場合は二種類存在 𝒇 𝒉𝒂𝒓𝒅 𝒙 = (𝟏 − 𝒙) 𝒑 :勝率が低い対戦相手とマッチングしやすくなる.例として,勝率が1なら,0となり マッチングしない.0.1とかだと大きくなる.pはでマッチングのランダム度合いを調整 𝒇 𝒗𝒂𝒓(𝒙) = 𝒙(𝟏 − 𝒙):勝率が半分近い=実力が同じくらいの相手とマッチングしやすくなる.例として勝率 0.1や0.9だと,0.09に,勝率0.5だと0.25で大きくなる
28.
2828 分析/エージェントの利得行列 青色は行エージェントの列エー ジェントに対する勝利,赤は負け, 白はドロー 後半のMain
agentは過去のエー ジェントの大半に勝利 →推移的で,学習により勝敗が 循環していない
29.
2929 分析/構成手法の効果 AlphaStarに使用されている手法でどれが 効いているのか分析 APM制限については,制限をゆるくすると, 逆にパフォーマンスが低下する場合あり →エージェントがマイクロ戦略に頼りすぎて, 大局的なマクロ戦略の学習がうまくいかない から
30.
3030 分析/AlphaStarの勝敗分布 緑はAlphaStarの勝利,赤は負け,青は勝敗から算出したAlphaStar の強さの分布 グランドマスター級の最上位プレイヤーにはかなり負けている
31.
3131 所感 プレイヤー視点からでも,この論文の条件でグランドマスター級に なれたのは普通にすごい 1月のデモ時は,明らかに条件が平等ではないとプレイヤーから 結構批判があったので,かなり改善されている
ただ,リプレイでは一部の条件で異常な行動をしたり,奇襲に弱 かったりと,欠点がないわけではない 再現実装をしたいが,この規模の計算資源は…
32.
3232 まとめ/プレイヤー視点から (注)まだプロトスのリプレイしか見てないので,PvXの感想 学習データに以上のMMR3500以上のプレイヤーのリプレイしか 使っていないためチーズ(いわゆる奇襲,常識外の戦略)に弱そう →ブロンズ,シルバー周辺はチーズだらけなので,この辺のリプレイ 使った方が奇襲には強くなりそう リプレイを見たところ,クローク(透明)ユニットへの対応が怪しく, 感知するDetectorがいない状態だと滅茶苦茶な行動をしている
初代AlphaStarと比べると,ハラス(相手に対する嫌がらせ)を絡め た戦略が中心で,人間のプロに近い
Télécharger maintenant