Soumettre la recherche
Mettre en ligne
動的ボルツマンマシンとPommerman
•
2 j'aime
•
1,193 vues
T
Takayuki Osogami
Suivre
2019年7月19日全脳アーキテクチャ勉強会講演資料
Lire moins
Lire la suite
Sciences
Signaler
Partager
Signaler
Partager
1 sur 33
Télécharger maintenant
Télécharger pour lire hors ligne
Recommandé
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
Deep Learning JP
Non-autoregressive text generation
Non-autoregressive text generation
nlab_utokyo
実験計画法入門 Part 2
実験計画法入門 Part 2
haji mizu
PRML学習者から入る深層生成モデル入門
PRML学習者から入る深層生成モデル入門
tmtm otm
【DL輪読会】The Forward-Forward Algorithm: Some Preliminary
【DL輪読会】The Forward-Forward Algorithm: Some Preliminary
Deep Learning JP
科学と機械学習のあいだ:変量の設計・変換・選択・交互作用・線形性
科学と機械学習のあいだ:変量の設計・変換・選択・交互作用・線形性
Ichigaku Takigawa
強化学習における好奇心
強化学習における好奇心
Shota Imai
【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについて
Deep Learning JP
Recommandé
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
Deep Learning JP
Non-autoregressive text generation
Non-autoregressive text generation
nlab_utokyo
実験計画法入門 Part 2
実験計画法入門 Part 2
haji mizu
PRML学習者から入る深層生成モデル入門
PRML学習者から入る深層生成モデル入門
tmtm otm
【DL輪読会】The Forward-Forward Algorithm: Some Preliminary
【DL輪読会】The Forward-Forward Algorithm: Some Preliminary
Deep Learning JP
科学と機械学習のあいだ:変量の設計・変換・選択・交互作用・線形性
科学と機械学習のあいだ:変量の設計・変換・選択・交互作用・線形性
Ichigaku Takigawa
強化学習における好奇心
強化学習における好奇心
Shota Imai
【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについて
Deep Learning JP
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
Deep Learning JP
Word2vecの並列実行時の学習速度の改善
Word2vecの並列実行時の学習速度の改善
Naoaki Okazaki
深層生成モデルと世界モデル
深層生成モデルと世界モデル
Masahiro Suzuki
[DL輪読会]Grokking: Generalization Beyond Overfitting on Small Algorithmic Datasets
[DL輪読会]Grokking: Generalization Beyond Overfitting on Small Algorithmic Datasets
Deep Learning JP
【DL輪読会】ViT + Self Supervised Learningまとめ
【DL輪読会】ViT + Self Supervised Learningまとめ
Deep Learning JP
ブレインパッドにおける機械学習プロジェクトの進め方
ブレインパッドにおける機械学習プロジェクトの進め方
BrainPad Inc.
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
Deep Learning JP
SSII2022 [OS3-02] Federated Learningの基礎と応用
SSII2022 [OS3-02] Federated Learningの基礎と応用
SSII
【DL輪読会】DayDreamer: World Models for Physical Robot Learning
【DL輪読会】DayDreamer: World Models for Physical Robot Learning
Deep Learning JP
時系列予測にTransformerを使うのは有効か?
時系列予測にTransformerを使うのは有効か?
Fumihiko Takahashi
POMDP下での強化学習の基礎と応用
POMDP下での強化学習の基礎と応用
Yasunori Ozaki
深層生成モデルを用いたマルチモーダル学習
深層生成モデルを用いたマルチモーダル学習
Masahiro Suzuki
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜
SSII
[DL輪読会]DISTRIBUTIONAL POLICY GRADIENTS
[DL輪読会]DISTRIBUTIONAL POLICY GRADIENTS
Deep Learning JP
【DL輪読会】EPro-PnP: Generalized End-to-End Probabilistic Perspective-n-Pointsfor...
【DL輪読会】EPro-PnP: Generalized End-to-End Probabilistic Perspective-n-Pointsfor...
Deep Learning JP
大学院進学が切り拓く情報系学生のキャリア
大学院進学が切り拓く情報系学生のキャリア
Takayuki Itoh
機械学習におけるオンライン確率的最適化の理論
機械学習におけるオンライン確率的最適化の理論
Taiji Suzuki
【DL輪読会】Scaling laws for single-agent reinforcement learning
【DL輪読会】Scaling laws for single-agent reinforcement learning
Deep Learning JP
[DL輪読会]Non-Autoregressive Machine Translation with Latent Alignments
[DL輪読会]Non-Autoregressive Machine Translation with Latent Alignments
Deep Learning JP
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
Deep Learning JP
Contenu connexe
Tendances
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
Deep Learning JP
Word2vecの並列実行時の学習速度の改善
Word2vecの並列実行時の学習速度の改善
Naoaki Okazaki
深層生成モデルと世界モデル
深層生成モデルと世界モデル
Masahiro Suzuki
[DL輪読会]Grokking: Generalization Beyond Overfitting on Small Algorithmic Datasets
[DL輪読会]Grokking: Generalization Beyond Overfitting on Small Algorithmic Datasets
Deep Learning JP
【DL輪読会】ViT + Self Supervised Learningまとめ
【DL輪読会】ViT + Self Supervised Learningまとめ
Deep Learning JP
ブレインパッドにおける機械学習プロジェクトの進め方
ブレインパッドにおける機械学習プロジェクトの進め方
BrainPad Inc.
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
Deep Learning JP
SSII2022 [OS3-02] Federated Learningの基礎と応用
SSII2022 [OS3-02] Federated Learningの基礎と応用
SSII
【DL輪読会】DayDreamer: World Models for Physical Robot Learning
【DL輪読会】DayDreamer: World Models for Physical Robot Learning
Deep Learning JP
時系列予測にTransformerを使うのは有効か?
時系列予測にTransformerを使うのは有効か?
Fumihiko Takahashi
POMDP下での強化学習の基礎と応用
POMDP下での強化学習の基礎と応用
Yasunori Ozaki
深層生成モデルを用いたマルチモーダル学習
深層生成モデルを用いたマルチモーダル学習
Masahiro Suzuki
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜
SSII
[DL輪読会]DISTRIBUTIONAL POLICY GRADIENTS
[DL輪読会]DISTRIBUTIONAL POLICY GRADIENTS
Deep Learning JP
【DL輪読会】EPro-PnP: Generalized End-to-End Probabilistic Perspective-n-Pointsfor...
【DL輪読会】EPro-PnP: Generalized End-to-End Probabilistic Perspective-n-Pointsfor...
Deep Learning JP
大学院進学が切り拓く情報系学生のキャリア
大学院進学が切り拓く情報系学生のキャリア
Takayuki Itoh
機械学習におけるオンライン確率的最適化の理論
機械学習におけるオンライン確率的最適化の理論
Taiji Suzuki
【DL輪読会】Scaling laws for single-agent reinforcement learning
【DL輪読会】Scaling laws for single-agent reinforcement learning
Deep Learning JP
[DL輪読会]Non-Autoregressive Machine Translation with Latent Alignments
[DL輪読会]Non-Autoregressive Machine Translation with Latent Alignments
Deep Learning JP
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
Deep Learning JP
Tendances
(20)
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
Word2vecの並列実行時の学習速度の改善
Word2vecの並列実行時の学習速度の改善
深層生成モデルと世界モデル
深層生成モデルと世界モデル
[DL輪読会]Grokking: Generalization Beyond Overfitting on Small Algorithmic Datasets
[DL輪読会]Grokking: Generalization Beyond Overfitting on Small Algorithmic Datasets
【DL輪読会】ViT + Self Supervised Learningまとめ
【DL輪読会】ViT + Self Supervised Learningまとめ
ブレインパッドにおける機械学習プロジェクトの進め方
ブレインパッドにおける機械学習プロジェクトの進め方
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
SSII2022 [OS3-02] Federated Learningの基礎と応用
SSII2022 [OS3-02] Federated Learningの基礎と応用
【DL輪読会】DayDreamer: World Models for Physical Robot Learning
【DL輪読会】DayDreamer: World Models for Physical Robot Learning
時系列予測にTransformerを使うのは有効か?
時系列予測にTransformerを使うのは有効か?
POMDP下での強化学習の基礎と応用
POMDP下での強化学習の基礎と応用
深層生成モデルを用いたマルチモーダル学習
深層生成モデルを用いたマルチモーダル学習
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜
[DL輪読会]DISTRIBUTIONAL POLICY GRADIENTS
[DL輪読会]DISTRIBUTIONAL POLICY GRADIENTS
【DL輪読会】EPro-PnP: Generalized End-to-End Probabilistic Perspective-n-Pointsfor...
【DL輪読会】EPro-PnP: Generalized End-to-End Probabilistic Perspective-n-Pointsfor...
大学院進学が切り拓く情報系学生のキャリア
大学院進学が切り拓く情報系学生のキャリア
機械学習におけるオンライン確率的最適化の理論
機械学習におけるオンライン確率的最適化の理論
【DL輪読会】Scaling laws for single-agent reinforcement learning
【DL輪読会】Scaling laws for single-agent reinforcement learning
[DL輪読会]Non-Autoregressive Machine Translation with Latent Alignments
[DL輪読会]Non-Autoregressive Machine Translation with Latent Alignments
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
動的ボルツマンマシンとPommerman
1.
動的ボルツマンマシンとPommerman IBM東京基礎研究所 恐神貴行 © 2019 IBM
Corporation 1
2.
恐神貴行 @TOsogami © 2019
IBM Corporation 2 1998年 日本アイ・ビー・エム(株)入社 東京基礎研究所配属 2005年 米国学術博士(カーネギーメロン大学コンピュータ・サイエンス学科) 2013-19年 JST CRESTプロジェクト主たる共同研究者 2015年 IBMアカデミー会員 2019年 IBMシニア・テクニカル・スタッフ・メンバー 現在 数学アドバンストイノベーションプラットフォーム(AIMaP) 運営委員 産業数学の先進的・基礎的共同研究拠点 共同利用・共同研究委員会委員 人工知能・機械学習関連の学会で活動 など 興味 確率モデル、逐次的意思決定、強化学習
3.
基礎研究 受賞 • 人工知能学会全国大会優秀賞 (2004,
2006, 2015, 2017) • IBISワークショップ・ベストプレゼンテーション賞 (2015) • 待ち行列研究部会論文賞 (2015) 学術書 基礎研究からビジネスのイノベーションへ IBM東京基礎研究所.数理科学部門の取り組み ビジネスのイノベーション 日本OR学会 実施賞 (2003) ICDM データマイ ニング・コンテス ト優勝 (2007) PDOS 製造プロセスの最適化 Image courtesy of worradmu at FreeDigitalPhotos.net 日本OR学会 文献賞奨励賞 (2010) ANACONDA センサーデータからの異常検知 Finance trend predictor 金融市場の予測 NeurIPS Pommerman コンペティション優勝 (2018) © 2019 IBM Corporation 3
4.
Dynamic Boltzmann machine
(DyBM) from scientific contributions to business innovations © 2019 IBM Corporation Publication in a Nature journal (2015) Business innovation (2018)
5.
How can we
make effective use of spike-timing dependent plasticity (STDP) in artificial neural networks? © 2019 IBM Corporation Hebb’s rule (’49) STDP (’90s) Cells that fire together, wire together Bi & Poo (1998) Dan & Poo (2006) Amount of changes depends on timing of spikes Today’s artificial neural networks ?[Nessler et al. 2013, Bengio et al. 2016, Scellier & Bengio 2016]
6.
DyBM provides theoretical
underpinnings for STDP, similar to Boltzmann machine for Hebb’s rule © 2019 IBM Corporation Boltzmann machine Dynamic Boltzmann machine Hebb’s rule Spike-timing dependent plasticity Bi & Poo (1998) Dan & Poo (2006) MLE MLE Cells that fire together, wire together Refine Boltzmann machine Hebb’s rule Derive
7.
Learning rule of
Boltzmann machine, maximizing log-likelihood [Hinton et al. ’83] © 2019 IBM Corporation Neuron Neuron Synapse 𝒙∈ Expected value: 𝒙 Log likelihood of training data : 𝒙∈ cf. Hebb’s rule Stochastic gradient
8.
Pre-synaptic neuron Post-synaptic neuron Image
courtesy of dream designs at FreeDigitalPhotos.net © 2019 IBM Corporation
9.
Spike-timing dependent plasticity
(STDP): Amount of changes depends on timing of spikes © 2019 IBM Corporation Synapse strengthened (Long Term Potentiation) Bi & Poo (1998) Dan & Poo (2006) Pre-synaptic neuron Post-synaptic neuronSynapse Synapse weakened (Long Term Depression)
10.
Dynamic Boltzmann machine
as a limit of a sequence of Boltzmann machines © 2019 IBM Corporation Time Dynamic Boltzmann machine Historical values Next value Weight from neuron at time to neuron at time We learn Boltzmann machine for a -th order Markov model
11.
Inference with Dynamic
Boltzmann machine (LTP only) © 2019 IBM Corporation Conduction delay, Synaptic eligibility trace: [ ] [ ] Probability for neuron to fire at time : :
12.
Learning with DyBM,
maximizing log-likelihood © 2019 IBM Corporation Conduction delay, Synaptic eligibility trace: [ ] [ ] [: ] : Stochastic gradient update for LTP weight: : Spike-timing dependent How recently/often spikes reached from neuron cf. Boltzmann machine
13.
No back propagation
through time in DyBM’s learning © 2019 IBM Corporation : [ ] *summation is over pre-synaptic neurons connected toPer-step learning time is independent of the length of time-series (local in time & space) cf. Back propagation through time needed for recurrent neural networks (including LSTM)
14.
Online learning can
also improve predictive accuracy for non-stationary data © 2019 IBM Corporation Training Test Batch 0.932 0.863 Online 0.980 0.958 Training Test Predictive accuracy* Batch: Train DyBM optimally → Test with fixed parameters Online: Train DyBM optimally Further online learning → Test while learning online *Predictive accuracy is the coefficient of correlation between prediction and realized values in sensor data from a power generator, but Figure is IBM stock price from Yahoo! Finance
15.
DyBM provides theoretical
underpinnings for STDP © 2019 IBM Corporation Hebb’s rule (’49) Motivated artificial neural networks - Perceptron (’58) Failure 1950 1960 1970 1980 1990 Theoretical underpinnings - Hopfield network (’82) - Boltzmann machine (’83) 2000 2010 Success - Deep learning STDP (’90s) Theoretical underpinnings - Dynamic Boltzmann machine Successful applications
16.
Extensions of DyBM ©
2019 IBM Corporation 16 To structured time-series • T. Osogami, R. Raymond, A. Goel, T. Shirai, and T. Maehara, “Dynamic determinantal point processes,” AAAI-18 To real-valued time-series • S. Dasgupta and T. Osogami, “Nonlinear dynamic Boltzmann machines for time series prediction,” AAAI-17 To models with hidden units • T. Osogami, H. Kajino, and T. Sekiyama, “Bidirectional learning for time-series models with hidden units,” ICML 2017 To continuous space • H. Kajino, “A functional dynamic Boltzmann machine,” IJCAI-17
17.
References © 2019 IBM
Corporation 17 • 恐神貴行, ボルツマンマシン, コロナ社, 2019• T. Osogami and M. Otsuka, “Seven neurons memorizing sequences of alphabetical images via spike-timing dependent plasticity,” Scientific Reports 5, 14149 (2015). www.nature.com/articles/srep14149 • T. Osogami and S. Dasgupta, Energy-based machine learning, IJCAI-17 tutorial researcher.watson.ibm.com/researcher/view_g roup.php?id=7834 • github.com/ibm-research-tokyo/dybm
18.
NeurIPS 2018 Pommerman
コンペティションで優勝しました © 2019 IBM Corporation 18
19.
Pommermanは今日のAI技術では手に負えません © 2019 IBM
Corporation Pommermanの難しさ: • 実時間での意思決定 • 複数のエージェントの協調 • 部分観測 • ⾧期のプラニング AIの学会では、この様な難しい課題を コンペティションとすることで技術の 発展を目指しています IBM エージェント (赤) vs. デフォルト・エージェント (青) 19
20.
最終的に目標が達成されるように 逐次的にアクションを選びます © 2019 IBM
Corporation 20 壁を壊す アイテムを 取得する 敵を追い 詰める 勝利 勝利するために 何をするべきか 逐次的意思決定
21.
逐次的意思決定問題へのアプローチ © 2019 IBM
Corporation 21 環境が既知環境が未知 • 環境をシミュレート可 • 他者の動きが未知 • 一部観測不可 強化学習 プラニング
22.
環境をシミュレート できる場合には、 木探索が有効です © 2019 IBM
Corporation 22 (爆,右,爆,上) (左,右,右,上) . . . . . .
23.
Pommermanでは、巨大な探索木に対して 実時間の意思決定が必要です © 2019 IBM
Corporation 分岐数 ~ 通り 最低10手先 (爆弾の寿命) を考慮 通り 0.1秒で 意思決定 . . . . . . . . . 23
24.
新技術 悲観的シナリオによる実時間での木探索 © 2019 IBM
Corporation T. Osogami & T. Takahashi, Real-time tree search with pessimistic scenarios, arXiv:1902.10870 確率的シナリオ による木探索 決定的・悲観的 シナリオによる 評価 24
25.
相手に複数の行動を同時にとらせることで、 Pommermanにおける悲観的なシナリオを作 ることができます © 2019 IBM
Corporation 25
26.
自己対戦により、最適な悲観度を学習しました © 2019 IBM
Corporation 26 悲観度0 悲観度1 悲観度2 悲観度3
27.
エージェントが移動できる場所の数が 「生存可能性」の強さを表します © 2019 IBM
Corporation エージェントが 移動できる場所 良いアクション - 自分・仲間の生存可能性↑ - 敵の生存可能性↓ - 生存可能性を一定以上に 保って、アイテムを収集 27
28.
悲観的シナリオによる木探索の応用可能性 © 2019 IBM
Corporation 28 ゲーム • デバッグ • ゲーム内キャラクター 映像・シミュレーション 自律飛行・走行
29.
Pommermanを動かしてみるには © 2019 IBM
Corporation 29 $ git clone https://github.com/MultiAgentLearning/playground.git $ cd playground $ pip install –r requirements.txt $ python examples/simple_ffa_run.py 詳細は https://github.com/MultiAgentLearning/playground/tree/master/docs
30.
NeurIPS 2019でもPommermanコンペティションが 開催されます © 2019
IBM Corporation 30 昨年と同ルール 新ルール • エージェント間の通信可 詳細は https://www.pommerman.com/competitions
31.
協力しながら競争することで、 勝つエージェントができました © 2019 IBM
Corporation 31 情報共有 • アイデア・手法 • うまく行ったこと それぞれ、勝つものを作る
32.
Pommermanまとめ © 2019 IBM
Corporation 悲観的なシナリオによる木探索は、 高い安全性が要求される状況での、 実時間での逐次的意思決定に有効 応用の可能性
33.
動的ボルツマンマシンとPommerman 恐神貴行 IBM東京基礎研究所 © 2019 IBM
Corporation ありがとうございました
Télécharger maintenant