SlideShare une entreprise Scribd logo
1  sur  57
Télécharger pour lire hors ligne
強化学習 その5
部分観測モンテカルロ計画法
(部分観測マルコフ決定過程2)
2017-08-07 @ 機械学習勉強会
サイボウズ・ラボ 西尾泰和
過去の資料: https://github.com/nishio/reinforcement_learning
このスライドの目的
大規模なデータを占有してない企業にとって
強化学習の考え方が有用なので
基礎からきちんと理解したい。
そのために機械学習勉強会の何回かに分けて
強化学習の話を連載する。
2
参考文献
2016年10月に左の本が出た。
これを読んでいく。
右下の本が長らくバイブル
だったが2000年(原著1998年)
発行。
3
http://amzn.to/2josIJ1
http://amzn.to/2jCnYQg言及する時 [こ] と呼ぶことにする(著者多いので)
今後の予定
第4回(前回): 1章5節 部分観測マルコフ決定過程
第5回: 1章5節 部分観測マルコフ決定過程であま
り触れられていないモデルフリーのPOMCP
4
今後の予定
第6回
2.1 統計学習の観点から見たTD学習
2.1.1 強化学習と教師付き学習の学習則
2.1.2~3 関数近似を(する/しない)価値関数推定
(ここまで28ページ)
第7回
2.1.4 セミパラメトリック統計学習に基づく定式
化(10ページ)
2.2 理論性能解析とベイズ
(理論薄めでやる。13ページ)
5
今後の予定
第8回 2.3 逆強化学習
第9回 2.4 経験強化型学習
2.5 群強化学習(飛ばします)
第10回 2.6 リスク考慮型強化学習
2.7 複利型強化学習(飛ばします)
第11回
3 強化学習の工学応用
3.3 対話処理における強化学習
6
今後の予定
第12回 3.5 自然言語処理における逆強化学習と模
倣学習
第13回 3.7 深層学習を用いたQ関数の学習
第14回 4 知能のモデルとしての強化学習
7
前回のおさらい
部分観測マルコフ決定過程について学んだ。
2状態の小さい例について実験した。
8
前回のおさらい
部分観測マルコフ決定過程(POMDP)
普通のマルコフ過程と違って
状態の一部が観測不可能
そこで「きっとこうに違いない」という
「信念状態」を導入して新たなMDP
(belief MDP)を構築する
9
前回のおさらい
元のMDPがD次元ならbelief MDPの信念状態bは
𝑏 ∈ ℝ 𝐷
になって大変
幸いbelief MDP上の価値関数Vは区分線形で下に
凸なので、D次元ベクトルの集合で効率的に表現
できる
しかし厳密に計算するとベクトルの数が指数的
オーダーで増える。そこで定数個のベクトルで近
似するのがPoint Based Value Iteration
この両者を実装して2状態3行動で実験した。
10
PBVIの問題点
1. 状態遷移確率を人間が記述して与える
2. (どこまでの状態数でできるか実験してないが)
大規模な問題を解くことが困難(かも)
11
POMCP
“Monte-Carlo Planning in Large POMDPs”*
状態遷移確率を人間が陽に与えるのではなく
ブラックボックスのシミュレータを与えて
繰り返し実験によって確率を計算していく
12
* David Silver and Joel Veness(2010)
POMCPの仕組み
• 信念状態の推定にパーティクルフィルタ
(またの名を逐次的モンテカルロ)を使う
• 価値関数の表現にモンテカルロ木探索を使う
13
具体例を先に出そう
今までの勉強会では数式を追ってから実験をする
流れだったが、今回の件に関しては先に具体例を
紹介して具体的に考えて行った方が良さそう。
14
ガイスター
15
• 2人対戦型ゲーム、盤面は6x6
• 各プレイヤーは赤のコマ4つ
青のコマ4つを持つ。上下左右に動く
• 対戦プレイヤーのコマの色は
そのコマを取るまでわからない
ガイスターの勝利条件
下記3つのいずれかの条件を満たす
• 相手の青コマをすべて取る
• 自分の赤コマをすべて取られる
• 自分の青コマがゴールから脱出する
16
初期配置
部分観測性
“対戦プレイヤーのコマの色は
そのコマを取るまでわからない”
なので、初期状態で相手の8つのコマのうち
どの4つが赤であるのか
8C4 = 70通りの可能性がある
17
注: 2^8 = 256通りと考えると、コマが取られて色が確定したことによる
他のコマの信念の更新が表現できなくなる
Tiny版
人間が問題を理解しやすくするために
4x4盤面に赤と青が1コマずつのバージョンを考
える
この場合、勝利条件は
• 相手の青コマを取る
• 自分の赤コマを取られる
• 自分の青コマがゴールから脱出する
となる
18
人間が考えてみる
Q1: 自分の手番であるコマを進めると、相手のコ
マに接触し、次の手番で相手にそのコマを取られ
る恐れがある。進めるか?
19
人間が考えてみる
A1: そのコマが青である場合、取られると敗北。
そのコマが赤である場合、取られると勝利。
取られずに継続した場合の盤面評価に大きな差が
ないなら、赤の場合は進むべき、青の場合は進ま
ないべき。
20
人間が考えてみる
Q2: (A1をふまえて)
相手のコマが進んで自分のコマに接触した。
取るべき?
21
人間が考えてみる
A2: A1をふまえると、取られる位置に進んできた
そのコマは赤であるので、取ると敗北。取っては
いけない。
22
人間が考えてみる
Q3: (A2をふまえて)
最初に青のコマと赤のコマ、
どちらを動かすべき?
23
人間が考えてみる
A3: A2をふまえると相手はコマを取らないので
取られることを恐れずに青でゴールまでの最短経
路を進むべき
24
人間が考えてみる
Q4: (A3をふまえて)
相手のコマが進んで自分のコマに接触した。
取るべき?
25
人間が考えてみる
A4: A3をふまえると相手は青コマを、取られると
思わずに進めてくるので、もちろん取るべき。
26
矛盾
Q2=Q4:
相手のコマが進んで自分のコマに接触した。
取るべき?
A2: A1をふまえると、取られる位置に進んできた
そのコマは赤であるので、取ると敗北。取っては
いけない。
A4: A3をふまえると相手は青コマを、取られると
思わずに進めてくるので、もちろん取るべき。
→矛盾!
27
何がいけなかったか?
質問に対してTrue or Falseの二値論理で答えよう
としている。
True100%もFalse100%も最適解ではなく、
確率的に混合されたものが最適。
28
おさらい:方策(policy)
方策 𝜋 𝑎, 𝑠 = 𝑃 𝑎 𝑠
方策はある状態で取る手の確率分布。
最適な方策を見つけるのが強化学習。
29
信念状態の更新
• 接触してきたから赤の可能性が高いだろう
• 最初に動いたコマだから青の可能性が高いだ
ろう
• など、観測を元に信念状態を更新する
30
パーティクルフィルタ
相手がコマを接触させてきた!これは赤か?青
か?
隠れ状態には70通りの可能性がある。まずこの
70通りの「パーティクル」の集合を考える
ここから1個サンプリングする。隠れ状態がその
状態だと仮定してシミュレータに次の一手を打た
せる。その次の一手が、実際に観測された相手の
手に一致するものを残す。
これを十分な回数繰り返す。
31
実験に必要なもの
• シミュレータ
• 外から「今の状態はこれだとせよ」と指定できる
ものでなければならない
• 行動を選択して返す
• つまり𝑃(𝑎|𝑠)
• agentはsを直接観測できない=ガイスターのプレ
イヤーは相手の色を観測できない
• 見せていい情報だけ選んでagentに渡す
32
agentの実装
ようは方策をどうするか
手軽なベースラインは
「ランダムにプレイする」だが
今回のケースでそれをやると
「行動を見ても色の推定に役立たない」
という結果になってしまってイマイチ
33
モンテカルロ
各手ごとに10回ランダムに終局までプレイしそ
の勝率が最も高かった手を返す
実装したが、1対戦に4分掛かる(改善の余地あり)
34
素朴な実装
青コマで最短経路でゴールを目指すFastest
人間でもわかる「これ青だろうな」
35
.vvvv.
..vvv.
v.....
......
.xoox.
.xoo.x
1: 44.30%
2: 38.99%
3: 44.30%
4: 24.67%
8: 42.71%
9: 64.19%
10: 40.85%
12: 100.00%
しばらく進んで
進んできたコマを取った直後、相手の動きを見て
青のコマが全部わかったと判断(間違い)
36
.vvvv.
..v.v.
...v..
...o..
x.oox.
.xo..x
2: 100.00%
10: 100.00%
15: 100.00%
.vvvv.
..v.v.
...v..
...o..
x.oox.
.xo..x
これが正解
現状の実装では観測結果と信念が矛盾した時には信念を全部廃棄してやり直し
対戦勝率
FastestはRandomに対しては強い
{‘WIN’: 979, ‘LOSE’: 21}: 勝率98%
Randomにたまに取られることがあっても
無策なRandomよりはだいぶマシだから。
一方FastestとPOMCPだと
{‘LOSE’: 95, ‘WIN’: 5}: 勝率5%
Fastestは行動から色がバレバレだから。
37
後者の実験に24分掛かる
詳しい実験の前に
詳しい実験に進む前にPOMCPの中身を解説
38
POMCP要素解説
パーティクルフィルタ(逐次モンテカルロ)と
モンテカルロ木探索の組み合わせ、と説明したが
実装上は不可分に合体している。
モンテカルロ木探索は部分観測では実行できない
ので、まず信念から状態をサンプリング、その状
態を仮定して探索する。
39
モンテカルロ木探索
強化学習の言葉でいえば2つの方策の組み合わせ
で探索して、行動価値関数Q(s, a)を推定する手法
2つの方策:
・Tree Policy
・Rollout Policy
40
Rollout Policy
現在の状態がTreeに含まれていない時に使う方策
具体的には:着手可能手からランダムに手を選ぶ
41
Rollout Policyで手を決め、盤面を更新、新しいs’をシミュレータに渡して
対戦相手の手a’を得る、盤面を更新、新しいs’’に対してRPで手を決め…
注意点
• 今実装しているエージェント(A1)がRollout
Policyを使っていることと、シミュレータの中
のエージェント(A2)がどういうポリシーで動く
かとは無関係
42
そもそも、たまたまシミュレータ
も僕が実装しているからA1とA2を
混同しそうになるだけであって、
シミュレータはブラックボックス
で他からgivenでもよい。その場合
中に何が入っているかは知りえな
いし、POMCPはそれを知らなくて
もよいアルゴリズム。
モンテカルロ木探索の解説で「互
いにランダムに行動して終局まで
プレイ」と言われることがあるが、
これはたまたま両方のエージェン
トがランダムに手を選ぶ方策なだ
けで、必要条件ではない。
注意点
• モンテカルロ木探索はよく「ランダムに手を
選んで終局までプレイ、勝率で評価」と説明
されるが、これは強化学習の言葉でいえば
時間幅T→∞での報酬を収益とすること。
• これは必要条件ではない。
• POMCPの論文では収益の定義として
割引報酬和を使っている。
• また割り引いた結果が十分小さくなるところ
で打ち切るため、実質的に「木の深さに上限
を設けている」という形になる。
43
Tree Policy
現在の状態がTreeに含まれているときに使う方策
Treeの各ノードは
・各actionことの収益の平均 V(h, a)
・各actionの選択回数 N(h, a)
・信念 B(h)
を持っている。
原始的なgreedy方策:「Vが最大になるaを選ぶ」
よく使われるUCB1は選択回数が少ない選択肢を
高めに評価することで利用と探索のトレードオフ
44
注意点
「現在の状態が~」と説明してたけど、
ツリーのノードは状態ではなく
履歴(history)に対応づいている。
Q: stateに対応付けてはダメなのか?
A: 隠れ状態は観測できないのでエージェントが
どのノードを選んだらいいかがわからない
Q: じゃあ今の観測可能状態に対応付けたら?
A: 観測可能な盤面状況が同じでも過去に通った
経路によって信念が異なるからダメ
45
履歴
履歴は以下のような型
• 初期状態: empty
• もしくは以下の組み合わせ
• 直前までの履歴 h
• 自分が取った行動 a
• その結果得られた観測 o
a, o, a, o, …という不定長の列になる
46
ツリーはこんな形
47
ツリーはこんな形(圧縮)
hの時、hはツリーに含まれているので
Tree Policyがつかわれる。
手a0を選び行動した結果、o2を観測したとする
(h, a0, o2)はツリーにないのでノードを生成し、
Rollout Policyで続きを実行する。
48
49
実験結果
想定するエージェントA2がFastestのまま、
対戦相手エージェントA0を
0.1の確率でランダムに行動するFastestP(0.1)
→{'LOSE': 98, 'WIN': 2}
50
確率を変えて実験
Fastest→ {‘LOSE’: 95, ‘WIN’: 5}
FastestP(0.1)→ {'LOSE': 98, 'WIN': 2}
FastestP(0.3)→ {‘LOSE’: 95, ‘WIN’: 5}
FastestP(0.5)→ {'LOSE': 92, 'WIN': 8}
FastestP(0.7)→ {'LOSE': 95, 'WIN': 5}
FastestP(0.9)→ {'LOSE': 90, 'WIN': 10}
Random→ {'LOSE': 88, 'WIN': 12}
ランダム戦略とFastest戦略のどんな比率での混合
に対してもPOMCPは9割以上の勝率
51
速度が問題
A2がFastest系のままでは、人間がA0をする時に
「赤コマで青コマのようにゴールを目指す」とい
う自明な攻略法が存在して面白くない。
せめてA2をモンテカルロにしたいが速度が問題
52
遅い理由
以前、本来見てはいけない対戦相手の情報を見て
しまうバグを入れたことがあり、それを警戒する
あまり「Gameオブジェクトはsideを引数として
取ってViewオブジェクトを返し、エージェント
はViewオブジェクトだけを見る」という設計に
している。
この結果、毎回インスタンス作成コストがかかる
53
遅い理由2
Treeの実装が手抜きで、ハッシュに(h, a, o)を
キーとしてツッコんでいる。
Treeを真面目にツリーで実装しようと思ったら
a(具体的には動かすコマとその動く向き)や
o(具体的には盤面状況)を整数にマップする必要
があるが面倒だったので(h, a, o)のタプルにして
Pythonにハッシュ値を計算させている。
どう考えてもメモリの無駄遣い。
54
遅い理由3
昨日の夜に気付いたので実験する暇がなかったの
だが
「各手ごとに10回ランダムに終局までプレイ」
ってガイスターの問題設定だと終局までに手数が
かなり多くなるのではないか?
割引報酬和タイプにしたらよいのでは…。
傍証: POMCP対Fastestは100対戦24分だがPOMCP
対Randomは100対戦49分。
55
まとめ
• Point Based Value Iterationは状態遷移確率を与
える必要がある
• そこでブラックボックスシミュレータを使う
部分観測モンテカルロ計画法(POMCP)を実装
• ガイスターに適用して、ある確率で青コマで
のゴールを目指すような相手に対しては隠れ
状態を推定して9割近い勝率を出した
• もっと人間にとって自明でない思考ルーチン
で実験をしたい
56
参考文献
David Silver and Joel Veness
"Monte-Carlo planning in large POMDPs."
Advances in neural information processing
systems. 2010.
57

Contenu connexe

Tendances

[DL輪読会]“SimPLe”,“Improved Dynamics Model”,“PlaNet” 近年のVAEベース系列モデルの進展とそのモデルベース...
[DL輪読会]“SimPLe”,“Improved Dynamics Model”,“PlaNet” 近年のVAEベース系列モデルの進展とそのモデルベース...[DL輪読会]“SimPLe”,“Improved Dynamics Model”,“PlaNet” 近年のVAEベース系列モデルの進展とそのモデルベース...
[DL輪読会]“SimPLe”,“Improved Dynamics Model”,“PlaNet” 近年のVAEベース系列モデルの進展とそのモデルベース...Deep Learning JP
 
PILCO - 第一回高橋研究室モデルベース強化学習勉強会
PILCO - 第一回高橋研究室モデルベース強化学習勉強会PILCO - 第一回高橋研究室モデルベース強化学習勉強会
PILCO - 第一回高橋研究室モデルベース強化学習勉強会Shunichi Sekiguchi
 
基礎からのベイズ統計学 輪読会資料 第4章 メトロポリス・ヘイスティングス法
基礎からのベイズ統計学 輪読会資料 第4章 メトロポリス・ヘイスティングス法基礎からのベイズ統計学 輪読会資料 第4章 メトロポリス・ヘイスティングス法
基礎からのベイズ統計学 輪読会資料 第4章 メトロポリス・ヘイスティングス法Ken'ichi Matsui
 
機械学習のためのベイズ最適化入門
機械学習のためのベイズ最適化入門機械学習のためのベイズ最適化入門
機械学習のためのベイズ最適化入門hoxo_m
 
方策勾配型強化学習の基礎と応用
方策勾配型強化学習の基礎と応用方策勾配型強化学習の基礎と応用
方策勾配型強化学習の基礎と応用Ryo Iwaki
 
社会心理学者のための時系列分析入門_小森
社会心理学者のための時系列分析入門_小森社会心理学者のための時系列分析入門_小森
社会心理学者のための時系列分析入門_小森Masashi Komori
 
SHAP値の考え方を理解する(木構造編)
SHAP値の考え方を理解する(木構造編)SHAP値の考え方を理解する(木構造編)
SHAP値の考え方を理解する(木構造編)Kazuyuki Wakasugi
 
Active Learning 入門
Active Learning 入門Active Learning 入門
Active Learning 入門Shuyo Nakatani
 
[DL輪読会]`強化学習のための状態表現学習 -より良い「世界モデル」の獲得に向けて-
[DL輪読会]`強化学習のための状態表現学習 -より良い「世界モデル」の獲得に向けて-[DL輪読会]`強化学習のための状態表現学習 -より良い「世界モデル」の獲得に向けて-
[DL輪読会]`強化学習のための状態表現学習 -より良い「世界モデル」の獲得に向けて-Deep Learning JP
 
「内積が見えると統計学も見える」第5回 プログラマのための数学勉強会 発表資料
「内積が見えると統計学も見える」第5回 プログラマのための数学勉強会 発表資料 「内積が見えると統計学も見える」第5回 プログラマのための数学勉強会 発表資料
「内積が見えると統計学も見える」第5回 プログラマのための数学勉強会 発表資料 Ken'ichi Matsui
 
パターン認識と機械学習(PRML)第2章 確率分布 2.3 ガウス分布
パターン認識と機械学習(PRML)第2章 確率分布 2.3 ガウス分布パターン認識と機械学習(PRML)第2章 確率分布 2.3 ガウス分布
パターン認識と機械学習(PRML)第2章 確率分布 2.3 ガウス分布Nagayoshi Yamashita
 
強化学習の基礎と深層強化学習(東京大学 松尾研究室 深層強化学習サマースクール講義資料)
強化学習の基礎と深層強化学習(東京大学 松尾研究室 深層強化学習サマースクール講義資料)強化学習の基礎と深層強化学習(東京大学 松尾研究室 深層強化学習サマースクール講義資料)
強化学習の基礎と深層強化学習(東京大学 松尾研究室 深層強化学習サマースクール講義資料)Shota Imai
 
機械学習の理論と実践
機械学習の理論と実践機械学習の理論と実践
機械学習の理論と実践Preferred Networks
 
Disentanglement Survey:Can You Explain How Much Are Generative models Disenta...
Disentanglement Survey:Can You Explain How Much Are Generative models Disenta...Disentanglement Survey:Can You Explain How Much Are Generative models Disenta...
Disentanglement Survey:Can You Explain How Much Are Generative models Disenta...Hideki Tsunashima
 
AHC-Lab M1勉強会 論文の読み方・書き方
AHC-Lab M1勉強会 論文の読み方・書き方AHC-Lab M1勉強会 論文の読み方・書き方
AHC-Lab M1勉強会 論文の読み方・書き方Shinagawa Seitaro
 
変分推論法(変分ベイズ法)(PRML第10章)
変分推論法(変分ベイズ法)(PRML第10章)変分推論法(変分ベイズ法)(PRML第10章)
変分推論法(変分ベイズ法)(PRML第10章)Takao Yamanaka
 
ゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement Learning
ゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement Learningゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement Learning
ゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement LearningPreferred Networks
 
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜SSII
 

Tendances (20)

[DL輪読会]“SimPLe”,“Improved Dynamics Model”,“PlaNet” 近年のVAEベース系列モデルの進展とそのモデルベース...
[DL輪読会]“SimPLe”,“Improved Dynamics Model”,“PlaNet” 近年のVAEベース系列モデルの進展とそのモデルベース...[DL輪読会]“SimPLe”,“Improved Dynamics Model”,“PlaNet” 近年のVAEベース系列モデルの進展とそのモデルベース...
[DL輪読会]“SimPLe”,“Improved Dynamics Model”,“PlaNet” 近年のVAEベース系列モデルの進展とそのモデルベース...
 
PILCO - 第一回高橋研究室モデルベース強化学習勉強会
PILCO - 第一回高橋研究室モデルベース強化学習勉強会PILCO - 第一回高橋研究室モデルベース強化学習勉強会
PILCO - 第一回高橋研究室モデルベース強化学習勉強会
 
基礎からのベイズ統計学 輪読会資料 第4章 メトロポリス・ヘイスティングス法
基礎からのベイズ統計学 輪読会資料 第4章 メトロポリス・ヘイスティングス法基礎からのベイズ統計学 輪読会資料 第4章 メトロポリス・ヘイスティングス法
基礎からのベイズ統計学 輪読会資料 第4章 メトロポリス・ヘイスティングス法
 
機械学習のためのベイズ最適化入門
機械学習のためのベイズ最適化入門機械学習のためのベイズ最適化入門
機械学習のためのベイズ最適化入門
 
方策勾配型強化学習の基礎と応用
方策勾配型強化学習の基礎と応用方策勾配型強化学習の基礎と応用
方策勾配型強化学習の基礎と応用
 
社会心理学者のための時系列分析入門_小森
社会心理学者のための時系列分析入門_小森社会心理学者のための時系列分析入門_小森
社会心理学者のための時系列分析入門_小森
 
SHAP値の考え方を理解する(木構造編)
SHAP値の考え方を理解する(木構造編)SHAP値の考え方を理解する(木構造編)
SHAP値の考え方を理解する(木構造編)
 
Active Learning 入門
Active Learning 入門Active Learning 入門
Active Learning 入門
 
ELBO型VAEのダメなところ
ELBO型VAEのダメなところELBO型VAEのダメなところ
ELBO型VAEのダメなところ
 
[DL輪読会]`強化学習のための状態表現学習 -より良い「世界モデル」の獲得に向けて-
[DL輪読会]`強化学習のための状態表現学習 -より良い「世界モデル」の獲得に向けて-[DL輪読会]`強化学習のための状態表現学習 -より良い「世界モデル」の獲得に向けて-
[DL輪読会]`強化学習のための状態表現学習 -より良い「世界モデル」の獲得に向けて-
 
「内積が見えると統計学も見える」第5回 プログラマのための数学勉強会 発表資料
「内積が見えると統計学も見える」第5回 プログラマのための数学勉強会 発表資料 「内積が見えると統計学も見える」第5回 プログラマのための数学勉強会 発表資料
「内積が見えると統計学も見える」第5回 プログラマのための数学勉強会 発表資料
 
パターン認識と機械学習(PRML)第2章 確率分布 2.3 ガウス分布
パターン認識と機械学習(PRML)第2章 確率分布 2.3 ガウス分布パターン認識と機械学習(PRML)第2章 確率分布 2.3 ガウス分布
パターン認識と機械学習(PRML)第2章 確率分布 2.3 ガウス分布
 
強化学習の基礎と深層強化学習(東京大学 松尾研究室 深層強化学習サマースクール講義資料)
強化学習の基礎と深層強化学習(東京大学 松尾研究室 深層強化学習サマースクール講義資料)強化学習の基礎と深層強化学習(東京大学 松尾研究室 深層強化学習サマースクール講義資料)
強化学習の基礎と深層強化学習(東京大学 松尾研究室 深層強化学習サマースクール講義資料)
 
機械学習の理論と実践
機械学習の理論と実践機械学習の理論と実践
機械学習の理論と実践
 
PRML8章
PRML8章PRML8章
PRML8章
 
Disentanglement Survey:Can You Explain How Much Are Generative models Disenta...
Disentanglement Survey:Can You Explain How Much Are Generative models Disenta...Disentanglement Survey:Can You Explain How Much Are Generative models Disenta...
Disentanglement Survey:Can You Explain How Much Are Generative models Disenta...
 
AHC-Lab M1勉強会 論文の読み方・書き方
AHC-Lab M1勉強会 論文の読み方・書き方AHC-Lab M1勉強会 論文の読み方・書き方
AHC-Lab M1勉強会 論文の読み方・書き方
 
変分推論法(変分ベイズ法)(PRML第10章)
変分推論法(変分ベイズ法)(PRML第10章)変分推論法(変分ベイズ法)(PRML第10章)
変分推論法(変分ベイズ法)(PRML第10章)
 
ゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement Learning
ゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement Learningゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement Learning
ゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement Learning
 
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜
 

Plus de nishio

量子アニーリングマシンのプログラミング
量子アニーリングマシンのプログラミング量子アニーリングマシンのプログラミング
量子アニーリングマシンのプログラミングnishio
 
夏プロ報告
夏プロ報告夏プロ報告
夏プロ報告nishio
 
ITと経営
ITと経営ITと経営
ITと経営nishio
 
部分観測モンテカルロ計画法を用いたガイスターAI
部分観測モンテカルロ計画法を用いたガイスターAI部分観測モンテカルロ計画法を用いたガイスターAI
部分観測モンテカルロ計画法を用いたガイスターAInishio
 
交渉力について
交渉力について交渉力について
交渉力についてnishio
 
If文から機械学習への道
If文から機械学習への道If文から機械学習への道
If文から機械学習への道nishio
 
組織横断型研究室構想
組織横断型研究室構想組織横断型研究室構想
組織横断型研究室構想nishio
 
2017首都大学東京情報通信特別講義
2017首都大学東京情報通信特別講義2017首都大学東京情報通信特別講義
2017首都大学東京情報通信特別講義nishio
 
良いアイデアを出すための方法
良いアイデアを出すための方法良いアイデアを出すための方法
良いアイデアを出すための方法nishio
 
線形?非線形?
線形?非線形?線形?非線形?
線形?非線形?nishio
 
機械学習キャンバス0.1
機械学習キャンバス0.1機械学習キャンバス0.1
機械学習キャンバス0.1nishio
 
首都大学東京「情報通信特別講義」2016年西尾担当分
首都大学東京「情報通信特別講義」2016年西尾担当分首都大学東京「情報通信特別講義」2016年西尾担当分
首都大学東京「情報通信特別講義」2016年西尾担当分nishio
 
勾配降下法の 最適化アルゴリズム
勾配降下法の最適化アルゴリズム勾配降下法の最適化アルゴリズム
勾配降下法の 最適化アルゴリズムnishio
 
Wifiで位置推定
Wifiで位置推定Wifiで位置推定
Wifiで位置推定nishio
 
ESP8266EXで位置推定
ESP8266EXで位置推定ESP8266EXで位置推定
ESP8266EXで位置推定nishio
 
Raspberry Piで Wifiルータを作る
Raspberry PiでWifiルータを作るRaspberry PiでWifiルータを作る
Raspberry Piで Wifiルータを作るnishio
 
Wifiにつながるデバイス(ESP8266EX, ESP-WROOM-02, ESPr Developerなど)
Wifiにつながるデバイス(ESP8266EX, ESP-WROOM-02, ESPr Developerなど)Wifiにつながるデバイス(ESP8266EX, ESP-WROOM-02, ESPr Developerなど)
Wifiにつながるデバイス(ESP8266EX, ESP-WROOM-02, ESPr Developerなど)nishio
 
「ネットワークを作る」 ってどういうこと?
「ネットワークを作る」ってどういうこと?「ネットワークを作る」ってどういうこと?
「ネットワークを作る」 ってどういうこと?nishio
 
「ネットワークを作ることで イノベーションを加速」 ってどういうこと?
「ネットワークを作ることでイノベーションを加速」ってどういうこと?「ネットワークを作ることでイノベーションを加速」ってどういうこと?
「ネットワークを作ることで イノベーションを加速」 ってどういうこと?nishio
 
未踏社団でのkintoneの活用
未踏社団でのkintoneの活用未踏社団でのkintoneの活用
未踏社団でのkintoneの活用nishio
 

Plus de nishio (20)

量子アニーリングマシンのプログラミング
量子アニーリングマシンのプログラミング量子アニーリングマシンのプログラミング
量子アニーリングマシンのプログラミング
 
夏プロ報告
夏プロ報告夏プロ報告
夏プロ報告
 
ITと経営
ITと経営ITと経営
ITと経営
 
部分観測モンテカルロ計画法を用いたガイスターAI
部分観測モンテカルロ計画法を用いたガイスターAI部分観測モンテカルロ計画法を用いたガイスターAI
部分観測モンテカルロ計画法を用いたガイスターAI
 
交渉力について
交渉力について交渉力について
交渉力について
 
If文から機械学習への道
If文から機械学習への道If文から機械学習への道
If文から機械学習への道
 
組織横断型研究室構想
組織横断型研究室構想組織横断型研究室構想
組織横断型研究室構想
 
2017首都大学東京情報通信特別講義
2017首都大学東京情報通信特別講義2017首都大学東京情報通信特別講義
2017首都大学東京情報通信特別講義
 
良いアイデアを出すための方法
良いアイデアを出すための方法良いアイデアを出すための方法
良いアイデアを出すための方法
 
線形?非線形?
線形?非線形?線形?非線形?
線形?非線形?
 
機械学習キャンバス0.1
機械学習キャンバス0.1機械学習キャンバス0.1
機械学習キャンバス0.1
 
首都大学東京「情報通信特別講義」2016年西尾担当分
首都大学東京「情報通信特別講義」2016年西尾担当分首都大学東京「情報通信特別講義」2016年西尾担当分
首都大学東京「情報通信特別講義」2016年西尾担当分
 
勾配降下法の 最適化アルゴリズム
勾配降下法の最適化アルゴリズム勾配降下法の最適化アルゴリズム
勾配降下法の 最適化アルゴリズム
 
Wifiで位置推定
Wifiで位置推定Wifiで位置推定
Wifiで位置推定
 
ESP8266EXで位置推定
ESP8266EXで位置推定ESP8266EXで位置推定
ESP8266EXで位置推定
 
Raspberry Piで Wifiルータを作る
Raspberry PiでWifiルータを作るRaspberry PiでWifiルータを作る
Raspberry Piで Wifiルータを作る
 
Wifiにつながるデバイス(ESP8266EX, ESP-WROOM-02, ESPr Developerなど)
Wifiにつながるデバイス(ESP8266EX, ESP-WROOM-02, ESPr Developerなど)Wifiにつながるデバイス(ESP8266EX, ESP-WROOM-02, ESPr Developerなど)
Wifiにつながるデバイス(ESP8266EX, ESP-WROOM-02, ESPr Developerなど)
 
「ネットワークを作る」 ってどういうこと?
「ネットワークを作る」ってどういうこと?「ネットワークを作る」ってどういうこと?
「ネットワークを作る」 ってどういうこと?
 
「ネットワークを作ることで イノベーションを加速」 ってどういうこと?
「ネットワークを作ることでイノベーションを加速」ってどういうこと?「ネットワークを作ることでイノベーションを加速」ってどういうこと?
「ネットワークを作ることで イノベーションを加速」 ってどういうこと?
 
未踏社団でのkintoneの活用
未踏社団でのkintoneの活用未踏社団でのkintoneの活用
未踏社団でのkintoneの活用
 

強化学習その5