強化学習その5
- 6. 今後の予定
第8回 2.3 逆強化学習
第9回 2.4 経験強化型学習
2.5 群強化学習(飛ばします)
第10回 2.6 リスク考慮型強化学習
2.7 複利型強化学習(飛ばします)
第11回
3 強化学習の工学応用
3.3 対話処理における強化学習
6
- 10. 前回のおさらい
元のMDPがD次元ならbelief MDPの信念状態bは
𝑏 ∈ ℝ 𝐷
になって大変
幸いbelief MDP上の価値関数Vは区分線形で下に
凸なので、D次元ベクトルの集合で効率的に表現
できる
しかし厳密に計算するとベクトルの数が指数的
オーダーで増える。そこで定数個のベクトルで近
似するのがPoint Based Value Iteration
この両者を実装して2状態3行動で実験した。
10
- 12. POMCP
“Monte-Carlo Planning in Large POMDPs”*
状態遷移確率を人間が陽に与えるのではなく
ブラックボックスのシミュレータを与えて
繰り返し実験によって確率を計算していく
12
* David Silver and Joel Veness(2010)
- 51. 確率を変えて実験
Fastest→ {‘LOSE’: 95, ‘WIN’: 5}
FastestP(0.1)→ {'LOSE': 98, 'WIN': 2}
FastestP(0.3)→ {‘LOSE’: 95, ‘WIN’: 5}
FastestP(0.5)→ {'LOSE': 92, 'WIN': 8}
FastestP(0.7)→ {'LOSE': 95, 'WIN': 5}
FastestP(0.9)→ {'LOSE': 90, 'WIN': 10}
Random→ {'LOSE': 88, 'WIN': 12}
ランダム戦略とFastest戦略のどんな比率での混合
に対してもPOMCPは9割以上の勝率
51
- 56. まとめ
• Point Based Value Iterationは状態遷移確率を与
える必要がある
• そこでブラックボックスシミュレータを使う
部分観測モンテカルロ計画法(POMCP)を実装
• ガイスターに適用して、ある確率で青コマで
のゴールを目指すような相手に対しては隠れ
状態を推定して9割近い勝率を出した
• もっと人間にとって自明でない思考ルーチン
で実験をしたい
56
- 57. 参考文献
David Silver and Joel Veness
"Monte-Carlo planning in large POMDPs."
Advances in neural information processing
systems. 2010.
57