Contenu connexe
Similaire à 強化学習エージェントの内発的動機付けによる探索とその応用(第4回 統計・機械学習若手シンポジウム 招待公演) (20)
強化学習エージェントの内発的動機付けによる探索とその応用(第4回 統計・機械学習若手シンポジウム 招待公演)
- 7. 強化学習における外的報酬と内発的報酬
外発的報酬(Extrinsic Reward)
- 環境で本来の目的を達成したときに獲得できる報酬𝑅 𝑒
内発的報酬(Intrinsic Reward)
- 環境内で何らかの基準で,エージェント自身が勝手に生み出す報酬𝑅𝑖.探索ボーナス
とも
最終的に受け取る報酬:𝑅 = 𝑅 𝑒 + 𝑅𝑖
エージェン
ト
報酬
普通の強化学習
外的な報酬だけに頼った場合
でも,ランダム探索で現実的
な時間で学習可能
報酬がスパースな場合
ランダム探索では,いつまで
たっても報酬到達しない
→何らかの基準で内発的報酬
を生成し,探索に方向性,偏
りを与える
例)行ったことのない状態に
到達すると報酬生成
エージェント
報酬
7
報酬がスパースなタスクで
はほとんどの場合0
報酬がスパースなタスクでも0になりにくく,外発
的報酬に代わって価値関数改善のきっかけとなる
- 9. 内発的報酬の例:カウントベースの内発的報酬
ある状態𝑠で選択した行動aの回数をカウントし,𝑛(𝑠, 𝑎)とする
𝑛(𝑠, 𝑎)に反比例して内発的報酬を与えると,𝑛(𝑠, 𝑎)が少ない (新規性が高い)状態遷移の
価値評価が高まる
いままであまり選択しなかった行動を選択すると,内発的報酬は,
𝛽
𝑛(𝑠, 𝑎 𝑢𝑝)
=
𝛽
1
𝛽
𝑛(𝑠, 𝑎𝑙𝑒𝑓𝑡)
=
𝛽
2
と大きくなり,行動価値, 𝑄 𝑠, 𝑎 𝑢𝑝 や 𝑄 𝑠, 𝑎𝑙𝑒𝑓𝑡 は高く評価される
一方,今まで何度も選択した行動を選択すると,内発的報酬は,
𝛽
𝑛(𝑠, 𝑎 𝑑𝑜𝑤𝑛)
=
𝛽
𝑛(𝑠, 𝑎 𝑟𝑖𝑔ℎ𝑡)
=
𝛽
4
と小さくなり,行動価値, 𝑄 𝑠, 𝑎 𝑢𝑝 や 𝑄 𝑠, 𝑎𝑙𝑒𝑓𝑡 は低く評価される
内発的報酬𝑅𝑖𝑛
𝑛(𝑠, 𝑎 𝑟𝑖𝑔ℎ𝑡)=4𝑛(𝑠, 𝑎𝑙𝑒𝑓𝑡)=2
𝑛(𝑠, 𝑎 𝑑𝑜𝑤𝑛)=4
𝑛(𝑠, 𝑎 𝑢𝑝)=1
Shota Imai | The University of Tokyo
9
- 14. 観測𝑥𝑡と,その時選択する行動𝑎 𝑡から,次の観測𝑥𝑡+1がどうなるか予測するモデル
𝑓(𝑥𝑡, 𝑎 𝑡)を考える(順モデル)
モデルの出力と実際に𝑥𝑡で𝑎 𝑡を選択した場合の次の観測𝑥𝑡+1を用いて二乗誤差を計算し,
NNを学習
既に観測した遷移は予測精度が高くなり(二乗誤差が小さくなる),観測が少ない遷移
は予測精度が低くなる(二乗誤差が大きい)
→この予測誤差を内的報酬とすれば,未知状態への探索を促進可
予測誤差による内発的報酬生成
Shota Imai | The University of Tokyo
14
- 19. その他の内発的報酬生成方式 / 二つのネットワークの蒸留と出力予測
RND(Random Network Distillation)
二つのネットワーク,ターゲットネットワーク,予測ネットワークを用意
両ネットワークに,評価したい状態を入力
予測ネットはターゲットの出力を真似るよう学習を行い,両出力の二乗誤差が内的報酬
となる
→新しく観測した状態に大しては内発的報酬が大きくなる
Shota Imai | The University of Tokyo
19
- 32. 環境の重要な情報を発見する世界モデル構築
World Discovery Models
環境の構造をモデリングする世界モデルに関する研究
通常の強化学習とは違い,環境内で与えられた明確なタスクを解く方策を学習するので
はなく,内発的報酬により学習した方策で,環境に関する重要な情報をどれだけ捉えら
れるかをみる
世界モデル(World Model)
今までの遷移情報から得た表現を保持するRNN(GRU)と,その表
現を用いて,kステップ先の観測𝑜𝑡+𝑘の確率分布 𝑝𝑡+𝑘|𝑡を出力する
MLPからなる
Reward Generator
世界モデルの出力から内発的報酬生成
RL Agent
実際に報酬を受け取って方策を学習する部分
(世界モデル的にはコントローラ).R2D2で学習
Evaluation
探索性能向上や方策改善とは直接関係ない.
世界モデルの内部表現の良さを評価する部分