論文紹介 Skill preferences

論⽂紹介
Skill Preferences:
Learning to Extract and
Execute Robotic Skills
from Human Feedback
アザラシ
D E C . 1 1 . 2 0 2 1

⾃⼰紹介
• HN：アザラシ
• 好きなボード：M5Stack，Raspberry Pi
• 趣味：ロボット製作，⼭歩き，数学
• 興味：強化学習，四⾜歩⾏ロボット，微分幾何，圏論
• 専⾨：同次システム＠⾮線形制御理論
• 棲息地：鴨川

強化学習とは
• 探索データから報酬関数に従って，より良い動作を獲得する⼿法
• つまり，報酬設計が超重要．

この論⽂の貢献
• (先⾏研究)
強化学習における報酬設計は，相当なエンジニアリングコストが課題
Human-in-the-loop RLは，訓練中に⼈との対話的なフィードバックを実施することで，ハ
ンドメイドの報酬設計を不要にした
• (この論⽂の課題)
タスクの複雑さが増すと，適切な⽅策を獲得するまでに⾮現実的な数の
⼈との対話的フィードバックを必要とすることが課題
⽐較的少ないフィードバック数で，⼈の好みだけでなく好みから抜け落ちたスキル抽出まで
実施する

アルゴリズムのプロセス(1/2)
Step 1: Collect offline dataset ℬ
(Expert demo + Random policy)
Step 2: Provide labels “good/bad”
for 10% of ℬ 𝒟
Step 3: Train preference classifier 𝑃!
for 𝒟
Step 4: Train decoder 𝑝"!
and encoder 𝑞""
with 𝑃!

アルゴリズムのプロセス(2/2)
Step 1: Execute yellow loop
(if iteration % K == 0)
Step 2: Execute red loop
Step 3: Update Agent SAC
actor 𝜋#!
and critic 𝑄#"
, 𝑄$
#"
[Note] Use learned decoder 𝑝"!
SAC

𝑃!の学習
• Preference classifier 𝑃!(𝑦|𝜏),
where 𝑦 ∈ 0, 1 , 𝜏 is trajectory(state-action) sequences
• Update 𝜓 by maximizing loss function(cross entropy)：
𝔼 %,' ∼𝒟 𝑦 ⋅ log 𝑃! 𝜏 + 1 − 𝑦 ⋅ log 1 − 𝑃! 𝜏
• [Note] オフラインデータセットの部分集合にラベル付け(𝑦 ∈ 0,1 )したものから学習

enc, decの学習
• skill-encoder 𝑞""
𝑧 𝜏 and skill-decoder 𝑝"!
𝑎*, … , 𝑎*+,-. 𝑠*, 𝑧
where 𝑧 ∈ 𝒵 is skill, 𝑠 ∈ 𝒮 is state, 𝑎 ∈ 𝒜 is action, 𝜏 is trajectory(state-
action) sequences.
• Update 𝑝"!
and 𝑞""
by maximizing loss function(ELBO of 𝛽-VAE with Gaussian prior with 𝑃!)
𝔼'∼𝒟,/∼0#(/|') 𝑃! 𝜏 ℒ456789:4;6:<78 + 𝛽 ⋅ ℒ45=;>?4<@?:<78

"
ℛ"の学習
• Update 𝜂 by minimizing loss function(binary cross-entropy):
where is distribution of Bradley-Terry model.
• [Note] 演算⼦ A ≻ B は，AがBよりも優先されることの意味．

実験(1/4)
• 以下の作業を実⾏できるか確認する
• Baselineとして，PEBBLE(PMLR2021)と⽐較する

実験(2/4)
• Skill Extractionは以下のように⾏う．

実験(3/4)
• SkiPは，2つ以上の連続する複雑なタスクでも成功している

実験(4/4)
• SkiPは，⼈からのフィードバックがないと成功しない

考察
• 👍 / 👎 する作業はやりたくないな
• Human Interactionの分野はこれからの発展が楽しみ😃
• 試⾏回数はまだ多いなって印象

論文紹介 Skill preferences

Recommandé

Recommandé

Contenu connexe

Similaire à 論文紹介 Skill preferences

Similaire à 論文紹介 Skill preferences (20)

Dernier

Dernier (20)

論文紹介 Skill preferences