Contenu connexe Plus de Deep Learning JP (20) [DL Hacks]tensorflow/privacy Task-Embedded Control Networks for Few-Shot Imitation Learning3. 論文
● Task-Embedded Control Networks for Few-Shot Imitation Learning
○ CoRL2018
○ imperial college london
○ https://arxiv.org/pdf/1810.03237.pdf
● One-Shot Visual Imitation Learning via Meta-Learning
○ CoRL 2017
○ BAIR(UC Berkeley)
○ https://arxiv.org/pdf/1709.04905.pdf
5. どんなもの?
● pushingの模倣学習
○ 対象物(様々な大きさ形質量摩擦 )によって様々なタスク。
○ 様々なタスクをこなす!
○ ただしデモ(遠隔操作)をfew個教えてもらえる。
○ MIL(後述)とおんなじ問題設定
● (賢い)タスクの埋め込みをする
○ 『視覚的な情報』+『学習する上で必要な情報』で、デモからタスク情報を embedding。
○ 汎用的なpushingのポリシーとembeddingベクトルを使って、タスクを捌いていく!
○ 割とあっさりベースラインを超えた。
7. ベースライン: MIL
● MAMLの拡張手法。MAMLが汎用的なので魅力ではある。
○ MAML: どんなタスクでもfew-stepの学習でtuningが終わるような、
普遍的な初期パラメータを求める手法。
○ タスクごとにfinetuning的なことをする。
● 後続論文が(同じ研究所から)3,4つ出てる
○ 人間のデモを使えるようにする
○ test時にタスクを複数組み合わせたデモを見せる
● イマイチな点
○ デモがないと思い出せない
■ いろんなタスクにすぐに切り替えるためには、
モデルのパラメータをタスクごとにまるっと保存しなければならない
○ リーチ、プッシュなど、基本的なポリシーまでいちいち finetuningにかけられてしまう。
○ 精度
○ 実装がスパゲッティ
9. ● 『Task Embedding Net』 + 『Control Net』
○ 『Task Embedding Net』でデモからsentence(タスク情報のベクトル )を求めて
『Control Net』に毎フレームぶち込む
○ End2Endで同時に学習。
○ 同じタスクなら物体の位置等変わってもこなせるようになる。
== 同じタスクに対して高い汎化性を出せるようになる。
提案手法: TecNets
11. Task Embedding Net
● 基本的なlossはmetric loss
● metric loss
○ 『ラマ』と『イヌ』の例
●
○ s^j_k: k番目のデモのsentence
○ s^j: s_k^jの平均(をnormで割ったもの)
○ Σ^j: タスクj
○ τ^j_k: タスクjのk番目のデモ
同じクラス
同士
違うクラス
同士
19. その他の機能
● > Having such an expressive space would not only allow for few-shot
learning, but also opens the possibility of inferring information from new and
unfamiliar tasks in a zero-shot fashion, such as how similar a new task may
be to a previously seen one
● 若干違う始めてのタスクに出会ってもできる
● モデル的にzero-shotでもできる可能性もある。
○ 初期状態だけでタスクが決まる場合
■ ドア/引き出しを開ける/閉める
28. loss_all += loss & loss.backward は危険かも
● 入力を変えつつlossを貯め続けてからbackwardしてるつもりでも
入力情報は蓄積し続ける(後述)。
● →いちいちbackwardしとけばおk(後述)
● Bには64個のタスクが含まれるので、
特にL_ctrを集めるときのメモリ使用量が爆発する
30. loss_all += loss & loss.backward は危険かも
● multi backward法
○ 勝手に名前つけた
● https://github.com/naruya/maml-py
torch/blob/develop/notebooks/pyto
rch_autograd.ipynb