SlideShare une entreprise Scribd logo
1  sur  123
Télécharger pour lire hors ligne
1 9 0 1 91 , !
,1 2 1 1 1 3 ,
1
362 12 !
3.
L
L G RI!
L - A R
G G R G L
0:: 9 -1 . - - : - 1 /
2 /1:0 1 -:9 1 / 1 -
0:: 9 /1:0 -1 . - - : - 1 / 2 -:9 1
(
4 2
0. 1 )
0 . )
23 4
(
( . )
01 2
(
GE A !
GE > - ,
)1 ( )
2 1 0 . ( 1 . ) 1
A ) - ( )
( ) - - )
( ) - ( ) - ( ) I FC )
( ( ) - D C )
D 2A - 2A , -
• , 2 ? - 2A ?A - 2A A? ? A2 ? -
o 1 2 , 2 ? - 2A )
o 1 ? ?D , 2 ? - 2A )
• 1 2 , A -)
• A 3 ? , A -
• A? ? ?A
2 23 ? ?
2 23 2A ?A ? ?
? 3 ? ? A?D 2 A2: 3 ?A ? ? ?
• A? ? , 2 ( - 2A A? A2
.
.
.
2. 2 2. 13 32 3
2
3 1 2
3 2
1 . 2
.3 .
3 2 3
3
3 3 -3 13 3 3
3 1 3 2 13
3
.3 31 32!
!
)
(
) !"
, (
) )
,
( !
,
"
#$, &$ #' &' #( &( D
"
, (
) )
,
( !
,
"
#$, &$ #' &' #( &( D
"
1 3 3 3 -
- 2/ 3 / / 3
.3 332 3 1 / 3 / /
23 3 3 3 / 3 / 2 1
( -3 / 2 ) 1 3 3 3 3 32 3
1 3 3 3 -
- 2/ 3 / / 3
.3 332 3 1 / 3 / /
23 3 3 3 / 3 / 2 1
( -3 / 2 ) 1 3 3 3 3 32 3
, ,.
-
- ,
, ,
- ,
!
.4 2 . 2 ). 4240 2 (4 . . .24 . .4 ). 4240
F C9 G (22
(EEF CH 9 G E FC C 0C FG C DF9 B CH FC C 2 E F C
DDA 0C FG C DF9 B CH FC C 0 2 E FG 0 GIF L TP 2 - C
0CHFD:I9H DC D 0C FG C DF9 B CH FC C Q P 22 C
2 (EEF CH 9 G E FC C 0C FG C DF9 B CH FC C U P 22 C
2 R 2 R )AD C
(EEF CH 9 G E A FC C IG C 0C FG C DF9 B CH FC C )AD C
G C 0 HD HF C HDL 9 F C B HD A FC C E FH ) DFG H I C
--
• ) A ( > A A , A
• - > : A >> A >
• - > - A - , - A , A
, ,
• (", $, %, &, ', ()
o "
o $
o % = {,-.} -
o & ∈ 0,1
o ' -
o (
• 3 " → [0,1]7
• (∗
9 = :∗
; 3(9) :∗
∈ ℝ7
• ! . , ,
, , !
• , , , , , , , , , , " ! =
• . , , , ,
• , , , , , , , , ̂"% = " !% , , & , ,
•
•
• !"
• !" !#
• , !" !#
• 2 2 2 2 2 2
• ( 2 2 )
2 ! !
• 0
•
• ,
• ) +2
o ( (
o 3 0 1 + +, 2
• 4 , , 4 ! " → [0,1])
o : , 4
• , 4 *∗
, = .∗
/ !(,)
• 4 , , 4 ! " → [0,1])
o : , 4
• , 4 *∗
, = .∗
/ !(,)
• ! " → [0,1])
• *∗ , = .∗ / ! ,
• 0 1 =
• ! " → [0,1])
• *∗ , = .∗ / ! ,
• 0 1 =
• ̂0 1 =
• ! " → [0,1])
• *∗ , = .∗ / ! ,
• 0 1 =
• ̂0 1 =
•
• ,( : - -
o ) - A
• ,( :
• ,( : - -
o ) - A
• ,( :
• ,( : - -
o ) - A
• ,( :
(()
( 2 . . ( 0 )
3 H E I R 112
1 D D 1 H E 2C EE E 2 H EB
FFC EL HI 3 E FH D E HE E 3 2 HI 3 I HL d b Y T 2 - EB
4 1 H I FE F E H M 1 H E c S T F 5 EB
4 1 H 1 D P E 1 H E c S T F 5 EB
4 1 H 4 1 M 1 C c S T F 5 EB
4 1 H HHFH E C E E 4 1 c S T F 5 EB
4 1 H ( 4F 1 H E 4 1 c S T F 5 EB
4 1 4 FH FH 1 E 2 H )CF EB
4 1 4 FH FH 1 E 2 H )CF EB
W V f e dag R 4 H E B F I EB
W V f e dag R 4 H E 1 F B F I EB
I ,,-
• + > : ? > ?> ?
• + > > ? ? ?
• > ? ? ? : > ? ?> ? ?
- ?> - >> >
• : : ?> A > I ? > (
• - ? ? ) ? : , , > - >> > +
• - ? ? ? > , > :?
- - -
• - - - -
o ! ) )
o " )
o #(%|', )) - )
o ' - ) (
o + (
o , -) )( ) )( ) -) ( ) - ) () )( )
o - ∈ / - -) - )
o 0 ∈ 1 - - - - ) - %
/ 1 5 13 9 9 9 1 9 5 5 3 3
• ,.-y S h d Wc f g 5 5 s x x t ly 1 5 13 9 9 9 1 9 5 5 3 d
5 5 u p 9 9 1 9 5 5 3 d e s 5 1 d
• .-y :5 w 5 1 s x 5 1 y 5 53 5 x b :93 d
Ra .-y 1: :5 w 9 9 1 9 5 5 3 d f m W
• Wq f 9 1: :93 u 9 1: 9 9 1 9 5 5 3 L
35 r nb iv I o I
9 175 35 8 :9 5 81 5 5 7 -55
• ! { #$, &$, '$, ($, )$, ℒ$ }$,-
.
o ($ - ( : ( = ( .
o )$ = (
o ℒ$ ( (1 1 -: :
• ! { #$, &$, '$, /$, )$, ℒ$ }$,-
.
≡ { #$, &$, 1$, ($, 2$, 3$ }$,-
.
• 2$
4,5
= ( ( ( - : - ( 6 ( ( 7 - =( 1 8
• ℒ )$, ) = ℒ$ ) = 3$
:
2
o ℒ )$, ) : ) - ( )$ ( ) (
o 3$ = ( - :
!∗ = $%& max
*∈,
-./0 ! !0
•
o , , ! { #$, &$, '$, ($, )$, ℒ$ }$,-
.
o :
§
/
.
∑$ 1$2$ ,
§ 2$ ,
§ 3 ,
§ 1$ , , , / , : ,
/, /, ,= , , , , , /
§ 45
($ )$ ,= , , 45
($ ) /, ,
•
•
!!
(4
2 (4 )4 8 240 . 4 424
A B I G( C
G D ( CA H E AB A C - A A -
DA B D C E E A F C C A G D DB ( CA H A -
E AB A C - A - AB - BDAE H L ) -
T -
M P R G D ( CA H B -
CA D C E AB A C - A L -
E B C G D ( CA H E AB A C - A -
E AB A C - A C D -
- -A
• : -A :
• -A :: - :
• - - :
• - - :
• : : : A - - :
• : : - - - : -A :
•
o
§ !
§ "#
§ $#
o %&'
∈ ℜ*
o +
• (
• ) (
• ) ! ) ) (
2F C8 C F M
• 1 C C F M 9 F 7 C J F 7 8 F 8 C F C F
7 FJ 9 9 9 7 FJ 9 9 C9 F
C F M 9 F 7 C 0 MC -
• 3 F C8 C F M F 7 7 M 9 F 7 C 8 7
F F C 8 FF C C 9 C F C F M C 8 C
F 8 M 9 F F 9 5 9 .1 ) ( ,
• 3 C F M 9 F 7 C C F 8 F 9 8 C 3
C F M 9 F 7 C C F 9 8 C F 8 ! C
F C F 8 C 7 8F 7M 8 C "! 9J F F M
3 F ( 7 F (
o , ! "! , . , #"$(&)[)(*)]
• ) :,:
o ! " = ∑%&
'()*+& :,
• , , , , ,
"∗ = argmax
(
2(") = argmax
(
5
6789:;6<
log ?( @A|")
• ( , : B : , , , B : ,
∇2 " = @D − 5
%
? A " D% = @D − 5
F&
GF&
DF&
•
o ! " = ∑%&
'()*+& : :
• : : : , :: ( :
"∗ = argmax
(
2(") = argmax
(
5
6789:;6<
log ?( @A|")
• ) : B E : E
:
∇2 " = @D − 5
%
? A " D% = @D − 5
F&
GF&
DF&
: D!
•
!
0 A :
• ,
A /3 : G - A 1. A3 :3 : : 3 : 3 :
: 3 A EEE 3 E A A : A . -1. , -. 7
• ) +2
o ( (
o 3 0 1 + +, 2
•
•
•
• !
•
•
• !
•
•
•
• !
•
•
= #$ − $&
• - - - - - : - :
• - - - - - - : - :
• ! - -
• )- :
• - - - -
= #$ − $&
• ) - ( -
.
. . . . .
)
6 1 ). 6 61 2 1 15 6 1 0 (
K H L T &
H K MCO & O KL KC F GCM MCIH KHCHA J K CHE
& IRIM GCH K KC L M HI KGIH fd i :I CHE
H K MCO & O KL KC F GCM MCIH KHCHA cVeW CHE
(IIF HO KL CH IK G HM KHCHA J KL L KO R j h W ) CHE
OC P H K MCO & O KL KC F GCM MCIH KHCHA a eW KE IPH CHE
(IHO JMCGCS MCIH T IR H H H KAB IIE CHE
Y bl k jgm T B IHD A M H MCIH CEC I L CHE
Y bl k jgm T (IHD A M H MCIH CEC I L CHE
Y bl k jgm T AK HAC H CEC I L CHE
Y bl k jgm T AK HAC H F H MCIH CEC I L CHE
Y bl k jgm T AK HAC H F JKI F G CEC I L CHE
Y bl k jgm T MKIHA FCMR CEC I L CHE
FF E C F K )CO KA H HL H B HHIH )CO KA H FIA CHE
R IK B CGJF G HM MCIH I ) J CH IK G HM KHCHA & CM- CHE
G ),-
• , A - A A A H ) H ? I > )
• G I ? A I :GA A(
+ I ? ? A A ?
• G G ? A , -
• G? L ! G A G "#
• - A , -
• ? G A G A
• )? A H H ? A ? A A
• , )
!
. !
• ! " - - -
• #(%&
|%, )) -
• Π - , - - - , - " - !
• , - - - - , - - : - , . - -
• -. : -
•
o ! " ( ( ( ) , ( , (
o ( ( ) ( , #
o " = %&'(#))
o # = RL(c)
•
DGD D P / 2L 051
• ∴ min%max( = max*min+
• 7 BI DL I L IP
,- ∘ /,- 01 = min+max*
LIN 28 0 V U S / 01 XT A
LIN D E L DO BIIB IG DO AI L R I8 L G 0 9 :5819.
/ 2L 051
I G min%max( max*min+
/ I 2(4) 0(s)
DL DGD I 7(8) 9(s, a)
- = 5=8 9 .
• /8 D 8 D 8 D 9 8 8 D D87 //
!" #, % = '(%|#) +
,-.
/
0,1(#, = #|')
o = 87 7 D 5 9 D 8
D '
D 8 L O P M R W
:8 D 8 D D= 78D 8 8 3 : .88 DD ()() (
+ +
•
o !
§ !
§ !
§ !
+
• + + +
• !"# + +
• + +
• ?
• !"# - +>
•
DN ND I LIDIB 2 5
• / LD ND I A . IEOB N 1OI ND I
OL + 859 V U S 2 X A
OL GDIF + CNN + LD B BG LD A G L R 9 / 8 : 79 :0
•
. 4 4 4 4 /
4 . : 4 . :
• , 0E 6
• 6 E E 5 4 46
o _
• ( 6 E E 46 46
o c O a
• 2 G4 E 6
o R O
• 4
o b R M
• H 4
o )
o 3 E 4 46
o 1 4 4: 6 5 G 45 E 4 +
• 4 0 1
o 0 4 ,0 4 ,
• 4 0 1 4
o 0 1 ,, 1
• 4 4,
o − log(&'()*
(+, -))
• 0 :
o 4 11 D
• 1
o − log(&'()*
(+, -))
• , 0 :
o E 4 : G
E 1 : : G
o 4 0 00 0C : 1
• 0
o % 41 :2 > 48 >8:8 1 >
• 0 -
o 41 :2 > 1 > >8 8
• 1 8: : 8 >1 8 :2 >
• 0 1 >1 > 1 4 1> > > : 48 >8:8 1 >
)
((
)
1 815 2 ). 1 2 18 815 1 0 (
3 E B /
E G B , E A B G E GG B ) /ADE I B /A G G B EB B /BI E 3 B: 1
L B GE B B B EA G B 2 D E B
TY P R N ( V B
TY P R N ( V B
TY P R N ( ( V B
E G B G B : E - D B : B
I -
• : B E DE E E: D E I D E
EE <
•
o ) E I E D E D I
o G E D
o A G E: DE D D E < D A D
• E E ( EE < ( D AA :
• E ) D E ( EE < )(
• A D E: E G D E E
• A D + )(
• !", $" , !" $"
, q($"|!")
• : ,
,
o )(*|!) , , ! Z
o ,(-, .) , ,
o ,/ ,
• !(#, %)
• , , ,
• '
• : ,
o !∗($) , : , : ,: : :
•
• : , : , : , , &
• ! "#
• ℒ(&, (, !)
•
•
o !" =
$
%
"∗
+
$
%
"
. 4 4 4 4 /
4 . : 4 . :
• , 1,:1 , 1 141 ,: ::
o 4 1 : 01 1
o 1
• 4 : 40 0
o , : 1 0 ,: 0
o ,: 0
• 0 0
o − log(&'()*
(+, -))
• : : : 1 1 4
o 001 A1
o , A1
• 1 :1 :0
o − log(&'()*
(+, -))
• 0 1 0 1 /
• 0 0 :0 1 :0 : 1
o : :
o
• B0
o − log(&'()*
(+, -))
• 0 A D 0 /
• , 0 :
o 1 011 01D 4 C 0: 0 :
• 0
o % 41 : > 4
• 0 -
o 41 : > 13 > 3>8 83
• 1 8: : 8 >1 8 : >
• 0 133 >13 > 1 4 1> > > : 48 3>8:8 1 >
))( ,
- 34 44 n La l I t f N I e xy
) 4 34 1 r p h
m 1 2 4 oL L n byG xy
.m r A 4 1 1 4 4 srn o RL i
p ry zdm MN p RO E
! 4
, , !!
( , D ) ( ,
Let's do Inverse RL

Contenu connexe

Tendances

第21回アルゴリズム勉強会
第21回アルゴリズム勉強会第21回アルゴリズム勉強会
第21回アルゴリズム勉強会
Yuuki Ono
 
2015年度先端GPGPUシミュレーション工学特論 第5回 GPUのメモリ階層の詳細 (様々なメモリの利用)
2015年度先端GPGPUシミュレーション工学特論 第5回 GPUのメモリ階層の詳細(様々なメモリの利用)2015年度先端GPGPUシミュレーション工学特論 第5回 GPUのメモリ階層の詳細(様々なメモリの利用)
2015年度先端GPGPUシミュレーション工学特論 第5回 GPUのメモリ階層の詳細 (様々なメモリの利用)
智啓 出川
 
Kaggle Avito Demand Prediction Challenge 9th Place Solution
Kaggle Avito Demand Prediction Challenge 9th Place SolutionKaggle Avito Demand Prediction Challenge 9th Place Solution
Kaggle Avito Demand Prediction Challenge 9th Place Solution
Jin Zhan
 
大規模グラフ解析のための乱択スケッチ技法
大規模グラフ解析のための乱択スケッチ技法大規模グラフ解析のための乱択スケッチ技法
大規模グラフ解析のための乱択スケッチ技法
Takuya Akiba
 

Tendances (20)

プログラミングコンテストでのデータ構造 2 ~平衡二分探索木編~
プログラミングコンテストでのデータ構造 2 ~平衡二分探索木編~プログラミングコンテストでのデータ構造 2 ~平衡二分探索木編~
プログラミングコンテストでのデータ構造 2 ~平衡二分探索木編~
 
AtCoder Beginner Contest 023 解説
AtCoder Beginner Contest 023 解説AtCoder Beginner Contest 023 解説
AtCoder Beginner Contest 023 解説
 
NumPyが物足りない人へのCython入門
NumPyが物足りない人へのCython入門NumPyが物足りない人へのCython入門
NumPyが物足りない人へのCython入門
 
準同型暗号の実装とMontgomery, Karatsuba, FFT の性能
準同型暗号の実装とMontgomery, Karatsuba, FFT の性能準同型暗号の実装とMontgomery, Karatsuba, FFT の性能
準同型暗号の実装とMontgomery, Karatsuba, FFT の性能
 
機械学習概論 講義テキスト
機械学習概論 講義テキスト機械学習概論 講義テキスト
機械学習概論 講義テキスト
 
第11回 配信講義 計算科学技術特論A(2021)
第11回 配信講義 計算科学技術特論A(2021)第11回 配信講義 計算科学技術特論A(2021)
第11回 配信講義 計算科学技術特論A(2021)
 
HTML5によるニューラルネットワークの可視化
HTML5によるニューラルネットワークの可視化HTML5によるニューラルネットワークの可視化
HTML5によるニューラルネットワークの可視化
 
第21回アルゴリズム勉強会
第21回アルゴリズム勉強会第21回アルゴリズム勉強会
第21回アルゴリズム勉強会
 
Union find(素集合データ構造)
Union find(素集合データ構造)Union find(素集合データ構造)
Union find(素集合データ構造)
 
グレブナー基底を食べよう
グレブナー基底を食べようグレブナー基底を食べよう
グレブナー基底を食べよう
 
[DL輪読会]In Search of Lost Domain Generalization
[DL輪読会]In Search of Lost Domain Generalization[DL輪読会]In Search of Lost Domain Generalization
[DL輪読会]In Search of Lost Domain Generalization
 
TVM の紹介
TVM の紹介TVM の紹介
TVM の紹介
 
2015年度先端GPGPUシミュレーション工学特論 第5回 GPUのメモリ階層の詳細 (様々なメモリの利用)
2015年度先端GPGPUシミュレーション工学特論 第5回 GPUのメモリ階層の詳細(様々なメモリの利用)2015年度先端GPGPUシミュレーション工学特論 第5回 GPUのメモリ階層の詳細(様々なメモリの利用)
2015年度先端GPGPUシミュレーション工学特論 第5回 GPUのメモリ階層の詳細 (様々なメモリの利用)
 
Kaggle Avito Demand Prediction Challenge 9th Place Solution
Kaggle Avito Demand Prediction Challenge 9th Place SolutionKaggle Avito Demand Prediction Challenge 9th Place Solution
Kaggle Avito Demand Prediction Challenge 9th Place Solution
 
大規模グラフ解析のための乱択スケッチ技法
大規模グラフ解析のための乱択スケッチ技法大規模グラフ解析のための乱択スケッチ技法
大規模グラフ解析のための乱択スケッチ技法
 
ダブリング
ダブリングダブリング
ダブリング
 
Wasserstein GAN 수학 이해하기 I
Wasserstein GAN 수학 이해하기 IWasserstein GAN 수학 이해하기 I
Wasserstein GAN 수학 이해하기 I
 
計算論的学習理論入門 -PAC学習とかVC次元とか-
計算論的学習理論入門 -PAC学習とかVC次元とか-計算論的学習理論入門 -PAC学習とかVC次元とか-
計算論的学習理論入門 -PAC学習とかVC次元とか-
 
딥러닝과 강화 학습으로 나보다 잘하는 쿠키런 AI 구현하기 DEVIEW 2016
딥러닝과 강화 학습으로 나보다 잘하는 쿠키런 AI 구현하기 DEVIEW 2016딥러닝과 강화 학습으로 나보다 잘하는 쿠키런 AI 구현하기 DEVIEW 2016
딥러닝과 강화 학습으로 나보다 잘하는 쿠키런 AI 구현하기 DEVIEW 2016
 
私を SKI に連れてって
私を SKI に連れてって私を SKI に連れてって
私を SKI に連れてって
 

Similaire à Let's do Inverse RL

Similaire à Let's do Inverse RL (20)

ゼロから始める機械学習 ディープラーニング超概要
ゼロから始める機械学習 ディープラーニング超概要ゼロから始める機械学習 ディープラーニング超概要
ゼロから始める機械学習 ディープラーニング超概要
 
20190209 bayes modeling_s_pub
20190209 bayes modeling_s_pub20190209 bayes modeling_s_pub
20190209 bayes modeling_s_pub
 
(最新版はコメント欄のリンク参照ください) ゼロから始める機械学習 シーズン1 〜ディープラーニング超概要〜 
(最新版はコメント欄のリンク参照ください) ゼロから始める機械学習 シーズン1 〜ディープラーニング超概要〜 (最新版はコメント欄のリンク参照ください) ゼロから始める機械学習 シーズン1 〜ディープラーニング超概要〜 
(最新版はコメント欄のリンク参照ください) ゼロから始める機械学習 シーズン1 〜ディープラーニング超概要〜 
 
(最新版はコメント欄のリンク参照ください) ゼロから始める機学習 シーズン1~ディープラーニング超概要編~
(最新版はコメント欄のリンク参照ください) ゼロから始める機学習 シーズン1~ディープラーニング超概要編~(最新版はコメント欄のリンク参照ください) ゼロから始める機学習 シーズン1~ディープラーニング超概要編~
(最新版はコメント欄のリンク参照ください) ゼロから始める機学習 シーズン1~ディープラーニング超概要編~
 
20190317 prml ch2 probability Distribution
20190317 prml ch2 probability Distribution20190317 prml ch2 probability Distribution
20190317 prml ch2 probability Distribution
 
Autenticación y Firma Digital
Autenticación y Firma DigitalAutenticación y Firma Digital
Autenticación y Firma Digital
 
しろばこいろいろ
しろばこいろいろしろばこいろいろ
しろばこいろいろ
 
Summary of the state of Java that will affect Scala-ers
Summary of the state of Java that will affect Scala-ersSummary of the state of Java that will affect Scala-ers
Summary of the state of Java that will affect Scala-ers
 
20190316 bayes modeling
20190316 bayes modeling 20190316 bayes modeling
20190316 bayes modeling
 
LINEでのモバイルアプリ開発
LINEでのモバイルアプリ開発LINEでのモバイルアプリ開発
LINEでのモバイルアプリ開発
 
文法誤り訂正のための自己改良戦略に基づくノイズ除去 (NLP2020)
文法誤り訂正のための自己改良戦略に基づくノイズ除去 (NLP2020)文法誤り訂正のための自己改良戦略に基づくノイズ除去 (NLP2020)
文法誤り訂正のための自己改良戦略に基づくノイズ除去 (NLP2020)
 
JAWS-UG OSAKA chime_and_connect_and_alexa
JAWS-UG OSAKA chime_and_connect_and_alexaJAWS-UG OSAKA chime_and_connect_and_alexa
JAWS-UG OSAKA chime_and_connect_and_alexa
 
Libro de apoyo método Minjares
Libro de apoyo método MinjaresLibro de apoyo método Minjares
Libro de apoyo método Minjares
 
04 librodemetodominjares
04 librodemetodominjares04 librodemetodominjares
04 librodemetodominjares
 
年越しとJRと私 ~ 最長大回り経路を計算する
年越しとJRと私 ~ 最長大回り経路を計算する年越しとJRと私 ~ 最長大回り経路を計算する
年越しとJRと私 ~ 最長大回り経路を計算する
 
Fishing Spot Estimation by Sea Temperature Pattern Learning
Fishing Spot Estimation by Sea Temperature Pattern LearningFishing Spot Estimation by Sea Temperature Pattern Learning
Fishing Spot Estimation by Sea Temperature Pattern Learning
 
Ejercicios-del-metodo-Minjares.pdf
Ejercicios-del-metodo-Minjares.pdfEjercicios-del-metodo-Minjares.pdf
Ejercicios-del-metodo-Minjares.pdf
 
모두를 위한 PG여행 가이드
모두를 위한 PG여행 가이드모두를 위한 PG여행 가이드
모두를 위한 PG여행 가이드
 
ゼロから始める機械学習 シーズン2 機械学習と意思決定
ゼロから始める機械学習 シーズン2 機械学習と意思決定ゼロから始める機械学習 シーズン2 機械学習と意思決定
ゼロから始める機械学習 シーズン2 機械学習と意思決定
 
LINE APIで開発する価値
LINE APIで開発する価値LINE APIで開発する価値
LINE APIで開発する価値
 

Plus de Dongmin Lee

Causal Confusion in Imitation Learning
Causal Confusion in Imitation LearningCausal Confusion in Imitation Learning
Causal Confusion in Imitation Learning
Dongmin Lee
 

Plus de Dongmin Lee (14)

Causal Confusion in Imitation Learning
Causal Confusion in Imitation LearningCausal Confusion in Imitation Learning
Causal Confusion in Imitation Learning
 
Character Controllers using Motion VAEs
Character Controllers using Motion VAEsCharacter Controllers using Motion VAEs
Character Controllers using Motion VAEs
 
Causal Confusion in Imitation Learning
Causal Confusion in Imitation LearningCausal Confusion in Imitation Learning
Causal Confusion in Imitation Learning
 
Efficient Off-Policy Meta-Reinforcement Learning via Probabilistic Context Va...
Efficient Off-Policy Meta-Reinforcement Learning via Probabilistic Context Va...Efficient Off-Policy Meta-Reinforcement Learning via Probabilistic Context Va...
Efficient Off-Policy Meta-Reinforcement Learning via Probabilistic Context Va...
 
PRM-RL: Long-range Robotics Navigation Tasks by Combining Reinforcement Learn...
PRM-RL: Long-range Robotics Navigation Tasks by Combining Reinforcement Learn...PRM-RL: Long-range Robotics Navigation Tasks by Combining Reinforcement Learn...
PRM-RL: Long-range Robotics Navigation Tasks by Combining Reinforcement Learn...
 
Exploration Strategies in Reinforcement Learning
Exploration Strategies in Reinforcement LearningExploration Strategies in Reinforcement Learning
Exploration Strategies in Reinforcement Learning
 
Maximum Entropy Reinforcement Learning (Stochastic Control)
Maximum Entropy Reinforcement Learning (Stochastic Control)Maximum Entropy Reinforcement Learning (Stochastic Control)
Maximum Entropy Reinforcement Learning (Stochastic Control)
 
Safe Reinforcement Learning
Safe Reinforcement LearningSafe Reinforcement Learning
Safe Reinforcement Learning
 
안.전.제.일. 강화학습!
안.전.제.일. 강화학습!안.전.제.일. 강화학습!
안.전.제.일. 강화학습!
 
Planning and Learning with Tabular Methods
Planning and Learning with Tabular MethodsPlanning and Learning with Tabular Methods
Planning and Learning with Tabular Methods
 
Multi-armed Bandits
Multi-armed BanditsMulti-armed Bandits
Multi-armed Bandits
 
강화학습 알고리즘의 흐름도 Part 2
강화학습 알고리즘의 흐름도 Part 2강화학습 알고리즘의 흐름도 Part 2
강화학습 알고리즘의 흐름도 Part 2
 
강화학습의 흐름도 Part 1
강화학습의 흐름도 Part 1강화학습의 흐름도 Part 1
강화학습의 흐름도 Part 1
 
강화학습의 개요
강화학습의 개요강화학습의 개요
강화학습의 개요
 

Let's do Inverse RL

  • 1. 1 9 0 1 91 , ! ,1 2 1 1 1 3 , 1
  • 3.
  • 4. L L G RI! L - A R G G R G L
  • 5.
  • 6. 0:: 9 -1 . - - : - 1 / 2 /1:0 1 -:9 1 / 1 - 0:: 9 /1:0 -1 . - - : - 1 / 2 -:9 1
  • 7.
  • 9. 0 . ) 23 4 (
  • 10. ( . ) 01 2 (
  • 11. GE A ! GE > - ,
  • 12. )1 ( ) 2 1 0 . ( 1 . ) 1
  • 13. A ) - ( ) ( ) - - ) ( ) - ( ) - ( ) I FC ) ( ( ) - D C )
  • 14. D 2A - 2A , - • , 2 ? - 2A ?A - 2A A? ? A2 ? - o 1 2 , 2 ? - 2A ) o 1 ? ?D , 2 ? - 2A ) • 1 2 , A -) • A 3 ? , A - • A? ? ?A 2 23 ? ? 2 23 2A ?A ? ? ? 3 ? ? A?D 2 A2: 3 ?A ? ? ? • A? ? , 2 ( - 2A A? A2
  • 15. . . .
  • 16.
  • 17. 2. 2 2. 13 32 3
  • 18. 2 3 1 2 3 2 1 . 2 .3 .
  • 19. 3 2 3 3 3 3 -3 13 3 3 3 1 3 2 13 3 .3 31 32!
  • 20. !
  • 22. , ( ) ) , ( ! , " #$, &$ #' &' #( &( D "
  • 23. , ( ) ) , ( ! , " #$, &$ #' &' #( &( D "
  • 24. 1 3 3 3 - - 2/ 3 / / 3 .3 332 3 1 / 3 / / 23 3 3 3 / 3 / 2 1 ( -3 / 2 ) 1 3 3 3 3 32 3
  • 25. 1 3 3 3 - - 2/ 3 / / 3 .3 332 3 1 / 3 / / 23 3 3 3 / 3 / 2 1 ( -3 / 2 ) 1 3 3 3 3 32 3
  • 28. !
  • 29. .4 2 . 2 ). 4240 2 (4 . . .24 . .4 ). 4240
  • 30. F C9 G (22 (EEF CH 9 G E FC C 0C FG C DF9 B CH FC C 2 E F C DDA 0C FG C DF9 B CH FC C 0 2 E FG 0 GIF L TP 2 - C 0CHFD:I9H DC D 0C FG C DF9 B CH FC C Q P 22 C 2 (EEF CH 9 G E FC C 0C FG C DF9 B CH FC C U P 22 C 2 R 2 R )AD C (EEF CH 9 G E A FC C IG C 0C FG C DF9 B CH FC C )AD C G C 0 HD HF C HDL 9 F C B HD A FC C E FH ) DFG H I C
  • 31. -- • ) A ( > A A , A • - > : A >> A > • - > - A - , - A , A
  • 32. , , • (", $, %, &, ', () o " o $ o % = {,-.} - o & ∈ 0,1 o ' - o ( • 3 " → [0,1]7 • (∗ 9 = :∗ ; 3(9) :∗ ∈ ℝ7
  • 33. • ! . , , , , ! • , , , , , , , , , , " ! = • . , , , , • , , , , , , , , ̂"% = " !% , , & , ,
  • 37. • , !" !#
  • 38. • 2 2 2 2 2 2 • ( 2 2 ) 2 ! !
  • 39.
  • 41. • ) +2 o ( ( o 3 0 1 + +, 2
  • 42. • 4 , , 4 ! " → [0,1]) o : , 4 • , 4 *∗ , = .∗ / !(,)
  • 43. • 4 , , 4 ! " → [0,1]) o : , 4 • , 4 *∗ , = .∗ / !(,)
  • 44. • ! " → [0,1]) • *∗ , = .∗ / ! , • 0 1 =
  • 45. • ! " → [0,1]) • *∗ , = .∗ / ! , • 0 1 = • ̂0 1 =
  • 46. • ! " → [0,1]) • *∗ , = .∗ / ! , • 0 1 = • ̂0 1 = •
  • 47. • ,( : - - o ) - A • ,( :
  • 48. • ,( : - - o ) - A • ,( :
  • 49. • ,( : - - o ) - A • ,( :
  • 50.
  • 51. (() ( 2 . . ( 0 )
  • 52. 3 H E I R 112 1 D D 1 H E 2C EE E 2 H EB FFC EL HI 3 E FH D E HE E 3 2 HI 3 I HL d b Y T 2 - EB 4 1 H I FE F E H M 1 H E c S T F 5 EB 4 1 H 1 D P E 1 H E c S T F 5 EB 4 1 H 4 1 M 1 C c S T F 5 EB 4 1 H HHFH E C E E 4 1 c S T F 5 EB 4 1 H ( 4F 1 H E 4 1 c S T F 5 EB 4 1 4 FH FH 1 E 2 H )CF EB 4 1 4 FH FH 1 E 2 H )CF EB W V f e dag R 4 H E B F I EB W V f e dag R 4 H E 1 F B F I EB
  • 53. I ,,- • + > : ? > ?> ? • + > > ? ? ? • > ? ? ? : > ? ?> ? ? - ?> - >> > • : : ?> A > I ? > ( • - ? ? ) ? : , , > - >> > + • - ? ? ? > , > :?
  • 54. - - - • - - - - o ! ) ) o " ) o #(%|', )) - ) o ' - ) ( o + ( o , -) )( ) )( ) -) ( ) - ) () )( ) o - ∈ / - -) - ) o 0 ∈ 1 - - - - ) - %
  • 55. / 1 5 13 9 9 9 1 9 5 5 3 3 • ,.-y S h d Wc f g 5 5 s x x t ly 1 5 13 9 9 9 1 9 5 5 3 d 5 5 u p 9 9 1 9 5 5 3 d e s 5 1 d • .-y :5 w 5 1 s x 5 1 y 5 53 5 x b :93 d Ra .-y 1: :5 w 9 9 1 9 5 5 3 d f m W • Wq f 9 1: :93 u 9 1: 9 9 1 9 5 5 3 L 35 r nb iv I o I 9 175 35 8 :9 5 81 5 5 7 -55
  • 56. • ! { #$, &$, '$, ($, )$, ℒ$ }$,- . o ($ - ( : ( = ( . o )$ = ( o ℒ$ ( (1 1 -: : • ! { #$, &$, '$, /$, )$, ℒ$ }$,- . ≡ { #$, &$, 1$, ($, 2$, 3$ }$,- . • 2$ 4,5 = ( ( ( - : - ( 6 ( ( 7 - =( 1 8 • ℒ )$, ) = ℒ$ ) = 3$ : 2 o ℒ )$, ) : ) - ( )$ ( ) ( o 3$ = ( - :
  • 57. !∗ = $%& max *∈, -./0 ! !0
  • 58. • o , , ! { #$, &$, '$, ($, )$, ℒ$ }$,- . o : § / . ∑$ 1$2$ , § 2$ , § 3 , § 1$ , , , / , : , /, /, ,= , , , , , / § 45 ($ )$ ,= , , 45 ($ ) /, ,
  • 60. !!
  • 61. (4 2 (4 )4 8 240 . 4 424
  • 62. A B I G( C G D ( CA H E AB A C - A A - DA B D C E E A F C C A G D DB ( CA H A - E AB A C - A - AB - BDAE H L ) - T - M P R G D ( CA H B - CA D C E AB A C - A L - E B C G D ( CA H E AB A C - A - E AB A C - A C D -
  • 63. - -A • : -A : • -A :: - : • - - : • - - : • : : : A - - : • : : - - - : -A :
  • 64. • o § ! § "# § $# o %&' ∈ ℜ* o +
  • 65. • ( • ) ( • ) ! ) ) (
  • 66. 2F C8 C F M • 1 C C F M 9 F 7 C J F 7 8 F 8 C F C F 7 FJ 9 9 9 7 FJ 9 9 C9 F C F M 9 F 7 C 0 MC - • 3 F C8 C F M F 7 7 M 9 F 7 C 8 7 F F C 8 FF C C 9 C F C F M C 8 C F 8 M 9 F F 9 5 9 .1 ) ( , • 3 C F M 9 F 7 C C F 8 F 9 8 C 3 C F M 9 F 7 C C F 9 8 C F 8 ! C F C F 8 C 7 8F 7M 8 C "! 9J F F M 3 F ( 7 F ( o , ! "! , . , #"$(&)[)(*)]
  • 67. • ) :,: o ! " = ∑%& '()*+& :, • , , , , , "∗ = argmax ( 2(") = argmax ( 5 6789:;6< log ?( @A|") • ( , : B : , , , B : , ∇2 " = @D − 5 % ? A " D% = @D − 5 F& GF& DF&
  • 68. • o ! " = ∑%& '()*+& : : • : : : , :: ( : "∗ = argmax ( 2(") = argmax ( 5 6789:;6< log ?( @A|") • ) : B E : E : ∇2 " = @D − 5 % ? A " D% = @D − 5 F& GF& DF& : D!
  • 69. • !
  • 70. 0 A : • , A /3 : G - A 1. A3 :3 : : 3 : 3 : : 3 A EEE 3 E A A : A . -1. , -. 7
  • 71.
  • 72. • ) +2 o ( ( o 3 0 1 + +, 2
  • 73.
  • 77. • - - - - - : - : • - - - - - - : - : • ! - - • )- : • - - - - = #$ − $& • ) - ( -
  • 78.
  • 79. . . . . . .
  • 80. ) 6 1 ). 6 61 2 1 15 6 1 0 (
  • 81. K H L T & H K MCO & O KL KC F GCM MCIH KHCHA J K CHE & IRIM GCH K KC L M HI KGIH fd i :I CHE H K MCO & O KL KC F GCM MCIH KHCHA cVeW CHE (IIF HO KL CH IK G HM KHCHA J KL L KO R j h W ) CHE OC P H K MCO & O KL KC F GCM MCIH KHCHA a eW KE IPH CHE (IHO JMCGCS MCIH T IR H H H KAB IIE CHE Y bl k jgm T B IHD A M H MCIH CEC I L CHE Y bl k jgm T (IHD A M H MCIH CEC I L CHE Y bl k jgm T AK HAC H CEC I L CHE Y bl k jgm T AK HAC H F H MCIH CEC I L CHE Y bl k jgm T AK HAC H F JKI F G CEC I L CHE Y bl k jgm T MKIHA FCMR CEC I L CHE FF E C F K )CO KA H HL H B HHIH )CO KA H FIA CHE R IK B CGJF G HM MCIH I ) J CH IK G HM KHCHA & CM- CHE
  • 82. G ),- • , A - A A A H ) H ? I > ) • G I ? A I :GA A( + I ? ? A A ? • G G ? A , - • G? L ! G A G "# • - A , - • ? G A G A • )? A H H ? A ? A A • , )
  • 83. ! . !
  • 84. • ! " - - - • #(%& |%, )) - • Π - , - - - , - " - ! • , - - - - , - - : - , . - - • -. : -
  • 85. • o ! " ( ( ( ) , ( , ( o ( ( ) ( , # o " = %&'(#)) o # = RL(c) •
  • 86. DGD D P / 2L 051 • ∴ min%max( = max*min+ • 7 BI DL I L IP ,- ∘ /,- 01 = min+max* LIN 28 0 V U S / 01 XT A LIN D E L DO BIIB IG DO AI L R I8 L G 0 9 :5819. / 2L 051 I G min%max( max*min+ / I 2(4) 0(s) DL DGD I 7(8) 9(s, a)
  • 87. - = 5=8 9 . • /8 D 8 D 8 D 9 8 8 D D87 // !" #, % = '(%|#) + ,-. / 0,1(#, = #|') o = 87 7 D 5 9 D 8 D ' D 8 L O P M R W :8 D 8 D D= 78D 8 8 3 : .88 DD ()() (
  • 88. + +
  • 89. • o ! § ! § ! § !
  • 90. + • + + + • !"# + + • + +
  • 91. • ? • !"# - +> •
  • 92. DN ND I LIDIB 2 5 • / LD ND I A . IEOB N 1OI ND I OL + 859 V U S 2 X A OL GDIF + CNN + LD B BG LD A G L R 9 / 8 : 79 :0
  • 93.
  • 94. . 4 4 4 4 / 4 . : 4 . :
  • 95.
  • 96. • , 0E 6 • 6 E E 5 4 46 o _ • ( 6 E E 46 46 o c O a • 2 G4 E 6 o R O • 4 o b R M • H 4 o ) o 3 E 4 46 o 1 4 4: 6 5 G 45 E 4 +
  • 97. • 4 0 1 o 0 4 ,0 4 ,
  • 98. • 4 0 1 4 o 0 1 ,, 1 • 4 4, o − log(&'()* (+, -))
  • 99. • 0 : o 4 11 D • 1 o − log(&'()* (+, -)) • , 0 : o E 4 : G E 1 : : G o 4 0 00 0C : 1
  • 100. • 0 o % 41 :2 > 48 >8:8 1 > • 0 - o 41 :2 > 1 > >8 8 • 1 8: : 8 >1 8 :2 > • 0 1 >1 > 1 4 1> > > : 48 >8:8 1 >
  • 101. ) ((
  • 102. ) 1 815 2 ). 1 2 18 815 1 0 (
  • 103. 3 E B / E G B , E A B G E GG B ) /ADE I B /A G G B EB B /BI E 3 B: 1 L B GE B B B EA G B 2 D E B TY P R N ( V B TY P R N ( V B TY P R N ( ( V B E G B G B : E - D B : B
  • 104. I - • : B E DE E E: D E I D E EE < • o ) E I E D E D I o G E D o A G E: DE D D E < D A D • E E ( EE < ( D AA : • E ) D E ( EE < )( • A D E: E G D E E • A D + )(
  • 105. • !", $" , !" $" , q($"|!") • : , , o )(*|!) , , ! Z o ,(-, .) , , o ,/ ,
  • 106. • !(#, %) • , , , • '
  • 107. • : , o !∗($) , : , : ,: : : • • : , : , : , , &
  • 108. • ! "# • ℒ(&, (, !)
  • 110. . 4 4 4 4 / 4 . : 4 . :
  • 111.
  • 112. • , 1,:1 , 1 141 ,: :: o 4 1 : 01 1 o 1
  • 113. • 4 : 40 0 o , : 1 0 ,: 0 o ,: 0 • 0 0 o − log(&'()* (+, -))
  • 114. • : : : 1 1 4 o 001 A1 o , A1 • 1 :1 :0 o − log(&'()* (+, -)) • 0 1 0 1 /
  • 115. • 0 0 :0 1 :0 : 1 o : : o • B0 o − log(&'()* (+, -)) • 0 A D 0 / • , 0 : o 1 011 01D 4 C 0: 0 :
  • 116. • 0 o % 41 : > 4 • 0 - o 41 : > 13 > 3>8 83 • 1 8: : 8 >1 8 : > • 0 133 >13 > 1 4 1> > > : 48 3>8:8 1 >
  • 117.
  • 118. ))( ,
  • 119.
  • 120. - 34 44 n La l I t f N I e xy ) 4 34 1 r p h m 1 2 4 oL L n byG xy .m r A 4 1 1 4 4 srn o RL i p ry zdm MN p RO E
  • 121. ! 4
  • 122. , , !! ( , D ) ( ,