안녕하세요. RL korea에서 "GAIL하자!" 라는 프로젝트를 진행했던 프로젝트 매니저 이동민이라고 합니다. 이 자료는 저희가 4개월동안 진행했던 과정들을 간략하게 소개하는 자료입니다.
저희 프로젝트는 Imitation Learning의 방법 중 하나인 "Inverse RL"에 대한 논문들의 이론적 바탕을 이해하고 이를 환경에 구현해보는 프로젝트를 진행하였습니다.
관련 논문 리스트는 다음과 같습니다.
[1] AY. Ng, et al., "Algorithms for Inverse Reinforcement Learning", ICML 2000.
[2] P. Abbeel, et al., "Apprenticeship Learning via Inverse Reinforcement Learning", ICML 2004.
[3] ND. Ratliff, et al., "Maximum Margin Planning", ICML 2006.
[4] BD. Ziebart, et al., "Maximum Entropy Inverse Reinforcement Learning", AAAI 2008.
[5] J. Ho, et al., "Generative Adversarial Imitation Learning", NIPS 2016.
[6] XB. Peng, et al., "Variational Discriminator Bottleneck. Improving Imitation Learning, Inverse RL, and GANs by Constraining Information Flow", ICLR 2019.
프로젝트 결과로는 논문을 정리한 블로그와 논문을 구현한 Github가 있습니다. 링크는 다음과 같습니다.
- 블로그 : https://reinforcement-learning-kr.github.io/2019/01/22/0_lets-do-irl-guide/
- Github : https://github.com/reinforcement-learning-kr/lets-do-irl
우리 모두 함께 IRL해요!
감사합니다 :)
30. F C9 G (22
(EEF CH 9 G E FC C 0C FG C DF9 B CH FC C 2 E F C
DDA 0C FG C DF9 B CH FC C 0 2 E FG 0 GIF L TP 2 - C
0CHFD:I9H DC D 0C FG C DF9 B CH FC C Q P 22 C
2 (EEF CH 9 G E FC C 0C FG C DF9 B CH FC C U P 22 C
2 R 2 R )AD C
(EEF CH 9 G E A FC C IG C 0C FG C DF9 B CH FC C )AD C
G C 0 HD HF C HDL 9 F C B HD A FC C E FH ) DFG H I C
31. --
• ) A ( > A A , A
• - > : A >> A >
• - > - A - , - A , A
32. , ,
• (", $, %, &, ', ()
o "
o $
o % = {,-.} -
o & ∈ 0,1
o ' -
o (
• 3 " → [0,1]7
• (∗
9 = :∗
; 3(9) :∗
∈ ℝ7
52. 3 H E I R 112
1 D D 1 H E 2C EE E 2 H EB
FFC EL HI 3 E FH D E HE E 3 2 HI 3 I HL d b Y T 2 - EB
4 1 H I FE F E H M 1 H E c S T F 5 EB
4 1 H 1 D P E 1 H E c S T F 5 EB
4 1 H 4 1 M 1 C c S T F 5 EB
4 1 H HHFH E C E E 4 1 c S T F 5 EB
4 1 H ( 4F 1 H E 4 1 c S T F 5 EB
4 1 4 FH FH 1 E 2 H )CF EB
4 1 4 FH FH 1 E 2 H )CF EB
W V f e dag R 4 H E B F I EB
W V f e dag R 4 H E 1 F B F I EB
54. - - -
• - - - -
o ! ) )
o " )
o #(%|', )) - )
o ' - ) (
o + (
o , -) )( ) )( ) -) ( ) - ) () )( )
o - ∈ / - -) - )
o 0 ∈ 1 - - - - ) - %
55. / 1 5 13 9 9 9 1 9 5 5 3 3
• ,.-y S h d Wc f g 5 5 s x x t ly 1 5 13 9 9 9 1 9 5 5 3 d
5 5 u p 9 9 1 9 5 5 3 d e s 5 1 d
• .-y :5 w 5 1 s x 5 1 y 5 53 5 x b :93 d
Ra .-y 1: :5 w 9 9 1 9 5 5 3 d f m W
• Wq f 9 1: :93 u 9 1: 9 9 1 9 5 5 3 L
35 r nb iv I o I
9 175 35 8 :9 5 81 5 5 7 -55
62. A B I G( C
G D ( CA H E AB A C - A A -
DA B D C E E A F C C A G D DB ( CA H A -
E AB A C - A - AB - BDAE H L ) -
T -
M P R G D ( CA H B -
CA D C E AB A C - A L -
E B C G D ( CA H E AB A C - A -
E AB A C - A C D -
63. - -A
• : -A :
• -A :: - :
• - - :
• - - :
• : : : A - - :
• : : - - - : -A :
66. 2F C8 C F M
• 1 C C F M 9 F 7 C J F 7 8 F 8 C F C F
7 FJ 9 9 9 7 FJ 9 9 C9 F
C F M 9 F 7 C 0 MC -
• 3 F C8 C F M F 7 7 M 9 F 7 C 8 7
F F C 8 FF C C 9 C F C F M C 8 C
F 8 M 9 F F 9 5 9 .1 ) ( ,
• 3 C F M 9 F 7 C C F 8 F 9 8 C 3
C F M 9 F 7 C C F 9 8 C F 8 ! C
F C F 8 C 7 8F 7M 8 C "! 9J F F M
3 F ( 7 F (
o , ! "! , . , #"$(&)[)(*)]
81. K H L T &
H K MCO & O KL KC F GCM MCIH KHCHA J K CHE
& IRIM GCH K KC L M HI KGIH fd i :I CHE
H K MCO & O KL KC F GCM MCIH KHCHA cVeW CHE
(IIF HO KL CH IK G HM KHCHA J KL L KO R j h W ) CHE
OC P H K MCO & O KL KC F GCM MCIH KHCHA a eW KE IPH CHE
(IHO JMCGCS MCIH T IR H H H KAB IIE CHE
Y bl k jgm T B IHD A M H MCIH CEC I L CHE
Y bl k jgm T (IHD A M H MCIH CEC I L CHE
Y bl k jgm T AK HAC H CEC I L CHE
Y bl k jgm T AK HAC H F H MCIH CEC I L CHE
Y bl k jgm T AK HAC H F JKI F G CEC I L CHE
Y bl k jgm T MKIHA FCMR CEC I L CHE
FF E C F K )CO KA H HL H B HHIH )CO KA H FIA CHE
R IK B CGJF G HM MCIH I ) J CH IK G HM KHCHA & CM- CHE
82. G ),-
• , A - A A A H ) H ? I > )
• G I ? A I :GA A(
+ I ? ? A A ?
• G G ? A , -
• G? L ! G A G "#
• - A , -
• ? G A G A
• )? A H H ? A ? A A
• , )
85. •
o ! " ( ( ( ) , ( , (
o ( ( ) ( , #
o " = %&'(#))
o # = RL(c)
•
86. DGD D P / 2L 051
• ∴ min%max( = max*min+
• 7 BI DL I L IP
,- ∘ /,- 01 = min+max*
LIN 28 0 V U S / 01 XT A
LIN D E L DO BIIB IG DO AI L R I8 L G 0 9 :5819.
/ 2L 051
I G min%max( max*min+
/ I 2(4) 0(s)
DL DGD I 7(8) 9(s, a)
87. - = 5=8 9 .
• /8 D 8 D 8 D 9 8 8 D D87 //
!" #, % = '(%|#) +
,-.
/
0,1(#, = #|')
o = 87 7 D 5 9 D 8
D '
D 8 L O P M R W
:8 D 8 D D= 78D 8 8 3 : .88 DD ()() (
103. 3 E B /
E G B , E A B G E GG B ) /ADE I B /A G G B EB B /BI E 3 B: 1
L B GE B B B EA G B 2 D E B
TY P R N ( V B
TY P R N ( V B
TY P R N ( ( V B
E G B G B : E - D B : B
104. I -
• : B E DE E E: D E I D E
EE <
•
o ) E I E D E D I
o G E D
o A G E: DE D D E < D A D
• E E ( EE < ( D AA :
• E ) D E ( EE < )(
• A D E: E G D E E
• A D + )(
105. • !", $" , !" $"
, q($"|!")
• : ,
,
o )(*|!) , , ! Z
o ,(-, .) , ,
o ,/ ,