SlideShare une entreprise Scribd logo

Let's do Inverse RL

안녕하세요. RL korea에서 "GAIL하자!" 라는 프로젝트를 진행했던 프로젝트 매니저 이동민이라고 합니다. 이 자료는 저희가 4개월동안 진행했던 과정들을 간략하게 소개하는 자료입니다. 저희 프로젝트는 Imitation Learning의 방법 중 하나인 "Inverse RL"에 대한 논문들의 이론적 바탕을 이해하고 이를 환경에 구현해보는 프로젝트를 진행하였습니다. 관련 논문 리스트는 다음과 같습니다. [1] AY. Ng, et al., "Algorithms for Inverse Reinforcement Learning", ICML 2000. [2] P. Abbeel, et al., "Apprenticeship Learning via Inverse Reinforcement Learning", ICML 2004. [3] ND. Ratliff, et al., "Maximum Margin Planning", ICML 2006. [4] BD. Ziebart, et al., "Maximum Entropy Inverse Reinforcement Learning", AAAI 2008. [5] J. Ho, et al., "Generative Adversarial Imitation Learning", NIPS 2016. [6] XB. Peng, et al., "Variational Discriminator Bottleneck. Improving Imitation Learning, Inverse RL, and GANs by Constraining Information Flow", ICLR 2019. 프로젝트 결과로는 논문을 정리한 블로그와 논문을 구현한 Github가 있습니다. 링크는 다음과 같습니다. - 블로그 : https://reinforcement-learning-kr.github.io/2019/01/22/0_lets-do-irl-guide/ - Github : https://github.com/reinforcement-learning-kr/lets-do-irl 우리 모두 함께 IRL해요! 감사합니다 :)

1  sur  123
Télécharger pour lire hors ligne
1 9 0 1 91 , !
,1 2 1 1 1 3 ,
1
362 12 !
3.
Let's do Inverse RL
L
L G RI!
L - A R
G G R G L
Let's do Inverse RL
0:: 9 -1 . - - : - 1 /
2 /1:0 1 -:9 1 / 1 -
0:: 9 /1:0 -1 . - - : - 1 / 2 -:9 1

Recommandé

강화 학습 기초 Reinforcement Learning an introduction
강화 학습 기초 Reinforcement Learning an introduction강화 학습 기초 Reinforcement Learning an introduction
강화 학습 기초 Reinforcement Learning an introductionTaehoon Kim
 
基礎からのベイズ統計学第5章
基礎からのベイズ統計学第5章基礎からのベイズ統計学第5章
基礎からのベイズ統計学第5章hiro5585
 
Maximum Entropy Reinforcement Learning (Stochastic Control)
Maximum Entropy Reinforcement Learning (Stochastic Control)Maximum Entropy Reinforcement Learning (Stochastic Control)
Maximum Entropy Reinforcement Learning (Stochastic Control)Dongmin Lee
 
多腕バンディット問題: 定式化と応用 (第13回ステアラボ人工知能セミナー)
多腕バンディット問題: 定式化と応用 (第13回ステアラボ人工知能セミナー)多腕バンディット問題: 定式化と応用 (第13回ステアラボ人工知能セミナー)
多腕バンディット問題: 定式化と応用 (第13回ステアラボ人工知能セミナー)STAIR Lab, Chiba Institute of Technology
 
강화학습의 흐름도 Part 1
강화학습의 흐름도 Part 1강화학습의 흐름도 Part 1
강화학습의 흐름도 Part 1Dongmin Lee
 
파이썬과 케라스로 배우는 강화학습 저자특강
파이썬과 케라스로 배우는 강화학습 저자특강파이썬과 케라스로 배우는 강화학습 저자특강
파이썬과 케라스로 배우는 강화학습 저자특강Woong won Lee
 
ノンパラメトリックベイズを用いた逆強化学習
ノンパラメトリックベイズを用いた逆強化学習ノンパラメトリックベイズを用いた逆強化学習
ノンパラメトリックベイズを用いた逆強化学習Shota Ishikawa
 

Contenu connexe

Tendances

DeepPose: Human Pose Estimation via Deep Neural Networks
DeepPose: Human Pose Estimation via Deep Neural NetworksDeepPose: Human Pose Estimation via Deep Neural Networks
DeepPose: Human Pose Estimation via Deep Neural NetworksShunta Saito
 
強化学習アルゴリズムPPOの解説と実験
強化学習アルゴリズムPPOの解説と実験強化学習アルゴリズムPPOの解説と実験
強化学習アルゴリズムPPOの解説と実験克海 納谷
 
OpenOpt の線形計画で圧縮センシング
OpenOpt の線形計画で圧縮センシングOpenOpt の線形計画で圧縮センシング
OpenOpt の線形計画で圧縮センシングToshihiro Kamishima
 
強化学習 DQNからPPOまで
強化学習 DQNからPPOまで強化学習 DQNからPPOまで
強化学習 DQNからPPOまでharmonylab
 
L 05 bandit with causality-公開版
L 05 bandit with causality-公開版L 05 bandit with causality-公開版
L 05 bandit with causality-公開版Shota Yasui
 
Long Short-term Memory
Long Short-term MemoryLong Short-term Memory
Long Short-term Memorynishio
 
Control as Inference.pptx
Control as Inference.pptxControl as Inference.pptx
Control as Inference.pptxssuserbd1647
 
NIPS KANSAI Reading Group #7: 逆強化学習の行動解析への応用
NIPS KANSAI Reading Group #7: 逆強化学習の行動解析への応用NIPS KANSAI Reading Group #7: 逆強化学習の行動解析への応用
NIPS KANSAI Reading Group #7: 逆強化学習の行動解析への応用Eiji Uchibe
 
[DL輪読会]Deep Learning 第17章 モンテカルロ法
[DL輪読会]Deep Learning 第17章 モンテカルロ法[DL輪読会]Deep Learning 第17章 モンテカルロ法
[DL輪読会]Deep Learning 第17章 モンテカルロ法Deep Learning JP
 
Recommendation algorithm using reinforcement learning
Recommendation algorithm using reinforcement learningRecommendation algorithm using reinforcement learning
Recommendation algorithm using reinforcement learningArithmer Inc.
 
Pythonと型チェッカー
Pythonと型チェッカーPythonと型チェッカー
Pythonと型チェッカーTetsuya Morimoto
 
지적 대화를 위한 깊고 넓은 딥러닝 PyCon APAC 2016
지적 대화를 위한 깊고 넓은 딥러닝 PyCon APAC 2016지적 대화를 위한 깊고 넓은 딥러닝 PyCon APAC 2016
지적 대화를 위한 깊고 넓은 딥러닝 PyCon APAC 2016Taehoon Kim
 
PILCO - 第一回高橋研究室モデルベース強化学習勉強会
PILCO - 第一回高橋研究室モデルベース強化学習勉強会PILCO - 第一回高橋研究室モデルベース強化学習勉強会
PILCO - 第一回高橋研究室モデルベース強化学習勉強会Shunichi Sekiguchi
 
[DL輪読会]Reinforcement Learning with Deep Energy-Based Policies
[DL輪読会]Reinforcement Learning with Deep Energy-Based Policies[DL輪読会]Reinforcement Learning with Deep Energy-Based Policies
[DL輪読会]Reinforcement Learning with Deep Energy-Based PoliciesDeep Learning JP
 
Deep sarsa, Deep Q-learning, DQN
Deep sarsa, Deep Q-learning, DQNDeep sarsa, Deep Q-learning, DQN
Deep sarsa, Deep Q-learning, DQNEuijin Jeong
 
Sparse estimation tutorial 2014
Sparse estimation tutorial 2014Sparse estimation tutorial 2014
Sparse estimation tutorial 2014Taiji Suzuki
 
ディープラーニングの産業応用とそれを支える技術
ディープラーニングの産業応用とそれを支える技術ディープラーニングの産業応用とそれを支える技術
ディープラーニングの産業応用とそれを支える技術Shohei Hido
 

Tendances (20)

DeepPose: Human Pose Estimation via Deep Neural Networks
DeepPose: Human Pose Estimation via Deep Neural NetworksDeepPose: Human Pose Estimation via Deep Neural Networks
DeepPose: Human Pose Estimation via Deep Neural Networks
 
0621
06210621
0621
 
強化学習アルゴリズムPPOの解説と実験
強化学習アルゴリズムPPOの解説と実験強化学習アルゴリズムPPOの解説と実験
強化学習アルゴリズムPPOの解説と実験
 
OpenOpt の線形計画で圧縮センシング
OpenOpt の線形計画で圧縮センシングOpenOpt の線形計画で圧縮センシング
OpenOpt の線形計画で圧縮センシング
 
Deep learning入門
Deep learning入門Deep learning入門
Deep learning入門
 
強化学習 DQNからPPOまで
強化学習 DQNからPPOまで強化学習 DQNからPPOまで
強化学習 DQNからPPOまで
 
L 05 bandit with causality-公開版
L 05 bandit with causality-公開版L 05 bandit with causality-公開版
L 05 bandit with causality-公開版
 
Policy gradient
Policy gradientPolicy gradient
Policy gradient
 
Long Short-term Memory
Long Short-term MemoryLong Short-term Memory
Long Short-term Memory
 
Control as Inference.pptx
Control as Inference.pptxControl as Inference.pptx
Control as Inference.pptx
 
NIPS KANSAI Reading Group #7: 逆強化学習の行動解析への応用
NIPS KANSAI Reading Group #7: 逆強化学習の行動解析への応用NIPS KANSAI Reading Group #7: 逆強化学習の行動解析への応用
NIPS KANSAI Reading Group #7: 逆強化学習の行動解析への応用
 
[DL輪読会]Deep Learning 第17章 モンテカルロ法
[DL輪読会]Deep Learning 第17章 モンテカルロ法[DL輪読会]Deep Learning 第17章 モンテカルロ法
[DL輪読会]Deep Learning 第17章 モンテカルロ法
 
Recommendation algorithm using reinforcement learning
Recommendation algorithm using reinforcement learningRecommendation algorithm using reinforcement learning
Recommendation algorithm using reinforcement learning
 
Pythonと型チェッカー
Pythonと型チェッカーPythonと型チェッカー
Pythonと型チェッカー
 
지적 대화를 위한 깊고 넓은 딥러닝 PyCon APAC 2016
지적 대화를 위한 깊고 넓은 딥러닝 PyCon APAC 2016지적 대화를 위한 깊고 넓은 딥러닝 PyCon APAC 2016
지적 대화를 위한 깊고 넓은 딥러닝 PyCon APAC 2016
 
PILCO - 第一回高橋研究室モデルベース強化学習勉強会
PILCO - 第一回高橋研究室モデルベース強化学習勉強会PILCO - 第一回高橋研究室モデルベース強化学習勉強会
PILCO - 第一回高橋研究室モデルベース強化学習勉強会
 
[DL輪読会]Reinforcement Learning with Deep Energy-Based Policies
[DL輪読会]Reinforcement Learning with Deep Energy-Based Policies[DL輪読会]Reinforcement Learning with Deep Energy-Based Policies
[DL輪読会]Reinforcement Learning with Deep Energy-Based Policies
 
Deep sarsa, Deep Q-learning, DQN
Deep sarsa, Deep Q-learning, DQNDeep sarsa, Deep Q-learning, DQN
Deep sarsa, Deep Q-learning, DQN
 
Sparse estimation tutorial 2014
Sparse estimation tutorial 2014Sparse estimation tutorial 2014
Sparse estimation tutorial 2014
 
ディープラーニングの産業応用とそれを支える技術
ディープラーニングの産業応用とそれを支える技術ディープラーニングの産業応用とそれを支える技術
ディープラーニングの産業応用とそれを支える技術
 

Similaire à Let's do Inverse RL

ゼロから始める機械学習 ディープラーニング超概要
ゼロから始める機械学習 ディープラーニング超概要ゼロから始める機械学習 ディープラーニング超概要
ゼロから始める機械学習 ディープラーニング超概要Kenshi Toritani
 
20190209 bayes modeling_s_pub
20190209 bayes modeling_s_pub20190209 bayes modeling_s_pub
20190209 bayes modeling_s_pubYoichi Tokita
 
(最新版はコメント欄のリンク参照ください) ゼロから始める機械学習 シーズン1 〜ディープラーニング超概要〜 
(最新版はコメント欄のリンク参照ください) ゼロから始める機械学習 シーズン1 〜ディープラーニング超概要〜 (最新版はコメント欄のリンク参照ください) ゼロから始める機械学習 シーズン1 〜ディープラーニング超概要〜 
(最新版はコメント欄のリンク参照ください) ゼロから始める機械学習 シーズン1 〜ディープラーニング超概要〜 Kenshi Toritani
 
(最新版はコメント欄のリンク参照ください) ゼロから始める機学習 シーズン1~ディープラーニング超概要編~
(最新版はコメント欄のリンク参照ください) ゼロから始める機学習 シーズン1~ディープラーニング超概要編~(最新版はコメント欄のリンク参照ください) ゼロから始める機学習 シーズン1~ディープラーニング超概要編~
(最新版はコメント欄のリンク参照ください) ゼロから始める機学習 シーズン1~ディープラーニング超概要編~Kenshi Toritani
 
20190317 prml ch2 probability Distribution
20190317 prml ch2 probability Distribution20190317 prml ch2 probability Distribution
20190317 prml ch2 probability DistributionYoichi Tokita
 
Autenticación y Firma Digital
Autenticación y Firma DigitalAutenticación y Firma Digital
Autenticación y Firma DigitalSamary Páez
 
しろばこいろいろ
しろばこいろいろしろばこいろいろ
しろばこいろいろKato Ryosuke
 
Summary of the state of Java that will affect Scala-ers
Summary of the state of Java that will affect Scala-ersSummary of the state of Java that will affect Scala-ers
Summary of the state of Java that will affect Scala-ersLINE Corporation
 
20190316 bayes modeling
20190316 bayes modeling 20190316 bayes modeling
20190316 bayes modeling Yoichi Tokita
 
LINEでのモバイルアプリ開発
LINEでのモバイルアプリ開発LINEでのモバイルアプリ開発
LINEでのモバイルアプリ開発LINE Corporation
 
文法誤り訂正のための自己改良戦略に基づくノイズ除去 (NLP2020)
文法誤り訂正のための自己改良戦略に基づくノイズ除去 (NLP2020)文法誤り訂正のための自己改良戦略に基づくノイズ除去 (NLP2020)
文法誤り訂正のための自己改良戦略に基づくノイズ除去 (NLP2020)Masato Mita
 
JAWS-UG OSAKA chime_and_connect_and_alexa
JAWS-UG OSAKA chime_and_connect_and_alexaJAWS-UG OSAKA chime_and_connect_and_alexa
JAWS-UG OSAKA chime_and_connect_and_alexaDaiki Mori
 
Libro de apoyo método Minjares
Libro de apoyo método MinjaresLibro de apoyo método Minjares
Libro de apoyo método MinjaresRogelio López
 
年越しとJRと私 ~ 最長大回り経路を計算する
年越しとJRと私 ~ 最長大回り経路を計算する年越しとJRと私 ~ 最長大回り経路を計算する
年越しとJRと私 ~ 最長大回り経路を計算するHexomino Hexomino
 
Fishing Spot Estimation by Sea Temperature Pattern Learning
Fishing Spot Estimation by Sea Temperature Pattern LearningFishing Spot Estimation by Sea Temperature Pattern Learning
Fishing Spot Estimation by Sea Temperature Pattern LearningMasaakiIiyama
 
Ejercicios-del-metodo-Minjares.pdf
Ejercicios-del-metodo-Minjares.pdfEjercicios-del-metodo-Minjares.pdf
Ejercicios-del-metodo-Minjares.pdflopez7825
 
모두를 위한 PG여행 가이드
모두를 위한 PG여행 가이드모두를 위한 PG여행 가이드
모두를 위한 PG여행 가이드Dongmin Lee
 
ゼロから始める機械学習 シーズン2 機械学習と意思決定
ゼロから始める機械学習 シーズン2 機械学習と意思決定ゼロから始める機械学習 シーズン2 機械学習と意思決定
ゼロから始める機械学習 シーズン2 機械学習と意思決定Kenshi Toritani
 
LINE APIで開発する価値
LINE APIで開発する価値LINE APIで開発する価値
LINE APIで開発する価値Hiroyuki Hiki
 

Similaire à Let's do Inverse RL (20)

ゼロから始める機械学習 ディープラーニング超概要
ゼロから始める機械学習 ディープラーニング超概要ゼロから始める機械学習 ディープラーニング超概要
ゼロから始める機械学習 ディープラーニング超概要
 
20190209 bayes modeling_s_pub
20190209 bayes modeling_s_pub20190209 bayes modeling_s_pub
20190209 bayes modeling_s_pub
 
(最新版はコメント欄のリンク参照ください) ゼロから始める機械学習 シーズン1 〜ディープラーニング超概要〜 
(最新版はコメント欄のリンク参照ください) ゼロから始める機械学習 シーズン1 〜ディープラーニング超概要〜 (最新版はコメント欄のリンク参照ください) ゼロから始める機械学習 シーズン1 〜ディープラーニング超概要〜 
(最新版はコメント欄のリンク参照ください) ゼロから始める機械学習 シーズン1 〜ディープラーニング超概要〜 
 
(最新版はコメント欄のリンク参照ください) ゼロから始める機学習 シーズン1~ディープラーニング超概要編~
(最新版はコメント欄のリンク参照ください) ゼロから始める機学習 シーズン1~ディープラーニング超概要編~(最新版はコメント欄のリンク参照ください) ゼロから始める機学習 シーズン1~ディープラーニング超概要編~
(最新版はコメント欄のリンク参照ください) ゼロから始める機学習 シーズン1~ディープラーニング超概要編~
 
20190317 prml ch2 probability Distribution
20190317 prml ch2 probability Distribution20190317 prml ch2 probability Distribution
20190317 prml ch2 probability Distribution
 
Autenticación y Firma Digital
Autenticación y Firma DigitalAutenticación y Firma Digital
Autenticación y Firma Digital
 
しろばこいろいろ
しろばこいろいろしろばこいろいろ
しろばこいろいろ
 
Summary of the state of Java that will affect Scala-ers
Summary of the state of Java that will affect Scala-ersSummary of the state of Java that will affect Scala-ers
Summary of the state of Java that will affect Scala-ers
 
20190316 bayes modeling
20190316 bayes modeling 20190316 bayes modeling
20190316 bayes modeling
 
LINEでのモバイルアプリ開発
LINEでのモバイルアプリ開発LINEでのモバイルアプリ開発
LINEでのモバイルアプリ開発
 
文法誤り訂正のための自己改良戦略に基づくノイズ除去 (NLP2020)
文法誤り訂正のための自己改良戦略に基づくノイズ除去 (NLP2020)文法誤り訂正のための自己改良戦略に基づくノイズ除去 (NLP2020)
文法誤り訂正のための自己改良戦略に基づくノイズ除去 (NLP2020)
 
JAWS-UG OSAKA chime_and_connect_and_alexa
JAWS-UG OSAKA chime_and_connect_and_alexaJAWS-UG OSAKA chime_and_connect_and_alexa
JAWS-UG OSAKA chime_and_connect_and_alexa
 
Libro de apoyo método Minjares
Libro de apoyo método MinjaresLibro de apoyo método Minjares
Libro de apoyo método Minjares
 
04 librodemetodominjares
04 librodemetodominjares04 librodemetodominjares
04 librodemetodominjares
 
年越しとJRと私 ~ 最長大回り経路を計算する
年越しとJRと私 ~ 最長大回り経路を計算する年越しとJRと私 ~ 最長大回り経路を計算する
年越しとJRと私 ~ 最長大回り経路を計算する
 
Fishing Spot Estimation by Sea Temperature Pattern Learning
Fishing Spot Estimation by Sea Temperature Pattern LearningFishing Spot Estimation by Sea Temperature Pattern Learning
Fishing Spot Estimation by Sea Temperature Pattern Learning
 
Ejercicios-del-metodo-Minjares.pdf
Ejercicios-del-metodo-Minjares.pdfEjercicios-del-metodo-Minjares.pdf
Ejercicios-del-metodo-Minjares.pdf
 
모두를 위한 PG여행 가이드
모두를 위한 PG여행 가이드모두를 위한 PG여행 가이드
모두를 위한 PG여행 가이드
 
ゼロから始める機械学習 シーズン2 機械学習と意思決定
ゼロから始める機械学習 シーズン2 機械学習と意思決定ゼロから始める機械学習 シーズン2 機械学習と意思決定
ゼロから始める機械学習 シーズン2 機械学習と意思決定
 
LINE APIで開発する価値
LINE APIで開発する価値LINE APIで開発する価値
LINE APIで開発する価値
 

Plus de Dongmin Lee

Causal Confusion in Imitation Learning
Causal Confusion in Imitation LearningCausal Confusion in Imitation Learning
Causal Confusion in Imitation LearningDongmin Lee
 
Character Controllers using Motion VAEs
Character Controllers using Motion VAEsCharacter Controllers using Motion VAEs
Character Controllers using Motion VAEsDongmin Lee
 
Causal Confusion in Imitation Learning
Causal Confusion in Imitation LearningCausal Confusion in Imitation Learning
Causal Confusion in Imitation LearningDongmin Lee
 
Efficient Off-Policy Meta-Reinforcement Learning via Probabilistic Context Va...
Efficient Off-Policy Meta-Reinforcement Learning via Probabilistic Context Va...Efficient Off-Policy Meta-Reinforcement Learning via Probabilistic Context Va...
Efficient Off-Policy Meta-Reinforcement Learning via Probabilistic Context Va...Dongmin Lee
 
PRM-RL: Long-range Robotics Navigation Tasks by Combining Reinforcement Learn...
PRM-RL: Long-range Robotics Navigation Tasks by Combining Reinforcement Learn...PRM-RL: Long-range Robotics Navigation Tasks by Combining Reinforcement Learn...
PRM-RL: Long-range Robotics Navigation Tasks by Combining Reinforcement Learn...Dongmin Lee
 
Exploration Strategies in Reinforcement Learning
Exploration Strategies in Reinforcement LearningExploration Strategies in Reinforcement Learning
Exploration Strategies in Reinforcement LearningDongmin Lee
 
Safe Reinforcement Learning
Safe Reinforcement LearningSafe Reinforcement Learning
Safe Reinforcement LearningDongmin Lee
 
안.전.제.일. 강화학습!
안.전.제.일. 강화학습!안.전.제.일. 강화학습!
안.전.제.일. 강화학습!Dongmin Lee
 
Planning and Learning with Tabular Methods
Planning and Learning with Tabular MethodsPlanning and Learning with Tabular Methods
Planning and Learning with Tabular MethodsDongmin Lee
 
Multi-armed Bandits
Multi-armed BanditsMulti-armed Bandits
Multi-armed BanditsDongmin Lee
 
강화학습 알고리즘의 흐름도 Part 2
강화학습 알고리즘의 흐름도 Part 2강화학습 알고리즘의 흐름도 Part 2
강화학습 알고리즘의 흐름도 Part 2Dongmin Lee
 
강화학습의 개요
강화학습의 개요강화학습의 개요
강화학습의 개요Dongmin Lee
 

Plus de Dongmin Lee (12)

Causal Confusion in Imitation Learning
Causal Confusion in Imitation LearningCausal Confusion in Imitation Learning
Causal Confusion in Imitation Learning
 
Character Controllers using Motion VAEs
Character Controllers using Motion VAEsCharacter Controllers using Motion VAEs
Character Controllers using Motion VAEs
 
Causal Confusion in Imitation Learning
Causal Confusion in Imitation LearningCausal Confusion in Imitation Learning
Causal Confusion in Imitation Learning
 
Efficient Off-Policy Meta-Reinforcement Learning via Probabilistic Context Va...
Efficient Off-Policy Meta-Reinforcement Learning via Probabilistic Context Va...Efficient Off-Policy Meta-Reinforcement Learning via Probabilistic Context Va...
Efficient Off-Policy Meta-Reinforcement Learning via Probabilistic Context Va...
 
PRM-RL: Long-range Robotics Navigation Tasks by Combining Reinforcement Learn...
PRM-RL: Long-range Robotics Navigation Tasks by Combining Reinforcement Learn...PRM-RL: Long-range Robotics Navigation Tasks by Combining Reinforcement Learn...
PRM-RL: Long-range Robotics Navigation Tasks by Combining Reinforcement Learn...
 
Exploration Strategies in Reinforcement Learning
Exploration Strategies in Reinforcement LearningExploration Strategies in Reinforcement Learning
Exploration Strategies in Reinforcement Learning
 
Safe Reinforcement Learning
Safe Reinforcement LearningSafe Reinforcement Learning
Safe Reinforcement Learning
 
안.전.제.일. 강화학습!
안.전.제.일. 강화학습!안.전.제.일. 강화학습!
안.전.제.일. 강화학습!
 
Planning and Learning with Tabular Methods
Planning and Learning with Tabular MethodsPlanning and Learning with Tabular Methods
Planning and Learning with Tabular Methods
 
Multi-armed Bandits
Multi-armed BanditsMulti-armed Bandits
Multi-armed Bandits
 
강화학습 알고리즘의 흐름도 Part 2
강화학습 알고리즘의 흐름도 Part 2강화학습 알고리즘의 흐름도 Part 2
강화학습 알고리즘의 흐름도 Part 2
 
강화학습의 개요
강화학습의 개요강화학습의 개요
강화학습의 개요
 

Dernier

Journée Technique Trévarez - 20 février 2024 - Atelier 1 système bas carbone
Journée Technique Trévarez - 20 février 2024 - Atelier 1 système bas carbone Journée Technique Trévarez - 20 février 2024 - Atelier 1 système bas carbone
Journée Technique Trévarez - 20 février 2024 - Atelier 1 système bas carbone Institut de l'Elevage - Idele
 
Présentation de la station de Trévarez - 20 Février 2024
Présentation de la station de Trévarez - 20 Février 2024Présentation de la station de Trévarez - 20 Février 2024
Présentation de la station de Trévarez - 20 Février 2024Institut de l'Elevage - Idele
 
Journée Technique Trévarez - 20 février 2024 - Atelier 5 groupes-projets
Journée Technique Trévarez - 20 février 2024 - Atelier 5 groupes-projetsJournée Technique Trévarez - 20 février 2024 - Atelier 5 groupes-projets
Journée Technique Trévarez - 20 février 2024 - Atelier 5 groupes-projetsInstitut de l'Elevage - Idele
 
Journée Technique Trévarez - 20 février 2024 - Atelier 4 leviers agronomiques
Journée Technique Trévarez - 20 février 2024 - Atelier 4 leviers agronomiquesJournée Technique Trévarez - 20 février 2024 - Atelier 4 leviers agronomiques
Journée Technique Trévarez - 20 février 2024 - Atelier 4 leviers agronomiquesInstitut de l'Elevage - Idele
 
Journée Technique Trévarez - 20 février 2024 - Atelier 3 génisses
Journée Technique Trévarez - 20 février 2024 - Atelier 3 génissesJournée Technique Trévarez - 20 février 2024 - Atelier 3 génisses
Journée Technique Trévarez - 20 février 2024 - Atelier 3 génissesInstitut de l'Elevage - Idele
 
Rapport de fin d'étude en sur le dimensionnement solaire .pdf
Rapport de fin d'étude en sur le dimensionnement solaire .pdfRapport de fin d'étude en sur le dimensionnement solaire .pdf
Rapport de fin d'étude en sur le dimensionnement solaire .pdfZakaria156221
 
Journée Technique Trévarez - 20 février 2024 - Atelier 2 Réduire l’âge au vêl...
Journée Technique Trévarez - 20 février 2024 - Atelier 2 Réduire l’âge au vêl...Journée Technique Trévarez - 20 février 2024 - Atelier 2 Réduire l’âge au vêl...
Journée Technique Trévarez - 20 février 2024 - Atelier 2 Réduire l’âge au vêl...Institut de l'Elevage - Idele
 

Dernier (7)

Journée Technique Trévarez - 20 février 2024 - Atelier 1 système bas carbone
Journée Technique Trévarez - 20 février 2024 - Atelier 1 système bas carbone Journée Technique Trévarez - 20 février 2024 - Atelier 1 système bas carbone
Journée Technique Trévarez - 20 février 2024 - Atelier 1 système bas carbone
 
Présentation de la station de Trévarez - 20 Février 2024
Présentation de la station de Trévarez - 20 Février 2024Présentation de la station de Trévarez - 20 Février 2024
Présentation de la station de Trévarez - 20 Février 2024
 
Journée Technique Trévarez - 20 février 2024 - Atelier 5 groupes-projets
Journée Technique Trévarez - 20 février 2024 - Atelier 5 groupes-projetsJournée Technique Trévarez - 20 février 2024 - Atelier 5 groupes-projets
Journée Technique Trévarez - 20 février 2024 - Atelier 5 groupes-projets
 
Journée Technique Trévarez - 20 février 2024 - Atelier 4 leviers agronomiques
Journée Technique Trévarez - 20 février 2024 - Atelier 4 leviers agronomiquesJournée Technique Trévarez - 20 février 2024 - Atelier 4 leviers agronomiques
Journée Technique Trévarez - 20 février 2024 - Atelier 4 leviers agronomiques
 
Journée Technique Trévarez - 20 février 2024 - Atelier 3 génisses
Journée Technique Trévarez - 20 février 2024 - Atelier 3 génissesJournée Technique Trévarez - 20 février 2024 - Atelier 3 génisses
Journée Technique Trévarez - 20 février 2024 - Atelier 3 génisses
 
Rapport de fin d'étude en sur le dimensionnement solaire .pdf
Rapport de fin d'étude en sur le dimensionnement solaire .pdfRapport de fin d'étude en sur le dimensionnement solaire .pdf
Rapport de fin d'étude en sur le dimensionnement solaire .pdf
 
Journée Technique Trévarez - 20 février 2024 - Atelier 2 Réduire l’âge au vêl...
Journée Technique Trévarez - 20 février 2024 - Atelier 2 Réduire l’âge au vêl...Journée Technique Trévarez - 20 février 2024 - Atelier 2 Réduire l’âge au vêl...
Journée Technique Trévarez - 20 février 2024 - Atelier 2 Réduire l’âge au vêl...
 

Let's do Inverse RL

  • 1. 1 9 0 1 91 , ! ,1 2 1 1 1 3 , 1
  • 4. L L G RI! L - A R G G R G L
  • 6. 0:: 9 -1 . - - : - 1 / 2 /1:0 1 -:9 1 / 1 - 0:: 9 /1:0 -1 . - - : - 1 / 2 -:9 1
  • 9. 0 . ) 23 4 (
  • 10. ( . ) 01 2 (
  • 11. GE A ! GE > - ,
  • 12. )1 ( ) 2 1 0 . ( 1 . ) 1
  • 13. A ) - ( ) ( ) - - ) ( ) - ( ) - ( ) I FC ) ( ( ) - D C )
  • 14. D 2A - 2A , - • , 2 ? - 2A ?A - 2A A? ? A2 ? - o 1 2 , 2 ? - 2A ) o 1 ? ?D , 2 ? - 2A ) • 1 2 , A -) • A 3 ? , A - • A? ? ?A 2 23 ? ? 2 23 2A ?A ? ? ? 3 ? ? A?D 2 A2: 3 ?A ? ? ? • A? ? , 2 ( - 2A A? A2
  • 15. . . .
  • 17. 2. 2 2. 13 32 3
  • 18. 2 3 1 2 3 2 1 . 2 .3 .
  • 19. 3 2 3 3 3 3 -3 13 3 3 3 1 3 2 13 3 .3 31 32!
  • 20. !
  • 22. , ( ) ) , ( ! , " #$, &$ #' &' #( &( D "
  • 23. , ( ) ) , ( ! , " #$, &$ #' &' #( &( D "
  • 24. 1 3 3 3 - - 2/ 3 / / 3 .3 332 3 1 / 3 / / 23 3 3 3 / 3 / 2 1 ( -3 / 2 ) 1 3 3 3 3 32 3
  • 25. 1 3 3 3 - - 2/ 3 / / 3 .3 332 3 1 / 3 / / 23 3 3 3 / 3 / 2 1 ( -3 / 2 ) 1 3 3 3 3 32 3
  • 28. !
  • 29. .4 2 . 2 ). 4240 2 (4 . . .24 . .4 ). 4240
  • 30. F C9 G (22 (EEF CH 9 G E FC C 0C FG C DF9 B CH FC C 2 E F C DDA 0C FG C DF9 B CH FC C 0 2 E FG 0 GIF L TP 2 - C 0CHFD:I9H DC D 0C FG C DF9 B CH FC C Q P 22 C 2 (EEF CH 9 G E FC C 0C FG C DF9 B CH FC C U P 22 C 2 R 2 R )AD C (EEF CH 9 G E A FC C IG C 0C FG C DF9 B CH FC C )AD C G C 0 HD HF C HDL 9 F C B HD A FC C E FH ) DFG H I C
  • 31. -- • ) A ( > A A , A • - > : A >> A > • - > - A - , - A , A
  • 32. , , • (", $, %, &, ', () o " o $ o % = {,-.} - o & ∈ 0,1 o ' - o ( • 3 " → [0,1]7 • (∗ 9 = :∗ ; 3(9) :∗ ∈ ℝ7
  • 33. • ! . , , , , ! • , , , , , , , , , , " ! = • . , , , , • , , , , , , , , ̂"% = " !% , , & , ,
  • 37. • , !" !#
  • 38. • 2 2 2 2 2 2 • ( 2 2 ) 2 ! !
  • 41. • ) +2 o ( ( o 3 0 1 + +, 2
  • 42. • 4 , , 4 ! " → [0,1]) o : , 4 • , 4 *∗ , = .∗ / !(,)
  • 43. • 4 , , 4 ! " → [0,1]) o : , 4 • , 4 *∗ , = .∗ / !(,)
  • 44. • ! " → [0,1]) • *∗ , = .∗ / ! , • 0 1 =
  • 45. • ! " → [0,1]) • *∗ , = .∗ / ! , • 0 1 = • ̂0 1 =
  • 46. • ! " → [0,1]) • *∗ , = .∗ / ! , • 0 1 = • ̂0 1 = •
  • 47. • ,( : - - o ) - A • ,( :
  • 48. • ,( : - - o ) - A • ,( :
  • 49. • ,( : - - o ) - A • ,( :
  • 51. (() ( 2 . . ( 0 )
  • 52. 3 H E I R 112 1 D D 1 H E 2C EE E 2 H EB FFC EL HI 3 E FH D E HE E 3 2 HI 3 I HL d b Y T 2 - EB 4 1 H I FE F E H M 1 H E c S T F 5 EB 4 1 H 1 D P E 1 H E c S T F 5 EB 4 1 H 4 1 M 1 C c S T F 5 EB 4 1 H HHFH E C E E 4 1 c S T F 5 EB 4 1 H ( 4F 1 H E 4 1 c S T F 5 EB 4 1 4 FH FH 1 E 2 H )CF EB 4 1 4 FH FH 1 E 2 H )CF EB W V f e dag R 4 H E B F I EB W V f e dag R 4 H E 1 F B F I EB
  • 53. I ,,- • + > : ? > ?> ? • + > > ? ? ? • > ? ? ? : > ? ?> ? ? - ?> - >> > • : : ?> A > I ? > ( • - ? ? ) ? : , , > - >> > + • - ? ? ? > , > :?
  • 54. - - - • - - - - o ! ) ) o " ) o #(%|', )) - ) o ' - ) ( o + ( o , -) )( ) )( ) -) ( ) - ) () )( ) o - ∈ / - -) - ) o 0 ∈ 1 - - - - ) - %
  • 55. / 1 5 13 9 9 9 1 9 5 5 3 3 • ,.-y S h d Wc f g 5 5 s x x t ly 1 5 13 9 9 9 1 9 5 5 3 d 5 5 u p 9 9 1 9 5 5 3 d e s 5 1 d • .-y :5 w 5 1 s x 5 1 y 5 53 5 x b :93 d Ra .-y 1: :5 w 9 9 1 9 5 5 3 d f m W • Wq f 9 1: :93 u 9 1: 9 9 1 9 5 5 3 L 35 r nb iv I o I 9 175 35 8 :9 5 81 5 5 7 -55
  • 56. • ! { #$, &$, '$, ($, )$, ℒ$ }$,- . o ($ - ( : ( = ( . o )$ = ( o ℒ$ ( (1 1 -: : • ! { #$, &$, '$, /$, )$, ℒ$ }$,- . ≡ { #$, &$, 1$, ($, 2$, 3$ }$,- . • 2$ 4,5 = ( ( ( - : - ( 6 ( ( 7 - =( 1 8 • ℒ )$, ) = ℒ$ ) = 3$ : 2 o ℒ )$, ) : ) - ( )$ ( ) ( o 3$ = ( - :
  • 57. !∗ = $%& max *∈, -./0 ! !0
  • 58. • o , , ! { #$, &$, '$, ($, )$, ℒ$ }$,- . o : § / . ∑$ 1$2$ , § 2$ , § 3 , § 1$ , , , / , : , /, /, ,= , , , , , / § 45 ($ )$ ,= , , 45 ($ ) /, ,
  • 60. !!
  • 61. (4 2 (4 )4 8 240 . 4 424
  • 62. A B I G( C G D ( CA H E AB A C - A A - DA B D C E E A F C C A G D DB ( CA H A - E AB A C - A - AB - BDAE H L ) - T - M P R G D ( CA H B - CA D C E AB A C - A L - E B C G D ( CA H E AB A C - A - E AB A C - A C D -
  • 63. - -A • : -A : • -A :: - : • - - : • - - : • : : : A - - : • : : - - - : -A :
  • 64. • o § ! § "# § $# o %&' ∈ ℜ* o +
  • 65. • ( • ) ( • ) ! ) ) (
  • 66. 2F C8 C F M • 1 C C F M 9 F 7 C J F 7 8 F 8 C F C F 7 FJ 9 9 9 7 FJ 9 9 C9 F C F M 9 F 7 C 0 MC - • 3 F C8 C F M F 7 7 M 9 F 7 C 8 7 F F C 8 FF C C 9 C F C F M C 8 C F 8 M 9 F F 9 5 9 .1 ) ( , • 3 C F M 9 F 7 C C F 8 F 9 8 C 3 C F M 9 F 7 C C F 9 8 C F 8 ! C F C F 8 C 7 8F 7M 8 C "! 9J F F M 3 F ( 7 F ( o , ! "! , . , #"$(&)[)(*)]
  • 67. • ) :,: o ! " = ∑%& '()*+& :, • , , , , , "∗ = argmax ( 2(") = argmax ( 5 6789:;6< log ?( @A|") • ( , : B : , , , B : , ∇2 " = @D − 5 % ? A " D% = @D − 5 F& GF& DF&
  • 68. • o ! " = ∑%& '()*+& : : • : : : , :: ( : "∗ = argmax ( 2(") = argmax ( 5 6789:;6< log ?( @A|") • ) : B E : E : ∇2 " = @D − 5 % ? A " D% = @D − 5 F& GF& DF& : D!
  • 69. • !
  • 70. 0 A : • , A /3 : G - A 1. A3 :3 : : 3 : 3 : : 3 A EEE 3 E A A : A . -1. , -. 7
  • 72. • ) +2 o ( ( o 3 0 1 + +, 2
  • 73.
  • 77. • - - - - - : - : • - - - - - - : - : • ! - - • )- : • - - - - = #$ − $& • ) - ( -
  • 79. . . . . . .
  • 80. ) 6 1 ). 6 61 2 1 15 6 1 0 (
  • 81. K H L T & H K MCO & O KL KC F GCM MCIH KHCHA J K CHE & IRIM GCH K KC L M HI KGIH fd i :I CHE H K MCO & O KL KC F GCM MCIH KHCHA cVeW CHE (IIF HO KL CH IK G HM KHCHA J KL L KO R j h W ) CHE OC P H K MCO & O KL KC F GCM MCIH KHCHA a eW KE IPH CHE (IHO JMCGCS MCIH T IR H H H KAB IIE CHE Y bl k jgm T B IHD A M H MCIH CEC I L CHE Y bl k jgm T (IHD A M H MCIH CEC I L CHE Y bl k jgm T AK HAC H CEC I L CHE Y bl k jgm T AK HAC H F H MCIH CEC I L CHE Y bl k jgm T AK HAC H F JKI F G CEC I L CHE Y bl k jgm T MKIHA FCMR CEC I L CHE FF E C F K )CO KA H HL H B HHIH )CO KA H FIA CHE R IK B CGJF G HM MCIH I ) J CH IK G HM KHCHA & CM- CHE
  • 82. G ),- • , A - A A A H ) H ? I > ) • G I ? A I :GA A( + I ? ? A A ? • G G ? A , - • G? L ! G A G "# • - A , - • ? G A G A • )? A H H ? A ? A A • , )
  • 83. ! . !
  • 84. • ! " - - - • #(%& |%, )) - • Π - , - - - , - " - ! • , - - - - , - - : - , . - - • -. : -
  • 85. • o ! " ( ( ( ) , ( , ( o ( ( ) ( , # o " = %&'(#)) o # = RL(c) •
  • 86. DGD D P / 2L 051 • ∴ min%max( = max*min+ • 7 BI DL I L IP ,- ∘ /,- 01 = min+max* LIN 28 0 V U S / 01 XT A LIN D E L DO BIIB IG DO AI L R I8 L G 0 9 :5819. / 2L 051 I G min%max( max*min+ / I 2(4) 0(s) DL DGD I 7(8) 9(s, a)
  • 87. - = 5=8 9 . • /8 D 8 D 8 D 9 8 8 D D87 // !" #, % = '(%|#) + ,-. / 0,1(#, = #|') o = 87 7 D 5 9 D 8 D ' D 8 L O P M R W :8 D 8 D D= 78D 8 8 3 : .88 DD ()() (
  • 88. + +
  • 89. • o ! § ! § ! § !
  • 90. + • + + + • !"# + + • + +
  • 91. • ? • !"# - +> •
  • 92. DN ND I LIDIB 2 5 • / LD ND I A . IEOB N 1OI ND I OL + 859 V U S 2 X A OL GDIF + CNN + LD B BG LD A G L R 9 / 8 : 79 :0
  • 93.
  • 94. . 4 4 4 4 / 4 . : 4 . :
  • 96. • , 0E 6 • 6 E E 5 4 46 o _ • ( 6 E E 46 46 o c O a • 2 G4 E 6 o R O • 4 o b R M • H 4 o ) o 3 E 4 46 o 1 4 4: 6 5 G 45 E 4 +
  • 97. • 4 0 1 o 0 4 ,0 4 ,
  • 98. • 4 0 1 4 o 0 1 ,, 1 • 4 4, o − log(&'()* (+, -))
  • 99. • 0 : o 4 11 D • 1 o − log(&'()* (+, -)) • , 0 : o E 4 : G E 1 : : G o 4 0 00 0C : 1
  • 100. • 0 o % 41 :2 > 48 >8:8 1 > • 0 - o 41 :2 > 1 > >8 8 • 1 8: : 8 >1 8 :2 > • 0 1 >1 > 1 4 1> > > : 48 >8:8 1 >
  • 101. ) ((
  • 102. ) 1 815 2 ). 1 2 18 815 1 0 (
  • 103. 3 E B / E G B , E A B G E GG B ) /ADE I B /A G G B EB B /BI E 3 B: 1 L B GE B B B EA G B 2 D E B TY P R N ( V B TY P R N ( V B TY P R N ( ( V B E G B G B : E - D B : B
  • 104. I - • : B E DE E E: D E I D E EE < • o ) E I E D E D I o G E D o A G E: DE D D E < D A D • E E ( EE < ( D AA : • E ) D E ( EE < )( • A D E: E G D E E • A D + )(
  • 105. • !", $" , !" $" , q($"|!") • : , , o )(*|!) , , ! Z o ,(-, .) , , o ,/ ,
  • 106. • !(#, %) • , , , • '
  • 107. • : , o !∗($) , : , : ,: : : • • : , : , : , , &
  • 108. • ! "# • ℒ(&, (, !)
  • 110. . 4 4 4 4 / 4 . : 4 . :
  • 112. • , 1,:1 , 1 141 ,: :: o 4 1 : 01 1 o 1
  • 113. • 4 : 40 0 o , : 1 0 ,: 0 o ,: 0 • 0 0 o − log(&'()* (+, -))
  • 114. • : : : 1 1 4 o 001 A1 o , A1 • 1 :1 :0 o − log(&'()* (+, -)) • 0 1 0 1 /
  • 115. • 0 0 :0 1 :0 : 1 o : : o • B0 o − log(&'()* (+, -)) • 0 A D 0 / • , 0 : o 1 011 01D 4 C 0: 0 :
  • 116. • 0 o % 41 : > 4 • 0 - o 41 : > 13 > 3>8 83 • 1 8: : 8 >1 8 : > • 0 133 >13 > 1 4 1> > > : 48 3>8:8 1 >
  • 118. ))( ,
  • 120. - 34 44 n La l I t f N I e xy ) 4 34 1 r p h m 1 2 4 oL L n byG xy .m r A 4 1 1 4 4 srn o RL i p ry zdm MN p RO E
  • 121. ! 4
  • 122. , , !! ( , D ) ( ,