SlideShare a Scribd company logo
1 of 25
Download to read offline
認知的インタラクションデザイン学公開講義
2016.7.13
内発的動機づけの計算モデル
岡 夏樹
京都工芸繊維大学
情報工学・人間科学系
強化学習
環境
エージェント
行動状態
報酬
強化学習+内発的動機づけ
環境
エージェント
行動状態
外部報酬
(A)
predictor
内部報酬
(B) RL
いろいろな内発的動機づけ
• 新奇性、好奇心
• 親近性、予測可能性、学習容易性、課題の
分量・時間制限
• 達成感
• 対人交流、他者からの受容感
• 目標(能力を高める、知る、他者に勝つ、それ
らができないことを避ける)
• 自己効力感(うまくできるという自信)、有能感
(能力を発揮できているという感覚)
• 自己決定感、自律性
面白さ、興味、関心情報量
強化学習
環境
エージェント
行動 𝑎状態 𝑠
報酬 𝑟
Objective: get as much reward as possible
Q学習(即時報酬だけの場合)
 ),(),(),(1 asQrasQasQ kkk  
r
Qk(s,a)
Qk+1(s,a)
α
1
報酬 𝑟 は変動してもよい
状態 𝑠 で行動 𝑎 をとる価値 𝑄 𝑘(𝑠, 𝑎) は 𝑟 の期
待値に収束
𝑟 が変動する場合
変形すると・・・
→ exponential, recency-weighted average
Q学習(即時報酬だけの場合)
 ),(),(),( 11 asQrasQasQ kkkk   
i
ik
k
i
k
k rQQ 

  )1()1(
1
0 
8
i
ik
k
i
k
k
kkk
rQQ
rrQrQQ
rQQ
rQQ



 



)1()1(
))1)((1()1(
)1(
)1(
1
0
210212
101
11




・・・
行動選択
• ソフトマックス法
𝑒 𝑄(𝑠,𝑎)/𝜏
𝑒 𝑄(𝑠,𝑏)/𝜏𝑛
𝑏=1
𝑒 𝑄(𝑠,𝑎)/𝜏
に比例した確率で行動選択
温度定数 𝜏 が大きくなればランダムな選択に、𝜏 が小さ
くなれば一番報酬が多いと思われる選択をする方法に
近づく
遅れのある報酬も考慮したQ学習:行動価値は将来もらえる
報酬(割引率 𝛾 で減衰)の和の期待値に収束
discounted return
10
S
U
T
W
V
A
B
C
D
E
10
2
        ttt
a
ttttt asQasQrasQasQ ,,max,, 11   
エピソード
行
動
価
値
強化学習+内発的動機づけ
環境
エージェント
行動状態
外部報酬
(A)
predictor
内部報酬
(B) RL
Formal Theory of Creativity & Fun & Intrinsic
Motivation (1990-2010) by Jürgen Schmidhuber
http://people.idsia.ch/~juergen/creativity.html
• (A) an adaptive predictor of the growing data
history as the agent is interacting with its
environment
• (B) a reinforcement learner selecting the
actions that shape the history
• (B) is motivated to learn to invent
interesting things that (A) does not yet know
but can easily learn.
(つづき)
• To maximize future expected reward, (B)
learns more and more complex behaviors that
yield initially surprising (but eventually
boring) novel patterns that make (A) quickly
improve.
(つづき)
• O(t): the state of some observer O at time t
• H(t): its history of previous actions &
sensations & rewards until time t
• Beauty B(D,O(t)) of any data D: the negative
number of bits required to encode D
• Interestingness I(D,O(t)) of data D for
observer O at discrete time
step t>0: I(D,O(t))= B(D,O(t))-B(D,O(t-1))
(つづき)
• Intrinsic reward ri(t)=I(H(t),O(t))
• External reward re(t)
• Total reward r(t)=g(ri(t),re(t)), e.g., g(a,b)=a+b
(つづき)
Implementations
• Intrinsic reward: prediction error
• Intrinsic reward: improvements in prediction
error
• Intrinsic reward: relative entropies between
the agent's priors and posteriors
(参考資料)
2016年度 人工知能学会全国大会, 1O4-OS-22a-3
https://kaigi.org/jsai/webprogram/2016/pdf/273.pdf
インタラクションを通した数の概念の獲得
京都工芸繊維大学
高井利将 岡夏樹 早川博章
内部報酬の設計例
19
情報量、平均情報量(エントロピー)
• 発生確率が 𝑝 である事象が実際に発生したこ
とを知ったときに得られる情報量は、
𝐼 = −log2 𝑝
𝑝 =
1
2
→ 𝐼 = 1, 𝑝 =
1
4
→ 𝐼 = 2
• 各事象の発生確率が 𝑝𝑗 であるとき、1回の事
象発生で得られる平均情報量 𝐻 は、
𝐻 = − 𝑝𝑗 × log2 𝑝𝑗𝑗
20
平均情報量(エントロピー)
コイン投げの例: 表が出る確率 𝑝
• 𝐻(𝑝) = −{ 𝑝 log2 𝑝 + (1 − 𝑝) log2(1 − 𝑝) }
𝑝
𝐻
10
0
1
人とのインタラクション場面での
強化学習+内発的動機づけ
相手を含む
環境
エージェント
行動状態(相手の行動を含む)
外部報酬
(A)
predictor
内部報酬
(B) RL
人とのインタラクション場面での
強化学習+内発的動機づけ
相手を含む
環境
エージェント
行動状態(相手の行動を含む)
外部報酬
(A)
predictor
内部報酬
(B) RL
like
dislike
1 2 3 4
*
**
***
****
課題
• 簡単な強化学習プログラムをサンプルとして提
供するので、それに内発的動機づけの機能を付
け加えよ。入出力などの仕様も適宜変えてよい。
• 提出物:
– 実行可能なソースコード
– レポート(以下の内容を含む)
• 仕様の解説(人の側はどう入力し、エージェントはどう応答
するか、どのような内発的動機づけを付加したか、等)
• 内発的動機づけの導入により、エージェントのふるまいが、
どのように変わったか
• その変化に応じて、人の側のふるまいがどのような影響を
受けると思うか
参考資料
• 簡単な強化学習のサンプルプログラム
http://www.ii.is.kit.ac.jp/oka/RL5.html
サンプルプログラムを改定すると、上記はリンク切
れとなる可能性があります。その場合は、
http://www.ii.is.kit.ac.jp/oka/
からリンクを見つけて下さい。
• HTML入門、JavaScript入門、その他の資料へ
のリンク等は、Moodle(学内eラーニングプ
ラットフォーム)に掲載
参考資料
• Second Interdisciplinary Symposium on
Information-Seeking, Curiosity and Attention
https://openlab-flowers.inria.fr/t/second-
interdisciplinary-symposium-on-information-
seeking-curiosity-and-attention-neurocuriosity-
2016/187
• Information-seeking, curiosity, and attention:
computational and neural mechanisms
http://www.pyoudeyer.com/TICSCuriosity2013.pdf

More Related Content

What's hot

Moment matching networkを用いた音声パラメータのランダム生成の検討
Moment matching networkを用いた音声パラメータのランダム生成の検討Moment matching networkを用いた音声パラメータのランダム生成の検討
Moment matching networkを用いた音声パラメータのランダム生成の検討
Shinnosuke Takamichi
 

What's hot (20)

やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析
やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析
やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析
 
機械学習モデルの判断根拠の説明(Ver.2)
機械学習モデルの判断根拠の説明(Ver.2)機械学習モデルの判断根拠の説明(Ver.2)
機械学習モデルの判断根拠の説明(Ver.2)
 
GPU上でのNLP向け深層学習の実装について
GPU上でのNLP向け深層学習の実装についてGPU上でのNLP向け深層学習の実装について
GPU上でのNLP向け深層学習の実装について
 
強化学習における好奇心
強化学習における好奇心強化学習における好奇心
強化学習における好奇心
 
深層生成モデルと世界モデル
深層生成モデルと世界モデル深層生成モデルと世界モデル
深層生成モデルと世界モデル
 
ブラックボックス最適化とその応用
ブラックボックス最適化とその応用ブラックボックス最適化とその応用
ブラックボックス最適化とその応用
 
汎化性能測定
汎化性能測定汎化性能測定
汎化性能測定
 
独立低ランク行列分析に基づく音源分離とその発展(Audio source separation based on independent low-rank...
独立低ランク行列分析に基づく音源分離とその発展(Audio source separation based on independent low-rank...独立低ランク行列分析に基づく音源分離とその発展(Audio source separation based on independent low-rank...
独立低ランク行列分析に基づく音源分離とその発展(Audio source separation based on independent low-rank...
 
Moment matching networkを用いた音声パラメータのランダム生成の検討
Moment matching networkを用いた音声パラメータのランダム生成の検討Moment matching networkを用いた音声パラメータのランダム生成の検討
Moment matching networkを用いた音声パラメータのランダム生成の検討
 
Curriculum Learning (関東CV勉強会)
Curriculum Learning (関東CV勉強会)Curriculum Learning (関東CV勉強会)
Curriculum Learning (関東CV勉強会)
 
[DL輪読会]ICLR2020の分布外検知速報
[DL輪読会]ICLR2020の分布外検知速報[DL輪読会]ICLR2020の分布外検知速報
[DL輪読会]ICLR2020の分布外検知速報
 
最適輸送入門
最適輸送入門最適輸送入門
最適輸送入門
 
(DL輪読)Variational Dropout Sparsifies Deep Neural Networks
(DL輪読)Variational Dropout Sparsifies Deep Neural Networks(DL輪読)Variational Dropout Sparsifies Deep Neural Networks
(DL輪読)Variational Dropout Sparsifies Deep Neural Networks
 
J-KAC:日本語オーディオブック・紙芝居朗読音声コーパス
J-KAC:日本語オーディオブック・紙芝居朗読音声コーパスJ-KAC:日本語オーディオブック・紙芝居朗読音声コーパス
J-KAC:日本語オーディオブック・紙芝居朗読音声コーパス
 
画像処理AIを用いた異常検知
画像処理AIを用いた異常検知画像処理AIを用いた異常検知
画像処理AIを用いた異常検知
 
音声合成のコーパスをつくろう
音声合成のコーパスをつくろう音声合成のコーパスをつくろう
音声合成のコーパスをつくろう
 
【基調講演】『深層学習の原理の理解に向けた理論の試み』 今泉 允聡(東大)
【基調講演】『深層学習の原理の理解に向けた理論の試み』 今泉 允聡(東大)【基調講演】『深層学習の原理の理解に向けた理論の試み』 今泉 允聡(東大)
【基調講演】『深層学習の原理の理解に向けた理論の試み』 今泉 允聡(東大)
 
短時間発話を用いた話者照合のための音声加工の効果に関する検討
短時間発話を用いた話者照合のための音声加工の効果に関する検討短時間発話を用いた話者照合のための音声加工の効果に関する検討
短時間発話を用いた話者照合のための音声加工の効果に関する検討
 
【DL輪読会】HyperDiffusion: Generating Implicit Neural Fields withWeight-Space Dif...
【DL輪読会】HyperDiffusion: Generating Implicit Neural Fields withWeight-Space Dif...【DL輪読会】HyperDiffusion: Generating Implicit Neural Fields withWeight-Space Dif...
【DL輪読会】HyperDiffusion: Generating Implicit Neural Fields withWeight-Space Dif...
 
機械学習応用システムの安全性の研究動向と今後の展望
機械学習応用システムの安全性の研究動向と今後の展望機械学習応用システムの安全性の研究動向と今後の展望
機械学習応用システムの安全性の研究動向と今後の展望
 

Viewers also liked

社会的シグナル(Social signal)から対話相手の意図を読む, 植田一博
社会的シグナル(Social signal)から対話相手の意図を読む, 植田一博社会的シグナル(Social signal)から対話相手の意図を読む, 植田一博
社会的シグナル(Social signal)から対話相手の意図を読む, 植田一博
KIT Cognitive Interaction Design
 

Viewers also liked (20)

ユーザの個人差とインタラクションデザイン, 西崎友規子
ユーザの個人差とインタラクションデザイン, 西崎友規子ユーザの個人差とインタラクションデザイン, 西崎友規子
ユーザの個人差とインタラクションデザイン, 西崎友規子
 
社会的シグナル(Social signal)から対話相手の意図を読む, 植田一博
社会的シグナル(Social signal)から対話相手の意図を読む, 植田一博社会的シグナル(Social signal)から対話相手の意図を読む, 植田一博
社会的シグナル(Social signal)から対話相手の意図を読む, 植田一博
 
人を引き込む身体的コミュニケーション技術, 渡辺富夫
人を引き込む身体的コミュニケーション技術, 渡辺富夫人を引き込む身体的コミュニケーション技術, 渡辺富夫
人を引き込む身体的コミュニケーション技術, 渡辺富夫
 
人と動物はいかにしてパートナーとなったのか, 鮫島和行
人と動物はいかにしてパートナーとなったのか, 鮫島和行人と動物はいかにしてパートナーとなったのか, 鮫島和行
人と動物はいかにしてパートナーとなったのか, 鮫島和行
 
自分以外の心は存在するのか, 高橋英之
自分以外の心は存在するのか, 高橋英之自分以外の心は存在するのか, 高橋英之
自分以外の心は存在するのか, 高橋英之
 
人間とのインタラクションにより言葉と行動を学習するロボット, 岩橋直人
人間とのインタラクションにより言葉と行動を学習するロボット, 岩橋直人人間とのインタラクションにより言葉と行動を学習するロボット, 岩橋直人
人間とのインタラクションにより言葉と行動を学習するロボット, 岩橋直人
 
対話システム, 南泰浩
対話システム, 南泰浩対話システム, 南泰浩
対話システム, 南泰浩
 
Linking vision and language: From infant cognition to eyetracking in the visu...
Linking vision and language: From infant cognition to eyetracking in the visu...Linking vision and language: From infant cognition to eyetracking in the visu...
Linking vision and language: From infant cognition to eyetracking in the visu...
 
Novel phonotactic learning: Syllable-level and co-occurrence representations?...
Novel phonotactic learning: Syllable-level and co-occurrence representations?...Novel phonotactic learning: Syllable-level and co-occurrence representations?...
Novel phonotactic learning: Syllable-level and co-occurrence representations?...
 
対話システムにおけるインタラクション 技術のこれまでとこれから:携帯機器での音声情報検索案内システムを例として(南 泰浩)
対話システムにおけるインタラクション 技術のこれまでとこれから:携帯機器での音声情報検索案内システムを例として(南 泰浩)対話システムにおけるインタラクション 技術のこれまでとこれから:携帯機器での音声情報検索案内システムを例として(南 泰浩)
対話システムにおけるインタラクション 技術のこれまでとこれから:携帯機器での音声情報検索案内システムを例として(南 泰浩)
 
Mental state representation: insights from non-human primates, Alia Martin
Mental state representation: insights from non-human primates, Alia MartinMental state representation: insights from non-human primates, Alia Martin
Mental state representation: insights from non-human primates, Alia Martin
 
Infants’ understanding of communicative interactions, Alia martin
Infants’ understanding of communicative interactions, Alia martinInfants’ understanding of communicative interactions, Alia martin
Infants’ understanding of communicative interactions, Alia martin
 
The development of infants' ability to use verbal information when understand...
The development of infants' ability to use verbal information when understand...The development of infants' ability to use verbal information when understand...
The development of infants' ability to use verbal information when understand...
 
Predictive Learning of Sensorimotor Information as a Key for Cognitive Develo...
Predictive Learning of Sensorimotor Information as a Key for Cognitive Develo...Predictive Learning of Sensorimotor Information as a Key for Cognitive Develo...
Predictive Learning of Sensorimotor Information as a Key for Cognitive Develo...
 
Neural basis of social cognition based on fMRI studies, Yoko Mano
Neural basis of social cognition based on fMRI studies, Yoko ManoNeural basis of social cognition based on fMRI studies, Yoko Mano
Neural basis of social cognition based on fMRI studies, Yoko Mano
 
子ども-大人インタラクションの認知科学的分析とモデル化に向けて(大森 隆司)
子ども-大人インタラクションの認知科学的分析とモデル化に向けて(大森 隆司)子ども-大人インタラクションの認知科学的分析とモデル化に向けて(大森 隆司)
子ども-大人インタラクションの認知科学的分析とモデル化に向けて(大森 隆司)
 
Salon Bot 〜ヘアサロンLINEアシスタントの対話を Repl-AIを使ってプロトタイピング〜
Salon Bot 〜ヘアサロンLINEアシスタントの対話を Repl-AIを使ってプロトタイピング〜Salon Bot 〜ヘアサロンLINEアシスタントの対話を Repl-AIを使ってプロトタイピング〜
Salon Bot 〜ヘアサロンLINEアシスタントの対話を Repl-AIを使ってプロトタイピング〜
 
Bot × 翻訳 次世代グローバルチャット
Bot × 翻訳 次世代グローバルチャットBot × 翻訳 次世代グローバルチャット
Bot × 翻訳 次世代グローバルチャット
 
Tech circle bot x zabbix オペレータbot lt
Tech circle bot x zabbix オペレータbot ltTech circle bot x zabbix オペレータbot lt
Tech circle bot x zabbix オペレータbot lt
 
楽するチームリマインダー ラクリマくん
楽するチームリマインダー ラクリマくん楽するチームリマインダー ラクリマくん
楽するチームリマインダー ラクリマくん
 

More from KIT Cognitive Interaction Design

知能とは何か-AIを巡る20の質問, 岡夏樹
知能とは何か-AIを巡る20の質問, 岡夏樹知能とは何か-AIを巡る20の質問, 岡夏樹
知能とは何か-AIを巡る20の質問, 岡夏樹
KIT Cognitive Interaction Design
 

More from KIT Cognitive Interaction Design (16)

(第3版)「知能の構成的解明の研究動向と今後の展望」についての個人的見解:Chain of thought promptingやpostdictionを中...
(第3版)「知能の構成的解明の研究動向と今後の展望」についての個人的見解:Chain of thought promptingやpostdictionを中...(第3版)「知能の構成的解明の研究動向と今後の展望」についての個人的見解:Chain of thought promptingやpostdictionを中...
(第3版)「知能の構成的解明の研究動向と今後の展望」についての個人的見解:Chain of thought promptingやpostdictionを中...
 
「知能の構成的解明の研究動向と今後の展望」についての個人的見解:Chain of thought promptingやpostdictionを中心として(...
「知能の構成的解明の研究動向と今後の展望」についての個人的見解:Chain of thought promptingやpostdictionを中心として(...「知能の構成的解明の研究動向と今後の展望」についての個人的見解:Chain of thought promptingやpostdictionを中心として(...
「知能の構成的解明の研究動向と今後の展望」についての個人的見解:Chain of thought promptingやpostdictionを中心として(...
 
AI(人工知能)研究の最前線:社会はどのように変わるだろう?
AI(人工知能)研究の最前線:社会はどのように変わるだろう?AI(人工知能)研究の最前線:社会はどのように変わるだろう?
AI(人工知能)研究の最前線:社会はどのように変わるだろう?
 
Studies on Human-”Weak” Robot Interaction - Michio Okada
Studies on Human-”Weak” Robot Interaction - Michio OkadaStudies on Human-”Weak” Robot Interaction - Michio Okada
Studies on Human-”Weak” Robot Interaction - Michio Okada
 
Theory of Mind and Language Processing, Fast and Slow
Theory of Mind and Language Processing, Fast and SlowTheory of Mind and Language Processing, Fast and Slow
Theory of Mind and Language Processing, Fast and Slow
 
ユーザ体験とサービスデザイン:人を理解するということ
ユーザ体験とサービスデザイン:人を理解するということユーザ体験とサービスデザイン:人を理解するということ
ユーザ体験とサービスデザイン:人を理解するということ
 
Expressing and understanding dialogue act: Is it an explicit or an implicit p...
Expressing and understanding dialogue act: Is it an explicit or an implicit p...Expressing and understanding dialogue act: Is it an explicit or an implicit p...
Expressing and understanding dialogue act: Is it an explicit or an implicit p...
 
意思決定科学から見る認知的インタラクション-本田秀仁
意思決定科学から見る認知的インタラクション-本田秀仁意思決定科学から見る認知的インタラクション-本田秀仁
意思決定科学から見る認知的インタラクション-本田秀仁
 
人工知能技術の現状-今後の見通し-社会へのインパクト-岡夏樹
人工知能技術の現状-今後の見通し-社会へのインパクト-岡夏樹人工知能技術の現状-今後の見通し-社会へのインパクト-岡夏樹
人工知能技術の現状-今後の見通し-社会へのインパクト-岡夏樹
 
不便の効用を活かすシステムデザイン 川上浩司 System design that takes advantage of inconvenience - ...
不便の効用を活かすシステムデザイン 川上浩司 System design that takes advantage of inconvenience - ...不便の効用を活かすシステムデザイン 川上浩司 System design that takes advantage of inconvenience - ...
不便の効用を活かすシステムデザイン 川上浩司 System design that takes advantage of inconvenience - ...
 
パース哲学への出会いからアブダクション実装までの道程 國藤 進 From peirce to abduction by susumu kunifuji
パース哲学への出会いからアブダクション実装までの道程 國藤 進 From peirce to abduction by susumu kunifujiパース哲学への出会いからアブダクション実装までの道程 國藤 進 From peirce to abduction by susumu kunifuji
パース哲学への出会いからアブダクション実装までの道程 國藤 進 From peirce to abduction by susumu kunifuji
 
人間との協調を学ぶ人工知能 岩橋直人 Artificial intelligence that learns to cooperate with huma...
人間との協調を学ぶ人工知能 岩橋直人 Artificial intelligence that learns to cooperate with huma...人間との協調を学ぶ人工知能 岩橋直人 Artificial intelligence that learns to cooperate with huma...
人間との協調を学ぶ人工知能 岩橋直人 Artificial intelligence that learns to cooperate with huma...
 
インタフェースデザイン-渋谷雄2018
インタフェースデザイン-渋谷雄2018インタフェースデザイン-渋谷雄2018
インタフェースデザイン-渋谷雄2018
 
インタフェースデザイン-渋谷雄
インタフェースデザイン-渋谷雄インタフェースデザイン-渋谷雄
インタフェースデザイン-渋谷雄
 
知能とは何か-AIを巡る20の質問, 岡夏樹
知能とは何か-AIを巡る20の質問, 岡夏樹知能とは何か-AIを巡る20の質問, 岡夏樹
知能とは何か-AIを巡る20の質問, 岡夏樹
 
ロボットのための認知的インタラクションデザイン(今井 倫太)
ロボットのための認知的インタラクションデザイン(今井 倫太)ロボットのための認知的インタラクションデザイン(今井 倫太)
ロボットのための認知的インタラクションデザイン(今井 倫太)
 

内発的動機づけの計算モデル, 岡夏樹