Contenu connexe
Similaire à 深層強化学習を用いた複合機の搬送制御 (20)
Plus de Deep Learning Lab(ディープラーニング・ラボ) (20)
深層強化学習を用いた複合機の搬送制御
- 2. © KONICA MINOLTA
目次
1
• コニカミノルタのご紹介
• 強化学習取り組みの動機
• 強化学習適用のスコープ
• 強化学習適用のステップ
• Step0 状態、行動、報酬を設定する
• Step1 シミュレータ上で用紙を搬送する
• Step2 実際の機械で用紙を搬送する
• Step3 実際の機械で安定的に用紙を搬送する
• まとめ
- 17. © KONICA MINOLTA 16
Step1
シミュレータ上で
用紙を搬送する
Step2
実際の機械で
用紙を搬送する
Step3
実際の機械で
安定的に用紙を搬送する
強化学習により達成したいこと: 用紙を「真っ直ぐダメージ無く」 「所定枚数」搬送する
強化学習の適用ステップ
Step0
状態、行動、報酬
を設定する
- 21. © KONICA MINOLTA
Step0 状態、行動、報酬を設定する
20
エージェント 環境
③報酬
②負荷出力制御
①用紙位置情報
エージェント 環境
③報酬
②行動
①状態
①状態=用紙位置情報、②行動=負荷出力制御(モータ、クラッチ) とする
Step2 Step3
Step1
Step0
- 22. © KONICA MINOLTA
Step0 状態、行動、報酬を設定する
21
エージェント 環境
③報酬
②負荷出力制御
①用紙位置情報
用紙位置情報
負荷出力制御
エージェント 環境
③報酬
②行動
①状態
①状態=用紙位置情報、②行動=負荷出力制御(モータ、クラッチ) とする
Step2 Step3
Step1
Step0
- 23. © KONICA MINOLTA
Step0 状態、行動、報酬を設定する
22
③報酬=「真っ直ぐダメージ無く」 「所定枚数」搬送するための報酬を設定
用紙を1枚排出
できた
1分間に狙いの
枚数を排出でき
た
用紙が衝突した
用紙傾き補正し
ない/できない
+報酬
+報酬
-報酬
-報酬
所定時間内
で所定の枚
数を機外へ
排出する
用紙にダ
メージを与
えずに搬送
する
用紙を機外へ排
出できること
所定時間内に狙
いの枚数排出で
きること
経路内で搬送中の
用紙が衝突しない
こと
経路内で搬送中の
用紙傾きを補正で
きること
目的 要件 報酬定義
Step2 Step3
Step1
Step0
- 26. © KONICA MINOLTA
Step1 シミュレータ上で用紙を搬送する
25
Step2 Step3
Step1
メインモータ
排紙CL
給紙CL
給紙R 排紙R
給紙カセット
TmgCL
S1 S2 S3 S4 S5 S10 S11 S12 S13 S14
TmgR
DmmyR
S6 S7 S8
ループ距離
S9
Q学習に合わせて用紙状態を仮想センサON/OFF で表現した
Step0
- 27. © KONICA MINOLTA
Step1 シミュレータ上で用紙を搬送する
26
メインモータ
排紙CL
給紙CL
給紙R 排紙R
給紙カセット
TmgCL
S1 S2 S3 S4 S5 S10 S11 S12 S13 S14
TmgR
DmmyR
S6 S7 S8
ループ距離
S9
仮想センサの全組合せに対する 行動テーブルを用意して行動する度に更新する
Step2 Step3
Step1
Step0
- 28. © KONICA MINOLTA
Step1 シミュレータ上で用紙を搬送する
27
エージェント 環境
③報酬
②負荷出力制御
①用紙位置情報
メインモータ
排紙CL
給紙CL
給紙R 排紙R
給紙カセット
TmgCL
S1 S2 S3 S4 S5 S10 S11 S12 S13 S14
TmgR
DmmyR
S6 S7 S8
ループ距離
S9
簡易構成シミュレータ
Step2 Step3
Step1
Step0
Q学習と簡易構成シミュレータにより、学習環境を構築
- 29. © KONICA MINOLTA
Step1 シミュレータ上で用紙を搬送する
28
-報酬の影響が大きく、+報酬を獲得しても状態価値が維持できず学習が進まない
用紙を1枚排出
できた
1分間に狙いの
枚数を排出でき
た
用紙が衝突した
用紙傾き補正し
ない/できない
+報酬
+報酬
-報酬
-報酬
報酬定義
Step2 Step3
Step1
Step0
タイミングよく
褒たり、叱った
りしてほしい
- 30. © KONICA MINOLTA
Step1 シミュレータ上で用紙を搬送する
29
用紙1枚ごとの +報酬 を追加することで状態価値を安定することができた
用紙を1枚排出
できた
1分間に狙いの
枚数を排出でき
た
用紙が衝突した
用紙傾き補正し
ない/できない
+報酬
+報酬
-報酬
-報酬
報酬定義
追加
Step2 Step3
Step1
Step0
- 31. © KONICA MINOLTA
Step1 シミュレータ上で用紙を搬送する
30
報酬を適切なタイミングで与え、繰り返し学習することで 性能が向上することを確認
シミュレータ上で強化学習により自動設計が可能
1回目 2回目 3回目
Step2 Step3
Step1
Step0
- 34. © KONICA MINOLTA
Step2 実際の機械で用紙を搬送する
33
機構制御と推論実行に必要なパフォーマンスを満たすHW環境を構築
MFP制御CPU
機器制御実行
推論CPU
RX65N
NN推論実行
用紙位置情報
出力制御情報
ループ量:3.3[mm]に必要な
学習周期 20[msec]
入力層は最大3枚分の用紙位置
NNの隠れ層は最大128x2
1枚目 先端位置
1枚目 後端位置
2枚目 先端位置
2枚目 後端位置
3枚目 先端位置
3枚目 後端位置
Step2 Step3
Step1
Step0
- 35. © KONICA MINOLTA
Step2 実際の機械で用紙を搬送する
34
DQNと実機構成シミュレータにより、学習環境を構築
実機構成シミュレータ
Step2 Step3
Step1
Step0
エージェント 環境
③報酬
②負荷出力制御
①用紙位置情報
- 36. © KONICA MINOLTA
Step2 実際の機械で用紙を搬送する
35
ハイパーパラメータ調整を行ったが安定して狙いの性能を達成できない
散発的に狙いとする所定枚数
を排出できる場合がある
安定するが、狙いとする
所定枚数を排出できない
パラメータ調整では
トレードオフ解消できず
Case1
Case2
Step2 Step3
Step1
Step0
- 37. © KONICA MINOLTA
Step2 実際の機械で用紙を搬送する
36
用紙傾き補正タイミング判断できる補助情報により、狙いの性能と安定性を確保
補助情報(用紙傾き補正タイミング)を状態に追加することでNNが迷うことが減ると仮定した
用紙傾き補正タイミング情報
Step2 Step3
Step1
Step0
ヒントを貰える
と短い時間で効
率的に学べます
- 38. © KONICA MINOLTA
Step2 実際の機械で用紙を搬送する
37
実機構成シミュレータで生成した学習モデルを実機HWで推論実行
実機構成シミュレータ
Step2 Step3
Step1
Step0
エージェント 環境
③報酬
②負荷出力制御
①用紙位置情報
- 39. © KONICA MINOLTA
Step2 実際の機械で用紙を搬送する
38
実機構成シミュレータ
Step2 Step3
Step1
Step0
実機構成シミュレータで生成した学習モデルを実機HWで推論実行
エージェント 環境
③報酬
②負荷出力制御
①用紙位置情報
- 43. © KONICA MINOLTA
Step2 実際の機械で用紙を搬送する
42
給紙バラつきにより狙いの制御ができていない ⇒ バラつきも学習する必要がある
• 27ppmを発揮するモデルを使用して実機を動作させた結果
18ppm
学習時にできていた、
狙いとする所定枚数の排出を再現できない
通紙センサによる
用紙到着待機が発生
→用紙が想定より遅い
給送ログ波形より給紙ローラ送り速度を試算した結果、
理論値:175.2mm/sec に対し
実測値:154.5mm/sec
実機とSimの送り速度差により
推論がうまくいかない?
Step2 Step3
Step1
Step0
教えてもらって
いないことはで
きません
- 44. © KONICA MINOLTA
Step3 実際の機械で安定的に用紙を搬送する
43
バラつきを学習するために Sim2Real(Domain Randomization)の適用を検討
Env1
Env2
Env3
Simulatorによる学習 搬送用NN
ダイナミクスパラメータを振りつつ
シミュレートして学習
実機における推論
マシン固有のダイナミクスパラメータ
システムは値を知る手段はない
ダイナミクスパラメータは中央値で
シミュレートして学習
入力は理想の搬送のみを想定している
出力も理想の搬送のみを想定している
入力はバラツクことを想定している
出力はバラツクことを想定している
状態
理想的な動き
行動
理想的な動きをしたときの状態
状態
理想的な動き
行動
理想的な動きをしたときの状態
マシン固有の動き
GAP
理想的な動き
GAP
状態
マシン固有の動きを考慮
行動
マシン固有の動きをしたときの状態
マシン固有の動き
マシン固有のダイナミクスパラメータ
システムは値を知る手段はない
DomainRandomization
Step2 Step3
Step1
Step0
- 45. © KONICA MINOLTA
Step3 実際の機械で安定的に用紙を搬送する
44
Step2で構築したシミュレーション環境をPPOに変更し、DR機能を搭載
実機構成シミュレータ
Step2 Step3
Step1
Step0
エージェント
環境
③報酬
②負荷出力制御
①用紙位置情報
Domain
Randomization
- 46. © KONICA MINOLTA
Step3 実際の機械で安定的に用紙を搬送する
45
設計上の最大バラつきをDRに設定し、狙いの搬送を学習できるか検討中
120
122
124
126
128
130
132
134
136
138
140
142
0 20 40 60 80 100 120 140
DR環境下におけるTmgR到達までの理想位置と実位置のGAP
理想 実1(MAX) 実2(MIN)
171mm/sec
150mm/sec
TmgR位置
給紙CL OFF可能
給紙CL OFF不可
給紙CL OFF可能
(次ステップでTmgR到達)
ループ量:1.1mm
ループ量:3.62mm
制御タイミング
給紙CL OFF可能
どちらも成立するタイミング OK NG
NG
搬送速度が最大14%ば
らついても正常搬送可能
な給紙クラッチ制御を学
習する
正常搬送できる
用紙位置領域
搬送速度が最大14%バラついても狙いのタイミングで給紙クラッチを制御を学習する
Step2 Step3
Step1
Step0
- 50. © KONICA MINOLTA
まとめ
49
• AI先端技術動向調査
• 新規技術導入におけるサポート
• 課題の設定
• 提案技術の課題への応用、検証
菅井 駿
第2デバイス制御開発部
鈴木 悠太 小川 雄太郎 大串 和正
AIテクノロジー部