More Related Content
Similar to [DL輪読会]DeepSignals: Predicting Intent of Drivers Through Visual Signals (20)
More from Deep Learning JP (20)
[DL輪読会]DeepSignals: Predicting Intent of Drivers Through Visual Signals
- 1. 1DEEP LEARNING JP
[DL Papers]
http://deeplearning.jp/
Takumi Ohkuma, Nakayama Lab M2
DeepSignals: Predicting Intent of Drivers Through
Visual Signals
2020/6/5
- 2. 自己紹介
大熊拓海(オオクマ タクミ)
東京大学 情報理工学系研究科 創造情報学専攻 中山研究室 M2
専門はfew-shot learning関連
現在のテーマはOpenset image recognitionとFew-shot learningの融合に関する
研究
共同研究で自動運転系の研究にも携わっている
2
2020/6/5
- 3. 書誌情報
題名:DeepSignals: Predicting Intent of Drivers Through Visual Signals
出典:International Conference on Robotics and Automation (ICRA) 2019
著者:Davi Frossard, Eric Kee, Raquel Urtasun (Uberの研究チーム)
URL:https://arxiv.org/pdf/1905.01333.pdf
3
2020/6/5
- 6. サブタスク
ウィンカー検出 (左右それぞれ On, Off ,Unknown)
自動車は右折、左折、一時停止するときにはウィンカーを出す決まりになって
いるので、これを使わない手はない。
対象となる自動車に対する視点 (前, 後, 左, 右)
どの視点から対象となる自動車を見ているのか判別できないと、認識が難しい
(同じ右折でも向きが変わってしまう)
これらのタスクをサブタスクとして同時に学習させることで、メイン
タスクである行動予測の精度を高めることが目的
6
2020/6/5
- 8. Attention, CNN
Attention
何処に注目するかを示すヒートマップ
4層のCNNを用いており入力サイズは224×224×3、
出力サイズは224×224×1
元の画像とAttentionの出力をピクセルごとにかけ
合わせ、次のCNN (VGG16) の入力とする
Input Attention
CNN
• Imagenet pretrained VGG16を用い、training中にfine tuningする。
• 出力サイズは7×7×512
8
2020/6/5
- 10. データセット (1)
ウィンカー検出用の公開された大規模データが無いので、研究チームが自作した。
Uberの自動運転プラットフォームから10Hzで連続画像を抜き出した
10,000以上の連続画像を作成し、フレーム総数は1,257,591
データ画像は予め自動車領域が抜き出されている
(Detectionの必要はない)。
各フレームに行動予測, 左右ウィンカーのON, OFF, 自動車の向きのアノテーション
ウィンカーに関してはフレームごとの点灯、消灯ではなく、連続時間で考えたときのON,
OFFのラベルである。
点滅しているウィンカーに対しては、消灯しているフレームに対するラベルもONである。
10
2020/6/5
- 12. 学習
誤差関数は4つのheadのcross-entropy loss関数の重み付き和である
𝑦が予測ラベル, 𝑥が入力で, intent, left, right viewがそれぞれ 行動予測, 左ウィンカー, 右ウィン
カー, 視点である。
ℒ 𝑦, 𝑥 θ = 𝑙𝑖𝑛𝑡𝑒𝑛𝑡 𝑦, 𝑥 θ + 𝑙𝑙𝑒𝑓𝑡 𝑦, 𝑥 θ + 𝑙 𝑟𝑖𝑔ℎ𝑡 𝑦, 𝑥 θ + 𝑙 𝑣𝑖𝑒𝑤 𝑦, 𝑥 θ
𝑙 𝑦, 𝑥 θ = γ
𝑐
𝑦𝑐log(σ 𝑐(𝑥|θ))
全て微分可能であり、End-to-Endの学習を行う。
Adam optimizerを用い(パラメータの詳細等は論文を参照)、50epochの学習を行った。
25epochほどで大体収束するらしい
12
2020/6/5
- 14. 実験結果 (2)
モデルアーキテクチャの有効性に関する実験
1. FC-LSTM: CNNを用いずに元の画像を平滑化してLSTMに入力するモデル
2. ConvLSTM: CNNを用いずに元の画像をそのままConvLSTMに入力するもでる
3. CNN-LSTM: CNNの出力をConvLSTMではなく通常のLSTMに入力したものを比較実験に用いる。
• 1はCNNを用いておらず、画像の良い特徴量が得られていない。
• 2はConvLSTMの入力サイズが大きすぎてチャネル数や層数が非常に少なくなってしまい
(3層, 8, 8, 3チャネル) 精度が出ない。
• 3とoursの差は、LSTMよりConvLSTMがこのタスクにおいて優れていることを示している。
14
2020/6/5