発表スライド.pdf
- 4. 提案手法 - Ⅱ歩行データ
3
◼ 歩行映像撮影
歩行映像の撮影は汎用カメラを用いて1視点固定で行った。
本製作では、25人分の歩行映像を撮影し、
最終的に16人分の歩行映像を使用した。
うち、9人分は不正解データとして学習させた。
残りの7人分を正解データとして学習および推論させた。
◼ 動画データ前処理
動画をフレーム毎に画像として保存し、RGB形式のままモデルへと
入力させる。
- 5. 提案手法 - Ⅲ人物検出/姿勢推定
4
◼ 人物検出
人物検出にはGluonCVの学習済みYOLOv3を利用する。
◼ 姿勢推定
姿勢推定にはResNetベースの学習済みモデルを利用する。
この姿勢推定モデルから得た関節体モデルを識別フェーズで用いる。
なお本製作では、この2つのモデルに対して再学習などの調整を加え
ることはしない。
推定結果の例 ▶ 関節体モデルの例 ▶
- 6. 提案手法 – Ⅳ関節体モデル補正処理
5
◼ 推定精度の不安定性
姿勢推定モデルにより高速に関節体モデルを得ることができた
しかし、推定精度の不安定さが目立つ
通常、姿勢推定モデルの変更、調整を行って解消すべき
しかし、本製作ではモデルを変更することなく、正常データが得られ
ないかを考えた。
異常データの例
- 7. 提案手法 – Ⅳ関節体モデル補正処理
6
◼ データ補正方法
対象
t t+1 t+2 t+3 t+4
t-1
t-2
t-3
t-4
各関節部の座標の移動平均と標準偏差を計算
移動平均 - 標準偏差 < (x,y) < 移動平均 + 標準偏差
の範囲を超える座標は異常値 → 移動平均値に置換
- 8. 提案手法 – Ⅴ人物識別
7
◼ 人物識別モデル
右図のような非常にシンプルなCNNを実装。
入力データは高さ480px, 幅300pxに切り取り/パディングする。
識別時、不正解データと識別対象データの一方を学習。
学習後、学習に用いていない識別対象データを推論にかける。
3x3 conv, 16/1
2x2 maxpooling, pad
3x3 conv, 16/1
2x2 maxpooling, pad
3x3 conv, 32/1
2x2 maxpooling, pad
1024 dense
image
1 dense
output
relu
relu
relu
relu
sigmoid
False
A
CNN ?
trained
CNN
A?
Not A?
まず不正解データと
識別対象の一方を
学習させる
不正解データと識別対象の一方
を学習させたCNNにもう一方の
データを流して推論
- 10. 結果
8
ラベルA~G:
行方向は学習データ
列方向は推論データ
識別モデル返却値:
同一人物である確率
結果算出:
40 Epochs x 試行回数3回の平均値
確率の数値こそ低いがおおむね識
別できているようにみえる。
しかし、不安定性も拭えない。
t\p A B C D E F G
A 20.53 11.60 8.25 3.04 0.79 2.44 3.40
B 7.72 22.45 1.81 6.65 9.92 21.36 1.93
C 10.45 6.21 25.86 20.05 23.75 8.46 12.79
D 12.70 18.86 28.54 25.56 33.70 22.15 5.66
E 2.72 20.54 13.91 15.64 45.69 7.49 1.98
F 17.14 21.79 17.52 21.93 34.27 60.96 11.71
G 8.20 7.81 6.23 3.21 1.46 15.97 6.02
単位 %
赤字は正解ケースよりも高い確率である(FP)ことを表す
下線はそのグループで2番目に高い確率であることを表す