ドライブレコーダーの映像で Scene Text Recognitionする

Proprietary and Confidential ©2017 JapanTaxi, Inc. All Rights Reserved
ドライブレコーダーの映像で
Scene Text Recognitionする
次世代モビリティ事業部モビリティ研究開発グループ
⾼橋⽂彦
2019.07.16
Data Driven Developer Meetup #6

2
• 名前：⾼橋⽂彦
• 略歴
• 2015年3⽉京都⼤学⼤学院修了
• 2015年4⽉ヤフー株式会社⼊社
• 2018年8⽉ JapanTaxi株式会社⼊社
• 領域
• ⾃然⾔語処理、画像処理
• 過去の主な仕事
• 配⾞アプリのお迎え時間予測
• ECサイトの検索精度改善
• その他：PM、論⽂書いたり
• 趣味
• ボードゲーム、IoTガジェット

JapanTaxi

4
700万DL超⽇本No1タクシーアプリ
アプリマップ上で指定したピン位置にタクシーを⼿配。
全国47都道府県で約7万台と、全国のタクシー⾞両1/3がアプリで呼べる。
Google Mapsや⾳声AIなど様々な注⽂チャネル、決済、経費精算に対応。
*App Annie調べタクシー配⾞/ライドシェアアプリ内における、⽇本国内累計ダウンロード数/⽉間平均アクティブユーザー数(iOS/Google Play合算値)調査期間：2017年10⽉1⽇〜2018年9⽉30⽇
外部注⽂チャネル地図・経路検索
Google Maps iphone map
経費精算
Concur MoneyForward
海外
KakaoT TaxiGo
my route
iphone siri Alexa/echo spot mydaiz LINE clova
Yahoo!乗換案内
外部注⽂チャネル⾳声AI
NAVITIME
タクシー配⾞アプリ『JapanTaxi』

5
700万DL超⽇本No1タクシーアプリ
アプリマップ上で指定したピン位置にタクシーを⼿配。
全国47都道府県で約7万台と、全国のタクシー⾞両1/3がアプリで呼べる。
Google Mapsや⾳声AIなど様々な注⽂チャネル、決済、経費精算に対応。
*App Annie調べタクシー配⾞/ライドシェアアプリ内における、⽇本国内累計ダウンロード数/⽉間平均アクティブユーザー数(iOS/Google Play合算値)調査期間：2017年10⽉1⽇〜2018年9⽉30⽇
外部注⽂チャネル地図・経路検索
Google Maps iphone map
経費精算
Concur MoneyForward
海外
KakaoT TaxiGo
my route
iphone siri Alexa/echo spot mydaiz LINE clova
Yahoo!乗換案内
外部注⽂チャネル⾳声AI
NAVITIME
タクシー配⾞アプリ『JapanTaxi』

6
タクシーの
配⾞プラットフォーム
タクシー向け
ハードウェアメーカー
タクシーデータ
ビジネス

7

8
1⽇のタクシー動態の様⼦

9
センシングカーとしてのタクシー⾞両

10
点群データ収集の実証実験

11
データ活⽤による産業・社会課題の解決
機械学習などのデータ処理
● タクシー産業
● ⾃動運転
● 交通インフラ
メンテナンス
● 交通計画
● 地図情報
● 都市計画
● 環境
● 気象
タクシー運⾏で
⽣成されるデータ
データ駆動社会

12
ガソリンスタンド料⾦の⾃動認識

13
127
130
127
135
128
125
131

14
Scene Text Recognition

15
ガソリンスタンド料⾦認識は難しい ‒ 解像度の低さ -

16
ガソリンスタンド料⾦認識は難しい ‒ 前後⽂脈がない ‒
単語は前後の⽂字から推測できるが、数字は推測できない

17
課題：学習データを収集するのが⼤変
100.0%
6.9% 2.7%
地図を利⽤しても3%程度しか学習データが集まらない
Detection
アノテーション
Recognition
Sampling
with location
Sampled images
Detected images Recognized images
地図とGPSの情報を使って
写っている可能性の⾼い画像を抽出

18
課題：学習データを収集するのが⼤変
100.0%
2.6% 0.2%
全体の0.2%程度しか学習データが集まらない
Random
Sampling
⾃動
Detection
Recognition
Detected images Recognized images

19
研究⽬的：
限られた学習データでScene Text Recognition

20
⼀般的なSean Text Recognitionのモデル
CNN Layers Bi-LSTM Layers
Recognition
Layer
--1222--22-- 122
• CTC(Connectionist Temporal Classification)で⽂字列を予測
• ⾳声認識でも使われる系列予測の⼿法
[An End-to-End Trainable Neural Network for Image-based Sequence Recognition and Its Application to Scene Text Recognition,
Baoguang Shi et al., IEEE Trans. Pattern Anal. Mach. Intell. 2017]
CNN-RNN Model (baseline)

21
CTC(Connectionist Temporal Classification)とは
• ⼊⼒と出⼒の系列⻑が違う場合に⽤いられる損失関数
• ⾔語処理ではEndoer-decoderモデルが使われることが多いが、
CTCは信号処理のような⼊⼒の切れ⽬が曖昧なもので使われることが多い
• blank(空⽩⽂字)を導⼊して、正解⽂字列を順番に⽣成する確率を求める
x
---111--22-22-- 122
----112222--22- 122

22
関連研究：Multi-task Learning
[An Overview of Multi-Task Learning in Deep Neural Networks, Sebastian Ruder, 2017]
関連する複数のタスクを同時に学習させることで、予測精度を向上させる

23
アプローチのアイディア
数字が写っていない画像が⼤量にある
→ 数字が写っている or 写っていないのclassificationも学習させる
→ モデルに数字の形を学習させられるはず
数字が写っている数字が写っていない

24
Multi-task Learning of Scene Text Recognition
Recognition
Layer
122
• Classificationは数字が写っている場合1.0、写ってない場合0.0
• RecognitionとClassificationの両⽅のlossからBack Propagation
1.0
数字が写っている画像の学習
Classification
Layer

25
Multi-task Learning of Scene Text Recognition
Recognition
Layer
• ClassificationのlossからのみBack Propagation
• ClassificationのLoss functionはMean Squared Error
0.0
数字が写っていない画像の学習
Classification
Layer

26
その他Tips：
擬似画像でPre-training → 実画像へtransfer Learning

27
その他Tips：出⼒系列をbeam searchしてコントロール
• 推定する系列のn-bestをbeam
searchで求める
• モデルの外側から出⼒をコント
ロールできる
250
050
2050 桁数が多い
0から始まる
⾼すぎる⾦額

28
設定
• training set と validation setは2:8になるように時間軸で分割
• データ数に偏りがあるため、Classificationのサンプルごとの重みを画
像枚数の割合で設定
• 数字あり(Labeled)：U/(U+L)
• 数字なし（Unlabeled）：L/(U+L)
擬似画像
数字あり画像 5,280,000
数字なし画像 2,640,000
実画像
数字あり画像 402
数字なし画像 2,274

29
精度評価結果
Text Recognition Classification
Accuracy
Normalized Edit
Distance Precision Recall
Single-task Model 0.3088 0.3725 - -
Multi-task Model 0.6324 0.1618 0.8824 0.5217
• Multi-task Modelの⽅がRecognitionのAccuracyが⾼い
• 実⽤では…
• 画像サイズの⼤きさ画像と精度に相関があり、⾞両が近づけば⾼い
精度で認識可能
• フレーム間補完を⾏う

30
学習データ量と精度の関係
0.000
0.100
0.200
0.300
0.400
0.500
0.600
0.700
0.0% 20.0% 40.0% 60.0% 80.0% 100.0%
Multi-task Model
Single-task Model
• Multi-taskは少量のデータでも⽴ち上が
りが早く、すでに鈍りが⾒えている
• Single-taskは学習データを増やすと精度
が線形に向上

31
学習データ量と精度の関係の予想
画像はイメージです

32
背景：ドライブレコーダーの動画からガソリンスタンドの料⾦を⾃動認識
課題：学習データを取集するのが⼤変
結論：
• 数字じゃない形（データが⼤量）も学習することで少ないデータで精度が向上
• 学習データが少ない時にもMulti-task Learningは有効
• 実⽤上、数字が書かれているかどうかの判定は必要なので、１つのモデルに詰め
込めたのは⼀⽯⼆⿃だった

33
We are hiring!!
• 機械学習/アルゴリズム開発エンジニア
• ⾃動運転エンジニア
• データアナリスト/BIアナリスト
• データエンジニア

〒102-0094 東京都千代⽥区紀尾井町3-12
3-12 Kioicho Chiyoda-ku, Tokyo 102-0094 Japan
TEL 03-6265-6265 FAX 03-3239-8115
www.japantaxi.co.jp
⽂章·画像等の内容の無断転載及び複製等の⾏為はご遠慮ください。
Proprietary and Confidential ©2017 JapanTaxi, Inc.
All Rights Reserved

ドライブレコーダーの映像で Scene Text Recognitionする

Recommandé

Recommandé

Contenu connexe

Similaire à ドライブレコーダーの映像で Scene Text Recognitionする

Similaire à ドライブレコーダーの映像で Scene Text Recognitionする (20)

ドライブレコーダーの映像で Scene Text Recognitionする