SlideShare une entreprise Scribd logo
1  sur  34
Télécharger pour lire hors ligne
Proprietary and Confidential ©2017 JapanTaxi, Inc. All Rights Reserved
ドライブレコーダーの映像で
Scene Text Recognitionする
次世代モビリティ事業部 モビリティ研究開発グループ
⾼橋 ⽂彦
2019.07.16
Data Driven Developer Meetup #6
2
Proprietary and Confidential ©2017 JapanTaxi, Inc. All Rights Reserved
• 名前:⾼橋⽂彦
• 略歴
• 2015年3⽉ 京都⼤学⼤学院 修了
• 2015年4⽉ ヤフー株式会社 ⼊社
• 2018年8⽉ JapanTaxi株式会社 ⼊社
• 領域
• ⾃然⾔語処理、画像処理
• 過去の主な仕事
• 配⾞アプリのお迎え時間予測
• ECサイトの検索精度改善
• その他:PM、論⽂書いたり
• 趣味
• ボードゲーム、IoTガジェット
Proprietary and Confidential ©2017 JapanTaxi, Inc. All Rights Reserved
JapanTaxi
4
Proprietary and Confidential ©2017 JapanTaxi, Inc. All Rights Reserved
700万DL超 ⽇本No1タクシーアプリ
アプリマップ上で指定したピン位置にタクシーを⼿配。
全国47都道府県で約7万台と、全国のタクシー⾞両1/3がアプリで呼べる。
Google Mapsや⾳声AIなど様々な注⽂チャネル、決済、経費精算に対応。
*App Annie調べ タクシー配⾞/ライドシェアアプリ内における、⽇本国内累計ダウンロード数/⽉間平均アクティブユーザー数(iOS/Google Play合算値)調査期間:2017年10⽉1⽇〜2018年9⽉30⽇
外部注⽂チャネル 地図・経路検索
Google Maps iphone map
経費精算
Concur MoneyForward
海外
KakaoT TaxiGo
my route
iphone siri Alexa/echo spot mydaiz LINE clova
Yahoo!乗換案内
外部注⽂チャネル ⾳声AI
NAVITIME
タクシー配⾞アプリ『JapanTaxi』
5
Proprietary and Confidential ©2017 JapanTaxi, Inc. All Rights Reserved
700万DL超 ⽇本No1タクシーアプリ
アプリマップ上で指定したピン位置にタクシーを⼿配。
全国47都道府県で約7万台と、全国のタクシー⾞両1/3がアプリで呼べる。
Google Mapsや⾳声AIなど様々な注⽂チャネル、決済、経費精算に対応。
*App Annie調べ タクシー配⾞/ライドシェアアプリ内における、⽇本国内累計ダウンロード数/⽉間平均アクティブユーザー数(iOS/Google Play合算値)調査期間:2017年10⽉1⽇〜2018年9⽉30⽇
外部注⽂チャネル 地図・経路検索
Google Maps iphone map
経費精算
Concur MoneyForward
海外
KakaoT TaxiGo
my route
iphone siri Alexa/echo spot mydaiz LINE clova
Yahoo!乗換案内
外部注⽂チャネル ⾳声AI
NAVITIME
タクシー配⾞アプリ『JapanTaxi』
6
Proprietary and Confidential ©2017 JapanTaxi, Inc. All Rights Reserved
タクシーの
配⾞プラットフォーム
タクシー向け
ハードウェアメーカー
タクシーデータ
ビジネス
7
Proprietary and Confidential ©2017 JapanTaxi, Inc. All Rights Reserved
8
Proprietary and Confidential ©2017 JapanTaxi, Inc. All Rights Reserved
1⽇のタクシー動態の様⼦
9
Proprietary and Confidential ©2017 JapanTaxi, Inc. All Rights Reserved
センシングカーとしてのタクシー⾞両
10
Proprietary and Confidential ©2017 JapanTaxi, Inc. All Rights Reserved
点群データ収集の実証実験
11
Proprietary and Confidential ©2017 JapanTaxi, Inc. All Rights Reserved
データ活⽤による産業・社会課題の解決
機械学習などのデータ処理
● タクシー産業
● ⾃動運転
● 交通インフラ
メンテナンス
● 交通計画
● 地図情報
● 都市計画
● 環境
● 気象
タクシー運⾏で
⽣成されるデータ
データ駆動社会
12
Proprietary and Confidential ©2017 JapanTaxi, Inc. All Rights Reserved
ガソリンスタンド料⾦の⾃動認識
13
Proprietary and Confidential ©2017 JapanTaxi, Inc. All Rights Reserved
127
130
127
135
128
125
131
14
Proprietary and Confidential ©2017 JapanTaxi, Inc. All Rights Reserved
Scene Text Recognition
15
Proprietary and Confidential ©2017 JapanTaxi, Inc. All Rights Reserved
ガソリンスタンド料⾦認識は難しい ‒ 解像度の低さ -
16
Proprietary and Confidential ©2017 JapanTaxi, Inc. All Rights Reserved
ガソリンスタンド料⾦認識は難しい ‒ 前後⽂脈がない ‒
単語は前後の⽂字から推測できるが、数字は推測できない
17
Proprietary and Confidential ©2017 JapanTaxi, Inc. All Rights Reserved
課題:学習データを収集するのが⼤変
100.0%
6.9% 2.7%
地図を利⽤しても3%程度しか学習データが集まらない
Detection
アノテーション
Recognition
アノテーション
Sampling
with location
Sampled images
Detected images Recognized images
地図とGPSの情報を使って
写っている可能性の⾼い画像を抽出
18
Proprietary and Confidential ©2017 JapanTaxi, Inc. All Rights Reserved
課題:学習データを収集するのが⼤変
100.0%
2.6% 0.2%
全体の0.2%程度しか学習データが集まらない
Random
Sampling
⾃動
Detection
Recognition
アノテーション
Detected images Recognized images
19
Proprietary and Confidential ©2017 JapanTaxi, Inc. All Rights Reserved
研究⽬的:
限られた学習データでScene Text Recognition
20
Proprietary and Confidential ©2017 JapanTaxi, Inc. All Rights Reserved
⼀般的なSean Text Recognitionのモデル
CNN Layers Bi-LSTM Layers
Recognition
Layer
--1222--22-- 122
• CTC(Connectionist Temporal Classification)で⽂字列を予測
• ⾳声認識でも使われる系列予測の⼿法
[An End-to-End Trainable Neural Network for Image-based Sequence Recognition and Its Application to Scene Text Recognition,
Baoguang Shi et al., IEEE Trans. Pattern Anal. Mach. Intell. 2017]
CNN-RNN Model (baseline)
21
Proprietary and Confidential ©2017 JapanTaxi, Inc. All Rights Reserved
CTC(Connectionist Temporal Classification)とは
• ⼊⼒と出⼒の系列⻑が違う場合に⽤いられる損失関数
• ⾔語処理ではEndoer-decoderモデルが使われることが多いが、
CTCは信号処理のような⼊⼒の切れ⽬が曖昧なもので使われることが多い
• blank(空⽩⽂字)を導⼊して、正解⽂字列を順番に⽣成する確率を求める
x
---111--22-22-- 122
----112222--22- 122
22
Proprietary and Confidential ©2017 JapanTaxi, Inc. All Rights Reserved
関連研究:Multi-task Learning
[An Overview of Multi-Task Learning in Deep Neural Networks, Sebastian Ruder, 2017]
関連する複数のタスクを同時に学習させることで、予測精度を向上させる
23
Proprietary and Confidential ©2017 JapanTaxi, Inc. All Rights Reserved
アプローチのアイディア
数字が写っていない画像が⼤量にある
→ 数字が 写っている or 写っていない のclassificationも学習させる
→ モデルに数字の形を学習させられるはず
数字が写っている 数字が写っていない
24
Proprietary and Confidential ©2017 JapanTaxi, Inc. All Rights Reserved
Multi-task Learning of Scene Text Recognition
CNN Layers Bi-LSTM Layers
Recognition
Layer
122
• Classificationは数字が写っている場合1.0、写ってない場合0.0
• RecognitionとClassificationの両⽅のlossからBack Propagation
1.0
数字が写っている画像の学習
Classification
Layer
25
Proprietary and Confidential ©2017 JapanTaxi, Inc. All Rights Reserved
Multi-task Learning of Scene Text Recognition
CNN Layers Bi-LSTM Layers
Recognition
Layer
• ClassificationのlossからのみBack Propagation
• ClassificationのLoss functionはMean Squared Error
0.0
数字が写っていない画像の学習
Classification
Layer
26
Proprietary and Confidential ©2017 JapanTaxi, Inc. All Rights Reserved
その他Tips:
擬似画像でPre-training → 実画像へtransfer Learning
27
Proprietary and Confidential ©2017 JapanTaxi, Inc. All Rights Reserved
その他Tips:出⼒系列をbeam searchしてコントロール
• 推定する系列のn-bestをbeam
searchで求める
• モデルの外側から出⼒をコント
ロールできる
250
050
2050 桁数が多い
0から始まる
⾼すぎる⾦額
28
Proprietary and Confidential ©2017 JapanTaxi, Inc. All Rights Reserved
設定
• training set と validation setは2:8になるように時間軸で分割
• データ数に偏りがあるため、Classificationのサンプルごとの重みを画
像枚数の割合で設定
• 数字あり(Labeled):U/(U+L)
• 数字なし(Unlabeled):L/(U+L)
擬似画像
数字あり画像 5,280,000
数字なし画像 2,640,000
実画像
数字あり画像 402
数字なし画像 2,274
29
Proprietary and Confidential ©2017 JapanTaxi, Inc. All Rights Reserved
精度評価結果
Text Recognition Classification
Accuracy
Normalized Edit
Distance Precision Recall
Single-task Model 0.3088 0.3725 - -
Multi-task Model 0.6324 0.1618 0.8824 0.5217
• Multi-task Modelの⽅がRecognitionのAccuracyが⾼い
• 実⽤では…
• 画像サイズの⼤きさ画像と精度に相関があり、⾞両が近づけば⾼い
精度で認識可能
• フレーム間補完を⾏う
30
Proprietary and Confidential ©2017 JapanTaxi, Inc. All Rights Reserved
学習データ量と精度の関係
0.000
0.100
0.200
0.300
0.400
0.500
0.600
0.700
0.0% 20.0% 40.0% 60.0% 80.0% 100.0%
Multi-task Model
Single-task Model
• Multi-taskは少量のデータでも⽴ち上が
りが早く、すでに鈍りが⾒えている
• Single-taskは学習データを増やすと精度
が線形に向上
31
Proprietary and Confidential ©2017 JapanTaxi, Inc. All Rights Reserved
学習データ量と精度の関係の予想
画像はイメージです
32
Proprietary and Confidential ©2017 JapanTaxi, Inc. All Rights Reserved
背景:ドライブレコーダーの動画からガソリンスタンドの料⾦を⾃動認識
課題:学習データを取集するのが⼤変
結論:
• 数字じゃない形(データが⼤量)も学習することで少ないデータで精度が向上
• 学習データが少ない時にもMulti-task Learningは有効
• 実⽤上、数字が書かれているかどうかの判定は必要なので、1つのモデルに詰め
込めたのは⼀⽯⼆⿃だった
33
Proprietary and Confidential ©2017 JapanTaxi, Inc. All Rights Reserved
We are hiring!!
• 機械学習/アルゴリズム開発エンジニア
• ⾃動運転エンジニア
• データアナリスト/BIアナリスト
• データエンジニア
〒102-0094 東京都千代⽥区紀尾井町3-12
3-12 Kioicho Chiyoda-ku, Tokyo 102-0094 Japan
TEL 03-6265-6265 FAX 03-3239-8115
www.japantaxi.co.jp
⽂章·画像等の内容の無断転載及び複製等の⾏為はご遠慮ください。
Proprietary and Confidential ©2017 JapanTaxi, Inc.
All Rights Reserved

Contenu connexe

Similaire à ドライブレコーダーの映像で Scene Text Recognitionする

[Ridge-i] Dll講演資料 2017616
[Ridge-i] Dll講演資料 2017616[Ridge-i] Dll講演資料 2017616
[Ridge-i] Dll講演資料 2017616Ridge-i
 
Dll講演資料 2017616
Dll講演資料 2017616Dll講演資料 2017616
Dll講演資料 2017616NORIKO HOSAKA
 
JapanTaxiにおけるML Ops 〜機械学習の開発運用プロセス〜
JapanTaxiにおけるML Ops 〜機械学習の開発運用プロセス〜JapanTaxiにおけるML Ops 〜機械学習の開発運用プロセス〜
JapanTaxiにおけるML Ops 〜機械学習の開発運用プロセス〜Tetsutaro Watanabe
 
DeNAのプログラミング教育の取り組み #denatechcon
DeNAのプログラミング教育の取り組み #denatechconDeNAのプログラミング教育の取り組み #denatechcon
DeNAのプログラミング教育の取り組み #denatechconDeNA
 
[Ridge-i] Deep Learning Lab - ディープラーニング 導入の課題と実例
[Ridge-i] Deep Learning Lab - ディープラーニング 導入の課題と実例[Ridge-i] Deep Learning Lab - ディープラーニング 導入の課題と実例
[Ridge-i] Deep Learning Lab - ディープラーニング 導入の課題と実例Ridge-i
 
チラシルiOSでの広告枠開発
チラシルiOSでの広告枠開発チラシルiOSでの広告枠開発
チラシルiOSでの広告枠開発Satoshi Takano
 
Struggling with BIGDATA -リクルートおけるデータサイエンス/エンジニアリング-
Struggling with BIGDATA -リクルートおけるデータサイエンス/エンジニアリング-Struggling with BIGDATA -リクルートおけるデータサイエンス/エンジニアリング-
Struggling with BIGDATA -リクルートおけるデータサイエンス/エンジニアリング-Recruit Technologies
 
リクルートはいかにして、ディープラーニング(深層学習)の導入を成功させたか
リクルートはいかにして、ディープラーニング(深層学習)の導入を成功させたかリクルートはいかにして、ディープラーニング(深層学習)の導入を成功させたか
リクルートはいかにして、ディープラーニング(深層学習)の導入を成功させたかRecruit Technologies
 
JapanTaxiが保有するデータとデータ分析について
JapanTaxiが保有するデータとデータ分析についてJapanTaxiが保有するデータとデータ分析について
JapanTaxiが保有するデータとデータ分析についてMasatoshi Ida
 
携帯SoCでの画像処理とHalide
携帯SoCでの画像処理とHalide携帯SoCでの画像処理とHalide
携帯SoCでの画像処理とHalideMorpho, Inc.
 
ECCV2018 Everybody dance now論文紹介 (CV勉強会@関東)
ECCV2018 Everybody dance now論文紹介 (CV勉強会@関東)ECCV2018 Everybody dance now論文紹介 (CV勉強会@関東)
ECCV2018 Everybody dance now論文紹介 (CV勉強会@関東)Tenki Lee
 
DIMoの操作実演とSCSKが提供する研修プログラム
DIMoの操作実演とSCSKが提供する研修プログラムDIMoの操作実演とSCSKが提供する研修プログラム
DIMoの操作実演とSCSKが提供する研修プログラムHirono Jumpei
 
タクシー×AIを支えるKubernetesとAIデータパイプラインの信頼性の取り組みについて
タクシー×AIを支えるKubernetesとAIデータパイプラインの信頼性の取り組みについてタクシー×AIを支えるKubernetesとAIデータパイプラインの信頼性の取り組みについて
タクシー×AIを支えるKubernetesとAIデータパイプラインの信頼性の取り組みについてTakashi Suzuki
 
ML Ops NYC 19 & Strata Data Conference 2019 NewYork 注目セッションまとめ
ML Ops NYC 19 & Strata Data Conference 2019 NewYork 注目セッションまとめML Ops NYC 19 & Strata Data Conference 2019 NewYork 注目セッションまとめ
ML Ops NYC 19 & Strata Data Conference 2019 NewYork 注目セッションまとめTetsutaro Watanabe
 
Pull request時の画面差分取得の自動化
Pull request時の画面差分取得の自動化Pull request時の画面差分取得の自動化
Pull request時の画面差分取得の自動化Shunsuke Maeda
 
DeNA流cocos2d xとの付き合い方
DeNA流cocos2d xとの付き合い方DeNA流cocos2d xとの付き合い方
DeNA流cocos2d xとの付き合い方dena_study
 
深層学習の導入で抱える課題とユースケース実例
深層学習の導入で抱える課題とユースケース実例	深層学習の導入で抱える課題とユースケース実例
深層学習の導入で抱える課題とユースケース実例 Hirono Jumpei
 
深層学習の導入で抱える課題とユースケース実例
深層学習の導入で抱える課題とユースケース実例	深層学習の導入で抱える課題とユースケース実例
深層学習の導入で抱える課題とユースケース実例 Hirono Jumpei
 
Lay - FOSS4G 2018 Tokyo - もろもろのデータ解析/Visualize機能についていろいろ試してみた (Various Ways o...
Lay - FOSS4G 2018 Tokyo - もろもろのデータ解析/Visualize機能についていろいろ試してみた (Various Ways o...Lay - FOSS4G 2018 Tokyo - もろもろのデータ解析/Visualize機能についていろいろ試してみた (Various Ways o...
Lay - FOSS4G 2018 Tokyo - もろもろのデータ解析/Visualize機能についていろいろ試してみた (Various Ways o...Raymond Lay
 

Similaire à ドライブレコーダーの映像で Scene Text Recognitionする (20)

[Ridge-i] Dll講演資料 2017616
[Ridge-i] Dll講演資料 2017616[Ridge-i] Dll講演資料 2017616
[Ridge-i] Dll講演資料 2017616
 
Dll講演資料 2017616
Dll講演資料 2017616Dll講演資料 2017616
Dll講演資料 2017616
 
JapanTaxiにおけるML Ops 〜機械学習の開発運用プロセス〜
JapanTaxiにおけるML Ops 〜機械学習の開発運用プロセス〜JapanTaxiにおけるML Ops 〜機械学習の開発運用プロセス〜
JapanTaxiにおけるML Ops 〜機械学習の開発運用プロセス〜
 
DeNAのプログラミング教育の取り組み #denatechcon
DeNAのプログラミング教育の取り組み #denatechconDeNAのプログラミング教育の取り組み #denatechcon
DeNAのプログラミング教育の取り組み #denatechcon
 
[Ridge-i] Deep Learning Lab - ディープラーニング 導入の課題と実例
[Ridge-i] Deep Learning Lab - ディープラーニング 導入の課題と実例[Ridge-i] Deep Learning Lab - ディープラーニング 導入の課題と実例
[Ridge-i] Deep Learning Lab - ディープラーニング 導入の課題と実例
 
チラシルiOSでの広告枠開発
チラシルiOSでの広告枠開発チラシルiOSでの広告枠開発
チラシルiOSでの広告枠開発
 
Struggling with BIGDATA -リクルートおけるデータサイエンス/エンジニアリング-
Struggling with BIGDATA -リクルートおけるデータサイエンス/エンジニアリング-Struggling with BIGDATA -リクルートおけるデータサイエンス/エンジニアリング-
Struggling with BIGDATA -リクルートおけるデータサイエンス/エンジニアリング-
 
リクルートはいかにして、ディープラーニング(深層学習)の導入を成功させたか
リクルートはいかにして、ディープラーニング(深層学習)の導入を成功させたかリクルートはいかにして、ディープラーニング(深層学習)の導入を成功させたか
リクルートはいかにして、ディープラーニング(深層学習)の導入を成功させたか
 
JapanTaxiが保有するデータとデータ分析について
JapanTaxiが保有するデータとデータ分析についてJapanTaxiが保有するデータとデータ分析について
JapanTaxiが保有するデータとデータ分析について
 
携帯SoCでの画像処理とHalide
携帯SoCでの画像処理とHalide携帯SoCでの画像処理とHalide
携帯SoCでの画像処理とHalide
 
絶対にタダでは転ばない広告エンジニア #yjmu
絶対にタダでは転ばない広告エンジニア #yjmu絶対にタダでは転ばない広告エンジニア #yjmu
絶対にタダでは転ばない広告エンジニア #yjmu
 
ECCV2018 Everybody dance now論文紹介 (CV勉強会@関東)
ECCV2018 Everybody dance now論文紹介 (CV勉強会@関東)ECCV2018 Everybody dance now論文紹介 (CV勉強会@関東)
ECCV2018 Everybody dance now論文紹介 (CV勉強会@関東)
 
DIMoの操作実演とSCSKが提供する研修プログラム
DIMoの操作実演とSCSKが提供する研修プログラムDIMoの操作実演とSCSKが提供する研修プログラム
DIMoの操作実演とSCSKが提供する研修プログラム
 
タクシー×AIを支えるKubernetesとAIデータパイプラインの信頼性の取り組みについて
タクシー×AIを支えるKubernetesとAIデータパイプラインの信頼性の取り組みについてタクシー×AIを支えるKubernetesとAIデータパイプラインの信頼性の取り組みについて
タクシー×AIを支えるKubernetesとAIデータパイプラインの信頼性の取り組みについて
 
ML Ops NYC 19 & Strata Data Conference 2019 NewYork 注目セッションまとめ
ML Ops NYC 19 & Strata Data Conference 2019 NewYork 注目セッションまとめML Ops NYC 19 & Strata Data Conference 2019 NewYork 注目セッションまとめ
ML Ops NYC 19 & Strata Data Conference 2019 NewYork 注目セッションまとめ
 
Pull request時の画面差分取得の自動化
Pull request時の画面差分取得の自動化Pull request時の画面差分取得の自動化
Pull request時の画面差分取得の自動化
 
DeNA流cocos2d xとの付き合い方
DeNA流cocos2d xとの付き合い方DeNA流cocos2d xとの付き合い方
DeNA流cocos2d xとの付き合い方
 
深層学習の導入で抱える課題とユースケース実例
深層学習の導入で抱える課題とユースケース実例	深層学習の導入で抱える課題とユースケース実例
深層学習の導入で抱える課題とユースケース実例
 
深層学習の導入で抱える課題とユースケース実例
深層学習の導入で抱える課題とユースケース実例	深層学習の導入で抱える課題とユースケース実例
深層学習の導入で抱える課題とユースケース実例
 
Lay - FOSS4G 2018 Tokyo - もろもろのデータ解析/Visualize機能についていろいろ試してみた (Various Ways o...
Lay - FOSS4G 2018 Tokyo - もろもろのデータ解析/Visualize機能についていろいろ試してみた (Various Ways o...Lay - FOSS4G 2018 Tokyo - もろもろのデータ解析/Visualize機能についていろいろ試してみた (Various Ways o...
Lay - FOSS4G 2018 Tokyo - もろもろのデータ解析/Visualize機能についていろいろ試してみた (Various Ways o...
 

ドライブレコーダーの映像で Scene Text Recognitionする

  • 1. Proprietary and Confidential ©2017 JapanTaxi, Inc. All Rights Reserved ドライブレコーダーの映像で Scene Text Recognitionする 次世代モビリティ事業部 モビリティ研究開発グループ ⾼橋 ⽂彦 2019.07.16 Data Driven Developer Meetup #6
  • 2. 2 Proprietary and Confidential ©2017 JapanTaxi, Inc. All Rights Reserved • 名前:⾼橋⽂彦 • 略歴 • 2015年3⽉ 京都⼤学⼤学院 修了 • 2015年4⽉ ヤフー株式会社 ⼊社 • 2018年8⽉ JapanTaxi株式会社 ⼊社 • 領域 • ⾃然⾔語処理、画像処理 • 過去の主な仕事 • 配⾞アプリのお迎え時間予測 • ECサイトの検索精度改善 • その他:PM、論⽂書いたり • 趣味 • ボードゲーム、IoTガジェット
  • 3. Proprietary and Confidential ©2017 JapanTaxi, Inc. All Rights Reserved JapanTaxi
  • 4. 4 Proprietary and Confidential ©2017 JapanTaxi, Inc. All Rights Reserved 700万DL超 ⽇本No1タクシーアプリ アプリマップ上で指定したピン位置にタクシーを⼿配。 全国47都道府県で約7万台と、全国のタクシー⾞両1/3がアプリで呼べる。 Google Mapsや⾳声AIなど様々な注⽂チャネル、決済、経費精算に対応。 *App Annie調べ タクシー配⾞/ライドシェアアプリ内における、⽇本国内累計ダウンロード数/⽉間平均アクティブユーザー数(iOS/Google Play合算値)調査期間:2017年10⽉1⽇〜2018年9⽉30⽇ 外部注⽂チャネル 地図・経路検索 Google Maps iphone map 経費精算 Concur MoneyForward 海外 KakaoT TaxiGo my route iphone siri Alexa/echo spot mydaiz LINE clova Yahoo!乗換案内 外部注⽂チャネル ⾳声AI NAVITIME タクシー配⾞アプリ『JapanTaxi』
  • 5. 5 Proprietary and Confidential ©2017 JapanTaxi, Inc. All Rights Reserved 700万DL超 ⽇本No1タクシーアプリ アプリマップ上で指定したピン位置にタクシーを⼿配。 全国47都道府県で約7万台と、全国のタクシー⾞両1/3がアプリで呼べる。 Google Mapsや⾳声AIなど様々な注⽂チャネル、決済、経費精算に対応。 *App Annie調べ タクシー配⾞/ライドシェアアプリ内における、⽇本国内累計ダウンロード数/⽉間平均アクティブユーザー数(iOS/Google Play合算値)調査期間:2017年10⽉1⽇〜2018年9⽉30⽇ 外部注⽂チャネル 地図・経路検索 Google Maps iphone map 経費精算 Concur MoneyForward 海外 KakaoT TaxiGo my route iphone siri Alexa/echo spot mydaiz LINE clova Yahoo!乗換案内 外部注⽂チャネル ⾳声AI NAVITIME タクシー配⾞アプリ『JapanTaxi』
  • 6. 6 Proprietary and Confidential ©2017 JapanTaxi, Inc. All Rights Reserved タクシーの 配⾞プラットフォーム タクシー向け ハードウェアメーカー タクシーデータ ビジネス
  • 7. 7 Proprietary and Confidential ©2017 JapanTaxi, Inc. All Rights Reserved
  • 8. 8 Proprietary and Confidential ©2017 JapanTaxi, Inc. All Rights Reserved 1⽇のタクシー動態の様⼦
  • 9. 9 Proprietary and Confidential ©2017 JapanTaxi, Inc. All Rights Reserved センシングカーとしてのタクシー⾞両
  • 10. 10 Proprietary and Confidential ©2017 JapanTaxi, Inc. All Rights Reserved 点群データ収集の実証実験
  • 11. 11 Proprietary and Confidential ©2017 JapanTaxi, Inc. All Rights Reserved データ活⽤による産業・社会課題の解決 機械学習などのデータ処理 ● タクシー産業 ● ⾃動運転 ● 交通インフラ メンテナンス ● 交通計画 ● 地図情報 ● 都市計画 ● 環境 ● 気象 タクシー運⾏で ⽣成されるデータ データ駆動社会
  • 12. 12 Proprietary and Confidential ©2017 JapanTaxi, Inc. All Rights Reserved ガソリンスタンド料⾦の⾃動認識
  • 13. 13 Proprietary and Confidential ©2017 JapanTaxi, Inc. All Rights Reserved 127 130 127 135 128 125 131
  • 14. 14 Proprietary and Confidential ©2017 JapanTaxi, Inc. All Rights Reserved Scene Text Recognition
  • 15. 15 Proprietary and Confidential ©2017 JapanTaxi, Inc. All Rights Reserved ガソリンスタンド料⾦認識は難しい ‒ 解像度の低さ -
  • 16. 16 Proprietary and Confidential ©2017 JapanTaxi, Inc. All Rights Reserved ガソリンスタンド料⾦認識は難しい ‒ 前後⽂脈がない ‒ 単語は前後の⽂字から推測できるが、数字は推測できない
  • 17. 17 Proprietary and Confidential ©2017 JapanTaxi, Inc. All Rights Reserved 課題:学習データを収集するのが⼤変 100.0% 6.9% 2.7% 地図を利⽤しても3%程度しか学習データが集まらない Detection アノテーション Recognition アノテーション Sampling with location Sampled images Detected images Recognized images 地図とGPSの情報を使って 写っている可能性の⾼い画像を抽出
  • 18. 18 Proprietary and Confidential ©2017 JapanTaxi, Inc. All Rights Reserved 課題:学習データを収集するのが⼤変 100.0% 2.6% 0.2% 全体の0.2%程度しか学習データが集まらない Random Sampling ⾃動 Detection Recognition アノテーション Detected images Recognized images
  • 19. 19 Proprietary and Confidential ©2017 JapanTaxi, Inc. All Rights Reserved 研究⽬的: 限られた学習データでScene Text Recognition
  • 20. 20 Proprietary and Confidential ©2017 JapanTaxi, Inc. All Rights Reserved ⼀般的なSean Text Recognitionのモデル CNN Layers Bi-LSTM Layers Recognition Layer --1222--22-- 122 • CTC(Connectionist Temporal Classification)で⽂字列を予測 • ⾳声認識でも使われる系列予測の⼿法 [An End-to-End Trainable Neural Network for Image-based Sequence Recognition and Its Application to Scene Text Recognition, Baoguang Shi et al., IEEE Trans. Pattern Anal. Mach. Intell. 2017] CNN-RNN Model (baseline)
  • 21. 21 Proprietary and Confidential ©2017 JapanTaxi, Inc. All Rights Reserved CTC(Connectionist Temporal Classification)とは • ⼊⼒と出⼒の系列⻑が違う場合に⽤いられる損失関数 • ⾔語処理ではEndoer-decoderモデルが使われることが多いが、 CTCは信号処理のような⼊⼒の切れ⽬が曖昧なもので使われることが多い • blank(空⽩⽂字)を導⼊して、正解⽂字列を順番に⽣成する確率を求める x ---111--22-22-- 122 ----112222--22- 122
  • 22. 22 Proprietary and Confidential ©2017 JapanTaxi, Inc. All Rights Reserved 関連研究:Multi-task Learning [An Overview of Multi-Task Learning in Deep Neural Networks, Sebastian Ruder, 2017] 関連する複数のタスクを同時に学習させることで、予測精度を向上させる
  • 23. 23 Proprietary and Confidential ©2017 JapanTaxi, Inc. All Rights Reserved アプローチのアイディア 数字が写っていない画像が⼤量にある → 数字が 写っている or 写っていない のclassificationも学習させる → モデルに数字の形を学習させられるはず 数字が写っている 数字が写っていない
  • 24. 24 Proprietary and Confidential ©2017 JapanTaxi, Inc. All Rights Reserved Multi-task Learning of Scene Text Recognition CNN Layers Bi-LSTM Layers Recognition Layer 122 • Classificationは数字が写っている場合1.0、写ってない場合0.0 • RecognitionとClassificationの両⽅のlossからBack Propagation 1.0 数字が写っている画像の学習 Classification Layer
  • 25. 25 Proprietary and Confidential ©2017 JapanTaxi, Inc. All Rights Reserved Multi-task Learning of Scene Text Recognition CNN Layers Bi-LSTM Layers Recognition Layer • ClassificationのlossからのみBack Propagation • ClassificationのLoss functionはMean Squared Error 0.0 数字が写っていない画像の学習 Classification Layer
  • 26. 26 Proprietary and Confidential ©2017 JapanTaxi, Inc. All Rights Reserved その他Tips: 擬似画像でPre-training → 実画像へtransfer Learning
  • 27. 27 Proprietary and Confidential ©2017 JapanTaxi, Inc. All Rights Reserved その他Tips:出⼒系列をbeam searchしてコントロール • 推定する系列のn-bestをbeam searchで求める • モデルの外側から出⼒をコント ロールできる 250 050 2050 桁数が多い 0から始まる ⾼すぎる⾦額
  • 28. 28 Proprietary and Confidential ©2017 JapanTaxi, Inc. All Rights Reserved 設定 • training set と validation setは2:8になるように時間軸で分割 • データ数に偏りがあるため、Classificationのサンプルごとの重みを画 像枚数の割合で設定 • 数字あり(Labeled):U/(U+L) • 数字なし(Unlabeled):L/(U+L) 擬似画像 数字あり画像 5,280,000 数字なし画像 2,640,000 実画像 数字あり画像 402 数字なし画像 2,274
  • 29. 29 Proprietary and Confidential ©2017 JapanTaxi, Inc. All Rights Reserved 精度評価結果 Text Recognition Classification Accuracy Normalized Edit Distance Precision Recall Single-task Model 0.3088 0.3725 - - Multi-task Model 0.6324 0.1618 0.8824 0.5217 • Multi-task Modelの⽅がRecognitionのAccuracyが⾼い • 実⽤では… • 画像サイズの⼤きさ画像と精度に相関があり、⾞両が近づけば⾼い 精度で認識可能 • フレーム間補完を⾏う
  • 30. 30 Proprietary and Confidential ©2017 JapanTaxi, Inc. All Rights Reserved 学習データ量と精度の関係 0.000 0.100 0.200 0.300 0.400 0.500 0.600 0.700 0.0% 20.0% 40.0% 60.0% 80.0% 100.0% Multi-task Model Single-task Model • Multi-taskは少量のデータでも⽴ち上が りが早く、すでに鈍りが⾒えている • Single-taskは学習データを増やすと精度 が線形に向上
  • 31. 31 Proprietary and Confidential ©2017 JapanTaxi, Inc. All Rights Reserved 学習データ量と精度の関係の予想 画像はイメージです
  • 32. 32 Proprietary and Confidential ©2017 JapanTaxi, Inc. All Rights Reserved 背景:ドライブレコーダーの動画からガソリンスタンドの料⾦を⾃動認識 課題:学習データを取集するのが⼤変 結論: • 数字じゃない形(データが⼤量)も学習することで少ないデータで精度が向上 • 学習データが少ない時にもMulti-task Learningは有効 • 実⽤上、数字が書かれているかどうかの判定は必要なので、1つのモデルに詰め 込めたのは⼀⽯⼆⿃だった
  • 33. 33 Proprietary and Confidential ©2017 JapanTaxi, Inc. All Rights Reserved We are hiring!! • 機械学習/アルゴリズム開発エンジニア • ⾃動運転エンジニア • データアナリスト/BIアナリスト • データエンジニア
  • 34. 〒102-0094 東京都千代⽥区紀尾井町3-12 3-12 Kioicho Chiyoda-ku, Tokyo 102-0094 Japan TEL 03-6265-6265 FAX 03-3239-8115 www.japantaxi.co.jp ⽂章·画像等の内容の無断転載及び複製等の⾏為はご遠慮ください。 Proprietary and Confidential ©2017 JapanTaxi, Inc. All Rights Reserved