OCRは古い技術

Copyright © Sansan, Inc. All rights reserved.
OCRは古い技術
Sansan株式会社
オペレーション部R&Dグループ
小林幸司
2015.9.30
BearTail(Dr.Wallet)×Sansan -合同LT会-

内容
- OCRはふるい技術でできている
- OCRの課題は文字認識ではない
- あぶり出そう

文字認識はあんまりがんばってもしょうがない

OCRの特徴量、識別器

Deep Convolutional Network for Handwritten
Chinese Character Recognition (2015)
Yuhao Zhang
Computer Science Department Stanford University

混合識別関数による類似文字認識の高精度化 (2000)
中嶋孝,若林哲史,木村文隆,三宅康二三重大学
3036クラス(ETL9B)に対する認識率
混合改良投影距離 98.90%
混合擬似ベイズ識別関数 98.89%
など
2000年以前にも99%越えの研究例は存在する

2000年から 2015年何があったか
● SIFT特徴量 (D. G. Lowe 1999)
● Haar-like特徴量 (Viola, Jones 2001)
● Adaboost による顔検出(同上)
● HOG特徴量 (Navneet Dalal and Bill Triggs 2005)
● Deep Learning (2010～)
OCRで使用される技術
● 局所方向ヒストグラム特徴など（ふるい）
○ ほぼHOG
● ベイズ識別、部分空間法（ふるい）
○ 古典的なパターン識別
○ 多クラス問題は回帰が好まれる

http://www.technologyreview.com/view/523326/how-
google-cracked-house-number-identification-in-street-
view/
DLは使いどころが難しい。
情景からの検出など、小クラス問題には強い。

● DL で多クラス問題を解く難しさ
○ 学習サンプル数の問題など
● 文字に特化した局所特徴量は既にある
○ 主にエッジに着目
● 新しい特徴量、識別器を開発する動機が希薄
○ 課題は別にある

文字認識じゃなくて何をがんばるのか

Deep Convolutional Network for Handwritten Chinese
Character Recognition (2015)
Yuhao Zhang
95%とか99%って何の数字？
→切り出した文字画像を学習して、評価した数字

c% (99%over)
b%
a%
a×b×c = ?
不確定要素はまだある（二値化、ノイズ、文字色
etc）
文字認識性能が良くても前段の処理でミスをす
れば取り戻すことができない！

文字認識の性能向上ばかりやっていられない。
OCRの課題は機械学習以外のところに多い。
注：内訳などは適当です！

http://www.mvision.co.jp/WebHelpIM/_RESOURCE/Ocr_01_fig.html https://ja.wikipedia.org/wiki/アラビア文字
文字切り出しが成功しないと99%などという数字は到達不
可能

Handwritten Japanese Address Recognition Technique Based on Improved Phased Search of
Candidate Rectangle Lattice
H.NAKAYAMA, M.SUZUKI, N.KATO, and Y.NEMOTO
文字切り出しは複数の候補からベストなものを選びたい。
グラフ理論が活躍できるのはここ。

基準は？
● 認識類似度
● 文字幅、高さ
● 言語処理
○ 単語のマッチ
○ Nグラム
● など

最適経路法はこれらを一緒にすることで、
間違いのボトルネックをなくすことを目的
とする

時代はあぶり出し

● スコアで比較したいので、識別機は類似度を返すものがよ
い。
○ 古典的な空間法など
● 状況に応じてエッジスコアの定義を見直す必要がある。
● 認識回数が増えるので、計算時間にデメリットがある。
類似度がいい箇所は先に確定してしまうなどの工夫が必要。
● 文字候補数など過剰気味にあったほうがよい。
正解候補がない状態はまずい。

いろんなあぶり出し

辞書と付き合わせながらのあぶり出し例
Lexicon-Driven Handwritten Character String
Recognition for Japanese Address Reading.
Cheng-Lin Li,Masashi Koga,Hiromichi Fujisawa

lexicon
言語情報（バイグラムなど）
認識結果
Fast Lexicon-Based Scene Text Recognition with
Sparse Belief Propagation
Jerod J. Weinman, Erik Learned-Miller, and Allen Hanson
文字切り出しだけではないあぶり出し
こちらは文字候補のあぶり出し例
xの認識候補
画像
認識文字
候補
単語候補

Scene Text Extraction with Edge Constraint and Text
Collinearity
SeongHun Lee , Min Su Cho , Kyomin Jung , and Jin Hyung Kim
文字列抽出のあぶり出し例

まとめ
● OCR内で使われている技術は古い
○ 特徴量
○ 識別機
○ グラフ理論
● 文字認識そのものは現実の要求にこたえら
れるものが既にある
● 現実の開発で求められるものは文字認識そ
のものでないことが多い
● 時代はあぶり出し
○ 慣れてくると文字列はグラフに見えて
くる
○ 「あぶり出し」は専門用語でも何でも
無いので注意が必要

OCRは古い技術

Recommandé

Recommandé

Contenu connexe

Tendances

Tendances (20)

En vedette

En vedette (9)

OCRは古い技術