SlideShare une entreprise Scribd logo
1  sur  25
Copyright © Sansan, Inc. All rights reserved.
OCRは古い技術
Sansan株式会社
オペレーション部R&Dグループ
小林幸司
2015.9.30
BearTail(Dr.Wallet)×Sansan -合同LT会-
Copyright © Sansan, Inc. All rights reserved.
内容
- OCRはふるい技術でできている
- OCRの課題は文字認識ではない
- あぶり出そう
Copyright © Sansan, Inc. All rights reserved.
文字認識はあんまりがんばってもしょうがない
Copyright © Sansan, Inc. All rights reserved.
OCRの特徴量、識別器
Copyright © Sansan, Inc. All rights reserved.
Deep Convolutional Network for Handwritten
Chinese Character Recognition (2015)
Yuhao Zhang
Computer Science Department Stanford University
Copyright © Sansan, Inc. All rights reserved.
混合識別関数による類似文字認識の高精度化 (2000)
中嶋孝,若林哲史,木村文隆,三宅康二 三重大学
3036クラス(ETL9B)に対する認識率
混合改良投影距離 98.90%
混合擬似ベイズ識別関数 98.89%
など
2000年以前にも99%越えの研究例は存在する
Copyright © Sansan, Inc. All rights reserved.
2000年 から 2015年 何があったか
● SIFT特徴量 (D. G. Lowe 1999)
● Haar-like特徴量 (Viola, Jones 2001)
● Adaboost による顔検出(同上)
● HOG特徴量 (Navneet Dalal and Bill Triggs 2005)
● Deep Learning (2010~)
OCRで使用される技術
● 局所方向ヒストグラム特徴など(ふるい)
○ ほぼHOG
● ベイズ識別、部分空間法(ふるい)
○ 古典的なパターン識別
○ 多クラス問題は回帰が好まれる
Copyright © Sansan, Inc. All rights reserved.
http://www.technologyreview.com/view/523326/how-
google-cracked-house-number-identification-in-street-
view/
DLは使いどころが難しい。
情景からの検出など、小クラス問題には強い。
Copyright © Sansan, Inc. All rights reserved.
● DL で多クラス問題を解く難しさ
○ 学習サンプル数の問題など
● 文字に特化した局所特徴量は既にある
○ 主にエッジに着目
● 新しい特徴量、識別器を開発する動機が希薄
○ 課題は別にある
Copyright © Sansan, Inc. All rights reserved.
文字認識じゃなくて何をがんばるのか
Copyright © Sansan, Inc. All rights reserved.
Deep Convolutional Network for Handwritten Chinese
Character Recognition (2015)
Yuhao Zhang
95%とか99%って何の数字?
→切り出した文字画像を学習して、評価した数字
Copyright © Sansan, Inc. All rights reserved.
c% (99%over)
b%
a%
a×b×c = ?
不確定要素はまだある(二値化、ノイズ、文字色
etc)
文字認識性能が良くても前段の処理でミスをす
れば取り戻すことができない!
Copyright © Sansan, Inc. All rights reserved.
文字認識の性能向上ばかりやっていられない。
OCRの課題は機械学習以外のところに多い。
注:内訳などは適当です!
Copyright © Sansan, Inc. All rights reserved.
http://www.mvision.co.jp/WebHelpIM/_RESOURCE/Ocr_01_fig.html https://ja.wikipedia.org/wiki/アラビア文字
文字切り出しが成功しないと99%などという数字は到達不
可能
Copyright © Sansan, Inc. All rights reserved.
Handwritten Japanese Address Recognition Technique Based on Improved Phased Search of
Candidate Rectangle Lattice
H.NAKAYAMA, M.SUZUKI, N.KATO, and Y.NEMOTO
文字切り出しは複数の候補からベストなものを選びたい。
グラフ理論が活躍できるのはここ。
Copyright © Sansan, Inc. All rights reserved.
基準は?
● 認識類似度
● 文字幅、高さ
● 言語処理
○ 単語のマッチ
○ Nグラム
● など
Copyright © Sansan, Inc. All rights reserved.
最適経路法はこれらを一緒にすることで、
間違いのボトルネックをなくすことを目的
とする
Copyright © Sansan, Inc. All rights reserved.
時代はあぶり出し
Copyright © Sansan, Inc. All rights reserved.
● スコアで比較したいので、識別機は類似度を返すものがよ
い。
○ 古典的な空間法など
● 状況に応じてエッジスコアの定義を見直す必要がある。
● 認識回数が増えるので、計算時間にデメリットがある。
類似度がいい箇所は先に確定してしまうなどの工夫が必要。
● 文字候補数など過剰気味にあったほうがよい。
正解候補がない状態はまずい。
Copyright © Sansan, Inc. All rights reserved.
いろんなあぶり出し
Copyright © Sansan, Inc. All rights reserved.
辞書と付き合わせながらのあぶり出し例
Lexicon-Driven Handwritten Character String
Recognition for Japanese Address Reading.
Cheng-Lin Li,Masashi Koga,Hiromichi Fujisawa
Copyright © Sansan, Inc. All rights reserved.
lexicon
言語情報(バイグラムなど)
認識結果
Fast Lexicon-Based Scene Text Recognition with
Sparse Belief Propagation
Jerod J. Weinman, Erik Learned-Miller, and Allen Hanson
文字切り出しだけではないあぶり出し
こちらは文字候補のあぶり出し例
xの認識候補
画像
認識文字
候補
単語候補
Copyright © Sansan, Inc. All rights reserved.
Scene Text Extraction with Edge Constraint and Text
Collinearity
SeongHun Lee , Min Su Cho , Kyomin Jung , and Jin Hyung Kim
文字列抽出のあぶり出し例
Copyright © Sansan, Inc. All rights reserved.
まとめ
● OCR内で使われている技術は古い
○ 特徴量
○ 識別機
○ グラフ理論
● 文字認識そのものは現実の要求にこたえら
れるものが既にある
● 現実の開発で求められるものは文字認識そ
のものでないことが多い
● 時代はあぶり出し
○ 慣れてくると文字列はグラフに見えて
くる
○ 「あぶり出し」は専門用語でも何でも
無いので注意が必要
Copyright © Sansan, Inc. All rights reserved.

Contenu connexe

Tendances

大規模データ時代に求められる自然言語処理
大規模データ時代に求められる自然言語処理大規模データ時代に求められる自然言語処理
大規模データ時代に求められる自然言語処理Preferred Networks
 
プログラミング初心者がOpenCVと機械学習でOCRエンジン自作に挑戦する話
プログラミング初心者がOpenCVと機械学習でOCRエンジン自作に挑戦する話プログラミング初心者がOpenCVと機械学習でOCRエンジン自作に挑戦する話
プログラミング初心者がOpenCVと機械学習でOCRエンジン自作に挑戦する話marika_hotani
 
「解説資料」ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
「解説資料」ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation 「解説資料」ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
「解説資料」ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation Takumi Ohkuma
 
マルチモーダル深層学習の研究動向
マルチモーダル深層学習の研究動向マルチモーダル深層学習の研究動向
マルチモーダル深層学習の研究動向Koichiro Mori
 
[DL輪読会]BERT: Pre-training of Deep Bidirectional Transformers for Language Und...
[DL輪読会]BERT: Pre-training of Deep Bidirectional Transformers for Language Und...[DL輪読会]BERT: Pre-training of Deep Bidirectional Transformers for Language Und...
[DL輪読会]BERT: Pre-training of Deep Bidirectional Transformers for Language Und...Deep Learning JP
 
Towards Total Recall in Industrial Anomaly Detection
Towards Total Recall in Industrial Anomaly DetectionTowards Total Recall in Industrial Anomaly Detection
Towards Total Recall in Industrial Anomaly Detectionharmonylab
 
畳み込みLstm
畳み込みLstm畳み込みLstm
畳み込みLstmtak9029
 
TIS 戦略技術センター AI技術推進室紹介
TIS 戦略技術センター AI技術推進室紹介TIS 戦略技術センター AI技術推進室紹介
TIS 戦略技術センター AI技術推進室紹介Takahiro Kubo
 
時系列問題に対するCNNの有用性検証
時系列問題に対するCNNの有用性検証時系列問題に対するCNNの有用性検証
時系列問題に対するCNNの有用性検証Masaharu Kinoshita
 
動作認識の最前線:手法,タスク,データセット
動作認識の最前線:手法,タスク,データセット動作認識の最前線:手法,タスク,データセット
動作認識の最前線:手法,タスク,データセットToru Tamaki
 
【DL輪読会】Scaling Laws for Neural Language Models
【DL輪読会】Scaling Laws for Neural Language Models【DL輪読会】Scaling Laws for Neural Language Models
【DL輪読会】Scaling Laws for Neural Language ModelsDeep Learning JP
 
記号創発ロボティクスの狙い
記号創発ロボティクスの狙い 記号創発ロボティクスの狙い
記号創発ロボティクスの狙い Tadahiro Taniguchi
 
Ponanzaにおける強化学習とディープラーニングの応用
Ponanzaにおける強化学習とディープラーニングの応用Ponanzaにおける強化学習とディープラーニングの応用
Ponanzaにおける強化学習とディープラーニングの応用HEROZ-JAPAN
 
機械学習研究の現状とこれから
機械学習研究の現状とこれから機械学習研究の現状とこれから
機械学習研究の現状とこれからMLSE
 
【DL輪読会】Bridge-Prompt: Toward Ordinal Action Understanding in Instructional Vi...
【DL輪読会】Bridge-Prompt: Toward Ordinal Action Understanding in Instructional Vi...【DL輪読会】Bridge-Prompt: Toward Ordinal Action Understanding in Instructional Vi...
【DL輪読会】Bridge-Prompt: Toward Ordinal Action Understanding in Instructional Vi...Deep Learning JP
 
全力解説!Transformer
全力解説!Transformer全力解説!Transformer
全力解説!TransformerArithmer Inc.
 
SfM Learner系単眼深度推定手法について
SfM Learner系単眼深度推定手法についてSfM Learner系単眼深度推定手法について
SfM Learner系単眼深度推定手法についてRyutaro Yamauchi
 
機械学習システムのアーキテクチャアラカルト
機械学習システムのアーキテクチャアラカルト機械学習システムのアーキテクチャアラカルト
機械学習システムのアーキテクチャアラカルトBrainPad Inc.
 

Tendances (20)

大規模データ時代に求められる自然言語処理
大規模データ時代に求められる自然言語処理大規模データ時代に求められる自然言語処理
大規模データ時代に求められる自然言語処理
 
プログラミング初心者がOpenCVと機械学習でOCRエンジン自作に挑戦する話
プログラミング初心者がOpenCVと機械学習でOCRエンジン自作に挑戦する話プログラミング初心者がOpenCVと機械学習でOCRエンジン自作に挑戦する話
プログラミング初心者がOpenCVと機械学習でOCRエンジン自作に挑戦する話
 
「解説資料」ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
「解説資料」ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation 「解説資料」ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
「解説資料」ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
 
マルチモーダル深層学習の研究動向
マルチモーダル深層学習の研究動向マルチモーダル深層学習の研究動向
マルチモーダル深層学習の研究動向
 
[DL輪読会]BERT: Pre-training of Deep Bidirectional Transformers for Language Und...
[DL輪読会]BERT: Pre-training of Deep Bidirectional Transformers for Language Und...[DL輪読会]BERT: Pre-training of Deep Bidirectional Transformers for Language Und...
[DL輪読会]BERT: Pre-training of Deep Bidirectional Transformers for Language Und...
 
Towards Total Recall in Industrial Anomaly Detection
Towards Total Recall in Industrial Anomaly DetectionTowards Total Recall in Industrial Anomaly Detection
Towards Total Recall in Industrial Anomaly Detection
 
畳み込みLstm
畳み込みLstm畳み込みLstm
畳み込みLstm
 
TIS 戦略技術センター AI技術推進室紹介
TIS 戦略技術センター AI技術推進室紹介TIS 戦略技術センター AI技術推進室紹介
TIS 戦略技術センター AI技術推進室紹介
 
時系列問題に対するCNNの有用性検証
時系列問題に対するCNNの有用性検証時系列問題に対するCNNの有用性検証
時系列問題に対するCNNの有用性検証
 
RAPIDS 概要
RAPIDS 概要RAPIDS 概要
RAPIDS 概要
 
動作認識の最前線:手法,タスク,データセット
動作認識の最前線:手法,タスク,データセット動作認識の最前線:手法,タスク,データセット
動作認識の最前線:手法,タスク,データセット
 
【DL輪読会】Scaling Laws for Neural Language Models
【DL輪読会】Scaling Laws for Neural Language Models【DL輪読会】Scaling Laws for Neural Language Models
【DL輪読会】Scaling Laws for Neural Language Models
 
記号創発ロボティクスの狙い
記号創発ロボティクスの狙い 記号創発ロボティクスの狙い
記号創発ロボティクスの狙い
 
Ponanzaにおける強化学習とディープラーニングの応用
Ponanzaにおける強化学習とディープラーニングの応用Ponanzaにおける強化学習とディープラーニングの応用
Ponanzaにおける強化学習とディープラーニングの応用
 
機械学習研究の現状とこれから
機械学習研究の現状とこれから機械学習研究の現状とこれから
機械学習研究の現状とこれから
 
【DL輪読会】Bridge-Prompt: Toward Ordinal Action Understanding in Instructional Vi...
【DL輪読会】Bridge-Prompt: Toward Ordinal Action Understanding in Instructional Vi...【DL輪読会】Bridge-Prompt: Toward Ordinal Action Understanding in Instructional Vi...
【DL輪読会】Bridge-Prompt: Toward Ordinal Action Understanding in Instructional Vi...
 
全力解説!Transformer
全力解説!Transformer全力解説!Transformer
全力解説!Transformer
 
SfM Learner系単眼深度推定手法について
SfM Learner系単眼深度推定手法についてSfM Learner系単眼深度推定手法について
SfM Learner系単眼深度推定手法について
 
機械学習システムのアーキテクチャアラカルト
機械学習システムのアーキテクチャアラカルト機械学習システムのアーキテクチャアラカルト
機械学習システムのアーキテクチャアラカルト
 
A3C解説
A3C解説A3C解説
A3C解説
 

En vedette

Bear tail(dr.wallet)×sansan 合同lt会-勉強会esaki
Bear tail(dr.wallet)×sansan  合同lt会-勉強会esakiBear tail(dr.wallet)×sansan  合同lt会-勉強会esaki
Bear tail(dr.wallet)×sansan 合同lt会-勉強会esakiHisumi Esaki
 
データサイエンス概論第一 6 異常検出
データサイエンス概論第一 6 異常検出データサイエンス概論第一 6 異常検出
データサイエンス概論第一 6 異常検出Seiichi Uchida
 
TensorFlow White Paperを読む
TensorFlow White Paperを読むTensorFlow White Paperを読む
TensorFlow White Paperを読むYuta Kashino
 
Introduction to Chainer: A Flexible Framework for Deep Learning
Introduction to Chainer: A Flexible Framework for Deep LearningIntroduction to Chainer: A Flexible Framework for Deep Learning
Introduction to Chainer: A Flexible Framework for Deep LearningSeiya Tokui
 
文字認識はCNNで終わるのか?
文字認識はCNNで終わるのか?文字認識はCNNで終わるのか?
文字認識はCNNで終わるのか?Seiichi Uchida
 
深層学習の非常に簡単な説明
深層学習の非常に簡単な説明深層学習の非常に簡単な説明
深層学習の非常に簡単な説明Seiichi Uchida
 
Introduction to Chainer
Introduction to ChainerIntroduction to Chainer
Introduction to ChainerShunta Saito
 
SSD: Single Shot MultiBox Detector (ECCV2016)
SSD: Single Shot MultiBox Detector (ECCV2016)SSD: Single Shot MultiBox Detector (ECCV2016)
SSD: Single Shot MultiBox Detector (ECCV2016)Takanori Ogata
 

En vedette (9)

Bear tail(dr.wallet)×sansan 合同lt会-勉強会esaki
Bear tail(dr.wallet)×sansan  合同lt会-勉強会esakiBear tail(dr.wallet)×sansan  合同lt会-勉強会esaki
Bear tail(dr.wallet)×sansan 合同lt会-勉強会esaki
 
データサイエンス概論第一 6 異常検出
データサイエンス概論第一 6 異常検出データサイエンス概論第一 6 異常検出
データサイエンス概論第一 6 異常検出
 
Introduction to Research Data Management - 2015-05-27 - Social Sciences Divis...
Introduction to Research Data Management - 2015-05-27 - Social Sciences Divis...Introduction to Research Data Management - 2015-05-27 - Social Sciences Divis...
Introduction to Research Data Management - 2015-05-27 - Social Sciences Divis...
 
TensorFlow White Paperを読む
TensorFlow White Paperを読むTensorFlow White Paperを読む
TensorFlow White Paperを読む
 
Introduction to Chainer: A Flexible Framework for Deep Learning
Introduction to Chainer: A Flexible Framework for Deep LearningIntroduction to Chainer: A Flexible Framework for Deep Learning
Introduction to Chainer: A Flexible Framework for Deep Learning
 
文字認識はCNNで終わるのか?
文字認識はCNNで終わるのか?文字認識はCNNで終わるのか?
文字認識はCNNで終わるのか?
 
深層学習の非常に簡単な説明
深層学習の非常に簡単な説明深層学習の非常に簡単な説明
深層学習の非常に簡単な説明
 
Introduction to Chainer
Introduction to ChainerIntroduction to Chainer
Introduction to Chainer
 
SSD: Single Shot MultiBox Detector (ECCV2016)
SSD: Single Shot MultiBox Detector (ECCV2016)SSD: Single Shot MultiBox Detector (ECCV2016)
SSD: Single Shot MultiBox Detector (ECCV2016)
 

OCRは古い技術

  • 1. Copyright © Sansan, Inc. All rights reserved. OCRは古い技術 Sansan株式会社 オペレーション部R&Dグループ 小林幸司 2015.9.30 BearTail(Dr.Wallet)×Sansan -合同LT会-
  • 2. Copyright © Sansan, Inc. All rights reserved. 内容 - OCRはふるい技術でできている - OCRの課題は文字認識ではない - あぶり出そう
  • 3. Copyright © Sansan, Inc. All rights reserved. 文字認識はあんまりがんばってもしょうがない
  • 4. Copyright © Sansan, Inc. All rights reserved. OCRの特徴量、識別器
  • 5. Copyright © Sansan, Inc. All rights reserved. Deep Convolutional Network for Handwritten Chinese Character Recognition (2015) Yuhao Zhang Computer Science Department Stanford University
  • 6. Copyright © Sansan, Inc. All rights reserved. 混合識別関数による類似文字認識の高精度化 (2000) 中嶋孝,若林哲史,木村文隆,三宅康二 三重大学 3036クラス(ETL9B)に対する認識率 混合改良投影距離 98.90% 混合擬似ベイズ識別関数 98.89% など 2000年以前にも99%越えの研究例は存在する
  • 7. Copyright © Sansan, Inc. All rights reserved. 2000年 から 2015年 何があったか ● SIFT特徴量 (D. G. Lowe 1999) ● Haar-like特徴量 (Viola, Jones 2001) ● Adaboost による顔検出(同上) ● HOG特徴量 (Navneet Dalal and Bill Triggs 2005) ● Deep Learning (2010~) OCRで使用される技術 ● 局所方向ヒストグラム特徴など(ふるい) ○ ほぼHOG ● ベイズ識別、部分空間法(ふるい) ○ 古典的なパターン識別 ○ 多クラス問題は回帰が好まれる
  • 8. Copyright © Sansan, Inc. All rights reserved. http://www.technologyreview.com/view/523326/how- google-cracked-house-number-identification-in-street- view/ DLは使いどころが難しい。 情景からの検出など、小クラス問題には強い。
  • 9. Copyright © Sansan, Inc. All rights reserved. ● DL で多クラス問題を解く難しさ ○ 学習サンプル数の問題など ● 文字に特化した局所特徴量は既にある ○ 主にエッジに着目 ● 新しい特徴量、識別器を開発する動機が希薄 ○ 課題は別にある
  • 10. Copyright © Sansan, Inc. All rights reserved. 文字認識じゃなくて何をがんばるのか
  • 11. Copyright © Sansan, Inc. All rights reserved. Deep Convolutional Network for Handwritten Chinese Character Recognition (2015) Yuhao Zhang 95%とか99%って何の数字? →切り出した文字画像を学習して、評価した数字
  • 12. Copyright © Sansan, Inc. All rights reserved. c% (99%over) b% a% a×b×c = ? 不確定要素はまだある(二値化、ノイズ、文字色 etc) 文字認識性能が良くても前段の処理でミスをす れば取り戻すことができない!
  • 13. Copyright © Sansan, Inc. All rights reserved. 文字認識の性能向上ばかりやっていられない。 OCRの課題は機械学習以外のところに多い。 注:内訳などは適当です!
  • 14. Copyright © Sansan, Inc. All rights reserved. http://www.mvision.co.jp/WebHelpIM/_RESOURCE/Ocr_01_fig.html https://ja.wikipedia.org/wiki/アラビア文字 文字切り出しが成功しないと99%などという数字は到達不 可能
  • 15. Copyright © Sansan, Inc. All rights reserved. Handwritten Japanese Address Recognition Technique Based on Improved Phased Search of Candidate Rectangle Lattice H.NAKAYAMA, M.SUZUKI, N.KATO, and Y.NEMOTO 文字切り出しは複数の候補からベストなものを選びたい。 グラフ理論が活躍できるのはここ。
  • 16. Copyright © Sansan, Inc. All rights reserved. 基準は? ● 認識類似度 ● 文字幅、高さ ● 言語処理 ○ 単語のマッチ ○ Nグラム ● など
  • 17. Copyright © Sansan, Inc. All rights reserved. 最適経路法はこれらを一緒にすることで、 間違いのボトルネックをなくすことを目的 とする
  • 18. Copyright © Sansan, Inc. All rights reserved. 時代はあぶり出し
  • 19. Copyright © Sansan, Inc. All rights reserved. ● スコアで比較したいので、識別機は類似度を返すものがよ い。 ○ 古典的な空間法など ● 状況に応じてエッジスコアの定義を見直す必要がある。 ● 認識回数が増えるので、計算時間にデメリットがある。 類似度がいい箇所は先に確定してしまうなどの工夫が必要。 ● 文字候補数など過剰気味にあったほうがよい。 正解候補がない状態はまずい。
  • 20. Copyright © Sansan, Inc. All rights reserved. いろんなあぶり出し
  • 21. Copyright © Sansan, Inc. All rights reserved. 辞書と付き合わせながらのあぶり出し例 Lexicon-Driven Handwritten Character String Recognition for Japanese Address Reading. Cheng-Lin Li,Masashi Koga,Hiromichi Fujisawa
  • 22. Copyright © Sansan, Inc. All rights reserved. lexicon 言語情報(バイグラムなど) 認識結果 Fast Lexicon-Based Scene Text Recognition with Sparse Belief Propagation Jerod J. Weinman, Erik Learned-Miller, and Allen Hanson 文字切り出しだけではないあぶり出し こちらは文字候補のあぶり出し例 xの認識候補 画像 認識文字 候補 単語候補
  • 23. Copyright © Sansan, Inc. All rights reserved. Scene Text Extraction with Edge Constraint and Text Collinearity SeongHun Lee , Min Su Cho , Kyomin Jung , and Jin Hyung Kim 文字列抽出のあぶり出し例
  • 24. Copyright © Sansan, Inc. All rights reserved. まとめ ● OCR内で使われている技術は古い ○ 特徴量 ○ 識別機 ○ グラフ理論 ● 文字認識そのものは現実の要求にこたえら れるものが既にある ● 現実の開発で求められるものは文字認識そ のものでないことが多い ● 時代はあぶり出し ○ 慣れてくると文字列はグラフに見えて くる ○ 「あぶり出し」は専門用語でも何でも 無いので注意が必要
  • 25. Copyright © Sansan, Inc. All rights reserved.