Soumettre la recherche
Mettre en ligne
OCRは古い技術
•
Télécharger en tant que PPTX, PDF
•
12 j'aime
•
11,887 vues
Koji Kobayashi
Suivre
BearTail(Dr.Wallet)×Sansan -合同LT会- 発表資料 http://connpass.com/event/19249/
Lire moins
Lire la suite
Présentations et discours publics
Affichage du diaporama
Signaler
Partager
Affichage du diaporama
Signaler
Partager
1 sur 25
Télécharger maintenant
Recommandé
Tesseract ocr
Tesseract ocr
Takuya Minagawa
音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3
音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3
Naoya Takahashi
人間中心設計(HCD) とは
人間中心設計(HCD) とは
Hitomi Yamagishi
ChatGPTの仕組みの解説と実務でのLLMの適用の紹介_latest.pdf
ChatGPTの仕組みの解説と実務でのLLMの適用の紹介_latest.pdf
Ginpei Kobayashi
リクルートにおける画像解析事例紹介
リクルートにおける画像解析事例紹介
Recruit Technologies
DeNAにおける先端AI技術活用のチャレンジ
DeNAにおける先端AI技術活用のチャレンジ
Yusuke Uchida
ChatGPT 人間のフィードバックから強化学習した対話AI
ChatGPT 人間のフィードバックから強化学習した対話AI
Shota Imai
深層学習と音響信号処理
深層学習と音響信号処理
Yuma Koizumi
Recommandé
Tesseract ocr
Tesseract ocr
Takuya Minagawa
音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3
音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3
Naoya Takahashi
人間中心設計(HCD) とは
人間中心設計(HCD) とは
Hitomi Yamagishi
ChatGPTの仕組みの解説と実務でのLLMの適用の紹介_latest.pdf
ChatGPTの仕組みの解説と実務でのLLMの適用の紹介_latest.pdf
Ginpei Kobayashi
リクルートにおける画像解析事例紹介
リクルートにおける画像解析事例紹介
Recruit Technologies
DeNAにおける先端AI技術活用のチャレンジ
DeNAにおける先端AI技術活用のチャレンジ
Yusuke Uchida
ChatGPT 人間のフィードバックから強化学習した対話AI
ChatGPT 人間のフィードバックから強化学習した対話AI
Shota Imai
深層学習と音響信号処理
深層学習と音響信号処理
Yuma Koizumi
大規模データ時代に求められる自然言語処理
大規模データ時代に求められる自然言語処理
Preferred Networks
プログラミング初心者がOpenCVと機械学習でOCRエンジン自作に挑戦する話
プログラミング初心者がOpenCVと機械学習でOCRエンジン自作に挑戦する話
marika_hotani
「解説資料」ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
「解説資料」ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
Takumi Ohkuma
マルチモーダル深層学習の研究動向
マルチモーダル深層学習の研究動向
Koichiro Mori
[DL輪読会]BERT: Pre-training of Deep Bidirectional Transformers for Language Und...
[DL輪読会]BERT: Pre-training of Deep Bidirectional Transformers for Language Und...
Deep Learning JP
Towards Total Recall in Industrial Anomaly Detection
Towards Total Recall in Industrial Anomaly Detection
harmonylab
畳み込みLstm
畳み込みLstm
tak9029
TIS 戦略技術センター AI技術推進室紹介
TIS 戦略技術センター AI技術推進室紹介
Takahiro Kubo
時系列問題に対するCNNの有用性検証
時系列問題に対するCNNの有用性検証
Masaharu Kinoshita
RAPIDS 概要
RAPIDS 概要
NVIDIA Japan
動作認識の最前線:手法,タスク,データセット
動作認識の最前線:手法,タスク,データセット
Toru Tamaki
【DL輪読会】Scaling Laws for Neural Language Models
【DL輪読会】Scaling Laws for Neural Language Models
Deep Learning JP
記号創発ロボティクスの狙い
記号創発ロボティクスの狙い
Tadahiro Taniguchi
Ponanzaにおける強化学習とディープラーニングの応用
Ponanzaにおける強化学習とディープラーニングの応用
HEROZ-JAPAN
機械学習研究の現状とこれから
機械学習研究の現状とこれから
MLSE
【DL輪読会】Bridge-Prompt: Toward Ordinal Action Understanding in Instructional Vi...
【DL輪読会】Bridge-Prompt: Toward Ordinal Action Understanding in Instructional Vi...
Deep Learning JP
全力解説!Transformer
全力解説!Transformer
Arithmer Inc.
SfM Learner系単眼深度推定手法について
SfM Learner系単眼深度推定手法について
Ryutaro Yamauchi
機械学習システムのアーキテクチャアラカルト
機械学習システムのアーキテクチャアラカルト
BrainPad Inc.
A3C解説
A3C解説
harmonylab
Bear tail(dr.wallet)×sansan 合同lt会-勉強会esaki
Bear tail(dr.wallet)×sansan 合同lt会-勉強会esaki
Hisumi Esaki
データサイエンス概論第一 6 異常検出
データサイエンス概論第一 6 異常検出
Seiichi Uchida
Contenu connexe
Tendances
大規模データ時代に求められる自然言語処理
大規模データ時代に求められる自然言語処理
Preferred Networks
プログラミング初心者がOpenCVと機械学習でOCRエンジン自作に挑戦する話
プログラミング初心者がOpenCVと機械学習でOCRエンジン自作に挑戦する話
marika_hotani
「解説資料」ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
「解説資料」ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
Takumi Ohkuma
マルチモーダル深層学習の研究動向
マルチモーダル深層学習の研究動向
Koichiro Mori
[DL輪読会]BERT: Pre-training of Deep Bidirectional Transformers for Language Und...
[DL輪読会]BERT: Pre-training of Deep Bidirectional Transformers for Language Und...
Deep Learning JP
Towards Total Recall in Industrial Anomaly Detection
Towards Total Recall in Industrial Anomaly Detection
harmonylab
畳み込みLstm
畳み込みLstm
tak9029
TIS 戦略技術センター AI技術推進室紹介
TIS 戦略技術センター AI技術推進室紹介
Takahiro Kubo
時系列問題に対するCNNの有用性検証
時系列問題に対するCNNの有用性検証
Masaharu Kinoshita
RAPIDS 概要
RAPIDS 概要
NVIDIA Japan
動作認識の最前線:手法,タスク,データセット
動作認識の最前線:手法,タスク,データセット
Toru Tamaki
【DL輪読会】Scaling Laws for Neural Language Models
【DL輪読会】Scaling Laws for Neural Language Models
Deep Learning JP
記号創発ロボティクスの狙い
記号創発ロボティクスの狙い
Tadahiro Taniguchi
Ponanzaにおける強化学習とディープラーニングの応用
Ponanzaにおける強化学習とディープラーニングの応用
HEROZ-JAPAN
機械学習研究の現状とこれから
機械学習研究の現状とこれから
MLSE
【DL輪読会】Bridge-Prompt: Toward Ordinal Action Understanding in Instructional Vi...
【DL輪読会】Bridge-Prompt: Toward Ordinal Action Understanding in Instructional Vi...
Deep Learning JP
全力解説!Transformer
全力解説!Transformer
Arithmer Inc.
SfM Learner系単眼深度推定手法について
SfM Learner系単眼深度推定手法について
Ryutaro Yamauchi
機械学習システムのアーキテクチャアラカルト
機械学習システムのアーキテクチャアラカルト
BrainPad Inc.
A3C解説
A3C解説
harmonylab
Tendances
(20)
大規模データ時代に求められる自然言語処理
大規模データ時代に求められる自然言語処理
プログラミング初心者がOpenCVと機械学習でOCRエンジン自作に挑戦する話
プログラミング初心者がOpenCVと機械学習でOCRエンジン自作に挑戦する話
「解説資料」ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
「解説資料」ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
マルチモーダル深層学習の研究動向
マルチモーダル深層学習の研究動向
[DL輪読会]BERT: Pre-training of Deep Bidirectional Transformers for Language Und...
[DL輪読会]BERT: Pre-training of Deep Bidirectional Transformers for Language Und...
Towards Total Recall in Industrial Anomaly Detection
Towards Total Recall in Industrial Anomaly Detection
畳み込みLstm
畳み込みLstm
TIS 戦略技術センター AI技術推進室紹介
TIS 戦略技術センター AI技術推進室紹介
時系列問題に対するCNNの有用性検証
時系列問題に対するCNNの有用性検証
RAPIDS 概要
RAPIDS 概要
動作認識の最前線:手法,タスク,データセット
動作認識の最前線:手法,タスク,データセット
【DL輪読会】Scaling Laws for Neural Language Models
【DL輪読会】Scaling Laws for Neural Language Models
記号創発ロボティクスの狙い
記号創発ロボティクスの狙い
Ponanzaにおける強化学習とディープラーニングの応用
Ponanzaにおける強化学習とディープラーニングの応用
機械学習研究の現状とこれから
機械学習研究の現状とこれから
【DL輪読会】Bridge-Prompt: Toward Ordinal Action Understanding in Instructional Vi...
【DL輪読会】Bridge-Prompt: Toward Ordinal Action Understanding in Instructional Vi...
全力解説!Transformer
全力解説!Transformer
SfM Learner系単眼深度推定手法について
SfM Learner系単眼深度推定手法について
機械学習システムのアーキテクチャアラカルト
機械学習システムのアーキテクチャアラカルト
A3C解説
A3C解説
En vedette
Bear tail(dr.wallet)×sansan 合同lt会-勉強会esaki
Bear tail(dr.wallet)×sansan 合同lt会-勉強会esaki
Hisumi Esaki
データサイエンス概論第一 6 異常検出
データサイエンス概論第一 6 異常検出
Seiichi Uchida
Introduction to Research Data Management - 2015-05-27 - Social Sciences Divis...
Introduction to Research Data Management - 2015-05-27 - Social Sciences Divis...
Research Support Team, IT Services, University of Oxford
TensorFlow White Paperを読む
TensorFlow White Paperを読む
Yuta Kashino
Introduction to Chainer: A Flexible Framework for Deep Learning
Introduction to Chainer: A Flexible Framework for Deep Learning
Seiya Tokui
文字認識はCNNで終わるのか?
文字認識はCNNで終わるのか?
Seiichi Uchida
深層学習の非常に簡単な説明
深層学習の非常に簡単な説明
Seiichi Uchida
Introduction to Chainer
Introduction to Chainer
Shunta Saito
SSD: Single Shot MultiBox Detector (ECCV2016)
SSD: Single Shot MultiBox Detector (ECCV2016)
Takanori Ogata
En vedette
(9)
Bear tail(dr.wallet)×sansan 合同lt会-勉強会esaki
Bear tail(dr.wallet)×sansan 合同lt会-勉強会esaki
データサイエンス概論第一 6 異常検出
データサイエンス概論第一 6 異常検出
Introduction to Research Data Management - 2015-05-27 - Social Sciences Divis...
Introduction to Research Data Management - 2015-05-27 - Social Sciences Divis...
TensorFlow White Paperを読む
TensorFlow White Paperを読む
Introduction to Chainer: A Flexible Framework for Deep Learning
Introduction to Chainer: A Flexible Framework for Deep Learning
文字認識はCNNで終わるのか?
文字認識はCNNで終わるのか?
深層学習の非常に簡単な説明
深層学習の非常に簡単な説明
Introduction to Chainer
Introduction to Chainer
SSD: Single Shot MultiBox Detector (ECCV2016)
SSD: Single Shot MultiBox Detector (ECCV2016)
OCRは古い技術
1.
Copyright © Sansan,
Inc. All rights reserved. OCRは古い技術 Sansan株式会社 オペレーション部R&Dグループ 小林幸司 2015.9.30 BearTail(Dr.Wallet)×Sansan -合同LT会-
2.
Copyright © Sansan,
Inc. All rights reserved. 内容 - OCRはふるい技術でできている - OCRの課題は文字認識ではない - あぶり出そう
3.
Copyright © Sansan,
Inc. All rights reserved. 文字認識はあんまりがんばってもしょうがない
4.
Copyright © Sansan,
Inc. All rights reserved. OCRの特徴量、識別器
5.
Copyright © Sansan,
Inc. All rights reserved. Deep Convolutional Network for Handwritten Chinese Character Recognition (2015) Yuhao Zhang Computer Science Department Stanford University
6.
Copyright © Sansan,
Inc. All rights reserved. 混合識別関数による類似文字認識の高精度化 (2000) 中嶋孝,若林哲史,木村文隆,三宅康二 三重大学 3036クラス(ETL9B)に対する認識率 混合改良投影距離 98.90% 混合擬似ベイズ識別関数 98.89% など 2000年以前にも99%越えの研究例は存在する
7.
Copyright © Sansan,
Inc. All rights reserved. 2000年 から 2015年 何があったか ● SIFT特徴量 (D. G. Lowe 1999) ● Haar-like特徴量 (Viola, Jones 2001) ● Adaboost による顔検出(同上) ● HOG特徴量 (Navneet Dalal and Bill Triggs 2005) ● Deep Learning (2010~) OCRで使用される技術 ● 局所方向ヒストグラム特徴など(ふるい) ○ ほぼHOG ● ベイズ識別、部分空間法(ふるい) ○ 古典的なパターン識別 ○ 多クラス問題は回帰が好まれる
8.
Copyright © Sansan,
Inc. All rights reserved. http://www.technologyreview.com/view/523326/how- google-cracked-house-number-identification-in-street- view/ DLは使いどころが難しい。 情景からの検出など、小クラス問題には強い。
9.
Copyright © Sansan,
Inc. All rights reserved. ● DL で多クラス問題を解く難しさ ○ 学習サンプル数の問題など ● 文字に特化した局所特徴量は既にある ○ 主にエッジに着目 ● 新しい特徴量、識別器を開発する動機が希薄 ○ 課題は別にある
10.
Copyright © Sansan,
Inc. All rights reserved. 文字認識じゃなくて何をがんばるのか
11.
Copyright © Sansan,
Inc. All rights reserved. Deep Convolutional Network for Handwritten Chinese Character Recognition (2015) Yuhao Zhang 95%とか99%って何の数字? →切り出した文字画像を学習して、評価した数字
12.
Copyright © Sansan,
Inc. All rights reserved. c% (99%over) b% a% a×b×c = ? 不確定要素はまだある(二値化、ノイズ、文字色 etc) 文字認識性能が良くても前段の処理でミスをす れば取り戻すことができない!
13.
Copyright © Sansan,
Inc. All rights reserved. 文字認識の性能向上ばかりやっていられない。 OCRの課題は機械学習以外のところに多い。 注:内訳などは適当です!
14.
Copyright © Sansan,
Inc. All rights reserved. http://www.mvision.co.jp/WebHelpIM/_RESOURCE/Ocr_01_fig.html https://ja.wikipedia.org/wiki/アラビア文字 文字切り出しが成功しないと99%などという数字は到達不 可能
15.
Copyright © Sansan,
Inc. All rights reserved. Handwritten Japanese Address Recognition Technique Based on Improved Phased Search of Candidate Rectangle Lattice H.NAKAYAMA, M.SUZUKI, N.KATO, and Y.NEMOTO 文字切り出しは複数の候補からベストなものを選びたい。 グラフ理論が活躍できるのはここ。
16.
Copyright © Sansan,
Inc. All rights reserved. 基準は? ● 認識類似度 ● 文字幅、高さ ● 言語処理 ○ 単語のマッチ ○ Nグラム ● など
17.
Copyright © Sansan,
Inc. All rights reserved. 最適経路法はこれらを一緒にすることで、 間違いのボトルネックをなくすことを目的 とする
18.
Copyright © Sansan,
Inc. All rights reserved. 時代はあぶり出し
19.
Copyright © Sansan,
Inc. All rights reserved. ● スコアで比較したいので、識別機は類似度を返すものがよ い。 ○ 古典的な空間法など ● 状況に応じてエッジスコアの定義を見直す必要がある。 ● 認識回数が増えるので、計算時間にデメリットがある。 類似度がいい箇所は先に確定してしまうなどの工夫が必要。 ● 文字候補数など過剰気味にあったほうがよい。 正解候補がない状態はまずい。
20.
Copyright © Sansan,
Inc. All rights reserved. いろんなあぶり出し
21.
Copyright © Sansan,
Inc. All rights reserved. 辞書と付き合わせながらのあぶり出し例 Lexicon-Driven Handwritten Character String Recognition for Japanese Address Reading. Cheng-Lin Li,Masashi Koga,Hiromichi Fujisawa
22.
Copyright © Sansan,
Inc. All rights reserved. lexicon 言語情報(バイグラムなど) 認識結果 Fast Lexicon-Based Scene Text Recognition with Sparse Belief Propagation Jerod J. Weinman, Erik Learned-Miller, and Allen Hanson 文字切り出しだけではないあぶり出し こちらは文字候補のあぶり出し例 xの認識候補 画像 認識文字 候補 単語候補
23.
Copyright © Sansan,
Inc. All rights reserved. Scene Text Extraction with Edge Constraint and Text Collinearity SeongHun Lee , Min Su Cho , Kyomin Jung , and Jin Hyung Kim 文字列抽出のあぶり出し例
24.
Copyright © Sansan,
Inc. All rights reserved. まとめ ● OCR内で使われている技術は古い ○ 特徴量 ○ 識別機 ○ グラフ理論 ● 文字認識そのものは現実の要求にこたえら れるものが既にある ● 現実の開発で求められるものは文字認識そ のものでないことが多い ● 時代はあぶり出し ○ 慣れてくると文字列はグラフに見えて くる ○ 「あぶり出し」は専門用語でも何でも 無いので注意が必要
25.
Copyright © Sansan,
Inc. All rights reserved.
Télécharger maintenant