オープンソースで作るスマホ文字認識アプリ

有限会社来栖川電算山口陽平
オープンソースカンファレンス名古屋２０１２

あじぇんだ

 自己紹介
 はじめに
 紹介するＯＳＳ
 設計
 実装
 ？？？
 まとめ
 参考文献

自己紹介

山口陽平
有限会社来栖川電算

山口陽平

 プログラミング言語・型理論の研究者
 世界を美しく記述することを夢見る３３歳
 名古屋工業大学大学院出身
 未踏ソフトウェア経験
 人を驚かせるのが好き
 Nativeコードより速いJavaコード
 1日でHaskellを作る
 ハードリアルタイムJavaVM
 1000台越え構成のペタバイト級分散DB
 PC上で秒間1000万クエリ処理できるKVS
※あくまでもイメージです。
実物に髪の毛はありません。

有限会社来栖川電算

 概要
 名古屋工業大学発ベンチャー（2003年）
 目的
 ソフトウェアの品質・生産性向上
 スタッフ
 役員３人・正社員７人・アルバイト９人
 データ作成４人・家政婦２人
 IPA未踏ソフトウェア経験者多数
 社風
 職人・挑戦・自由
イオン千種・名大病院・名工大の間
 昼食・夕食・飲み会は無料

はじめに

何を作るの？
準備するもの
取り組む姿勢

何を作るの？

 スマホで撮影した写真から単語を抽出するアプリ

準備するもの

 スマホ  開発環境
 Android 2.3  サーバと同じソフト
 サーバ  android-sdk_r18
 Scientific Linux 6.2  Eclipse Indigo JavaEE IDE
 Java SE 7 for Web Developers.
 CDT
 Apache Tomcat 7.0
 ADT
 OpenCV-2.2.0
 O2-tools-2.00 ここを紹介するよ！
 nhocr-0.20

取り組む姿勢

 考慮すること
 動くこと
 分かりやすさ
 考慮しないこと
 認識精度
 安全性
 信頼性
 可用性
 拡張性

紹介するＯＳＳ

OpenCV
NHocr & O2-tools

OpenCV

 元はインテル製の画像処理ライブラリ
 APIが単純で割と使いやすい
 様々な画像（※GIF除く）の読み書きに便利

 様々な分野のアルゴリズムを網羅
 画像処理・特徴抽出とディスクリプタ抽出
 クラスタリング・多次元空間探索・オブジェクト検出
 ビデオ解析・カメラキャリブレーション・姿勢推定
 ステレオ・機械学習

 サイト
 【公式】http://opencv.willowgarage.com/
 【日本コミュニティ】http://opencv.jp/

NHocr & O2-tools

 日本語OCR・画像処理ライブラリ
 一文字認識の認識精度はわりとよい
 一応、行認識もできる

 コマンドラインツールがある
 画像ファイルの文字認識・フォントからの辞書作成

あ
 本格的に使うにはわりと改良がいる
 コード量が少ないので難しくはない

 サイト
 【後藤研究室】http://www.imglab.org/
 注意
 一部をコメントアウトしないとビルドできない場合が

設計

概要（もう一度）
スマホアプリ
文字認識サービス
文字認識コマンド

概要

 スマホで撮影した写真から単語を抽出するアプリ

スマホアプリ

 マッシュアップでシンプルに！
 主な作り込みは単語抽出（言語処理）だけ

文字認識サービス

 中継するだけ！
 主な作り込みは文字認識コマンドの中

文字認識コマンド

 OepnCV・NHocrのAPIはシンプルで使いやすい！
 難しいのは文字領域抽出だけ

実装

画像読込
二値化
文字領域抽出
文字認識
XML出力
言語処理

画像読込

 OpenCVなら画像の読み書きが簡単！
 BMP DIB JPEG JPG JPE PNG PBM PGM PPM SR RAS TIFF TIF

#include <opencv/cv.h>
#include <opencv/highgui.h>
int main() {
IplImage* tImage = cvLoadImage("input/club_adriana.jpg", CV_LOAD_IMAGE_COLOR);
cvNot(tImage, tImage);
cvSaveImage("output/not_club_adriana.png", tImage);
cvReleaseImage(&tImage);
return 0;
}

二値化

 OpenCVには基本的な二値化アルゴリズムがある！
 cvThreshold：与えた閾値で二値化する。（大津の方法も）
 cvAdaptiveThreshold：近傍の平均から閾値を決める。
#include <opencv/cv.h>
#include <opencv/highgui.h>
int main() {
IplImage* tImage = cvLoadImage(
"input/club_adriana.jpg", CV_LOAD_IMAGE_GRAYSCALE); ライトが
IplImage* tBinarizedImage = cvCreateImage( 当たって
cvGetSize(tImage), tImage->depth, tImage->nChannels); いるとな
cvAdaptiveThreshold(tImage, tBinarizedImage, 256,
CV_ADAPTIVE_THRESH_MEAN_C, CV_THRESH_BINARY, 19); かなかう
cvSaveImage("output/binarized_club_adriana.png", まくいか
tBinarizedImage); ない
cvReleaseImage(&tBinarizedImage);
return 0;
}

文字領域抽出

 ヒストグラムで文字がある場所を見つけるぞ！
 ぐるぐるループしながら四則演算するだけ
 行の上下に余分なものが写っているとうまくいかない

文字認識
 #include <opencv/cv.h>

 NHocrなら文字認識が簡単！ #include <opencv/highgui.h>
#include <siplib.h>

 ①辞書の選択・初期化など #include <nhocr.h>
int main() {
NHrec tNHrec;
 ascii+（英数字） tNHrec.setlibdir(
 jpn（日本語） (char*) "/usr/local/moji/nhocr-0.20/share/");
tNHrec.setdiccodes((char*) "ascii+");
 ユーザ辞書 tNHrec.open();
IplImage* tImage = cvLoadImage("input/Ao.png",
 ②画像形式の変換 CV_LOAD_IMAGE_GRAYSCALE);
SIPImage* tSIPImage = createSIPImage(tImage);
 OpenCV ⇒ NHocr int tCount = 10;
RecResultItem tCondidates[tCount];
 ③文字認識 tNHrec.rec_character(tSIPImage, 0, 0,
tImage->width, tImage->height, tCondidates);
 入力 for (int tIndex = 0; tIndex < tCount; tIndex++)

 文字の場所
printf("%c:%f¥n", (char)tCondidates[tIndex].id,
tCondidates[tIndex].dist);
 出力 sip_DestroyImage(tSIPImage);
 {文字:距離, ..., 文字:距離} tNHrec.close();
return 0;
}

XML出力

 各文字領域は複数の候補を持つ
 各候補は文字と距離を持つ
<result>
<candidates>
<candidate><character>H</character><distance>1</distance></candidates>
<candidate><character>4</character><distance>2</distance></candidates>
</candidates>
<candidates>
<candidate><character>O</character><distance>1</distance></candidates>
<candidate><character>0</character><distance>2</distance></candidates>
</candidates>
<candidates>
<candidate><character>M</character><distance>1</distance></candidates>
<candidate><character>m</character><distance>2</distance></candidates>
</candidates>
<candidates>
<candidate><character>U</character><distance>1</distance></candidates>
<candidate><character>u</character><distance>2</distance></candidates>
</candidates>
</result>

言語処理

 様々な言語処理
 距離の和が最も小さいパスを選ぶ。
 文字種を限定する。
 記号・数字・英字（大・小）・かな・カナ・漢字
 辞書に含まれている単語だけを選ぶ。
 文法にあうパスを選ぶ。
 正規表現・文脈自由・自然言語

簡単に使えるけど
それ以外が難しい

AdaptiveThresholdもあんまり使えない
ヒストグラム使った文字領域抽出が話にならない
１位だけを採用する言語処理でも話にならない

まだまだ利用申請できるよ！どんどんしてね！

recognize.jp

 WebAPIで画像をPOSTするだけ
 難しいことは全部サーバでやってくれる！

タンゴチュウが
（前より）賢くなった！

４月のrecognize.jpのアップデートで目に見えて良くなったぞ！

１年前とくらべて・・・４倍の賢さだ！

情
文景
画
 字像
か
認ら
識の

サ
ー
http://tangochu.jp
ビ
説明前に宣伝させて！
ス

タンゴチュウとは

 写真（情景画像）から単語を抽出
 例えばメニューチラシお菓子のパッケージ
レシート名刺看板 …

情景画像の文字認識とは



情景画像の文字認識とは


 従来のOCRとは戦場が違う
 悪環境下での文字認識
 手書き・様々な書体・かすれ・点描・きつい
パース・統一性のない並び・逆光・陰・影・グ
ラデーション・モアレなど

目指すはこんなかっこいい世界！

タンゴチュウ
for Twitter


 手軽に文字認識を体験できる！

@tcfox

タンゴチュウ
for Twitter


 手軽に文字認識を体験できる！

タンゴチュウ
for Evernote


 写真の検索・整理に役立つ！

0.0
1.0
2.0
3.0
4.0
5.0
6.0
7.0
2011年06月

2011年07月

2011年08月

2011年09月

2011年10月
 4倍の賢さ・6倍の速さ
 着実に進化している！

2011年11月

2011年12月


2012年01月
 情景画像文字認識ではトップクラス

2012年02月
性能推移

2012年03月

2012年04月

カスタマイズＯＫ

 棚卸し・検査・電子辞書などに
 用途を限定すると非常に高精度
 既に稼働していて、驚くほど高性能
 出版系・測量系からも引き合いがきているぞ！

Android端末
への組み込み
もやってるよ

とにかくアクセス！



萌えキャラたちも待ってるぞ！

 http://tangochu.jp

まとめ

オープンソースを活用すれば
とりあえず動くものは作れる
性能がでるかは腕次第
recognize.jpを使えば割とよい

今回のスマホアプリのソースコードは
ダウンロードできるようにしておくよ！

参考文献

リンクとか

参考文献①

 Scientific Linux
 http://www.scientificlinux.org/
 Jave SE
 http://www.oracle.com/technetwork/java/
 Apache Tomcat
 http://tomcat.apache.org/
 Android SDK & ADT (Eclipse Plugin)
 http://developer.android.com/index.html
 Eclipse & CDT
 http://www.eclipse.org/

参考文献②

 OpenCV
 http://opencv.willowgarage.com/
 【日本コミュニティ】http://opencv.jp/
 O2-tool
 http://www.imglab.org/p/O2/
 NHocr
 http://code.google.com/p/nhocr/

参考文献③

 recognize.jp（情景画像文字認識ＡＰＩ）
 http://recognize.jp/
 撮って文字入力（文字認識ＩＭＥ）
 http://www.nttdocomo.co.jp/smt/service/trial/trial_app/to
tte_moji/index.html
 タンゴチュウ（情景画像文字認識サービス）
 http://tangochu.jp/
 来栖川電算
 http://kurusugawa.jp/

ご清聴ありがとうございました



どんどん賢くするので応援してね

オープンソースで作るスマホ文字認識アプリ

Recommandé

Recommandé

Contenu connexe

Tendances

Tendances (20)

Similaire à オープンソースで作るスマホ文字認識アプリ

Similaire à オープンソースで作るスマホ文字認識アプリ (20)

Plus de 陽平山口

Plus de 陽平山口 (20)

Dernier

Dernier (7)