vs Google Vision API

PyData.Okinawa #29 LT
2017/09/23(土)
15:00:00 晴
アイパー隊長

自己紹介
沖縄県うるま市の平安座島に住んでいます
ちゅらデータ株式会社（メイン言語Python）
会社できました！
オフィスも契約（冷房無い(´；ω；｀)ｳｯ…
数学勉強中

vs Google Vision API
Google Vision APIとは？
使い方
精度向上との戦い（どんなして精度あげるの？

Google Vision APIとは？
Google Cloud Platformで用意されているAPIのひ
とつ
機能が色々ある（ラベル検出、ロゴ検出、顔検
出、OCR...etc）
でもお高いんでしょう...？
1 ~ 1000 ユニット/月-> 無料！！
1,001～500万ユニット/月-> (リクエスト数/
1,000) × $3.50
今回触ったのはtext detection (OCR)

使い方.1
api_url = 'Vision API URL'
access_key = 'Access key'
img = open('画像ファイルパス', 'rb').read()
content = base64.b64encode(img).decode('utf8')
url = '%s?key=%s' % , (api_url, access_key))
res = json.dumps({
'requests': [{
'image': {
'content': content
},
'features': [{
'type': 'TEXT_DETECTION',
'maxResults': 2
}]
}]
})
res = requests.post(url, res)
return res.json()

使い方.2
リクエストする画像はbase64に変換するか、
Google Cloud Storageへアップしてそのurlを渡す
features を複数指定することも可能
OCRと同時に顔検出することもできる
maxResults というパラメータは謎
検出数が多くなるらしいが変更してもそんなか
わらん（気がする
画像のサイズとかは？ -> ベストプラクティス
返ってくるデータは検出位置とテキスト
[左上(x, y), 右上(x, y), 右下(x, y), 左下(x, y)]

精度向上との戦い.1
はじめのころ-> これはすごい！！
実際開発に組み込むと-> 文字を認識してくれない
ケースがでてきた...
どうすべ？(´・ω・｀)
色々試してみた

グレースケール
精度上がらない(´・ω・｀)

二値化
ちょっとだけあがった！

幾何学変換+ グレースケール
さがった(´・ω・｀)

幾何学変換+ 二値化
あがった！(｀・ω・´)

幾何学変換+ 二値化-> 平滑化
(´・ω・｀)？

超必殺技必要なとこだけ投げる
(‫^ﻭ‬o^)‫ﻭ‬ ｲｹﾙｲｹﾙ!!

まとめ
Google Vision APIでOCRするときは
検出文字は黒、他は白（二値化）
paddingを除去する（幾何学変換）
必要な箇所以外は削除する（スライス）
この３つで結構精度あがるはず！！参考まで
今日使ったコード->
https://github.com/Aipakazuma/play-gcp-vision-
api

終わり
(宣伝: ちゅらデータはエンジニアを"絶賛"募集しています!!)

vs Google Vision API

Recommandé

Recommandé

Contenu connexe

Tendances

Tendances (7)

Similaire à vs Google Vision API

Similaire à vs Google Vision API (20)

Dernier

Dernier (10)

vs Google Vision API