クラウドの進化とメディア理解の発展

All night stars & Galaxy pictures are courtesy of Nori Yuasa except my own
クラウドの進化とメディア理解の発展
栄藤稔（えとうみのる）
⼤阪⼤学先導的学際研究機構教授
株式会社みらい翻訳社⻑
6/14/2018 本書に記載の会社名・製品名・ロゴは各社の商標または登録商標です1

１．みらい翻訳が経験した深層学習による⾃然⾔語処理技
術の激変ぶりと機械翻訳技術開発の苦労話．
２．クラウド事業者によりAIがコモディティー化されよう
としている中で企業が取るべき戦略．
3.モジュールからインテグレーションへのシフト．
本⽇，話したいこと
2

今，こんな感じ．
LSTM Transformer
Tensor Flow PyTorch
MXNet
MiraiTranslate
3

COPYRIGHT MiraiTranslate, Inc. 2018
4
モバイル×サービス基盤
翻訳サービス × 翻訳データ企業向け翻訳システム×
多⾔語翻訳
⾃然⾔語処理技術，企業向けソリューション多⾔語翻訳技術 × 翻訳データ
技術⽀援
翻訳システムソリューション
機械翻訳を事業とする合弁会社(2014-) in 2018

5
２５００億円
機械翻訳１２億円
⽇本における翻訳・通訳市場規模（２０１４）
2017年の訪⽇外国⼈、過去最⾼の2869万⼈

Language is a means of communication. ⾔語はコミュニケーションの道具である．
意味
抽象化された⾔葉
⾔葉
表象的な⾔葉区切りの対応関係
抽象化された⽂章の対応
状況による⽂意
（前後の⽂脈，
置かれて居る状況
五感）
単語分割単語列⽣成
抽象化具象化
概念理解意味⽣成
概念
翻訳ピラミッド（栄藤バージョン）
Vauquois Triangleを今⾵に栄藤が解釈
6

7
【700〜795】
•会議の案内等の社内⽂書・通達を、読
んで理解できる。
•⾃分の仕事に関連した⽇常業務のやり
かたについての説明を理解できる
【600〜695】
•⾃分宛てに書かれた簡単な仕事上のメ
モを読んで理解できる。
•ゆっくりと配慮して話してもらえば、
⽬的地までの順路を理解できる
2014年 2016年 2019年
現在の性能（600点）
700点
800点
TOEIC 目指すスコアと到達年度
年度
社会⼈平均：602点
⽬標スコア
？？？？
新会社が実現する翻訳精度レベル（Oct. ２０１４）

意味
⾔葉
五感）
抽象化具象化
概念
⽂章を語句に区切って，
最適化した並び替えをする．
第２世代統計機械翻訳の理解
8

9
私は彼⼥その映画にを⾒た
私はを⾒た彼⼥にその映画
I saw her in the screen
私はを⾒た?
私がを理解した?
を⾒た彼⼥？
⾒た彼⼥の？
でそのスクリーン?
にその映画?
翻訳モデル：
フレーズ単位の置換
並び替えモデル：
⾃然な⽂に近づくよう並
び替え
SMT：フレーズ単位で翻訳の並び替え

10
+255
みらい
2015年
400点
※
※TOEIC問題集より300文抽出
2014-2015のTOEICスコア

Encoder
I am the alpha
Decoder
<s> 私はアルファ
私はアルファであり
Attention
11
Attention付きRNNベースモデル(2014)

Greg Corrado, senior scientist at Google Research
August 20, 2015
LSTM,
hard to progress…
The Factory Five Mk4 Roadster 12

13
3.5 → 4.5

意味
⾔葉
五感）
抽象化具象化
概念
Vauquois Triangleを今⾵に栄藤が解釈
第３世代ニューラル機械翻訳の理解
⽂章をそのまま抽象化したベクトル表現
に置き換え，そこから単語列を⽣成する．
14

15
Plenary meeting on 4/13/2017
Mick Etoh

Time
Gain
Loss
Shallow Dive
Deep Dive
Failure 9/10
Success 1/10
Stop STM Development,
Focus on LSTM.
16

17
⽇→英
1.00
2.00
3.00
4.00
5.00
SMT NMT 人手翻訳1 人手翻訳2
4.16
4.31334.3
3.207
3.73333.843.743
3.14
伝達レベル流暢さ
英→⽇
1.00
2.00
3.00
4.00
5.00
SMT NMT 人手翻訳1 人手翻訳2
4.14
4.2933
3.81
3.247
4.02334.01
3.413
2.973
伝達レベル流暢さ
・⼈⼿翻訳は⽇→英、英→⽇共にTOEIC900点以上の⽇本⼈が実施
・SMT に⽐べて NMT は伝達レベル、流暢さ共に⼤きく精度向上
・特に、⽇本⼈があまり得意ではない英訳については、TOEIC900点相当
と同等レベル
（⼈⼿でも５点満点を取れているわけではない）
• 分野：ビジネスコミュニケーション
• 評価者：３名（外部翻訳会社）
• 評価⽂：１００⽂
• 評価基準：伝達レベル（Adequacy）、流暢さ
（Fluency）各５段階
SMT と NMT の精度⽐較
性能に関する諸データは公開できません．

http://lotus.kuee.kyoto-u.ac.jp/~nakazawa/ NLP2017-NMT-Tutorial.pdf
Word Embedding
22
(local representation)
(distributed representation)
(0, …, 0, 0, 1, 0, 0, 0, …, 0)
(0.05, …, -0.32, 1.83, …, 0.49)
word2vec
GloVe
king - man + woman queen
Paris - France + Italy Rome
NMT embedding 1
18

19
Google すごい!
NMTの特徴

http://www.pre-eikaiwa.com/welcome-there-is-an-english-menu/
20

21
この店には英語の
メニューがあります．
This store has an English menu．
http://menman.exblog.jp/20574017/

22
⻄郷さんが北薩摩の東郷村に来た時、住⺠が
くれた⽝が“ツン”という⽝である．
みなさん，訳せますか？

23

24
TOEIC900点以上の英作⽂能⼒

25
• WMT: 世界トップの機械翻訳精度を競うコンペティション
– 毎年開催されており、5⽉22⽇が今年のシステム提出締め切りだった
– 世界中の機械翻訳研究者が注⽬しており、 
ここで良いスコアを出した⼿法は世界的に使われる傾向がある
• トップスコアを達成した機械翻訳システム
– 2015年: フレーズベースSMT
– 2016年: Attentional NMT
– 2017年: Attentional NMT
– 2018年: Transformer (トップスコアのシステムは14⾔語対全てでTransformer)
• 世界の主流は完全にTransformerに移った
機械翻訳シェアードタスクWMTでの傾向

Encoder
I am the alpha
Decoder
<s> 私はアルファ
私はアルファであり
Attention
Self-attention
Masked  
Self-attention
26
Transformerモデルの概要

27
• RNNと違い、全トークンとの依存関係を直接参照し
ている
– globalな依存関係を考慮した埋め込みベクトルが学習できる (e.g. 代名詞の解決など）
– RNNはあくまで⼀期先のマルコフ依存関係しかないし、⻑期記憶も限界がある
• レイヤ内での依存関係がないので、並列計算が容易
– 巨⼤な⾏列積の形で⼀括計算可能, GPUに有利
– GNMTのようなレイヤごとのGPU割当などのハックがいらない
• シーケンスに対する計算複雑度が下がる
Why Self-Attention

Time
Performance
臨界点を超えると⾒る世界が異なる
⾳声認識
2012 2014 2016
DNN
単⼀画像認識
多層CNN
⼀⽂機械翻訳
LSTM
Google Neural Machine Translation
Comercial Debut
？？？
Transformer
28

V.S.
29
• メガプラットフォーマーとは競争しない．
• 特定の事業領域を垂直に深耕する．
• 業界，コミュニティのデータ商流を形成する．
• AWS，Azure, GCP は⾼セキュリティの下で使ってます．
みらい翻訳の⽴ち位置

30
⼀般IT分野
1.00
1.68
2.35
3.03
3.70
特化モデル他社エンジン
特定企業分野
1.00
1.71
2.41
3.12
3.82
特化モデル他社エンジン
特殊解が汎⽤分野では性能が出ない例
• ４段階評価の平均値例：IT分野における特定企業特化モデル
分野モデル → 特化モデル
特殊解が特定分野では成功する例．

31
We Speak Your Industry’s Language.
SYSTRAN HQ in Seoul

32
一般企業様
翻訳会社様
公共機関様
B2B Data Federation

https://waitbutwhy.com/2015/01/artificial-intelligence-revolution-1.html
Present Future
Trajectory based on
the past growth rate
Trajectory based on
the present growth rate
Trajectory taking exponential growth in to account
Time
Performance
研究＝事業
33

2018
AIは
モジュールから統合システムの⼀部へ
34

•Deep Learning を中⼼とした機械学習の進歩．
•⾮ICT 産業のICT化による”データ”の表出．
•ハードウェアとクラウドによる実装技術の進化．
35
何がここ数年のAIの産業応⽤を実現したのか？

36
Japan & MassMedia System of Systems
AI Perception

IoTとか⼈⼯知能とか
機械学習
ビッグデータ
ビジネス設計
センサー・ネットワーク技術
クラウド＆データベース技術
システムエンジニアリング
企業⽂化・組織改⾰
ICT⼈材育成・スタートアップ
デジタル変⾰
AI は技術モジュールからインテグレーションの時代に突⼊した．
37

38
ほとんどがクラウド
で揃う
分析保存
Amazon
Glacier
Amazon
S3
Amazon DynamoDB
Amazon RDS/ Aurora
AWS Glue
Amazon CloudSearch
Amazon EMR Amazon EC2
Amazon Redshift Amazon Machine 
Learning
AWS IoT
AWS Direct Connect
収集
Amazon Kinesis
Amazon Kinesis
Firehose
Amazon Elasticsearch
Amazon
Kinesis Analytics
Amazon
QuickSight
AWS DMS
Snowball
可視化
Amazon EC2
Amazon
Athena
AWSマネージドサービス：ビッグデータ領域

⾮定型
定型
知識労働作業労働
第II象限: AIが強化
第Ⅰ象限
AI/ロボティクスが分担
第Ⅳ象限：AI/ロボティクスが代替
スポーツの審判
スーパーのレジ係
第Ⅲ象限：AIが代替
農産物の仕分け係
俳優
⻭医者
読影医
保険の審査担当者
不動産のブローカー
消防⼠
税務申告代理⼈
司法書⼠建設機器操作員
経営者
エコノミスト
介護⼠
精神科医
弁護⼠
⼯場の組み⽴て係
⼩売接客係
39
IoTのターゲット
RPA!

ドメイン技術通信を伴うデジタル化
IoT = ICT + OT (Operational Technology)
40

Bloomberg BETA(VC)によるトレンド分析資料・2016向けより抜粋
エージェント/アシスタント⾃動制御(ドローン、⾃動⾞、船、⼯場機器)
Security HR Marketing カスタマーセンター社内稼働管理市場分析
基盤機能提供(機械学習基盤、⾳声認識、画像認識・･･･)
広告農業⼩売
財務管理
法務
医療
ヘルスケア
教育流通投資分析 AIサービス提供者向け各種ツール提供
社会問題材料/製造
※Pitchbook調査に
AI関連といわれる企業数は
1100社以上※。
適⽤分野は対話/⾃動制御/
ｾｷｭﾘﾃｨ/･･･広告/医療/農業･
など多種多様。
⾮ICT分野のデジタル変⾰
が進⾏中
41
⽶国内AI関連事業の概況

• プラットフォーム⾰命（サイバーX 実空間の統合最適化）
• アマゾンの⼩売：ネットで注⽂（サイバー空間）ロボットで梱包，ドロー
ンで配送（実空間）．
• Uberの貨客混載物流：スマホで注⽂（サイバー空間），⾞で⽣鮮⾷品も
配送（実空間）
• 農⽔産物の商流が劇的に変化する前兆がある．
• 定型業務の置換：医療・農作業・投資信託の⾃動化が進展
42
AIで今，起きようとしていること

National Robotics Engineering Center, CMUの
⾃律⾃動化のケーススタディ (2014)
時給$15x10週間
＝$6000/⼈年
x500⼈＝＄３M
時給$50x52週間
＝$104,000/⼈年
x75⼈＝＄7.8M
時給$25x52週間
＝$52,000/⼈年
x5000⼈＝＄260M
時給$62x52週間
＝$124,800/⼈年
x500⼈＝＄62M
43

National Robotics Engineering Center, CMUの
⾃律⾃動化のケーススタディ (2014)
4〜５農場が共同で
２０００⼈規模の
⾃律⾃動化
２年でリターン
PoC前に中⽌事業者が
リスク取らず
企業秘密
44

Time
Fulfillment Progress
Blueprinting（概念設計）
Instrumentation（実装設計）
Pilot & ROI（仮説検証）
Scale（展開)
Machine Data Analysis（データ解析）
System of Systems（システム連結）
IoT Customer Journey
Time
壁
45

• IoTの費⽤対効果：儲からない．
✦GE PREDIXの成功例は？
• ICTリソースとOTリソースの乖離：まともな会社がない．
• プラットフォーム志向の⽋如：エコシステム設計者がいない．
✦結果と⼿段・コストの相克：鶏と卵問題だからPoC＆ROIが⼤事
✦セキュリティは発展途上
✦ベストプラクティスがまだ共有されていない．
46
IoT+AIに関する議論

アルゴリズムしか
知らない研究者
データベースしか
知らないエンジニア
47
こんなギャップを埋めるキーワードは”クラウド”
駆逐
傾向

Google AutoML Vision(alpha版)で 
ラーメン⼆郎分類器を作ってみた 2018年2⽉
by Tetsuo Sumiya, NTT DOCOMO
好きなもの：DevOps，⾃動化，CICD( continuous
integration and continuous delivery)
48

突然ですが、どこのラーメン⼆郎でしょう？
49

突然ですが、どこのラーメン⼆郎でしょう？
50
三⽥本店関内店
元ネタ：Large Scale Jirou Classification - ディープラーニングによるラーメン⼆郎全店舗識別
https://www.slideshare.net/knjcode/large-scale-jirou-classification

• Google のインフラを活⽤したクラウドサービス
• 主なサービスはコンピューティング、ストレージ、ビックデータ、機械学習等
✦ コンピューティング
✓Compute Engine, App Engine, Kubernetes Engine, Cloud Functions（β）
✦ ストレージ
✓Cloud Storage, Cloud SQL, Cloud Bigtable, Cloud Spanner, Cloud Datastore
✦ ビッグデータ
✓BigQuery, Cloud Dataflow, Cloud Dataproc, Cloud Datalab, Clopud Pub/Sub …etc
✦ 機械学習
✓Cloud Machine Learning Engine, Cloud Natural Language API, Cloud Translation API, Cloud Vision API …etc
Google Cloud Platformとは
51

• 専⾨知識が無くても学習済のモデルを活⽤できるAPIを提供していたが、 
独⾃のモデルを作りたい場合にはまだまだ専⾨知識が必要
GCPの機械学習系サービス
⾼いカスタマイズ性,
Googleの技術を利⽤可能専⾨知識が無くても簡易に利⽤可能
52
Cloud
Vision API
Cloud
Translation
API
Cloud Natural
Language
Cloud Speech-
to-Text
Cloud Video
Intelligence
Cloud Text-To-
Speech
Machine Learning APIs:
Google
Cloud ML Engine
ML Frameworks:

• 既存のサービスの間を埋めるのがCloud AutoMLサービス．第⼀弾はVision
だが、そのほかの分野にも拡張予定
GCPの機械学習系サービス
⾼いカスタマイズ性,
Googleの技術を利⽤可能専⾨知識が無くても簡易に利⽤可能
Cloud
Vision API
Cloud
Translation
API
Cloud Natural
Language
Cloud Speech-
to-Text
Cloud Video
Intelligence
Cloud Text-To-
Speech
Machine Learning APIs:
Google
Cloud ML Engine
ML Frameworks: AutoML:
AutoML Vision
53

• ⾃分が持っているデータセットをアップロードするだけで、 
カスタムモデルを作成し、デプロイまで簡単なUIで構築可能
• シンプルな転移学習により数分でデモまで作れる
• 早ければ⼀⽇以内にLearning to Learnを活⽤した、 
⾼精度なモデルの構築も可能
Cloud AutoML Vision
54

ある領域で学習させたモデルを、別の領域に適応させる技術．広くデータ
が取得できる領域で学習したモデルを、データの収集が困難な別の領域に
適応させることができる．
転移学習とは
モデルの構成とパラメータはそのまま使う
最後の層
だけ
再学習さ
せる
55
出典：mNeuron: A Matlab Plugin to Visualize Neurons from Deep Models 
http://vision03.csail.mit.edu/cnn_art/index.html

• 「メタラーニング」、「学習⽅法の学習」、モデルの構築には⾮常に⾼度な知識やノウハウが
必要とされるため、ニューラルネットワークのモデル構成を最適化するための⼿法．
• AutoML Visionでは、ニューラルネットワークアーキテクチャ検索技術を活⽤．  
https://research.google.com/pubs/pub45826.html
Learning to learnとは
56
出典：TensorFlow Dev Summit 2018 Keynote

• Python – beautifulsoup ライブラリを使ってスクレイピング
• URLを指定し、beautiful soupでlxmlパース
• パースした結果からfind_allメソッドを使い、フィルタ条件にimgタグ, classなどを指
定することで簡単に画像収集可能
• ⼆郎の三⽥本店、横浜関内店、⽬⿊店、品川店、中⼭店のページを対象に収集
• 収集した結果を⽬視でざっくりチェックし、ラーメン以外の画像を削除（なぜか⽔を
写したものや、スープを全部飲み⼲した写真などが結構ある）
ラーメン⼆郎分類器の作成 – 画像収集
書いたコードこれだけ 57

• Google Cloud Storageに格納し(もしくはブラウザでアップロード)、CSVで画像のパスとラベルをまとめる
• 画像に対し、⼀つ以上のラベルを付与可能．画像の中の位置などは指定できない
• 最低限ラベルは２つ、画像はラベルあたり１０枚あればモデルを作ることはできるが精度は低い．推奨は
ラベルあたり50枚から100枚
• 認識するラベル以外の画像も対象外として登録することが推奨される
ラーメン⼆郎分類器の作成 – ラベリング
58

ラーメン⼆郎分類器の作成 – ラベリング
ラベリングのための 
分かりやすいGUI
人力ラベリング 
サービス
統計情報
（ラベルあたりの画像数表示）
59

• 転移学習だけであれば無料．数⼗分で独⾃
モデルを構築
• メタ学習を利⽤したモデル構築は約⼀⽇か
かる
• アップされたデータセットをランダムに分
類．80%をトレーニング⽤、10%をハイ
パーパラーメタチューニング⽤、10%を
モデルの評価（トレーニングに使われない）
に利⽤
• 今回は無料枠で構築
トレーニング
60

• AUC(PRC)
• ５店舗全体
•Area Under the  
Precision(適合率)/Recall（再現率） 
Curve - 0.9559
• 各店舗AUC(PRC):
• 三⽥本店 - 0.9709
• 関内店 – 0.9701
• ⽬⿊店 – 0.9470
• 中⼭店 – 0.7983
• 品川店 – 0.9263
モデルの評価
61

• 画像のスコアリング結果表⽰
モデルの評価
62

• 中⼭店だけAUCが低い．データが少ないのに加えて完⾷や、ど
アップ、ラーメン以外の写真が多かった
モデルの評価
63

• トレーニング後は⾃動的にデプロイされる
• ブラウザで画像をアップして結果を表⽰できる
• カスタムモデルをCloudML上でデプロイされる
ので、CLIやSDKから叩ける
• VISION APIからも叩くことができる
デプロイ
64

• Google Cloud Platformの概要
• Google AutoML Vision（alpha版）の概要
• ラーメン⼆郎分類器の作成
• 画像収集(5店舗)
• ラベリング
• トレーニング
• 構築したモデルの評価
• デプロイ
• 機械学習の素⼈でも、画像収集からカスタムモデルのデプロイまで2〜3時間程
度で完了できた．ラーメン⼆郎三⽥本店にもの凄く⾏きたくなった
Lessons Learned
65

=
IT/AIの⺠主化
66
ソフトウェア化の⼒

静岡県の農家⼩池誠さんによるキュウリ仕分機（２０１６）
現在は実運⽤中，第４世代機を開発中
67

68
http://www.itmedia.co.jp/enterprise/articles/1804/12/news021.html
写真は，エルアンドエーの取締役副社⻑、⽥原⼤輔さん提供
福岡県クリーニング店取締役副社⻑、
⽥原⼤輔さん

AWS Kinesis Video と REKOGNITION
で実時間顔認識システムを作ってみた．
by Mick Etoh，Osaka University with DAIKIN & COGNIZANT
好きなもの：みらいのオフィス設計
69

71
AWS IoT アーキテクチャー
Endpoints
デバイスの導⼊、
管理、SWアップ
デート
デバイスの
監査と保護
IoTデータ分析と
インテリジェンス
Gateway
モノ 
センサー、実⾏
クラウド 
保存、計算
ローカルでの安全な
トリガー、アクション、
データの同期
知能 (Intelligence) 
洞察と論理 → 実⾏
安全な
デバイス接続と
メッセージング

時間符号化データを永続的に暗号化・保存・インデクス化
動画は時間符号化データの⼀例. オーディオ信号、RADAR 信号、
LIDAR 信号も取り扱い可能．
任意のChunkにアクセス可能
Producer-Consumerの数に
対してオートスケール
データ⽣成のためのSDK
REKOGNITIONと統合
Apache MxNet、
Tensorﬂow、OpenCV な
どの ML フレームワーク
を動画ストリームと統合
73

74
Auto Scaling Group
Producer SDK
Kinesis
Video Streams
動画像のキャッシュ
REKOGNITION
認識 Kinesis
Data Streams
認識結果のキャッシュ
Dynamo
DB
RedShift
Producer SDK
Producer SDK
Lambda
データ保存
Kinesis
Fire horse
認識結果の整形
Lambda
実時間フロー
蓄積・解析フロー
S3 Bucket

Time
Technology Development
Technology Adoption
(Integration)
Fulfilment Ratio
77
研究＝事業
このギャップは狭い

Time
Technology Development
Technology Adoption
(Integration)
Fulfilment Ratio
78
モジュール調達可能性，産業エコシステムの⾒極め
技術経営の本質
⼆つのカーブの⽴ち上がりの
タイミングを⾒極めること

Courtesy of DOCOMO Innovations
AI分野での動き
Ready to useIn-House Development
Edge
Cloud
「AIを構築するツール」
→ 「AIサービス」
「Cloud」
↓
「Edge」
AIを⾃社構築して
事業導⼊
AIの⺠主化を加速
制約条件の克服
（通信コスト・遅延
セキュリティ）
AI Everywhere
80

81
Letʼs see what will wait us.

クラウドの進化とメディア理解の発展

Recommandé

Recommandé

Contenu connexe

Tendances

Tendances (20)

Similaire à クラウドの進化とメディア理解の発展

Similaire à クラウドの進化とメディア理解の発展 (20)

Plus de Osaka University

Plus de Osaka University (16)

Dernier

Dernier (9)

クラウドの進化とメディア理解の発展