FPGA, AI, エッジコンピューティング

Copyright ©OpenStream,Inc. http://www.opst.co.jp CONFIDENTIAL
株式会社オープンストリーム
CTO 寺田英雄
2018/07/06
FPGA, AI, Edge Computing
1
SRP-IoT実践講座

講師略歴
• 1968 大阪市出身
• 1980 プログラミング初経験
• 1988 大阪大学　工学部
– 電子制御機械工学科：メカトロニクス屋です
– プロジェクトチームDoGA：CGAシステムの開発
• 1992-2007 ＩＨＩ（石川島播磨重工業） R&D部門
– （画像認識＋制御システム）×（FA, プラント, 物流など）
• 2007-2012 動画系ベンチャー
– ガラケー動画ストリーミング
– 自動車用・歩行者画像認識GPU
– スマホDRM動画アプリ、電子書籍基盤
• 2012- オープンストリーム
– Web開発、スマホ開発
– 2014よりCTO：次世代ビジネスの開拓
– データ解析、AI関連のR&D、産学連携等を推進
2
システムプログラミング
グラフィクス
画像処理
パターン認識
機械学習アルゴリズム
技術戦略
製品開発・R&D
ブログ
http://terada-h.hatenablog.com/
Facebook
https://www.facebook.com/hideo.terada.5

弊社の概要
株式会社オープンストリーム
代表取締役社長吉原　和彦
取締役　　　　佐藤　浩二
取締役　村田　哲也
取締役　出合　章彦
取締役　堀切　進
設立年月日 2000年1月
資本金 2億6,260万円
決算月 3月
従業員数 384名
主要株主株式会社豆蔵ホールディングス（東証一部上場）
・先端技術（IoTデバイス、クラウド、ビッグデータ）を
　活用したシステムインテグレーション
・自社パッケージソフトウェア製品（ Biz/Browser）
　の企画・開発・販売
・ＩＴ技術者教育支援サービス
ISMS/ISO27001 認証
2014年4月取得
会社名
役員
設立・資本金等
事業内容
所在地
本社
　東京都新宿区西新宿 2-7-1小田急第一生命ビル 9階
福岡開発センター
　福岡県福岡市博多区下川端町 3番1号　リバレインオフィス 9F
仙台開発センター
　宮城県仙台市青葉区本町 2-2-3 鹿島広業ビル7階
主要取引先（50音順、敬称略）
株式会社インターネットイニシアティブ
オイシックスドット大地株式会社
株式会社ぐるなび
株式会社コカ・コーラ東京研究開発センター
株式会社サイバーエージェント
シャープ株式会社
株式会社ジュピターテレコム
ソニー生命保険株式会社
ソニーネットワークコミュニケーションズ株式会社
東京ガスiネット株式会社
凸版印刷株式会社
株式会社ドミノ・ピザジャパン
日本電気株式会社
株式会社日本旅行
ビッグローブ株式会社
株式会社ベネッセコーポレーション
本田技研工業株式会社
株式会社マクロミル
みずほ情報総研株式会社
その他大手インターネットサービス企業様多数
標準認定

関連会社のご紹介
株式会社豆蔵ホールディングス
市場：東証一部(3756)
住所　　　　　：東京都新宿区西新宿２－１－１新宿三井ビル 34階
代表取締役社長：佐藤　浩二　　　設立：1999年11月
資本金　　　　：8億8100万円従業員数：2,043名

オープンストリームの事業
• システムインテグレーション事業部
– 受託システム開発事業
• Web、スマホアプリ、ビッグデータ、AI、IoT
など
– エンジニア教育事業
– R&D支援・推進事業
• プロダクト事業部
– 自社プロダクト企画・開発・販売
– Biz/Browser
5

Biz/Browserのご紹介
端末管理やデータの一元管理に優れた、Webシステムと操作性に優れたC/S型システムの長所を
兼ね備えた「業務専用ブラウザ」です。
西宮市
　　　　　　　　　　　　　　導入社数　1,740社（2018年2月末現在）

期待される応用分野（例）
産学連携：OpenStreamの技術戦略
共同研究
■ ”リアルタイム行動解析”
リアルタイム➡高速・低遅延・オンライン
行動➡時系列データ
解析➡数理解析・人工知能系技術
目的：次世代のIT・IoTシステムで重要となる『リアルタイム情報処理』『システムの複雑な挙動』。そこで必要なデータ処理理論とシ
ステム化技術(エッジ／クラウド)を産学連携で獲得する。
先端的AI/機械学習理論（時系列処理系）
Deep
Learning
RNN*1
LSTM*2
GAN*3
独自の理論
システム化技術
Cloud
GPU
FPGA
IoT
Device
理論の実装
電通大庄野研の
知見・ノウハウ
オープンストリームの
技術・ノウハウ
リアルタイム行動分析
独自コア技術
（AIベース）
・・・
・・・Mobile
• 特許、学会発表
• ニュースリリース
IoT/ロボットシステム経営情報分析物流デジタルマーケティング
• 自社サービス/製品
• ライセンス供与
• 受託開発
*1:RNN(Recurrent Neural Network *2:LSTM(Long Short Term Memory) *3:GAN(Generative Adversarial Net)
7

本日のアジェンダ
• FPGA論
– 当社実証実験（AI）
• エッジコンピューティング論
– システム設計論
– 人材論
8

FPGA

Field
Programmable
Gate
Array
10
現場で
プログラムできる
ゲート回路の
配列

内部：アイランドスタイルの例
• 論理ブロック(LB : Logical Block)
• 入出力要素(IOB : I/O Block)
• 配線要素or配線チャネル(SB : Switch Block , CB : Connection Block)
12

どうやって
プログラミング？
＝
どうやって
配線・配置を設定？
13

14
HDL・回路図
HLS HDL
回路図
昔
現在

15
HDL・回路図
HLS HDL
回路図
昔
現在
ツール高価
ツール無償

HLS = High Level Synthesis
16
高位合成
C/C++,
Python etc.で
FPGAロジック記述

17
設計
ロジック実装（C/C++）
コンパイル
HDL
シミュレーション
デバッグ
論理合成
配線配置
*.bitファイル
FPGA実機
設計
実装(Java)
コンパイル
バイトコード
実機テスト
デバッグ
実行環境
HLS開発フローソフト(Java)開発フロー
High
Level
Synthesis

これからのHLS
• オープンソース化
• 軽量言語系：本格対応
– Java, Python, Ruby....
• 応用分野特化型ライブラリ
– 画像認識、AI系はすでにあります
– 今後は、ブロックチェーン、FinTech、AR/VRなど？
18

FPGAロジック開発
≒
ソフト開発
19
HLS

近年さらなる進化
System on Chip(SoC)
CPUやDSP、I/Oも１チップ化
⇒高度システム化が簡単
20

21
SoC の例：Xilinx ZYNQ-7000
ARM-9 DualCore
FPGA+I/OCPU
CPUがある
＝OSが動く
　(Linux)
＝インターネット通信
＝IoT適合
FPGA
　高速な信号処理
　機械学習・AI

パブリッククラウドと
FPGA
22

23
FPGA は Xilinx系

24
Project Brainwave：FPGAはインテル系

クラウドFPGAの共通概念
CPUが苦手な処理を
FPGAにオフロード
（アクセラレータ）
25

なぜ
どんなときに
FPGAを
使うのか？
26

FPGAの特長
1) 柔軟性
2) 高スループット
3) 低レイテンシ
4) 低消費電力
27

28
柔軟性
高
スループット
低
レイテンシ
低
消費電力
CPU ◎ △ △ ◯
GPU ◯ ◎ △ △
FPGA ◎ ◯（◎*1） ◎ ◎
*1: 単位電力あたりで見れば、 GPUを上回る場合もある
プロセッサ方式の特長比較

FPGAの弱点
• チップ内のローカルメモリ容量上限
– 大規模な画像処理などでは、外部メモリ利用などの
工夫が必要
– とはいえ、何とかなるレベル
• ハードウェアの知識がある程度必要
– アルゴリズムの並列化・最適化
– デバッグ時
• 開発者がまだ少ない
29

FPGA
期待される応用分野
30

高速金融取引
遺伝子解析
画像・動画処理
機械学習・AI
IoT・組込・制御
ネットワーク制御
・・・
31

FPGAまとめ
• FPGAとHLSなど周辺技術の進歩
ソフトウェアエンジニアが参入可能に
• C/C++ のスキルがあれば、すぐに開始できる
• クラウドからIoTエッジ・デバイス：広い応用範囲
– 高付加価値
– 先進ビジネス分野
• 知的対象として面白い、エンジニアが元気に
32

当社の
FPGA＋AI
実証実験

実証実験テーマ：
FPGA上でDeep Learningを
動かす
目的：
FPGAの機能・性能を
体感したい
34

Deep Learningで何をやる？
＝GANを動かそう！
35

実証実験の結果
• GANジェネレータをFPGA上で動作成功
• GANを『バイナリ化』したモデルを確立
– バイナリ化GAN：（一応）世界初
– FPGAにネットワークを詰め込む方法
• arXiv.org にて論文として発表
– Deep Learning の本場
36

GANとは？
37

Deep Learningの主な応用
● データ判別
● データ予測
● データ生成
38
⇐ GAN

GANによるデータ生成例：リアルな画像生成
39

GANによるデータ生成例：意味ラベルの線型演算
40

GANによるデータ生成例：意味ラベルの線型演算
41

GANの仕組み：敵対学習
42
入力
乱数ベクトル
ジェネレータ
画像生成型NN
パラメータ初期値は乱数
ディスクリミネータ
画像真贋判別用 NN
パラメータ初期値は乱
数
生成された画像
はじめはノイズ
学習につれて、だんだん綺麗になっていく
● Generator(G) と Discriminator(D) との、２つのネットワークが敵対
● 学習目標
○ Gは、できるだけDに出力をReal（本物）と判定させる
○ Dは、できるだけGからの出力をFake（偽物）と判定し,
訓練データをRealと判別する
訓練画像

G
B-DCGAN　システム構成
43
D
Forward Pass(BIN)
Backward Pass(REAL)
GPU
Optimizer
FPGA
G
Forward Pass(BIN)
Python
Theano/Lasagne
C++
Vivado HLS
Data
Set

Binarized NNとは？
• NNの重み係数（順方向）を2値化(+1/-1)したもの
• FPGA化において、回路規模・メモリ容量を大幅削減できる
• 画像識別において、2値化前と比べて、ほとんど遜色ない性能となる！
https://arxiv.org/abs/1602.02830
44

B-DCGANの学習モデル： Generatorをバイナリ化
45
G
バイナリ
Z Y one hot label
ex.(0,0,1,0...0) X
G(Z|Y)
D(X|Y)D(G(Z|Y))
100次元
ノイズ
最適化
D
実数

B-DCGANのFPGAロジック
• Vivado HLS（High Level Synthesis）/ C++ で高位合成
• 工夫
– NN各層をC++テンプレートクラスにする
• パラメータは、定数値としてコンパイル時に確定させる効果→FPGAの合成効率アッ
プ
• 各層別に単体テストしやすい
• 層の数や配置を変更しやすい
• 数値変数の型もパラメータ化→バイナリ／実数の切り替えを容易に
46

B-DCGANの評価：どの程度までバイナリ化できるか？
• 実験方法
– Generatorの階層の１層目から順番にバイナリ化
範囲を広げて学習(MNIST)→そのときの生成画像
の画質を目視評価
• 結果
– 最後の２層（Deconv、Sigmoid）を除き、その他は全
てバイナリ化可能（右図の緑枠内）
– FPGA使用容量
• BRAMが最もクリティカル：86%消費
• バイナリ化しない場合は200%以上
47
バイナリ化
OK
バイナリ化
NG

B-DCGAN:論文（プレプリント）発表
• arXiv.org にて：https://arxiv.org/abs/1803.10930
48

エッジ
コンピューティング

基本
50

Edge computing is a method of optimizing cloud computing
systems "by taking the control of computing applications,
data, and services away from some central nodes (the
"core") to the other logical extreme (the "edge") of the
Internet" which makes contact with the physical world.
51
Wikipedia より
http://www.sigcomm.org/sites/default/files/ccr/papers/2015/October/0000000-0000005.pdf

エッジコンピューティングとは、
計算アプリケーション・データ・サービスなどの制御を、
中央ノード（コア）から切り離して、
インターネットのもう一方の論理的端点
（エッジ：物理世界と接点をもつ）
へと移すことによって、
クラウドコンピューティングシステムを最適化する
方法の一つである。
52
Wikipedia より

コア
エッジ
インターネット
クラウドシステム
最適化
53

54
コア
物理世界
エッジノード
素朴IoT

55
コア
物理世界
エッジ
エッジノード
エッジ
コンピューティング型
IoT

なぜ
エッジ
コンピューティングが
必要？
56

● 通信量
● 応答遅延
● コア側の負荷
● 複数デバイス情報統合
● セキュリティ
● ロバスト性（可用性）
57

58
コア
物理世界
エッジ
エッジノード
通信量
セキュリティ
応答遅延
情報統合ロバスト性

FPGAと
エッジ
コンピューティング

エッジコンピューティングの問題点
• システムの複雑化
– 従来型　：クラウド＋クライアント（デバイス）
– エッジ型：クラウド＋エッジ＋クライアント（デバイス）
• エッジ側への性能要求
– エッジ側でもAIなどの高度な処理をしたい
– エッジ側にもクラウド側と同等のGPUなどを置くのか？
60

FPGAによるエッジソリューション
• 高度・高速な処理
– AIなど高度な処理をハードウェア化で対応
• システム簡素化
– SoCによるCPU機能、I/O機能の一体化
• 柔軟性
– 書き換え可能なFPGAロジック
61

62
コア
CPU CPU CPU CPU CPU CPU
物理世界
エッジ CPU/GPU
エッジノード
FPGA(SoC)
による
一体化
簡略化

63
コア
FPGA
SoC
FPGA
SoC
FPGA
Soc
物理世界
CPU

64
コア
FPGA
SoC
FPGA
SoC
FPGA
Soc
物理世界
エッジ
一体化
簡略化
CPU

どうやって
エッジシステムを
設計するか？
65

エッジシステム設計
＝
システム分割
の問題
66

いろいろな分割の観点
• 機能分割
– →時間分割
• 空間分割
– データ配置
– 画面、端末、デバイスなどの配置
• データ構造・状態管理分割
– ステートフル／ステートレス
• 時間分割
– 応答遅延のリミット
– データ同期遅延のリミット
67

応答遅延のリミットによる分離
• 応答遅延リミット：小
– ⇒エッジへ
• 応答遅延リミット：大
– ⇒クラウドへ
68

データ同期遅延のリミットによる分離
• データ同期遅延リミット：小
– ⇒クラウドへ
• データ同期遅延リミット：大
– ⇒エッジ化の可能性あり
69

70
クラウド
デバイス
インター
ネット
機能１
物理
対象
◯応答遅延
機能２
☓応答遅延
許容リミット許容リミット
時間

時間
71
クラウド
デバイス
インター
ネット
物理
対象
機能２
◯応答遅延
遅延リミット
エッジ
(+LAN)
機能２
機能１
◯応答遅延
遅延リミット

機能ごとに
リミットは異なる
＝独立性の高い機能分割
＝疎結合
72

上手な
エッジコンピューティング
設計は
疎結合
73

疎結合システムに役立つ：
● マイクロサービス
● サーバレス
● プロトコルフレームワーク
74

マイクロサービス
75

マイクロサービスは、設計上の概念
• 設計概念である
– 特定のツールや言語の話ではない
• 論理的・物理的な分割
– 『独立性のある小さなサブシステム（サービス）の集合体として
システムを設計』
• 対義語
– モノリシック (monolithic)
76https://medium.com/startlovingyourself/microservices-vs-monolithic-architecture-c8df91f16bb4

マイクロサービス：メリット・デメリット
• メリット
– 柔軟な構成
– システムを止めずに一部サービスだけ更新
– スケールしやすい
– 可用性向上
– 開発リスク低減
• デメリット
– 制御・エラー処理の複雑化
– サービス間通信のオーバーヘッド
– システムの全体把握困難
– 一貫性の低下
77

マイクロサービスとエッジコンピューティング
• マイクロサービス構成
＝比較的容易にエッジコンピューティング化
• マイクロサービスの設計・実装の手法
＝エッジコンピューティングに適用可能
78

サーバレス
アーキテクチャ
79

サーバレス基盤
サーバレスアーキテクチャ
• 自分でサーバーを建てずに動作できるWeb API実現方式
– マイクロサービスの実装技法にもなる
• 小粒度
– API一つ一つが別々のインスタンス
• 短命
– オンデマンドで起動され、実行一回ごとにインスタンス破棄
80
API Server
従来サーバレス
サーバ
インフラ
API-1
API-2
API-3
API-4

サーバレスアーキテクチャ：向き・不向き
• 向いている
– 小さくて・シンプル
– ステートレスな機能
• 向いてない
– 大きく・複雑な機能（起動オーバーヘッド増加）
– ステートフルな機能（不可能ではないが）
– 長時間処理
– 超高速応答（起動のオーバヘッド）
81

サーバレスアーキテクチャ：メリット・デメリット
• メリット
– サーバ運用業務が不要・削減
– 可用性アップ
• エラー耐性
• システムを停止せずにAPI追加
– システム設計が洗練される
• 粗結合、柔軟性
• デメリット
– ベンダーロックイン
– 従量課金
– 全体構造・振る舞いの理解難易度アップ
– エラー処理・ステート管理の複雑化
82

サーバーレスとエッジコンピューティング
• システムがサーバレスを活用しているなら
サーバレスAPIのうち、
高速応答等が必要なものをエッジ側に移動
• エッジ側からみたクラウド側APIの簡素化・拡張容易性
83

プロトコルフレームワーク
84

プロトコル実装を自動化
• クライアント／サーバ間の通信仕様をIDLで記述のみ
– プロトコル・スタック実装コードの自動生成
– プログラミング言語・OSに非依存
• 異なる言語・異なるOS間を簡単に通信接続
• IDL：Inteface Description Language
– APIの名前
– パラメータの名前、型
– 戻り値の型
• 代表的なツール(OSS)
– Apache Thrift
– Protocol Buffers
– ASN.1
– etc.
85

プロトコルフレームワーク：Thriftの例
86
IDL
クライアント
thrift ビルド
サーバ
TCP/IP・HTTP通信
クライアント用
プロトコル
スタック
（例：Python）
サーバ用
プロトコル
スタック
（例：Java）

プロトコルフレームワークの事例
• Apache Thrift
– Facebook, Evernote, Uber, Hadoop
– 弊社
• Edamame, ねこもに
• Protocol Buffers
– Pokemon Go
– Caffe, Tensorflow
87

プロトコルフレームワーク：メリット・デメリット
• メリット
– 非常に高い生産性
• 一人でサーバー・クライアント両方担当しても苦にならない
– 通信疎通テストがほぼ不要
• プロトコル・スタックにプログラムミスが起こらない
– 通信オーバーヘッド小さい
• バイナリ形式
– APIの追加・変更もラクラク
• IDL修正してビルド＆デプロイしなおすだけ
– API仕様の管理が楽
• IDLを見れば仕様がすぐわかる
• デメリット
– ほぼない
– 強いて言えば
• ツールの使い方を勉強する時間
88

プロトコルフレームワークと
エッジコンピューティング
• 通信プロトコルをすばやく実装
– マイクロサービス化・エッジ化含め非常に重要
• 心理的・コスト的ハードル下がる
– システム分割を変更するときのハードルが下がる
• 実装パターン、エラー処理方針の統一化
– 開発生産性
89

エッジコンピューティング設計：まとめ
• エッジコンピューティングを活用するには、
システムの上手な分割化が必要
• 分割化の観点
– 時間軸の要求仕様
– データ＝ステートをいつ・いつどのように同期するか
• システム分割のヒントとなる技術・概念
– マイクロサービス
– サーバレス
– プロトコルフレームワーク
90

IoT・
エッジ
コンピューティングと
人材

エッジコンピューティングを
実現できる人材とは？
92

クラウド＆エッジ型IoTシステム開発エンジニア
• ２つの発想の必要
– クラウド・Web系の発想と、組込・制御系の発想
– 一人が兼ね備えるのは困難・レア
• チームで対応
– クラウド・Web系エンジニア＋組込・制御系エンジニア
– かなり異文化
• 相互理解が重要
93

エンジニアの特徴（私見を多分に含みます）
• クラウド・Web系エンジニア
– 長所
• 仕様変更に柔軟に対応（ふわっとした仕様にも対応）
• 自己表現・プレゼンうまい
• ＃単価高い
– 短所
• カッチリ設計、ステート制御（状態遷移設計）苦手／リアルタイム・並行処理苦手
• ハード系苦手
• 『運用しながら修正・落ちたらリブート』という感覚
• 組込・制御系エンジニア
– 長所
• カッチリした設計ができる。状態遷移設計得意
• リアルタイム・マルチタスク・ハード・物理層得意
• 『一度完成したら変えない・絶対落ちない実装』への感覚
– 短所
• クラウド・Web系知識弱い
• ふわっとした仕様に弱い
• 自己表現・プレゼン苦手
• ＃単価低め
94

IoT時代：組込・制御系エンジニアの復権を！
• なぜ単価低いか？
– 『コスト（製造原価）』とみなされるから（？）
• メーカー：原価安くするほど利益が増える
• Web系は『投資』と見てもらいやすい。
– 価値提案をあまりしない（できない環境）。受け身。
• 実は高いスキル
– 計算機ハード知識
– カッチリした設計。状態遷移やマルチタスク処理への対応力。
• どうすれば？
– クラウド・Web系の知識吸収
– 顧客と対話しながら設計を作り上げる
– 自己表現力を高める
95

最後のまとめ
• FPGAは面白い！
– ハードの世界にソフト技術者も参入できる！
• エッジコンピューティング
– 目的と要件を明確に。それに応じてアーキテクチャ決まる。
– より高度な設計力・実装力が必要
– FPGAも適材適所に
• 人材
– チームワークの重要性
• Web系／組込系：これまで分断？されていたエンジニア文化の融合
– 組込・制御系のエンジニアの復権に期待したい！
• 彼らの技術力が必要
• 高付加価値化を考えて
96

今後の展望
• ハードとソフトの間の垣根はどんどん低くなる
– FPGAはその一例
• 設計力が品質を決める
– 前例や経験則に囚われず、
時代に応じた最適設計ができるか？
• 体系的知識をもった人材が生き残る
– ソフトウェア工学、計算機工学
– 数学、統計学、機械学習
97

98
THE END
ありがとうございました

FPGA, AI, エッジコンピューティング

Recommandé

Recommandé

Contenu connexe

Tendances

Tendances (20)

Similaire à FPGA, AI, エッジコンピューティング

Similaire à FPGA, AI, エッジコンピューティング (20)

Plus de Hideo Terada

Plus de Hideo Terada (9)

FPGA, AI, エッジコンピューティング