組み込みxAI

組み込みAI
2018/7/7 #nds56
Yukilab 菊地優基

何それ？おいしいの？
• 反応早い。（データ少なくする）
• そんなに難しいことはできないかもしれないけど、
安い・賢い。
• 通信するときも生データを全部送
らなくて済むので省通信。
• （個人の所感です）：今年爆発す
る (エッジコンピューティング = AI+IoT)
勝手にいい感じにとってくれるカメラ様、らしい

たとえばこれくらいのハード
ウェアでもできることもある
ARM Cortex-M4F 96MHz FPU付き $20
GPUの乗っている携帯は組み込み屋にとってエッジ（いぢれる）ではない・・（遠い目//)

ところであんた誰？
• IoTフルスタックフリーランス (2012 - )
• AIの勉強中・業務応用開発は現在進行形
• IoTLT新潟、AI朝会主催
• Prototype Cafe - シェアオフィス兼open IoT作業所運営
• 海で遊ぶのが好きで、東京から新潟へ移住。仕事は変わらず

AI仕事で使ったり、遊
んだりした人

ワールドカップ見ました

(普通の)AIプロジェクト
教師データ
(画像など情報量多）
AIモデル
(例えばkerasを使っ
たNN構造の定義）
CPU/GPU
学習させる
学習済みモデル
(hd5ファイル等）
(kerasなどで）読
み込んで予測などに
使う
CPU/GPU
（
個
人
の
所
感
で
す
）
学習は時間がかかって、計算
量もすごく多くて重たい
時間はそれほどでもないが、
計算量はあってやっぱり重たい

組み込みAI例
(制約：CPU弱、FPUやGPUがない場合も。ROMもRAMも少なめ)
教師データ
(信号など情報量少）
AIモデル
(例えばkerasを使っ
たNN構造の定義）
CPU/GPU
学習させる
(hd5ファイル等）
(kerasなどの）モ
デルを参照して、C言
語などでモデル作っ
て実行
MPU/FPU学習済みモデル
C言語で扱える
様に変換
モデル（推論計算式） ROM
（重み・バイアス値）
ROMでいいかも
モデルの使う変数 RAM

ポイント(1/2)
• ネットワークを使いづらい・早い応答が必要な、画像など重
くないセンサ信号処理でなにかしたいケース向けか。
• 学習を組み込みシステム内でやるのは無理が多そう。学習は
外でやる
• できた結果(trained model=重み、バイアスの配列)とそれを
使用するモデル（計算）部分だけ組み込み機器の中で実装
• モデルの構造の理解
• モデルの吐き出すhd5ファイル（hd5ファイルじゃなくても
いいが重み・バイアス値）の理解
• 組み込みMPU/FPU/GPUの機能の理解
• 組み込み側で支えるライブラリの理解

ポイント(2/2)
• 組み込みAIのプロジェクトはwater fallで
はできない。
• 良い学習ができるまでモデル作り直し=>
評価の繰り返し
• 組み込み機器内で希望するメモリ・時間・
エネルギー消費量の範囲内でできるか実
装して検証。だめなら、HWやSW修正か、
モデルから作り直しも。

応用
•産業用：個々の設備の異常検出（振動など）
•人体・室内/室外環境など各種信号を元に異
常検出

辰岡鉄郎インターフェース 2018/6

ひとりでやるのは大変
（必要なスキルセットが多い）

（多分典型的な）AIエキスパートの理解

q15フォーマットとは？
へっ？？

keras/TensorFlow/Pandas/Python/…
bit, register, asm, C,時々ライブ
ラリ。
気になるのは実行速度とメモリ容量

AI(多分特にML)の組み込み適用に
あたっては両者(エンジニア・技術）
を相互に理解することが必要です

わからない？
ですよね・・・

今週おぼえたのでここ
で振り返り

モデルを作る
• Keras などを用いて作ります。
• まあ、python を使ってたとえば
model = Sequential()
model.add(Dense(512, input_shape=(N,)))
model.add(Activation('relu'))
model.add(Dropout(0.5))
model.add((Dense(1), activation='sigmoid'))

トレーニング
• たくさんのデータが必要。数千∼数万
•(できればGPU付きの）PCでやると早い。
•時間はかかりますが、待っていれば終わる
ので実作業はない。

トレーニング結果の出力
•hd5データ形式ファイルのようなバイナリファイルにトレーニング結果(重
み・バイアス値）を書き出します。
•入っているのは、モデルの各レイヤの計算に必要な重みとバイアスの配列
•hd5プロジェクトのライブラリを使うと簡単に読み出すことができます。
•トレーニングの最後にモデルから別の形式で吐き出させることもできます。
hd5: https://support.hdfgroup.org/HDF5/doc/UG/HDF5_Users_Guide-Responsive%20HTML5/
index.html#t=HDF5_Users_Guide%2FDataModelAndFileStructure%2FThe_HDF5_Data_Model_and_File_Structure.htm

トレーニング結果のC言語へ
の変換
• h5ファイルを解析するライブラリなどの助けを借りて、h5
ファイルの中にある重み・バイアスを読み出し、C言語で
使えるように書き出します。
• 書き出す際には組み込み機器の中で演算できる様に(浮動
小数点のままだと計算遅いのがきになるとき）固定小数
点や、integerに変換
• python でも Cでも好きな言語で。個人的には、python
かな・・

組み込み機器内のモデル
• （C言語で書くとして）組み込み機器の中にモデルを作ります。
• 行列の乗算・加算です。CPUでもできますが、FPUやGPUがあ
れば高速。それらを効率的に支えるライブラリがあればベスト
• 何をどう乗算して、加算するかはモデルのソースコードや参考
資料をみるとわかる

C言語による実装例
ARM CMSIS-NNライブラリ利用
void gru_example(q15_t * scratch_input, uint16_t input_size, uint16_t history_size,
q7_t * weights_update, q7_t * weights_reset, q7_t * weights_hidden_state,
q7_t * bias_update, q7_t * bias_reset, q7_t * bias_hidden_state)
{
q15_t *reset = scratch_input;
q15_t *input = scratch_input + history_size;
q15_t *history = scratch_input + history_size + input_size;
q15_t *update = scratch_input + 2 * history_size + input_size;
q15_t *hidden_state = scratch_input + 3 * history_size + input_size;
// reset gate calculation
// the range of the output can be adjusted with bias_shift and output_shift
arm_fully_connected_mat_q7_vec_q15_opt(input, weights_reset, input_size + history_size, history_size, 0, 15,
bias_reset, reset, NULL);
// sigmoid function, the size of the integer bit-width should be consistent with out_shift
arm_nn_activations_direct_q15(reset, history_size, 0, ARM_SIGMOID);
arm_mult_q15(history, reset, reset, history_size);
// update gate calculation
// the range of the output can be adjusted with bias_shift and output_shift
arm_fully_connected_mat_q7_vec_q15_opt(input, weights_update, input_size + history_size, history_size, 0, 15,
bias_update, update, NULL);
// sigmoid function, the size of the integer bit-width should be consistent with out_shift
arm_nn_activations_direct_q15(update, history_size, 0, ARM_SIGMOID);
// hidden state calculation
arm_fully_connected_mat_q7_vec_q15_opt(reset, weights_hidden_state, input_size + history_size, history_size, 0, 15,
bias_hidden_state, hidden_state, NULL);
// tanh function, the size of the integer bit-width should be consistent with out_shift
arm_nn_activations_direct_q15(hidden_state, history_size, 0, ARM_TANH);
arm_mult_q15(update, hidden_state, hidden_state, history_size);
// we calculate z - 1 here
// so final addition becomes substraction
arm_offset_q15(update, 0x8000, update, history_size);
// multiply history
arm_mult_q15(history, update, update, history_size);
// calculate history_out

/* ----------------------------------------------------------------------
* Copyright (C) 2010-2018 Arm Limited. All rights reserved.
*
*
* Project: CMSIS NN Library
* Title: arm_nnexamples_gru.cpp
*
* Description: Gated Recurrent Unit Example
*
* Target Processor: Cortex-M4/Cortex-M7
*
* Redistribution and use in source and binary forms, with or without
* modification, are permitted provided that the following conditions
* are met:
* - Redistributions of source code must retain the above copyright
* notice, this list of conditions and the following disclaimer.
* - Redistributions in binary form must reproduce the above copyright
* notice, this list of conditions and the following disclaimer in
* the documentation and/or other materials provided with the
* distribution.
* - Neither the name of Arm LIMITED nor the names of its contributors
* may be used to endorse or promote products derived from this
* software without specific prior written permission.
*
* THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS
* "AS IS" AND ANY EXPRESS OR IMPLIED WARRANTIES, INCLUDING, BUT NOT
* LIMITED TO, THE IMPLIED WARRANTIES OF MERCHANTABILITY AND FITNESS
* FOR A PARTICULAR PURPOSE ARE DISCLAIMED. IN NO EVENT SHALL THE
* COPYRIGHT OWNER OR CONTRIBUTORS BE LIABLE FOR ANY DIRECT, INDIRECT,
* INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL DAMAGES (INCLUDING,
* BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR SERVICES;
* LOSS OF USE, DATA, OR PROFITS; OR BUSINESS INTERRUPTION) HOWEVER
* CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT, STRICT
* LIABILITY, OR TORT (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN
* ANY WAY OUT OF THE USE OF THIS SOFTWARE, EVEN IF ADVISED OF THE
* POSSIBILITY OF SUCH DAMAGE.
* -------------------------------------------------------------------- */

ARMのVFP アセンブラ命令
• VABS、VNEG、VSQRT 
浮動小数点絶対値、否定、および平方根
• VADD、VSUB、VDIV 
浮動小数点加算、減算、および除算
• VMUL、VMLA、VMLS、VNMUL、VNMLA、VNMLS 
必要に応じて否定を伴う浮動小数点乗算および積和
• VFMA、VFMS、VFNMA、VFNMS 
必要に応じて否定を伴う結合浮動小数点積和および結合浮動小数点積差
• VCMP 
浮動小数点比較
• VCVT（単精度と倍精度の間） 
単精度と倍精度間の変換
• VCVT（浮動小数点と整数間の変換） 
浮動小数点と整数間の変換
• VCVT（浮動小数点と固定小数点間） 
浮動小数点と固定小数点間の変換
• VCVTB、VCVTT（半精度拡張） 
半精度浮動小数点数と単精度浮動小数点数間の変換
• VMOV 
単精度または倍精度レジスタへの浮動小数点イミディエート値の挿入

ARM CMSISライブラリ
https://github.com/ARM-software/CMSIS_5
http://arm-software.github.io/CMSIS_5/General/html/index.html

ARM CMSIS-DSP/NN ライブラリ
• https://github.com/ARM-software/CMSIS_5 あたりを見
るといいと思います。
• CPUによる実装も書いてあります。FPUがある場合はFPUを
使った高速な演算をしてくれます。
• CMSIS_5 じゃなくても古いCMSISでも、ハックすれば使え
ます。
• 無理そうだったら CPU直でも、古いCMSISにも入っている
CMSIS-DSPでこつこつやっても。乗算と加算しか使いません。

• 使ってるMPUじゃとってもAI処理なんて無理、と思って
ましたが、意外と工夫すればできそうです。（現在進行形
なので答えはないけど）
• AIのエンジニアと組み込みハード・ソフトエンジニアがす
り寄れば実現できます。
• 続きは 7月末の IoTLT新潟で。
• 年末から来年にかけてエッジAIチップが出て安くなってき
たらそれを使えば良いだけになり、この実装は無駄にな
る・・？ MPU / FPGA / GPU /他HWの戦いの年です。

参考&謝辞
• インターフェース誌 2018/6月号辰岡さんの記事
• 辰岡さん（東京）
• Blincamの Sumanthさん (新潟市 Prototype Cafeにいま
す）
• Python プロフェッショナルプログラミング第３版
• ARMのAI戦略 : http://eetimes.jp/ee/articles/1803/23/
news070_2.html

新潟市無料解放場所の
ご案内

• 無料電子工作・IoTシェア作業所。勉強・仕事もOK。新潟駅から徒歩10分。特にオ
フィスメンバに用事がなくてもOK。相談もOK。
• おおよそ平日 9:00 - 17:00 空いてます。他の時間帯もお知らせいただければ開けられます。
（twitter @Prototypecafe で open時間など流してます）
• 技術・デザイン・経営など勉強会・コミュニティーに一度以上参加する・参加している方
と関係者向けにスペース解放。
• 基本的に部品の販売はありませんが要望あれば。
• 飲食の提供はありません。持ち込み・飲酒/食自由。
• WiFi/電源/電気・IoT系雑誌などおいてます
• 展示スペースあり。
• どうしてもという方には、営業・有料セミナー用に有料解放します。費用は応相談。
• 飲み物・部品・お菓子寄付歓迎。来場者用です。
• 制約これだけ：半面はシェア作業所・オフィスです。利用はお静かに。片付けをお願いします
依頼されない限りこの場所での営業はありません。どんどん使ってください。
よくわらなくてできない・やらない・機会がない、相
談できる人がいない、学びをシェアしたい、を解決し
て前に進めるようにスペースを解放

電子工作に必要な道具一式
3Dプリンタ・工具
オシロ、マルチメータ
電源
エアコンプレッサ
ホワイトボード
プロジェクタ
など使えます。
cafe内にある部品は使ってみたりできます。ラ
ズパイ・micro:bitなども
これまでに開催されたもの
・IoTLT新潟
・某社内勉強会
・組込系Python Bootcamp （勝手開催
２回）
・グロービス新潟会
・AI朝活
・製品化のための電子回路相談

ありがとうございました
@yukilab222
Prototype Cafeのトイレの水が止まらない時があります。
今は住人が音を聞きつけて止めてますが、
誰か組み込みMLで解決してください(^n^);;;
AI朝活 Vol.4 は明日早朝
IoTLT新潟 Vol.6 は 7/29です

組み込みxAI

Recommandé

Recommandé

Contenu connexe

Similaire à 組み込みxAI

Similaire à 組み込みxAI (15)

Plus de Yuki Kikuchi

Plus de Yuki Kikuchi (16)

組み込みxAI