PBL1-v1-003j.pptx

CPU GPU
Ultimate CGRA w/ high-speed compiler
CGRA for Energy-efficient Cryptography
Beyond-Neuromorphic Systems
Non-Deterministic Computing
1
ナレータ VOICEVOX:もち子(cv 明日葉よもぎ)
はらぺこエンジニアに贈るCGRAの世界2022
（3. 画像フィルタ中級編）
スパコンからIoTまで省エネ社会に
AI+BCだけじゃない超効率計算手法

Input
pixels
Load
Sort
Select center
Output
4bytes
4bytes
20220202
2
メディアンフィルタを超高速実行する

v-sort v-sort v-sort v-sort
h-sort
h-sort
h-sort
Select max/mid/min value from three 8bits
Select max/min value from two 8bits
20220202
3
新しい３入力演算を考える

20220202
4
画素値のロード・演算・ストアを並べる

20220202
5
演算だけ並べても意味がないと言ったことの意味
LM
LM
LM
LM
Main
Memory
PREFETCH
DRAIN
LM
LM

20220202
6
プログラムに表現する
for (row=0; row<HT; row++) {
//EMAX5A begin median_filter mapdist=1
for (CHIP=0; CHIP<NCHIP; CHIP++) { /* output channels are parallelized by multi-chip (OC/#chip) */
for (INIT0=1,LOOP0=WD,col=0-4LL; LOOP0--; INIT0=0) {
exe(OP_ADD, &col, col, EXP_H3210, 4LL, EXP_H3210, 0, EXP_H3210, OP_AND, 0x00000000ffffffffLL, OP_NOP, 0);
exe(OP_ADD, &in_center, row_center, EXP_H3210, col, EXP_H3210, 0, EXP_H3210, OP_NOP, 0, OP_NOP, 0);
/* 1*/ mop(OP_LDWR, &r7, in_center, -1276, MSK_D0, row_prev, WD, NULL, 0);
/* 4*/ exe(OP_MMIN3, &r17, r7, EXP_H3210, r1, EXP_H3210, r5, EXP_H3210, OP_NOP, 0, OP_NOP, 0);
/* 4*/ exe(OP_MMID3, &r11, r7, EXP_H3210, r1, EXP_H3210, r5, EXP_H3210, OP_NOP, 0, OP_NOP, 0);
/* 4*/ exe(OP_MMAX3, &r15, r7, EXP_H3210, r1, EXP_H3210, r5, EXP_H3210, OP_NOP, 0, OP_NOP, 0);
/* 2*/ mop(OP_LDWR, &r4, in_center, 4, MSK_D0, row_center, WD, NULL, 0);
/* 2*/ mop(OP_LDWR, &r3, in_center, -4, MSK_D0, row_center, WD, NULL, 0);
/* 3*/ mop(OP_LDWR, &r8, in_center, 1284, MSK_D0, row_next, WD, row_next_next, WD);
:
/*14*/ exe(OP_MMAX, &r8, r14, EXP_H3210, r18, EXP_H3210, 0, EXP_H3210, OP_NOP, 0, OP_NOP, 0);
/*14*/ exe(OP_MMIN, &r5, r15, EXP_H3210, r13, EXP_H3210, 0, EXP_H3210, OP_NOP, 0, OP_NOP, 0);
/*15*/ exe(OP_MMID3, &r31, r5, EXP_H3210, r10, EXP_H3210, r8, EXP_H3210, OP_NOP, 0, OP_NOP, 0);
/*16*/ mop(OP_STWR, &r31, out_center, col, MSK_D0, out_center, WD, out_prev, WD);
}
}
//EMAX5A end
}

20220202
7
:
}
}
//EMAX5A end
}

20220202
8
:
}
}
//EMAX5A end
}

20220202
9
コンパイル結果
①
⑮
④
②
③
⑤
⑥
⑦
⑧
⑨
⑩
⑪
⑫
⑬
⑭
⑯
LM
LM
LM
LM
PREFETCH
LM
LM
DRAIN

20220202
10
アンシャープマスクはもっと簡単
#define r(p) ((p)>>24)
#define g(p) ((p)>>16 & 255)
#define b(p) ((p)>> 8 & 255)
for (col=0; col<WD; col++) {
pix0 = in[row][col];
pix1 = in[row-1][col];
pix2 = in[row+1][col];
pix3 = in[row ][col-1];
pix4 = in[row ][col+1];
pix5 = in[row-1][col-1];
pix6 = in[row-1][col+1];
pix7 = in[row+1][col-1];
pix8 = in[row+1][col+1];
// p0: 1.87 = +239/128
// p1234: 0.12 * 4 = -15.25/128
// p5678: 0.10 * 4 = -13/128
r0 = r(pix0); r1 = r(pix1)+r(pix2)+r(pix3)+r(pix4); r2 = r(pix5)+r(pix6)+r(pix7)+r(pix8);
g0 = g(pix0); g1 = g(pix1)+g(pix2)+g(pix3)+g(pix4); g2 = g(pix5)+g(pix6)+g(pix7)+g(pix8);
b0 = b(pix0); b1 = b(pix1)+b(pix2)+b(pix3)+b(pix4); b2 = b(pix5)+b(pix6)+b(pix7)+b(pix8);
rout = (r0 * 239 - r1 * 13 - r2 * 15 - r2/4) >> 7);
gout = (g0 * 239 - g1 * 13 - g2 * 15 - g2/4) >> 7);
bout = (b0 * 239 - b1 * 13 - b2 * 15 - b2/4) >> 7);
out[row][col] = rout<<24 | gout<<16 | bout<<8;
}
}
-0.1 -0.12 -0.1
-0.12 +1.88 -0.12
-0.1 -0.12 -0.1

20220202
11
メディアンフィルタよりも簡単なアンシャープマスク
//EMAX5A begin unsharp mapdist=1
exe(OP_ADD, &col, col, EXP_H3210, 4LL, EXP_H3210, 0, EXP_H3210, OP_AND, 0x00000ffffffffLL, OP_NOP,0);
mop(OP_LDWR, &r1, in_center, -1276, MSK_D0, row_prev, WD, NULL, 0);
exe(OP_MAUH, &r11, r1, EXP_B5410, r2, EXP_B5410, 0, EXP_H3210, OP_NOP, 0, OP_NOP, 0);
mop(OP_LDWR, &r6, in_center, 4, MSK_D0, row_center, WD, NULL, 0);
mop(OP_LDWR, &r7, in_center, -4, MSK_D0, row_center, WD, NULL, 0);
mop(OP_LDWR, &r0, in_center, 0, MSK_D0, row_center, WD, NULL, 0);
exe(OP_MLUH, &r20, r0, EXP_B5410, 239, EXP_H3210, 0, EXP_H3210, OP_NOP, 0, OP_NOP, 0);
exe(OP_MLUH, &r21, r0, EXP_B7632, 239, EXP_H3210, 0, EXP_H3210, OP_NOP, 0, OP_NOP, 0);
mop(OP_LDWR, &r3, in_center, 1284, MSK_D0, row_next, WD, row_next_next, WD);
mop(OP_LDWR, &r4, in_center, 1276, MSK_D0, row_next, WD, row_next_next, WD);
mop(OP_LDWR, &r8, in_center, 1280 , MSK_D0, row_next, WD, row_next_next, WD);
exe(OP_MAUH3, &r11, r3, EXP_B5410, r4, EXP_B5410, r11, EXP_H3210, OP_NOP, 0, OP_NOP, 0);
exe(OP_MLUH, &r13, r11, EXP_H3210, 13, EXP_H3210, 0, EXP_H3210, OP_NOP, 0, OP_NOP, 0);
exe(OP_NOP, &r7, r15, EXP_H3210, 0LL, EXP_H3210, 0, EXP_H3210, OP_OR, 0, OP_SRLM, 2);
exe(OP_NOP, &r8, r16, EXP_H3210, 0LL, EXP_H3210, 0, EXP_H3210, OP_OR, 0, OP_SRLM, 2);
exe(OP_MSUH3, &r10, r20, EXP_H3210, r7, EXP_H3210, r17, EXP_H3210, OP_NOP, 0, OP_NOP, 0);
exe(OP_MSUH3, &r11, r21, EXP_H3210, r8, EXP_H3210, r18, EXP_H3210, OP_NOP, 0, OP_NOP, 0);
exe(OP_MSUH, &r20, r10, EXP_H3210, r13, EXP_H3210, 0, EXP_H3210, OP_OR, 0, OP_SRLM, 7);
exe(OP_MSUH, &r21, r11, EXP_H3210, r14, EXP_H3210, 0, EXP_H3210, OP_OR, 0, OP_SRLM, 7);
exe(OP_MH2BW, &r31, r21, EXP_H3210, r20, EXP_H3210, 0, EXP_H3210, OP_NOP, 0, OP_NOP, 0);
mop(OP_STWR, &r31, out_center, col, MSK_D0, out_center, WD, row_prev, WD);
}
}
//EMAX5A end
}
r1 r5 r2
r7 r0 r6
r4 r8 r3

20220202
12
今回のおさらい

PBL1-v1-003j.pptx

Recommandé

Recommandé

Contenu connexe

Similaire à PBL1-v1-003j.pptx

Similaire à PBL1-v1-003j.pptx (20)

Plus de NAIST

Plus de NAIST (16)

PBL1-v1-003j.pptx

Notes de l'éditeur