PBL1-v1-004j.pptx

CPU GPU
Ultimate CGRA w/ high-speed compiler
CGRA for Energy-efficient Cryptography
Beyond-Neuromorphic Systems
Non-Deterministic Computing
1
ナレータ VOICEVOX:もち子(cv 明日葉よもぎ)
はらぺこエンジニアに贈るCGRAの世界2022
（4. 画像フィルタ上級編）
スパコンからIoTまで省エネ社会に
AI+BCだけじゃない超効率計算手法

20220202
3
フレーム補間処理1 4x4領域を上下左右8画素移動して類似度を計算
#define ad(a,b) ((a)<(b)?(b)-(a):(a)-(b))
#define df(l,r) (ad((l)>>24&255,(r)>>24&255)
+ad((l)>>16&255,(r)>>16&255)
+ad((l)>> 8&255,(r)>> 8&255))
short SAD1[HT/4][8][WD/4][8];
for (row=8; row<HT-8; row++) { /* scan-lines */
for (ofs=-4; ofs<4; ofs++) {
for (col=0; col<WD; col++) {
int j = col/4*4;
int k = col%4*2;
Uint *new = frame2+row*WD;
Uint *old = frame1+(row+ofs)*WD;
SAD1[row/4][ofs+4][col/4][k ] += df(new[j ],old[j+k-4]) + df(new[j+1],old[j+k-3])
+ df(new[j+2],old[j+k-2]) + df(new[j+3],old[j+k-1]);
SAD1[row/4][ofs+4][col/4][k+1] += df(new[j ],old[j+k-3]) + df(new[j+1],old[j+k-2])
+ df(new[j+2],old[j+k-1]) + df(new[j+3],old[j+k ]);
}
}
}

20220202
4
フレーム補間処理1 4x4領域を上下左右8画素移動して類似度を計算
for (row=0; row<HT; row++) {
//EMAX5A begin hokan1 mapdist=7
for (CHIP=0; CHIP<NCHIP; CHIP++) { /* output channels are parallelized by multi-chip (OC/#chip) */
for (INIT0=1,LOOP0=WD,col=0-4LL; LOOP0--; INIT0=0) {
exe(OP_ADD, &col, col, EXP_H3210, 4, EXP_H3210, 0, EXP_H3210, OP_AND, 0x0ffffffffLL, OP_NOP, 0);
exe(OP_NOP, &jw, col, EXP_H3210, 0, EXP_H3210, 0, EXP_H3210, OP_AND, ~15, OP_SLL, 0);
exe(OP_NOP, &kw, col, EXP_H3210, 0, EXP_H3210, 0, EXP_H3210, OP_AND, 12, OP_SLL, 1);
exe(OP_ADD, &r12, new, EXP_H3210, jw, EXP_H3210, 0, EXP_H3210, OP_NOP, 0, OP_NOP, 0);
exe(OP_ADD3, &r13, old, EXP_H3210, jw, EXP_H3210, kw, EXP_H3210, OP_NOP, 0, OP_NOP, 0);
mop(OP_LDWR, &r0, r12, 0, MSK_D0, new, WD, 0, 0, NULL, 0);
mop(OP_LDWR, &BR[4][0][1], r13, -16, MSK_D0, old, WD, 0, 0, NULL, 0);
mop(OP_LDWR, &r25, r13, -12, MSK_D0, old, WD, 0, 0, NULL, 0);
mop(OP_LDWR, &r28, r13, 0, MSK_D0, old, WD, 0, 0, NULL, 0);
exe(OP_MSSAD, &r11, 0, EXP_H3210, r0, EXP_H3210, r25, EXP_H3210, OP_NOP, 0, OP_NOP, 0);
exe(OP_MSSAD, &r10, 0, EXP_H3210, r0, EXP_H3210, BR[4][0][1], EXP_H3210, OP_NOP, 0, OP_NOP, 0);
exe(OP_MAUH, &r20, r10, EXP_H3210, r12, EXP_H3210, 0, EXP_H3210, OP_NOP, 0, OP_NOP, 0);
exe(OP_MAUH, &r10, r20, EXP_H3210, r24, EXP_H3210, 0, EXP_H3210, OP_SUMHL,0, OP_NOP, 0);
exe(OP_MAUH, &r11, r21, EXP_H3210, r25, EXP_H3210, 0, EXP_H3210, OP_SUMHH,0, OP_NOP, 0);
mop(OP_LDWR, &BR[9][0][1], out, col, MSK_D0, out, WD, 0, 1, NULL, 0);
exe(OP_MAUH3, &AR[9][0], BR[9][0][1], EXP_H3210, r10, EXP_H3210, r11, EXP_H3210, OP_NOP, 0, OP_NOP, 0);
mop(OP_STWR, &AR[9][0], col, out, MSK_D0, out, WD, 0, 1, NULL, 0);
: 次の行の処理が続く（LDの距離が7UNIT分なので、mapdist=7）
}
}
//EMAX5A end
}

20220202
5
フレーム補間処理2 類似度SADの中から最小値を選ぶ
for (row=8; row<HT-8; row+=4) {
Uint *xy = minxy+top*WD;
idx = ((ofs/2)&0xff)<<16;
l1 = ((-2)<<24)|idx|SAD1[row/4][ofs+4][col/4][0];
l4 = (( 0)<<24)|idx|SAD1[row/4][ofs+4][col/4][3];
if ((xy[row][col]&0xffff) > SAD1[row/4][ofs+4][col/4][0]) xy[row][col] = l1;
}
}
}

20220202
6
フレーム補間処理2 類似度SADの中から最小値を選ぶ
for (CHIP=0; CHIP<NCHIP; CHIP++) { /* output channels are parallelized by multi-chip (OC/#chip) */
exe(OP_ADD, &col, col, EXP_H3210, 4LL, EXP_H3210, 0, EXP_H3210, OP_AND, 0x000ffffffffLL, OP_NOP, 0);
/*k=-4*/
mop(OP_LDWR, &r10, t00, col, MSK_D0, t00, WD, 0, 0, NULL, 0);
exe(OP_NOP, &r28, -2<<24, EXP_H3210, 0, EXP_H3210, 0, EXP_H3210, OP_OR, ix0, OP_NOP, 0);
exe(OP_NOP, &r31, 1<<24, EXP_H3210, 0, EXP_H3210, 0, EXP_H3210, OP_OR, ix0, OP_NOP, 0);
exe(OP_MINL3, &r10, r29, EXP_H3210, r28, EXP_H3210, r10, EXP_H3210, OP_NOP, 0, OP_NOP, 0);
exe(OP_MINL3, &r12, ix0, EXP_H3210, r29, EXP_H3210, r12, EXP_H3210, OP_NOP, 0, OP_NOP, 0);
exe(OP_MINL3, &r14, ix0, EXP_H3210, ix0, EXP_H3210, r14, EXP_H3210, OP_NOP, 0, OP_NOP, 0);
exe(OP_MINL, &r20, r10, EXP_H3210, r12, EXP_H3210, 0, EXP_H3210, OP_NOP, 0, OP_NOP, 0);
/*k=-3*//*k=-2*//*k=-1*//*k=0*//*k=1*//*k=2*//*k=3*/
exe(OP_NOP, &r31, 1<<24, EXP_H3210, 0, EXP_H3210, 0, EXP_H3210, OP_OR, ix7, OP_NOP, 0);
exe(OP_MINL3, &r12, ix7, EXP_H3210, r29, EXP_H3210, r12, EXP_H3210, OP_NOP, 0, OP_NOP, 0);
exe(OP_MINL3, &r14, ix7, EXP_H3210, ix7, EXP_H3210, r14, EXP_H3210, OP_NOP, 0, OP_NOP, 0);
mop(OP_LDWR, &BR[33][0][1], xy, col, MSK_D0, xy, WD, 0, 1, NULL, 0);
exe(OP_MINL, &AR[33][0], r0, EXP_H3210, BR[33][0][1], EXP_H3210, 0, EXP_H3210, OP_NOP, 0, OP_NOP, 0);
mop(OP_STWR, &AR[33][0], col, xy, MSK_D0, xy, WD, 0, 1, NULL, 0);
}
}
//EMAX5A end
}
//EMAX5A drain_dirty_lmm

20220202
7
フレーム補間処理3 位置情報を使って画像を貼り付ける
for (row=8; row<HT-8; row++) {
x = (int) xy[row/4*4][col/4*4]>>24;
y = (int)(xy[row/4*4][col/4*4]<<8)>>24;
if (y == ofs) out[row][ofs] = in[row][ofs+x];
}
}
}

20220202
8
フレーム補間処理3 位置情報を使って画像を貼り付ける
for (CHIP=0; CHIP<NCHIP; CHIP++) {
exe(OP_NOP, &jw, col, EXP_H3210, 0, EXP_H3210, 0, EXP_H3210, OP_AND, ~15LL, OP_SLL, 0);
mop(OP_LDWR, &r10, xy, jw, MSK_D0, xy, WD, 0, 0, NULL, WD);
exe(OP_NOP, &r2, r10, EXP_H3210, 0, EXP_H3210, 0, EXP_H3210, OP_AND, 0xff000000LL, OP_SRAA, 22);/* x */
exe(OP_NOP, &r3, r10, EXP_H3210, 0, EXP_H3210, 0, EXP_H3210, OP_AND, 0x00ff0000LL, OP_SRAB, 16);/* y */
exe(OP_ADD, &r4, r2, EXP_H3210, col, EXP_H3210, 0, EXP_H3210, OP_NOP, 0, OP_NOP, 0);
mop(OP_LDWR, &r10, in0, r4, MSK_D0, in0, WD, 0, 0, NULL, WD);/*in0行目*/
exe(OP_CMP_EQ, &r5, r3, EXP_H3210, -2, EXP_H3210, 0, EXP_H3210, OP_NOP, 0, OP_NOP, 0);/* y==-2? */
exe(OP_CMOV, &r0, r5, EXP_H3210, r10, EXP_H3210, 0, EXP_H3210, OP_NOP, 0, OP_NOP, 0);
exe(OP_CMP_EQ, &r5, r3, EXP_H3210, -1, EXP_H3210, 0, EXP_H3210, OP_NOP, 0, OP_NOP, 0);/* y==-1? */
exe(OP_CMOV, &r0, r5, EXP_H3210, r10, EXP_H3210, r0, EXP_H3210, OP_NOP, 0, OP_NOP, 0);
exe(OP_CMP_EQ, &r5, r3, EXP_H3210, 0, EXP_H3210, 0, EXP_H3210, OP_NOP, 0, OP_NOP, 0);/* y== 0? */
exe(OP_CMP_EQ, &r5, r3, EXP_H3210, 1, EXP_H3210, 0, EXP_H3210, OP_NOP, 0, OP_NOP, 0);/* y== 1? */
mop(OP_STWR, &r0, out, col, MSK_D0, out, WD, 0, 1, NULL, WD);
}
}
//EMAX5A end
}

20220202
9
超解像
for (Y=0; Y<768; Y++) {
k = Y*240/768;
kfraq = (((Y*240)<<4)/768)&15;
for (X=0; X<1024; X++) {
l = X*320/1024;
lfraq = (((X*320)<<4)/1024)&15;/
out[Y][X] = ((in[k ][l ]>>24&0xff)*r1 + (in[k ][l-1]>>24&0xff)*r2 + (in[k ][l+1]>>24&0xff)*r3
+ (in[k-1][l ]>>24&0xff)*r4 + (in[k+1][l ]>>24&0xff)*r5 + (in[k-1][l-1]>>24&0xff)*r6
+ (in[k-1][l+1]>>24&0xff)*r7 + (in[k+1][l-1]>>24&0xff)*r8 + (in[k+1][l+1]>>24&0xff)*r9)/256<<24
| ((in[k ][l ]>>16&0xff)*r1 + (in[k ][l-1]>>16&0xff)*r2 + (in[k ][l+1]>>16&0xff)*r3
+ (in[k-1][l ]>>16&0xff)*r4 + (in[k+1][l ]>>16&0xff)*r5 + (in[k-1][l-1]>>16&0xff)*r6
+ (in[k-1][l+1]>>16&0xff)*r7 + (in[k+1][l-1]>>16&0xff)*r8 + (in[k+1][l+1]>>16&0xff)*r9)/256<<16
| ((in[k ][l ]>> 8&0xff)*r1 + (in[k ][l-1]>> 8&0xff)*r2 + (in[k ][l+1]>> 8&0xff)*r3
+ (in[k-1][l ]>> 8&0xff)*r4 + (in[k+1][l ]>> 8&0xff)*r5 + (in[k-1][l-1]>> 8&0xff)*r6
+ (in[k-1][l+1]>> 8&0xff)*r7 + (in[k+1][l-1]>> 8&0xff)*r8 + (in[k+1][l+1]>> 8&0xff)*r9)/256<<8;
}
}
K-1
K = Y*240/768
L-1 L = X*320/1024
(X,Y) 1024x768の1画素
(L,K) 320x240画像
kfraq = (((Y*240)<<4)/ 768)&15;/* 4bit */
lfraq = (((X*320)<<4)/1024)&15;/* 4bit */
Y=1 kfraq= 5/16
Y=2 kfraq=10/16
Y=3 kfraq=15/16
Y=4 kfraq= 4/16
Y=5 kfraq= 9/16
X=1 lfraq= 5/16
X=2 lfraq=10/16
X=3 lfraq=15/16
X=4 lfraq= 4/16
X=5 lfraq= 9/16

20220202
10
超解像
for (Y=0; Y<768; Y++) {
//EMAX5A begin expand4k mapdist=0
for (INIT0=1,LOOP0=1024; LOOP0--; INIT0=0) {
exe(OP_MSUH, &r1, r4, EXP_H3210, 8, EXP_H3210, 0, EXP_H3210, OP_NOP, 0, OP_NOP, 0);
exe(OP_MSUH, &r2, 8, EXP_H3210, r4, EXP_H3210, 0, EXP_H3210, OP_NOP, 0, OP_NOP, 0);
exe(OP_MSSAD, &r3, 0, EXP_H3210, r4, EXP_H3210, 8, EXP_H3210, OP_NOP, 0, OP_NOP, 0);
exe(OP_MSUH, &r3, 16, EXP_H3210, r3, EXP_H3210, 0, EXP_H3210, OP_NOP, 0, OP_NOP, 0);
exe(OP_MLUH, &r21, sk2, EXP_H3210, r1, EXP_H3210, 0, EXP_H3210, OP_NOP, 0, OP_NOP, 0);
mop(OP_LDWR, &r10, r0, -1276, MSK_D0, in, 320, 0, 0, NULL, 0);
exe(OP_MLUH, &r13, r10, EXP_B5410, r21, EXP_H3210, 0, EXP_H3210, OP_NOP, 0, OP_NOP, 0);
exe(OP_MAUH3, &r16, r13, EXP_H3210, r14, EXP_H3210, r15, EXP_H3210, OP_NOP, 0, OP_NOP, 0);
:
exe(OP_MAUH3, &r21, r17, EXP_H3210, r19, EXP_H3210, r21, EXP_H3210, OP_OR, 0, OP_SRLM, 8);
exe(OP_MAUH3, &r20, r16, EXP_H3210, r18, EXP_H3210, r20, EXP_H3210, OP_OR, 0, OP_SRLM, 8);
exe(OP_MH2BW, &r31, r21, EXP_H3210, r20, EXP_H3210, 0, EXP_H3210, OP_NOP, 0, OP_NOP, 0);
mop(OP_STWR, &r31, out++, 0, MSK_D0, out, 1024, 0, 0, NULL, 1024);
}
}
//EMAX5A end
}

20220202
11
ステレオマッチング
for (row=8; row<240-8; row++) {
for (Y=-8; Y<8; Y++) {
for (col=8; col<320-8; col++) {
for (X=-8; X<8; X++)
SAD2[row][col] += sad(L[row+Y][col+X+視差], R[row+Y][col+X]);
}
}
}

for (row=-8; row<240-8; row++) {
//EMAX5A begin wdifline mapdist=0
for (INIT0=1,LOOP0=320,col=0-4LL; LOOP0--; INIT0=0) {
exe(OP_ADD, &rofs1, L, EXP_H3210, col, EXP_H3210, 0, EXP_H3210, OP_NOP, 0, OP_NOP, 0);
exe(OP_ADD, &rofs2, R, EXP_H3210, col, EXP_H3210, 0, EXP_H3210, OP_NOP, 0, OP_NOP, 0);
mop(OP_LDWR, &r2, rofs1, 0, MSK_D0, L, 320, 0, 0, NULL, 320);
mop(OP_LDWR, &r6, rofs2, 0, MSK_D0, R, 320, 0, 0, NULL, 320);
exe(OP_MSAD, &r22, r2, EXP_H3210, r6, EXP_H3210, 0, EXP_H3210, OP_NOP, 0, OP_NOP, 0);
exe(OP_MSSAD, &r12, r22, EXP_H3210, r12, EXP_H3210, r16, EXP_H3210, OP_NOP, 0, OP_NOP, 0);
exe(OP_MAUH3, &r1, r31, EXP_H3210, r25, EXP_H3210, 0, EXP_H3210, OP_SUMHL,0, OP_NOP, 0);
mop(OP_LDWR, &BR[8][0][1], sad2, col, MSK_D0, sad2, 320, 0, 1, NULL, 320);
exe(OP_ADD, &AR[8][0], BR[8][0][1], EXP_H3210, r1, EXP_H3210, 0, EXP_H3210, OP_NOP, 0, OP_NOP, 0);
mop(OP_STWR, &AR[8][0], col, sad2, MSK_D0, sad2, 320, 0, 1, NULL, 320);
：のこり15か所のSADにも加算
}
}
//EMAX5A end
}
20220202
12
ステレオマッチング

20220202
13
今回のおさらい

PBL1-v1-004j.pptx

Recommandé

Recommandé

Contenu connexe

Similaire à PBL1-v1-004j.pptx

Similaire à PBL1-v1-004j.pptx (20)

Plus de NAIST

Plus de NAIST (18)

Dernier

Dernier (20)

PBL1-v1-004j.pptx

Notes de l'éditeur