DL from scratch(4~5)

밑바닥부터 시작하는 딥러닝
박성현 zkfthfl123@naver.com

목차
1. 신경망 학습
2. 오차 역전파법

신경망 학습
• 학습?
훈련 데이터로부터 가중치 매개변수의 최적값을 자동으로 획득하는 것
• 신경망이 학습할 수 있도록 해주는 지표 : 손실 함수

손실 함수
• 신경망 학습에서는 현재의 상태를 ‘하나의 지표’로 표현한다.
• 그 지표를 가장 좋게 만들어주는 가중치 매개변수의 값을 탐색해야 한다.
• 신경망 학습에서 사용하는 지표는 손실함수라고 한다.
• 손실 함수?
신경망 성능의 ‘나쁨’을 나타내는 지표

손실 함수
평균 제곱 오차 교차 엔트로피 오차
𝐸 =
1
2
෍
𝑘
(𝑦 𝑘 − 𝑡 𝑘 )2 𝐸 = − ෍
𝑘
𝑡 𝑘 log 𝑦 𝑘
Log(0) 을 방지
참고 : 자연로그 그래프

미니배치 학습
𝐸 = −
1
𝑁
෍
𝑛
෍
𝑘
𝑡 𝑛𝑘 log 𝑦 𝑛𝑘
N 개의 훈련 데이터에 대한 손실 함수
만약 훈련 데이터가 60,000개라면?
-> 많은 시간이 소요
-> 데이터의 일부(미니 배치)를 추려 전체의 ‘근사치’로 이용하자.

배치용 교차 엔트로피 오차 구현

왜 손실함수를 지표로 사용할까?
• 궁극적 목표 -> 정확도를 최대로
• 정확도로 지표로 사용하면 안될까?
• 신경망의 학습은…
지표를 가중치 매개변수로 미분하여 매개변수를 갱신하는 방법을 이용한다.
• 정확도를 지표로 하면…
매개변수의 미분이 대부분의 장소에서 0이 되어 매개변수를 갱신할 수 없다.

왜 손실함수를 지표로 사용할까?
계단 함수 대신 시그모이드 함수를 이용하는 이유와 같다.
계단 함수 : 매개변수의 작은 변화를 무시
시그모이드 함수 : 매개변수의 작은 변화에도 반응

수치미분
• 미분을 하는 간단한 방법
전방 차분 :
𝑑𝑓(𝑥)
𝑑𝑥
= lim
ℎ→0
𝑓 𝑥+ℎ −𝑓(𝑥)
ℎ
중심 차분 :
𝑑𝑓(𝑥)
𝑑𝑥
= lim
ℎ→0
𝑓 𝑥+ℎ −𝑓(𝑥−ℎ)
2∗ℎ
참고

편미분
• 변수가 여럿인 함수에 대한 미분
• 특정 장소의 기울기
=?
=?

편미분을 통한 기울기 계산

경사 하강법
• 기울기를 이용해 함수의 최솟값을 찾는 법 (기울기가 0 인 지점)
𝑥0 = 𝑥0 − 𝜂
𝜕𝑓
𝜕𝑥0
𝑥1 = 𝑥1 − 𝜂
𝜕𝑓
𝜕𝑥1

신경망에서의 적용
• 신경망에서의 기울기
𝑊 =
𝑤11 𝑤12 𝑤13
𝑤21 𝑤22 𝑤23
𝜕𝐿
𝜕𝑊
=
𝜕𝐿
𝜕𝑤11
𝜕𝐿
𝜕𝑤12
𝜕𝐿
𝜕𝑤13
𝜕𝐿
𝜕𝑤21
𝜕𝐿
𝜕𝑤22
𝜕𝐿
𝜕𝑤23
𝝏𝑳
𝝏𝑾
: 각각의 원소에 관한 편미분
𝜕𝐿
𝜕𝑤11
: 𝑤11를 조금 변경했을 때 손실함수 L 이 얼마나
변화하는지 나타낸다.
형상이 같다.

신경망에서의 적용 구현
수치 미분 함수를 다차원 배열을 처리할 수 있도록 수정
참고하는 변수값을 변경
할 수 있게 해주는 함수

클래스 정의
랜덤수로 가중치 초기화
예측 수행
손실 함수의 값을 구함
정확도 계산
가중치 매개변수 기울기 계산

정리
• 신경망 학습은 손실함수를 지표로, 손실 함수의 값이 작아지는
방향으로 가중치 매개변수를 갱신한다.
• 수치 미분을 이용해 가중치 매개변수의 기울기를 구할 수 있다.
• 수치 미분은 구현이 간단하지만 시간이 오래 걸린다.

오차역전파법
• 수치 미분은 단순하고 구현하기도 쉽다.
• 하지만 계산 시간이 오래 걸린다.
• 가중치 매개변수의 기울기를 효율적으로 계산하는 방법은?
오차역전파법

오차역전파법
𝑓(𝑥) 𝑔(𝑦)
𝑥 𝑦 𝑧
𝜕𝑧
𝜕𝑧
(= 1)
𝜕𝑧
𝜕𝑦
𝜕𝑧
𝜕𝑥
=
𝜕𝑧
𝜕𝑧
𝜕𝑧
𝜕𝑦
=
𝜕𝑧
𝜕𝑧
𝜕𝑧
𝜕𝑦
𝜕𝑦
𝜕𝑥
*연쇄법칙 수치 미분으로 구한다면?
𝜕𝑧
𝜕𝑥
= lim
ℎ→0
𝑔(𝑓(𝑥 + ℎ)) − 𝑔(𝑓(𝑥 − ℎ))
2 ∗ ℎ
? 불확실
각 노드의 미분을 구할 수 있다.

다양한 노드의 역전파
+
𝑧 = 𝑥 + 𝑦
𝑥
𝑦
𝑧
+
𝜕𝐿
𝜕𝑧
∗ 1
𝜕𝐿
𝜕𝑧
∗ 1
𝜕𝐿
𝜕𝑧
𝜕𝑧
𝜕𝑥
= 1
𝜕𝑧
𝜕𝑦
= 1
x
𝑧 = 𝑥𝑦
𝑥
𝑦
𝑧
x
𝜕𝐿
𝜕𝑧
∗ 𝑦
𝜕𝐿
𝜕𝑧
∗ 𝑥
𝜕𝐿
𝜕𝑧
𝜕𝑧
𝜕𝑥
= 𝑦
𝜕𝑧
𝜕𝑦
= 𝑥

relu
𝑥
𝜕𝐿
𝜕𝑥
𝑦
𝜕𝐿
𝜕𝑦
𝑅𝑒𝐿𝑈
relu
𝑥
0
𝑦
𝜕𝐿
𝜕𝑦
𝑥 > 0 𝑥 ≤ 0
sig
𝑥
𝜕𝐿
𝜕𝑦
𝑦(1 − 𝑦)
𝑦
𝜕𝐿
𝜕𝑦
𝑆𝑖𝑔𝑚𝑜𝑖𝑑
풀이과정 생략

∙
𝑌 = 𝑋 ∙ 𝑊
𝑋
𝑊
𝑌
𝑋 𝑇
∙
𝜕𝐿
𝜕𝑌
𝜕𝐿
𝜕𝑌
𝜕𝐿
𝜕𝑋
=
𝜕𝐿
𝜕𝑌
∙ 𝑊 𝑇
𝜕𝐿
𝜕𝑊
= 𝑋 𝑇
∙
𝜕𝐿
𝜕𝑌
Affine 계층 (행렬의 내적)
𝜕𝐿
𝜕𝑌
∙ 𝑊 𝑇
∙
증명 : https://edwardshu.com/posts/matrix-matrix-gradient
참고 : https://nbviewer.jupyter.org/github/metamath1/ml-simple-works/blob/master/fitting/matrix-derivative.ipynb#vec%EA%B3%BC-vec-%EC%A0%84%EC%B9%98[2]
𝑋 = 𝑚, 𝑛
𝑊 = 𝑛, 𝐻
𝑌 = 𝑚, 𝐻
𝐿 = 𝑓(𝑌)

soft
𝑎
𝑦 − 𝑡
𝐿
1
𝑠𝑜𝑓𝑡𝑚𝑎𝑥 − 𝑤𝑖𝑡ℎ − 𝑙𝑜𝑠𝑠
풀이과정 생략
corss
𝑦
𝑡

정리
• 신경망의 구성 요소를 계층으로 구현하여 기울기를 효율적으로
계산할 수 있다.(오차역전파법)
• 오차역전파법으로 각 노드의 미분을 구할 수 있다.

DL from scratch(4~5)

Recommandé

Recommandé

Contenu connexe

Tendances

Tendances (20)

Similaire à DL from scratch(4~5)

Similaire à DL from scratch(4~5) (20)

Dernier

Dernier (8)

DL from scratch(4~5)