Lecture 4 | Introduction to Neural Networks
/category/Deep%20Learning/cs231n

2022. 1. 21. 15:06

Lecture 4 | Introduction to Neural Networks

Backpropagation (역전파)

Computation graphs

💡 Computation graph는 단순히 계산과정을 그래프로 나타낸 것이다.

위에 수식에서는 score function, loss function(SVM)을 그래프화 시킨것이다.

backpropagation은 gradient를 얻기 위해 computation graph내부의 모든 변수에 대해 chain rule을 recursive하게 사용한다.

지금까지 배운 gradient를 구하는 방법을 다음과 같은 것들에 어떻게 적용할지 생각해보자.

배운것들을 적용할려니 막막할 것 이다. 하지만 backpropagation을 사용하면 쉽게 해결할 수 있다.

Backpropagation: a simple example

Computaion graph과 Backpropagation을 이용한 gradient를 구하는 과정은 다음과 같다.

식에 대해 Computation graph를 그린다.
input 값에 대해 순방향으로 계산하여 Computation graph에 표기한다.
Chain rule을 이용해 역방향으로 변화률을 계산한다.
최종적으로 input에 대한 output의 변화률을 구한다.

그럼 이제 Backpropagation의 간단한 예시를 살펴보자.

다음과 같이 f(x, y, z) = (x + y)z라는 식이 있을 때 위에 과정을 통해 gradient를 구해보자.

식에 대해 Computation graph를 그린다.

input 값에 대해 순방향으로 계산하여 Computation graph에 표기한다.

(여기서는 임의의 값 x = -2, y = 5, z = -4라는 것을 주었음)

Chain rule을 이용해 역방향으로 변화률을 계산한다.

(설명을 쉽게하기 위해 q = x + y로 치환하였음)

먼저 계산을 쉽게하기위해 각 함수들이 미분을 구하자.

다음으로 위에 구해진 미분을 바탕으로 Backpropagation적용

최종적으로 input에 대한 output의 변화률을 구한다.

Backpropagation의 특징

Backpropagation의 특징은 위에서 계산한 것과 같이 local gradient만을 계산한다는 것이다. 이러한 Backpropagation의 특징은 복잡한 차원, 복잡한 수식이라도 세분화하여 local단위로 계산하기 때문에 쉽게 적용할 수 있다.

다음 한 가지의 다른 예를 살펴보자.

이번에는 조금 더 복잡한 수식을 backpropagation을 이용해 gradient를 구해보자.

1, 2. 식에 대해 Computation graph를 그리고 input 값에 대해 순방향으로 계산하여 Computation graph에 표기한다.

Chain rule을 이용해 역방향으로 변화률을 계산한다.

먼저 계산을 쉽게하기위해 각 함수들이 미분을 구하자.

다음으로 위에 구해진 미분을 바탕으로 Backpropagation적용

각 노드의 계산은 아래와 같은 전반적인 rule을 따른다.

(현재 노드 값에 대한 다음 노드 값의 변화율) x (지금까지 backpropagation으로 전달된 gradient)

최종적으로 input에 대한 output의 변화률을 구한다.

Backpropagation 증명

그럼 이렇게 구한 gradient가 일반적으로 우리가 해석적으로 구한 gradient와 같은지 살펴보자.

위에 예시로 사용했던 Computation graph를 다시 가져와보자.

사실 이 그래프에는 Sigmoid 함수가 속해 있었다. 우리가 계산한 Computation graph에 따르면 Sigmoid 함수를 미분한 식에 0.73을 넣으면 0.20이라는 정답을 구할 수 있다.

그럼 이번에는 해석학적으로 직접 미분을 통해 구해보자. Sigmoid 함수와 미분한 식은 다음과 같다.

Sigmoid 함수는 지수함수이기 때문에 미분을 하면 자기자신을 포함한 식이 나온다.

이제 구한 식에 0.73을 넣어보자.

놀랍게도 0.2라는 결과를 얻었다. 이렇게 우리가 Backpropagation과 Computation graph를 통해 구한 gradient가 해석학적으로 구한 gradient와 일치한다는 것이 증명되었다.

Pattern in backward flow

Backpropagation과정에서 다음과 같은 특징을 찾을 수 있다.

add gate: gradient distributor

더하기 연산은 upstream gradient(지금까지 전달한 gradient)를 분배하여 전달한다.

max gate: gradient router

max(a,b)연산은 router역할을 하여 들어온 노드에 대해서 upstream gradient(지금까지 전달한 gradient)를 그대로 전달하고 다른 노드한테는 0을 전달한다.

mul gate: gradient swicher

곱하기 연산은 upstream gradient(지금까지 전달한 gradient)에 한 노드에서 들어온 값을 제외한 다른 노드들을 곱하여 전달한다.

<참고 사항>

다음과 같이 하나의 노드에서 branch가 두 개이상이면 전달받은 gradient를 더한다.

Gradients for vectorized code

지금까지 우리는 scala값들에 대해서 Backpropagation을 살펴보았다. 그럼이제 input값이 vector인 상황에 대해서 Backpropagation을 살펴보자.

전반적으로 형태는 scala때와 다를게 없다. 다른 것이 있다면 gradient를 전달 할 대 Jacobian matrix를 사용한다는 것이다.

Jacobian matrix간단 정리

https://m.blog.naver.com/jinohpark79/110190680093

02. 편미분을 간단하게! Jacobian Matrix

우리가 어떤 일을 할 때, 복잡한 함수의 미분을 수행할 때 고등학교 / 대학교 때의 기억을 떠 올리며, 미분...

blog.naver.com

→ 위에 식에서는 x1~xn에 대하여 각각 x1에 대한 z1의 변화률, x1에 대한 z2의 변화률, x1에 대한 z3의 변화률,......,x1에 대한 zn의 변화률을 matrix형태로 나타낸 것이다. 따라서 Jacobian matrix의 shape은 len(x) x len(z)가 된다.

Vectorized operations

구체적으로 vectorized operation에 대해 알아보자.

input으로 4096차원의 vector가 들어온다면 위에 보이는 것과 같이 4096차원의 vector가 output으로 생겨날 것이다.

그렇다면 여기서 jacobian matrix의 크기는 얼마일까?

→ 그 답은 4096 x 4096의 matrix가 만들어 질 것이다.

하지만 이것은 하나의 vector만을 사용했을 경우이다. 만약 batch를 100으로 사용한다면 jacobian matrix의 크기는 4096000 x 4096000이 될 것이다. 이 수치는 매우 거대하기 때문에 작업에 효율적이지 않다.

그렇다면 어떻게 jacobian matrix를 구성할까?

→ 구성할 필요가 없다. 우리는 출력에 대한 x의 영향에 대해서 그리고 이 값을 사용하는 것에 대해서만 알면된다.

A vectorized example

이번에는 세분화된 노드단위에서 vectorize가 어떻게 이루어 지는 지 살펴보자.

다음과 같은 수식이 있다. 여기서 x는 n차원, W는 nxn차원이다. 위에서 배운 backpropagation을 적용해 보자.

식에 대해 Computation graph를 그린다.

input 값에 대해 순방향으로 계산하여 Computation graph에 표기한다.

Chain rule을 이용해 역방향으로 변화률을 계산한다.

먼저 계산을 쉽게하기위해 각 함수들이 미분을 구하자.

다음으로 위에 구해진 미분을 바탕으로 Backpropagation적용

최종적으로 input에 대한 output의 변화률을 구한다.

scala 계산과 별 다를 것 없이 구했다.

단. vector연산을 할 때 주의할 점은 반드시 연산하는 두 vector가 똑같은 크기 인지 확인 해야한다.

Modularized implementation

지금까지 배운 Computaion graph와 backpropagation을 그리는 방법을 psuedo code로 나타내면 다음과 같다.

Neural Networks (신경망)

지금까지 우리는 Linear score function에 대해서만 다뤘다. 이제 2-layer Neural Network에 대해 알아보자.

2-layer Neural Network는 우리가 배운 Linear score fundtion값에 또 다른 W를 곱해 다른 score를 구한 것이다.

Linear score funtion과 2-layer Neural Network와의 차이는 무엇일까?

→ Linear score funtion는 아래의 10개의 class중 car가 무엇에 속하는 지 찾아낼 수 있다. 하지만 그것이 노란차인지 빨간차인지는 구별하지 못한다. 반면에 2-layer Neural Network는 1번 W에서 10 class중 car가 무엇인지 찾아내고 더 나아가 2번 W에서 노란차, 빨간차등등의 차에 대한 세분화된 특징을 찾아낸다.

이런 2-layer Neural Network는 20줄 정도로 구현할 수 있다.

Activation functions

Neural networks: Architectures

Syllabus

http://cs231n.stanford.edu/2017/syllabus.html

Youtube

https://www.youtube.com/playlist?list=PL3FW7Lu3i5JvHM8ljYj-zLfQRF3EO8sYv

'Deep Learning > cs231n' 카테고리의 다른 글

Lecture 6 \| Training Neural Networks I (0)	2022.02.05
Lecture 5 \| Convolutional Neural Networks (0)	2022.01.28
Lecture 3 \| Loss Functions and Optimization (0)	2022.01.15
Lecture 2 \| Image Classification (0)	2022.01.14
Lecture 0 \| CS321n (0)	2022.01.14

Jimin's history

CATEGORIES