Lecture 4 | Introduction to Neural Networks

2022. 1. 21. 15:06

Lecture 4 | Introduction to Neural Networks


Backpropagation (์—ญ์ „ํŒŒ)

Computation graphs

๐Ÿ’ก Computation graph๋Š” ๋‹จ์ˆœํžˆ ๊ณ„์‚ฐ๊ณผ์ •์„ ๊ทธ๋ž˜ํ”„๋กœ ๋‚˜ํƒ€๋‚ธ ๊ฒƒ์ด๋‹ค.

์œ„์— ์ˆ˜์‹์—์„œ๋Š” score function, loss function(SVM)์„ ๊ทธ๋ž˜ํ”„ํ™” ์‹œํ‚จ๊ฒƒ์ด๋‹ค.

backpropagation์€ gradient๋ฅผ ์–ป๊ธฐ ์œ„ํ•ด computation graph๋‚ด๋ถ€์˜ ๋ชจ๋“  ๋ณ€์ˆ˜์— ๋Œ€ํ•ด chain rule์„ recursiveํ•˜๊ฒŒ ์‚ฌ์šฉํ•œ๋‹ค.

์ง€๊ธˆ๊นŒ์ง€ ๋ฐฐ์šด gradient๋ฅผ ๊ตฌํ•˜๋Š” ๋ฐฉ๋ฒ•์„ ๋‹ค์Œ๊ณผ ๊ฐ™์€ ๊ฒƒ๋“ค์— ์–ด๋–ป๊ฒŒ ์ ์šฉํ• ์ง€ ์ƒ๊ฐํ•ด๋ณด์ž.

๋ฐฐ์šด๊ฒƒ๋“ค์„ ์ ์šฉํ• ๋ ค๋‹ˆ ๋ง‰๋ง‰ํ•  ๊ฒƒ ์ด๋‹ค. ํ•˜์ง€๋งŒ backpropagation์„ ์‚ฌ์šฉํ•˜๋ฉด ์‰ฝ๊ฒŒ ํ•ด๊ฒฐํ•  ์ˆ˜ ์žˆ๋‹ค.

Backpropagation: a simple example

Computaion graph๊ณผ Backpropagation์„ ์ด์šฉํ•œ gradient๋ฅผ ๊ตฌํ•˜๋Š” ๊ณผ์ •์€ ๋‹ค์Œ๊ณผ ๊ฐ™๋‹ค.

  1. ์‹์— ๋Œ€ํ•ด Computation graph๋ฅผ ๊ทธ๋ฆฐ๋‹ค.
  2. input ๊ฐ’์— ๋Œ€ํ•ด ์ˆœ๋ฐฉํ–ฅ์œผ๋กœ ๊ณ„์‚ฐํ•˜์—ฌ Computation graph์— ํ‘œ๊ธฐํ•œ๋‹ค.
  3. Chain rule์„ ์ด์šฉํ•ด ์—ญ๋ฐฉํ–ฅ์œผ๋กœ ๋ณ€ํ™”๋ฅ ์„ ๊ณ„์‚ฐํ•œ๋‹ค.
  4. ์ตœ์ข…์ ์œผ๋กœ input์— ๋Œ€ํ•œ output์˜ ๋ณ€ํ™”๋ฅ ์„ ๊ตฌํ•œ๋‹ค.

๊ทธ๋Ÿผ ์ด์ œ Backpropagation์˜ ๊ฐ„๋‹จํ•œ ์˜ˆ์‹œ๋ฅผ ์‚ดํŽด๋ณด์ž.

๋‹ค์Œ๊ณผ ๊ฐ™์ด f(x, y, z) = (x + y)z๋ผ๋Š” ์‹์ด ์žˆ์„ ๋•Œ ์œ„์— ๊ณผ์ •์„ ํ†ตํ•ด gradient๋ฅผ ๊ตฌํ•ด๋ณด์ž.

  1. ์‹์— ๋Œ€ํ•ด Computation graph๋ฅผ ๊ทธ๋ฆฐ๋‹ค.

  1. input ๊ฐ’์— ๋Œ€ํ•ด ์ˆœ๋ฐฉํ–ฅ์œผ๋กœ ๊ณ„์‚ฐํ•˜์—ฌ Computation graph์— ํ‘œ๊ธฐํ•œ๋‹ค.

(์—ฌ๊ธฐ์„œ๋Š” ์ž„์˜์˜ ๊ฐ’ x = -2, y = 5, z = -4๋ผ๋Š” ๊ฒƒ์„ ์ฃผ์—ˆ์Œ)

  1. Chain rule์„ ์ด์šฉํ•ด ์—ญ๋ฐฉํ–ฅ์œผ๋กœ ๋ณ€ํ™”๋ฅ ์„ ๊ณ„์‚ฐํ•œ๋‹ค.

(์„ค๋ช…์„ ์‰ฝ๊ฒŒํ•˜๊ธฐ ์œ„ํ•ด q = x + y๋กœ ์น˜ํ™˜ํ•˜์˜€์Œ)

๋จผ์ € ๊ณ„์‚ฐ์„ ์‰ฝ๊ฒŒํ•˜๊ธฐ์œ„ํ•ด ๊ฐ ํ•จ์ˆ˜๋“ค์ด ๋ฏธ๋ถ„์„ ๊ตฌํ•˜์ž.

๋‹ค์Œ์œผ๋กœ ์œ„์— ๊ตฌํ•ด์ง„ ๋ฏธ๋ถ„์„ ๋ฐ”ํƒ•์œผ๋กœ Backpropagation์ ์šฉ

  1. ์ตœ์ข…์ ์œผ๋กœ input์— ๋Œ€ํ•œ output์˜ ๋ณ€ํ™”๋ฅ ์„ ๊ตฌํ•œ๋‹ค.

 

Backpropagation์˜ ํŠน์ง•

Backpropagation์˜ ํŠน์ง•์€ ์œ„์—์„œ ๊ณ„์‚ฐํ•œ ๊ฒƒ๊ณผ ๊ฐ™์ด local gradient๋งŒ์„ ๊ณ„์‚ฐํ•œ๋‹ค๋Š” ๊ฒƒ์ด๋‹ค. ์ด๋Ÿฌํ•œ Backpropagation์˜ ํŠน์ง•์€ ๋ณต์žกํ•œ ์ฐจ์›, ๋ณต์žกํ•œ ์ˆ˜์‹์ด๋ผ๋„ ์„ธ๋ถ„ํ™”ํ•˜์—ฌ local๋‹จ์œ„๋กœ ๊ณ„์‚ฐํ•˜๊ธฐ ๋•Œ๋ฌธ์— ์‰ฝ๊ฒŒ ์ ์šฉํ•  ์ˆ˜ ์žˆ๋‹ค.

๋‹ค์Œ ํ•œ ๊ฐ€์ง€์˜ ๋‹ค๋ฅธ ์˜ˆ๋ฅผ ์‚ดํŽด๋ณด์ž.

์ด๋ฒˆ์—๋Š” ์กฐ๊ธˆ ๋” ๋ณต์žกํ•œ ์ˆ˜์‹์„ backpropagation์„ ์ด์šฉํ•ด gradient๋ฅผ ๊ตฌํ•ด๋ณด์ž.

1, 2. ์‹์— ๋Œ€ํ•ด Computation graph๋ฅผ ๊ทธ๋ฆฌ๊ณ  input ๊ฐ’์— ๋Œ€ํ•ด ์ˆœ๋ฐฉํ–ฅ์œผ๋กœ ๊ณ„์‚ฐํ•˜์—ฌ Computation graph์— ํ‘œ๊ธฐํ•œ๋‹ค.

  1. Chain rule์„ ์ด์šฉํ•ด ์—ญ๋ฐฉํ–ฅ์œผ๋กœ ๋ณ€ํ™”๋ฅ ์„ ๊ณ„์‚ฐํ•œ๋‹ค.

๋จผ์ € ๊ณ„์‚ฐ์„ ์‰ฝ๊ฒŒํ•˜๊ธฐ์œ„ํ•ด ๊ฐ ํ•จ์ˆ˜๋“ค์ด ๋ฏธ๋ถ„์„ ๊ตฌํ•˜์ž.

๋‹ค์Œ์œผ๋กœ ์œ„์— ๊ตฌํ•ด์ง„ ๋ฏธ๋ถ„์„ ๋ฐ”ํƒ•์œผ๋กœ Backpropagation์ ์šฉ

๊ฐ ๋…ธ๋“œ์˜ ๊ณ„์‚ฐ์€ ์•„๋ž˜์™€ ๊ฐ™์€ ์ „๋ฐ˜์ ์ธ rule์„ ๋”ฐ๋ฅธ๋‹ค.

(ํ˜„์žฌ ๋…ธ๋“œ ๊ฐ’์— ๋Œ€ํ•œ ๋‹ค์Œ ๋…ธ๋“œ ๊ฐ’์˜ ๋ณ€ํ™”์œจ) x (์ง€๊ธˆ๊นŒ์ง€ backpropagation์œผ๋กœ ์ „๋‹ฌ๋œ gradient)

  1. ์ตœ์ข…์ ์œผ๋กœ input์— ๋Œ€ํ•œ output์˜ ๋ณ€ํ™”๋ฅ ์„ ๊ตฌํ•œ๋‹ค.

 

Backpropagation ์ฆ๋ช…

๊ทธ๋Ÿผ ์ด๋ ‡๊ฒŒ ๊ตฌํ•œ gradient๊ฐ€ ์ผ๋ฐ˜์ ์œผ๋กœ ์šฐ๋ฆฌ๊ฐ€ ํ•ด์„์ ์œผ๋กœ ๊ตฌํ•œ gradient์™€ ๊ฐ™์€์ง€ ์‚ดํŽด๋ณด์ž.

์œ„์— ์˜ˆ์‹œ๋กœ ์‚ฌ์šฉํ–ˆ๋˜ Computation graph๋ฅผ ๋‹ค์‹œ ๊ฐ€์ ธ์™€๋ณด์ž.

์‚ฌ์‹ค ์ด ๊ทธ๋ž˜ํ”„์—๋Š” Sigmoid ํ•จ์ˆ˜๊ฐ€ ์†ํ•ด ์žˆ์—ˆ๋‹ค. ์šฐ๋ฆฌ๊ฐ€ ๊ณ„์‚ฐํ•œ Computation graph์— ๋”ฐ๋ฅด๋ฉด Sigmoid ํ•จ์ˆ˜๋ฅผ ๋ฏธ๋ถ„ํ•œ ์‹์— 0.73์„ ๋„ฃ์œผ๋ฉด 0.20์ด๋ผ๋Š” ์ •๋‹ต์„ ๊ตฌํ•  ์ˆ˜ ์žˆ๋‹ค.

๊ทธ๋Ÿผ ์ด๋ฒˆ์—๋Š” ํ•ด์„ํ•™์ ์œผ๋กœ ์ง์ ‘ ๋ฏธ๋ถ„์„ ํ†ตํ•ด ๊ตฌํ•ด๋ณด์ž. Sigmoid ํ•จ์ˆ˜์™€ ๋ฏธ๋ถ„ํ•œ ์‹์€ ๋‹ค์Œ๊ณผ ๊ฐ™๋‹ค.

Sigmoid ํ•จ์ˆ˜๋Š” ์ง€์ˆ˜ํ•จ์ˆ˜์ด๊ธฐ ๋•Œ๋ฌธ์— ๋ฏธ๋ถ„์„ ํ•˜๋ฉด ์ž๊ธฐ์ž์‹ ์„ ํฌํ•จํ•œ ์‹์ด ๋‚˜์˜จ๋‹ค.

์ด์ œ ๊ตฌํ•œ ์‹์— 0.73์„ ๋„ฃ์–ด๋ณด์ž.

๋†€๋ž๊ฒŒ๋„ 0.2๋ผ๋Š” ๊ฒฐ๊ณผ๋ฅผ ์–ป์—ˆ๋‹ค. ์ด๋ ‡๊ฒŒ ์šฐ๋ฆฌ๊ฐ€ Backpropagation๊ณผ Computation graph๋ฅผ ํ†ตํ•ด ๊ตฌํ•œ gradient๊ฐ€ ํ•ด์„ํ•™์ ์œผ๋กœ ๊ตฌํ•œ gradient์™€ ์ผ์น˜ํ•œ๋‹ค๋Š” ๊ฒƒ์ด ์ฆ๋ช…๋˜์—ˆ๋‹ค.

Pattern in backward flow

Backpropagation๊ณผ์ •์—์„œ ๋‹ค์Œ๊ณผ ๊ฐ™์€ ํŠน์ง•์„ ์ฐพ์„ ์ˆ˜ ์žˆ๋‹ค.

  • add gate: gradient distributor

๋”ํ•˜๊ธฐ ์—ฐ์‚ฐ์€ upstream gradient(์ง€๊ธˆ๊นŒ์ง€ ์ „๋‹ฌํ•œ gradient)๋ฅผ ๋ถ„๋ฐฐํ•˜์—ฌ ์ „๋‹ฌํ•œ๋‹ค.

  • max gate: gradient router

max(a,b)์—ฐ์‚ฐ์€ router์—ญํ• ์„ ํ•˜์—ฌ ๋“ค์–ด์˜จ ๋…ธ๋“œ์— ๋Œ€ํ•ด์„œ upstream gradient(์ง€๊ธˆ๊นŒ์ง€ ์ „๋‹ฌํ•œ gradient)๋ฅผ ๊ทธ๋Œ€๋กœ ์ „๋‹ฌํ•˜๊ณ  ๋‹ค๋ฅธ ๋…ธ๋“œํ•œํ…Œ๋Š” 0์„ ์ „๋‹ฌํ•œ๋‹ค.

  • mul gate: gradient swicher

๊ณฑํ•˜๊ธฐ ์—ฐ์‚ฐ์€ upstream gradient(์ง€๊ธˆ๊นŒ์ง€ ์ „๋‹ฌํ•œ gradient)์— ํ•œ ๋…ธ๋“œ์—์„œ ๋“ค์–ด์˜จ ๊ฐ’์„ ์ œ์™ธํ•œ ๋‹ค๋ฅธ ๋…ธ๋“œ๋“ค์„ ๊ณฑํ•˜์—ฌ ์ „๋‹ฌํ•œ๋‹ค.

๋”๋ณด๊ธฐ

<์ฐธ๊ณ  ์‚ฌํ•ญ>

๋‹ค์Œ๊ณผ ๊ฐ™์ด ํ•˜๋‚˜์˜ ๋…ธ๋“œ์—์„œ branch๊ฐ€ ๋‘ ๊ฐœ์ด์ƒ์ด๋ฉด ์ „๋‹ฌ๋ฐ›์€ gradient๋ฅผ ๋”ํ•œ๋‹ค.

 

Gradients for vectorized code

์ง€๊ธˆ๊นŒ์ง€ ์šฐ๋ฆฌ๋Š” scala๊ฐ’๋“ค์— ๋Œ€ํ•ด์„œ Backpropagation์„ ์‚ดํŽด๋ณด์•˜๋‹ค. ๊ทธ๋Ÿผ์ด์ œ input๊ฐ’์ด vector์ธ ์ƒํ™ฉ์— ๋Œ€ํ•ด์„œ Backpropagation์„ ์‚ดํŽด๋ณด์ž.

 

์ „๋ฐ˜์ ์œผ๋กœ ํ˜•ํƒœ๋Š” scala๋•Œ์™€ ๋‹ค๋ฅผ๊ฒŒ ์—†๋‹ค. ๋‹ค๋ฅธ ๊ฒƒ์ด ์žˆ๋‹ค๋ฉด gradient๋ฅผ ์ „๋‹ฌ ํ•  ๋Œ€ Jacobian matrix๋ฅผ ์‚ฌ์šฉํ•œ๋‹ค๋Š” ๊ฒƒ์ด๋‹ค.

๋”๋ณด๊ธฐ

Jacobian matrix๊ฐ„๋‹จ ์ •๋ฆฌ

https://m.blog.naver.com/jinohpark79/110190680093

 

02. ํŽธ๋ฏธ๋ถ„์„ ๊ฐ„๋‹จํ•˜๊ฒŒ! Jacobian Matrix

์šฐ๋ฆฌ๊ฐ€ ์–ด๋–ค ์ผ์„ ํ•  ๋•Œ, ๋ณต์žกํ•œ ํ•จ์ˆ˜์˜ ๋ฏธ๋ถ„์„ ์ˆ˜ํ–‰ํ•  ๋•Œ ๊ณ ๋“ฑํ•™๊ต / ๋Œ€ํ•™๊ต ๋•Œ์˜ ๊ธฐ์–ต์„ ๋–  ์˜ฌ๋ฆฌ๋ฉฐ, ๋ฏธ๋ถ„...

blog.naver.com

→ ์œ„์— ์‹์—์„œ๋Š” x1~xn์— ๋Œ€ํ•˜์—ฌ ๊ฐ๊ฐ x1์— ๋Œ€ํ•œ z1์˜ ๋ณ€ํ™”๋ฅ , x1์— ๋Œ€ํ•œ z2์˜ ๋ณ€ํ™”๋ฅ , x1์— ๋Œ€ํ•œ z3์˜ ๋ณ€ํ™”๋ฅ ,......,x1์— ๋Œ€ํ•œ zn์˜ ๋ณ€ํ™”๋ฅ ์„ matrixํ˜•ํƒœ๋กœ ๋‚˜ํƒ€๋‚ธ ๊ฒƒ์ด๋‹ค. ๋”ฐ๋ผ์„œ Jacobian matrix์˜ shape์€ len(x) x len(z)๊ฐ€ ๋œ๋‹ค.

 

Vectorized operations

๊ตฌ์ฒด์ ์œผ๋กœ vectorized operation์— ๋Œ€ํ•ด ์•Œ์•„๋ณด์ž.

input์œผ๋กœ 4096์ฐจ์›์˜ vector๊ฐ€ ๋“ค์–ด์˜จ๋‹ค๋ฉด ์œ„์— ๋ณด์ด๋Š” ๊ฒƒ๊ณผ ๊ฐ™์ด 4096์ฐจ์›์˜ vector๊ฐ€ output์œผ๋กœ ์ƒ๊ฒจ๋‚  ๊ฒƒ์ด๋‹ค.

๊ทธ๋ ‡๋‹ค๋ฉด ์—ฌ๊ธฐ์„œ jacobian matrix์˜ ํฌ๊ธฐ๋Š” ์–ผ๋งˆ์ผ๊นŒ?

→ ๊ทธ ๋‹ต์€ 4096 x 4096์˜ matrix๊ฐ€ ๋งŒ๋“ค์–ด ์งˆ ๊ฒƒ์ด๋‹ค.

ํ•˜์ง€๋งŒ ์ด๊ฒƒ์€ ํ•˜๋‚˜์˜ vector๋งŒ์„ ์‚ฌ์šฉํ–ˆ์„ ๊ฒฝ์šฐ์ด๋‹ค. ๋งŒ์•ฝ batch๋ฅผ 100์œผ๋กœ ์‚ฌ์šฉํ•œ๋‹ค๋ฉด jacobian matrix์˜ ํฌ๊ธฐ๋Š” 4096000 x 4096000์ด ๋  ๊ฒƒ์ด๋‹ค. ์ด ์ˆ˜์น˜๋Š” ๋งค์šฐ ๊ฑฐ๋Œ€ํ•˜๊ธฐ ๋•Œ๋ฌธ์— ์ž‘์—…์— ํšจ์œจ์ ์ด์ง€ ์•Š๋‹ค.

๊ทธ๋ ‡๋‹ค๋ฉด ์–ด๋–ป๊ฒŒ jacobian matrix๋ฅผ ๊ตฌ์„ฑํ• ๊นŒ?

→ ๊ตฌ์„ฑํ•  ํ•„์š”๊ฐ€ ์—†๋‹ค. ์šฐ๋ฆฌ๋Š” ์ถœ๋ ฅ์— ๋Œ€ํ•œ x์˜ ์˜ํ–ฅ์— ๋Œ€ํ•ด์„œ ๊ทธ๋ฆฌ๊ณ  ์ด ๊ฐ’์„ ์‚ฌ์šฉํ•˜๋Š” ๊ฒƒ์— ๋Œ€ํ•ด์„œ๋งŒ ์•Œ๋ฉด๋œ๋‹ค.

 

A vectorized example

์ด๋ฒˆ์—๋Š” ์„ธ๋ถ„ํ™”๋œ ๋…ธ๋“œ๋‹จ์œ„์—์„œ vectorize๊ฐ€ ์–ด๋–ป๊ฒŒ ์ด๋ฃจ์–ด ์ง€๋Š” ์ง€ ์‚ดํŽด๋ณด์ž.

๋‹ค์Œ๊ณผ ๊ฐ™์€ ์ˆ˜์‹์ด ์žˆ๋‹ค. ์—ฌ๊ธฐ์„œ x๋Š” n์ฐจ์›, W๋Š” nxn์ฐจ์›์ด๋‹ค. ์œ„์—์„œ ๋ฐฐ์šด backpropagation์„ ์ ์šฉํ•ด ๋ณด์ž.

  1. ์‹์— ๋Œ€ํ•ด Computation graph๋ฅผ ๊ทธ๋ฆฐ๋‹ค.

  1. input ๊ฐ’์— ๋Œ€ํ•ด ์ˆœ๋ฐฉํ–ฅ์œผ๋กœ ๊ณ„์‚ฐํ•˜์—ฌ Computation graph์— ํ‘œ๊ธฐํ•œ๋‹ค.

  1. Chain rule์„ ์ด์šฉํ•ด ์—ญ๋ฐฉํ–ฅ์œผ๋กœ ๋ณ€ํ™”๋ฅ ์„ ๊ณ„์‚ฐํ•œ๋‹ค.

๋จผ์ € ๊ณ„์‚ฐ์„ ์‰ฝ๊ฒŒํ•˜๊ธฐ์œ„ํ•ด ๊ฐ ํ•จ์ˆ˜๋“ค์ด ๋ฏธ๋ถ„์„ ๊ตฌํ•˜์ž.

๋‹ค์Œ์œผ๋กœ ์œ„์— ๊ตฌํ•ด์ง„ ๋ฏธ๋ถ„์„ ๋ฐ”ํƒ•์œผ๋กœ Backpropagation์ ์šฉ

  1. ์ตœ์ข…์ ์œผ๋กœ input์— ๋Œ€ํ•œ output์˜ ๋ณ€ํ™”๋ฅ ์„ ๊ตฌํ•œ๋‹ค.

scala ๊ณ„์‚ฐ๊ณผ ๋ณ„ ๋‹ค๋ฅผ ๊ฒƒ ์—†์ด ๊ตฌํ–ˆ๋‹ค.

๋‹จ. vector์—ฐ์‚ฐ์„ ํ•  ๋•Œ ์ฃผ์˜ํ•  ์ ์€ ๋ฐ˜๋“œ์‹œ ์—ฐ์‚ฐํ•˜๋Š” ๋‘ vector๊ฐ€ ๋˜‘๊ฐ™์€ ํฌ๊ธฐ ์ธ์ง€ ํ™•์ธ ํ•ด์•ผํ•œ๋‹ค.

 

Modularized implementation

์ง€๊ธˆ๊นŒ์ง€ ๋ฐฐ์šด Computaion graph์™€ backpropagation์„ ๊ทธ๋ฆฌ๋Š” ๋ฐฉ๋ฒ•์„ psuedo code๋กœ ๋‚˜ํƒ€๋‚ด๋ฉด ๋‹ค์Œ๊ณผ ๊ฐ™๋‹ค.


Neural Networks (์‹ ๊ฒฝ๋ง)

์ง€๊ธˆ๊นŒ์ง€ ์šฐ๋ฆฌ๋Š” Linear score function์— ๋Œ€ํ•ด์„œ๋งŒ ๋‹ค๋ค˜๋‹ค. ์ด์ œ 2-layer Neural Network์— ๋Œ€ํ•ด ์•Œ์•„๋ณด์ž.

2-layer Neural Network๋Š” ์šฐ๋ฆฌ๊ฐ€ ๋ฐฐ์šด Linear score fundtion๊ฐ’์— ๋˜ ๋‹ค๋ฅธ W๋ฅผ ๊ณฑํ•ด ๋‹ค๋ฅธ score๋ฅผ ๊ตฌํ•œ ๊ฒƒ์ด๋‹ค.

Linear score funtion๊ณผ 2-layer Neural Network์™€์˜ ์ฐจ์ด๋Š” ๋ฌด์—‡์ผ๊นŒ?

→ Linear score funtion๋Š” ์•„๋ž˜์˜ 10๊ฐœ์˜ class์ค‘ car๊ฐ€ ๋ฌด์—‡์— ์†ํ•˜๋Š” ์ง€ ์ฐพ์•„๋‚ผ ์ˆ˜ ์žˆ๋‹ค. ํ•˜์ง€๋งŒ ๊ทธ๊ฒƒ์ด ๋…ธ๋ž€์ฐจ์ธ์ง€ ๋นจ๊ฐ„์ฐจ์ธ์ง€๋Š” ๊ตฌ๋ณ„ํ•˜์ง€ ๋ชปํ•œ๋‹ค. ๋ฐ˜๋ฉด์— 2-layer Neural Network๋Š” 1๋ฒˆ W์—์„œ 10 class์ค‘ car๊ฐ€ ๋ฌด์—‡์ธ์ง€ ์ฐพ์•„๋‚ด๊ณ  ๋” ๋‚˜์•„๊ฐ€ 2๋ฒˆ W์—์„œ ๋…ธ๋ž€์ฐจ, ๋นจ๊ฐ„์ฐจ๋“ฑ๋“ฑ์˜ ์ฐจ์— ๋Œ€ํ•œ ์„ธ๋ถ„ํ™”๋œ ํŠน์ง•์„ ์ฐพ์•„๋‚ธ๋‹ค.

 

์ด๋Ÿฐ 2-layer Neural Network๋Š” 20์ค„ ์ •๋„๋กœ ๊ตฌํ˜„ํ•  ์ˆ˜ ์žˆ๋‹ค.

 

Activation functions

 

Neural networks: Architectures


Syllabus

Youtube

 

'Deep Learning > cs231n' ์นดํ…Œ๊ณ ๋ฆฌ์˜ ๋‹ค๋ฅธ ๊ธ€

Lecture 6 | Training Neural Networks I  (0) 2022.02.05
Lecture 5 | Convolutional Neural Networks  (0) 2022.01.28
Lecture 3 | Loss Functions and Optimization  (0) 2022.01.15
Lecture 2 | Image Classification  (0) 2022.01.14
Lecture 0 | CS321n  (0) 2022.01.14

BELATED ARTICLES

more