전체 글
Lecture 7 | Training Neural Networks II Optimization 다음과 같이 손실함수를 나타냈을때 Optimization은 loss를 어떻게 줄이는지에 대한 방법이다. SGD(Stochastic Gradient Descent) 우리가 잘 알고있는 SGD에는 몇 가지 문제점들이 있다. 문제점 High condition number problem Local minima, Sandle point Noisy estimate 1. High condition number problem SGD의 첫 번째 문제점은 Loss가 수직 방향의 가중치 변화에 훨씬 더 민감하게 반응한다는 것이다. SGD는 다음과 같은 gradient vector를 갖는다. 이렇게 gradient가 수직 방향의 더..
Regularization과 Normalization Regularization이란? 정칙화하고 불리며, 오버피팅을 해결하기 위한 방법 중의 하나이다. L1, L2 Regularization, Dropout, Batch normalization등이 있다. 모델이 train set의 정답을 맞히지 모사도록 오버피팅을 방해(train loss가 증가)하는 역할을 한다. train loss는 약간 증가하지만 결과적으로, validation loss나 최종적인 test loss를 감소시키려는 목적을 가지고 있다. Normalization이란? 정규화라고 불리며, 이는 데이터의 형태를 좀 더 의미 있게, 혹은 트레이닝에 적합하게 전처리하는 과정이다. 데이터를 z-score로 바꾸거나 minmax scaler를 사..
Proof of the Cauchy-Schwarz inequality Proof of the Cauchy-Schwarz inequality 위와 같은 조건을 만족하는 부등식을 Cauchy-Schwarz inequality라고 한다. 증명 자료: https://www.khanacademy.org/math/linear-algebra Linear Algebra | Khan Academy Learn linear algebra for free—vectors, matrices, transformations, and more. www.khanacademy.org
Exploration 11 어제 오른 내 주식, 과연 내일은? 미래를 예측한다는 것은 가능할까? 아래와 같은 미래 예측 시나리오를 생각해 보자 지금까지의 주가 변화를 바탕으로 다음 주가 변동 예측 특정 지역의 기후데이터를 바탕으로 내일의 온도 변화 예측 공장 센터 데이터 변화 이력을 토대로 이상 발생 예측 위 에시의 공통점은 예측의 근거가 된느 시계열(Time-Series)데이터가 있다는 것이다. 시계열이란? 시간 순서대로 발생한 데이터의 수열이다. 시계열 데이터로 미래의 데이터를 에측하기위해서는 두 가지의 전제가 필요하다. 과거의 데이터에 일정한 패턴이 발견된다. 과거의 패턴은 미래에도 동일하게 반복될 것이다. → 즉, 안정적(Stationary)데이터에 대해서만 미래 예측이 가능하다. 시계열 데이터 ..
Vector dot product and vector length Proving vector dot product properties Vector dot product and vector length 벡터의 내적연산은 위와 같이 수행되고 scalar값을 가지게 된다. 벡터의 길이는 위와 같이 피타고라스의 정리의 의하여 구할 수 있다. 또한 이 벡터의 길이는 다음과 같이 일반화 될 수 있고 이것은 벡터의 길이의 제곱은 벡터 자신과의 내적연산과 같다는 것을 보여준다. Proving vector dot product properties 교환법칙 분배법칙 결합법칙 자료: https://www.khanacademy.org/math/linear-algebra Linear Algebra | Khan Academy L..
분포 가설과 분산 표현 희소 표현(Sparse Representation)이란? 벡터의 특정 차원에 단어 혹은 의미를 직접 매핑하는 방식 단어의 분산 표현(Distributed Representation) 분포 가설(distribution hypothesis)이란? 어떤 차원이 특정한 의미를 가진다고 가정하지 않고 유사한 맥락에서 나타나는 단어는 그 의미도 비슷하다. 분산 표현(Distributed Representation)이란? 유사한 맥락에 나타난 단어들끼리는 두 단어 벡터 사이의 거리를 가깝게 하고, 그렇지 않은 단어들끼리는 멀어지도록 조금씩 조정해 얻은 단어 벡터 분산표현을 사용하면 단어간의 유사도를 계산할 수 있다. Embedding 레이어 Embedding layer란? 간단하게 말하면 컴퓨..
Basis of a subspace Basis of a subspace 조건 Subspace V가 존재 {v1, v2, v3, ..., vn} -> 선형 독립 -> 어느 벡터도 나머지 벡터의 결합으로 표현될 수 없다. 위에 두 조건을 충족시켰을 경우 집합 S는 V의 기저(basis)라고 말할 수 있다. 하지만 집합 T와 같은 경우는 선형 종속적인 성질을 가지고 있기 때문에 집합 T는 V의 기저(basis)가 아니다. 💡 Basis(기저) -> 어떠한 공간을 생성하는데 필요한 최소한의 벡터 집합 example basis 검증 basis는 여러개가 존재 자료: https://www.khanacademy.org/math/linear-algebra Linear Algebra | Khan Academy Learn..
없던 데이터를 만들어낸다. 생성 모델링 모델 판별 모델 : 입력된 데이터셋을 특정 기준에 따라 분류하거나, 특정 값을 맞추는 모델 생성 모델 : 학습한 데이터셋과 비슷하면서도 기존에는 없던 새로운 데이터셋을 생성하는 모델로 정리할 수 있습니다. Pix2Pix Pix2Pix란? 간단한 이미지를 입력할 경우 실제 사진처럼 보이도록 바꿔줄 때 많이 사용되는 모델이다. 모델은 단순화된 이미지(input image)와 실제 이미지(Ground Truth)가 쌍을 이루는 데이터셋으로 학습을 진행한다. Input image를 입력받으면, 내부 연산을 통해 실제 사진 같은 형상으로 변화된 Predicted Image를 출력 Predicted Image가 Ground Truth 이미지와 얼마나 비슷한지 평가하여 실제 같..
Linear subspaces Linear subspaces 위에 처럼 R의 집합이 있고 V는 R의 subspace라면 다음 3가지 조건을 만족한다. V는 0벡터를 포함한다. x∈V를 만족할 때 Cx∈V도 만족한다. (곱셈에 대해 닫혀있다.) a∈V, b∈V일 때 a + b ∈ V이다. (덧셈에 대해 닫혀있다.) example zero subspace Not subspace Span subsapce 자료: https://www.khanacademy.org/math/linear-algebra Linear Algebra | Khan Academy Learn linear algebra for free—vectors, matrices, transformations, and more. www.khanacademy..



