Backpropagation

Published by onesixx on 23-10-0423-10-04

http://cs231n.stanford.edu/

해석적 미분

[수치미분외에] 가중치W매개변수에 대한 Loss function의 gradient를 구하는 방법
=> 계산그래프 (Node와 edge로 데이터를 표현)

sigmoid

affine

softmax

기울기 소실(Vanishing Gradient)

https://heytech.tistory.com/388

Layer가 많아질수록 기울기 소실(Vanishing Gradient) 현상때문 학습이 잘 되지 않습니다.
Vanishing Gradient란 Backpropagation과정에서, 출력층에서 멀어질수록 Gradient 값이 매우 작아지는 현상을 말합니다

왜 이런 기울기 소실 문제가 발생할까요?
활성화 함수(Activation Function)의 기울기와 관련이 깊습니다.

Sigmoid 함수의 미분 값은 입력값이 0일 때 가장 크지만 0.25에 불과하고 x값이 크거나 작아짐에 따라 기울기는 거의 0에 수렴하는 것을 확인하실 수 있습니다. 따라서, 역전파 과정에서 Sigmoid 함수의 미분값이 거듭 곱해지면 출력층과 멀어질수록 Gradient 값이 매우 작아질 수밖에 없습니다.

기울기 소실 문제를 해결한 활성화 함수로 ReLU가 제안

Statistics

KalmanFilter

https://github.com/tbmoon/kalman_filter https://github.com/DonghoonPark12/Book_KalmanFilter https://m.blog.naver.com/skwd123/221827247721 https://minding-deep-learning.tistory.com/33 칼만 필터는 시스템의 상태를 추정하는데 사용되는 통계적인 방법입니다. 주로 시간에 따라 변하는 시스템 상태를 추론할 때 사용됩니다. 예를 들어, 자율 주행 자동차의 위치를 추정하거나, 로봇이 자신의 환경을 파악하는 경우에 활용될 수 Read more…

Statistics

독립 종속 사건

모든 사건(Event)는 독립/종속 둘중 하나 독립 (In-dependent Events) Pr(A⎮B) = Pr(A) = Pr(A|B’) Pr(A∩B) = Pr(A)•Pr(B) => 독립여부 판별에 사용됨 B사건의 발생여부가 A사건이 발생확률에 영향을 주지 않는 것.(cf. 배반사건은 B사건이 발생했을때 A사건이 발생확률이 0로 독립이 Read more…

Statistics

e, euler’s Number, 자연상수

https://youtu.be/_EY8QUKWrhc, https://angeloyeo.github.io/2019/09/04/natural_number_e.htmlhttp://blog.naver.com/somang8991/221473671059 e 정의란? 수익률(성장률, 연이율), 성장횟수, 수익(성장량) [수익률] 100% 을 가지고, 1회의 [성장횟수] n번 나누어 n회 연속성장 할때, 가질 수 있는 최대 [성장량] 복리수익은 이자에 다시 이자가 붙는 방식이므로, 같은 이자율을 적용하더라도, 이자계산을 자주할수록 Read more…

Backpropagation

기울기 소실(Vanishing Gradient)

onesixx

Related Posts

KalmanFilter

독립 종속 사건

e, euler’s Number, 자연상수