Backpropagation

Published by onesixx on

http://cs231n.stanford.edu/

해석적 미분

[수치미분외에] 가중치W매개변수에 대한 Loss function의 gradient를 구하는 방법
=> 계산그래프 (Node와 edge로 데이터를 표현)

sigmoid

affine

softmax

기울기 소실(Vanishing Gradient)

https://heytech.tistory.com/388

Layer가 많아질수록 기울기 소실(Vanishing Gradient) 현상때문 학습이 잘 되지 않습니다.
Vanishing Gradient란 Backpropagation과정에서, 출력층에서 멀어질수록 Gradient 값이 매우 작아지는 현상을 말합니다

왜 이런 기울기 소실 문제가 발생할까요?
활성화 함수(Activation Function)의 기울기와 관련이 깊습니다.

Sigmoid 함수의 미분 값은 입력값이 0일 때 가장 크지만 0.25에 불과하고 x값이 크거나 작아짐에 따라 기울기는 거의 0에 수렴하는 것을 확인하실 수 있습니다. 따라서, 역전파 과정에서 Sigmoid 함수의 미분값이 거듭 곱해지면 출력층과 멀어질수록 Gradient 값이 매우 작아질 수밖에 없습니다. 

기울기 소실 문제를 해결한 활성화 함수로 ReLU가 제안

Categories: Statistics

onesixx

Blog Owner

Subscribe
Notify of
guest

0 Comments
Oldest
Newest Most Voted
Inline Feedbacks
View all comments
0
Would love your thoughts, please comment.x
()
x