Gradient Descent 의 문제점
I. 학습속도가 느림
2. Global minimum 이 아닌 Local minimum 을 찾을 수 있다.
3. w의 초기화값에 따라 결과가 달라진다.
Optimizer의 변천사
Gradient Descent
- Cost가 감소하는 방향으로 weight를 학습하자.
Stocastic Gradient Descent
Gradient descent 가 배치 사이즈만큼 cost 를 계산하고 weight 를 학습하면 시간이 오래 걸리는 문제를 mini batch를 사용해 더 작은 단어로 나누어서 학습하여 해결
train data 전체에 대해 학습이 아닌 일부만 가지고 학습하기 때문에 학습을 우회해서 갈 수 있어 local minimum 에 빠질 가능성이 감소한다. 하지만 해결되는 건 아니다.
'인공지능' 카테고리의 다른 글
cost function 앞 1/2의 의미 (0) | 2019.10.29 |
---|