딥러닝

경사하강법(Gradient Descent Method)

데이터요리사 2021. 11. 30. 17:40

손실함수(Loss Function)의 최소값을 찾는 옵티마이저(Optimizer)의 한 유형

손실함수의 최소값을 찾기 위해 경사가 하강하는 방향으로 조금씩 이동해가면서 검토를 반복하는 기법

 

(신경망의 연결 가중치 최적화)

기법 설명 특징
확률적 경사 하강법
(SGD, Stochastic Gradient Descending)
매개변수의 기울기를 구해, 기울어진 방향으로 매개변수 값을 갱신하는 일을 반복하여 최적의 매개변수 값을 추출하는 기법
-무작위로 골라낸 데이터에 대한 경사 하강 기법
-(단점)급격한 변곡점이 있는 경우 SGD 한계
모멘텀
(Momentum)
기존에 사용한 기울기의 일정 비율(%)을 현재의 기울기에 반영하는 속도(Velocity)의 개념을 적용하여 진동과 폭을 줄인 경사 하강 기법
-관성, 탄력, 가속도
-누적된 과거 그래디언트가 지향하고 있는 어떤 방향을 현재 그래디언트에 보정하려는 방식
Adagrad
(Adaptive Gradient)
변수의 업데이트 회수에 따라 학습률을 조절하는 옵션이 추가된 최적화 함수
-학습률 감소(Learning rate decay) : 학습을 진행하면서 학습률을 점차 줄여가는 방법
Adam 모멘텀 + Adagrad
-관성, 탄력, 가속도,학습률조절

 

학습률 (Learning Rate)

경사하강법에서 함수의 최소값의 위치를 찾기 위한 이동하는 거리의 비율을 학습률(learning rate)이라고 한다.

경사하강법은 오차의 변화에 따라 이차 함수 그래프를 만들고, 적절한 학습률을 설정해 미분 값이 0인 지점을 구함

학습률과 같이 신경망의 학습에 의해서 자동으로 획득되지 않고, 사람이 직접 설정해야 하는 데이터를 하이퍼파라미터(Hyper Parameter)라고 한다.
 
728x90