손실함수(Loss Function)의 최소값을 찾는 옵티마이저(Optimizer)의 한 유형
손실함수의 최소값을 찾기 위해 경사가 하강하는 방향으로 조금씩 이동해가면서 검토를 반복하는 기법
(신경망의 연결 가중치 최적화)
기법 | 설명 | 특징 |
확률적 경사 하강법 (SGD, Stochastic Gradient Descending) |
매개변수의 기울기를 구해, 기울어진 방향으로 매개변수 값을 갱신하는 일을 반복하여 최적의 매개변수 값을 추출하는 기법 |
-무작위로 골라낸 데이터에 대한 경사 하강 기법
-(단점)급격한 변곡점이 있는 경우 SGD 한계
|
모멘텀 (Momentum) |
기존에 사용한 기울기의 일정 비율(%)을 현재의 기울기에 반영하는 속도(Velocity)의 개념을 적용하여 진동과 폭을 줄인 경사 하강 기법 |
-관성, 탄력, 가속도
-누적된 과거 그래디언트가 지향하고 있는 어떤 방향을 현재 그래디언트에 보정하려는 방식
|
Adagrad (Adaptive Gradient) |
변수의 업데이트 회수에 따라 학습률을 조절하는 옵션이 추가된 최적화 함수 |
-학습률 감소(Learning rate decay) : 학습을 진행하면서 학습률을 점차 줄여가는 방법
|
Adam | 모멘텀 + Adagrad |
-관성, 탄력, 가속도,학습률조절
|
학습률 (Learning Rate)
경사하강법에서 함수의 최소값의 위치를 찾기 위한 이동하는 거리의 비율을 학습률(learning rate)이라고 한다.
경사하강법은 오차의 변화에 따라 이차 함수 그래프를 만들고, 적절한 학습률을 설정해 미분 값이 0인 지점을 구함
학습률과 같이 신경망의 학습에 의해서 자동으로 획득되지 않고, 사람이 직접 설정해야 하는 데이터를 하이퍼파라미터(Hyper Parameter)라고 한다.
728x90
'딥러닝' 카테고리의 다른 글
역전파 알고리즘(Backpropagation), 오차역전파법 (0) | 2021.11.30 |
---|---|
신경망 학습 매커니즘 (0) | 2021.11.30 |
활성화 함수(Activation Function)-(1/3) (0) | 2021.11.30 |
인공지능의 연구 목적은 무엇인가? 아실로마 AI 원칙 (ASILOMA AI Principles) (0) | 2021.11.30 |
이미지? 음성? 소설책? 무엇이든지 만들어내는 인공신경망, GAN(Generative Adversarial Networks) (0) | 2021.11.30 |