새소식

머신러닝 & 딥러닝

[최적화] RMSprop(Root Mean Square Propagation)

  • -

RMSprop(Root Mean Square Propagation)은 AdaGrad의 학습률 감소 문제를 해결하기 위한 최적화 알고리즘이다. RMSprop은 가장 최근의 기울기 정보만 사용하여 기울기의 제곱의 지수 가중 이동 평균을 계산한다. 이를 통해 학습률이 너무 빠르게 감소하는 문제를 완화한다.

RMSprop의 업데이트 규칙은 다음과 같다.

$E[g^2]_t = \beta E[g^2]_{t-1} + (1-\beta) \nabla_{\theta_t} L(\theta_t) \odot \nabla_{\theta_t} L(\theta_t)$
$\theta_{t+1} = \theta_t - \frac{\eta_t}{\sqrt{E[g^2]_t+\epsilon}} \odot \nabla_{\theta_t} L(\theta_t)$

 

여기서 $E[g^2]_t$는 기울기 제곱의 지수 가중 이동 평균을 나타낸다. $\beta$는 이동 평균의 감쇠 계수로, 일반적으로 0.9 정도의 값을 사용한다. $\odot$는 요소별 곱셈/아다마르 곱(element-wise multiplication/Hadamard product)을 나타내며, $\epsilon$은 0으로 나누는 것을 방지하는 작은 상수다(보통 $10^{-8}$). $\eta_t$는 학습률(learning rate)를 나타낸다.

RMSprop는 특히 미니배치(mini-batch)를 사용하는 확률적 최적화 문제에 적합한 알고리즘이다.

 

RMSprop의 한계점도 존재한다.

RMSprop은 적응적으로 학습률을 조절하여 개별 변수에 대한 최적화를 개선하지만, 일부 상황에서는 다른 최적화 알고리즘(ex. Adam)에 비해 더 느린 수렴 속도를 보일 수 있다.

RMSprop은 확률적 최적화(Stochastic Optimization)를 위해 개발되었지만, 노이즈가 많은 데이터나 비정상적인 데이터에 대해서는 민감할 수 있다. 이런 경우, 최적화 과정이 불안정해질 수 있다는 문제가 있다.

마지막으로, RMSprop의 수렴 속도와 안정성에 대한 완전한 이론적 근거는 아직 제공되지 않았다는 점이다. 이로 인해서 RMSprop이 어떠한 특정 문제에 적합한지를 결정하기 어려울 수 있다.

Contents

포스팅 주소를 복사했습니다

이 글이 도움이 되었다면 공감 부탁드립니다.