분류 전체보기
-
AdaGrad(Adaptive Gradient)는 말그대로 학습률을 적응적으로 조정하는 최적화 알고리즘이다. 각 변수에 대해 학습률을 개별적으로 조절하므로, 변수마다 스케일이 다른 최적화 문제에 효과적이다. AdaGrad의 업데이트 규칙은 다음과 같다. $G_{t+1} = G_t + \nabla_{\theta_t} L(\theta_t) \odot \nabla_{\theta_t} L(\theta_t)$ $\theta_{t+1} = \theta_t - \frac{\eta_t}{\sqrt{G_{t+1}+\epsilon}} \odot \nabla_{\theta_t} L(\theta_t)$ 여기서 $G_t$는 기울기(gradient)의 제곱의 누적합을 나타낸다. $\odot$는 요소별 곱셈/아다마르 곱(eleme..
[최적화] AdaGrad(Adaptive Gradient)AdaGrad(Adaptive Gradient)는 말그대로 학습률을 적응적으로 조정하는 최적화 알고리즘이다. 각 변수에 대해 학습률을 개별적으로 조절하므로, 변수마다 스케일이 다른 최적화 문제에 효과적이다. AdaGrad의 업데이트 규칙은 다음과 같다. $G_{t+1} = G_t + \nabla_{\theta_t} L(\theta_t) \odot \nabla_{\theta_t} L(\theta_t)$ $\theta_{t+1} = \theta_t - \frac{\eta_t}{\sqrt{G_{t+1}+\epsilon}} \odot \nabla_{\theta_t} L(\theta_t)$ 여기서 $G_t$는 기울기(gradient)의 제곱의 누적합을 나타낸다. $\odot$는 요소별 곱셈/아다마르 곱(eleme..
2023.04.06 -
모멘텀(Momentum)은 최적화 알고리즘에서 많이 사용되는 방법으로, 파라미터 업데이트 시 이전 단계의 움직임에 가중치를 두어 일정한 방향성을 유지하는 기법이다. 정확하게는 모멘텀 자체가 최적화 알고리즘은 아니고, 기존의 최적화 알고리즘에 추가되어 사용되는 기법이다. 이를 통해 최적화 과정에서 파라미터 업데이트가 더 안정적이고 빠르게 수렴하도록 한다. 직관적으로는 공이 경사면을 따라 내려가면서 속도를 얻어 일정한 방향으로 움직이는 모습을 생각할 수 있다(관성을 떠올리면 이해가 쉬움). 모멘텀의 공식은 다음과 같다. $v_{t+1} = \beta v_t + (1-\beta) \nabla_{\theta_t} L(\theta_t)$ $\theta_{t+1} = \theta_t - \eta_t v_{t+1}$..
[최적화] 모멘텀(Momentum)모멘텀(Momentum)은 최적화 알고리즘에서 많이 사용되는 방법으로, 파라미터 업데이트 시 이전 단계의 움직임에 가중치를 두어 일정한 방향성을 유지하는 기법이다. 정확하게는 모멘텀 자체가 최적화 알고리즘은 아니고, 기존의 최적화 알고리즘에 추가되어 사용되는 기법이다. 이를 통해 최적화 과정에서 파라미터 업데이트가 더 안정적이고 빠르게 수렴하도록 한다. 직관적으로는 공이 경사면을 따라 내려가면서 속도를 얻어 일정한 방향으로 움직이는 모습을 생각할 수 있다(관성을 떠올리면 이해가 쉬움). 모멘텀의 공식은 다음과 같다. $v_{t+1} = \beta v_t + (1-\beta) \nabla_{\theta_t} L(\theta_t)$ $\theta_{t+1} = \theta_t - \eta_t v_{t+1}$..
2023.04.06 -
확률적 경사 하강법(Stochastic Gradient Descent, SGD)은 최적화 알고리즘 중 하나이다. 경사 하강법(Gradient Descent)은 손실 함수(Loss Function)의 기울기(Gradient)를 이용해 최소 지점을 찾는 방법이다. 확률적 경사 하강법은 이 과정에서 미니배치(mini-batch) 또는 하나의 데이터 샘플을 사용하여 계산을 수행하므로, 기본 경사 하강법에 비해 속도가 빠르고 메모리 사용량이 적다. 확률적 경사 하강법의 공식은 다음과 같다. $\theta_{t+1} = \theta_t - \eta_t \nabla_{\theta_t} L(\theta_t; x_i, y_i)$ 여기서 $\theta_t$는 파라미터(parameter)의 현재 추정값, $\eta_t$는 ..
[최적화] 확률적 경사 하강법(Stochastic Gradient Descent, SGD)확률적 경사 하강법(Stochastic Gradient Descent, SGD)은 최적화 알고리즘 중 하나이다. 경사 하강법(Gradient Descent)은 손실 함수(Loss Function)의 기울기(Gradient)를 이용해 최소 지점을 찾는 방법이다. 확률적 경사 하강법은 이 과정에서 미니배치(mini-batch) 또는 하나의 데이터 샘플을 사용하여 계산을 수행하므로, 기본 경사 하강법에 비해 속도가 빠르고 메모리 사용량이 적다. 확률적 경사 하강법의 공식은 다음과 같다. $\theta_{t+1} = \theta_t - \eta_t \nabla_{\theta_t} L(\theta_t; x_i, y_i)$ 여기서 $\theta_t$는 파라미터(parameter)의 현재 추정값, $\eta_t$는 ..
2023.04.06 -
뉴턴 법(Newton's method)은 비선형 방정식의 근을 근사하는 수치 해석 방법 중 하나다. 이 방법은 주어진 함수에 대해 초기 추정값에서 시작하여, 반복적으로 접선을 따라 이동하면서 근에 점점 가까워지는 원리를 사용한다. 이 방법은 뉴턴-랩슨 법(Newton-Raphson method)이라고도 한다. 뉴턴법의 공식은 다음과 같다. $x_{n+1} = x_n - \frac{f(x_n)}{f'(x_n)}$ 여기서 $x_n$은 현재 추정값이고, $x_{n+1}$은 다음 추정값이다. $f(x_n)$은 현재 추정값에서 함수의 값이고, $f'(x_n)$은 현재 추정값에서 함수의 도함수 값이다. 뉴턴법을 사용하려면 다음과 같은 과정을 거친다. 초기 추정값 $x_0$을 선택합니다. 뉴턴법 공식을 사용하여 새로..
[최적화] 뉴턴법(Newton's method)뉴턴 법(Newton's method)은 비선형 방정식의 근을 근사하는 수치 해석 방법 중 하나다. 이 방법은 주어진 함수에 대해 초기 추정값에서 시작하여, 반복적으로 접선을 따라 이동하면서 근에 점점 가까워지는 원리를 사용한다. 이 방법은 뉴턴-랩슨 법(Newton-Raphson method)이라고도 한다. 뉴턴법의 공식은 다음과 같다. $x_{n+1} = x_n - \frac{f(x_n)}{f'(x_n)}$ 여기서 $x_n$은 현재 추정값이고, $x_{n+1}$은 다음 추정값이다. $f(x_n)$은 현재 추정값에서 함수의 값이고, $f'(x_n)$은 현재 추정값에서 함수의 도함수 값이다. 뉴턴법을 사용하려면 다음과 같은 과정을 거친다. 초기 추정값 $x_0$을 선택합니다. 뉴턴법 공식을 사용하여 새로..
2023.04.06 -
경사 하강법(Gradient Descent)은 최적화 알고리즘 중 하나로, 손실 함수를 최소화하기 위해 매개변수(parameter)를 업데이트하는 방법이다. 이 방법은 함수의 그래디언트(기울기)를 따라 가장 작은 손실 값을 찾으려고 한다. 경사 하강법은 머신러닝 및 딥러닝에서 널리 사용되는 최적화 방법이다. 경사 하강법의 기본 아이디어는 매개변수를 현재 위치에서 손실 함수의 그래디언트와 반대 방향으로 업데이트하여 손실 값을 줄이는 것이다. 손실 함수를 $L(θ)$라고 할 때, 매개변수 $\theta$의 그래디언트는 다음과 같이 정의된다. $\nabla_\theta L(\theta) = \left[ \frac{\partial L(\theta)}{\partial \theta_1}, \frac{\partial..
[최적화] 경사 하강법(Gradient Descent)경사 하강법(Gradient Descent)은 최적화 알고리즘 중 하나로, 손실 함수를 최소화하기 위해 매개변수(parameter)를 업데이트하는 방법이다. 이 방법은 함수의 그래디언트(기울기)를 따라 가장 작은 손실 값을 찾으려고 한다. 경사 하강법은 머신러닝 및 딥러닝에서 널리 사용되는 최적화 방법이다. 경사 하강법의 기본 아이디어는 매개변수를 현재 위치에서 손실 함수의 그래디언트와 반대 방향으로 업데이트하여 손실 값을 줄이는 것이다. 손실 함수를 $L(θ)$라고 할 때, 매개변수 $\theta$의 그래디언트는 다음과 같이 정의된다. $\nabla_\theta L(\theta) = \left[ \frac{\partial L(\theta)}{\partial \theta_1}, \frac{\partial..
2023.04.06 -
최적화 이론에서 확정적 최적화(Deterministic Optimization)와 확률적 최적화(Stochastic Optimization)는 주로 최적화 알고리즘의 유형을 구분하는 데 사용되는 개념이다. 각 유형의 알고리즘은 다른 문제와 상황에 적합하며, 그에 따라 다른 성능 및 수렴 특성을 보인다. 확정적 최적화 확정적 최적화 알고리즘은 정해진 규칙에 따라 움직이며, 무작위성이 없는 알고리즘이다. 주어진 초기 조건에서 동일한 결과를 항상 생성한다. 이러한 알고리즘은 수학적으로 분석하기가 상대적으로 쉽다. 확정적 최적화의 종류 경사 하강법 (Gradient Descent): 경사 하강법은 손실 함수의 그래디언트(기울기)를 따라 가장 낮은 손실 값을 찾아 나가는 방식으로 작동한다. 전체 데이터셋을 사용하..
[최적화] 확정적 최적화(Deterministic Optimization), 확률적 최적화(Stochastic Optimization)최적화 이론에서 확정적 최적화(Deterministic Optimization)와 확률적 최적화(Stochastic Optimization)는 주로 최적화 알고리즘의 유형을 구분하는 데 사용되는 개념이다. 각 유형의 알고리즘은 다른 문제와 상황에 적합하며, 그에 따라 다른 성능 및 수렴 특성을 보인다. 확정적 최적화 확정적 최적화 알고리즘은 정해진 규칙에 따라 움직이며, 무작위성이 없는 알고리즘이다. 주어진 초기 조건에서 동일한 결과를 항상 생성한다. 이러한 알고리즘은 수학적으로 분석하기가 상대적으로 쉽다. 확정적 최적화의 종류 경사 하강법 (Gradient Descent): 경사 하강법은 손실 함수의 그래디언트(기울기)를 따라 가장 낮은 손실 값을 찾아 나가는 방식으로 작동한다. 전체 데이터셋을 사용하..
2023.04.06 -
라플라스 변환(Laplace transform)은 주로 미분 방정식의 해를 찾거나 시스템의 안정성을 분석하는 데 사용되는 수학적 기법이다. 라플라스 변환은 시간 영역의 함수를 복소 주파수 영역의 함수로 변환한다. 이를 통해 시간 영역에서 다루기 어려운 미분 방정식 문제를 주파수 영역에서 쉽게 해결할 수 있다. 라플라스 변환은 다음과 같이 정의된다. 주어진 시간 영역의 함수 $f(t)$에 대해, 라플라스 변환 $\mathcal{L}{f(t)}$는 다음과 같이 표현할 수 있다. $\mathcal{L}\{f(t)\} = F(s) = \int_{0}^{\infty} f(t) e^{-st} \, dt$ 라플라스 변환은 선형 시스템의 해를 구하는 데 유용하며, 라플라스 변환을 사용하면 시간 영역에서의 미분 연산이 ..
라플라스 변환(Laplace transform)라플라스 변환(Laplace transform)은 주로 미분 방정식의 해를 찾거나 시스템의 안정성을 분석하는 데 사용되는 수학적 기법이다. 라플라스 변환은 시간 영역의 함수를 복소 주파수 영역의 함수로 변환한다. 이를 통해 시간 영역에서 다루기 어려운 미분 방정식 문제를 주파수 영역에서 쉽게 해결할 수 있다. 라플라스 변환은 다음과 같이 정의된다. 주어진 시간 영역의 함수 $f(t)$에 대해, 라플라스 변환 $\mathcal{L}{f(t)}$는 다음과 같이 표현할 수 있다. $\mathcal{L}\{f(t)\} = F(s) = \int_{0}^{\infty} f(t) e^{-st} \, dt$ 라플라스 변환은 선형 시스템의 해를 구하는 데 유용하며, 라플라스 변환을 사용하면 시간 영역에서의 미분 연산이 ..
2023.04.05 -
테일러 급수(Taylor series)는 주어진 미분 가능한 함수를 무한 급수로 근사하는 방법이다. 테일러 급수는 함수의 근사와 관련된 많은 정보를 제공하며, 함수의 성질을 이해하는 데 도움이 된다. 함수 $f(x)$가 어떤 점 $x=a$에서 무한 번 미분 가능하다고 가정해보자. 이때, 테일러 급수는 다음과 같이 정의된다. $f(x) = \sum_{n=0}^{\infty} \frac{f^{(n)}(a)}{n!} (x - a)^n$ 테일러 급수를 이용해 함수를 점 $a$ 주변에서 근사할 수 있다. 일반적으로 테일러 급수의 차수가 높아질수록, 함수와의 근사 정확도도 증가한다. 예를 들어, $e^x$ 함수의 테일러 급수는 다음과 같다. $e^x = \sum_{n=0}^{\infty} \frac{x^n}{n!}..
테일러 급수(Taylor series)테일러 급수(Taylor series)는 주어진 미분 가능한 함수를 무한 급수로 근사하는 방법이다. 테일러 급수는 함수의 근사와 관련된 많은 정보를 제공하며, 함수의 성질을 이해하는 데 도움이 된다. 함수 $f(x)$가 어떤 점 $x=a$에서 무한 번 미분 가능하다고 가정해보자. 이때, 테일러 급수는 다음과 같이 정의된다. $f(x) = \sum_{n=0}^{\infty} \frac{f^{(n)}(a)}{n!} (x - a)^n$ 테일러 급수를 이용해 함수를 점 $a$ 주변에서 근사할 수 있다. 일반적으로 테일러 급수의 차수가 높아질수록, 함수와의 근사 정확도도 증가한다. 예를 들어, $e^x$ 함수의 테일러 급수는 다음과 같다. $e^x = \sum_{n=0}^{\infty} \frac{x^n}{n!}..
2023.04.05