시계열 분해(time series decomposition)는 시계열 데이터를 구성 요소로 분해하여 데이터의 패턴과 구조를 분석하는 방법이다. 시계열 데이터의 주요 구성 요소는 일반적으로 추세, 계절성, 주기 그리고 그 외의 노이즈로 구성되며, 이 요소들의 조합을 통해 원래의 시계열 데이터가 형성된다.
시계열 데이터 분해는 주로 덧셈 분해(additive decomposition)와 곱셈 분해(multiplicative decomposition) 두가지 방법으로 분해된다.
덧셈 분해(Additive Decomposition)
시계열 데이터를 추세, 계절성, 그리고 그 외 노이즈의 합으로 분해한다. 이 방법은 각 구성 요소가 시간에 따라 일정하게 변하는 경우 적합하다. 덧셈 분해의 수식은 다음과 같다.
$Y(t) = T(t) + S(t) + R(t)$
여기서 $Y(t)$는 시간 $t$에서의 원래 시계열 데이터, $T(t)$는 추세(trend) 요소, $S(t)$는 계절성(seasonality) 요소, 그리고 $R(t)$는 잔차 요소를 나타낸다.
곱셈 분해(Multiplicative Decomposition)
시계열 데이터를 추세, 계절성, 그리고 그 외 노이즈의 곱으로 분해한다. 이 방법은 각 구성 요소가 시간에 따라 비례적으로 변하는 경우 적합하다. 곱셈 분해의 수식은 다음과 같다.
$Y(t) = T(t) × S(t) × R(t)$
클래식 분해(classical decomposition)는 주로 이동 평균을 사용하여 트렌드를 추정하고 계절성 요소를 계산한다. 그러나 이 방법은 데이터의 노이즈에 민감하며 결측값이나 불규칙한 패턴에 대처하기 어렵다.
더 강력한 방법으로는 STL(Seasonal and Trend Decomposition using Loess) 분해가 있다. 이 방법은 로컬 가중 회귀(Lowess 또는 Loess)를 사용하여 트렌드와 계절성 요소를 추정한다. 이 방법은 노이즈에 강건하며 결측값이나 불규칙한 패턴에 대처할 수 있다.
시계열 데이터 분해의 주요 이점은 다음과 같다.
- 시계열 데이터의 구조를 이해할 수 있다. 이를 통해 데이터의 특성과 패턴을 분석하고 이해하는 데 도움이 된다.
- 추세와 계절성 요소를 제거하여 정상성을 얻을 수 있다. 이를 통해 시계열 분석 및 예측 모델의 성능을 향상시킬 수 있다.
- 실제 데이터와 모델의 예측 사이의 차이를 평가하고, 잔차 분석을 통해 모델의 성능을 진단하거나 개선할 수 있다.