새소식

시계열 분석

정상성(Stationarity)

  • -

정상성(Stationarity)시계열 데이터의 통계적 특성이 시간에 따라 일정한 상태를 유지하는 것을 의미한다. 정상성을 가진 시계열 데이터는 더욱 간편하게 분석할 수 있으며, 예측 성능이 향상된다.

시계열 데이터가 정상성을 가지려면 모든 시간 $t$에 대해서 평균(average), 분산(variance), 자기공분산(autocovariance)이 일정해야 한다.

 

시계열 데이터의 정상성을 확인하는 방법은 다음과 같다.

  • 시각적 점검: 시계열 데이터를 그래프로 그려서 시간에 따른 평균과 분산의 변화를 확인한다.
  • 요약 통계량 검증: 주어진 시계열 데이터를 일정한 구간으로 나누어 각 구간의 평균과 분산을 비교한다.
  • 통계적 검정: 다음과 같은 통계적 검정 방법을 사용하여 시계열 데이터의 정상성을 검증한다.
    • Augmented Dickey-Fuller (ADF) 검정
    • Kwiatkowski-Phillips-Schmidt-Shin (KPSS) 검정
    • Phillips-Perron (PP) 검정

 

정상성을 만족하지 않는 시계열 데이터를 정상 시계열로 변환하는 방법 중 하나는 차분(Differencing)이다. 차분은 인접한 두 시점 사이의 차이를 계산하는 것으로, 일차 차분, 이차 차분 등 여러 차수의 차분을 적용할 수 있다.

 

일차 차분(First-order differencing)은 인접한 두 시점 사이의 차이를 계산한다.

 

$ Y_t' = Y_t - Y_{t-1} $

 

여기서 $Y_t'$는 시점 t의 일차 차분값, $Y_t$는 시점 t의 원래 시계열 값이다. 일차 차분을 적용한 결과, 시계열 데이터의 추세와 계절성이 제거될 수 있다.

일차 차분이 정상성을 만족시키지 못하는 경우, 이차 차분(Second-order differencing)을 적용할 수 있다. 이차 차분은 일차 차분값 간의 차이를 계산한다.

 

$Y_t'' = Y_t' - Y_{t-1}' = (Y_t - Y_{t-1}) - (Y_{t-1} - Y_{t-2})$

 

일차 차분과 마찬가지로, 이차 차분을 적용하면 시계열 데이터의 정상성을 더욱 개선할 수 있다. 이러한 차분 과정을 필요한 차수까지 반복하여 정상 시계열을 얻을 수 있다.

시계열 데이터가 정상성을 만족하는지 확인한 후, 적절한 차분 차수를 선택하여 데이터를 정상화하고 시계열 모델을 적용할 수 있다. 예를 들어, ARIMA(AutoRegressive Integrated Moving Average) 모델은 차분 차수를 설정하여 정상화된 시계열에 적합한 모델을 구축한다. 이후 예측 결과를 원래 스케일로 되돌리기 위해 차분을 누적하는 과정인 역차분(Inverse differencing)을 수행한다.

시계열 데이터 정상화는 정상 시계열로 만들어 예측 성능을 향상시키는 중요한 과정이다. 이를 위해 결측치 처리, 이상치 탐지 및 처리, 데이터 변환, 정상성 검증 및 차분 등의 작업을 수행한다.

Contents

포스팅 주소를 복사했습니다

이 글이 도움이 되었다면 공감 부탁드립니다.