새소식

시계열 분석

교차 상관(Cross Correlation)

  • -

교차 상관(Cross Correlation)두 시계열 데이터의 상관 관계를 시간 지연(lag)에 따라 분석하는 통계적 방법이다. 교차 상관은 한 시계열 데이터가 다른 시계열 데이터에 얼마나 밀접하게 관련되어 있는지를 측정한다. 이는 두 시계열 데이터 사이의 상관 관계를 찾고, 한 시계열 데이터의 패턴이 다른 시계열 데이터에 어떻게 영향을 미치는지 이해하는 데 도움이 된다.

 

교차 상관의 계산은 다음과 같다. 두 시계열 데이터 $X$와 $Y$가 있고, 각각의 길이가 $n$이라고 가정해보자. 교차 상관 $r_{xy}(k)$를 시간 지연 $k$에 대해 다음과 같이 정의한다.

 

$r_{xy}(k) = \frac{\sum_{i=1}^{n-k} (x_{i+k} - \bar{x})(y_i - \bar{y})}{\sqrt{\sum_{i=1}^n (x_i - \bar{x})^2 \sum_{i=1}^n (y_i - \bar{y})^2}}$

 

여기서,

  • $x_i$와 $y_i$는 각각 시계열 데이터 $X$와 $Y$의 $i$번째 값.
  • $\bar{x}$와 $\bar{y}$는 각각 시계열 데이터 $X$와 $Y$의 평균.
  • $k$는 시간 지연(lag)을 나타낸다.

 

위의 수식에서 볼 수 있듯이, 교차 상관은 각 시간 지연에 대해 두 시계열 데이터의 공분산을 표준 편차의 곱으로 나눈 값이다. 교차 상관의 값은 -1과 1 사이에 있으며, 절대값이 큰 경우 두 시계열 데이터가 더 밀접하게 관련되어 있음을 나타낸다.

 

교차 상관을 사용하여 시계열 데이터를 분석하려면 다음 단계를 따른다.

  • 데이터 준비: 분석할 두 시계열 데이터를 수집하고 전처리한다.
  • 교차 상관 계산: 각 시간 지연에 대해 교차 상관을 계산한다.
  • 최대 교차 상관 및 시간 지연 찾기: 교차 상관이 최대가 되는 시간 지연을 찾아 두 시계열 데이터 사이의 관계를 분석한다.

 

교차 상관은 시계열 데이터의 상관 관계와 지연을 찾는 데 유용하지만, 몇 가지 한계점이 있다.

  • 선형성 가정: 교차 상관은 두 시계열 데이터 사이의 선형 관계를 측정한다. 비선형 관계를 탐지하려면 다른 방법(ex. 상호 정보량)을 사용해야 한다.
  • 정상성 가정: 교차 상관은 두 시계열 데이터가 정상 과정(stationary process)일 때 가장 잘 작동한다. 비정상 시계열 데이터의 경우, 먼저 시계열 데이터를 정상화(ex. 차분)하는 전처리 과정을 거쳐야 한다.
  • 인과 관계와 상관 관계의 혼동: 교차 상관은 두 시계열 데이터 사이의 상관 관계를 측정하는 도구로, 인과 관계를 직접적으로 추론하지는 않는다. 인과 관계를 추론하기 위해서는 그레인저 인과성 검정(Granger causality test), 벡터 자기회귀(Vector Autoregression, VAR) 모델 등의 다른 방법을 사용해야 한다.
  • 노이즈 민감도: 교차 상관은 노이즈에 민감할 수 있으며, 이로 인해 부정확한 결과를 얻을 수 있다. 이를 해결하기 위해, 데이터를 스무딩하거나 상관 계수를 계산할 때 다른 방법(ex. 스피어만 상관 계수, 켄달의 타우 등)을 사용할 수 있다.

 

교차 상관 분석을 수행할 때 이러한 한계점을 고려하고, 필요한 경우 다른 분석 방법과 함께 사용하여 더욱 신뢰할 수 있는 결과를 얻을 수 있다.

Contents

포스팅 주소를 복사했습니다

이 글이 도움이 되었다면 공감 부탁드립니다.