새소식

시계열 분석

피어슨 상관 계수(Pearson correlation coefficient)

  • -

피어슨 상관계수(Pearson correlation coefficient)두 변수 간의 선형 상관관계를 측정하는 통계적 지표다. 피어슨 상관계수는 -1부터 1까지의 범위를 가지며, 이 값이 1에 가까울수록 두 변수는 강한 양의 선형 상관관계를 가지고, -1에 가까울수록 강한 음의 선형 상관관계를 가지며, 0에 가까울수록 선형 상관관계가 없음을 의미한다.

 

피어슨 상관계수는 다음과 같은 공식으로 계산된다.

 

$r = \frac{\sum_{i=1}^n (X_i - \bar{X})(Y_i - \bar{Y})}{\sqrt{\sum_{i=1}^n (X_i - \bar{X})^2 \sum_{i=1}^n (Y_i - \bar{Y})^2}}$

 

여기서 $r$은 피어슨 상관계수이며, $X_i$와 $Y_i$는 각각 두 변수의 관측값, $\bar{X}$과 $\bar{Y}$은 각각 두 변수의 평균값을 의미한다.


피어슨 상관계수의 특징은 다음과 같다.

 

  • 선형적인 관계만 측정: 피어슨 상관계수는 두 변수 간의 선형적인 관계만 측정하기 때문에, 비선형적인 상관관계가 있는 경우에는 적절한 지표가 되지 않을 수 있다.
  • 상관관계의 크기와 방향을 동시에 측정: 피어슨 상관계수는 상관관계의 크기(절대값)와 방향(양수 또는 음수)을 동시에 나타낸다.
  • 상관관계 ≠ 인과관계: 피어슨 상관계수가 높다고 해서 반드시 인과관계가 존재한다고 할 수 없다. 상관계수는 두 변수 간의 관계만을 나타내므로, 인과관계를 확인하기 위해서는 추가적인 연구와 분석이 필요하다.

 

피어슨 상관계수는 변수 간의 선형 상관관계를 빠르게 파악할 수 있는 간단한 방법으로, 데이터 분석에서 자주 사용된다. 하지만 이 방법은 선형적인 관계만을 측정하기 때문에, 비선형 상관관계가 있는 경우에는 다른 방법들(ex. 스피어만 상관계수, 상호 정보량) 등을 사용하여 더 정확한 분석을 수행해야 한다.

 

비선형 상관관계를 측정하는 대표적인 방법은 다음과 같다.

 

  • 스피어만 상관계수(Spearman's rank correlation coefficient): 두 변수의 순위(rank)에 대한 상관관계를 측정하는 방법이다. 선형 및 비선형 상관관계를 모두 측정할 수 있으며, 특히 단조(monotonic) 관계에 강하게 민감하다.
  • 상호 정보량(Mutual Information): 두 변수의 결합 엔트로피와 개별 엔트로피를 사용하여 상관관계를 측정하는 방법이다. 선형 및 비선형 상관관계를 모두 측정할 수 있으며, 어떤 형태의 관계든 상관관계를 파악하는 데 유용하다.
  • 켄달의 타우(Kendall's Tau): 두 변수의 순위에 대한 상관관계를 측정하는 또 다른 방법이다. 스피어만 상관계수와 유사하게 선형 및 비선형 상관관계를 모두 측정할 수 있다. 특히 샘플 크기가 작을 때나 ties(동점)이 많을 때 사용하기 적합하다.

 

각 방법은 상황과 목적에 따라 선택할 수 있으며, 각 방법의 장단점을 고려하여 적절한 상관계수를 선택하는 것이 중요하다. 또한 상관계수를 통해 상관관계를 파악한 후, 인과관계를 분석하기 위해 추가적인 연구와 분석이 필요할 수 있다. 인과관계를 파악하기 위한 방법으로는 그레인저 인과성 검정(Granger causality test)이나 벡터 자기회귀(Vector Autoregression, VAR)모델 등이 사용될 수 있다.

Contents

포스팅 주소를 복사했습니다

이 글이 도움이 되었다면 공감 부탁드립니다.