새소식

시계열 분석

상호 정보량(Mutual Information)

  • -

상호 정보량(Mutual Information, MI)은 정보 이론에서 두 확률변수 간의 의존성을 측정하는 방법이다. 상호 정보량은 한 변수의 정보가 다른 변수의 불확실성을 얼마나 줄여주는지를 나타내며, 두 변수가 독립적일 때 상호 정보량은 0이 된다. 상호 정보량은 선형 및 비선형 관계 모두를 포착할 수 있으며, 이산(discrete) 및 연속(continuous) 변수에 모두 적용할 수 있다.

상호 정보량을 계산하는 공식은 다음과 같다.

 

이산 변수

$I(X; Y) = \sum_{x \in X} \sum_{y \in Y} p(x, y) \log \frac{p(x, y)}{p(x) p(y)}$

 

연속 변수

$I(X; Y) = \int_{x \in X} \int_{y \in Y} p(x, y) \log \frac{p(x, y)}{p(x) p(y)} dx dy$

 

 

여기서 $I(X; Y)$는 변수 $X$와 $Y$의 상호 정보량, $p(x, y)$는 $X$와 $Y$의 결합 확률밀도함수(joint probability density function), $p(x)$와 $p(y)$는 각각 $X$와 $Y$의 주변 확률밀도함수(marginal probability density function)를 의미한다.

상호 정보량은 두 변수가 독립적일 때 0이 되며, 두 변수가 완전히 종속적인 경우 최대값을 가진다. 상호 정보량은 상관계수와 달리 항상 양수이며, 값이 클수록 두 변수 간의 의존성이 높다고 해석할 수 있다.

상호 정보량은 다양한 데이터 상황에서 변수 간의 관계를 탐색하는 데 유용한 도구다. 선형 및 비선형 관계를 모두 포착할 수 있고, 이산 및 연속 변수에 모두 적용 가능하므로, 상관계수가 적합하지 않은 경우에도 상호 정보량을 사용하여 상관관계를 분석할 수 있다.

그러나 상호 정보량은 두 변수의 스케일에 민감하므로, 상호 정보량을 비교하거나 해석하기 전에 데이터를 적절하게 전처리하는 것이 중요하다. 상호 정보량을 정규화한 방법으로는 정규화 상호 정보량(Normalized Mutual Information, NMI)이 있으며, 0과 1 사이의 값을 가지며 해석이 더 쉽다.

Contents

포스팅 주소를 복사했습니다

이 글이 도움이 되었다면 공감 부탁드립니다.