수학/확률 및 통계

[기술 통계] 산포도(Dispersion)

기술 통계에서 산포도(Dispersion)는 데이터 값들이 얼마나 퍼져 있는지를 나타내는 지표다.

산포도를 이해하면 데이터의 변동성을 파악할 수 있으며, 이를 통해 데이터의 안정성과 신뢰성을 평가할 수 있다.

주요 산포도 지표로는 범위, 분산, 표준편차, 사분위간 범위가 있다.

범위 (Range): 범위는 데이터셋에서 가장 큰 값과 가장 작은 값의 차이로 계산된다. 범위는 산포도를 나타내는 가장 간단한 지표이지만, 이상치(Outlier)에 매우 민감하며 데이터셋의 모든 값을 고려하지 않기 때문에 한계가 있다.

$\text{Range} = \max(x) - \min(x)$

분산 (Variance): 분산은 각 데이터 값과 평균 간 차이를 제곱한 값들의 평균이다. 분산은 데이터 값이 평균 주변에 얼마나 퍼져 있는지를 수치화한 지표로, 큰 값일수록 데이터가 넓게 퍼져 있다는 것을 의미한다. 모분산과 표본분산이 있으며, 표본분산의 경우 자유도를 고려하여 n-1로 나눈다.

모분산:

표본분산:

표준편차 (Standard Deviation): 표준편차는 분산의 제곱근으로, 데이터의 산포도를 원래 단위와 동일한 척도로 나타낸 값이다. 표준편차가 크면 데이터가 평균 주변에 넓게 퍼져 있고, 작으면 평균 주변에 몰려 있다는 것을 의미한다. 모표준편차와 표본표준편차가 있다.

모표준편차:

표본표준편차: $s = \sqrt{\frac{\sum (x - \bar{x})^2}{n-1}}$

사분위간 범위 (Interquartile Range, IQR): 사분위간 범위는 제3사분위수(Q3)와 제1사분위수(Q1)의 차이로 계산되는 산포도 지표다. IQR은 데이터의 중앙 50% 범위를 나타내며, 이상치의 영향을 덜 받는 특성이 있어 데이터의 안정성을 평가하는 데 유용하다. 여기서 $Q_1$은 데이터의 하위 25%에 해당하는 값, $Q_3$은 상위 25%에 해당하는 값이다. 데이터를 크기 순으로 정렬한 후, $Q_1$과 $Q_3$을 구하는 방법은 다음과 같다. 중앙값을 기준으로 데이터를 두 부분으로 나눈다. (중앙값은 포함되지 않음) 각 부분에 대해 중앙값을 구한다. 이때, 하위 부분의 중앙값이 $Q_1$이고 상위 부분의 중앙값이 $Q_3$이다. IQR은 데이터의 전반적인 산포도를 나타내는 지표로 사용되며, 특히 상자 그림(Box plot)에서 중앙값과 함께 데이터의 분포를 시각적으로 표현하는 데 활용된다.

$\text{IQR} = Q_3 - Q_1$

이러한 산포도 지표들을 사용하여 데이터의 변동성, 안정성 및 신뢰성을 평가하고, 데이터의 특성을 이해하는 데 도움이 된다. 각 지표의 특성과 장단점을 고려하여, 분석하려는 데이터와 상황에 맞는 적절한 산포도 지표를 선택해야 한다.

확률질량함수(Probability Mass Function, PMF)와 확률밀도함수(Probability Density Function, PDF) (0)	2023.04.03
마르코프 체인(Markov chain) (0)	2023.03.31
[기술 통계] 형태(Shape) (0)	2023.03.30
[기술 통계] 중심 경향치(Central Tendency) (0)	2023.03.29
기술 통계(Descriptive statistics)와 추리 통계(Inferential statistics) (0)	2023.03.29

Contents

새소식