새소식

수학/확률 및 통계

기술 통계(Descriptive statistics)와 추리 통계(Inferential statistics)

  • -

기술통계(Descriptive Statistics)

기술통계는 데이터를 요약하고 설명하는데 사용되는 통계적 방법이다. 주요 개념은 다음과 같다.

 

  • 중심 경향치(Central Tendency): 데이터의 중심을 나타내는 지표로 평균, 중앙값, 최빈값이 있다.
  • 산포도(Dispersion): 데이터의 퍼짐 정도를 나타내는 지표로 범위, 분산, 표준편차, 사분위수 등이 있다.
  • 모양(Shape): 데이터 분포의 형태를 나타내는 지표로 왜도(Skewness, 비대칭도)와 첨도(Kurtosis, 뾰족함) 등이 있다.

 

데이터 분석에서 기술통계의 중요성:

  1. 데이터 요약: 기술통계는 대량의 데이터를 몇 가지 요약 통계량으로 축소하여, 데이터의 전반적인 특성을 쉽게 파악할 수 있게 해준다. 이를 통해 데이터의 중심 위치, 퍼짐 정도, 분포 형태 등을 신속하게 이해할 수 있다.
  2. 데이터의 품질 평가: 기술통계를 사용하면 데이터에 이상치, 결측치 등의 문제가 있는지 확인할 수 있다. 이를 통해 데이터 전처리 및 정제 작업을 계획하고 수행할 수 있다.
  3. 데이터 시각화: 기술통계를 통해 얻은 정보를 바탕으로 데이터를 시각화할 수 있다. 이를 통해 데이터의 패턴, 경향성, 관계 등을 직관적으로 파악할 수 있다.

 

추리통계(Inferential Statistics)

추리통계는 표본을 이용해 모집단에 대한 결론을 도출하는 통계적 방법이다. 주요 개념은 다음과 같다.

 

  • 확률(Probability): 사건 발생의 가능성을 나타내는 척도로, 조건부 확률, 독립 사건, 종속 사건 등의 개념을 포함한다.
  • 확률분포(Probability Distribution): 확률변수의 가능한 값에 대한 확률을 설명하는 분포로, 이산 확률분포와 연속 확률분포가 있다.
  • 표본추출(Sampling) 및 표본분포(Sampling Distribution): 모집단에서 표본을 추출하는 방법과 표본 통계량의 분포를 의미한다.
  • 점추정(Point Estimation) 및 구간추정(Interval Estimation): 모수를 추정하는 방법으로, 최대우도추정법 등의 점추정과 신뢰구간을 사용한 구간추정이 있다.
  • 가설검정(Hypothesis Testing): 귀무가설과 대립가설을 설정하고, 검정통계량 및 P-값을 사용해 가설을 기각할지 여부를 결정한다.
  • 회귀분석(Regression Analysis) 및 분산분석(ANOVA): 변수 간의 관계를 분석하고, 모델의 적합도와 예측력을 평가한다.

 

데이터 분석에서 추리통계의 중요성:

  1. 모집단 추론: 추리통계를 통해 표본 데이터를 기반으로 모집단의 특성을 추론할 수 있다. 이를 통해 전체 모집단에 대한 결론을 도출하고, 일반화할 수 있다.
  2. 가설 검정: 추리통계를 사용하여 가설을 설정하고, 이를 검정하여 통계적으로 유의한지 여부를 판단할 수 있다. 이를 통해 변수 간의 관계, 인과성 등을 분석하고, 의사결정에 활용할 수 있다.
  3. 예측 및 모델링: 추리통계를 통해 회귀분석, 분산분석 등 다양한 통계 모델을 구축하고, 이를 사용해 종속변수를 예측할 수 있다. 이러한 모델은 머신러닝 및 데이터 분석의 기초가 되기도 한다.
Contents

포스팅 주소를 복사했습니다

이 글이 도움이 되었다면 공감 부탁드립니다.