수학/확률 및 통계

기술 통계(Descriptive statistics)와 추리 통계(Inferential statistics)

기술통계는 데이터를 요약하고 설명하는데 사용되는 통계적 방법이다. 주요 개념은 다음과 같다.

중심 경향치(Central Tendency): 데이터의 중심을 나타내는 지표로 평균, 중앙값, 최빈값이 있다.
산포도(Dispersion): 데이터의 퍼짐 정도를 나타내는 지표로 범위, 분산, 표준편차, 사분위수 등이 있다.
모양(Shape): 데이터 분포의 형태를 나타내는 지표로 왜도(Skewness, 비대칭도)와 첨도(Kurtosis, 뾰족함) 등이 있다.

데이터 분석에서 기술통계의 중요성:

데이터 요약: 기술통계는 대량의 데이터를 몇 가지 요약 통계량으로 축소하여, 데이터의 전반적인 특성을 쉽게 파악할 수 있게 해준다. 이를 통해 데이터의 중심 위치, 퍼짐 정도, 분포 형태 등을 신속하게 이해할 수 있다.
데이터의 품질 평가: 기술통계를 사용하면 데이터에 이상치, 결측치 등의 문제가 있는지 확인할 수 있다. 이를 통해 데이터 전처리 및 정제 작업을 계획하고 수행할 수 있다.
데이터 시각화: 기술통계를 통해 얻은 정보를 바탕으로 데이터를 시각화할 수 있다. 이를 통해 데이터의 패턴, 경향성, 관계 등을 직관적으로 파악할 수 있다.

추리통계는 표본을 이용해 모집단에 대한 결론을 도출하는 통계적 방법이다. 주요 개념은 다음과 같다.

확률(Probability): 사건 발생의 가능성을 나타내는 척도로, 조건부 확률, 독립 사건, 종속 사건 등의 개념을 포함한다.
확률분포(Probability Distribution): 확률변수의 가능한 값에 대한 확률을 설명하는 분포로, 이산 확률분포와 연속 확률분포가 있다.
표본추출(Sampling) 및 표본분포(Sampling Distribution): 모집단에서 표본을 추출하는 방법과 표본 통계량의 분포를 의미한다.
점추정(Point Estimation) 및 구간추정(Interval Estimation): 모수를 추정하는 방법으로, 최대우도추정법 등의 점추정과 신뢰구간을 사용한 구간추정이 있다.
가설검정(Hypothesis Testing): 귀무가설과 대립가설을 설정하고, 검정통계량 및 P-값을 사용해 가설을 기각할지 여부를 결정한다.
회귀분석(Regression Analysis) 및 분산분석(ANOVA): 변수 간의 관계를 분석하고, 모델의 적합도와 예측력을 평가한다.

데이터 분석에서 추리통계의 중요성:

모집단 추론: 추리통계를 통해 표본 데이터를 기반으로 모집단의 특성을 추론할 수 있다. 이를 통해 전체 모집단에 대한 결론을 도출하고, 일반화할 수 있다.
가설 검정: 추리통계를 사용하여 가설을 설정하고, 이를 검정하여 통계적으로 유의한지 여부를 판단할 수 있다. 이를 통해 변수 간의 관계, 인과성 등을 분석하고, 의사결정에 활용할 수 있다.
예측 및 모델링: 추리통계를 통해 회귀분석, 분산분석 등 다양한 통계 모델을 구축하고, 이를 사용해 종속변수를 예측할 수 있다. 이러한 모델은 머신러닝 및 데이터 분석의 기초가 되기도 한다.

Contents

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

새소식