수학/확률 및 통계
-
연속 확률 분포(continuous probability distribution)는 연속 확률 변수의 값들이 나타날 확률을 설명하는 함수다. PDF, Probability Density Function(확률밀도함수) 균일 분포(Uniform distribution) 구간 [a, b]에서 모든 값이 동일한 확률로 발생하는 확률변수의 분포 PDF f(x)=
정규 분포(Normal distribution) 평균이 μ이고 표준편차가 σ인 연속 확률변수의 분포 PDF $f(x) = \frac{1}{\sqrt{2\pi\sigm..{1b−a,for a≤x≤b0,otherwise 연속 확률 분포(Continuous probability distribution)연속 확률 분포(continuous probability distribution)는 연속 확률 변수의 값들이 나타날 확률을 설명하는 함수다. PDF, Probability Density Function(확률밀도함수) 균일 분포(Uniform distribution) 구간 [a, b]에서 모든 값이 동일한 확률로 발생하는 확률변수의 분포 PDF f(x)=
2023.04.04 정규 분포(Normal distribution) 평균이 μ이고 표준편차가 σ인 연속 확률변수의 분포 PDF $f(x) = \frac{1}{\sqrt{2\pi\sigm..{1b−a,for a≤x≤b0,otherwise -
이산 확률 분포(discrete probability distribution)는 이산 확률 변수의 값들이 나타날 확률을 설명하는 함수다. PMF, Probability Mass Function(확률질량함수) 주요한 이산 확률 분포는 아래와 같다. 베르누이 분포(Bernoulli distribution) 두 가지 결과만 가능한 확률변수의 분포(ex. 동전 던지기) PMF P(X=k)=pk(1−p)1−k, where k∈{0,1} 이항 분포(Binomial distribution) 독립적인 베르누이 시행에서 성공한 횟수에 대한 확률변수의 분포 PMF $P(X = k) = \binom{n}{k} p^k (1-p)^{n-k},\ \text{where } k \in..
이산 확률 분포(Discrete probability distribution)이산 확률 분포(discrete probability distribution)는 이산 확률 변수의 값들이 나타날 확률을 설명하는 함수다. PMF, Probability Mass Function(확률질량함수) 주요한 이산 확률 분포는 아래와 같다. 베르누이 분포(Bernoulli distribution) 두 가지 결과만 가능한 확률변수의 분포(ex. 동전 던지기) PMF P(X=k)=pk(1−p)1−k, where k∈{0,1} 이항 분포(Binomial distribution) 독립적인 베르누이 시행에서 성공한 횟수에 대한 확률변수의 분포 PMF $P(X = k) = \binom{n}{k} p^k (1-p)^{n-k},\ \text{where } k \in..
2023.04.04 -
확률질량함수(Probability Mass Function, PMF)와 확률밀도함수(Probability Density Function, PDF)는 확률 분포를 설명하는 데 사용되는 함수다. 이 두 함수는 이산 확률변수와 연속 확률변수를 나타내는 데 각각 사용된다. 확률질량함수 이산 확률변수에서 각 값을 가질 확률을 나타내는 함수다. 확률질량함수는 확률변수가 취할 수 있는 이산적인 값들에 대해 해당 값이 발생할 확률을 제공한다. 모든 확률값이 0과 1 사이이며, 모든 가능한 값에 대한 확률의 합이 1이다. 예를 들어, 동전 던지기를 생각해보면 이산 확률변수 X가 앞면이 나올 때 1, 뒷면이 나올 때 0이라고 할 수 있다. 이 때 확률질량함수는 다음과 같다. P(X=0)=0.5 $P(X = ..
확률질량함수(Probability Mass Function, PMF)와 확률밀도함수(Probability Density Function, PDF)확률질량함수(Probability Mass Function, PMF)와 확률밀도함수(Probability Density Function, PDF)는 확률 분포를 설명하는 데 사용되는 함수다. 이 두 함수는 이산 확률변수와 연속 확률변수를 나타내는 데 각각 사용된다. 확률질량함수 이산 확률변수에서 각 값을 가질 확률을 나타내는 함수다. 확률질량함수는 확률변수가 취할 수 있는 이산적인 값들에 대해 해당 값이 발생할 확률을 제공한다. 모든 확률값이 0과 1 사이이며, 모든 가능한 값에 대한 확률의 합이 1이다. 예를 들어, 동전 던지기를 생각해보면 이산 확률변수 X가 앞면이 나올 때 1, 뒷면이 나올 때 0이라고 할 수 있다. 이 때 확률질량함수는 다음과 같다. P(X=0)=0.5 $P(X = ..
2023.04.03 -
마르코프 체인(Markov chain)은 확률론과 통계학에서 사용되는 모델로, 시스템의 상태가 이전 상태에만 의존하는 이산 시간 확률 과정이다. 이러한 과정은 "마르코프 성질(Markov property)"을 가지며, 이는 미래 상태가 오직 현재 상태에만 의존하고, 과거 상태는 고려하지 않는다는 것을 의미한다. 쉽게 말해, 현재 상태를 알고 있다면 과거 정보는 미래 예측에 도움이 되지 않는다. 마르코프 체인은 다음과 같은 요소로 구성된다. 상태(state) 시스템이 가질 수 있는 가능한 모든 상태의 집합이다. 예를 들어, 날씨 예측 시스템에서 상태는 '맑음', '흐림', '비', '눈' 등이 될 수 있다. 전이 확률(transition probability) 한 상태에서 다른 상태로 전이할 확률을 나타낸..
마르코프 체인(Markov chain)마르코프 체인(Markov chain)은 확률론과 통계학에서 사용되는 모델로, 시스템의 상태가 이전 상태에만 의존하는 이산 시간 확률 과정이다. 이러한 과정은 "마르코프 성질(Markov property)"을 가지며, 이는 미래 상태가 오직 현재 상태에만 의존하고, 과거 상태는 고려하지 않는다는 것을 의미한다. 쉽게 말해, 현재 상태를 알고 있다면 과거 정보는 미래 예측에 도움이 되지 않는다. 마르코프 체인은 다음과 같은 요소로 구성된다. 상태(state) 시스템이 가질 수 있는 가능한 모든 상태의 집합이다. 예를 들어, 날씨 예측 시스템에서 상태는 '맑음', '흐림', '비', '눈' 등이 될 수 있다. 전이 확률(transition probability) 한 상태에서 다른 상태로 전이할 확률을 나타낸..
2023.03.31 -
기술통계에서 데이터의 모양(Shape)은 데이터 분포의 특성을 나타내는 중요한 요소다. 데이터의 모양은 주로 대칭성, 왜도, 첨도 등의 지표를 사용하여 설명된다. 대칭성(Symmetry): 분포의 대칭성은 데이터가 평균을 중심으로 얼마나 대칭적으로 분포하고 있는지를 나타낸다. 대칭 분포에서는 평균, 중앙값, 최빈값이 모두 일치한다. 대표적인 대칭 분포로는 정규분포가 있다. 분포가 대칭이 아닌 경우 왜도를 통해 분포의 비대칭 정도를 측정할 수 있다. 왜도(Skewness): 왜도는 분포의 비대칭 정도를 나타내는 지표로, 분포가 평균을 중심으로 어느 방향으로 치우쳐 있는지를 설명한다. 왜도가 0이면 분포가 대칭이다. 왜도가 양수인 경우(양의 왜도), 분포는 왼쪽으로 치우쳐져 있으며, 음수인 경우(음의 왜도)..
[기술 통계] 형태(Shape)기술통계에서 데이터의 모양(Shape)은 데이터 분포의 특성을 나타내는 중요한 요소다. 데이터의 모양은 주로 대칭성, 왜도, 첨도 등의 지표를 사용하여 설명된다. 대칭성(Symmetry): 분포의 대칭성은 데이터가 평균을 중심으로 얼마나 대칭적으로 분포하고 있는지를 나타낸다. 대칭 분포에서는 평균, 중앙값, 최빈값이 모두 일치한다. 대표적인 대칭 분포로는 정규분포가 있다. 분포가 대칭이 아닌 경우 왜도를 통해 분포의 비대칭 정도를 측정할 수 있다. 왜도(Skewness): 왜도는 분포의 비대칭 정도를 나타내는 지표로, 분포가 평균을 중심으로 어느 방향으로 치우쳐 있는지를 설명한다. 왜도가 0이면 분포가 대칭이다. 왜도가 양수인 경우(양의 왜도), 분포는 왼쪽으로 치우쳐져 있으며, 음수인 경우(음의 왜도)..
2023.03.30 -
기술 통계에서 산포도(Dispersion)는 데이터 값들이 얼마나 퍼져 있는지를 나타내는 지표다. 산포도를 이해하면 데이터의 변동성을 파악할 수 있으며, 이를 통해 데이터의 안정성과 신뢰성을 평가할 수 있다. 주요 산포도 지표로는 범위, 분산, 표준편차, 사분위간 범위가 있다. 범위 (Range): 범위는 데이터셋에서 가장 큰 값과 가장 작은 값의 차이로 계산된다. 범위는 산포도를 나타내는 가장 간단한 지표이지만, 이상치(Outlier)에 매우 민감하며 데이터셋의 모든 값을 고려하지 않기 때문에 한계가 있다. Range=max(x)−min(x) 분산 (Variance): 분산은 각 데이터 값과 평균 간 차이를 제곱한 값들의 평균이다. 분산은 데이터 값이 평균 주변에 얼마나 퍼져..
[기술 통계] 산포도(Dispersion)기술 통계에서 산포도(Dispersion)는 데이터 값들이 얼마나 퍼져 있는지를 나타내는 지표다. 산포도를 이해하면 데이터의 변동성을 파악할 수 있으며, 이를 통해 데이터의 안정성과 신뢰성을 평가할 수 있다. 주요 산포도 지표로는 범위, 분산, 표준편차, 사분위간 범위가 있다. 범위 (Range): 범위는 데이터셋에서 가장 큰 값과 가장 작은 값의 차이로 계산된다. 범위는 산포도를 나타내는 가장 간단한 지표이지만, 이상치(Outlier)에 매우 민감하며 데이터셋의 모든 값을 고려하지 않기 때문에 한계가 있다. Range=max(x)−min(x) 분산 (Variance): 분산은 각 데이터 값과 평균 간 차이를 제곱한 값들의 평균이다. 분산은 데이터 값이 평균 주변에 얼마나 퍼져..
2023.03.30 -
중심 경향치(Central Tendency)는 데이터의 중심을 나타내는 값으로, 일반적으로 평균, 중앙값, 최빈값이 이에 해당한다. 평균(Mean): 평균은 모든 데이터 값의 합을 데이터의 개수로 나눈 값이다. 기호로는 μ 또는 ˉx로 표현된다. 데이터의 전체적인 경향을 파악하는 데 가장 널리 사용되는 중심 경향성이다. 그러나 평균은 이상치(Outlier)에 민감하게 반응할 수 있어, 이상치가 있는 경우 다른 중심 경향치 지표를 고려해야 할 수 있다. μ=∑xn또는ˉx=∑xn 여기서 ∑x는 모든 데이터 값의 합이고, n은 데이터의 개수이다. 중앙값(Median)..
[기술 통계] 중심 경향치(Central Tendency)중심 경향치(Central Tendency)는 데이터의 중심을 나타내는 값으로, 일반적으로 평균, 중앙값, 최빈값이 이에 해당한다. 평균(Mean): 평균은 모든 데이터 값의 합을 데이터의 개수로 나눈 값이다. 기호로는 μ 또는 ˉx로 표현된다. 데이터의 전체적인 경향을 파악하는 데 가장 널리 사용되는 중심 경향성이다. 그러나 평균은 이상치(Outlier)에 민감하게 반응할 수 있어, 이상치가 있는 경우 다른 중심 경향치 지표를 고려해야 할 수 있다. μ=∑xn또는ˉx=∑xn 여기서 ∑x는 모든 데이터 값의 합이고, n은 데이터의 개수이다. 중앙값(Median)..
2023.03.29 -
기술통계(Descriptive Statistics) 기술통계는 데이터를 요약하고 설명하는데 사용되는 통계적 방법이다. 주요 개념은 다음과 같다. 중심 경향치(Central Tendency): 데이터의 중심을 나타내는 지표로 평균, 중앙값, 최빈값이 있다. 산포도(Dispersion): 데이터의 퍼짐 정도를 나타내는 지표로 범위, 분산, 표준편차, 사분위수 등이 있다. 모양(Shape): 데이터 분포의 형태를 나타내는 지표로 왜도(Skewness, 비대칭도)와 첨도(Kurtosis, 뾰족함) 등이 있다. 데이터 분석에서 기술통계의 중요성: 데이터 요약: 기술통계는 대량의 데이터를 몇 가지 요약 통계량으로 축소하여, 데이터의 전반적인 특성을 쉽게 파악할 수 있게 해준다. 이를 통해 데이터의 중심 위치, 퍼짐..
기술 통계(Descriptive statistics)와 추리 통계(Inferential statistics)기술통계(Descriptive Statistics) 기술통계는 데이터를 요약하고 설명하는데 사용되는 통계적 방법이다. 주요 개념은 다음과 같다. 중심 경향치(Central Tendency): 데이터의 중심을 나타내는 지표로 평균, 중앙값, 최빈값이 있다. 산포도(Dispersion): 데이터의 퍼짐 정도를 나타내는 지표로 범위, 분산, 표준편차, 사분위수 등이 있다. 모양(Shape): 데이터 분포의 형태를 나타내는 지표로 왜도(Skewness, 비대칭도)와 첨도(Kurtosis, 뾰족함) 등이 있다. 데이터 분석에서 기술통계의 중요성: 데이터 요약: 기술통계는 대량의 데이터를 몇 가지 요약 통계량으로 축소하여, 데이터의 전반적인 특성을 쉽게 파악할 수 있게 해준다. 이를 통해 데이터의 중심 위치, 퍼짐..
2023.03.29