분류 전체보기
-
스칼라(Scalar): 스칼라는 크기만을 가지고 방향이 없는 값을 말한다. 일반적인 숫자를 예로 들 수 있으며, 실수, 정수, 복소수 등이 스칼라에 해당한다. 스칼라는 기호로 표기할 수 있으며, 예를 들어, $a$와 같이 표기할 수 있다. 벡터(Vector): 벡터는 크기와 방향을 모두 가지고 있는 값이다. 벡터는 n차원 공간의 점으로 표현되며, 각 차원에 해당하는 스칼라 값을 요소로 가진다. 벡터는 열(column) 또는 행(row)으로 표현될 수 있으며, 일반적으로 열 벡터를 사용한다. 벡터는 굵은 소문자 기호로 표기할 수 있으며, 예를 들어, $\textbf{v}$와 같이 표기할 수 있다. n차원 벡터의 표기는 다음과 같다. \(\textbf{v} = \begin{bmatrix} v_1 \\ v_2..
스칼라(Scalar), 벡터(Vector), 행렬(Matrix), 텐서(Tensor)스칼라(Scalar): 스칼라는 크기만을 가지고 방향이 없는 값을 말한다. 일반적인 숫자를 예로 들 수 있으며, 실수, 정수, 복소수 등이 스칼라에 해당한다. 스칼라는 기호로 표기할 수 있으며, 예를 들어, $a$와 같이 표기할 수 있다. 벡터(Vector): 벡터는 크기와 방향을 모두 가지고 있는 값이다. 벡터는 n차원 공간의 점으로 표현되며, 각 차원에 해당하는 스칼라 값을 요소로 가진다. 벡터는 열(column) 또는 행(row)으로 표현될 수 있으며, 일반적으로 열 벡터를 사용한다. 벡터는 굵은 소문자 기호로 표기할 수 있으며, 예를 들어, $\textbf{v}$와 같이 표기할 수 있다. n차원 벡터의 표기는 다음과 같다. \(\textbf{v} = \begin{bmatrix} v_1 \\ v_2..
2023.03.30 -
기술통계에서 데이터의 모양(Shape)은 데이터 분포의 특성을 나타내는 중요한 요소다. 데이터의 모양은 주로 대칭성, 왜도, 첨도 등의 지표를 사용하여 설명된다. 대칭성(Symmetry): 분포의 대칭성은 데이터가 평균을 중심으로 얼마나 대칭적으로 분포하고 있는지를 나타낸다. 대칭 분포에서는 평균, 중앙값, 최빈값이 모두 일치한다. 대표적인 대칭 분포로는 정규분포가 있다. 분포가 대칭이 아닌 경우 왜도를 통해 분포의 비대칭 정도를 측정할 수 있다. 왜도(Skewness): 왜도는 분포의 비대칭 정도를 나타내는 지표로, 분포가 평균을 중심으로 어느 방향으로 치우쳐 있는지를 설명한다. 왜도가 0이면 분포가 대칭이다. 왜도가 양수인 경우(양의 왜도), 분포는 왼쪽으로 치우쳐져 있으며, 음수인 경우(음의 왜도)..
[기술 통계] 형태(Shape)기술통계에서 데이터의 모양(Shape)은 데이터 분포의 특성을 나타내는 중요한 요소다. 데이터의 모양은 주로 대칭성, 왜도, 첨도 등의 지표를 사용하여 설명된다. 대칭성(Symmetry): 분포의 대칭성은 데이터가 평균을 중심으로 얼마나 대칭적으로 분포하고 있는지를 나타낸다. 대칭 분포에서는 평균, 중앙값, 최빈값이 모두 일치한다. 대표적인 대칭 분포로는 정규분포가 있다. 분포가 대칭이 아닌 경우 왜도를 통해 분포의 비대칭 정도를 측정할 수 있다. 왜도(Skewness): 왜도는 분포의 비대칭 정도를 나타내는 지표로, 분포가 평균을 중심으로 어느 방향으로 치우쳐 있는지를 설명한다. 왜도가 0이면 분포가 대칭이다. 왜도가 양수인 경우(양의 왜도), 분포는 왼쪽으로 치우쳐져 있으며, 음수인 경우(음의 왜도)..
2023.03.30 -
기술 통계에서 산포도(Dispersion)는 데이터 값들이 얼마나 퍼져 있는지를 나타내는 지표다. 산포도를 이해하면 데이터의 변동성을 파악할 수 있으며, 이를 통해 데이터의 안정성과 신뢰성을 평가할 수 있다. 주요 산포도 지표로는 범위, 분산, 표준편차, 사분위간 범위가 있다. 범위 (Range): 범위는 데이터셋에서 가장 큰 값과 가장 작은 값의 차이로 계산된다. 범위는 산포도를 나타내는 가장 간단한 지표이지만, 이상치(Outlier)에 매우 민감하며 데이터셋의 모든 값을 고려하지 않기 때문에 한계가 있다. $\text{Range} = \max(x) - \min(x)$ 분산 (Variance): 분산은 각 데이터 값과 평균 간 차이를 제곱한 값들의 평균이다. 분산은 데이터 값이 평균 주변에 얼마나 퍼져..
[기술 통계] 산포도(Dispersion)기술 통계에서 산포도(Dispersion)는 데이터 값들이 얼마나 퍼져 있는지를 나타내는 지표다. 산포도를 이해하면 데이터의 변동성을 파악할 수 있으며, 이를 통해 데이터의 안정성과 신뢰성을 평가할 수 있다. 주요 산포도 지표로는 범위, 분산, 표준편차, 사분위간 범위가 있다. 범위 (Range): 범위는 데이터셋에서 가장 큰 값과 가장 작은 값의 차이로 계산된다. 범위는 산포도를 나타내는 가장 간단한 지표이지만, 이상치(Outlier)에 매우 민감하며 데이터셋의 모든 값을 고려하지 않기 때문에 한계가 있다. $\text{Range} = \max(x) - \min(x)$ 분산 (Variance): 분산은 각 데이터 값과 평균 간 차이를 제곱한 값들의 평균이다. 분산은 데이터 값이 평균 주변에 얼마나 퍼져..
2023.03.30 -
중심 경향치(Central Tendency)는 데이터의 중심을 나타내는 값으로, 일반적으로 평균, 중앙값, 최빈값이 이에 해당한다. 평균(Mean): 평균은 모든 데이터 값의 합을 데이터의 개수로 나눈 값이다. 기호로는 ${\mu}$ 또는 $\bar{x}$로 표현된다. 데이터의 전체적인 경향을 파악하는 데 가장 널리 사용되는 중심 경향성이다. 그러나 평균은 이상치(Outlier)에 민감하게 반응할 수 있어, 이상치가 있는 경우 다른 중심 경향치 지표를 고려해야 할 수 있다. $\mu = \frac{\sum x}{n} \quad \text{또는} \quad \bar{x} = \frac{\sum x}{n}$ 여기서 $\sum x$는 모든 데이터 값의 합이고, $n$은 데이터의 개수이다. 중앙값(Median)..
[기술 통계] 중심 경향치(Central Tendency)중심 경향치(Central Tendency)는 데이터의 중심을 나타내는 값으로, 일반적으로 평균, 중앙값, 최빈값이 이에 해당한다. 평균(Mean): 평균은 모든 데이터 값의 합을 데이터의 개수로 나눈 값이다. 기호로는 ${\mu}$ 또는 $\bar{x}$로 표현된다. 데이터의 전체적인 경향을 파악하는 데 가장 널리 사용되는 중심 경향성이다. 그러나 평균은 이상치(Outlier)에 민감하게 반응할 수 있어, 이상치가 있는 경우 다른 중심 경향치 지표를 고려해야 할 수 있다. $\mu = \frac{\sum x}{n} \quad \text{또는} \quad \bar{x} = \frac{\sum x}{n}$ 여기서 $\sum x$는 모든 데이터 값의 합이고, $n$은 데이터의 개수이다. 중앙값(Median)..
2023.03.29 -
기술통계(Descriptive Statistics) 기술통계는 데이터를 요약하고 설명하는데 사용되는 통계적 방법이다. 주요 개념은 다음과 같다. 중심 경향치(Central Tendency): 데이터의 중심을 나타내는 지표로 평균, 중앙값, 최빈값이 있다. 산포도(Dispersion): 데이터의 퍼짐 정도를 나타내는 지표로 범위, 분산, 표준편차, 사분위수 등이 있다. 모양(Shape): 데이터 분포의 형태를 나타내는 지표로 왜도(Skewness, 비대칭도)와 첨도(Kurtosis, 뾰족함) 등이 있다. 데이터 분석에서 기술통계의 중요성: 데이터 요약: 기술통계는 대량의 데이터를 몇 가지 요약 통계량으로 축소하여, 데이터의 전반적인 특성을 쉽게 파악할 수 있게 해준다. 이를 통해 데이터의 중심 위치, 퍼짐..
기술 통계(Descriptive statistics)와 추리 통계(Inferential statistics)기술통계(Descriptive Statistics) 기술통계는 데이터를 요약하고 설명하는데 사용되는 통계적 방법이다. 주요 개념은 다음과 같다. 중심 경향치(Central Tendency): 데이터의 중심을 나타내는 지표로 평균, 중앙값, 최빈값이 있다. 산포도(Dispersion): 데이터의 퍼짐 정도를 나타내는 지표로 범위, 분산, 표준편차, 사분위수 등이 있다. 모양(Shape): 데이터 분포의 형태를 나타내는 지표로 왜도(Skewness, 비대칭도)와 첨도(Kurtosis, 뾰족함) 등이 있다. 데이터 분석에서 기술통계의 중요성: 데이터 요약: 기술통계는 대량의 데이터를 몇 가지 요약 통계량으로 축소하여, 데이터의 전반적인 특성을 쉽게 파악할 수 있게 해준다. 이를 통해 데이터의 중심 위치, 퍼짐..
2023.03.29 -
미분 방정식의 일종으로, 구하려는 함수가 하나의 독립 변수만을 가지고 있는 경우를 말하며, 이와 반대되는 개념은 여러 변수에 대한 함수를 편미분 하는 형식을 취하는 편미분 방정식(Partial Differential Equation, PDE)이라고 한다. 선형 상미분 방정식(Linear Ordinary Differential Equation) ${\displaystyle y^{(n)}=\sum _{i=0}^{n-1}a_{i}(x)y^{(i)}+r(x)}$ 제차 선형 상미분 방정식(Homogeneous Linear Ordinary Differential Equation): 위의 식에서 초항 $r(x) = 0$인 경우 비제차 선형 상미분 방정식(Non-homogeneous Linear Ordinary Dif..
상미분 방정식(Ordinary Differential Equation, ODE)미분 방정식의 일종으로, 구하려는 함수가 하나의 독립 변수만을 가지고 있는 경우를 말하며, 이와 반대되는 개념은 여러 변수에 대한 함수를 편미분 하는 형식을 취하는 편미분 방정식(Partial Differential Equation, PDE)이라고 한다. 선형 상미분 방정식(Linear Ordinary Differential Equation) ${\displaystyle y^{(n)}=\sum _{i=0}^{n-1}a_{i}(x)y^{(i)}+r(x)}$ 제차 선형 상미분 방정식(Homogeneous Linear Ordinary Differential Equation): 위의 식에서 초항 $r(x) = 0$인 경우 비제차 선형 상미분 방정식(Non-homogeneous Linear Ordinary Dif..
2023.03.17 -
코사인 유사도(Cosine Similarity)란 내적공간의 두 벡터간 각도의 코사인 값을 이용하여 측정된 벡터간의 유사한 정도를 의미한다. 코사인 유사도는 -1부터 1까지의 값을 가진다. 두 벡터의 방향이 같은 경우: 1 두 벡터의 방향이 직각인 경우(독립): 0 두 벡터의 방향이 반대인 경우: -1 코사인 유사도는 유클리디안 스칼라곱에서 유도된다. $\mathbf{a} \cdot \mathbf{b} = ||\mathbf{a}|| \ ||\mathbf{b}|| \cos{\theta}$ 이에 따라, 코사인 유사도 cos(θ)는 아래와 같이 표현된다. $\text{cosine similarity}(\mathbf{a}, \mathbf{b}) = \frac{\mathbf{a} \cdot \mathbf{b}}{..
코사인 유사도(Cosine Similarity)코사인 유사도(Cosine Similarity)란 내적공간의 두 벡터간 각도의 코사인 값을 이용하여 측정된 벡터간의 유사한 정도를 의미한다. 코사인 유사도는 -1부터 1까지의 값을 가진다. 두 벡터의 방향이 같은 경우: 1 두 벡터의 방향이 직각인 경우(독립): 0 두 벡터의 방향이 반대인 경우: -1 코사인 유사도는 유클리디안 스칼라곱에서 유도된다. $\mathbf{a} \cdot \mathbf{b} = ||\mathbf{a}|| \ ||\mathbf{b}|| \cos{\theta}$ 이에 따라, 코사인 유사도 cos(θ)는 아래와 같이 표현된다. $\text{cosine similarity}(\mathbf{a}, \mathbf{b}) = \frac{\mathbf{a} \cdot \mathbf{b}}{..
2023.03.15 -
다중 스텝 예측은 시계열 머신러닝에서 상당히 중요하게 여겨지는 도전적인 과제이다. 실생활 대부분의 데이터는 시간 속성을 가지고 있기 때문에, 미래를 예측하는 것은 상당한 가치를 창출한다. 다중 스텝 예측에 있어서 deep neural networks (DNNs)이 기존 시계열 모델보다 뛰어난 성능 향상을 입증시키면서 점점 더 사용되는 추세이다. 많은 모델들(예: DeepAR, MQRNN)은 recurrent neural networks (RNNs)에 초점을 맞춘 반면에, 최근 성능 향상은 Transformer-based models을 포함하여 정보를 순차적으로 처리하게 하는 RNN의 inductive bias를 뛰어넘는 수준의 관계성 높은 과거 타임 스텝의 선택성을 향상시키는 attention-based..
[구글 AI 블로그 리뷰] Interpretable Deep Learning for Time Series Forecasting다중 스텝 예측은 시계열 머신러닝에서 상당히 중요하게 여겨지는 도전적인 과제이다. 실생활 대부분의 데이터는 시간 속성을 가지고 있기 때문에, 미래를 예측하는 것은 상당한 가치를 창출한다. 다중 스텝 예측에 있어서 deep neural networks (DNNs)이 기존 시계열 모델보다 뛰어난 성능 향상을 입증시키면서 점점 더 사용되는 추세이다. 많은 모델들(예: DeepAR, MQRNN)은 recurrent neural networks (RNNs)에 초점을 맞춘 반면에, 최근 성능 향상은 Transformer-based models을 포함하여 정보를 순차적으로 처리하게 하는 RNN의 inductive bias를 뛰어넘는 수준의 관계성 높은 과거 타임 스텝의 선택성을 향상시키는 attention-based..
2023.03.15