시계열 분석
-
시계열 예측에서 one-step forecasting과 multi-horizon forecasting은 예측 기간에 따라 구분되는 두 가지 주요 방법이다. One-step forecasting One-step forecasting은 향후 하나의 시점에 대한 예측값을 생성하는 것이다. 이 방법은 현재 시점의 상태를 바탕으로 다음 관측값을 예측하기 때문에 직계 예측이라고도 한다. 예를 들어, 주식 시장에서 오늘의 데이터를 활용하여 내일의 주가를 예측하는 것이 one-step forecasting의 예다. 단일 스텝 예측은 일반적으로 빠르고 손쉽게 적용할 수 있으며, 단기 예측에 적합하다. Multi-horizon forecasting Multi-horizon forecasting은 향후 여러 시점에 대한 예..
One-step forecasting/Multi-horizon forecasting시계열 예측에서 one-step forecasting과 multi-horizon forecasting은 예측 기간에 따라 구분되는 두 가지 주요 방법이다. One-step forecasting One-step forecasting은 향후 하나의 시점에 대한 예측값을 생성하는 것이다. 이 방법은 현재 시점의 상태를 바탕으로 다음 관측값을 예측하기 때문에 직계 예측이라고도 한다. 예를 들어, 주식 시장에서 오늘의 데이터를 활용하여 내일의 주가를 예측하는 것이 one-step forecasting의 예다. 단일 스텝 예측은 일반적으로 빠르고 손쉽게 적용할 수 있으며, 단기 예측에 적합하다. Multi-horizon forecasting Multi-horizon forecasting은 향후 여러 시점에 대한 예..
2023.06.08 -
시계열 데이터의 차원(Time series dimensionality)은 데이터가 단일 변수(univariate) 또는 다중 변수(multivariate)로 구성되어 있는지에 따라 결정된다. Univariate Time Series (단변량 시계열) Univariate time series는 하나의 변수 또는 특성만을 포함하는 시계열 데이터다. 예를 들어, 주식 가격의 일별 종가, 월별 판매량, 연간 기온 등은 모두 단일 변수 시계열 데이터의 예시다. 이러한 데이터는 시간에 따라 관측된 값들의 연속으로 구성되어 있으며, 각 관측치는 해당 변수의 값을 나타낸다. Multivariate Time Series (다변량 시계열) Multivariate time series는 두 개 이상의 변수 또는 특성을 포함..
시계열 데이터의 차원(Time Series Dimensionality)시계열 데이터의 차원(Time series dimensionality)은 데이터가 단일 변수(univariate) 또는 다중 변수(multivariate)로 구성되어 있는지에 따라 결정된다. Univariate Time Series (단변량 시계열) Univariate time series는 하나의 변수 또는 특성만을 포함하는 시계열 데이터다. 예를 들어, 주식 가격의 일별 종가, 월별 판매량, 연간 기온 등은 모두 단일 변수 시계열 데이터의 예시다. 이러한 데이터는 시간에 따라 관측된 값들의 연속으로 구성되어 있으며, 각 관측치는 해당 변수의 값을 나타낸다. Multivariate Time Series (다변량 시계열) Multivariate time series는 두 개 이상의 변수 또는 특성을 포함..
2023.06.08 -
변수 선택법 (Variable Selection)은 머신러닝 모델을 구축할 때 사용되는 변수(특성)를 선택하는 방법이다. 이는 모델의 성능을 향상시키고, 과적합(overfitting)을 줄이며, 모델의 복잡성을 낮추고, 계산 시간을 줄이는 데 도움이 된다. 변수 선택법에는 여러 가지 방법이 있다. 필터 기반(Filter-based) 방법: 이 방법은 각 변수의 통계적 속성을 기준으로 변수를 선택한다. 변수 간 상관관계, 카이제곱 검정, 정보 이득 등을 사용하여 변수를 평가하고, 가장 중요한 변수만 선택한다. 이 방법은 계산 효율성이 높으나, 모델과 독립적이기 때문에 선택된 변수가 항상 최적의 모델 성능을 보장하지는 않는다. 래퍼 기반(Wrapper-based) 방법: 래퍼 기반 방법은 모델 성능을 직접 ..
변수 선택법(Variable Selection)변수 선택법 (Variable Selection)은 머신러닝 모델을 구축할 때 사용되는 변수(특성)를 선택하는 방법이다. 이는 모델의 성능을 향상시키고, 과적합(overfitting)을 줄이며, 모델의 복잡성을 낮추고, 계산 시간을 줄이는 데 도움이 된다. 변수 선택법에는 여러 가지 방법이 있다. 필터 기반(Filter-based) 방법: 이 방법은 각 변수의 통계적 속성을 기준으로 변수를 선택한다. 변수 간 상관관계, 카이제곱 검정, 정보 이득 등을 사용하여 변수를 평가하고, 가장 중요한 변수만 선택한다. 이 방법은 계산 효율성이 높으나, 모델과 독립적이기 때문에 선택된 변수가 항상 최적의 모델 성능을 보장하지는 않는다. 래퍼 기반(Wrapper-based) 방법: 래퍼 기반 방법은 모델 성능을 직접 ..
2023.05.07 -
다중공선성(multicollinearity)은 회귀 분석에 사용되는 독립 변수들 간에 높은 상관관계가 존재할 때 발생하는 문제다. 조금 더 구체적으로 말하자면, 독립 변수의 일부가 다른 독립 변수의 조합으로 표현될 수 있는 경우다. 독립 변수들이 서로 독립이 아니라 상호상관관계가 강한 경우에 발생한다. 이 문제는 회귀 계수의 추정치가 불안정하게 되어, 모델의 해석과 예측 성능에 영향을 미치게 된다. 다중공선성을 이해하기 위해서는 몇 가지 주요 개념들을 알아야 한다. 회귀 분석(Regression Analysis): 종속 변수와 하나 이상의 독립 변수 사이의 관계를 모델링하는 통계 기법이다. 회귀 분석은 독립 변수의 변화가 종속 변수에 어떤 영향을 미치는지 파악하는 데 도움이 된다. 상관계수(Correla..
다중공선성(Multicollinearity)다중공선성(multicollinearity)은 회귀 분석에 사용되는 독립 변수들 간에 높은 상관관계가 존재할 때 발생하는 문제다. 조금 더 구체적으로 말하자면, 독립 변수의 일부가 다른 독립 변수의 조합으로 표현될 수 있는 경우다. 독립 변수들이 서로 독립이 아니라 상호상관관계가 강한 경우에 발생한다. 이 문제는 회귀 계수의 추정치가 불안정하게 되어, 모델의 해석과 예측 성능에 영향을 미치게 된다. 다중공선성을 이해하기 위해서는 몇 가지 주요 개념들을 알아야 한다. 회귀 분석(Regression Analysis): 종속 변수와 하나 이상의 독립 변수 사이의 관계를 모델링하는 통계 기법이다. 회귀 분석은 독립 변수의 변화가 종속 변수에 어떤 영향을 미치는지 파악하는 데 도움이 된다. 상관계수(Correla..
2023.04.30 -
교차 상관(Cross Correlation)은 두 시계열 데이터의 상관 관계를 시간 지연(lag)에 따라 분석하는 통계적 방법이다. 교차 상관은 한 시계열 데이터가 다른 시계열 데이터에 얼마나 밀접하게 관련되어 있는지를 측정한다. 이는 두 시계열 데이터 사이의 상관 관계를 찾고, 한 시계열 데이터의 패턴이 다른 시계열 데이터에 어떻게 영향을 미치는지 이해하는 데 도움이 된다. 교차 상관의 계산은 다음과 같다. 두 시계열 데이터 $X$와 $Y$가 있고, 각각의 길이가 $n$이라고 가정해보자. 교차 상관 $r_{xy}(k)$를 시간 지연 $k$에 대해 다음과 같이 정의한다. $r_{xy}(k) = \frac{\sum_{i=1}^{n-k} (x_{i+k} - \bar{x})(y_i - \bar{y})}{\sq..
교차 상관(Cross Correlation)교차 상관(Cross Correlation)은 두 시계열 데이터의 상관 관계를 시간 지연(lag)에 따라 분석하는 통계적 방법이다. 교차 상관은 한 시계열 데이터가 다른 시계열 데이터에 얼마나 밀접하게 관련되어 있는지를 측정한다. 이는 두 시계열 데이터 사이의 상관 관계를 찾고, 한 시계열 데이터의 패턴이 다른 시계열 데이터에 어떻게 영향을 미치는지 이해하는 데 도움이 된다. 교차 상관의 계산은 다음과 같다. 두 시계열 데이터 $X$와 $Y$가 있고, 각각의 길이가 $n$이라고 가정해보자. 교차 상관 $r_{xy}(k)$를 시간 지연 $k$에 대해 다음과 같이 정의한다. $r_{xy}(k) = \frac{\sum_{i=1}^{n-k} (x_{i+k} - \bar{x})(y_i - \bar{y})}{\sq..
2023.04.29 -
전송 엔트로피(Transfer Entropy, TE)는 두 시계열 변수 간의 방향성 있는 정보 전달을 측정하는 비선형 방법이다. 전송 엔트로피는 정보 이론의 개념을 기반으로 하며, 한 시계열에서 다른 시계열로의 정보 전달을 정량화한다. 이를 통해 두 변수 간의 인과 관계를 추론할 수 있다. 전송 엔트로피는 선형 및 비선형 관계를 모두 측정할 수 있으며, 시차(lag)를 고려하여 방향성 있는 정보 전달을 계산한다. 전송 엔트로피를 계산하는 공식은 다음과 같다. $TE(X \to Y) = \sum_{x_{t-1}, y_{t}, y_{t-1}} p(x_{t-1}, y_{t}, y_{t-1}) \log \frac{p(y_{t} | x_{t-1}, y_{t-1})}{p(y_{t} | y_{t-1})}$ 여기서, ..
전송 엔트로피(Transfer Entropy, TE)전송 엔트로피(Transfer Entropy, TE)는 두 시계열 변수 간의 방향성 있는 정보 전달을 측정하는 비선형 방법이다. 전송 엔트로피는 정보 이론의 개념을 기반으로 하며, 한 시계열에서 다른 시계열로의 정보 전달을 정량화한다. 이를 통해 두 변수 간의 인과 관계를 추론할 수 있다. 전송 엔트로피는 선형 및 비선형 관계를 모두 측정할 수 있으며, 시차(lag)를 고려하여 방향성 있는 정보 전달을 계산한다. 전송 엔트로피를 계산하는 공식은 다음과 같다. $TE(X \to Y) = \sum_{x_{t-1}, y_{t}, y_{t-1}} p(x_{t-1}, y_{t}, y_{t-1}) \log \frac{p(y_{t} | x_{t-1}, y_{t-1})}{p(y_{t} | y_{t-1})}$ 여기서, ..
2023.04.29 -
그레인저 인과관계 검정(Granger causality test)은 두 시계열 변수 간의 인과 관계를 추론하는 통계적 방법이다. 그레인저 인과성 검정은 한 변수가 다른 변수의 과거 정보를 통해 예측할 수 있는지를 확인하여 인과 관계를 결정한다. 이 방법은 두 변수의 시간 지연(lag) 값을 고려하여 회귀 모델을 사용하여 검정한다. 그레인저 인과성 검정은 다음과 같은 과정으로 수행된다. 두 시계열 변수 X와 Y를 준비한다. 시간 지연(lag) 값을 선택한다. 일반적으로 AIC(Akaike Information Criterion) 또는 BIC(Bayesian Information Criterion) 같은 정보 기준을 사용하여 최적의 지연 값을 선택한다. 선택한 시간 지연 값을 사용하여 두 변수의 벡터 자기회..
그레인저 인과관계 검정(Granger causality test)그레인저 인과관계 검정(Granger causality test)은 두 시계열 변수 간의 인과 관계를 추론하는 통계적 방법이다. 그레인저 인과성 검정은 한 변수가 다른 변수의 과거 정보를 통해 예측할 수 있는지를 확인하여 인과 관계를 결정한다. 이 방법은 두 변수의 시간 지연(lag) 값을 고려하여 회귀 모델을 사용하여 검정한다. 그레인저 인과성 검정은 다음과 같은 과정으로 수행된다. 두 시계열 변수 X와 Y를 준비한다. 시간 지연(lag) 값을 선택한다. 일반적으로 AIC(Akaike Information Criterion) 또는 BIC(Bayesian Information Criterion) 같은 정보 기준을 사용하여 최적의 지연 값을 선택한다. 선택한 시간 지연 값을 사용하여 두 변수의 벡터 자기회..
2023.04.29 -
상호 정보량(Mutual Information, MI)은 정보 이론에서 두 확률변수 간의 의존성을 측정하는 방법이다. 상호 정보량은 한 변수의 정보가 다른 변수의 불확실성을 얼마나 줄여주는지를 나타내며, 두 변수가 독립적일 때 상호 정보량은 0이 된다. 상호 정보량은 선형 및 비선형 관계 모두를 포착할 수 있으며, 이산(discrete) 및 연속(continuous) 변수에 모두 적용할 수 있다. 상호 정보량을 계산하는 공식은 다음과 같다. 이산 변수 $I(X; Y) = \sum_{x \in X} \sum_{y \in Y} p(x, y) \log \frac{p(x, y)}{p(x) p(y)}$ 연속 변수 $I(X; Y) = \int_{x \in X} \int_{y \in Y} p(x, y) \log \f..
상호 정보량(Mutual Information)상호 정보량(Mutual Information, MI)은 정보 이론에서 두 확률변수 간의 의존성을 측정하는 방법이다. 상호 정보량은 한 변수의 정보가 다른 변수의 불확실성을 얼마나 줄여주는지를 나타내며, 두 변수가 독립적일 때 상호 정보량은 0이 된다. 상호 정보량은 선형 및 비선형 관계 모두를 포착할 수 있으며, 이산(discrete) 및 연속(continuous) 변수에 모두 적용할 수 있다. 상호 정보량을 계산하는 공식은 다음과 같다. 이산 변수 $I(X; Y) = \sum_{x \in X} \sum_{y \in Y} p(x, y) \log \frac{p(x, y)}{p(x) p(y)}$ 연속 변수 $I(X; Y) = \int_{x \in X} \int_{y \in Y} p(x, y) \log \f..
2023.04.29