분류 전체보기
-
선형 회귀(Linear Regression)는 종속 변수(타깃)와 독립 변수(특성) 간의 선형 관계를 모델링하여 예측하는 기법이다. 선형 회귀는 간단한 회귀 문제에 적합하며, 다음과 같은 수식으로 표현할 수 있다. $y = w_0 + w_1x_1 + w_2x_2 + ... + w_nx_n$ 여기서 $y$는 종속 변수, $x_1, x_2, ..., x_n$은 독립 변수, $w_0, w_1, ..., w_n$은 가중치다. 이때, $w_0$는 절편(intercept)으로 간주할 수 있다. 선형 회귀 모델의 학습 목표는 손실 함수(loss function)를 최소화하는 가중치를 찾는 것이다. 손실 함수로는 주로 평균 제곱 오차(Mean Squared Error, MSE)가 사용된다. $MSE = \frac{1}..
선형 회귀(Logistic Regression)선형 회귀(Linear Regression)는 종속 변수(타깃)와 독립 변수(특성) 간의 선형 관계를 모델링하여 예측하는 기법이다. 선형 회귀는 간단한 회귀 문제에 적합하며, 다음과 같은 수식으로 표현할 수 있다. $y = w_0 + w_1x_1 + w_2x_2 + ... + w_nx_n$ 여기서 $y$는 종속 변수, $x_1, x_2, ..., x_n$은 독립 변수, $w_0, w_1, ..., w_n$은 가중치다. 이때, $w_0$는 절편(intercept)으로 간주할 수 있다. 선형 회귀 모델의 학습 목표는 손실 함수(loss function)를 최소화하는 가중치를 찾는 것이다. 손실 함수로는 주로 평균 제곱 오차(Mean Squared Error, MSE)가 사용된다. $MSE = \frac{1}..
2023.04.23 -
import yfinance as yf import numpy as np import pandas as pd import seaborn as sns import matplotlib.pyplot as plt naver = yf.download('035420.KS', start='2016-01-01') samsung = yf.download('005930.KS', start='2016-01-01') hynix = yf.download('000660.KS', start='2016-01-01') hyundai = yf.download('005380.KS', start='2016-01-01') kia = yf.download('000270.KS', start='2016-01-01') kakao = yf.downl..
한국 주요 기업 주가 간의 상관관계 분석import yfinance as yf import numpy as np import pandas as pd import seaborn as sns import matplotlib.pyplot as plt naver = yf.download('035420.KS', start='2016-01-01') samsung = yf.download('005930.KS', start='2016-01-01') hynix = yf.download('000660.KS', start='2016-01-01') hyundai = yf.download('005380.KS', start='2016-01-01') kia = yf.download('000270.KS', start='2016-01-01') kakao = yf.downl..
2023.04.22 -
시계열 데이터를 다룰 때, 여러 시계열 데이터 간의 상관 관계를 파악하고 이에 따라서 데이터 모델링을 해야 하는 상황이 온다. 시계열 데이터들 간의 상관관계를 분석하는 여러가지 방법을 소개한다. 피어슨 상관 계수(Pearson Correlation Coefficient): 두 변수 간의 선형 상관 관계를 측정하는 가장 일반적인 방법. -1에서 1사이의 값을 가진다. 스피어만 순위 상관 계수(Spearman Rank Correlation Coefficient): 두 변수 간의 순위 기반의 비선형 상관 관계를 측정한다. 피어슨 상관 계수와 마찬가지로 -1에서 1 사이의 값을 가진다. 켄달 타우(Kendall's Tau): 스피어만 상관 계수와 유사하게, 켄달 타우는 두 변수 간의 순위 기반의 비선형 상관 관..
시계열 상관관계 분석(Correlation analysis)시계열 데이터를 다룰 때, 여러 시계열 데이터 간의 상관 관계를 파악하고 이에 따라서 데이터 모델링을 해야 하는 상황이 온다. 시계열 데이터들 간의 상관관계를 분석하는 여러가지 방법을 소개한다. 피어슨 상관 계수(Pearson Correlation Coefficient): 두 변수 간의 선형 상관 관계를 측정하는 가장 일반적인 방법. -1에서 1사이의 값을 가진다. 스피어만 순위 상관 계수(Spearman Rank Correlation Coefficient): 두 변수 간의 순위 기반의 비선형 상관 관계를 측정한다. 피어슨 상관 계수와 마찬가지로 -1에서 1 사이의 값을 가진다. 켄달 타우(Kendall's Tau): 스피어만 상관 계수와 유사하게, 켄달 타우는 두 변수 간의 순위 기반의 비선형 상관 관..
2023.04.22 -
한국 실업률 데이터는 2013년 1월 ~ 2023년 4월 데이터. 실업률에 대한 데이터는 월단위로 얻을 수 있어, 이 데이터를 증폭시킨다면 시계열 예측에 있어서 도움될 것. 원래 데이터 크기: 124 원하는 목표의 데이터 크기: 2500 import numpy as np import pandas as pd from scipy.interpolate import interp1d import matplotlib.pyplot as plt # umemployed이라는 DataFrame이 이미 존재하며, index는 0부터 시작한다고 가정합니다. original_length = len(umemployed) new_length = 2500 # 보간에 사용할 원래의 x, y 좌표를 생성합니다. x_original = ..
한국 실업률 데이터를 활용한 스플라인 보간(Spline Interpolation)한국 실업률 데이터는 2013년 1월 ~ 2023년 4월 데이터. 실업률에 대한 데이터는 월단위로 얻을 수 있어, 이 데이터를 증폭시킨다면 시계열 예측에 있어서 도움될 것. 원래 데이터 크기: 124 원하는 목표의 데이터 크기: 2500 import numpy as np import pandas as pd from scipy.interpolate import interp1d import matplotlib.pyplot as plt # umemployed이라는 DataFrame이 이미 존재하며, index는 0부터 시작한다고 가정합니다. original_length = len(umemployed) new_length = 2500 # 보간에 사용할 원래의 x, y 좌표를 생성합니다. x_original = ..
2023.04.21 -
아파치 파켓(Apache Parquet)은 열 기반의 고성능 파일 포맷으로, 빅데이터 처리를 위한 오픈소스 프로젝트 Apache Arrow에서 개발되었다. 하둡(Hadoop) 파일 시스템에서 사용하기 위해 최적화되어 있으며, Apache Spark, Apache Hive, Apache Impala 등의 데이터 처리 프레임워크와 호환된다. Parquet은 효율적인 데이터 압축 및 인코딩 방식을 사용해 데이터를 저장하며, 고속 쿼리 처리를 가능하게 한다. Parquet의 주요 특징 및 장점은 다음과 같다. 열(column) 기반 저장 Parquet은 열 기반의 파일 포맷으로, 데이터를 열 단위로 저장한다. 이러한 방식은 대규모 데이터셋에서 작은 부분만 읽어야 하는 경우 유용하다. 예를 들어, 특정 열에 대한..
아파치 파켓(Apache Parquet)아파치 파켓(Apache Parquet)은 열 기반의 고성능 파일 포맷으로, 빅데이터 처리를 위한 오픈소스 프로젝트 Apache Arrow에서 개발되었다. 하둡(Hadoop) 파일 시스템에서 사용하기 위해 최적화되어 있으며, Apache Spark, Apache Hive, Apache Impala 등의 데이터 처리 프레임워크와 호환된다. Parquet은 효율적인 데이터 압축 및 인코딩 방식을 사용해 데이터를 저장하며, 고속 쿼리 처리를 가능하게 한다. Parquet의 주요 특징 및 장점은 다음과 같다. 열(column) 기반 저장 Parquet은 열 기반의 파일 포맷으로, 데이터를 열 단위로 저장한다. 이러한 방식은 대규모 데이터셋에서 작은 부분만 읽어야 하는 경우 유용하다. 예를 들어, 특정 열에 대한..
2023.04.18 -
import pyupbit as pu import numpy as np import pandas as pd import matplotlib.pyplot as plt from statsmodels.graphics.tsaplots import plot_acf pu.get_current_price(["KRW-BTC"]) btc = pu.get_ohlcv(ticker="KRW-BTC",interval='minute1',to='2023-04-12 23:59',count=3000).close plt.figure(figsize=(14,7)) plt.title('Bitcoin') plt.plot(btc) fig, ax = plt.subplots(figsize=(12, 5)) plot_acf(btc, ax=ax, lag..
자기상관함수(AutoCovariance Function, ACF) 그래프 확인하기import pyupbit as pu import numpy as np import pandas as pd import matplotlib.pyplot as plt from statsmodels.graphics.tsaplots import plot_acf pu.get_current_price(["KRW-BTC"]) btc = pu.get_ohlcv(ticker="KRW-BTC",interval='minute1',to='2023-04-12 23:59',count=3000).close plt.figure(figsize=(14,7)) plt.title('Bitcoin') plt.plot(btc) fig, ax = plt.subplots(figsize=(12, 5)) plot_acf(btc, ax=ax, lag..
2023.04.17 -
준지도학습(semi-supervised learning)은 지도학습(supervised learning)과 비지도학습(unsupervised learning)의 중간 형태로, 레이블이 있는 데이터와 레이블이 없는 데이터 모두를 사용하여 머신러닝 알고리즘을 학습시키는 방법이다. 준지도학습은 데이터셋의 일부분에만 레이블이 있는 경우, 레이블이 없는 데이터를 활용하여 모델의 성능을 향상시키는 데 도움이 되는 방식으로 사용된다. 준지도학습의 주요 기법은 다음과 같다. 자기 학습(Self-training): 먼저 지도학습을 사용하여 레이블이 있는 데이터로 모델을 학습시킨다. 그런 다음, 학습된 모델을 사용하여 레이블이 없는 데이터의 레이블을 예측하고, 그 결과를 다시 학습 데이터에 추가한다. 이 과정을 반복하면서..
준지도학습(Semi-Supervised Learning)준지도학습(semi-supervised learning)은 지도학습(supervised learning)과 비지도학습(unsupervised learning)의 중간 형태로, 레이블이 있는 데이터와 레이블이 없는 데이터 모두를 사용하여 머신러닝 알고리즘을 학습시키는 방법이다. 준지도학습은 데이터셋의 일부분에만 레이블이 있는 경우, 레이블이 없는 데이터를 활용하여 모델의 성능을 향상시키는 데 도움이 되는 방식으로 사용된다. 준지도학습의 주요 기법은 다음과 같다. 자기 학습(Self-training): 먼저 지도학습을 사용하여 레이블이 있는 데이터로 모델을 학습시킨다. 그런 다음, 학습된 모델을 사용하여 레이블이 없는 데이터의 레이블을 예측하고, 그 결과를 다시 학습 데이터에 추가한다. 이 과정을 반복하면서..
2023.04.17 -
GARCH(Generalized Autoregressive Conditional Heteroskedasticity) 모델은 시계열 데이터의 변동성을 분석하고 예측하는 데 사용되는 통계 모델이다. GARCH 모델은 금융 시장과 같이 변동성이 크고 시간에 따라 변화하는 데이터를 분석하는 데 특히 유용하다. GARCH 모델의 핵심 개념은 조건부 이차 모멘트(분산)가 시간에 따라 변화한다는 것이다. 이는 ARCH(Autoregressive Conditional Heteroskedasticity) 모델을 일반화한 것으로, ARCH 모델은 이차 모멘트만 고려한다. GARCH 모델은 이차 모멘트뿐만 아니라 과거의 변동성 정보도 고려한다. $GARCH(p, q)$ 모델은 다음과 같은 수식으로 표현된다. $σ_t^2 =..
GARCH(Generalized Autoregressive Conditional Heteroskedasticity) 모델GARCH(Generalized Autoregressive Conditional Heteroskedasticity) 모델은 시계열 데이터의 변동성을 분석하고 예측하는 데 사용되는 통계 모델이다. GARCH 모델은 금융 시장과 같이 변동성이 크고 시간에 따라 변화하는 데이터를 분석하는 데 특히 유용하다. GARCH 모델의 핵심 개념은 조건부 이차 모멘트(분산)가 시간에 따라 변화한다는 것이다. 이는 ARCH(Autoregressive Conditional Heteroskedasticity) 모델을 일반화한 것으로, ARCH 모델은 이차 모멘트만 고려한다. GARCH 모델은 이차 모멘트뿐만 아니라 과거의 변동성 정보도 고려한다. $GARCH(p, q)$ 모델은 다음과 같은 수식으로 표현된다. $σ_t^2 =..
2023.04.17