MINISTOP

새소식

Today I Learned

한국 주요 기업 주가 간의 상관관계 분석
import yfinance as yf import numpy as np import pandas as pd import seaborn as sns import matplotlib.pyplot as plt naver = yf.download('035420.KS', start='2016-01-01') samsung = yf.download('005930.KS', start='2016-01-01') hynix = yf.download('000660.KS', start='2016-01-01') hyundai = yf.download('005380.KS', start='2016-01-01') kia = yf.download('000270.KS', start='2016-01-01') kakao = yf.downl..

TIL
한국 실업률 데이터를 활용한 스플라인 보간(Spline Interpolation)
한국 실업률 데이터는 2013년 1월 ~ 2023년 4월 데이터. 실업률에 대한 데이터는 월단위로 얻을 수 있어, 이 데이터를 증폭시킨다면 시계열 예측에 있어서 도움될 것. 원래 데이터 크기: 124 원하는 목표의 데이터 크기: 2500 import numpy as np import pandas as pd from scipy.interpolate import interp1d import matplotlib.pyplot as plt # umemployed이라는 DataFrame이 이미 존재하며, index는 0부터 시작한다고 가정합니다. original_length = len(umemployed) new_length = 2500 # 보간에 사용할 원래의 x, y 좌표를 생성합니다. x_original = ..

TIL
아파치 파켓(Apache Parquet)
아파치 파켓(Apache Parquet)은 열 기반의 고성능 파일 포맷으로, 빅데이터 처리를 위한 오픈소스 프로젝트 Apache Arrow에서 개발되었다. 하둡(Hadoop) 파일 시스템에서 사용하기 위해 최적화되어 있으며, Apache Spark, Apache Hive, Apache Impala 등의 데이터 처리 프레임워크와 호환된다. Parquet은 효율적인 데이터 압축 및 인코딩 방식을 사용해 데이터를 저장하며, 고속 쿼리 처리를 가능하게 한다. Parquet의 주요 특징 및 장점은 다음과 같다. 열(column) 기반 저장 Parquet은 열 기반의 파일 포맷으로, 데이터를 열 단위로 저장한다. 이러한 방식은 대규모 데이터셋에서 작은 부분만 읽어야 하는 경우 유용하다. 예를 들어, 특정 열에 대한..

TIL
자기상관함수(AutoCovariance Function, ACF) 그래프 확인하기
import pyupbit as pu import numpy as np import pandas as pd import matplotlib.pyplot as plt from statsmodels.graphics.tsaplots import plot_acf pu.get_current_price(["KRW-BTC"]) btc = pu.get_ohlcv(ticker="KRW-BTC",interval='minute1',to='2023-04-12 23:59',count=3000).close plt.figure(figsize=(14,7)) plt.title('Bitcoin') plt.plot(btc) fig, ax = plt.subplots(figsize=(12, 5)) plot_acf(btc, ax=ax, lag..

TIL
PDF 파일에서 특정 페이지 python으로 추출하기
# fitz 설치 pip install PyMuPDF def find_pages_with_keyword(input_pdf_path, keyword): pdf = fitz.open(input_pdf_path) pages_with_keyword = [] for page_num in range(pdf.page_count): page = pdf.load_page(page_num) if keyword.lower() in page.get_text().lower(): pages_with_keyword.append(page_num + 1) pdf.close() return pages_with_keyword def print_pages_with_keyword(input_pdf_path, keyword): pages = ..

TIL
시계열 분해(Time series decomposition) 그래프 확인하기
import pyupbit as pu import numpy as np import pandas as pd import matplotlib.pyplot as plt from statsmodels.tsa.seasonal import seasonal_decompose pu.get_current_price(["KRW-BTC"]) btc = pu.get_ohlcv(ticker="KRW-BTC",interval='minute1',to='2023-04-12 23:59',count=3000).close plt.figure(figsize=(14,7)) plt.title('Bitcoin') plt.plot(btc) result = seasonal_decompose(btc, model='multiplicative', pe..

TIL

Time Series Analysis

Machine Learning & Deep Learning

Algorithm

최소 신장 트리(MST, Minimum Spanning Tree)
신장 트리(Spanning Tree) 그래프의 모든 노드(node)를 연결하면서 사이클이 없는 부분 그래프. 노드가 n개 이면, 신장 트리의 간선(edge)의 수는 n - 1개이다. 최소 신장 트리(Minimum Spanning Tree) 각 간선(edge)이 가지고 있는 가중치의 합이 최소가 되는 신장 트리. 대표적인 알고리즘으로는 프림 알고리즘(Prim's Algorithm)과 크루스칼 알고리즘(Kruskal's Algorithm)이 있다.

알고리즘

Python

문자열 앞의 r 의미
파이썬에서 문자열 앞에 r을 붙이는 것은 해당 문자열을 raw string으로 처리하도록 지시하는 것이다. raw 문자열에서는 이스케이프 시퀀스(예: \n, \t, \\ 등)가 해석되지 않는다. r을 입력하는 것과 입력하지 않는 것의 차이는 파일 경로를 입력할 때 발생한다. 예를 들어, Windows 시스템에서 파일 경로에 백슬래시(\)를 사용할 때 이 차이점이 중요해진다. file_path = "C:\Users\user\Documents\data.csv" 이 경우, 문자열에 있는 \U와 \D는 이스케이프 시퀀스로 해석되고, 실제로 존재하지 않는 문자로 변환되므로, 파일 경로가 올바르지 않게 된다. 이 문제를 해결하기 위해, 파일 경로를 raw string으로 지정할 수 있다. file_path = r"..

Python

Economics & Finance

Linear Algebra

Probability & Statistics

Calculus

Paper Review

Project

Etc

[구글 AI 블로그 리뷰] Interpretable Deep Learning for Time Series Forecasting
다중 스텝 예측은 시계열 머신러닝에서 상당히 중요하게 여겨지는 도전적인 과제이다. 실생활 대부분의 데이터는 시간 속성을 가지고 있기 때문에, 미래를 예측하는 것은 상당한 가치를 창출한다. 다중 스텝 예측에 있어서 deep neural networks (DNNs)이 기존 시계열 모델보다 뛰어난 성능 향상을 입증시키면서 점점 더 사용되는 추세이다. 많은 모델들(예: DeepAR, MQRNN)은 recurrent neural networks (RNNs)에 초점을 맞춘 반면에, 최근 성능 향상은 Transformer-based models을 포함하여 정보를 순차적으로 처리하게 하는 RNN의 inductive bias를 뛰어넘는 수준의 관계성 높은 과거 타임 스텝의 선택성을 향상시키는 attention-based..

기타

Receive promotional offers?

포스팅 주소를 복사했습니다

이 글이 도움이 되었다면 공감 부탁드립니다.

티스토리툴바