분류 전체보기
-
상호 정보량(Mutual Information, MI)은 정보 이론에서 두 확률변수 간의 의존성을 측정하는 방법이다. 상호 정보량은 한 변수의 정보가 다른 변수의 불확실성을 얼마나 줄여주는지를 나타내며, 두 변수가 독립적일 때 상호 정보량은 0이 된다. 상호 정보량은 선형 및 비선형 관계 모두를 포착할 수 있으며, 이산(discrete) 및 연속(continuous) 변수에 모두 적용할 수 있다. 상호 정보량을 계산하는 공식은 다음과 같다. 이산 변수 $I(X; Y) = \sum_{x \in X} \sum_{y \in Y} p(x, y) \log \frac{p(x, y)}{p(x) p(y)}$ 연속 변수 $I(X; Y) = \int_{x \in X} \int_{y \in Y} p(x, y) \log \f..
상호 정보량(Mutual Information)상호 정보량(Mutual Information, MI)은 정보 이론에서 두 확률변수 간의 의존성을 측정하는 방법이다. 상호 정보량은 한 변수의 정보가 다른 변수의 불확실성을 얼마나 줄여주는지를 나타내며, 두 변수가 독립적일 때 상호 정보량은 0이 된다. 상호 정보량은 선형 및 비선형 관계 모두를 포착할 수 있으며, 이산(discrete) 및 연속(continuous) 변수에 모두 적용할 수 있다. 상호 정보량을 계산하는 공식은 다음과 같다. 이산 변수 $I(X; Y) = \sum_{x \in X} \sum_{y \in Y} p(x, y) \log \frac{p(x, y)}{p(x) p(y)}$ 연속 변수 $I(X; Y) = \int_{x \in X} \int_{y \in Y} p(x, y) \log \f..
2023.04.29 -
켄달의 타우(Kendall's tau)는 두 변수 간의 순위(rank)에 기반한 상관계수로, 비선형 상관관계와 단조(monotonic) 관계를 측정하는 데 적합하다. 켄달의 타우는 두 변수의 순위 차이에 따라 양의 상관관계, 음의 상관관계, 또는 독립적인 관계를 나타낸다. 켄달의 타우를 계산하는 과정은 다음과 같다. 각 변수의 관측값에 대해 순위(rank)를 할당한다. 동일한 값이 있는 경우 평균 순위를 사용한다. 두 변수의 관측값 쌍을 비교하여 일치 쌍(concordant pairs)과 불일치 쌍(discordant pairs)를 찾는다. 일치 쌍: 한 변수의 관측값 쌍에서 값이 증가하면 다른 변수의 관측값 쌍에서 값도 증가하는 경우, 또는 값이 감소하면 값도 감소하는 경우다. 불일치 쌍: 한 변수의 ..
켄달의 타우(Kendall's tau)켄달의 타우(Kendall's tau)는 두 변수 간의 순위(rank)에 기반한 상관계수로, 비선형 상관관계와 단조(monotonic) 관계를 측정하는 데 적합하다. 켄달의 타우는 두 변수의 순위 차이에 따라 양의 상관관계, 음의 상관관계, 또는 독립적인 관계를 나타낸다. 켄달의 타우를 계산하는 과정은 다음과 같다. 각 변수의 관측값에 대해 순위(rank)를 할당한다. 동일한 값이 있는 경우 평균 순위를 사용한다. 두 변수의 관측값 쌍을 비교하여 일치 쌍(concordant pairs)과 불일치 쌍(discordant pairs)를 찾는다. 일치 쌍: 한 변수의 관측값 쌍에서 값이 증가하면 다른 변수의 관측값 쌍에서 값도 증가하는 경우, 또는 값이 감소하면 값도 감소하는 경우다. 불일치 쌍: 한 변수의 ..
2023.04.28 -
스피어만 상관계수(Spearman's rank correlation coefficient)는 두 변수의 순위(rank) 간의 상관관계를 측정하는 비모수적(non-parametric) 통계 방법이다. 스피어만 상관계수는 선형 및 비선형 상관관계를 모두 측정할 수 있으며, 특히 단조(monotonic) 관계에 강하게 민감하다. 스피어만 상관계수는 다음과 같은 과정을 통해 계산된다. 각 변수의 관측값에 대해 순위(rank)를 할당한다. 동일한 값이 있는 경우 평균 순위를 사용한다. 두 변수의 순위 차이를 계산한다. ($d_i = r_{X_i} - r_{Y_i}$) 순위 차이의 제곱을 모두 더한다. ($Σd²$) 스피어만 상관계수를 다음 공식을 사용하여 계산한다. $\rho = 1 - \frac{6 \sum_{..
스피어만 상관계수(Spearman's rank correlation coefficient)스피어만 상관계수(Spearman's rank correlation coefficient)는 두 변수의 순위(rank) 간의 상관관계를 측정하는 비모수적(non-parametric) 통계 방법이다. 스피어만 상관계수는 선형 및 비선형 상관관계를 모두 측정할 수 있으며, 특히 단조(monotonic) 관계에 강하게 민감하다. 스피어만 상관계수는 다음과 같은 과정을 통해 계산된다. 각 변수의 관측값에 대해 순위(rank)를 할당한다. 동일한 값이 있는 경우 평균 순위를 사용한다. 두 변수의 순위 차이를 계산한다. ($d_i = r_{X_i} - r_{Y_i}$) 순위 차이의 제곱을 모두 더한다. ($Σd²$) 스피어만 상관계수를 다음 공식을 사용하여 계산한다. $\rho = 1 - \frac{6 \sum_{..
2023.04.28 -
피어슨 상관계수(Pearson correlation coefficient)는 두 변수 간의 선형 상관관계를 측정하는 통계적 지표다. 피어슨 상관계수는 -1부터 1까지의 범위를 가지며, 이 값이 1에 가까울수록 두 변수는 강한 양의 선형 상관관계를 가지고, -1에 가까울수록 강한 음의 선형 상관관계를 가지며, 0에 가까울수록 선형 상관관계가 없음을 의미한다. 피어슨 상관계수는 다음과 같은 공식으로 계산된다. $r = \frac{\sum_{i=1}^n (X_i - \bar{X})(Y_i - \bar{Y})}{\sqrt{\sum_{i=1}^n (X_i - \bar{X})^2 \sum_{i=1}^n (Y_i - \bar{Y})^2}}$ 여기서 $r$은 피어슨 상관계수이며, $X_i$와 $Y_i$는 각각 두 변수..
피어슨 상관 계수(Pearson correlation coefficient)피어슨 상관계수(Pearson correlation coefficient)는 두 변수 간의 선형 상관관계를 측정하는 통계적 지표다. 피어슨 상관계수는 -1부터 1까지의 범위를 가지며, 이 값이 1에 가까울수록 두 변수는 강한 양의 선형 상관관계를 가지고, -1에 가까울수록 강한 음의 선형 상관관계를 가지며, 0에 가까울수록 선형 상관관계가 없음을 의미한다. 피어슨 상관계수는 다음과 같은 공식으로 계산된다. $r = \frac{\sum_{i=1}^n (X_i - \bar{X})(Y_i - \bar{Y})}{\sqrt{\sum_{i=1}^n (X_i - \bar{X})^2 \sum_{i=1}^n (Y_i - \bar{Y})^2}}$ 여기서 $r$은 피어슨 상관계수이며, $X_i$와 $Y_i$는 각각 두 변수..
2023.04.27 -
K-평균 군집화(K-means Clustering)는 비지도 학습 알고리즘 중 하나로, 주어진 데이터를 K개의 클러스터로 그룹화하는 방법이다. 이 알고리즘은 다음과 같은 과정을 통해 클러스터링을 수행한다. 무작위로 K개의 초기 클러스터 중심(centroid)를 선택한다. 각 데이터 포인트를 가장 가까운 클러스터 중심에 할당한다. 각 클러스터의 중심을 새롭게 계산한다. 이를 위해, 해당 클러스터에 속한 모든 데이터 포인트의 평균 좌표를 사용한다. 클러스터 중심의 변화가 없을 때까지 2번과 3번 단계를 반복한다. K-평균 군집화의 목표는 아래의 목적 함수를 최소화하는 클러스터 중심을 찾는 것이다. $J = \sum_{i=1}^K \sum_{x \in C_i} ||x - \mu_i||^2$ 여기서 $J$는 목..
K-평균 군집화(K-means Clustering)K-평균 군집화(K-means Clustering)는 비지도 학습 알고리즘 중 하나로, 주어진 데이터를 K개의 클러스터로 그룹화하는 방법이다. 이 알고리즘은 다음과 같은 과정을 통해 클러스터링을 수행한다. 무작위로 K개의 초기 클러스터 중심(centroid)를 선택한다. 각 데이터 포인트를 가장 가까운 클러스터 중심에 할당한다. 각 클러스터의 중심을 새롭게 계산한다. 이를 위해, 해당 클러스터에 속한 모든 데이터 포인트의 평균 좌표를 사용한다. 클러스터 중심의 변화가 없을 때까지 2번과 3번 단계를 반복한다. K-평균 군집화의 목표는 아래의 목적 함수를 최소화하는 클러스터 중심을 찾는 것이다. $J = \sum_{i=1}^K \sum_{x \in C_i} ||x - \mu_i||^2$ 여기서 $J$는 목..
2023.04.23 -
서포트 벡터 머신(Support Vector Machine, SVM)은 분류와 회귀 문제를 해결하기 위한 머신러닝 알고리즘이다. SVM의 핵심 아이디어는 마진(margin)을 최대화하여 클래스 간의 경계를 찾는 것이다. 마진은 클래스를 구분하는 초평면(hyperplane)과 가장 가까운 훈련 샘플 간의 거리로 정의된다. 이러한 가장 가까운 훈련 샘플들을 서포트 벡터(support vectors)라고 한다. 조금 더 알기 쉽게 직관적으로 설명하자면, 2차원 평면에 빨간색과 파란색 점들이 분포되어 있다고 가정해보자. SVM의 목표는 빨간색과 파란색 점을 구분하는 선을 그리는 것이다. 이 선은 두 클래스의 가장 가까운 점들 사이의 거리가 최대가 되도록 그어진다. 이렇게 그어진 선은 분류 성능이 좋고, 새로운 ..
서포트 벡터 머신(Support Vector Machine, SVM)서포트 벡터 머신(Support Vector Machine, SVM)은 분류와 회귀 문제를 해결하기 위한 머신러닝 알고리즘이다. SVM의 핵심 아이디어는 마진(margin)을 최대화하여 클래스 간의 경계를 찾는 것이다. 마진은 클래스를 구분하는 초평면(hyperplane)과 가장 가까운 훈련 샘플 간의 거리로 정의된다. 이러한 가장 가까운 훈련 샘플들을 서포트 벡터(support vectors)라고 한다. 조금 더 알기 쉽게 직관적으로 설명하자면, 2차원 평면에 빨간색과 파란색 점들이 분포되어 있다고 가정해보자. SVM의 목표는 빨간색과 파란색 점을 구분하는 선을 그리는 것이다. 이 선은 두 클래스의 가장 가까운 점들 사이의 거리가 최대가 되도록 그어진다. 이렇게 그어진 선은 분류 성능이 좋고, 새로운 ..
2023.04.23 -
결정 트리(Decision Tree)는 분류와 회귀 문제를 해결하기 위해 사용되는 머신러닝 알고리즘이다. 결정 트리는 데이터를 기반으로 결정 규칙을 생성하며, 트리 구조를 이용해 학습과 예측을 수행한다. 각각의 노드는 특정 특성에 대한 질문이나 테스트를 나타내고, 가지는 이러한 테스트의 결과를 표현한다. 결정 트리 알고리즘의 핵심은 최적의 질문(또는 테스트)을 선택하는 것이다. 이를 위해 주로 사용되는 기준은 정보 이득(Information Gain)과 지니 불순도(Gini Impurity)다. 정보 이득(Information Gain) 정보 이득은 결정 트리에서 분기 기준을 선택하기 위해 사용되는 척도다. 정보 이득은 부모 노드의 엔트로피와 자식 노드의 가중평균 엔트로피의 차이로 정의된다. 정보 이득이..
결정 트리(Decision Tree)결정 트리(Decision Tree)는 분류와 회귀 문제를 해결하기 위해 사용되는 머신러닝 알고리즘이다. 결정 트리는 데이터를 기반으로 결정 규칙을 생성하며, 트리 구조를 이용해 학습과 예측을 수행한다. 각각의 노드는 특정 특성에 대한 질문이나 테스트를 나타내고, 가지는 이러한 테스트의 결과를 표현한다. 결정 트리 알고리즘의 핵심은 최적의 질문(또는 테스트)을 선택하는 것이다. 이를 위해 주로 사용되는 기준은 정보 이득(Information Gain)과 지니 불순도(Gini Impurity)다. 정보 이득(Information Gain) 정보 이득은 결정 트리에서 분기 기준을 선택하기 위해 사용되는 척도다. 정보 이득은 부모 노드의 엔트로피와 자식 노드의 가중평균 엔트로피의 차이로 정의된다. 정보 이득이..
2023.04.23 -
로지스틱 회귀(Logistic Regression)는 이름에는 회귀가 들어가지만, 사실 분류 문제(이진 분류)에 주로 사용되는 머신러닝 알고리즘이다. 로지스틱 회귀는 선형 회귀와 비슷하지만, 종속 변수의 값이 0과 1 사이에 있어야 하므로, 시그모이드 함수(sigmoid function)와 같은 활성화 함수를 사용하여 출력을 확률로 변환한다. 시그모이드 함수는 다음과 같이 정의된다. $\sigma(z) = \frac{1}{1 + e^{-z}}$ 로지스틱 회귀 모델은 선형 회귀와 유사한 형태를 가진다. 하지만 종속 변수를 시그모이드 함수에 통과시켜 확률로 변환한다. $\hat{y} = \sigma(w_0 + w_1x_1 + w_2x_2 + ... + w_nx_n)$ 여기서 $\hat{y}$는 예측 확률, ..
로지스틱 회귀(Logistic Regression)로지스틱 회귀(Logistic Regression)는 이름에는 회귀가 들어가지만, 사실 분류 문제(이진 분류)에 주로 사용되는 머신러닝 알고리즘이다. 로지스틱 회귀는 선형 회귀와 비슷하지만, 종속 변수의 값이 0과 1 사이에 있어야 하므로, 시그모이드 함수(sigmoid function)와 같은 활성화 함수를 사용하여 출력을 확률로 변환한다. 시그모이드 함수는 다음과 같이 정의된다. $\sigma(z) = \frac{1}{1 + e^{-z}}$ 로지스틱 회귀 모델은 선형 회귀와 유사한 형태를 가진다. 하지만 종속 변수를 시그모이드 함수에 통과시켜 확률로 변환한다. $\hat{y} = \sigma(w_0 + w_1x_1 + w_2x_2 + ... + w_nx_n)$ 여기서 $\hat{y}$는 예측 확률, ..
2023.04.23