새소식

머신러닝 & 딥러닝

K-평균 군집화(K-means Clustering)

  • -

K-평균 군집화(K-means Clustering)비지도 학습 알고리즘 중 하나로, 주어진 데이터를 K개의 클러스터로 그룹화하는 방법이다. 이 알고리즘은 다음과 같은 과정을 통해 클러스터링을 수행한다.

  1. 무작위로 K개의 초기 클러스터 중심(centroid)를 선택한다.
  2. 각 데이터 포인트를 가장 가까운 클러스터 중심에 할당한다.
  3. 각 클러스터의 중심을 새롭게 계산한다. 이를 위해, 해당 클러스터에 속한 모든 데이터 포인트의 평균 좌표를 사용한다.
  4. 클러스터 중심의 변화가 없을 때까지 2번과 3번 단계를 반복한다.

 

K-평균 군집화의 목표는 아래의 목적 함수를 최소화하는 클러스터 중심을 찾는 것이다.

 

$J = \sum_{i=1}^K \sum_{x \in C_i} ||x - \mu_i||^2$

 

여기서 $J$는 목적 함수로서, 각 클러스터의 내부 분산을 나타낸다. $C_i$는 클러스터 $i$에 속한 데이터 포인트의 집합이고, $\mu_i$는 클러스터 $i$의 중심이다.

K-평균 군집화 알고리즘은 몇 가지 주의 사항이 있다.

  • K값(클러스터의 수)을 미리 정해야 한다. 적절한 K값을 선택하는 것은 문제의 특성에 따라 달라진다.
  • 초기 클러스터 중심의 선택에 따라 결과가 달라질 수 있다. 이를 해결하기 위해 여러 번 실행하거나, 초기 중심을 선택하는 다른 전략을 사용할 수 있습니다(ex. K-means++).
  • K-평균 군집화는 원형이고, 크기가 비슷한 클러스터를 가정한다. 그러므로, 이 가정에 맞지 않는 데이터 분포에 대해서는 성능이 저하될 수 있다.
Contents

포스팅 주소를 복사했습니다

이 글이 도움이 되었다면 공감 부탁드립니다.