로지스틱 회귀(Logistic Regression)는 이름에는 회귀가 들어가지만, 사실 분류 문제(이진 분류)에 주로 사용되는 머신러닝 알고리즘이다. 로지스틱 회귀는 선형 회귀와 비슷하지만, 종속 변수의 값이 0과 1 사이에 있어야 하므로, 시그모이드 함수(sigmoid function)와 같은 활성화 함수를 사용하여 출력을 확률로 변환한다.
시그모이드 함수는 다음과 같이 정의된다.
σ(z)=11+e−z
로지스틱 회귀 모델은 선형 회귀와 유사한 형태를 가진다. 하지만 종속 변수를 시그모이드 함수에 통과시켜 확률로 변환한다.
ˆy=σ(w0+w1x1+w2x2+...+wnxn)
여기서 ˆy는 예측 확률, x1,x2,...,xn은 독립 변수, w0,w1,...,wn은 가중치다.
로지스틱 회귀의 학습 목표는 손실 함수(loss function)를 최소화하는 가중치를 찾는 것이다. 손실 함수로는 크로스 엔트로피 손실(Cross-entropy loss)이 주로 사용된다.
L(y,ˆy)=−[ylog(ˆy)+(1−y)log(1−ˆy)]
여기서 y는 실제 값, ˆy는 예측 확률이다. 이 손실 함수를 최소화하는 가중치를 찾아 모델을 학습시킨다.