23. 로지스틱 회귀 (Logistic Regression)

로지스틱 회귀는 분류 문제, 특히 이진 분류 문제를 해결하기 위한 머신러닝 알고리즘 중 하나입니다. 이름에는 '회귀'가 들어가 있지만, 실제로는 카테고리 결과(예: 예/아니오, 0/1)를 예측하는 데 사용됩니다. 이 강의에서는 로지스틱 회귀의 기본 원리, 수학적 모델, 그리고 실제 데이터에 어떻게 적용되는지를 다룹니다.

로지스틱 회귀의 기본 원리

로지스틱 회귀는 선형 회귀와 유사하게 독립 변수의 선형 조합을 사용하지만, 예측하려는 종속 변수가 범주형이라는 점에서 차이가 있습니다. 로지스틱 회귀는 독립 변수의 선형 조합을 입력으로 받아, 출력값을 0과 1 사이의 확률로 변환합니다. 이 변환은 로지스틱 함수(또는 시그모이드 함수)를 통해 이루어집니다.

로지스틱 함수 (시그모이드 함수)

로지스틱 회귀 모델의 핵심은 로지스틱(시그모이드) 함수를 사용하여, 입력 변수의 선형 조합을 확률로 변환하는 것입니다. 시그모이드 함수는 다음과 같은 공식을 가집니다:

$$ σ(z)=1 / (1+e−z) $$

여기서, z는 독립 변수의 선형 조합(z=β0+β1X1+⋯+βnXn)입니다. z를 입력값으로 하는 시그모이드 **함수의 출력값은 항상 0과 1 사이이며, 특정 이벤트가 발생할 확률을 나타냅니다.

모델 학습 및 예측

로지스틱 회귀 모델을 학습하는 과정은 주어진 데이터 세트에 대해 손실 함수(일반적으로 로그 손실)를 최소화하는 계수, 즉 파라미터(β)를 찾는 것입니다. 모델 학습 후, 새로운 데이터에 대한 예측은 독립 변수의 값에 기반하여 시그모이드 함수를 통해 확률을 계산하고, 이를 기반으로 분류 결정을 내립니다.