결정 트리는 분류와 회귀 문제에 널리 사용되는 모델로, 데이터를 학습하여 결정 규칙의 나무 형태로 표현합니다. 이 강의에서는 결정 트리의 기본 개념, 작동 원리, 그리고 어떻게 결정 트리를 구축하고 해석하는지에 대해 배웁니다.

기본 원리

결정 트리는 데이터를 여러 단계에 걸쳐 나누어 분석하는 방법입니다. 각 단계에서는 하나의 독립 변수를 기준으로 데이터를 두 개의 그룹으로 분할합니다. 이 과정은 특정 종료 조건(예: 트리의 최대 깊이, 노드의 최소 데이터 수 등)이 충족될 때까지 반복됩니다. 결과적으로, 데이터는 여러 개의 작은 그룹(잎 노드)으로 분할되며, 각 그룹은 최종적인 예측 결과를 나타냅니다.

핵심 요소

결정 트리의 구축

정보 이득을 최대화하거나 지니 불순도를 최소화하는 분할을 찾아내는 과정을 통해 모델을 구축하며합니다. 각 단계에서 가능한 모든 분할을 평가하고, 정보 이득이 최대화되거나 지니 불순도가 최소화되는 분할을 선택하는 방향으로 계속해서 분귀합니다. 이 과정은 재귀적으로 이루어지며, 특정 종료 조건(예: 트리의 최대 깊이, 잎 노드의 최소 데이터 수)에 도달할 때까지 반복됩니다.