연관 규칙 학습은 데이터 세트 내에서 항목 간의 흥미로운 관계를 찾아내는 비지도 학습 방법 중 하나입니다. 이 기법은 주로 거래 데이터에서 항목들의 연관성을 찾는 데 사용되며, 마켓 바스켓 분석(Market Basket Analysis)과 같은 분야에서 널리 활용됩니다.
연관 규칙 학습의 기본 개념
- 규칙(Rule): 연관 규칙은 "IF A THEN B"의 형태를 가집니다. 여기서 A는 조건이 되는 항목 집합이고, B는 결과가 되는 항목 집합입니다. 예를 들어, "IF {사과} THEN {바나나}"는 사과를 구매하는 경우 바나나도 구매하는 경향이 있다는 규칙을 의미합니다.
- 지지도(Support): 전체 거래 중 특정 항목 집합이 등장하는 비율을 나타냅니다. 이는 규칙의 중요도를 나타낼 수 있습니다.
- 신뢰도(Confidence): 조건 A가 주어졌을 때 결과 B가 동시에 발생할 확률입니다. P(B|A) = P(A∩B) / P(A) 공식으로 계산되고 높은 신뢰도는 조건 A가 주어졌을 때 결과 B가 발생할 가능성이 높음을 의미합니다.
- 향상도(Lift): B의 전체 발생 확률에 비해 A가 주어졌을 때 B의 발생 확률이 얼마나 증가하는지를 측정합니다. P(B|A) / P(B) 로 계산되며 향상도가 1보다 크면 A와 B가 서로 양의 연관성을 가지고, 1보다 작으면 음의 연관성을 가집니다.
연관 규칙 학습의 응용
- 마케팅 및 판매 전략: 고객의 구매 패턴을 분석하여 상품 배치, 교차 판매(cross-selling), 상품 추천 등의 전략을 수립할 수 있습니다.
- 재고 관리: 연관된 상품의 수요를 예측하여 재고 관리의 효율성을 높일 수 있습니다.
- 사기 탐지: 사기 거래 패턴을 식별하는 데 연관 규칙을 활용할 수 있습니다.
연관 규칙 학습 알고리즘
- Apriori 알고리즘: 가장 잘 알려진 연관 규칙 학습 알고리즘으로, 빈번한 항목 집합을 찾아내고, 그 집합들로부터 연관 규칙을 생성합니다.
- FP-Growth 알고리즘: Apriori 알고리즘보다 효율적인 연관 규칙 학습 알고리즘으로, 데이터베이스를 한 번만 스캔하면서 빈번한 항목 집합을 찾아냅니다.