a. 연관규칙(Association rule)이란
- 항목들간의 조건-결과 식으로 표현되는 유용한 패턴
- 이러한 패턴을 발견해 내는 것을 연관분석(Association Analysis)이라고 하고, 흔히 장바구니 분석이라고 함.
b. 연관규칙의 측정 지표
- 아이템이 많아지면 어떤 연관규칙이 유의미한지 측정할 수 있는 평가지표가 필요
- 지지도(Support) : 전체 거래항목 중 상품 A와 상품 B를 동시에 포함하여 거래하는 비율
§ P(A ∩ B) : A와 B가 동시에 포함된 거래 수 / 전체 거래 수
- 신뢰도(Confidence) : 상품 A를 포함하는 거래 중 A와 B가 동시에 거래되는 비율
§ P(A ∩ B) / P(A) : A와 B가 동시에 포함된 거래 수 / A가 포함된 거래 수
- 향상도(Lift) : 상품 A가 주어지지 않았을 때 B의 확률 대비 A가 주어졌을 때 B의 확률 증가 비율
§ P(A ∩ B) / P(A) × P (B) = P(B | A) / P(B) : A와 B가 동시에 일어난 횟수 / A와 B가 독립사건일 때, A와 B가 동시에 일어날 확률
§ A와 B 사이에 아무런 상호관계가 없으면 향상도는 1
§ 향상도가 1보다 높을 수록 연관성이 높다.
§ 즉, 향상도가 1보다 크면 B를 구매할 확률보다 A를 구매한 후 B를 구매할 확률이 더 높다는 의미
c. Apriori 알고리즘 분석 절차
- 최소지지도를 설정
- 개별품목 중에서 최소 지지도를 넘는 모든 품목을 찾음
- 찾은 개별 품목만을 이용하여 최소 지지도를 넘는 두 가지 품목 집합을 찾음
- 찾은 품목 집합을 결합하여 최소 지지도를 넘는 세 가지 품목 집합을 찾음
- 반복적으로 수행하여 최소 지지도가 넘는 빈발품목을 찾음
d. 연관분석의 장점
- 조건반응으로 표현되는 연관분석의 결과를 이해하기 쉬움
- 강력한 비목적성 분석기법
- 사용이 편리한 데이터 분석
- 분석 계산이 간단
e. 연관분석의 단점
- 분석 품목의 수가 증가하면 분석 계산이 기하급수적으로 증가
- 너무 세부화된 품목으로 연관규칙을 찾으려면 의미 없는 결과가 도출
- 상대적으로 거래량이 적으면 규칙 발견 시 제외되기 쉬움
댓글 없음:
댓글 쓰기