2018년 7월 29일 일요일

ADsP : 과목III. 데이터 분석 - 연관분석

1. 연관규칙
a. 연관규칙(Association rule)이란
- 항목들간의 조건-결과 식으로 표현되는 유용한 패턴
- 이러한 패턴을 발견해 내는 것을 연관분석(Association Analysis)이라고 하고, 흔히 장바구니 분석이라고 함.

b. 연관규칙의 측정 지표
- 아이템이 많아지면 어떤 연관규칙이 유의미한지 측정할 수 있는 평가지표가 필요
- 지지도(Support) : 전체 거래항목 중 상품 A와 상품 B를 동시에 포함하여 거래하는 비율
§ P(A ∩ B) : A와 B가 동시에 포함된 거래 수 / 전체 거래 수
- 신뢰도(Confidence) : 상품 A를 포함하는 거래 중 A와 B가 동시에 거래되는 비율
§ P(A ∩ B) / P(A) : A와 B가 동시에 포함된 거래 수 / A가 포함된 거래 수
- 향상도(Lift) : 상품 A가 주어지지 않았을 때 B의 확률 대비 A가 주어졌을 때 B의 확률 증가 비율
§ P(A ∩ B) / P(A) × P (B)  = P(B | A) / P(B) : A와 B가 동시에 일어난 횟수 / A와 B가 독립사건일 때, A와 B가 동시에 일어날 확률
§ A와 B 사이에 아무런 상호관계가 없으면 향상도는 1
§ 향상도가 1보다 높을 수록 연관성이 높다.
§ 즉, 향상도가 1보다 크면 B를 구매할 확률보다 A를 구매한 후 B를 구매할 확률이 더 높다는 의미

c. Apriori 알고리즘 분석 절차
- 최소지지도를 설정
- 개별품목 중에서 최소 지지도를 넘는 모든 품목을 찾음
- 찾은 개별 품목만을 이용하여 최소 지지도를 넘는 두 가지 품목 집합을 찾음
- 찾은 품목 집합을 결합하여 최소 지지도를 넘는 세 가지 품목 집합을 찾음
- 반복적으로 수행하여 최소 지지도가 넘는 빈발품목을 찾음

d. 연관분석의 장점
- 조건반응으로 표현되는 연관분석의 결과를 이해하기 쉬움
- 강력한 비목적성 분석기법
- 사용이 편리한 데이터 분석
- 분석 계산이 간단

e. 연관분석의 단점
- 분석 품목의 수가 증가하면 분석 계산이 기하급수적으로 증가
- 너무 세부화된 품목으로 연관규칙을 찾으려면 의미 없는 결과가 도출
- 상대적으로 거래량이 적으면 규칙 발견 시 제외되기 쉬움

댓글 없음:

댓글 쓰기

18회 ADsP 합격 후기

ADP도 아니고, 겨우 ADsP인데 무척 힘들게 공부했는데ㅜㅜ 결과적으로는 좋은 결과가 나와서 행복하네요! 꽤나 아슬아슬하게 합격해서 창피하긴합니다만ㅋ 합격하면 된거지 뭐 라고 생각하려구요! 언제가 될지는 모르겠습니다만, ADP도 ...