일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | ||||
4 | 5 | 6 | 7 | 8 | 9 | 10 |
11 | 12 | 13 | 14 | 15 | 16 | 17 |
18 | 19 | 20 | 21 | 22 | 23 | 24 |
25 | 26 | 27 | 28 | 29 | 30 | 31 |
- 웹 스크랩핑
- R
- 내일배움캠프
- 파이썬 머신러닝 완벽가이드
- 실전 데이터 분석 프로젝트
- 파이썬 머신러닝 완벽 가이드
- 티스토리챌린지
- 중회귀모형
- 파이썬 완벽 가이드
- TiL
- 스파르타코딩
- 내일배움카드
- 파이썬 철저입문
- 프로그래머스
- MySQL
- wil
- 회귀분석
- 오블완
- harkerrank
- 텍스트 분석
- 파이썬
- 스파르타 코딩
- SQL
- 내일배움
- 프로젝트
- hackerrank
- 미세먼지
- Cluster
- 파이썬 철저 입문
- 스파르타
- Today
- Total
OkBublewrap
연관 규칙 (1): 이론, 평가척도 설명 본문
연관규칙
비지도학습: 연관규칙분석, 유통업계에서 사용하는 용어로 장바구니 분석
상품 추천
- 연관 규칙(Association Rule)
- 순차 분석(Sequence Analysis)
- Collaboratiive Filtering
- Content-based recommen-dation
- Who-which modeling
연관 규칙 분석, 순차 분석
- 연관 규칙: 동시 구매품목에 관심을 가진다. ➩ 주문번호, 고객ID, 구매상품코드
- 순차 분석: 시간의 순서에 따른 규칙에 관심 ➩ Time-stamp, 고객ID, 구매상품코드
연관규칙의 평가할 수 있는 척도
평가 척도가 중요한 이유
- 수십, 수백, 수천개의 association rule들이 쏟아지기 때문에 육안으로 일일이 보고 평가하기가 너무 힘들기 때문이다.
- (1) 모래사장에서 보석반지를 눈으로 찾는 방법
- (2) 모래를 거를 수 있는 체
지지도
s(X ➩ Y) = X와 Y를 모두 포함하는 거래 수 / 전체 거래 수 = n(X∪Y) / N
지지도는 좋은 규칙(빈도가 많은, 구성비가 높은)을 찾거나, 불필요한 연산을 줄일 때(pruning, 가지치기)의 기준으로 사용
신뢰도
s(X ➩ Y) = X와 Y를 모두 포함하는 거래 수 / X가 포함된 전체 거래 수 = n(X∪Y) / n(X)
신뢰도가 높을 수록 유용한 규칙일 가능성 높다고 할 수 있다.
향상도
연관 규칙의 신뢰도/지지도 = c(X ➩ Y) / s(Y)
향상도가 1보다 크거나, 작다면 우연적기회보다 우수함을 의미 (X, Y 가 서로 독립이면 향상도는 1)
3개의 척도를 모두 사용해서 rule을 평가!
(1): 특정 지지도와 신뢰도 이하의 rule은 screening out 시키기(minimun support, minimum confidence)
(2): 향상도 내림차순(양의 관계 찾기)으로 rule을 펴아
(3): 관심이 있는 상품이나 item이 있으면 목적에 맞게 해당 item이 left-hand side or right-hand side에 있는 rule만 선별해서 보기도 한다.
IS 측도, 교차지지도
연관분석은 신뢰도와 향상도가 중요한 지표로 사용되지만, 지지도가 부족하면 실용적인 마케팅 전략을 세우기 어렵다.
분석가들은 신뢰도와 향상도가 높은 규칙을 선호하지만, 사업부 현업에서는 이 규칙이 실제로 매출 증가에 얼마나 기여할지를 더 중요하게 여긴다.
지지도가 낮은 규칙은 전체 거래에서 자주 발생하지 않기 때문에 실제 마케팅 전략에 적용하기 어렵고, 이로 인해 매출 증가를 기대하기 힘들다. 또한, 지지가 낮은 규칙은 소수의 특이한 사례에 의한 우연적 결과일 수 있어 신뢰도나 향상도가 왜곡될 위험이 있다. 따라서 분석가만 참여한 연관규칙 분석은 현업의 관점과 맞지 않아 실효성이 떨어질 수 있다.
위 3가지 평가척도 한계 보완하기 위해 나옴
IS 측도
➩ 향상도와 지지도의 곱에 제곱근을 취한 값
향상도, 지지도가 모두 높을 수록 IS 측도값도 커짐
하나라도 작으면 IS측도 값은 작아짐
➩ 둘다 높은 rule만 선별 할 수 있음
교차지지도
➩ 최대지지도에 대한 최소지지도의 비율
의미 없는 연관규칙의 생성을 방지하기 위하여 교차지지도를 이용함
분자: 지지도 중 최소값, 분모: 지지도 중 최대값 이용
최소값과 최대값의 차이가 클 수록 교차지지도는 낮아지게 되며
➩ 이 비율이 매우 작으면 항목집합에서 생성되는 연관규칙이 의미가 없을 가능성이 높음
이 다섯가지 평가척도를 가지고 끝이 아니다!
반드시 현업 전문가의 해석, 평가, 판단, 개입이 있어야지 연관규칙분석이 끝!
연관규칙을 (1) 설명가능한, (2) 실행가능한으로 나눠서 평가를 해봐야 최종적으로 살아남아 현장에 적용을 하고 그 효과를 검증받게 된다. 수많은 rule이 최종 판단/선별에 현업 전문가의 개입이 필요하다
참고 블로그
[R 연관규칙(Association Rule)] 지지도(support), 신뢰도(confidence), 향상도(lift), IS측도, 교차지지도
지난번 포스팅에서는 연관규칙분석, 장바구니분석, 순차분석의 개략적인 정의와 활용에 대해서 알아보았습니다. 이번 포스팅에서는 연관규칙(association rule)의 흥미를 평가할 수 있는 척도(interes
rfriend.tistory.com
'Python > 학습용' 카테고리의 다른 글
LLM - RAG(1) (0) | 2025.03.20 |
---|---|
연관 규칙 (2): Apriori 알고리즘 (0) | 2025.03.08 |
Spark (4): 병렬처리 실습 (0) | 2025.03.05 |
Spark (3): 데이터 핸들링, 최적화 기법, 멀티프로세싱 및 검증 (0) | 2025.03.03 |
Spark (2): 병렬 처리, 분산 처리, 샘플링 기법 및 자동화 (0) | 2025.03.01 |