CS 361A Lecture 20 Data Mining: Association Rules

CS 361A (Advanced Data Structures and Algorithms) Lecture 20 (Dec 7, 2005) Data Mining: Association Rules Rajeev Motwani (partially based on notes by Jeff Ullman)

Association Rules Overview ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

Association Rules ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

Market-Basket Model ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

Example ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

Application 1 (Retail Stores) ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

Application 2 (Information Retrieval) ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

Application 3 (Web Search) ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

Scale of Problem ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

Association Rules ,[object Object],[object Object],[object Object],[object Object],[object Object]

Example ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

Finding Association Rules ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

Computation Model ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

Finding Frequent Pairs ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

Montonicity Property ,[object Object],[object Object],[object Object],[object Object],[object Object]

A-Priori Algorithm ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

Memory Usage – A-Priori Candidate Items Pass 1 Pass 2 Frequent Items Candidate Pairs M E M O R Y M E M O R Y

PCY Idea ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

Memory Usage – PCY Candidate Items Pass 1 Pass 2 M E M O R Y M E M O R Y Hash Table Frequent Items Bitmap Candidate Pairs

PCY Algorithm ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

Multistage PCY Algorithm ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

Memory Usage – Multistage PCY Candidate Items Pass 1 Pass 2 Hash Table 1 Frequent Items Bitmap Frequent Items Bitmap 1 Bitmap 2 Candidate Pairs Hash Table 2

Finding Larger Itemsets ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

Approximation Techniques ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

Sampling Algorithm ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

SON Algorithm ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

Toivonen’s Algorithm ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

Low-Support, High-Correlation ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

Matrix Representation ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

Column Similarity ,[object Object],[object Object],[object Object],[object Object],C i C j 0 1 1 0 1 1 sim(C i ,C j ) = 2/5 = 0.4 0 0 1 1 0 1

Identifying Similar Columns? ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

Key Observation ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

Min Hashing ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

Min-Hash Signatures ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

Example C 1 C 2 C 3 R 1 1 0 1 R 2 0 1 1 R 3 1 0 0 R 4 1 0 1 R 5 0 1 0 Signatures S 1 S 2 S 3 Perm 1 = (12345) 1 2 1 Perm 2 = (54321) 4 5 4 Perm 3 = (34512) 3 5 4 Similarities 1-2 1-3 2-3 Col-Col 0.00 0.50 0.25 Sig-Sig 0.00 0.67 0.00

Implementation Trick ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

Example C 1 C 2 R 1 1 0 R 2 0 1 R 3 1 1 R 4 1 0 R 5 0 1 h(x) = x mod 5 g(x) = 2x+1 mod 5 h(1) = 1 1 - g(1) = 3 3 - h(2) = 2 1 2 g(2) = 0 3 0 h(3) = 3 1 2 g(3) = 2 2 0 h(4) = 4 1 2 g(4) = 4 2 0 h(5) = 0 1 0 g(5) = 1 2 0 C 1 slots C 2 slots

Comparing Signatures ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

Locality-Sensitive Hashing ,[object Object],[object Object],[object Object],[object Object],[object Object],Bands H 3

Band-Hash Analysis ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

LSH Summary ,[object Object],[object Object],[object Object],[object Object]

Densifying – Amplification of 1’s ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

Example 0 0 1 1 0 0 1 0 0 1 0 1 1 1 1

Using Hamming LSH ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

Summary ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

References ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

CS 361A Lecture 20 Data Mining: Association Rules

Recommandé

Recommandé

Contenu connexe

En vedette

En vedette (9)

Similaire à CS 361A Lecture 20 Data Mining: Association Rules

Similaire à CS 361A Lecture 20 Data Mining: Association Rules (20)

CS 361A Lecture 20 Data Mining: Association Rules