[Data Science] Frequent Pattern Mining

Data Science

sheep_bell_door_ 2024. 3. 31. 17:34

Apriori

Reduce DB scanning time
어느 itemset이 frequent인 것이 결정되는 시점에서 미래의 후보 itemset에 대해서 frequent인지 확인한다. 이 방법을 사용하면 스캔의 횟수를 줄일 수 있다.
Item이 A, B, C, D가 있다고 가정했을 때, 아래의 예시를 보자.
기존 apriori 알고리즘은 아래 그림과 같이 DB를 여러 번 반복해서 스캔하였다.

DIC는 아래와 같이 A, D가 frequent라고 판단되면 해당 시점에서 AD를 frequent인지 확인한다. 마찬가지로 AB, BD가 frequent라고 판단되면 해당 시점에서 ABD가 frequent인지 확인한다.
즉, 스캔을 중간부터 시작한다.

Reduce DB scanning time
Partition은 DB를 k개의 파티션으로 나누어 각각의 파티션마다 local frequent pattern을 구하는 방식의 방식이다.
각각의 파티션의 크기는 (효율성을 위해) 메인 메모리의 크기에 맞춰져 있다.
- 전체 DB에 접근 X: 메인 메모리 크기 만큼의 파티션을 메모리에 올림 → local frequent pattern 확인 → 다음 파티션 fetch → 마지막 파티션까지 반복
Scan 1
- 각 파티션에 대해 local frequent pattern을 찾는다.
- Local minimum support는 (minimumSupport / k)이다.
- Global frequent pattern은 무조건 하나 이상의 local database에서 local frequent pattern이라는 사실에 기반한다.
Scan 2
- Local frequent pattern에 대해 전체 DB에서 실제 frequent pattern인지 확인한다.
- 예를 들어, # of partition = 4, minimum support = 40, local minimum support = 10 일 때, itemset {A, B, C}에 대해서 P1: 11, P2: 3, P3: 4, P4: 10이라면 local frequent pattern이지만 전체 support는 27이기 때문에 실제로 {A, B, C}는 frequent pattern이 될 수 없다.

Original minimum support에 대해 전체 DB를 스캔한다.
- SDB의 frequent itemset과 negative border에 대해 frequent 여부를 확인한다.
- Negative border: Sample DB에서는 frequent하지 않지만 전체 DB에 대해서 frequent 할 수 있는 itemset을 말한다. Itemset의 subset이 SDB에서 frequent한 itemset + single item으로 구성된 itemset이다.
  예를 들어, SDB의 frequent itemset S = {a}, {b}, {d}, {a, b}, {a, d}일 때, negative border NB = {b, d}: subset이 전부 SDB에서 frequent, {c}: single item이다.
전체 DB를 다시 한 번 스캔한다.
- Negative border 내의 itemset에 대해 missed frequent pattern이 있는지 확인한다.
- 예를 들어, S = {a}, {b}, {d}, {a, b}, {a, d}, NB = {b, d}, {c} 일 때, 스캔을 통해 {b, d}가 frequent 하다고 확인된다면 {a, b, d}는 frequent 하다고 할 수 있다.

Reduce # of candidates
Frequent k-itemset을 만들 때, DB 각각의 transaction으로부터 k+1 itemset에 대해 count를 저장하는 해시테이블을 만들어 candidate itemset을 줄이는 방식이다.