Pobieranie prezentacji. Proszę czekać

Pobieranie prezentacji. Proszę czekać

A-priori Partition Mateusz Mor, Kasper Rzepecki, Daniel Mendalka, Michał Samsonowski.

Podobne prezentacje


Prezentacja na temat: "A-priori Partition Mateusz Mor, Kasper Rzepecki, Daniel Mendalka, Michał Samsonowski."— Zapis prezentacji:

1 A-priori Partition Mateusz Mor, Kasper Rzepecki, Daniel Mendalka, Michał Samsonowski

2 Apriori Pomysły inspirowane artykułami naukowymi, w szczególności: http://www.borgelt.net/papers/cstat_02.pdf http://www.borgelt.net/papers/fimi_03.pdf [Implementacja w C rozwijana przez tysiąclecia]

3 Apriori Optymalizacje: Usunięcie elementów niebędących 1-frequent Usunięcie transakcji pustych Pogrupowanie takich samych transakcji i traktowanie ich jako jednej z większą wagą [0 1 2 3 4] [0][0] [0 5 6 7 8] [0][0]([0], 3) [0] [0][0] [9] [ ]

4 Apriori Dla kosarak (supp=0,1): 8 mln => 1,6 mln, 990 000=> 11 Mushroom (supp=0,5):186 tyś => 76 tyś, 8100 => 57 Accidents (supp=0,5): 11,5 mln=>6mln, 340000=>65000

5 Apriori Optymalizacje c.d.: Żadnych zbędnych HashSetów itp., wszystko co się da na int[] Dopasowane struktury danych: listy, tablice, itp Elementy przemapowane na 0-based i używane jako indeksy tablic [23, 29, 100000] => [0, 1, 2]

6 Apriori Struktura danych: drzewo prefiksowe Propagacja odcięć w górę drzewa Usuwanie transakcji którym nie udało się zmienić drzewa na danym poziomie Pomysły nie zrealizowane: Zrównoleglenie Grupowanie podobnych transakcji

7 Algorytm Partition: Modyfikacja algorytmu a-priori Przeszukuje Partycje danych które mieszczą się w pamięci Przyspiesza sprawdzanie wsparcia w partycji Wrażliwy na duże ilości zbiorów częstych Powtórne poszukiwanie wsparcia dla znalezionych zbiorów częstych

8 Zyski z założenia Znaczne przyspieszenie 2 krotne przejrzenie zbioru danych

9 Koszty z założenia Możliwość przekroczenia dostępnej pamięci i konieczność rozpoczęcia eksperymentu od początku Zwiększone wymaganie pamięciowe

10 Optymalizacje Wykorzystanie charakteru danych Zastosowanie listy sortowanej z indeksami przy łączeniu zbiorów Ponowne wykorzystanie partycji przy weryfikacji zbiorów częstych Łączenie zbiorów i czyszczenie pamięci w każdej iteracji

11 Apriori wyniki – czas całkowity[s] Support0,20,30,40,50,60,70,80,9 Accident s 438102198,87,26,66,1 Kosarak6,66,35,75,65,25,1 Mushroom7,60,90,380,3

12 Apriori wyniki – czas generowania zbiorów częstych[s] / pamięć [MB] Support0,20,30,40,50,60,70,80,9 Accidents412 191 95 195 14,3 191 4,25 191 3,29 182 2,6 177 1,8 171 Kosarak2 168 1,9 168 1,4 152 0,8 145 0,8 145 0,7 145 0,7 145 0,7 145 Mushroom2 348 0,1 185 0,09 182 0,08 182 0,06 181 0,06 180 0,06 180 0,06 180

13 Partition wyniki – czas całkowity[s] Support0,20,30,40,50,60,70,80,9 Accidents2:4256,1732,0724,29 Kosarak4:23 4:25 Mushroom3,200,900,610,430,410,490,37

14 Partition wyniki – czas generowania zbiorów częstych[s] / pamięć [MB] Support0,20,30,40,50,60,70,80,9 Accidents2:42,0 159 56,10 67 32,05 41 24,29 34 Kosarak4:23.79 27 4:23 26 4:23 26 4:23 26 4:23 26 4:23 26 4:25 26 4:25 26 Mushroom2,56 74 0,85 38 0,60 27 0,42 25 0,41 24 0,49 24 0,37 24


Pobierz ppt "A-priori Partition Mateusz Mor, Kasper Rzepecki, Daniel Mendalka, Michał Samsonowski."

Podobne prezentacje


Reklamy Google