Pobierz prezentację
Pobieranie prezentacji. Proszę czekać
OpublikowałKlementyna Sadecki Został zmieniony 10 lat temu
1
A-priori Partition Mateusz Mor, Kasper Rzepecki, Daniel Mendalka, Michał Samsonowski
2
Apriori Pomysły inspirowane artykułami naukowymi, w szczególności: http://www.borgelt.net/papers/cstat_02.pdf http://www.borgelt.net/papers/fimi_03.pdf [Implementacja w C rozwijana przez tysiąclecia]
3
Apriori Optymalizacje: Usunięcie elementów niebędących 1-frequent Usunięcie transakcji pustych Pogrupowanie takich samych transakcji i traktowanie ich jako jednej z większą wagą [0 1 2 3 4] [0][0] [0 5 6 7 8] [0][0]([0], 3) [0] [0][0] [9] [ ]
4
Apriori Dla kosarak (supp=0,1): 8 mln => 1,6 mln, 990 000=> 11 Mushroom (supp=0,5):186 tyś => 76 tyś, 8100 => 57 Accidents (supp=0,5): 11,5 mln=>6mln, 340000=>65000
5
Apriori Optymalizacje c.d.: Żadnych zbędnych HashSetów itp., wszystko co się da na int[] Dopasowane struktury danych: listy, tablice, itp Elementy przemapowane na 0-based i używane jako indeksy tablic [23, 29, 100000] => [0, 1, 2]
6
Apriori Struktura danych: drzewo prefiksowe Propagacja odcięć w górę drzewa Usuwanie transakcji którym nie udało się zmienić drzewa na danym poziomie Pomysły nie zrealizowane: Zrównoleglenie Grupowanie podobnych transakcji
7
Algorytm Partition: Modyfikacja algorytmu a-priori Przeszukuje Partycje danych które mieszczą się w pamięci Przyspiesza sprawdzanie wsparcia w partycji Wrażliwy na duże ilości zbiorów częstych Powtórne poszukiwanie wsparcia dla znalezionych zbiorów częstych
8
Zyski z założenia Znaczne przyspieszenie 2 krotne przejrzenie zbioru danych
9
Koszty z założenia Możliwość przekroczenia dostępnej pamięci i konieczność rozpoczęcia eksperymentu od początku Zwiększone wymaganie pamięciowe
10
Optymalizacje Wykorzystanie charakteru danych Zastosowanie listy sortowanej z indeksami przy łączeniu zbiorów Ponowne wykorzystanie partycji przy weryfikacji zbiorów częstych Łączenie zbiorów i czyszczenie pamięci w każdej iteracji
11
Apriori wyniki – czas całkowity[s] Support0,20,30,40,50,60,70,80,9 Accident s 438102198,87,26,66,1 Kosarak6,66,35,75,65,25,1 Mushroom7,60,90,380,3
12
Apriori wyniki – czas generowania zbiorów częstych[s] / pamięć [MB] Support0,20,30,40,50,60,70,80,9 Accidents412 191 95 195 14,3 191 4,25 191 3,29 182 2,6 177 1,8 171 Kosarak2 168 1,9 168 1,4 152 0,8 145 0,8 145 0,7 145 0,7 145 0,7 145 Mushroom2 348 0,1 185 0,09 182 0,08 182 0,06 181 0,06 180 0,06 180 0,06 180
13
Partition wyniki – czas całkowity[s] Support0,20,30,40,50,60,70,80,9 Accidents2:4256,1732,0724,29 Kosarak4:23 4:25 Mushroom3,200,900,610,430,410,490,37
14
Partition wyniki – czas generowania zbiorów częstych[s] / pamięć [MB] Support0,20,30,40,50,60,70,80,9 Accidents2:42,0 159 56,10 67 32,05 41 24,29 34 Kosarak4:23.79 27 4:23 26 4:23 26 4:23 26 4:23 26 4:23 26 4:25 26 4:25 26 Mushroom2,56 74 0,85 38 0,60 27 0,42 25 0,41 24 0,49 24 0,37 24
Podobne prezentacje
© 2024 SlidePlayer.pl Inc.
All rights reserved.