Pobieranie prezentacji. Proszę czekać

Pobieranie prezentacji. Proszę czekać

The Element of Statistical Learning Data Mining, Inference and Prediction Cluster Analysis and Self-Organizing Maps Analiza skupień i metody SOM Trevor.

Podobne prezentacje


Prezentacja na temat: "The Element of Statistical Learning Data Mining, Inference and Prediction Cluster Analysis and Self-Organizing Maps Analiza skupień i metody SOM Trevor."— Zapis prezentacji:

1 The Element of Statistical Learning Data Mining, Inference and Prediction Cluster Analysis and Self-Organizing Maps Analiza skupień i metody SOM Trevor Hastie, Robert Tibshirani Jerome Friedman Marta Leniewska

2 Przykład klasteryzacji

3 Reprezentacja danych x 1, …, x N Macierze podobieństwa D (N×N) Symetryczne, d ij 0, d ii = 0, Obiekty x i R p Różnica na atrybucie Atrybut ilościowy: Porządkowy: zamiana na ilościowy Nominalny: macierze podobieństwa L (M×M) między wartościami atrybutu

4 Różnice między obiektami Wpływ atrybutu X j na (średnia różnica między obiektami) błąd kwadratowy: - estymator Var(X j ) z próby Równe wpływy atrybutów: Wyróżnianie pewnych atrybutów Brakujące wartości atrybutów: pomijanie, wprowadzanie, nowa wartość zmiennej

5 Algorytmy kombinatoryczne Ustalone z góry K < N klastrów Cel: funkcja k = C(i) minimalizująca rozrzut wewn. = W(C) + B(C) Ilość podziałów N danych na K klastrów Liczba Stirlinga 2 rodz. S(10,4) = S(19,4) Algorytmy znajdujące lokalne minima

6 Algorytm K średnich Założenia: atrybuty ilościowe, miara zróżnicowania: kwadrat odległości euklidesowej, N k – ilość elementów klastra k Kryterium: Znaleźć min centra m k dla wybranych klastrów C (średnie), koszt ~ (ilość elementów klastra) Znaleźć min podział na klastry C Do braku zmian C, zbiega do min lokalnego

7

8 Inne wersje K średnich Wersja probabilistyczna: algorytm EM – dopasowanie do modelu mieszaniny rozkładów Gaussa. Wersja ulepszona: żadna pojedyncza zmiana przypisania obserwacji do klastra nie polepszy wyniku.

9 Zastosowanie – kompresja Podział na bloki po m pixeli – wektory w R m Aproksymacja bloków centrami klastrów Obraz skompresowany: log 2 K na blok + mK czyli log 2 K/8m oryginału Lepiej przy zastosowaniu teorii Shannona Działa bo wiele bloków wygląda tak samo Miara deformacji obrazu - straty

10 Przykład Sir Ronald A. Fisher ( ) oryginał K = 200, m = 4, 0,239 oryginału, Deformacja: 0,89 K = 4, m = 4, 0,063 oryginału, Deformacja: 16,95

11 Rozmyte K średnich Rozmyty pseudopodział – rozmyty K podział P = {A 1,..., A K } Przykład N=3, K=2 P = {A 1, A 2 } A 1 = 0.6/x 1 + 1/x /x 3 A 2 = 0.4/x 1 + 0/x /x x1x1 x2x2 x3x3 0.0

12 Rozmyte K średnich Centrum rozmytego klastra A i v R, v > 1 Minimalizacja wskaźnika Znaleźć centra dla wybranych klastrów P (t-1) Znaleźć podział na klastry P (t) zmiana A k (x i ) Kryterium stopu:

13 C.d. v 1, uogólnienie K średnich v, bardziej rozmyty zbieżny dla każdego v (1, ) Przykład K = 2 v = 1,25 x1x1 x2x2 x3x3 x4x4 x5x5 x6x6 x7x7 x8x8 x9x9 x 11 x 10 x 12 x 13 x 14 x 15 i A1(xi)A1(xi) A2(xi)A2(xi) x i1 x i2

14 Algorytm K medoidów Medoid – element centralny Uogólnienie K średnich na dowolne atrybuty i odległości. Kryterium: Znaleźć min centra x i k dla wybranych klastrów C ( medoidy) koszt dla klastra ~ (ilość elementów klastra) 2 Znaleźć min podział na klastry C

15 Przykład K medoidów 12 krajów K = 3 USA, ISR, FRA, EGY, BEL ZAI, IND, BRA YUG, USS, CUB, CHI

16 Inna wersja – CLARA Kilka (np. m = 5) próbek liczności 40+2K Dla każdej próbki – minimalizacja bezp. przez iteracyjne zmiany medoidów (PAM) Koszt iteracji = O(K(N-K) 2 ) Wybór tego z m układów medoidów który jest najlepszy dla wszystkich danych

17 Kwestie praktyczne Wybór K* początkowych centrów Podać centra lub indeksy lub koder C Losowo lub krokowo minimalizując kryterium Estymacja K* Rozrzut w klastrach ~ 1/K Rozrzut dla K K* K* odpowiada zgięciu wykresu

18 Statystyka Gap 0,0 0,5 1,0 1,5

19 Metody hierarchiczne Nie wymagają K, tylko miary odległości między grupami obserwacji Klastry na poziomie M tworzone przez łączenie klastrów z poziomu M-1 Poziom min: N klastrów {x i }, poziom max: {x 1,..., x N } Strategie aglomeracyjne i dzielące, N poziomów Uporządkowany ciąg poziomów ~ podziałów Wybór poziomu np. statystyka Gap

20 Dendrogram

21 Dendrogram jako opis danych Ocena reprezentacyjności: wspólczynnik korelacji między d ii a C ii C ii wysokość pierwszego wspólnego klastra N różnych na N(N-1)/2 C ii <= {C ik, C ik } (trójkąty równoramienne)

22 Metody aglomeracyjne Od singletonów, do 1 klastra Miary odległości między klastrami G i H: Single Linkage – najmniejsza odległość Complete Linkage – największa odległość Group Avarage – średnia odległość

23 GA, CL, SL - dendrogramy

24 Przykład

25 Metody dzielące Gdy chcemy otrzymać mało klastrów Ciąg podziałów metodą K=2 średnich/medoidów Zależy od początkowej konfiguracji w każdym kroku Nie zawsze otrzymamy własność monotoniczności Albo Obiekt najbardziej odległy od reszty w klastrze G do klastra H Obserwacje bliższe H niż G: najbliższa H do H Klaster do podziału – max średnica, lub średni rozrzut wewnętrzny Do singletonów lub nierozróżnialności w klastrach

26 Hierarchiczne metody rozmyte Rozmyta relacja równoważności R na X 2 R(x,x) = 1R(x,y) = R(y,x) x,y X x,z X -cut rozmytego zbioru A: A = {x | A(x) } 0,2 A = {x 1, x 2 }, 0,4 A = {x 1 } x1x1 x2x2 0.0 A(x)

27 Hierarchiczne metody rozmyte R to crisp relacja równoważności – pary podobne Znaleźć odpowiednią relację R (lub relację kompatybilności i jej tranzytywne domknięcie) gdzie q > 0, Tranzytywne domknięcie R to R T = R (n-1)

28 Przykład dla q=2 x i1 x i2 x1x1 x2x2 x3x3 x4x4 x5x5

29 Self-Organizing Maps Wersja K średnich – prototypy na 1 lub 2 wymiarowej rozmaitości w przestrzeni atrybutów, mapowanie obserwacji na rozmaitość Macierz K prototypów m j R p, o współrzędnych l j R 2 Inicjalizacja – np. na płaszczyźnie wyznaczonej metodą głównych składowych Regularne rozmieszczenie prototypów na płaszczyźnie Wyginanie płaszczyzny

30 Algorytm SOM Znajdź m j najbliższy x i w R p Przesuń bliskich sąsiadów m j wg. l j do x i Wskaźnik uczenia maleje od 1 do 0 Próg r maleje od R do 1 Albo: przesunięcie zależne od odległości do m j Sąsiedztwo m j zawiera tylko m j K średnich

31

32 SOM aproksymacją K średnich Porównać błędy rekonstrukcji: Przykład: porównanie z K = 25 średnich

33 Zastosowanie WEBSOM – rzutowanie artykułów z newsgroup wg. tematyki artykuł jako wektor wystąpień ustalonych terminów opcja zoom

34 Średnica zbioru punktów

35 Średnia zbioru punktów

36 Medoid zbioru punktów

37 Odległość międzygrupowa


Pobierz ppt "The Element of Statistical Learning Data Mining, Inference and Prediction Cluster Analysis and Self-Organizing Maps Analiza skupień i metody SOM Trevor."

Podobne prezentacje


Reklamy Google