Cluster Analysis and Self-Organizing Maps Analiza skupień i metody SOM

Slides:



Advertisements
Podobne prezentacje
Excel Narzędzia do analizy regresji
Advertisements

Klasyfikacja danych Metoda hierarchiczne
Metody poszukiwania minimów lokalnych funkcji
Analiza wariancji jednoczynnikowa
Uczenie konkurencyjne.
Samoorganizacja: uczenie bez nadzoru.
Wykład 28 Włodzisław Duch Uniwersytet Mikołaja Kopernika
Skale pomiarowe – BARDZO WAŻNE
Elementy Modelowania Matematycznego
CLUSTERING Metody grupowania danych Plan wykładu Wprowadzenie Dziedziny zastosowania Co to jest problem klastrowania? Problem wyszukiwania optymalnych.
ANALIZA STRUKTURY SZEREGU NA PODSTAWIE MIAR STATYSTYCZNYCH
Ulepszenia metody Eigenfaces
BIOSTATYSTYKA I METODY DOKUMENTACJI
Algorytm Rochio’a.
Inteligencja Obliczeniowa Klasteryzacja i uczenie bez nadzoru.
Niepewności przypadkowe
Universal and Nonuniversal Properties of Cross Correlation in Financial Time Series Vasiliki Plerou, Parameswaran Gopikrishnan, Bernd Rosenow, Luı´s A.
Wykład 6 Standardowy błąd średniej a odchylenie standardowe z próby
Wykład 5 Przedziały ufności
Grupowanie.
Grupowanie Wprowadzanie Definicja problemu
Linear Methods of Classification
Additive Models, Trees, and Related Methods
Wykład 4. Rozkłady teoretyczne
Średnie i miary zmienności
Jednoczynnikowa analiza wariancji (ANOVA)
Metody ilościowe w biznesie Wykład 1
Elementy Rachunku Prawdopodobieństwa i Statystyki
Analiza wariancji jednoczynnikowa.
II Zadanie programowania liniowego PL
GŁOSOWA ŁĄCZNOŚĆ Z KOMPUTEREM
Prognozowanie z wykorzystaniem modeli ekonometrycznych
Zakładamy a priori istnienie rozwiązania α układu równań.
1 Kilka wybranych uzupełnień do zagadnień regresji Janusz Górczyński.
Dana jest sieć dystrybucji wody w postaci: Ø      m- węzłów,
Elementy Rachunku Prawdopodobieństwa i Statystyki
Kilka wybranych uzupelnień
Statystyka ©M.
Analiza dyskryminacji
VI EKSPLORACJA DANYCH Zadania eksploracji danych: klasyfikacja
VII EKSPLORACJA DANYCH
II Zadanie programowania liniowego PL
Ekonometryczne modele nieliniowe
Regresja wieloraka.
Funkcje Barbara Stryczniewicz Co z tym zrobisz Ćwiczenia wstępne Opis funkcji,elementy Własności funkcji 4 Sposoby przedstawiania funkcji 5.
Seminarium licencjackie Beata Kapuścińska
Ekonometryczne modele nieliniowe
Ekonometryczne modele nieliniowe
Wnioskowanie statystyczne
Statystyka medyczna Piotr Kozłowski
Wykład 5 Przedziały ufności
WIELORÓWNANIOWE MODELE EKONOMETRYCZNE
Ruch jednowymiarowy Ruch - zmiana położenia jednych ciał względem innych, które nazywamy układem odniesienia. Uwaga: to samo ciało może poruszać się względem.
Warstwowe sieci jednokierunkowe – perceptrony wielowarstwowe
Model ekonometryczny Jacek Szanduła.
Treść dzisiejszego wykładu l Klasyfikacja zmiennych modelu wielorównaniowego l Klasyfikacja modeli wielorównaniowych l Postać strukturalna i zredukowana.
STATYSTYKA – kurs podstawowy wykład 11
Dr Dorota Węziak-Białowolska Instytut Statystyki i Demografii Metody klasyfikacji obiektów 1.
Koło Naukowe Metod Ilościowych
Wykład 4 (cz. 1) Pierwsze zastosowania modelowania molekularnego: lokalna i globalna minimalizacja energii potencjalnej.
Co do tej pory robiliśmy:
Regresja wieloraka – bada wpływ wielu zmiennych objaśniających (niezależnych) na jedną zmienną objaśnianą (zależą)
Jednorównaniowy model regresji liniowej
Metody klasyfikacyjne
Hiperpowierzchnia energii potencjalnej cząsteczki
MNK – podejście algebraiczne
Dr Dorota Rozmus Katedra Analiz Gospodarczych i Finansowych
Własności asymptotyczne ciągów zmiennych losowych
Analiza współzależności zjawisk
MIARY STATYSTYCZNE Warunki egzaminu.
Zapis prezentacji:

Cluster Analysis and Self-Organizing Maps Analiza skupień i metody SOM Trevor Hastie, Robert Tibshirani Jerome Friedman The Element of Statistical Learning Data Mining, Inference and Prediction Cluster Analysis and Self-Organizing Maps Analiza skupień i metody SOM Marta Leniewska

Przykład klasteryzacji

Reprezentacja danych x1, …, xN Macierze podobieństwa D (N×N) Symetryczne, dij  0, dii = 0, Obiekty xi  Rp Różnica na atrybucie Atrybut ilościowy: Porządkowy: zamiana na ilościowy Nominalny: macierze podobieństwa L (M×M) między wartościami atrybutu

Różnice między obiektami Wpływ atrybutu Xj na (średnia różnica między obiektami) błąd kwadratowy: - estymator Var(Xj) z próby Równe wpływy atrybutów: Wyróżnianie pewnych atrybutów Brakujące wartości atrybutów: pomijanie, wprowadzanie, nowa wartość zmiennej

Algorytmy kombinatoryczne Ustalone z góry K < N klastrów Cel: funkcja k = C(i) minimalizująca rozrzut wewn. = W(C) + B(C) Ilość podziałów N danych na K klastrów Liczba Stirlinga 2 rodz. S(10,4) = 34.105 S(19,4)  1010 Algorytmy znajdujące lokalne minima

Algorytm K średnich Założenia: atrybuty ilościowe, miara zróżnicowania: kwadrat odległości euklidesowej, Nk – ilość elementów klastra k Kryterium: Znaleźć min centra mk dla wybranych klastrów C (średnie), koszt ~ (ilość elementów klastra) Znaleźć min podział na klastry C Do braku zmian C, zbiega do min lokalnego

Inne wersje K średnich Wersja probabilistyczna: algorytm EM – dopasowanie do modelu mieszaniny rozkładów Gaussa. Wersja ulepszona: żadna pojedyncza zmiana przypisania obserwacji do klastra nie polepszy wyniku.

Zastosowanie – kompresja Podział na bloki po m pixeli – wektory w Rm Aproksymacja bloków centrami klastrów Obraz skompresowany: log2K na blok + mK czyli log2K/8m oryginału Lepiej przy zastosowaniu teorii Shannona Działa bo wiele bloków wygląda tak samo Miara deformacji obrazu - straty

Przykład Sir Ronald A. Fisher (1890-1962) oryginał K = 200, m = 4, 0,239 oryginału, Deformacja: 0,89 K = 4, m = 4, 0,063 oryginału, Deformacja: 16,95

Rozmyte K średnich • • • • • • Rozmyty pseudopodział – rozmyty K podział P = {A1, ..., AK} Przykład N=3, K=2 P = {A1, A2} A1 = 0.6/x1 + 1/x2 + 0.1/x3 A2 = 0.4/x1 + 0/x2 + 0.9/x3 • 1.0 • 0.8 • 0.6 • 0.4 0.2 • • 0.0 x1 x2 x3

Rozmyte K średnich Centrum rozmytego klastra Ai Minimalizacja v  R, v > 1 Minimalizacja wskaźnika Znaleźć centra dla wybranych klastrów P(t-1) Znaleźć podział na klastry P(t) zmiana Ak(xi) Kryterium stopu:

C.d. v  1, uogólnienie K średnich v  , bardziej rozmyty xi1 x3 x15 x6 x12 v  1, uogólnienie K średnich v  , bardziej rozmyty zbieżny dla każdego v  (1, ) Przykład K = 2 v = 1,25 x2 x7 x8 x9 x5 x11 x14 x4 x10 x1 x13 xi2 i A1(xi) A2(xi)

Algorytm K medoidów Medoid – element centralny Uogólnienie K średnich na dowolne atrybuty i odległości. Kryterium: Znaleźć min centra xik dla wybranych klastrów C (medoidy) koszt dla klastra ~ (ilość elementów klastra)2 Znaleźć min podział na klastry C

Przykład K medoidów 12 krajów K = 3 USA, ISR, FRA, EGY, BEL ZAI, IND, BRA YUG, USS, CUB, CHI

Inna wersja – CLARA Kilka (np. m = 5) próbek liczności 40+2K Dla każdej próbki – minimalizacja bezp. przez iteracyjne zmiany medoidów (PAM) Koszt iteracji = O(K(N-K)2) Wybór tego z m układów medoidów który jest najlepszy dla wszystkich danych

Kwestie praktyczne Wybór K* początkowych centrów Estymacja K* Podać centra lub indeksy lub koder C Losowo lub krokowo minimalizując kryterium Estymacja K* Rozrzut w klastrach ~ 1/K Rozrzut dla K<K* i dla K>K* K* odpowiada zgięciu wykresu

Statystyka Gap 1,5 1,0 0,5 0,0

Metody hierarchiczne Nie wymagają K, tylko miary odległości między grupami obserwacji Klastry na poziomie M tworzone przez łączenie klastrów z poziomu M-1 Poziom min: N klastrów {xi}, poziom max: {x1, ..., xN} Strategie aglomeracyjne i dzielące, N poziomów Uporządkowany ciąg poziomów ~ podziałów Wybór poziomu np. statystyka Gap

Dendrogram

Dendrogram jako opis danych Ocena reprezentacyjności: wspólczynnik korelacji między dii’ a Cii’ Cii wysokość pierwszego wspólnego klastra N różnych na N(N-1)/2 Cii’ <= {Cik, Ci’k} (trójkąty równoramienne)

Metody aglomeracyjne Od singletonów, do 1 klastra Miary odległości między klastrami G i H: Single Linkage – najmniejsza odległość Complete Linkage – największa odległość Group Avarage – średnia odległość

GA, CL, SL - dendrogramy

Przykład

Metody dzielące Gdy chcemy otrzymać mało klastrów Ciąg podziałów metodą K=2 średnich/medoidów Zależy od początkowej konfiguracji w każdym kroku Nie zawsze otrzymamy własność monotoniczności Albo Obiekt najbardziej odległy od reszty w klastrze G do klastra H Obserwacje bliższe H niż G: najbliższa H do H Klaster do podziału – max średnica, lub średni rozrzut wewnętrzny Do singletonów lub nierozróżnialności w klastrach

Hierarchiczne metody rozmyte Rozmyta relacja równoważności R na X2 R(x,x) = 1 R(x,y) = R(y,x) x,yX x,zX -cut rozmytego zbioru A: A = {x | A(x)  } 0,2A = {x1, x2}, 0,4A = {x1} A(x) • 0.4 • 0.2 0.0 x1 x2

Hierarchiczne metody rozmyte R to crisp relacja równoważności – pary podobne   Znaleźć odpowiednią relację R (lub relację kompatybilności i jej tranzytywne domknięcie) gdzie q > 0, Tranzytywne domknięcie R to RT = R(n-1)

Przykład dla q=2 xi2 x3 x2 x4 x1 x5 xi1

Self-Organizing Maps Wersja K średnich – prototypy na 1 lub 2 wymiarowej rozmaitości w przestrzeni atrybutów, mapowanie obserwacji na rozmaitość Macierz K prototypów mj  Rp, o współrzędnych lj  R2 Inicjalizacja – np. na płaszczyźnie wyznaczonej metodą głównych składowych Regularne rozmieszczenie prototypów na płaszczyźnie Wyginanie płaszczyzny

Algorytm SOM Znajdź mj najbliższy xi w Rp Przesuń bliskich sąsiadów mj wg. lj do xi Wskaźnik uczenia  maleje od 1 do 0 Próg r maleje od R do 1 Albo: przesunięcie zależne od odległości do mj Sąsiedztwo mj zawiera tylko mj  K średnich

1. 3. 2.

SOM aproksymacją K średnich Porównać błędy rekonstrukcji: Przykład: porównanie z K = 25 średnich

Zastosowanie WEBSOM – rzutowanie artykułów z newsgroup wg. tematyki http://websom.hut.fi/websom WEBSOM – rzutowanie artykułów z newsgroup wg. tematyki artykuł jako wektor wystąpień ustalonych terminów opcja zoom

Średnica zbioru punktów • • • • • • • • • • • • • • • • •

Średnia zbioru punktów • • • • • • • •

Medoid zbioru punktów • • • • • • • •

Odległość międzygrupowa