CLUSTERING Metody grupowania danych Plan wykładu Wprowadzenie Dziedziny zastosowania Co to jest problem klastrowania? Problem wyszukiwania optymalnych.

Slides:



Advertisements
Podobne prezentacje
Excel Narzędzia do analizy regresji
Advertisements

ESTYMACJA PRZEDZIAŁOWA
Data Mining w e-commerce
Klasyfikacja danych Metoda hierarchiczne
Wprowadzenie do budowy usług informacyjnych
Wykład 5 Standardowy błąd a odchylenie standardowe
Grażyna Mirkowska PJWSTK 15 listopad 2000
Rachunek prawdopodobieństwa 2
Programowanie sieciowe
Wprowadzenie do optymalizacji wielokryterialnej.
STATYSTYKA WYKŁAD 03 dr Marek Siłuszyk.
Generowanie drzew decyzyjnych dla dużych zbiorów danych
Inteligencja Obliczeniowa Metody probabilistyczne.
Badania operacyjne. Wykład 1
Modelowanie lokowania aktywów
Symulacja cen akcji Modelowanie lokowania aktywów.
Modelowanie lokowania aktywów
WYKŁAD 7. Spójność i rozpięte drzewa
Algorytm Rochio’a.
Inteligencja Obliczeniowa Klasteryzacja i uczenie bez nadzoru.
Niepewności przypadkowe
Wykład 4 Rozkład próbkowy dla średniej z rozkładu normalnego
Wykład 5 Przedziały ufności
Wykład 3 Rozkład próbkowy dla średniej z rozkładu normalnego
Wykład 3 Wzór Bayesa, cd.: Wpływ rozkładu a priori.
Wykład 4 Przedziały ufności
Paweł Kramarski Seminarium Dyplomowe Magisterskie 2
Grupowanie.
Klasyfikacja Obcinanie drzewa Naiwny klasyfikator Bayes’a kNN
Odkrywanie wzorców sekwencji
Grupowanie Wprowadzanie Definicja problemu
WSN Ustalanie położenia czujników – cz. 3 (symulator)
Klasyfikacja dokumentów za pomocą sieci radialnych
Elementy Rachunku Prawdopodobieństwa i Statystyki
MECHANIKA NIEBA WYKŁAD r.
Rozważaliśmy w dziedzinie czasu zachowanie się w przedziale czasu od t0 do t obiektu dynamicznego opisywanego równaniem różniczkowym Obiekt u(t) y(t) (1a)
dr hab. Ryszard Walkowiak prof. nadzw.
Techniki eksploracji danych
GŁOSOWA ŁĄCZNOŚĆ Z KOMPUTEREM
Dana jest sieć dystrybucji wody w postaci: Ø      m- węzłów,
Elementy Rachunku Prawdopodobieństwa i Statystyki
Algorytm Dijkstry 1 Zbiory: T - zbiór wierzchołków
MS Excel - wspomaganie decyzji
VI EKSPLORACJA DANYCH Zadania eksploracji danych: klasyfikacja
VII EKSPLORACJA DANYCH
SYSTEMY EKSPERTOWE I SZTUCZNA INTELIGENCJA
Regresja wieloraka.
Seminarium licencjackie Beata Kapuścińska
ALGORYTMY I STRUKTURY DANYCH WYKŁAD 03 cd. Wyszukiwanie Grażyna Mirkowska PJWSTK, 2003/2004.
Wnioskowanie statystyczne
Treści multimedialne - kodowanie, przetwarzanie, prezentacja Odtwarzanie treści multimedialnych Andrzej Majkowski 1 informatyka +
Metody pozyskiwania wiedzy
Wykład 5 Przedziały ufności
drzewa filogenetyczne
Przenoszenie błędów (rachunek błędów) Niech x=(x 1,x 2,...,x n ) będzie n-wymiarową zmienną losową złożoną z niezależnych składników o rozkładach normalnych.
Metody Inteligencji Obliczeniowej
IFS, IFSP I GRA W CHAOS ZBIORY FRAKTALNE I WYBRANE SPOSOBY ICH GENEROWANIA.
Przypomnienie: Przestrzeń cech, wektory cech
Fundamentals of Data Analysis Lecture 12 Approximation, interpolation and extrapolation.
Metody Analizy Danych Doświadczalnych Wykład 9 ”Estymacja parametryczna”
Parametry rozkładów Metodologia badań w naukach behawioralnych II.
O ODPORNOŚCI KONWENCJONALNEGO OBSERWATORA LUENBERGERA ZREDUKOWANEGO RZĘDU Ryszard Gessing Instytut Automatyki Politechnika Śląska.
Dr Dorota Węziak-Białowolska Instytut Statystyki i Demografii Metody klasyfikacji obiektów 1.
Statystyka matematyczna
Wykład 4 (cz. 1) Pierwsze zastosowania modelowania molekularnego: lokalna i globalna minimalizacja energii potencjalnej.
Co do tej pory robiliśmy:
Jednorównaniowy model regresji liniowej
WARSAW DATA SCIENCE MEETUP
MIARY CENTROGRAFICZNE
Metody Eksploracji Danych
Zapis prezentacji:

CLUSTERING Metody grupowania danych

Plan wykładu Wprowadzenie Dziedziny zastosowania Co to jest problem klastrowania? Problem wyszukiwania optymalnych klastrów Metody generowania: k centroidów (k - means clustering)k - means clustering Grupowanie hierarchiczne (hierarchical clustering)(hierarchical clustering) Probabilistyczne grupowanie (probability-based clustering)

Dziedziny zastosowania Medycyna Grupowania chorób Grupowanie objaw u pacjentów np. paranoja, schizophrenia -> właściwa terapia Archeologia: taksonomie wydobytych narzędzi... Text Mining Grupowanie podobnych dokumentów -> lepsze wyniki wyszukiwań dokumentów

Co to jest klastrowanie Klastrowanie (clustering): problem grupowania obiektów o podobnych właściwościach. Klaster: grupa (lub klasa) obiektów podobnych (powstająca w wyniku grupowania danych)

Opis klastrów a b c d e f g h …

Problem grupowania (clustering) Dane są: liczba klastrów k funkcja odległości d określona na zbiorze obiektów P. funkcja oceny jakości klastrów F (objective function) Problem: Podzielić zbiór P na k klastrów tak aby funkcja F przyjmowała maksymalną wartość.

Metody nauczania się klastrów Unsupervised learning: grupowanie obiektów bez wiedzy o ich kategorii (klasach decyzyjnych). Metody klasyfikują się według postaci generowanych klastrów: Czy są one rozłączne czy nierozłączne Czy mają strukturę hierarchiczną czy płaską Czy są określone deterministycznie czy probabilistycznie.

Przedstawione metody k-centroidów (k-mean): klastry mają strukturę płaską są określone deterministycznie Grupowanie hierarchiczne: klastry mają strukturę drzewiastą są określone deterministycznie Grupowanie w oparciu o prawdopodobieństwo: klastry mają strukturę płaską są określone probabilistycznie

Metoda k - centroidów Znaleźć k centroidów, aby suma odległości punktów do najbliższego centroida była minimalna. Krok 1. Wybierz losowo dowolnych k centrum klastrów (centroidów) Krok 2. Przydziel obiekty do klastrów na podstawie ich odległości do wybranych centroidów. Krok 3. Wyznacz nowy układ centroidów Krok 4. Powtórz krok 2 dopóty, póki poprawa jakości będzie mała.

Miary odległości Odległości Euclidesowe: Eudistance(x,y) = { i (x i - y i ) 2 } ½ distance(x,y) = i (x i - y i ) 2 Odległość Miasta distance(x,y) = i |x i - y i | Odległość Chebychev: distance(x,y) = Maximum|x i - y i |

Odległości (c.d.) Odległość potęgowa: distance(x,y) = ( i |x i - y i | p ) 1/r Stopień różności: distance(x,y) = (Number of x i y i )/n

Metoda k centroidów (c.d.) Wyznaczanie nowego układu centroidów Idea: Nowy centroid jest środkiem ciężkości powstającego (w poprzednim przebiegu algorytmu) klastra. Współrzędne nowego centroida c : gdzie p 1,p 2,...,p k – punkty należące do klastra. c(x i ), p 1 (x i ),..., p k (x i ) – i-ta współrzędna.

Własciwości metody k - centroidów Jakości klastrów zależą od wyboru początkowego układu centroidów. Algorytm może trafić w lokalne minimum Rozwiązanie: Startować z różnymi układami centroidów losowo wybieranych.

Przykład: k centroidów k = 3 Krok 1

Przykład: k centroidów (c.d.) Krok 2

Przykład: k centroidów (c.d.) Krok 3

Grupowanie hierarchiczne

Algorytm Cel: Budować drzewo klastrów dla zbioru n obiektów. Jakość klastra: suma odległości pomiędzy obiektami w klastrze jest. 1. Na najniższym poziomie drzewa: n liści. Każdy liść (zawierający 1 obiekt) jest klastrem 2. Repeat Znajdź najbliższą parę klastrów (parę poddrzew) Połącz te klastry (poddrzewa) w jeden większy until STOP

Przykład

Odległość między klastrami 1. Single linkage (nearest neighbor) 2. Complete linkage (furthest neighbor) 3. Unweighted pair-group average 4. Weighted pair-group average 5. Unweighted pair-group centroid 6. Weighted pair-group centroid (median).

Probabilistyczne grupowanie Obiekt należy do klastra z pewnym stopniem prawdopodobieństwa. Idea: Każdy klaster jest opisany jednym rozkładem prawdopodobieństwa. Założenie: Wszystkie rozkłady są rozkładami normalnymi. Rozkłady różnią się wartoścami oczekiwanymi ( ) i odchyleniami standardowymi ( ).

Przykład: Dwa probabilistyczne klastry

Stopień należności obiektu do klastra Obiekt x należy do klastra A z prawdopodobieństwem: gdzie f(x; A ; A ) - rozkład normalny

Algorytm EM EM – Expection - Maximization Dana jest liczba klastrów k. Cel: Dla każdego atrybutu rzeczywistego znaleźć k układów parametrów ( i, i, p i ) dla i =1,..,k (opisów k klastrów). Dla uproszczenia opisu, niech k = 2 Algorytm jest opisany dla wybranego atrybutu.

Algorytm EM Idea: adoptować algorytm k centroidów. Krok 1. Wybierz losowo 2 układy parametrów ( A, A, p A ) i ( B, B, p B ); Krok 2. Oblicz oczekiwane stopnie przynależności obiektów do klastrów (expectation step) Krok 3. Wyznacz nowe układy parametrów w celu maksymalizacji funkcji jakości likelihood (maximization step); Krok 4. Powtórz krok 2 dopóty, póki poprawa jakości będzie mała.

Funkcja oceny jakości Funkcja dopasowania likelihood: dla dwóch klastrów A i B:

Wyznaczanie nowego układu parametrów Szuka się dwóch układów parametrów: ( A, A, p A ) i ( B, B, p B ) Jeśli w i jest stopniem przynależności i – tego obiektu do klastra A to :

Bibliografia Brian S. Everitt (1993). Cluster analysis. Oxford University Press Inc. Ian H. Witten, Eibe Frank (1999). Data Mining. Practical ML Tools and Techniques with Java Implementations. Morgan Kaufmann Publishers.