Klasyfikacja danych Metoda hierarchiczne Bogdan Sokalski
Przesłanki klasyfikacji Przesłanki klasyfikacji zbiorów: Zredukowanie dużej ilości nagromadzonych informacji do kilku podstawowych kategorii. 2. Określenie jednorodnych przedmiotów analizy. 3. Zmniejszenie nakładów czasu i kosztów badania przez ograniczenie rozważań do najbardziej typowych faktów, zjawisk, obiektów.
Podstawy klasyfikacji Problem klasyfikacji polega na podziale zbioru obiektów Ώ na niepuste klasy S spełniające warunki: Zupełności: Rozłączności
Klasa Jest wiele definicji klasy. We wszystkich z nich jednak powtarza to, że: Klasa jest zbiorem obiektów podobnych do siebie. W różnych klasach znajdują się obiekty różne.
Rodzaje klasyfikacji Metody klasyfikacji można podzielić na trzy grupy: Metody hierarchiczne (aglomeracyjne i deglomeracyjne) Metody podziału: Metody obszarowe i gęstościowe Metody optymalizujące wstępny podział zbioru obiektów Metody prezentacji graficznej
Hierarchiczne metody klasyfikacji Hierarchiczne metody klasyfikacji dzielimy na: Aglomeracyjne – wyjściem jest n jedno-elementowych skupień a wynikiem jedno skupienie zawierające wszystkie obiekty Deglomeracyjne – wyjściem jest jedno skupienie zawierające wszystkie elementy wynikiem zaś skupienia jednoelementowe
Hierarchiczne metody aglomeracyjne - algorytm 1. Redukuje się liczbę klas łącząc znalezioną parę 2. W macierzy odległości znajduje się parę skupień najbliższych sobie. 3. Przekształca się macierz odległości metodą wybraną jako kryterium klasyfikacji 4. Powtarza się kroki 1- 3 dopóki nie powstanie jedna klasa zawierająca wszystkie skupienia.
Kryteria klasyfikacji Różnice w metodach aglomeracyjnych związane są z wyborem odpowiedniej metody przekształcającej macierz odległości. Jest wiele różnych metod pozwalających na przekształcenia macierzy odległości. W literaturze można się spotkać z tym iż najbardziej efektywną jest metoda Warda.
Metody aglomeracji Najbliższego sąsiedztwa ( pojedynczego połączenia, single-linkage): Odległość pomiędzy dwoma skupieniami wylicza się wyznaczając odległość pomiędzy dwoma najbliższymi obiektami. Najdalszego sąsiedztwa (całkowitego połączenia, complete - linkage): Odległość pomiędzy dwoma skupieniami wylicza się wyznaczając odległość pomiędzy dwoma najdalszymi obiektami.
Metody aglomeracji cd. Średniej odległości (group average-linkage: Odległość miedzy klasami jest średnią z odległości pomiędzy obiektami. Ważonej średniej klasowej (weighted average-linkage) Odległość miedzy klasami jest średnią ważoną odległości łączonych klas.
Metody aglomeracji cd. Metoda Warda ( powiększona suma kwadratów odległości, incremental sum of squares) Odległość pomiędzy dwoma klasami mierzy się jako wartość o jaką zwiększy się suma kwadratów odległości od nowych środków ciężkości po połączeniu.
Metody aglomeracji cd. 6. Środka ciężkości (centroid): Odległość pomiędzy dwoma klasami mierzy się jako odległość pomiędzy ich środkami ciężkości 7.Medianowa: Odległość między klasami mierzy się jako odległość pomiędzy ważonymi środkami ciężkości klas.
Ogólna formuła wyznaczania odległości pomiędzy klasami Ogólna formuła do obliczania odległości pomiędzy nowymi klasami Si i Sk a klasą Sl może być zdefiniowana następująco: Oznaczenia: wi – liczebność i-tego skupienia w+ – wi+ wk+ wl
Poszczególne metody Metoda αi β γ 1.Pojedyńczego połączenia 0,5 -0,5 -0,5 2.Całkowitego połączenia 3.Średniej klasowej 4.Ważonej średniej klasowej 5.Warda 6.Środka ciężkości 7.Medianowa 0,25
Wybór liczby klas Metod hierarchiczne nie określają liczby klas. Pozostaje więc problem, który podział jest podziałem optymalnym. Występuje kilka metod określających najlepszy podział. Operują one najczęściej na poziomie połączenia klas i jego statystyk takich jak średnia i odchylenie standardowe.
Dziękuję za uwagę