Klasyfikacja danych Metoda hierarchiczne

Slides:



Advertisements
Podobne prezentacje
Wprowadzenie do budowy usług informacyjnych
Advertisements

Marcin Bogusiak Paweł Pilewski
Przetwarzanie i rozpoznawanie obrazów
Wprowadzenie do optymalizacji wielokryterialnej.
Przetwarzanie i rozpoznawanie obrazów
Programowanie I Rekurencja.
SZTUCZNA INTELIGENCJA ARTIFICIAL INTELLIGENCE
Budżetowanie kapitałów
PODSUMOWANIE WIADOMOŚCI ZE STATYSTYKI
Badania operacyjne. Wykład 2
CLUSTERING Metody grupowania danych Plan wykładu Wprowadzenie Dziedziny zastosowania Co to jest problem klastrowania? Problem wyszukiwania optymalnych.
Charakterystyki opisowe rozkładu jednej cechy
Właściwości średniej arytmetycznej
MIARY ZMIENNOŚCI Główne (wywołujące zmienność systematyczną)
Programowanie liniowe całkowitoliczbowe
Krzysztof Jurek Statystyka Spotkanie 4. Miary zmienności m ó wią na ile wyniki są rozproszone na konkretne jednostki, pokazują na ile wyniki odbiegają
Ulepszenia metody Eigenfaces
Rozpoznawanie Twarzy i Systemy Biometryczne, 2005/2006
(dla szeregu szczegółowego) Średnia arytmetyczna (dla szeregu szczegółowego) Średnią arytmetyczną nazywamy sumę wartości zmiennej wszystkich jednostek.
Wpływ warunków na niewiadome na wyniki wyrównania.
Algorytm Rochio’a.
Model lingwistyczny – wnioskowanie Mamdani’ego
Wykład 4 Rozkład próbkowy dla średniej z rozkładu normalnego
Wykład 3 Rozkład próbkowy dla średniej z rozkładu normalnego
Grupowanie.
Grupowanie Wprowadzanie Definicja problemu
Linear Methods of Classification
Korelacje, regresja liniowa
Wzory ułatwiające obliczenia
Grupa 1 Sposoby rozwiązywania układów równań stopnia I z dwiema i z trzema niewiadomymi. Wykresy funkcji w szkole ponadgimnazjalnej.
Konstrukcja, estymacja parametrów
Elementy Rachunku Prawdopodobieństwa i Statystyki
Obserwatory zredukowane
Segmenty rynku prasowego
GŁOSOWA ŁĄCZNOŚĆ Z KOMPUTEREM
Zadanie programowania liniowego PL dla ograniczeń mniejszościowych
Dana jest sieć dystrybucji wody w postaci: Ø      m- węzłów,
Elementy Rachunku Prawdopodobieństwa i Statystyki
Rozwiązanie zadań do zaliczenia I0G1S4 // indeks
VI EKSPLORACJA DANYCH Zadania eksploracji danych: klasyfikacja
VII EKSPLORACJA DANYCH
Algorytmika.
Seminarium licencjackie Beata Kapuścińska
Algorytmy i Struktury Danych
Treści multimedialne - kodowanie, przetwarzanie, prezentacja Odtwarzanie treści multimedialnych Andrzej Majkowski.
Grafika i komunikacja człowieka z komputerem
Wnioskowanie statystyczne
Grafika i komunikacja człowieka z komputerem
Metody matematyczne w inżynierii chemicznej
METODY WYODRĘBNIANIA KOSZTÓW STAŁYCH I ZMIENNYCH
Statystyczna analiza danych w praktyce
Statystyczna analiza danych
Pojęcia podstawowe c.d. Rachunek podziałów Elementy teorii grafów
Statystyczna analiza danych
SKALA CIĄGŁA I SKOKOWA.
Metody sztucznej inteligencji - Technologie rozmyte i neuronowe 2015/2016 Systemy rozmyte – wnioskowanie Mamdani’ego I © Kazimierz Duzinkiewicz, dr hab.
1 Proces analizy i rozpoznawania. 2 Jak przygotować dwie klasy obiektów?
Człowiek – najlepsza inwestycja
Halina Klimczak Katedra Geodezji i Fotogrametrii Akademia Rolnicza we Wrocławiu WYKŁAD 2 ZMIENNE GRAFICZNE SKALA CIĄGŁA I SKOKOWA.
Modele nieliniowe sprowadzane do liniowych
Dr Dorota Węziak-Białowolska Instytut Statystyki i Demografii Metody klasyfikacji obiektów 1.
Liczbami naturalnymi nazywamy liczby 0,1,2,3,..., 127,... Liczby naturalne poznaliśmy już wcześniej; służą one do liczenia przedmiotów. Zbiór liczb.
Systemy neuronowo – rozmyte
Co do tej pory robiliśmy:
Metody klasyfikacyjne
Dr Dorota Rozmus Katedra Analiz Gospodarczych i Finansowych
Funkcja reakcji na impuls w nieliniowych modelach VAR
Analiza współzależności zjawisk
Problem: Agent ubezpieczeniowy postanowił dowiedzieć się, jakimi cechami odznacza się potencjalny nabywca polisy na życie. 1. Sprawdza, jakie charakterystyki.
MIARY STATYSTYCZNE Warunki egzaminu.
Zapis prezentacji:

Klasyfikacja danych Metoda hierarchiczne Bogdan Sokalski

Przesłanki klasyfikacji Przesłanki klasyfikacji zbiorów: Zredukowanie dużej ilości nagromadzonych informacji do kilku podstawowych kategorii. 2. Określenie jednorodnych przedmiotów analizy. 3. Zmniejszenie nakładów czasu i kosztów badania przez ograniczenie rozważań do najbardziej typowych faktów, zjawisk, obiektów.

Podstawy klasyfikacji Problem klasyfikacji polega na podziale zbioru obiektów Ώ na niepuste klasy S spełniające warunki: Zupełności: Rozłączności

Klasa Jest wiele definicji klasy. We wszystkich z nich jednak powtarza to, że: Klasa jest zbiorem obiektów podobnych do siebie. W różnych klasach znajdują się obiekty różne.

Rodzaje klasyfikacji Metody klasyfikacji można podzielić na trzy grupy: Metody hierarchiczne (aglomeracyjne i deglomeracyjne) Metody podziału: Metody obszarowe i gęstościowe Metody optymalizujące wstępny podział zbioru obiektów Metody prezentacji graficznej

Hierarchiczne metody klasyfikacji Hierarchiczne metody klasyfikacji dzielimy na: Aglomeracyjne – wyjściem jest n jedno-elementowych skupień a wynikiem jedno skupienie zawierające wszystkie obiekty Deglomeracyjne – wyjściem jest jedno skupienie zawierające wszystkie elementy wynikiem zaś skupienia jednoelementowe

Hierarchiczne metody aglomeracyjne - algorytm 1. Redukuje się liczbę klas łącząc znalezioną parę 2. W macierzy odległości znajduje się parę skupień najbliższych sobie. 3. Przekształca się macierz odległości metodą wybraną jako kryterium klasyfikacji 4. Powtarza się kroki 1- 3 dopóki nie powstanie jedna klasa zawierająca wszystkie skupienia.

Kryteria klasyfikacji Różnice w metodach aglomeracyjnych związane są z wyborem odpowiedniej metody przekształcającej macierz odległości. Jest wiele różnych metod pozwalających na przekształcenia macierzy odległości. W literaturze można się spotkać z tym iż najbardziej efektywną jest metoda Warda.

Metody aglomeracji Najbliższego sąsiedztwa ( pojedynczego połączenia, single-linkage): Odległość pomiędzy dwoma skupieniami wylicza się wyznaczając odległość pomiędzy dwoma najbliższymi obiektami. Najdalszego sąsiedztwa (całkowitego połączenia, complete - linkage): Odległość pomiędzy dwoma skupieniami wylicza się wyznaczając odległość pomiędzy dwoma najdalszymi obiektami.

Metody aglomeracji cd. Średniej odległości (group average-linkage: Odległość miedzy klasami jest średnią z odległości pomiędzy obiektami. Ważonej średniej klasowej (weighted average-linkage) Odległość miedzy klasami jest średnią ważoną odległości łączonych klas.

Metody aglomeracji cd. Metoda Warda ( powiększona suma kwadratów odległości, incremental sum of squares) Odległość pomiędzy dwoma klasami mierzy się jako wartość o jaką zwiększy się suma kwadratów odległości od nowych środków ciężkości po połączeniu.

Metody aglomeracji cd. 6. Środka ciężkości (centroid): Odległość pomiędzy dwoma klasami mierzy się jako odległość pomiędzy ich środkami ciężkości 7.Medianowa: Odległość między klasami mierzy się jako odległość pomiędzy ważonymi środkami ciężkości klas.

Ogólna formuła wyznaczania odległości pomiędzy klasami Ogólna formuła do obliczania odległości pomiędzy nowymi klasami Si i Sk a klasą Sl może być zdefiniowana następująco: Oznaczenia: wi – liczebność i-tego skupienia w+ – wi+ wk+ wl

Poszczególne metody Metoda αi β γ 1.Pojedyńczego połączenia 0,5 -0,5 -0,5 2.Całkowitego połączenia 3.Średniej klasowej 4.Ważonej średniej klasowej 5.Warda 6.Środka ciężkości 7.Medianowa 0,25

Wybór liczby klas Metod hierarchiczne nie określają liczby klas. Pozostaje więc problem, który podział jest podziałem optymalnym. Występuje kilka metod określających najlepszy podział. Operują one najczęściej na poziomie połączenia klas i jego statystyk takich jak średnia i odchylenie standardowe.

Dziękuję za uwagę