VI EKSPLORACJA DANYCH Zadania eksploracji danych: klasyfikacja

VI EKSPLORACJA DANYCH Zadania eksploracji danych: klasyfikacja
Klasyfikacja polega na przewidywaniu wartości jednej zmiennej na podstawie znanych wartości innych zmiennych. Przy zastosowaniu klasyfikacji zmienna, która będzie przewidywana jest kategoryczna.

Metody klasyfikacji: Taksonomia fenetyczna: opiera się na relacji podobieństwa pomiędzy klasyfikowanymi obiektami Taksonomia filogenetyczna: opiera się na relacji pokrewieństwa klasyfikowanych obiektów Taksonomia: (gr. taxis = układ, porządek + nomos = prawo) nauka o zasadach i metodach klasyfikowania, w szczególności o tworzeniu i opisywaniu jednostek systematycznych - taksonów

W zadaniach klasyfikacji nowemu rekordowi przypisuje się kategorię najbardziej podobnego rekordu lub rekordów. Podobieństwo określone jest bliskością rekordów w wielowymiarowej przestrzeni. Do mierzenia podobieństwa konieczne są zdefiniowane miary odległości. Miara odległości lub funkcja odległości jest rzeczywistoliczbową funkcją d, taką, że dla dowolnych współrzędnych x, y i z: d(x,y) ≥ 0 i d(x,y) = 0 wtedy i tylko wtedy, gdy x = y d(x,y) = d(y,x) d(x,z) ≤ d(x,y) + d(y,z)

Metryka euklidesowa Naturalna, „zwykła” odległość punktów na prostej, płaszczyźnie, czy też dowolnej euklidesowej przestrzeni Rn w przypadku, gdy n = 1 de(x,y) = │y - x│ w przypadku ogólnym, gdy x, y  Rn oraz x = ( x1, x2, …, xn) i y = ( y1, y2, …, yn) de(x,y) = √(y1 – x1)2 + (y2 – x2)2 + … + (yn – xn)2

II EKSPLORACJA DANYCH Przygotowanie danych: przekształcanie danych

VI EKSPLORACJA DANYCH X* = X - Xmin / Xmax - Xmin X* = X - Xśr / (X)
Zadania eksploracji danych: klasyfikacja normalizacja min - max X* = X - Xmin / Xmax - Xmin standaryzacja X* = X - Xśr / (X)

VI EKSPLORACJA DANYCH Zadania eksploracji danych: klasyfikacja

Algorytm klasyfikacji: algorytm k - najbliższych sąsiadów wybieramy nowy obiekt o wejściowym wektorze Y analizujemy k najbliższych punktowi Y punktów ze zbioru danych treningowych (uczących) przydzielamy ten obiekt do klasy, w której jest większość spośród tych k punktów

Funkcja decyzyjna: Funkcja określająca metodę porównania wybranych rekordów (leżących najbliżej) do podjęcia decyzji klasyfikacyjnej dla nowego rekordu. Funkcją decyzyjną jest głosowanie. głosowanie proste głosowanie ważone

VI EKSPLORACJA DANYCH Zadania eksploracji danych: klasyfikacja

Głosowanie proste określ wartość k, czyli liczbę rekordów decydujących o klasyfikacji nowego rekordu porównaj nowy rekord z k najbliższymi sąsiadami, czyli z k rekordami mającymi najmniejszą odległość określ liczby rekordów (należących do k) w poszczególnych klasach przypisz nowy rekord do klasy dominującej

VI EKSPLORACJA DANYCH Zadania eksploracji danych: klasyfikacja 0,4 0,5
0,1 0,3 0,2

Głosowanie ważone określ wartość k, czyli liczbę rekordów decydujących o klasyfikacji nowego rekordu porównaj nowy rekord z k najbliższymi sąsiadami, czyli z k rekordami mającymi najmniejszą odległość oblicz wagi k rekordów w poszczególnych klasach oblicz sumaryczne ważone głosy dla każdej klasy reprezentowanej przez k najbliższych sąsiadów wybierz dla nowego rekordu klasę z dominującym głosem

Wybór k – małe vs. duże Wybór k – małe: klasyfikacja jest pod wpływem przypadkowych pojedynczych danych (punktów). Dla małej wielkości k algorytm zwróci wartość zmiennej celu najbliższej obserwacji. Proces może prowadzić do przeuczenia – zapamiętania całego zbioru uczącego. Wybór k – duże: dla dużej wartości k pojawia się skłonność do „wygładzania” odpowiedzi. Lokalne ciekawe zachowania wydobyte ze zbioru uczącego zostają utracone.

VI EKSPLORACJA DANYCH Zalety metody najbliższego sąsiedztwa:
metoda łatwo daje się zaprogramować, metoda nie wymaga żadnej optymalizacji ani uczenia, metoda bez problemów daje sobie radę z brakującymi danymi (wartościami), przy niektórych problemach jej dokładność klasyfikacyjna jest bardzo dobra i wypada lepiej niż inne metody.

VI EKSPLORACJA DANYCH Wady metody najbliższego sąsiedztwa:
metoda należy do tzw. metod leniwych, tzn. nie jest tutaj budowany model, lecz zapamiętywane są wszystkie punkty zbioru danych, jeśli zbiór danych jest duży, to przeszukiwanie go w celu znalezienia k najbliższych sąsiadów jest procesem czasochłonnym, metoda wymaga przechowywania całego zbioru danych, o objętości np, ograniczenia czasowe lub objętościowe uniemożliwiają zastosowanie tej metody online,

VI EKSPLORACJA DANYCH Zadania eksploracji danych: klasyfikacja Σi wiyi
Algorytm klasyfikacji: algorytm k - najbliższych sąsiadów Algorytm k – najbliższych sąsiadów może być również stosowany do szacowania i przewidywania. Uśrednianie lokalnie ważone – metoda szacuje zmienną celu jako średnią ważoną dla k najbliższych sąsiadów wg. wzoru: Σi wiyi Σi wi ynowy = gdzie wi = 1/ odległość2

VI EKSPLORACJA DANYCH Zadania eksploracji danych: klasyfikacja

Podobne prezentacje

Prezentacja na temat: "VI EKSPLORACJA DANYCH Zadania eksploracji danych: klasyfikacja"— Zapis prezentacji:

Podobne prezentacje

О projekcie

Zwrotny adres

Wejść

Zaloguj się poprzez sieć społeczną:

VI EKSPLORACJA DANYCH Zadania eksploracji danych: klasyfikacja

Podobne prezentacje

Prezentacja na temat: "VI EKSPLORACJA DANYCH Zadania eksploracji danych: klasyfikacja"— Zapis prezentacji:

Podobne prezentacje

О projekcie

Zwrotny adres