Pobieranie prezentacji. Proszę czekać

Pobieranie prezentacji. Proszę czekać

VI EKSPLORACJA DANYCH Zadania eksploracji danych: klasyfikacja Klasyfikacja polega na przewidywaniu wartości jednej zmiennej na podstawie znanych wartości.

Podobne prezentacje


Prezentacja na temat: "VI EKSPLORACJA DANYCH Zadania eksploracji danych: klasyfikacja Klasyfikacja polega na przewidywaniu wartości jednej zmiennej na podstawie znanych wartości."— Zapis prezentacji:

1 VI EKSPLORACJA DANYCH Zadania eksploracji danych: klasyfikacja Klasyfikacja polega na przewidywaniu wartości jednej zmiennej na podstawie znanych wartości innych zmiennych. Przy zastosowaniu klasyfikacji zmienna, która będzie przewidywana jest kategoryczna.

2 VI EKSPLORACJA DANYCH Zadania eksploracji danych: klasyfikacja Metody klasyfikacji: Taksonomia: (gr. taxis = układ, porządek + nomos = prawo) nauka o zasadach i metodach klasyfikowania, w szczególności o tworzeniu i opisywaniu jednostek systematycznych - taksonów Taksonomia fenetyczna: opiera się na relacji podobieństwa pomiędzy klasyfikowanymi obiektami Taksonomia filogenetyczna: opiera się na relacji pokrewieństwa klasyfikowanych obiektów

3 VI EKSPLORACJA DANYCH Zadania eksploracji danych: klasyfikacja W zadaniach klasyfikacji nowemu rekordowi przypisuje się kategorię najbardziej podobnego rekordu lub rekordów. Podobieństwo określone jest bliskością rekordów w wielowymiarowej przestrzeni. Do mierzenia podobieństwa konieczne są zdefiniowane miary odległości. Miara odległości lub funkcja odległości jest rzeczywistoliczbową funkcją d, taką, że dla dowolnych współrzędnych x, y i z: 1.d(x,y) ≥ 0 i d(x,y) = 0 wtedy i tylko wtedy, gdy x = y 2.d(x,y) = d(y,x) 3.d(x,z) ≤ d(x,y) + d(y,z)

4 VI EKSPLORACJA DANYCH Zadania eksploracji danych: klasyfikacja Metryka euklidesowa Naturalna, „zwykła” odległość punktów na prostej, płaszczyźnie, czy też dowolnej euklidesowej przestrzeni R n w przypadku, gdy n = 1 w przypadku ogólnym, gdy x, y  R n oraz x = ( x 1, x 2, …, x n ) i y = ( y 1, y 2, …, y n ) d e (x,y) = │y - x│ d e (x,y) = √(y 1 – x 1 ) 2 + (y 2 – x 2 ) 2 + … + (y n – x n ) 2

5 Przygotowanie danych: przekształcanie danych II EKSPLORACJA DANYCH

6 VI EKSPLORACJA DANYCH Zadania eksploracji danych: klasyfikacja normalizacja min - max standaryzacja X* = X - X min / X max - X min X* = X - X śr /  ( X)

7 VI EKSPLORACJA DANYCH Zadania eksploracji danych: klasyfikacja

8 VI EKSPLORACJA DANYCH Zadania eksploracji danych: klasyfikacja Algorytm klasyfikacji: algorytm k - najbliższych sąsiadów wybieramy nowy obiekt o wejściowym wektorze Y analizujemy k najbliższych punktowi Y punktów ze zbioru danych treningowych (uczących) przydzielamy ten obiekt do klasy, w której jest większość spośród tych k punktów

9 VI EKSPLORACJA DANYCH Zadania eksploracji danych: klasyfikacja Funkcja decyzyjna: Funkcja określająca metodę porównania wybranych rekordów (leżących najbliżej) do podjęcia decyzji klasyfikacyjnej dla nowego rekordu. Funkcją decyzyjną jest głosowanie. głosowanie proste głosowanie ważone

10 VI EKSPLORACJA DANYCH Zadania eksploracji danych: klasyfikacja

11 VI EKSPLORACJA DANYCH Zadania eksploracji danych: klasyfikacja Głosowanie proste określ wartość k, czyli liczbę rekordów decydujących o klasyfikacji nowego rekordu porównaj nowy rekord z k najbliższymi sąsiadami, czyli z k rekordami mającymi najmniejszą odległość określ liczby rekordów (należących do k) w poszczególnych klasach przypisz nowy rekord do klasy dominującej

12 VI EKSPLORACJA DANYCH Zadania eksploracji danych: klasyfikacja 0,4 0,1 0,5 0,3 0,4 0,2

13 VI EKSPLORACJA DANYCH Zadania eksploracji danych: klasyfikacja Głosowanie ważone określ wartość k, czyli liczbę rekordów decydujących o klasyfikacji nowego rekordu porównaj nowy rekord z k najbliższymi sąsiadami, czyli z k rekordami mającymi najmniejszą odległość oblicz wagi k rekordów w poszczególnych klasach oblicz sumaryczne ważone głosy dla każdej klasy reprezentowanej przez k najbliższych sąsiadów wybierz dla nowego rekordu klasę z dominującym głosem

14 VI EKSPLORACJA DANYCH Zadania eksploracji danych: klasyfikacja Wybór k – małe vs. duże Wybór k – małe: klasyfikacja jest pod wpływem przypadkowych pojedynczych danych (punktów). Dla małej wielkości k algorytm zwróci wartość zmiennej celu najbliższej obserwacji. Proces może prowadzić do przeuczenia – zapamiętania całego zbioru uczącego. Wybór k – duże: dla dużej wartości k pojawia się skłonność do „wygładzania” odpowiedzi. Lokalne ciekawe zachowania wydobyte ze zbioru uczącego zostają utracone.

15 VI EKSPLORACJA DANYCH Zalety metody najbliższego sąsiedztwa: metoda łatwo daje się zaprogramować, metoda nie wymaga żadnej optymalizacji ani uczenia, metoda bez problemów daje sobie radę z brakującymi danymi (wartościami), przy niektórych problemach jej dokładność klasyfikacyjna jest bardzo dobra i wypada lepiej niż inne metody.

16 VI EKSPLORACJA DANYCH Wady metody najbliższego sąsiedztwa: metoda należy do tzw. metod leniwych, tzn. nie jest tutaj budowany model, lecz zapamiętywane są wszystkie punkty zbioru danych, jeśli zbiór danych jest duży, to przeszukiwanie go w celu znalezienia k najbliższych sąsiadów jest procesem czasochłonnym, metoda wymaga przechowywania całego zbioru danych, o objętości np, ograniczenia czasowe lub objętościowe uniemożliwiają zastosowanie tej metody online,

17 VI EKSPLORACJA DANYCH Zadania eksploracji danych: klasyfikacja Algorytm klasyfikacji: algorytm k - najbliższych sąsiadów Algorytm k – najbliższych sąsiadów może być również stosowany do szacowania i przewidywania. Uśrednianie lokalnie ważone – metoda szacuje zmienną celu jako średnią ważoną dla k najbliższych sąsiadów wg. wzoru: Σi wiyiΣi wiyi Σi wiΣi wi y nowy = gdzie w i = 1/ odległość 2


Pobierz ppt "VI EKSPLORACJA DANYCH Zadania eksploracji danych: klasyfikacja Klasyfikacja polega na przewidywaniu wartości jednej zmiennej na podstawie znanych wartości."

Podobne prezentacje


Reklamy Google