VI EKSPLORACJA DANYCH Zadania eksploracji danych: klasyfikacja

Slides:



Advertisements
Podobne prezentacje
Klasyfikacja danych Metoda hierarchiczne
Advertisements

Wprowadzenie do optymalizacji wielokryterialnej.
Inteligencja Obliczeniowa Metody oparte na podobieństwie do wzorców.
SZTUCZNA INTELIGENCJA ARTIFICIAL INTELLIGENCE
Eksploracja danych “Drążymy informację ale zbieramy wiedzę” - słowa Johna Naisbett’a, motto z książki “Advances in knowledge discovery and data mining”
Katedra Informatyki Stosowanej UMK
Uczenie konkurencyjne.
Inteligencja Obliczeniowa Perceptrony o dużym marginesie błędu
Badania operacyjne. Wykład 1
Badania operacyjne. Wykład 2
ALGORYTMY I STRUKTURY DANYCH
Przekształcenia afiniczne
CLUSTERING Metody grupowania danych Plan wykładu Wprowadzenie Dziedziny zastosowania Co to jest problem klastrowania? Problem wyszukiwania optymalnych.
Właściwości średniej arytmetycznej
Materiały do zajęć z przedmiotu: Narzędzia i języki programowania Programowanie w języku PASCAL Część 7: Procedury i funkcje © Jan Kaczmarek.
Ulepszenia metody Eigenfaces
Rozpoznawanie Twarzy i Systemy Biometryczne, 2005/2006
Paweł Kramarski Seminarium Dyplomowe Magisterskie 2
Grupowanie.
Grupowanie Wprowadzanie Definicja problemu
Additive Models, Trees, and Related Methods
Fraktale i chaos w naukach o Ziemi
czyli jak analizować zmienność zjawiska w czasie?
Podstawy programowania
Opiekun: dr inż. Maciej Ławryńczuk
MECHANIKA NIEBA WYKŁAD r.
formalnie: Uczenie nienadzorowane
Wspomaganie decyzji nie zwalnia od decyzji...
Temat 19: Organizacja informacji w bazie danych – część 1.
Techniki eksploracji danych
GŁOSOWA ŁĄCZNOŚĆ Z KOMPUTEREM
Systemy wspomagania decyzji
Homogenizacja Kulawik Krzysztof.
Wybrane zagadnienia relacyjnych baz danych
MS Excel - wspomaganie decyzji
II EKSPLORACJA DANYCH Przygotowanie danych: rodzaje danych
SYSTEMY EKSPERTOWE I SZTUCZNA INTELIGENCJA
III EKSPLORACJA DANYCH
VII EKSPLORACJA DANYCH
Politechniki Poznańskiej
Elementy geometrii analitycznej w przestrzeni R3
IV EKSPLORACJA DANYCH Zadania eksploracji danych: klasyfikacja
Wyszukiwanie maksimum funkcji za pomocą mrówki Pachycondyla Apicalis.
Treści multimedialne - kodowanie, przetwarzanie, prezentacja Odtwarzanie treści multimedialnych Andrzej Majkowski.
Grafika i komunikacja człowieka z komputerem
Grafika i komunikacja człowieka z komputerem
Zagadnienia AI wykład 2.
Grafika i komunikacja człowieka z komputerem
OKNO Eksploracja danych: kolokwium I VIII EKSPLORACJA DANYCH 1234 Spójrz gdzie siedzisz. Zadania oznaczone tym numerem są przeznaczone dla Ciebie. DRZWI.
Ruch jednowymiarowy Ruch - zmiana położenia jednych ciał względem innych, które nazywamy układem odniesienia. Uwaga: to samo ciało może poruszać się względem.
Struktura systemu operacyjnego
Ruch – jedno w najczęściej obserwowanych zjawisk fizycznych
Metody Inteligencji Obliczeniowej
Podstawowe pojęcia i terminy stosowane w statystyce
Grafika 2d - Podstawy. Kontakt Daniel Sadowski FTP: draver/GRK - wyklady.
GeneracjeTechnologia Architektura przetwarzania 0. Przekaźniki elektromechaniczne 1. Lampy elektronowe 2. Tranzystory 3. Układy scalone 3.5.Układy dużej.
Metody Inteligencji Obliczeniowej Adrian Horzyk Adrian Horzyk Akademia Górniczo-Hutnicza Wydział Elektrotechniki, Automatyki, Informatyki i Inżynierii.
Model GRID znaczenie NMT o postaci GRID strategie interpolacji: dane → GRID stosowane metody interpolacji omówienie wybranych metod przykłady.
Szacowanie wartości rynkowej nieruchomości: podejście porównawcze
BYĆ PRZEDSIĘBIORCZYM - nauka przez praktykę Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu Społecznego.
Dr Dorota Węziak-Białowolska Instytut Statystyki i Demografii Metody klasyfikacji obiektów 1.
1.problem próbkowania (sampling problem) dobór charakterystycznych punktów powierzchni w celu uzyskania najlepszego efektu przy minimalizacji ilości danych.
Systemy neuronowo – rozmyte
Co do tej pory robiliśmy:
Jednorównaniowy model regresji liniowej
Selekcja danych Korelacja.
Dr Dorota Rozmus Katedra Analiz Gospodarczych i Finansowych
Własności asymptotyczne ciągów zmiennych losowych
Modele baz danych - spojrzenie na poziom fizyczny
Alfred Stach Instytut Paleogeografii i Geoekologii UAM
Zapis prezentacji:

VI EKSPLORACJA DANYCH Zadania eksploracji danych: klasyfikacja Klasyfikacja polega na przewidywaniu wartości jednej zmiennej na podstawie znanych wartości innych zmiennych. Przy zastosowaniu klasyfikacji zmienna, która będzie przewidywana jest kategoryczna.

VI EKSPLORACJA DANYCH Zadania eksploracji danych: klasyfikacja Metody klasyfikacji: Taksonomia fenetyczna: opiera się na relacji podobieństwa pomiędzy klasyfikowanymi obiektami Taksonomia filogenetyczna: opiera się na relacji pokrewieństwa klasyfikowanych obiektów Taksonomia: (gr. taxis = układ, porządek + nomos = prawo) nauka o zasadach i metodach klasyfikowania, w szczególności o tworzeniu i opisywaniu jednostek systematycznych - taksonów

VI EKSPLORACJA DANYCH Zadania eksploracji danych: klasyfikacja W zadaniach klasyfikacji nowemu rekordowi przypisuje się kategorię najbardziej podobnego rekordu lub rekordów. Podobieństwo określone jest bliskością rekordów w wielowymiarowej przestrzeni. Do mierzenia podobieństwa konieczne są zdefiniowane miary odległości. Miara odległości lub funkcja odległości jest rzeczywistoliczbową funkcją d, taką, że dla dowolnych współrzędnych x, y i z: d(x,y) ≥ 0 i d(x,y) = 0 wtedy i tylko wtedy, gdy x = y d(x,y) = d(y,x) d(x,z) ≤ d(x,y) + d(y,z)

VI EKSPLORACJA DANYCH Zadania eksploracji danych: klasyfikacja Metryka euklidesowa Naturalna, „zwykła” odległość punktów na prostej, płaszczyźnie, czy też dowolnej euklidesowej przestrzeni Rn w przypadku, gdy n = 1 de(x,y) = │y - x│ w przypadku ogólnym, gdy x, y  Rn oraz x = ( x1, x2, …, xn) i y = ( y1, y2, …, yn) de(x,y) = √(y1 – x1)2 + (y2 – x2)2 + … + (yn – xn)2

II EKSPLORACJA DANYCH Przygotowanie danych: przekształcanie danych

VI EKSPLORACJA DANYCH X* = X - Xmin / Xmax - Xmin X* = X - Xśr / (X) Zadania eksploracji danych: klasyfikacja normalizacja min - max X* = X - Xmin / Xmax - Xmin standaryzacja X* = X - Xśr / (X)

VI EKSPLORACJA DANYCH Zadania eksploracji danych: klasyfikacja

VI EKSPLORACJA DANYCH Zadania eksploracji danych: klasyfikacja Algorytm klasyfikacji: algorytm k - najbliższych sąsiadów wybieramy nowy obiekt o wejściowym wektorze Y analizujemy k najbliższych punktowi Y punktów ze zbioru danych treningowych (uczących) przydzielamy ten obiekt do klasy, w której jest większość spośród tych k punktów

VI EKSPLORACJA DANYCH Zadania eksploracji danych: klasyfikacja Funkcja decyzyjna: Funkcja określająca metodę porównania wybranych rekordów (leżących najbliżej) do podjęcia decyzji klasyfikacyjnej dla nowego rekordu. Funkcją decyzyjną jest głosowanie. głosowanie proste głosowanie ważone

VI EKSPLORACJA DANYCH Zadania eksploracji danych: klasyfikacja

VI EKSPLORACJA DANYCH Zadania eksploracji danych: klasyfikacja Głosowanie proste określ wartość k, czyli liczbę rekordów decydujących o klasyfikacji nowego rekordu porównaj nowy rekord z k najbliższymi sąsiadami, czyli z k rekordami mającymi najmniejszą odległość określ liczby rekordów (należących do k) w poszczególnych klasach przypisz nowy rekord do klasy dominującej

VI EKSPLORACJA DANYCH Zadania eksploracji danych: klasyfikacja 0,4 0,5 0,1 0,3 0,2

VI EKSPLORACJA DANYCH Zadania eksploracji danych: klasyfikacja Głosowanie ważone określ wartość k, czyli liczbę rekordów decydujących o klasyfikacji nowego rekordu porównaj nowy rekord z k najbliższymi sąsiadami, czyli z k rekordami mającymi najmniejszą odległość oblicz wagi k rekordów w poszczególnych klasach oblicz sumaryczne ważone głosy dla każdej klasy reprezentowanej przez k najbliższych sąsiadów wybierz dla nowego rekordu klasę z dominującym głosem

VI EKSPLORACJA DANYCH Zadania eksploracji danych: klasyfikacja Wybór k – małe vs. duże Wybór k – małe: klasyfikacja jest pod wpływem przypadkowych pojedynczych danych (punktów). Dla małej wielkości k algorytm zwróci wartość zmiennej celu najbliższej obserwacji. Proces może prowadzić do przeuczenia – zapamiętania całego zbioru uczącego. Wybór k – duże: dla dużej wartości k pojawia się skłonność do „wygładzania” odpowiedzi. Lokalne ciekawe zachowania wydobyte ze zbioru uczącego zostają utracone.

VI EKSPLORACJA DANYCH Zalety metody najbliższego sąsiedztwa: metoda łatwo daje się zaprogramować, metoda nie wymaga żadnej optymalizacji ani uczenia, metoda bez problemów daje sobie radę z brakującymi danymi (wartościami), przy niektórych problemach jej dokładność klasyfikacyjna jest bardzo dobra i wypada lepiej niż inne metody.

VI EKSPLORACJA DANYCH Wady metody najbliższego sąsiedztwa: metoda należy do tzw. metod leniwych, tzn. nie jest tutaj budowany model, lecz zapamiętywane są wszystkie punkty zbioru danych, jeśli zbiór danych jest duży, to przeszukiwanie go w celu znalezienia k najbliższych sąsiadów jest procesem czasochłonnym, metoda wymaga przechowywania całego zbioru danych, o objętości np, ograniczenia czasowe lub objętościowe uniemożliwiają zastosowanie tej metody online,

VI EKSPLORACJA DANYCH Zadania eksploracji danych: klasyfikacja Σi wiyi Algorytm klasyfikacji: algorytm k - najbliższych sąsiadów Algorytm k – najbliższych sąsiadów może być również stosowany do szacowania i przewidywania. Uśrednianie lokalnie ważone – metoda szacuje zmienną celu jako średnią ważoną dla k najbliższych sąsiadów wg. wzoru: Σi wiyi Σi wi ynowy = gdzie wi = 1/ odległość2