Z ŁOŻONE SYSTEMY KLASYFIKUJĄCE DLA DANYCH Z NIEZRÓWNOWAŻONYMI LICZEBNIE KLASAMI DECYZYJNYMI Autor: inż. Tomasz Maciejewski Promotor: dr hab. inż. Jerzy.

Slides:



Advertisements
Podobne prezentacje
Ocena wartości diagnostycznej testu – obliczanie czułości, swoistości, wartości predykcyjnych testu. Krzywe ROC. Anna Sepioło gr. B III OAM.
Advertisements

Szymon Grabowski Katedra Informatyki Stosowanej Politechniki Łódzkiej
Klasyfikacja danych Metoda hierarchiczne
Topology of the World Trade Web. Świat jako twór stawiający wysokie wymagania Świat staje się globalną wioską- global village Ogromne znaczenie handlu.
Wybrane zastosowania programowania liniowego
11. Różniczkowanie funkcji złożonej
Inteligencja Obliczeniowa Metody oparte na podobieństwie do wzorców.
Algorytm Dijkstry (przykład)
SZTUCZNA INTELIGENCJA ARTIFICIAL INTELLIGENCE
Uczenie konkurencyjne.
Inteligencja Obliczeniowa Perceptrony o dużym marginesie błędu
Inteligencja Obliczeniowa Feature Space Mapping.
Badania operacyjne. Wykład 1
o radialnych funkcjach bazowych
Zrównoleglanie programu sekwencyjnego
CLUSTERING Metody grupowania danych Plan wykładu Wprowadzenie Dziedziny zastosowania Co to jest problem klastrowania? Problem wyszukiwania optymalnych.
Ulepszenia metody Eigenfaces
Rozpoznawanie Twarzy i Systemy Biometryczne, 2005/2006
Rozpoznawanie Twarzy i Systemy Biometryczne, 2005/2006
WekaSQL Język i aplikacja przetwarzania oraz eksploracji danych.
WekaSQL Język i aplikacja przetwarzania oraz eksploracji danych.
Metody Sztucznej Inteligencji w Sterowaniu 2009/2010 Metoda propagacji wstecznej Dr hab. inż. Kazimierz Duzinkiewicz, Katedra Inżynierii Systemów Sterowania.
Paweł Kramarski Seminarium Dyplomowe Magisterskie 2
Eksperymentalna ocena jakości rozpoznawania
Klasyfikacja Obcinanie drzewa Naiwny klasyfikator Bayes’a kNN
Klasyfikacja Sformułowanie problemu Metody klasyfikacji
Linear Methods of Classification
Additive Models, Trees, and Related Methods
Klasyfikacja dokumentów za pomocą sieci radialnych Paweł Rokoszny Emil Hornung Michał Ziober Tomasz Bilski.
Klasyfikacja dokumentów za pomocą sieci radialnych
Klasyfikacja dokumentów za pomocą sieci radialnych Paweł Rokoszny Emil Hornung Michał Ziober Tomasz Bilski.
Kinematyka SW Sylwester Wacke
Systemy Wizyjne i Głosowe
Detekcja twarzy w obrazach cyfrowych
Elementy Rachunku Prawdopodobieństwa i Statystyki
Techniki eksploracji danych
GŁOSOWA ŁĄCZNOŚĆ Z KOMPUTEREM
formalnie: Naiwny klasyfikator Bayesa
Modelowanie i Identyfikacja 2011/2012 Metoda propagacji wstecznej Dr hab. inż. Kazimierz Duzinkiewicz, Katedra Inżynierii Systemów Sterowania 1 Warstwowe.
Elementy Rachunku Prawdopodobieństwa i Statystyki
Analiza dyskryminacji
Artur Ulatowski Implementacja algorytmu k – najbliższych sąsiadów jako serwis internetowy Promotor: Dr hab. prof. WWSI Michał Grabowski.
Odporne metody analizy obrazów
MS Excel - wspomaganie decyzji
II EKSPLORACJA DANYCH Przygotowanie danych: rodzaje danych
SYSTEMY EKSPERTOWE I SZTUCZNA INTELIGENCJA
VI EKSPLORACJA DANYCH Zadania eksploracji danych: klasyfikacja
VII EKSPLORACJA DANYCH
IV EKSPLORACJA DANYCH Zadania eksploracji danych: klasyfikacja
SYSTEMY EKSPERTOWE I SZTUCZNA INTELIGENCJA
Metoda studium przypadku jako element XI Konkursu Wiedzy Ekonomicznej
METODY PODEJMOWANIA DECYZJI
Metody pozyskiwania wiedzy
Metody sztucznej inteligencji – technologie rozmyte i neuronoweReguła propagacji wstecznej  Dr hab. inż. Kazimierz Duzinkiewicz, Katedra Inżynierii Systemów.
Temat 3: Podstawy programowania Algorytmy – 2 z 2 _________________________________________________________________________________________________________________.
SZTUCZNA INTELIGENCJA
Metody Inteligencji Obliczeniowej
Model ekonometryczny Jacek Szanduła.
GeneracjeTechnologia Architektura przetwarzania 0. Przekaźniki elektromechaniczne 1. Lampy elektronowe 2. Tranzystory 3. Układy scalone 3.5.Układy dużej.
Metody Inteligencji Obliczeniowej Adrian Horzyk Adrian Horzyk Akademia Górniczo-Hutnicza Wydział Elektrotechniki, Automatyki, Informatyki i Inżynierii.
Fundamentals of Data Analysis Lecture 12 Approximation, interpolation and extrapolation.
Machine learning Lecture 6
Zastosowanie metod statystycznych w obszarze CRM.
Systemy neuronowo – rozmyte
Sztuczne Sieci Neuronowe
Perceptrony o dużym marginesie błędu
Co do tej pory robiliśmy:
Perceptrony o dużym marginesie błędu
Programowanie sieciowe Laboratorium 3
Programowanie sieciowe Laboratorium 3
Zapis prezentacji:

Z ŁOŻONE SYSTEMY KLASYFIKUJĄCE DLA DANYCH Z NIEZRÓWNOWAŻONYMI LICZEBNIE KLASAMI DECYZYJNYMI Autor: inż. Tomasz Maciejewski Promotor: dr hab. inż. Jerzy Stefanowski

P ROBLEM UCZENIA MASZYNOWEGO Dane wyjściowe: Zestaw przykładów opisanych za pomocą zbioru atrybutów oraz przynależności do jednej z możliwych klas decyzyjnych Cel: Stworzenie klasyfikatora przypisującego dowolny przykład do odpowiedniej klasy decyzyjnej Maksymalizacja skuteczności klasyfikatora Weryfikacja: Podział na zbiór treningowy oraz testowy Cross walidacja

C ZYM JEST „ SKUTECZNOŚĆ ”? Skuteczność klasyfikatora jest pojęciem względnym Zależy od jego przyszłego zastosowania Najczęściej wyrażana w postaci wielkości liczbowej opisującej pewną własność klasyfikatora Mierzona na zbiorze testowym Reprezentowana za pomocą odpowiedniej miary, najpopularniejsze z nich, to: Jakość klasyfikacji Błąd klasyfikatora

W CZYM PROBLEM ? Większość standardowych algorytmów oraz miar została opracowana zakładając niejawnie równomierny rozkład przykładów pomiędzy klasami Co jeśli założenie nie zostało spełnione? Klasyfikator preferuje przydział do klasy „większościowej” W przypadku dużej różnicy w liczności klas, rozpoznawanie klasy „mniejszościowej” staje się nieopłacalne Uzyskany klasyfikator nie dostarcza żadnej wiedzy, a jego przydatność jest niewielka

W CZYM PROBLEM ? - P RZYKŁAD Klasy decyzyjne = {Zdrowy, Chory} Obserwacje – : 9990 x Zdrowy 10 x Chory Trafność klasyfikatora „Zdrowy”: 99,9% Trafność klasyfikatora: 99,9% 9980 x Zdrowy 20 x Chory Czy klasyfikatory można uznać za „równo skuteczne”?

P ROBLEM W PROBLEMIE Skuteczność klasyfikatora należy rozpatrywać w kontekście problemu, który ma rozwiązać Niezrównoważenie liczebne klas stanowi problem jeśli: Przywiązuje się różną wagę do klasyfikacji przykładów z różnych klas Skupia się na rozpoznaniu obserwacji wyjątkowych

I STOTA PROBLEMU W przypadku wystąpienia nierównowagi klas, niedoreprezentowane są zazwyczaj klasy reprezentującej obiekty wyjątkowe, na których rozpoznaniu najbardziej zależy Standardowe miary nie uwzględniają dysproporcji pomiędzy klasami, co powoduje zwiększenie wagi klasy większościowej w ocenie skuteczności

I LE MIERZYSZ ? W przypadku nierównowagi klas należy wykorzystać miary lepiej dopasowane do tego typu problemów Sensitivity Specificity Precision F-miara Krzywa ROC, AUC

S ZABLE W DŁOŃ W przypadku wystąpienia omawianego problemu można podjąć walkę na jednym z frontów: Przetwarzanie wstępne zbioru danych treningowych Stworzenie algorytmu indukcji klasyfikatora mającego na uwadze dysproporcje między klasami Wykorzystanie złożonych klasyfikatorów: Boosting, bagging, etc. Cost-sensitive learning

F LIRTOWANIE ZE ZBIOREM DANYCH Zabiegi ingerujące w zbiór danych mające na celu uzyskanie lepszego klasyfikatora, można podzielić na: „Nadlosowywanie” przykładów klasy mniejszościowej, w tym: Duplikacja istniejących przykładów Tworzenie sztucznych przykładów Usuwanie przykładów z klasy większościowej Czyszczenie zbioru danych

SMOTE Dogenerowanie nowych przykładów klasy mniejszościowej pomiędzy przykładami pierwotnymi Uogólnienie obszaru decyzyjnego Parametry: Liczba sąsiadów brana pod uwagę Liczba dogenerowanych przykładów Zastosowana miara odległości Problemy „Small disjuncts”

P ODOBNI INACZEJ Podobieństwo przykładów można wyrazić za pomocą odległości między nimi w przestrzeni atrybutów Należy przy tym uwzględnić: Różne typy: atrybutów Wartości brakujące Popularne miary: Euklidesowa HOEM HVDM DVDM IVDM, WVDM

SMOTE – MODYFIKACJE Borderline SMOTE Nadlosowywanie obszarów granicznych Występuje w dwóch wersjach Safe-Level SMOTE Skomplikowany algorytm nadlosowywania w oparciu o sąsiedztwo przykładu pozytywnego oraz jego najbliższego pozytywnego sąsiada Czy to działa?

W YRZUĆ ŚMIECI ! Usuwanie „niepotrzebnych” przykładów z klasy większościowej ma na celu zrównoważenie wag obu klas Powoduje utratę informacji Dobór przykładów do usunięcie w taki sposób, aby ich brak nie wpłynął na detekcje przykładów z tej klasy Heurystyczny wybór przykładów nadmiarowych

S EGREGACJA ODPADÓW EasyEnsemble - złożony klasyfikator tworzony poprzez losowanie ze zwracaniem przykładów z klasy większościowej BalanceCascade - kaskada klasyfikatorów, filtrująca w każdym węźle przykłady z klasy większościowej metody z rodziny NearMiss - filtrowanie przykładów klasy większościowej w oparciu o ich sąsiedztwo One-sided selection - filtrowanie w oparciu o algorytm kNN oraz metody czyszczenia danych

P OSPRZĄTAJ POKÓJ ! Metody czyszczenia zbioru danych mają na celu: Wyeliminowanie szumów Wyeliminowanie nakładania się klas powstałego m.in. na wskutek dogenerowania nowych przykładów Popularne środki czystości: Tomek links Wilson ENN NCL

P RASA Batista: A Study of the Behavior of Several Methods for Balancing Bunkhumpornpat: Safe-Level-SMOTE Chawla: SMOTE - Synthetic Minority Over- sampling Technique Han: Borderline-SMOTE A New Over-Sampling Method He: Learning from Imbalance Data Wilson: Improved Heterogeneous Distance Functions

D ZIĘ -K U -J E -M Y ZA UWAGĘ