Promotor: dr inż. Maciej Grzenda

Slides:



Advertisements
Podobne prezentacje
Wprowadzenie do Data Miningu
Advertisements

Badania statystyczne Wykłady 1-2 © Leszek Smolarek.
ESTYMACJA PRZEDZIAŁOWA
Data Mining w e-commerce
Szymon Grabowski Katedra Informatyki Stosowanej Politechniki Łódzkiej
Testy sekwencyjne Jan Acedański.
Modelowanie zależności ekspresji genów
Jarosław Kuchta Jakość Oprogramowania
Predykcja współrzędnych x, y bieguna ziemskiego za pomocą sztucznych sieci neuronowych Maciej Kalarus Centrum Badań Kosmicznych PAN 5 grudnia 2003r.
Wprowadzenie do optymalizacji wielokryterialnej.
Inteligencja Obliczeniowa Metody oparte na podobieństwie do wzorców.
Analiza przyczynowości
Eksploracja danych “Drążymy informację ale zbieramy wiedzę” - słowa Johna Naisbett’a, motto z książki “Advances in knowledge discovery and data mining”
Inteligencja Obliczeniowa Drzewa Decyzji.
Skale pomiarowe – BARDZO WAŻNE
Zakład Mechaniki Teoretycznej
Elementy Modelowania Matematycznego
CLUSTERING Metody grupowania danych Plan wykładu Wprowadzenie Dziedziny zastosowania Co to jest problem klastrowania? Problem wyszukiwania optymalnych.
Optymalizacja własności mikrostruktury przy pomocy algorytmów genetycznych na bazie Cyfrowej Reprezentacji Materiału Autor: Daniel Musiał Promotor: dr.
„Piramid Match Kernel”
Rozpoznawanie Twarzy i Systemy Biometryczne, 2005/2006
WekaSQL Język i aplikacja przetwarzania oraz eksploracji danych.
WekaSQL Język i aplikacja przetwarzania oraz eksploracji danych.
OPIS SEPARACJI JAKO KLASYFIKACJA
mgr inż. Adam Łukasz Kaczmarek Katedra Inżynierii Wiedzy, WETI PG
mgr inż. Kuba Łopatka Katedra Systemów Multimedialnych WETI PG
mgr inż. Adam Sobociński Katedra Inżynierii Wiedzy WETI PG
Eksperymentalna ocena jakości rozpoznawania
Klasyfikacja Obcinanie drzewa Naiwny klasyfikator Bayes’a kNN
Klasyfikacja Sformułowanie problemu Metody klasyfikacji
Additive Models, Trees, and Related Methods
Lider rynku Źródło: The OLAP Report Źródło: Gartner Group
Klasyfikacja dokumentów za pomocą sieci radialnych
Klasyfikacja dokumentów za pomocą sieci radialnych Paweł Rokoszny Emil Hornung Michał Ziober Tomasz Bilski.
Klasyfikacja dokumentów za pomocą sieci radialnych Paweł Rokoszny Emil Hornung Michał Ziober Tomasz Bilski.
UWARUNKOWANIA SPOŁECZNE. zasób wiedzy i umiejętności, zdobytych w procesie kształcenia i praktyki zawodowej, a także zdrowia i energii witalnej. Stanowi.
formalnie: Budowa i zasada funkcjonowania sztucznych sieci neuronowych
Test Doubles Adam Gabryś , v1.1,
Adam Gabryś , v1.1,
Testy nieparametryczne
Eco Data Miner System oceny jakości wyników danych pomiarowych z sieci monitorującej stan atmosfery przy wykorzystaniu metod ilościowych Skrótowy opis.
Systemy Wizyjne i Głosowe
Techniki eksploracji danych
Elementy Rachunku Prawdopodobieństwa i Statystyki
Autor: Joanna Barańska Promotor: dr inż. Paweł Figat Konsultant:
Artur Ulatowski Implementacja algorytmu k – najbliższych sąsiadów jako serwis internetowy Promotor: Dr hab. prof. WWSI Michał Grabowski.
Planowanie badań i analiza wyników
w ekonomii, finansach i towaroznawstwie
VII EKSPLORACJA DANYCH
IV EKSPLORACJA DANYCH Zadania eksploracji danych: klasyfikacja
Ekonometryczne modele nieliniowe
SZTUCZNA INTELIGENCJA
SZTUCZNA INTELIGENCJA
Statystyczna analiza danych w praktyce
Statystyczna analiza danych
Statystyczna analiza danych
Monte Carlo, bootstrap, jacknife. 2 Literatura Bruce Hansen (2012 +) Econometrics, ze strony internetowej :
Weryfikacja hipotez statystycznych „Człowiek – najlepsza inwestycja”
Parametry rozkładów Metodologia badań w naukach behawioralnych II.
Z ŁOŻONE SYSTEMY KLASYFIKUJĄCE DLA DANYCH Z NIEZRÓWNOWAŻONYMI LICZEBNIE KLASAMI DECYZYJNYMI Autor: inż. Tomasz Maciejewski Promotor: dr hab. inż. Jerzy.
Model Poissona w ujęciu bayesowskim
Statystyka matematyczna
Regresja wieloraka – bada wpływ wielu zmiennych objaśniających (niezależnych) na jedną zmienną objaśnianą (zależą)
Metody Eksploracji Danych
Funkcja reakcji na impuls w nieliniowych modelach VAR
Indukcja reguł Inżynieria wiedzy Krzysztof Regulski, WIMiIP, KISiM,
Programowanie sieciowe Laboratorium 3
Monte Carlo, bootstrap, jacknife
Inteligentne oprogramowanie z wykorzystaniem SQL Server Data Mining
Programowanie sieciowe Laboratorium 3
Zapis prezentacji:

Promotor: dr inż. Maciej Grzenda Jakub Wojtczak Analiza wpływu wykorzystania metod uzupełniania danych na realizację zadania klasyfikacji Promotor: dr inż. Maciej Grzenda

Problem niekompletnych danych Jakub Wojtczak Problem niekompletnych danych ID Imię i Nazwisko Płeć Województwo Branża Wiek Zarobki 1 Jan Kowalski M lubuskie IT 27 3500 2 Adam Nowak śląskie Oświata 49 ???? 3 Agnieszka Witkowska K mazowieckie 46 10000 4 Dariusz Mróz łódzkie 33 5 Aleksandra Jońska 39 8000 Brak odpowiedzi na część pytań w ankietach, Błędne działanie części urządzeń pomiarowych, Ewolucja modelu danych (dodanie nowych atrybutów w trakcie użytkowania bazy danych). Tab. Przykładowe dane klientów firmy

Traktowanie niekompletnych danych Jakub Wojtczak Traktowanie niekompletnych danych Usunięcie niekompletnych danych Pozyskanie i wykorzystanie informacji o parametrach rozkładu danych Próba wstawienia brakujących danych Ad 1. Całkowite usunięcie wszystkich niekompletnych rekordów Badanie stopnia niekompletności oraz istotności w kontekście dalszej analizy danych Przede wszystkim usunięcie całych rekordów/atrybutów ze zbioru danych prowadzi za sobą usunięcie wielu istniejących danych z tychże rekordów/atrybutów. Poza tym usunięcie niekompletnych rekordów może wpłynąć na rozkład danych. Ad 2. Znajomość rozkładu danych EM – estymujemy parametry rozkładu Ad 3. Ważnym założeniem jest korzystanie jedynie z informacji, jakie zawiera sam zbiór danych. Zakładany jest brak jakichkolwiek informacji pochodzących spoza zbioru danych (np. informacji o charakterze rozkładu).

Wstawianie niekompletnych wartości[2] Jakub Wojtczak Wstawianie niekompletnych wartości[2] Podmiana niekompletnych rekordów Wstawienie średniej/mody/mediany Hot deck (oraz cold deck) Modele predykcyjne Non-invasive imputation Metoda oparta o algorytm k-NN

Problemy uzupełniania niekompletnych zbiorów Jakub Wojtczak Problemy uzupełniania niekompletnych zbiorów Wiele niepełnych atrybutów Wiele metod uzupełniania – dobór najbardziej odpowiedniej Parametryzacja metod Atrybuty ilościowe i jakościowe Definicja poprawności uzupełnienia

Automatyczny dobór metod wstawiania Jakub Wojtczak Automatyczny dobór metod wstawiania Dany jest zbiór metod uzupełniania danych Dany jest zbiór niepełnych atrybutów (w obrębie danego zbioru danych) Dopasowanie odpowiedniej metody dla każdego z atrybutów Algorytm genetyczny

Algorytm genetyczny – reprezentacja problemu Jakub Wojtczak Algorytm genetyczny – reprezentacja problemu Metoda nr 2 , Metoda nr 1 , Metoda nr 2 Chromosom – wektor metod ID Imię i Nazwisko Płeć Województwo Branża Wiek Zarobki 1 Jan Kowalski M Lubuskie IT 27 3500 2 Adam Nowak Śląskie Oświata 49 ???? 3 Agnieszka Witkowska K Mazowieckie 46 10000 4 Dariusz Mróz Łódzkie 33 5 Aleksandra Jońska 39 8000 Brak odpowiedzi na część pytań w ankietach, Błędne działanie części urządzeń pomiarowych, Ewolucja modelu danych (dodanie nowych atrybutów w trakcie użytkowania bazy danych). Tab. Przykładowe dane klientów firmy

Miara jakości uzupełnienia danych Jakub Wojtczak Miara jakości uzupełnienia danych Niepotrzebne dokładne odtworzenie Niepotrzebna próba odtworzenia szumu Nadrzędny cel – prawidłowe rozpoznanie litery K Skuteczność klasyfikacji miarą jakości uzupełnienia[3] Rys. Zaszumiona próbka wraz z brakującym fragmentem. Źródło: [1]

Jakub Wojtczak Hipoteza Optymalny dobór metod wstawiania dla poszczególnych atrybutów zbioru danych zależy od specyfiki zastosowanego (w celu mierzenia jakości wstawiania) modelu predykcyjnego.

Testy Metody uzupełniania danych: Testowe zbiory danych ([2]): Jakub Wojtczak Testy Metody uzupełniania danych: proste(losowy, mediana, moda, średnia), non-invasive imputation, kNN (wersje: moda, mediana, średnia), oparte o SOM (wersje: moda, mediana, średnia). Testowe zbiory danych ([2]): Iris (w wersjach Iris25, Iris50), Hepatitis (w wersjach Hepatitis, Hepatitis25, Hepatitis50), Votes (Votes, Votes50),

Jakub Wojtczak Testy Klasyfikatory: SVM, Perceptron wielowarstwowy (MLP), Drzewo decyzyjne. Pomiar jakości uzupełnienia – skuteczność klasyfikacji, wielokrotna walidacja krzyżowa.

Wyniki – porównanie zwycięskich chromosomów Jakub Wojtczak Wyniki – porównanie zwycięskich chromosomów Zbiór danych Algorytm klasyfikacji Skuteczność klasyfikacji Zwycięski chromosom Iris25 C4.5 0,9333 [ NII (0.48699); NII (0.14209); KNN-median (5); KNN-median (1); ] MLP 0,9187 [ SOM-mean (2); NII (0.058865); NII (0.23576); Mean; ] SVM 0,9233 [ SOM-mean (2); NII (0.4906); KNN-mean (3); KNN-median (6); ] Iris50 0,8540 [ NII (0.0060995); NII (0.097717); SOM-mean (2); KNN-mean (4); ] 0,8820 [ NII (0.42302); KNN-mean (8); KNN-mean (6); KNN-mean (7); ] 0,8460 [ SOM-mean (8); KNN-median (8); NII (0.0344); KNN-mean (3); ]

Wyniki – porównanie zwycięskich chromosomów Jakub Wojtczak Wyniki – porównanie zwycięskich chromosomów Zbiór danych Algorytm klasyfikacji Skuteczność klasyfikacji Zwycięski chromosom Hepatitis25  C4.5 0,8239 [ KNN-mode (1); NII (0.15992); KNN-mode (7); NII (0.41428); NII (0.41984); KNN-mode (4); Mode; Mode; KNN-mode (9); Mode; KNN-mode (2); Mode; NII (0.053253); Mean; KNN-median (5); SOM-mode (8); KNN-median (6); KNN-median (7); Mode; ] Hepatitis25 MLP 0,8316 [ KNN-mode (9); NII (0.2811); SOM-mode (2); NII (0.42144); KNN-mode (9); NII (0.21948); KNN-mode (4); NII (0.2927); Mode; SOM-mode (9); Mode; Mode; SOM-mode (3); KNN-mean (10); Mode; SOM-mode (10); KNN-mean (5); KNN-mean (7); NII (0.2302); ] SVM 0,8465 [ KNN-mode (8); KNN-mode (2); NII (0.27833); NII (0.5); SOM-mode (6); KNN-mode (10); SOM-mode (10); KNN-mode (10); KNN-mode (10); NII (0.27433); SOM-mode (9); Mode; Mode; NII (0.29241); KNN-mean (5); Median; KNN-mean (10); Median; KNN-mode (10); ] Hepatitis50 0,8452 [ KNN-mode (5); KNN-mode (6); KNN-mode (10); SOM-mode (10); KNN-mode (4); NII (0.062357); KNN-mode (9); NII (0.47854); NII (0.14424); NII (0.19693); Mode; KNN-mode (7); Mode; Median; SOM-mean (4); Median; KNN-mean (10); NII (0.072263); NII (0.49028); ] 0,8323 [ KNN-mean (8); KNN-mode (2); KNN-mode (7); SOM-mode (2); NII (0.36131); NII (0.15143); NII (0.26237); KNN-mode (5); SOM-mode (8); Mode; KNN-mode (5); SOM-mode (9); Mode; KNN-median (8); KNN-mode (10); SOM-mean (3); Mean; SOM-mean (7); KNN-mode (6); ] 0,8329 [ SOM-median (2); SOM-mode (9); NII (0.33879); NII (0.29086); SOM-mode (4); SOM-mode (10); KNN-mode (6); SOM-mode (8); SOM-mode (6); NII (0.10713); SOM-mode (7); SOM-mode (10); KNN-mode (8); KNN-median (2); KNN-median (8); SOM-mean (3); SOM-mean (10); KNN-mode (4); NII (0.20763); ]

Wyniki – porównanie z mechanizmem zailmplementowanym w bibliotece WEKA Jakub Wojtczak Wyniki – porównanie z mechanizmem zailmplementowanym w bibliotece WEKA Zbiór danych Klasyfikator Algorytm genetyczny Wbudowane mechanizmy klasyfikatorów WEKA Iris25 C4.5 0,9333 0,9252 MLP 0,9187 0,8701 SVM 0,9233 0,8689 Iris50 0,8540 0,8096 0,8820 0,7900 0,8460 0,7805

Wyniki – porównanie z mechanizmem zailmplementowanym w bibliotece WEKA Jakub Wojtczak Wyniki – porównanie z mechanizmem zailmplementowanym w bibliotece WEKA Zbiór danych Klasyfikator Algorytm genetyczny Wbudowane mechanizmy klasyfikatorów WEKA Hepatitis25 C4.5 0,8239 0,8258 MLP 0,8316 0,7928 SVM 0,8465 0,8506 Hepatitis50 0,8452 0,7885 0,8323 0,7399 0,8329 0,8254

Wyniki – porównanie z mechanizmem zailmplementowanym w bibliotece WEKA Jakub Wojtczak Wyniki – porównanie z mechanizmem zailmplementowanym w bibliotece WEKA Zbiór danych Klasyfikator Algorytm genetyczny Wbudowane mechanizmy klasyfikatorów WEKA Votes C4.5 0,9690 0,9656 MLP 0,9579 0,9455 SVM 0,9676 0,9595 Votes50 0,8885 0,8034 0,8832 0,8711 0,9143 0,9035

Podsumowanie Zaimplementowany algorytm osiąga satysfakcjonujące wyniki Jakub Wojtczak Podsumowanie Zaimplementowany algorytm osiąga satysfakcjonujące wyniki Wyniki przeprowadzonych testów potwierdzają prawdziwość hipotezy Dalsze badania: usuwanie i ponowne wstawianie zaszumionych danych

Jakub Wojtczak Bibliografia P. Zawistowski, M.Grzenda, Handling Incomplete Data Using Evolution of Imputation Methods, 2009. S. Parsons, „Current approaches to handling imperfect information in data and knowledge bases,” IEEE Transactions on Knowledge and Data Engineering, nr 8(3), 1996. E. Acuña i C. Rodriguez, „The treatment of missing values and its effect in the classifier accuracy,” w Classification, Clustering and Data Mining Applications, Heidelberg, 2004.