Promotor: dr inż. Maciej Grzenda

Slides:

Advertisements

Podobne prezentacje

Wprowadzenie do Data Miningu

Advertisements

Badania statystyczne Wykłady 1-2 © Leszek Smolarek.

ESTYMACJA PRZEDZIAŁOWA

Data Mining w e-commerce

Szymon Grabowski Katedra Informatyki Stosowanej Politechniki Łódzkiej

Testy sekwencyjne Jan Acedański.

Modelowanie zależności ekspresji genów

Jarosław Kuchta Jakość Oprogramowania

Predykcja współrzędnych x, y bieguna ziemskiego za pomocą sztucznych sieci neuronowych Maciej Kalarus Centrum Badań Kosmicznych PAN 5 grudnia 2003r.

Wprowadzenie do optymalizacji wielokryterialnej.

Inteligencja Obliczeniowa Metody oparte na podobieństwie do wzorców.

Analiza przyczynowości

Eksploracja danych “Drążymy informację ale zbieramy wiedzę” - słowa Johna Naisbett’a, motto z książki “Advances in knowledge discovery and data mining”

Inteligencja Obliczeniowa Drzewa Decyzji.

Skale pomiarowe – BARDZO WAŻNE

Zakład Mechaniki Teoretycznej

Elementy Modelowania Matematycznego

CLUSTERING Metody grupowania danych Plan wykładu Wprowadzenie Dziedziny zastosowania Co to jest problem klastrowania? Problem wyszukiwania optymalnych.

Optymalizacja własności mikrostruktury przy pomocy algorytmów genetycznych na bazie Cyfrowej Reprezentacji Materiału Autor: Daniel Musiał Promotor: dr.

„Piramid Match Kernel”

Rozpoznawanie Twarzy i Systemy Biometryczne, 2005/2006

WekaSQL Język i aplikacja przetwarzania oraz eksploracji danych.

WekaSQL Język i aplikacja przetwarzania oraz eksploracji danych.

OPIS SEPARACJI JAKO KLASYFIKACJA

mgr inż. Adam Łukasz Kaczmarek Katedra Inżynierii Wiedzy, WETI PG

mgr inż. Kuba Łopatka Katedra Systemów Multimedialnych WETI PG

mgr inż. Adam Sobociński Katedra Inżynierii Wiedzy WETI PG

Eksperymentalna ocena jakości rozpoznawania

Klasyfikacja Obcinanie drzewa Naiwny klasyfikator Bayes’a kNN

Klasyfikacja Sformułowanie problemu Metody klasyfikacji

Additive Models, Trees, and Related Methods

Lider rynku Źródło: The OLAP Report Źródło: Gartner Group

Klasyfikacja dokumentów za pomocą sieci radialnych

Klasyfikacja dokumentów za pomocą sieci radialnych Paweł Rokoszny Emil Hornung Michał Ziober Tomasz Bilski.

Klasyfikacja dokumentów za pomocą sieci radialnych Paweł Rokoszny Emil Hornung Michał Ziober Tomasz Bilski.

UWARUNKOWANIA SPOŁECZNE. zasób wiedzy i umiejętności, zdobytych w procesie kształcenia i praktyki zawodowej, a także zdrowia i energii witalnej. Stanowi.

formalnie: Budowa i zasada funkcjonowania sztucznych sieci neuronowych

Test Doubles Adam Gabryś , v1.1,

Adam Gabryś , v1.1,

Testy nieparametryczne

Eco Data Miner System oceny jakości wyników danych pomiarowych z sieci monitorującej stan atmosfery przy wykorzystaniu metod ilościowych Skrótowy opis.

Systemy Wizyjne i Głosowe

Techniki eksploracji danych

Elementy Rachunku Prawdopodobieństwa i Statystyki

Autor: Joanna Barańska Promotor: dr inż. Paweł Figat Konsultant:

Artur Ulatowski Implementacja algorytmu k – najbliższych sąsiadów jako serwis internetowy Promotor: Dr hab. prof. WWSI Michał Grabowski.

Planowanie badań i analiza wyników

w ekonomii, finansach i towaroznawstwie

VII EKSPLORACJA DANYCH

IV EKSPLORACJA DANYCH Zadania eksploracji danych: klasyfikacja

Ekonometryczne modele nieliniowe

SZTUCZNA INTELIGENCJA

SZTUCZNA INTELIGENCJA

Statystyczna analiza danych w praktyce

Statystyczna analiza danych

Statystyczna analiza danych

Monte Carlo, bootstrap, jacknife. 2 Literatura Bruce Hansen (2012 +) Econometrics, ze strony internetowej :

Weryfikacja hipotez statystycznych „Człowiek – najlepsza inwestycja”

Parametry rozkładów Metodologia badań w naukach behawioralnych II.

Z ŁOŻONE SYSTEMY KLASYFIKUJĄCE DLA DANYCH Z NIEZRÓWNOWAŻONYMI LICZEBNIE KLASAMI DECYZYJNYMI Autor: inż. Tomasz Maciejewski Promotor: dr hab. inż. Jerzy.

Model Poissona w ujęciu bayesowskim

Statystyka matematyczna

Regresja wieloraka – bada wpływ wielu zmiennych objaśniających (niezależnych) na jedną zmienną objaśnianą (zależą)

Metody Eksploracji Danych

Funkcja reakcji na impuls w nieliniowych modelach VAR

Indukcja reguł Inżynieria wiedzy Krzysztof Regulski, WIMiIP, KISiM,

Programowanie sieciowe Laboratorium 3

Monte Carlo, bootstrap, jacknife

Inteligentne oprogramowanie z wykorzystaniem SQL Server Data Mining

Programowanie sieciowe Laboratorium 3

Zapis prezentacji:

Promotor: dr inż. Maciej Grzenda Jakub Wojtczak Analiza wpływu wykorzystania metod uzupełniania danych na realizację zadania klasyfikacji Promotor: dr inż. Maciej Grzenda

Problem niekompletnych danych Jakub Wojtczak Problem niekompletnych danych ID Imię i Nazwisko Płeć Województwo Branża Wiek Zarobki 1 Jan Kowalski M lubuskie IT 27 3500 2 Adam Nowak śląskie Oświata 49 ???? 3 Agnieszka Witkowska K mazowieckie 46 10000 4 Dariusz Mróz łódzkie 33 5 Aleksandra Jońska 39 8000 Brak odpowiedzi na część pytań w ankietach, Błędne działanie części urządzeń pomiarowych, Ewolucja modelu danych (dodanie nowych atrybutów w trakcie użytkowania bazy danych). Tab. Przykładowe dane klientów firmy

Traktowanie niekompletnych danych Jakub Wojtczak Traktowanie niekompletnych danych Usunięcie niekompletnych danych Pozyskanie i wykorzystanie informacji o parametrach rozkładu danych Próba wstawienia brakujących danych Ad 1. Całkowite usunięcie wszystkich niekompletnych rekordów Badanie stopnia niekompletności oraz istotności w kontekście dalszej analizy danych Przede wszystkim usunięcie całych rekordów/atrybutów ze zbioru danych prowadzi za sobą usunięcie wielu istniejących danych z tychże rekordów/atrybutów. Poza tym usunięcie niekompletnych rekordów może wpłynąć na rozkład danych. Ad 2. Znajomość rozkładu danych EM – estymujemy parametry rozkładu Ad 3. Ważnym założeniem jest korzystanie jedynie z informacji, jakie zawiera sam zbiór danych. Zakładany jest brak jakichkolwiek informacji pochodzących spoza zbioru danych (np. informacji o charakterze rozkładu).

Wstawianie niekompletnych wartości[2] Jakub Wojtczak Wstawianie niekompletnych wartości[2] Podmiana niekompletnych rekordów Wstawienie średniej/mody/mediany Hot deck (oraz cold deck) Modele predykcyjne Non-invasive imputation Metoda oparta o algorytm k-NN

Problemy uzupełniania niekompletnych zbiorów Jakub Wojtczak Problemy uzupełniania niekompletnych zbiorów Wiele niepełnych atrybutów Wiele metod uzupełniania – dobór najbardziej odpowiedniej Parametryzacja metod Atrybuty ilościowe i jakościowe Definicja poprawności uzupełnienia

Automatyczny dobór metod wstawiania Jakub Wojtczak Automatyczny dobór metod wstawiania Dany jest zbiór metod uzupełniania danych Dany jest zbiór niepełnych atrybutów (w obrębie danego zbioru danych) Dopasowanie odpowiedniej metody dla każdego z atrybutów Algorytm genetyczny

Algorytm genetyczny – reprezentacja problemu Jakub Wojtczak Algorytm genetyczny – reprezentacja problemu Metoda nr 2 , Metoda nr 1 , Metoda nr 2 Chromosom – wektor metod ID Imię i Nazwisko Płeć Województwo Branża Wiek Zarobki 1 Jan Kowalski M Lubuskie IT 27 3500 2 Adam Nowak Śląskie Oświata 49 ???? 3 Agnieszka Witkowska K Mazowieckie 46 10000 4 Dariusz Mróz Łódzkie 33 5 Aleksandra Jońska 39 8000 Brak odpowiedzi na część pytań w ankietach, Błędne działanie części urządzeń pomiarowych, Ewolucja modelu danych (dodanie nowych atrybutów w trakcie użytkowania bazy danych). Tab. Przykładowe dane klientów firmy

Miara jakości uzupełnienia danych Jakub Wojtczak Miara jakości uzupełnienia danych Niepotrzebne dokładne odtworzenie Niepotrzebna próba odtworzenia szumu Nadrzędny cel – prawidłowe rozpoznanie litery K Skuteczność klasyfikacji miarą jakości uzupełnienia[3] Rys. Zaszumiona próbka wraz z brakującym fragmentem. Źródło: [1]

Jakub Wojtczak Hipoteza Optymalny dobór metod wstawiania dla poszczególnych atrybutów zbioru danych zależy od specyfiki zastosowanego (w celu mierzenia jakości wstawiania) modelu predykcyjnego.

Testy Metody uzupełniania danych: Testowe zbiory danych ([2]): Jakub Wojtczak Testy Metody uzupełniania danych: proste(losowy, mediana, moda, średnia), non-invasive imputation, kNN (wersje: moda, mediana, średnia), oparte o SOM (wersje: moda, mediana, średnia). Testowe zbiory danych ([2]): Iris (w wersjach Iris25, Iris50), Hepatitis (w wersjach Hepatitis, Hepatitis25, Hepatitis50), Votes (Votes, Votes50),

Jakub Wojtczak Testy Klasyfikatory: SVM, Perceptron wielowarstwowy (MLP), Drzewo decyzyjne. Pomiar jakości uzupełnienia – skuteczność klasyfikacji, wielokrotna walidacja krzyżowa.

Wyniki – porównanie zwycięskich chromosomów Jakub Wojtczak Wyniki – porównanie zwycięskich chromosomów Zbiór danych Algorytm klasyfikacji Skuteczność klasyfikacji Zwycięski chromosom Iris25 C4.5 0,9333 [ NII (0.48699); NII (0.14209); KNN-median (5); KNN-median (1); ] MLP 0,9187 [ SOM-mean (2); NII (0.058865); NII (0.23576); Mean; ] SVM 0,9233 [ SOM-mean (2); NII (0.4906); KNN-mean (3); KNN-median (6); ] Iris50 0,8540 [ NII (0.0060995); NII (0.097717); SOM-mean (2); KNN-mean (4); ] 0,8820 [ NII (0.42302); KNN-mean (8); KNN-mean (6); KNN-mean (7); ] 0,8460 [ SOM-mean (8); KNN-median (8); NII (0.0344); KNN-mean (3); ]

Wyniki – porównanie zwycięskich chromosomów Jakub Wojtczak Wyniki – porównanie zwycięskich chromosomów Zbiór danych Algorytm klasyfikacji Skuteczność klasyfikacji Zwycięski chromosom Hepatitis25 C4.5 0,8239 [ KNN-mode (1); NII (0.15992); KNN-mode (7); NII (0.41428); NII (0.41984); KNN-mode (4); Mode; Mode; KNN-mode (9); Mode; KNN-mode (2); Mode; NII (0.053253); Mean; KNN-median (5); SOM-mode (8); KNN-median (6); KNN-median (7); Mode; ] Hepatitis25 MLP 0,8316 [ KNN-mode (9); NII (0.2811); SOM-mode (2); NII (0.42144); KNN-mode (9); NII (0.21948); KNN-mode (4); NII (0.2927); Mode; SOM-mode (9); Mode; Mode; SOM-mode (3); KNN-mean (10); Mode; SOM-mode (10); KNN-mean (5); KNN-mean (7); NII (0.2302); ] SVM 0,8465 [ KNN-mode (8); KNN-mode (2); NII (0.27833); NII (0.5); SOM-mode (6); KNN-mode (10); SOM-mode (10); KNN-mode (10); KNN-mode (10); NII (0.27433); SOM-mode (9); Mode; Mode; NII (0.29241); KNN-mean (5); Median; KNN-mean (10); Median; KNN-mode (10); ] Hepatitis50 0,8452 [ KNN-mode (5); KNN-mode (6); KNN-mode (10); SOM-mode (10); KNN-mode (4); NII (0.062357); KNN-mode (9); NII (0.47854); NII (0.14424); NII (0.19693); Mode; KNN-mode (7); Mode; Median; SOM-mean (4); Median; KNN-mean (10); NII (0.072263); NII (0.49028); ] 0,8323 [ KNN-mean (8); KNN-mode (2); KNN-mode (7); SOM-mode (2); NII (0.36131); NII (0.15143); NII (0.26237); KNN-mode (5); SOM-mode (8); Mode; KNN-mode (5); SOM-mode (9); Mode; KNN-median (8); KNN-mode (10); SOM-mean (3); Mean; SOM-mean (7); KNN-mode (6); ] 0,8329 [ SOM-median (2); SOM-mode (9); NII (0.33879); NII (0.29086); SOM-mode (4); SOM-mode (10); KNN-mode (6); SOM-mode (8); SOM-mode (6); NII (0.10713); SOM-mode (7); SOM-mode (10); KNN-mode (8); KNN-median (2); KNN-median (8); SOM-mean (3); SOM-mean (10); KNN-mode (4); NII (0.20763); ]

Wyniki – porównanie z mechanizmem zailmplementowanym w bibliotece WEKA Jakub Wojtczak Wyniki – porównanie z mechanizmem zailmplementowanym w bibliotece WEKA Zbiór danych Klasyfikator Algorytm genetyczny Wbudowane mechanizmy klasyfikatorów WEKA Iris25 C4.5 0,9333 0,9252 MLP 0,9187 0,8701 SVM 0,9233 0,8689 Iris50 0,8540 0,8096 0,8820 0,7900 0,8460 0,7805

Wyniki – porównanie z mechanizmem zailmplementowanym w bibliotece WEKA Jakub Wojtczak Wyniki – porównanie z mechanizmem zailmplementowanym w bibliotece WEKA Zbiór danych Klasyfikator Algorytm genetyczny Wbudowane mechanizmy klasyfikatorów WEKA Hepatitis25 C4.5 0,8239 0,8258 MLP 0,8316 0,7928 SVM 0,8465 0,8506 Hepatitis50 0,8452 0,7885 0,8323 0,7399 0,8329 0,8254

Wyniki – porównanie z mechanizmem zailmplementowanym w bibliotece WEKA Jakub Wojtczak Wyniki – porównanie z mechanizmem zailmplementowanym w bibliotece WEKA Zbiór danych Klasyfikator Algorytm genetyczny Wbudowane mechanizmy klasyfikatorów WEKA Votes C4.5 0,9690 0,9656 MLP 0,9579 0,9455 SVM 0,9676 0,9595 Votes50 0,8885 0,8034 0,8832 0,8711 0,9143 0,9035

Podsumowanie Zaimplementowany algorytm osiąga satysfakcjonujące wyniki Jakub Wojtczak Podsumowanie Zaimplementowany algorytm osiąga satysfakcjonujące wyniki Wyniki przeprowadzonych testów potwierdzają prawdziwość hipotezy Dalsze badania: usuwanie i ponowne wstawianie zaszumionych danych

Jakub Wojtczak Bibliografia P. Zawistowski, M.Grzenda, Handling Incomplete Data Using Evolution of Imputation Methods, 2009. S. Parsons, „Current approaches to handling imperfect information in data and knowledge bases,” IEEE Transactions on Knowledge and Data Engineering, nr 8(3), 1996. E. Acuña i C. Rodriguez, „The treatment of missing values and its effect in the classifier accuracy,” w Classification, Clustering and Data Mining Applications, Heidelberg, 2004.