Pobieranie prezentacji. Proszę czekać

Pobieranie prezentacji. Proszę czekać

Promotor: dr inż. Maciej Grzenda Jakub Wojtczak. ID Imię i NazwiskoPłećWojewództwoBranżaWiekZarobki 1Jan KowalskiMlubuskieIT273500 2Adam NowakMśląskieOświata49????

Podobne prezentacje


Prezentacja na temat: "Promotor: dr inż. Maciej Grzenda Jakub Wojtczak. ID Imię i NazwiskoPłećWojewództwoBranżaWiekZarobki 1Jan KowalskiMlubuskieIT273500 2Adam NowakMśląskieOświata49????"— Zapis prezentacji:

1 Promotor: dr inż. Maciej Grzenda Jakub Wojtczak

2 ID Imię i NazwiskoPłećWojewództwoBranżaWiekZarobki 1Jan KowalskiMlubuskieIT Adam NowakMśląskieOświata49???? 3 Agnieszka WitkowskaKmazowieckieIT Dariusz Mróz????łódzkieOświata Aleksandra JońskaKmazowieckie???? Jakub Wojtczak Tab. Przykładowe dane klientów firmy

3 Usunięcie niekompletnych danych Pozyskanie i wykorzystanie informacji o parametrach rozkładu danych Próba wstawienia brakujących danych Jakub Wojtczak

4 Podmiana niekompletnych rekordów Wstawienie średniej/mody/mediany Hot deck (oraz cold deck) Modele predykcyjne Non-invasive imputation Metoda oparta o algorytm k-NN Jakub Wojtczak

5 Wiele niepełnych atrybutów Wiele metod uzupełniania – dobór najbardziej odpowiedniej Parametryzacja metod Atrybuty ilościowe i jakościowe Definicja poprawności uzupełnienia Jakub Wojtczak

6 Dany jest zbiór metod uzupełniania danych Dany jest zbiór niepełnych atrybutów (w obrębie danego zbioru danych) Dopasowanie odpowiedniej metody dla każdego z atrybutów Algorytm genetyczny Jakub Wojtczak

7 ID Imię i NazwiskoPłećWojewództwoBranżaWiekZarobki 1Jan KowalskiMLubuskieIT Adam NowakMŚląskieOświata49???? 3 Agnieszka WitkowskaKMazowieckieIT Dariusz Mróz????ŁódzkieOświata Aleksandra JońskaKMazowieckie???? Jakub Wojtczak Tab. Przykładowe dane klientów firmy Metoda nr 2,Metoda nr 2Metoda nr 1, Chromosom – wektor metod

8 Jakub Wojtczak Rys. Zaszumiona próbka wraz z brakującym fragmentem. Źródło: [1] Niepotrzebne dokładne odtworzenie Niepotrzebna próba odtworzenia szumu Nadrzędny cel – prawidłowe rozpoznanie litery K Skuteczność klasyfikacji miarą jakości uzupełnienia [3]

9 Jakub Wojtczak Optymalny dobór metod wstawiania dla poszczególnych atrybutów zbioru danych zależy od specyfiki zastosowanego (w celu mierzenia jakości wstawiania) modelu predykcyjnego.

10 Metody uzupełniania danych: proste(losowy, mediana, moda, średnia), non-invasive imputation, kNN (wersje: moda, mediana, średnia), oparte o SOM (wersje: moda, mediana, średnia). Testowe zbiory danych ([2]): Iris (w wersjach Iris25, Iris50), Hepatitis (w wersjach Hepatitis, Hepatitis25, Hepatitis50), Votes (Votes, Votes50), Jakub Wojtczak

11 Klasyfikatory: SVM, Perceptron wielowarstwowy (MLP), Drzewo decyzyjne. Pomiar jakości uzupełnienia – skuteczność klasyfikacji, wielokrotna walidacja krzyżowa. Jakub Wojtczak

12 Zbiór danych Algorytm klasyfikacji Skuteczność klasyfikacji Zwycięski chromosom Iris25C4.50,9333[ NII ( ); NII ( ); KNN-median (5); KNN-median (1); ] Iris25MLP0,9187[ SOM-mean (2); NII ( ); NII ( ); Mean; ] Iris25SVM0,9233[ SOM-mean (2); NII (0.4906); KNN-mean (3); KNN-median (6); ] Iris50C4.50,8540[ NII ( ); NII ( ); SOM-mean (2); KNN-mean (4); ] Iris50MLP0,8820[ NII ( ); KNN-mean (8); KNN-mean (6); KNN-mean (7); ] Iris50SVM0,8460[ SOM-mean (8); KNN-median (8); NII (0.0344); KNN-mean (3); ] Jakub Wojtczak

13 Zbiór danych Algorytm klasyfikacji Skuteczność klasyfikacji Zwycięski chromosom Hepatitis25 C4.50,8239 [ KNN-mode (1); NII ( ); KNN-mode (7); NII ( ); NII ( ); KNN-mode (4); Mode; Mode; KNN-mode (9); Mode; KNN-mode (2); Mode; NII ( ); Mean; KNN-median (5); SOM- mode (8); KNN-median (6); KNN-median (7); Mode; ] Hepatitis25MLP0,8316 [ KNN-mode (9); NII (0.2811); SOM-mode (2); NII ( ); KNN-mode (9); NII ( ); KNN-mode (4); NII (0.2927); Mode; SOM-mode (9); Mode; Mode; SOM-mode (3); KNN-mean (10); Mode; SOM- mode (10); KNN-mean (5); KNN-mean (7); NII (0.2302); ] Hepatitis25SVM0,8465 [ KNN-mode (8); KNN-mode (2); NII ( ); NII (0.5); SOM-mode (6); KNN-mode (10); SOM-mode (10); KNN-mode (10); KNN-mode (10); NII ( ); SOM-mode (9); Mode; Mode; NII ( ); KNN- mean (5); Median; KNN-mean (10); Median; KNN-mode (10); ] Hepatitis50C4.50,8452 [ KNN-mode (5); KNN-mode (6); KNN-mode (10); SOM-mode (10); KNN-mode (4); NII ( ); KNN- mode (9); NII ( ); NII ( ); NII ( ); Mode; KNN-mode (7); Mode; Median; SOM-mean (4); Median; KNN-mean (10); NII ( ); NII ( ); ] Hepatitis50MLP0,8323 [ KNN-mean (8); KNN-mode (2); KNN-mode (7); SOM-mode (2); NII ( ); NII ( ); NII ( ); KNN-mode (5); SOM-mode (8); Mode; KNN-mode (5); SOM-mode (9); Mode; KNN-median (8); KNN-mode (10); SOM-mean (3); Mean; SOM-mean (7); KNN-mode (6); ] Hepatitis50SVM0,8329[ SOM-median (2); SOM-mode (9); NII ( ); NII ( ); SOM-mode (4); SOM-mode (10); KNN- mode (6); SOM-mode (8); SOM-mode (6); NII ( ); SOM-mode (7); SOM-mode (10); KNN-mode (8); KNN-median (2); KNN-median (8); SOM-mean (3); SOM-mean (10); KNN-mode (4); NII ( ); ] Jakub Wojtczak

14 Zbiór danychKlasyfikatorAlgorytm genetycznyWbudowane mechanizmy klasyfikatorów WEKA Iris25C4.50,93330,9252 Iris25MLP0,91870,8701 Iris25SVM0,92330,8689 Iris50C4.50,85400,8096 Iris50MLP0,88200,7900 Iris50SVM0,84600,7805 Jakub Wojtczak

15 Zbiór danychKlasyfikatorAlgorytm genetycznyWbudowane mechanizmy klasyfikatorów WEKA Hepatitis25C4.50,82390,8258 Hepatitis25MLP0,83160,7928 Hepatitis25SVM0,84650,8506 Hepatitis50C4.50,84520,7885 Hepatitis50MLP0,83230,7399 Hepatitis50SVM0,83290,8254 Jakub Wojtczak

16 Zbiór danychKlasyfikatorAlgorytm genetyczny Wbudowane mechanizmy klasyfikatorów WEKA VotesC4.50,96900,9656 VotesMLP0,95790,9455 VotesSVM0,96760,9595 Votes50C4.50,88850,8034 Votes50MLP0,88320,8711 Votes50SVM0,91430,9035 Jakub Wojtczak

17 1. Zaimplementowany algorytm osiąga satysfakcjonujące wyniki 2. Wyniki przeprowadzonych testów potwierdzają prawdziwość hipotezy 3. Dalsze badania: usuwanie i ponowne wstawianie zaszumionych danych Jakub Wojtczak

18 1. P. Zawistowski, M.Grzenda, Handling Incomplete Data Using Evolution of Imputation Methods, S. Parsons, Current approaches to handling imperfect information in data and knowledge bases, IEEE Transactions on Knowledge and Data Engineering, nr 8(3), E. Acuña i C. Rodriguez, The treatment of missing values and its effect in the classifier accuracy, w Classification, Clustering and Data Mining Applications, Heidelberg, Jakub Wojtczak


Pobierz ppt "Promotor: dr inż. Maciej Grzenda Jakub Wojtczak. ID Imię i NazwiskoPłećWojewództwoBranżaWiekZarobki 1Jan KowalskiMlubuskieIT273500 2Adam NowakMśląskieOświata49????"

Podobne prezentacje


Reklamy Google