Mirosław Kordos Lipiec 2015 Lipiec 2015

Slides:



Advertisements
Podobne prezentacje
Plan Czym się zajmiemy: 1.Bilans przepływów międzygałęziowych 2.Model Leontiefa.
Advertisements

Tworzenie odwołania zewnętrznego (łącza) do zakresu komórek w innym skoroszycie Możliwości efektywnego stosowania odwołań zewnętrznych Odwołania zewnętrzne.
Zajęcia 1-3 Układ okresowy pierwiastków. Co to i po co? Pojęcie masy atomowej, masy cząsteczkowej, masy molowej Proste obliczenia stechiometryczne. Wydajność.
Teoria gry organizacyjnej Każdy człowiek wciąż jest uczestnikiem wielu różnych gier. Teoria gier zajmuje się wyborami podejmowanymi przez ludzi w warunkach.
CO TO SĄ PROJEKTY INNOWACYJNE? PROJEKTY INNOWACYJNE WYTYCZNE EFS NIE WSKAZUJĄ ODRĘBNEJ DEFINICJI INNOWACYJNOŚCI.
Mechanika płynów. Prawo Pascala (dla cieczy nieściśliwej) ( ) Blaise Pascal Ciśnienie wywierane na ciecz rozchodzi się jednakowo we wszystkich.
OPERATORZY LOGISTYCZNI 3 PL I 4PL NA TLE RYNKU TSL Prof. zw.dr hab. Włodzimierz Rydzkowski Uniwersytet Gdańsk, Katedra Polityki Transportowej.
Umowy Partnerskie w projektach zbiór najważniejszych składników Uwaga! Poniżej znajdują się jedynie praktyczne wskazówki dotyczące tworzenia umów. Dokładne.
Rozliczanie kosztów działalności pomocniczej
ZASTOSOWANIE FUNKCJI WYKŁADNICZEJ I LOGARYTMICZNEJ DO OPISU RUCHU DRGAJĄCEGO Agnieszka Wlocka Agnieszka Szota.
Projekt Regulaminu Działania Komitetu Monitorującego Regionalny Program Operacyjny Województwa Pomorskiego na lata
Wyk. Karolina Zarzycka I TE. GMO czyli Organizmy Modyfikowane Genetycznie są to rośliny lub zwierzęta, które dzięki modyfikacji w ich genomie - materiale.
EWALUACJA JAKO ISTOTNY ELEMENT PROJEKTÓW SYSTEMOWYCH Sonia Rzeczkowska.
Jak sobie z nim radzić ?.
© Prof. Antoni Kozioł, Wydział Chemiczny Politechniki Wrocławskiej MATEMATYCZNE MODELOWANIE PROCESÓW BIOTECHNOLOGICZNYCH Prezentacja – 4 Matematyczne opracowywanie.
Wyższa Szkoła Informatyki i Zarządzania w Bielsku-Białej Wydział Informatyki Kierunek: Informatyka Specjalność: Systemy Informatyczne PRACA DYPLOMOWA INŻYNIERSKA.
Metody Analizy Danych Doświadczalnych Wykład 9 ”Estymacja parametryczna”
Skuteczności i koszty windykacji polubownej Wyniki badań zrealizowanych w ramach grantu Narodowego Centrum Nauki „Ocena poziomu rzeczywistej.
„Jak zwiększyć bezpieczeństwo uczestników ruchu drogowego?” Co nam dała realizacja projektu?
Raport Electus S.A. Zapotrzebowanie szpitali publicznych na środki finansowe w odniesieniu do zadłużenia sektora ochrony zdrowia Olsztyn, r.
Wieloaspektowa analiza czasowo- kosztowa projektów ze szczególnym uwzględnieniem kryterium jakości rozwiązań projektowych AUTOR: ANNA MARCINKOWSKA PROMOTOR:
Strategia Rozwoju Powiatu Kluczborskiego planowanie strategiczne w JST Małgorzata Ziółkowska tel kom
Optymalna wielkość produkcji przedsiębiorstwa działającego w doskonałej konkurencji (analiza krótkookresowa) Przypomnijmy założenia modelu doskonałej.
Najczęściej popełniane błędy w przygotowywanych wnioskach o dofinasowanie Regionalny Program Operacyjny Województwa Pomorskiego na lata Gdańsk,
Metody sztucznej inteligencji - Technologie rozmyte i neuronowe 2015/2016 Perceptrony proste nieliniowe i wielowarstwowe © Kazimierz Duzinkiewicz, dr hab.
Wykonał: Mgr Inż. Krzysztof Harwacki. Value Mapping for Lean management Sytuacja stanowi mały, prosty przykład zastosowania mapowania strumienia wartości.
Dlaczego wybraliśmy zasilacz?  Chcieliśmy wykonać urządzenia, które będzie pamiątką po naszym pobycie w gimnazjum i będzie użyteczne.  Po zastanowieniu.
O PARADOKSIE BRAESSA Zbigniew Świtalski Paweł Skałecki Wydział Matematyki, Informatyki i Ekonometrii Uniwersytet Zielonogórski Zakopane 2016.
Test analizy wariancji dla wielu średnich – klasyfikacja pojedyncza
Kluczowe elementy skutecznej strategii analizy danych internetowych
Systemy eksperckie i sztuczna inteligencja
T.15 Wybór narzędzi dla reengineeringu (szczegóły).
Wytwarzanie oprogramowania sterowane przypadkami testowymi
System wspomagania decyzji DSS do wyznaczania matematycznego modelu zmiennej nieobserwowalnej dr inż. Tomasz Janiczek.
Symulacja procesu BPMN
WAE Jarosław Arabas Algorytm ewolucyjny
Liczby pierwsze.
„Prawa Ceteris Paribus i socjo-ekonomiczne mechanizmy”
ALGORYTMY I STRUKTURY DANYCH
Wstęp do Informatyki - Wykład 3
Opracowała: Monika Grudzińska - Czerniecka
Optymalizacja programów Open-Source
Przewodnik Udoskonalanie listy wyników w wyszukiwarce naukowej
Materiały pochodzą z Platformy Edukacyjnej Portalu
Bezpieczeństwo dostępu do danych w systemie Windows
Selekcja zmiennych w trybie zaawansowanym -
Własności statystyczne regresji liniowej
Problem Plecakowy (Problem złodzieja okradającego sklep)
NAUKA ADMINISTRACJI mgr Karina Pilarz.
Koszyk danych.
Dobrobyt.
ALGORYTMY I STRUKTURY DANYCH
MATEMATYKAAKYTAMETAM
Proste obliczenia w arkuszu kalkulacyjnym
Damian Urbańczyk Edytory WYSIWYG.
Implementacja rekurencji w języku Haskell
Doskonalenie rachunku pamięciowego u uczniów
REGRESJA WIELORAKA.
Wyrównanie sieci swobodnych
EKONOMETRIA I PROGNOZOWANIE PROCESÓW EKONOMOICZNYCH
Program na dziś Wprowadzenie Logika prezentacji i artykułu
Nasza działalność KLAVO to firma zajmująca się dostarczaniem usług dla instytucji kultury. Chcemy, aby zwiększały one jakość obsługi zwiedzających. Celem.
Inteligentne oprogramowanie z wykorzystaniem SQL Server Data Mining
Łatwa obsługa Prosta instalacja Wieczysta licencja Praca w sieci
Autor: Magdalena Linowiecka
Treści multimedialne - kodowanie, przetwarzanie, prezentacja Odtwarzanie treści multimedialnych Andrzej Majkowski informatyka +
dr Robert Kowalczyk, PWSZ Płock
Sztuczna inteligencja w rozpoznawaniu obrazów
Zapis prezentacji:

Selekcja informacji w eksploracji danych z wykorzystaniem programu RapidMiner Mirosław Kordos Lipiec 2015 Lipiec 2015 Mirosław Kordos i Marcin Blachnik Witam serdecznie. Nazywam się Mirosław Kordos. Chciałem dziś przedstawić zagadnienie selekcji informacji w eksploracji danych z wykorzystaniem programu RapidMiner. Przy przygotowaniu tej prezentacji korzystałem z pomocy mojego kolegi Marcina Blachnika, za co chciałem mu tutaj podziękować. Selekcja informacji w eksploracji danych z wykorzystaniem programu RapidMiner

Selekcja informacji w eksploracji danych: selekcja cech i wektrów (pól i rekordów) Lipiec 2015 Mirosław Kordos i Marcin Blachnik Witam serdecznie. Nazywam się Mirosław Kordos. Chciałem dziś przedstawić zagadnienie selekcji informacji w eksploracji danych z wykorzystaniem programu RapidMiner. Przy przygotowaniu tej prezentacji korzystałem z pomocy mojego kolegi Marcina Blachnika, za co chciałem mu tutaj podziękować. Selekcja informacji w eksploracji danych z wykorzystaniem programu RapidMiner

Selekcja informacji w eksploracji danych: selekcja cech i wektrów (pól i rekordów) Lipiec 2015 Mirosław Kordos i Marcin Blachnik Witam serdecznie. Nazywam się Mirosław Kordos. Chciałem dziś predstawić zagadnienie selekcji informacji w eksploracji danych z wykorzystaniem programu RapidMiner. Przy przygotowaniu tej prezentacji korzystałem z pomocy mojego kolegi Marcina Blachnika, za co chciałem mu tutaj podziękować. Selekcja informacji w eksploracji danych z wykorzystaniem programu RapidMiner

Cel i Idea Prezentacji Końcowy cel Poprawa efektywności procesów technologicznych, biznesowych i innych Sposób Poprawa jakości danych przez selekcję informacji Forma prezentacji poszczególnych etapów Treść naukowa: co, jak, dlaczego i jakie korzyści Treść praktyczna: jak to zrealizować w RapidMinerze Dlaczego w oparciu o RapidMiner? Szeroki zakres możliwości Łatwość używania Integracja z innym oprogramowaniem Darmowa wersja Ponad 35.000 wdrożeń w przemyśle (m. in. w PayPal, Intel, Cisco, Ebay, Volkswagen, LuftHansa, Siemens) Adresaci Programiści, analitycy danych, naukowcy i studenci informatyki Lipiec 2015 Mirosław Kordos i Marcin Blachnik Selekcja informacji w eksploracji danych z wykorzystaniem programu RapidMiner

Plan Prezentacji Wprowadzenie Demonstracja Programu RapidMiner Selekcja cech – Filtry Selekcja cech – Wrappery Selekcja cech – Metody Wbudowane Selekcja wektorów w zagadnieniach klasyfikacji Selekcja wektorów w zagadnieniach regresji Integracja selekcji cech z selekcją wektorów Lipiec 2015 Mirosław Kordos i Marcin Blachnik Selekcja informacji w eksploracji danych z wykorzystaniem programu RapidMiner

Wprowadzenie Lipiec 2015 Mirosław Kordos i Marcin Blachnik The purpose of CNN (Condensed Nearest Neighbor) is to reject these instances, which do not bring any additional information into the classification process. The algorithm starts with only one randomly chosen instance from the original dataset T. And this instance is added to the new dataset P. Then each remaining instance from T is classified with the k-NN algorithm, using the k nearest neighbors from the dataset P. Only if the classification is wrong - the instance is added to P. Selekcja informacji w eksploracji danych z wykorzystaniem programu RapidMiner

Wprowadzenie Cel redukcji szumu: Cele redukcji rozmiaru danych: eliminacja błędnych danych -> poprawa modelu Cele redukcji rozmiaru danych: zmniejszenie rozmiaru danych, a więc i czas obliczeń wybór reprezentatywnych cech i wektorów, umożliwiający łatwą interpretację danych (procesów) poprawa jakości modelu Sposoby redukcji rozmiaru danych i szumu: selekcja cech selekcja wektorów Lipiec 2015 Mirosław Kordos i Marcin Blachnik Wstępne przetwarzanie danych jest najczęściej tym etapem eksploracji danych od którego najbardziej zależy jakość całego systemu. Bowiem jakość możliwych do uzyskania wyników jest ograniczona jakością samych danych i nawet najlepsza metoda nie da dobrych wyników, jeśli dane będą niskiej jakości, czyli będą zawierały dużo błędów pomiarowych, błędów przetwarzania, lub dużą ilość nie istotnych danych. To ostatnie dodatkowo wpływa na czas działania modeli, a czasami powoduje wręcz nie możliwość przeprowadzenia obliczeń ze względu na ograniczenia czasowe i pamięciowe. Istotnym elementem wstępnego przetwarzania danych jest selekcja informacji celem poprawy dokładności przewidywania i redukcji rozmiaru danych.   Redukcję rozmiaru danych przeprowadza się w trzech podstawowych celach: - aby umożliwić ich skuteczne dalsze przetwarzanie, które na pełnych danych może być niewykonalne ze względu na wymagany czas obliczeń. - aby wybrać reprezentatywne dane, umożliwiające łatwą interpretację danych i procesów, które te dane opisują. - nawet jeśli danych nie jest zbyt dużo, ani nie są zaszumiome, ich odpowiednia selekcja może poprawić działanie modelu. Redukcję szumu natomiast przeprowadza się, aby wyeliminować błędne lub zniekształcone dane, które niekorzystnie wpłynęły by na działanie modelu. Istnieją dwa podstawowe sposoby zarówno redukcji rozmiaru danych, jak i redukcji szumu w danych, którym poświęcona jest ta prezentacja: - selekcja cech - selekcja wektorów Selekcja informacji w eksploracji danych z wykorzystaniem programu RapidMiner

Plan Prezentacji Demonstracja Programu RapidMiner Wprowadzenie Selekcja cech – Filtry Selekcja cech – Wrappery Selekcja cech – Metody Wbudowane Selekcja wektorów w zagadnieniach klasyfikacji Selekcja wektorów w zagadnieniach regresji Integracja selekcji cech z selekcją wektorów Lipiec 2015 Mirosław Kordos i Marcin Blachnik Selekcja informacji w eksploracji danych z wykorzystaniem programu RapidMiner

Demonstracja programu RapidMiner Instalacja programu RapidMiner Przykładowy prosty proces Instalacja modułów plug-in Współpraca innych programów z RM Uruchamianie funkcji RM z programu w Javie Możliwości tworzenia własnych modułów w Javie Lipiec 2015 Mirosław Kordos i Marcin Blachnik Selekcja informacji w eksploracji danych z wykorzystaniem programu RapidMiner

Inteligentne oprogramowanie z wykorzystaniem SQL Server Data Mining styczeń 2015 Mirosław Kordos Inteligentne oprogramowanie z wykorzystaniem SQL Server Data Mining

Inteligentne oprogramowanie z wykorzystaniem SQL Server Data Mining styczeń 2015 Mirosław Kordos Inteligentne oprogramowanie z wykorzystaniem SQL Server Data Mining

Plan Prezentacji Selekcja cech – Filtry Wprowadzenie Demonstracja Programu RapidMiner Selekcja cech – Filtry Selekcja cech – Wrappery Selekcja cech – Metody Wbudowane Selekcja wektorów w zagadnieniach klasyfikacji Selekcja wektorów w zagadnieniach regresji Integracja selekcji cech z selekcją wektorów Lipiec 2015 Mirosław Kordos i Marcin Blachnik Selekcja informacji w eksploracji danych z wykorzystaniem programu RapidMiner

Selekcja cech – Filtry i Wrappery Filtry dokonują selekcji cech przed właściwym procesem uczenia modelu bez dokładnego uwzględnienia zależności między poszczególnymy cechamy. Szybsze i mniej dokładne. Wrappery dokonują selekcji cech na podstawie wyników uczenia i predykcji modelu z dokładnym uwzględnieniem zależności między poszczególnymi cechami. Czasochłonne ale dokładniejsze. Lipiec 2015 Mirosław Kordos i Marcin Blachnik Selekcja informacji w eksploracji danych z wykorzystaniem programu RapidMiner

Selekcja cech – Filtry i Wrappery Lipiec 2015 Mirosław Kordos i Marcin Blachnik Selekcja informacji w eksploracji danych z wykorzystaniem programu RapidMiner

Selekcja cech – Filtry i Wrappery Lipiec 2015 Mirosław Kordos i Marcin Blachnik Selekcja informacji w eksploracji danych z wykorzystaniem programu RapidMiner

Selekcja cech – Filtry: Korelacja Spearman's rank-order correlation: Lipiec 2015 Mirosław Kordos i Marcin Blachnik Selekcja informacji w eksploracji danych z wykorzystaniem programu RapidMiner

Selekcja cech – Filtry: Chi Square Test Spłacił dom samochód samolot inwestycje inny TAK 60 170 130 90 50 NIE 70 160 Spłacił dom samochód samolot inwestycje inny suma[w] TAK 95 110 100 125 70 500 NIE suma[c] 190 220 200 250 140 1000 E[w,c]= suma[w]*suma[c]/sumaTabela X2=(60-95)2/95+(170-110)2/110+.. = 14.03 Lipiec 2015 Mirosław Kordos i Marcin Blachnik Selekcja informacji w eksploracji danych z wykorzystaniem programu RapidMiner

Selekcja cech – Filtry: Chi Square Test Spłacił dom samochód samolot inwestycje inny TAK 60 170 130 90 50 NIE 70 160 Degree of freedom = (liczba kolumn - 1) x (liczba wierszy - 1) = 4 Lipiec 2015 Mirosław Kordos i Marcin Blachnik X2= 14.03 Selekcja informacji w eksploracji danych z wykorzystaniem programu RapidMiner

Selekcja cech – Filtry: Chi Square Test Spłacił dom samochód samolot inwestycje inny TAK 60 170 130 90 50 NIE 70 160 Degree of freedom = (liczba kolumn - 1) x (liczba wierszy - 1) = 4 Lipiec 2015 Mirosław Kordos i Marcin Blachnik X2= 14.026 Selekcja informacji w eksploracji danych z wykorzystaniem programu RapidMiner

Selekcja cech – Filtry: Information Gain IG = H_before – H_after H = - p(a)*log(p(a)) - p(b)*log(p(b)) wykorzystywane przez drzewa C4.5 Lipiec 2015 Mirosław Kordos i Marcin Blachnik Selekcja informacji w eksploracji danych z wykorzystaniem programu RapidMiner tylko dla zbiorów z binomial i polynomial labels w RM (klasyfikacja)

Selekcja cech – Filtry: PCA Lipiec 2015 Mirosław Kordos i Marcin Blachnik Selekcja informacji w eksploracji danych z wykorzystaniem programu RapidMiner

Selekcja cech – Filtry: PCA Lipiec 2015 Mirosław Kordos i Marcin Blachnik Selekcja informacji w eksploracji danych z wykorzystaniem programu RapidMiner

Selekcja cech – Filtry: PCA Lipiec 2015 Mirosław Kordos i Marcin Blachnik Selekcja informacji w eksploracji danych z wykorzystaniem programu RapidMiner

Selekcja cech – Filtry: PCA wartości własne λ macierzy kowariancji (korelacji) A to n pierwiastków równania charakterystycznego det (A – λI) = 0 I –macierz jednostkowa n x n wektory własne x macierzy A to wektory spełniające równanie Ax= λx Lipiec 2015 Mirosław Kordos i Marcin Blachnik Selekcja informacji w eksploracji danych z wykorzystaniem programu RapidMiner

Plan Prezentacji Selekcja cech – Wrappery Wprowadzenie Demonstracja Programu RapidMiner Selekcja cech – Filtry Selekcja cech – Wrappery Selekcja cech – Metody Wbudowane Selekcja wektorów w zagadnieniach klasyfikacji Selekcja wektorów w zagadnieniach regresji Integracja selekcji cech z selekcją wektorów Lipiec 2015 Mirosław Kordos i Marcin Blachnik Selekcja informacji w eksploracji danych z wykorzystaniem programu RapidMiner

Selekcja cech - Wrappery Ilość możliwych kombinacji F cech wynosi K 𝐾= 𝑛=1 𝐹 𝐹 𝑛 = 𝑛=1 𝐹 𝐹! 𝑛! 𝐹−𝑛 !   F 20 50 100 200 500 1000 K 1.0e6 1.1e15 1.3e30 1.6e60 3.3e150 1.1e301 Lipiec 2015 Mirosław Kordos i Marcin Blachnik Selekcja informacji w eksploracji danych z wykorzystaniem programu RapidMiner

Selekcja cech – Wrappery: Forward Selection P – zbiór wybranych cech T – zbiór wszystkich cech P jest pusty while (dokładność predykcji istotnie rośnie) { foreach (cecha t in T) Sprawdzamy w kroswalidacji dokładność predykcji modelu ze wszystkimi cechami ze zbioru P i cechą t ze zbioru T. } Wybieramy tą cechę t, z którą dokładność jest największa, dodajemy ją do P i usuwamy z T. Lipiec 2015 Mirosław Kordos i Marcin Blachnik Selekcja informacji w eksploracji danych z wykorzystaniem programu RapidMiner

Selekcja cech – Wrappery: Backward Selection P – zbiór wybranych cech T – zbiór wszystkich cech while (dokładność predykcji nie maleje istotnie) { foreach (cecha t in T) Sprawdzamy w kroswalidacji dokładność predykcji modelu na zbiorze T bez cechy t. } Usuwamy z T tą cechę t, bez której dokładność była największa. P = T Lipiec 2015 Mirosław Kordos i Marcin Blachnik Selekcja informacji w eksploracji danych z wykorzystaniem programu RapidMiner

Selekcja cech – Wrappery: Beam Search Lipiec 2015 Mirosław Kordos i Marcin Blachnik Selekcja informacji w eksploracji danych z wykorzystaniem programu RapidMiner

Selekcja cech – Wrappery: Evolutionary F 20 50 100 200 500 1000 K 1.0e6 1.1e15 1.3e30 1.6e60 3.3e150 1.1e301 Ev 4.0e3 2.5e4 1.0e5 4.0e5 2.5e6 1.0e7 Lipiec 2015 Mirosław Kordos i Marcin Blachnik Selekcja informacji w eksploracji danych z wykorzystaniem programu RapidMiner

Plan Prezentacji Selekcja cech – Metody Wbudowane Wprowadzenie Demonstracja Programu RapidMiner Selekcja cech – Filtry Selekcja cech – Wrappery Selekcja cech – Metody Wbudowane Selekcja wektorów w klasyfikacji Selekcja wektorów w zagadnieniach regresji Integracja selekcji cech z selekcją wektorów Lipiec 2015 Mirosław Kordos i Marcin Blachnik Selekcja informacji w eksploracji danych z wykorzystaniem programu RapidMiner

Selekcja Cech – Metody Wbudowane Selekcja cech jest integralną częścią algorytmu predykcyjnego: jednocześnie jest uczony model predykcyjny i wykonywana selekcja cech. Efektywne obliczeniowo, ale mniej dokładne. Dla b. dużych zbiorów tylko filtry. Drzewa decyzyjne: forward selection. Regresja liniowa: można odrzucić te cechy, dla których przyjmnie najmniejsze wagi. Sieć neuronowa: można odrzucić te cechy, dla których suma wag wszystkich neuronów pierwszej warstwy ukrytej będzie najmniejsza - mniejsza dokładność. Człon kary za duży model w funkcji celu, np. przycinanie drzewa decyzyjnego. Lipiec 2015 Mirosław Kordos i Marcin Blachnik Selekcja informacji w eksploracji danych z wykorzystaniem programu RapidMiner

Plan Prezentacji Selekcja wektorów w klasyfikacji Wprowadzenie Demonstracja Programu RapidMiner Selekcja cech – Filtry Selekcja cech – Wrappery Selekcja cech – Metody Wbudowane Selekcja wektorów w klasyfikacji Selekcja wektorów w zagadnieniach regresji Integracja selekcji cech z selekcją wektorów Lipiec 2015 Mirosław Kordos i Marcin Blachnik Selekcja informacji w eksploracji danych z wykorzystaniem programu RapidMiner

Selekcja Wektorów - Klasyfikacja Redukcja rozmiaru zbioru: CNN – Condensed Nearest Neighbor Redukcja szumu: ENN – Editted Nearest Neighbor Pozostałe metody: CA RENN IB2 DROP3 GE RNGE oraz inne Lipiec 2015 Mirosław Kordos i Marcin Blachnik Selekcja informacji w eksploracji danych z wykorzystaniem programu RapidMiner

Selekcja Wektorów - Klasyfikacja Lipiec 2015 Mirosław Kordos i Marcin Blachnik Selekcja informacji w eksploracji danych z wykorzystaniem programu RapidMiner

Selekcja Wektorów - Klasyfikacja Lipiec 2015 Mirosław Kordos i Marcin Blachnik Selekcja informacji w eksploracji danych z wykorzystaniem programu RapidMiner

Selekcja Wektorów – Klasyfikacja, Komitety Lipiec 2015 Mirosław Kordos i Marcin Blachnik Selekcja informacji w eksploracji danych z wykorzystaniem programu RapidMiner

Plan Prezentacji Selekcja wektorów w regresji Wprowadzenie Demonstracja Programu RapidMiner Selekcja cech – Filtry Selekcja cech – Wrappery Selekcja cech – Metody Wbudowane Selekcja wektorów w zagadnieniach klasyfikacji Selekcja wektorów w regresji Integracja selekcji cech z selekcją wektorów Lipiec 2015 Mirosław Kordos i Marcin Blachnik Selekcja informacji w eksploracji danych z wykorzystaniem programu RapidMiner

Selekcja Wektorów - Regresja Met. 1. Dyskretyzacja wyjścia i zamiana na zagadnienie wieloklasowe. Met. 2. Zastąpienie pojęcia „tej samej klasy” progiem odległości. Lipiec 2015 Mirosław Kordos i Marcin Blachnik Selekcja informacji w eksploracji danych z wykorzystaniem programu RapidMiner

Selekcja Wektorów - Regresja Lipiec 2015 Mirosław Kordos i Marcin Blachnik Selekcja informacji w eksploracji danych z wykorzystaniem programu RapidMiner

Selekcja Wektorów - Regresja Lipiec 2015 Mirosław Kordos i Marcin Blachnik Selekcja informacji w eksploracji danych z wykorzystaniem programu RapidMiner

Selekcja Wektorów – Regresja, Komitety Lipiec 2015 Mirosław Kordos i Marcin Blachnik Selekcja informacji w eksploracji danych z wykorzystaniem programu RapidMiner

Plan Prezentacji Integracja selekcji cech z selekcją wektorów Wprowadzenie Demonstracja Programu RapidMiner Selekcja cech – Filtry Selekcja cech – Wrappery Selekcja cech – Metody Wbudowane Selekcja wektorów w zagadnieniach klasyfikacji Selekcja wektorów w zagadnieniach regresji Integracja selekcji cech z selekcją wektorów Lipiec 2015 Mirosław Kordos i Marcin Blachnik Selekcja informacji w eksploracji danych z wykorzystaniem programu RapidMiner

Integracja Selekcji Cech z Selekcją Wektorów Selekcja cech i selekcja wektorów są zagadnieniami wzajemnie powiązanymi ponieważ odrzucenie pewnych cech może zmieniać zbiór wektorów przeznaczony do odrzucenia, jak i odrzucenie pewnych wektorów może zmieniać zbiór cech które należy odrzucić. Na tym etapie prac nie dysponujemy jeszcze poprawnie i efektywnie działającym modułem RapidMinera, więc nie będzie demonstracji do tego rozdziału. Lipiec 2015 Mirosław Kordos i Marcin Blachnik Selekcja informacji w eksploracji danych z wykorzystaniem programu RapidMiner

Integracja Selekcji Cech z Selekcją Wektorów Optymalizacja genetyczna   Bardzo wysoki koszt obliczeniowy. Nawet w najbardziej optymistycznym scenariuszu przyjmując złożoność samego algorytmu ewolucyjnego O(n2) i modelu predykcyjnego O(n) dostajemy łącznie złożoność w najlepszym razie O(n3). Iteracyjnie na przemian coraz mocniejsza selekcję cech i wektorów.   Sieci neuronowe – met. wbudowana Mniejsza dokładność. Selekcja wektorów: poprzez odrzucenie tych, na których nauczona sieć robi największy błąd, a w klasyfikacji także tych, na których robi najmniejszy błąd. Selekcję cech poprzez eliminacje tych cech, a których są najmniejsze wagi w pierwszej warstwie ukrytej.   Lipiec 2015 Mirosław Kordos i Marcin Blachnik Selekcja informacji w eksploracji danych z wykorzystaniem programu RapidMiner

Selekcja informacji w eksploracji danych z wykorzystaniem programu RapidMiner procesy, zbiory danych, literatura i inne materiały wykorzystane w prezentacji: www.kordos.com/pw Mirosław Kordos lipiec 2015 Oprogramowanie użyte w prezentacji: RapidMiner Studio 6.4 and 6.5