Additive Models, Trees, and Related Methods „The Element of Statistical Learning” Chapter 9
Plan prezentacji Uogólnione modele addytywne Drzewa CART HME (Hierarchical mixtures of experts) PRIM (The patient rule introduction method) MARS - Adaptacyjna regresja splajnowa
Uogólnione modele addytywne
Uogólnione modele addytywne c.d. Uogólniony model addytywny Addytywny model regresji logistycznej W ogólności
Dopasowanie modeli addytywnych Model addytywny Kryterium
Dopasowanie modeli addytywnych c.d. Założenie Metoda backfitting - dopasowanie Regresja wielomianowa, metody jądrowe, Splajny parametryczne Bardziej skomplikowane metody np. periodic smoother for seasonal effects
Addytywna regresja logistyczna definiujemy
Addytywna regresja logistyczna Iteracyjnie Konstruujemy pomocniczą zmienną Konstruujemy wagi backfitting otrzymujemy
Modele addytywne bardziej elastyczne niż modele liniowe zachowując interpretowalność prostota backfitting ograniczenia w przypadku dużych zbiorów wejściowych
Drzewa Drzewa regresyjne i decyzyjne CART Podstawowe problemy Hierarchical mixtures of experts
CART
CART c.d. Formalny zapis Kryterium Estymator Jak wybierać zmienne do podziału? Jak wybierać punkty podziału?
Budowa drzewa regresyjnego Rozbudowa drzewa Wybór zmiennej i punktu podziału (greedy algorithm): 2. Przycinanie drzewa (cost-comlexity pruning)
Drzewa klasyfikacyjne Miary jakości podziału Funkcja entropii gdzie Wskaźnik zróżnicowania Giniego Błąd niepoprawnej klasyfikacji
Miary jakości podziału Tworzenie drzewa - entropia i wskaźnik zróżnicowania Giniego Cost-complexity pruning – błąd złej klasyfikacji
Drzewa Macierz strat Niekompletne dane wejściowe Podział na kilka obszarów Niestabilność drzew Brak gładkości Trudność w uchwyceniu addytywnej struktury
PRIM- Patient Rule Induction Method podział na „pudełka”(wysoka wartość średnia wyjść) bump hunting brak opisu przy pomocy drzewa binarnego (trudniejsza interpretacja)
PRIM
PRIM
PRIM Pell off (minimalna liczba danych) Pasting Cross-validation (wybór pudełka) Wyłączenie danych znajdujących się w wybranym pudełku z dalszych rozważań Przewaga nad metodą CART
HME Hierarchical Mixtures of Experts Jest metoda oparta na drzewach Podziały dokonywane na podstawie uzyskanych prawdopodobieństw. Końcowe wierzchołki – eksperci wierzchołki wewnętrzne - gating networks
HME
HME Pierwsza „warstwa” gating networks Kolejne „warstwy” gating networks W każdym ekspercie otrzymujemy model
HME Całkowite prawdopodobieństwo gdzie Estymacja parametrów
MARS- Wielowymiarowa adaptacyjna regresja splajnowa
MARS Zbiór funkcji bazowych Model gdzie jest funkcją ze zbioru C, lub iloczynem dwóch lub więcej takich funkcji
MARS Rozpoczynamy mając w modelu tylko funkcję stałą Wybieramy składnik powodujący największy spadek w błędzie uczącym i dodajemy do modelu M proces jest kontynuowany do czasu, gdy model M zawiera pewną maksymalną liczbę członów następnie rozpoczynamy procedurę usuwania (residual squared error )
MARS
MARS
Niekompletne dane Ustalenie losowości MAR-missing at random MCAR-missing completely at random
Niekompletne dane Metody postępowania: Odrzucenie obserwacji, które mają brakujące wartości Poleganie na algorytmie uczącym zajmującym się brakującymi danymi na etapie uczenia Uzupełnianie wszystkich brakujących danych przed rozpoczęciem
Dziękuję za uwagę