Analiza dyskryminacji

Slides:



Advertisements
Podobne prezentacje
Modele oparte o dane przekrojowo-czasowe
Advertisements

Rozwiązywanie równań różniczkowych metodą Rungego - Kutty
Zmienne losowe i ich rozkłady
Inteligencja Obliczeniowa Metody probabilistyczne.
Wykład 28 Włodzisław Duch Uniwersytet Mikołaja Kopernika
Badania operacyjne. Wykład 2
Zakład Mechaniki Teoretycznej
Elementy Modelowania Matematycznego
Programowanie liniowe całkowitoliczbowe
Model ciągły wyceny opcji Blacka – Scholesa - Mertona
Statystyczne parametry akcji
Teoria sprężystości i plastyczności
Metody ekonometryczne
Statystyka w doświadczalnictwie
Ulepszenia metody Eigenfaces
Ekonometria wykladowca: dr Michał Karpuk
Zofia Hanusz i Joanna Tarasińska Uniwersytet Przyrodniczy w Lublinie
Wykład 3 Rozkład próbkowy dla średniej z rozkładu normalnego
Wykład 4 Przedziały ufności
Klasyfikacja Obcinanie drzewa Naiwny klasyfikator Bayes’a kNN
Program przedmiotu “Metody statystyczne w chemii”
Modele (hipotezy) zagnieżdżone
Linear Methods of Classification
Cluster Analysis and Self-Organizing Maps Analiza skupień i metody SOM
Additive Models, Trees, and Related Methods
Analiza wariancji ANOVA efekty główne
Metody Symulacyjne w Telekomunikacji (MEST) Wykład 6/7: Analiza statystyczna wyników symulacyjnych  Dr inż. Halina Tarasiuk
Wielowymiarowa analiza danych oparta na modelach gradacyjnych
Rozpoznawanie twarzy Wprowadzenie Algorytmy PCA ICA
Elementy Rachunku Prawdopodobieństwa i Statystyki
Testowanie hipotez statystycznych
dr hab. Ryszard Walkowiak prof. nadzw.
i jak odczytywać prognozę?
Jak mierzyć i od czego zależy?
Ekonometria. Co wynika z podejścia stochastycznego?
Analiza wariancji jednoczynnikowa.
Elementy Rachunku Prawdopodobieństwa i Statystyki
Prognozowanie z wykorzystaniem modeli ekonometrycznych
Modelowanie ekonometryczne
Ekonometria Analiza dyskryminacyjna
Elementy Rachunku Prawdopodobieństwa i Statystyki
Planowanie badań i analiza wyników
Testy statystycznej istotności
VI EKSPLORACJA DANYCH Zadania eksploracji danych: klasyfikacja
Analiza matematyczna i algebra liniowa
SYSTEMY EKSPERTOWE I SZTUCZNA INTELIGENCJA
Regresja wieloraka.
Seminarium licencjackie Beata Kapuścińska
Analiza wariancji ANOVA efekty główne. Analiza wariancji ANOVA ANOVA: ANalysis Of VAriance Nazwa: wywodzi się z faktu, że w celu testowania statystycznej.
Metoda badań eksperymentalnych i quasi-eksperymentalnych
Ekonometryczne modele nieliniowe
Ekonometryczne modele nieliniowe
Ekonometryczne modele nieliniowe
Ekonometria stosowana
Wykład 5 Przedziały ufności
Program przedmiotu “Opracowywanie danych w chemii” 1.Wprowadzenie: przegląd rodzajów danych oraz metod ich opracowywania. 2.Podstawowe pojęcia rachunku.
Model ciągły wyceny opcji Blacka – Scholesa - Mertona
Podstawowe pojęcia i terminy stosowane w statystyce
Statystyczne parametry akcji Średnie Miary rozproszenia Miary współzależności.
Model ekonometryczny Jacek Szanduła.
Treść dzisiejszego wykładu l Weryfikacja statystyczna modelu ekonometrycznego –błędy szacunku parametrów, –istotność zmiennych objaśniających, –autokorelacja,
Nadzór korporacyjny 1. WSTĘP.
Jednorównaniowy model regresji liniowej
Własności statystyczne regresji liniowej
MNK – podejście algebraiczne
Dr Dorota Rozmus Katedra Analiz Gospodarczych i Finansowych
Własności asymptotyczne ciągów zmiennych losowych
MIARY STATYSTYCZNE Warunki egzaminu.
Analiza kanoniczna - stanowi uogólnienie liniowej regresji wielorakiej na dwa zbiory zmiennych tzn. dla zmiennych zależnych i niezależnych. Pozwala badać.
Korelacja i regresja liniowa
Zapis prezentacji:

Analiza dyskryminacji

Analiza dyskryminacji Zbiór metod mających na celu jak najlepsze (w zdefiniowanym sensie) opisanie różnic pomiędzy klasami (populacjami). Zagadnienia analizy dyskryminacyjnej obejmują m.in.: Klasyfikację pod nadzorem np. chaid Analizę skupień

Linear Discriminant Analysis (LDA) Metoda zaproponowana przez R.A. Fischera w 1936 r., rozwinięta przez R.C. Rao w 1948 r. W wersji oryginalnej: Założenie, że X jest macierzą obserwacji z p-wymiarowej przestrzeni euklidesowej (faktyczne pole zastosowań znacznie szersze); Zmienna objaśniana: klasa przynależności obserwacji (jedna z dwóch – bo fisher założył że mamy tylko 2 ale może być więcej); Celem reguła decyzyjna oparta na funkcji liniowej.

LDA Fischera (przypadek dwóch klas) Zadanie Fishera sprowadza się do znalezienia takiego kierunku a w przestrzeni X, który najlepiej rozdziela dwie klasy. Konstrukcja LDA opiera się na informacji o wskaźnikach położenia i rozproszenia dla obserwacji z dwóch klas: Estymatora wartości oczekiwanej E(X|g=i); - położenia Estymatora macierzy kowariancji Cov(X|g=i) - rozproszenia.

LDA Fischera (przypadek dwóch klas) Estymator wartości oczekiwanej X 𝑥 𝑘 = 1 𝑛 𝑘 𝑖=1 𝑛 𝑘 𝑥 𝑘𝑖 , k = 1, 2. Estymator macierzy kowariancji dla każdej klasy 𝑊= 1 𝑛−2 𝑘=1 2 𝑛 𝑘 −1 𝑆 𝑘 = 1 𝑛−2 𝑘=1 2 𝑖=1 𝑛 𝑘 𝑥 𝑘𝑖 − 𝑥 𝑘 𝑥 𝑘𝑖 − 𝑥 𝑘 𝑇 Estymatory są nieobciążone

LDA Fischera (przypadek dwóch klas) Ponieważ w ogólności mamy: 𝑉𝑎𝑟 𝑎 𝑇 𝑋 = 𝑎 𝑇 𝐶𝑜𝑣 𝑥 𝑎 Próbkową miarą zmienności wewnątrzgrupowej wzdłuż kierunku a jest: 𝑎 𝑇 𝑊𝑎

LDA Fischera (przypadek dwóch klas)   - jeż Kwadrat odległości miedzy dwoma średnimi Jeżeli nierówność przeciwna zachodzi, to klasyfikujemy do drugiej klasy

LDA Fischera (przypadek dwóch klas) Rozwiązanie: 𝑎 ∗ ∝ 𝑊 −1 𝑥 2 − 𝑥 1 a* - pierwszy wektor kanoniczny a*Tx – pierwsza zmienna kanoniczna odpowiadająca wektorowi X. W dwuklasowym przypadku mamy tylko jeden wektor kanoniczny

LDA Fischera (przypadek dwóch klas) A z falką to to samo co a* w prezentacji (po z rzutowaniu na tę prostą jednym cięciem dość dobrze dzielimy)

Uogólnienie na przypadek g klas Problem: 𝑎 𝑇 𝐵𝑎 𝑎 𝑇 𝑊𝑎 , gdzie: 𝐵= 1 𝑔−1 𝑘=1 𝑔 𝑛 𝑘 𝑥 𝑘 − 𝑥 𝑥 𝑘 − 𝑥 𝑇 𝑊= 1 𝑛−𝑔 𝑘=1 𝑔 𝑛 𝑘 −1 𝑖=1 𝑛 𝑘 𝑥 𝑘𝑖 − 𝑥 𝑘 𝑥 𝑘𝑖 − 𝑥 𝑘 𝑇 Macierz B – miara wariancji międzygrupowej W – wariancja wewnątrzgrupowa Uwaga: Fisher zakładał, że macierze kowariancji dla każdej populacji jest taka sama

Uogólnienie na przypadek g klas B – macierz wariancji międzygrupowej W – macierz wariancji wewnątrzgrupowej Można pokazać, że: 𝑇= 𝑛−𝑔 𝑊+ 𝑔−1 𝐵 Gdzie: 𝑇= 𝑛−1 𝑆

Uogólnienie na przypadek g klas Rozwiązanie: a* (wektor maksymalizujący wariancję międzygrupową) jest wektorem własnym macierzy W-1B, odpowiadającym największej wartości własnej tej macierzy. W praktyce problem rozwiązuje się poprzez rozwiązanie 𝑔 2 problemów dla dwóch klas. G nad 2 bo porównujemy wszystkie populacje i wybieramy najlepszą!

Uogólnienie na przypadek g klas Na 4 rysunku pierwsza zmienna kanoniczna starcza jako ta na którą rzutujemy w celu rozdzielenia

Uogólnienie na przypadek g klas Związki pomiędzy LDA a analizą kanoniczną. Uchylenie założenia o jednakowych macierzach kowariancji. UWAGA: metoda została opracowana dla zmiennych mierzonych na skali interwałowej (dla których sensowna jest metryka euklidesowa), ale sprawdza się również dla zmiennych o charakterze porządkowym czy nominalnym. Jak uchylimy założenie o jednakowych macierzach kowariancji – dostaniemy wtedy co innego QDA (Q - quadratic), linie rozdzilające będą parabolami

Literatura Fisher R.A., „The Use of Multiple Measurements in Taxonomic Problems”, Annals of Eugenics, 7 (2): 179-188. Rao R.C., „The utilization of multiple measurements in problems of biological classification”, Journal of the Royal Statistical Society, Series B 10 (2): 159–203. Koronacki J., Ćwik J., Statystyczne systemy uczące się, Wydawnictwo Naukowo Techniczne, Warszawa 2005. Hastie T., R.Tibshirani, J.Friedman, The Elements of Statistical Learning. Springer (zwłaszcza rozdz. 4) → poszukać wersji elektronicznej pdf M.Krzyśko, W.Wołyński, T.Górecki,M.Skorzybut: Systemy uczące się. + wcześniejsze prace M.Krzyśko o analizie dyskryminacyjnej McLachlan, G. J. (2004). Discriminant Analysis and Statistical Pattern Recognition. Wiley. Duda, R. O.; Hart, P. E.; Stork, D. H. (2000). Pattern Classification (2nd ed.). Wiley