Pobieranie prezentacji. Proszę czekać

Pobieranie prezentacji. Proszę czekać

Analiza dyskryminacji

Podobne prezentacje


Prezentacja na temat: "Analiza dyskryminacji"— Zapis prezentacji:

1 Analiza dyskryminacji

2 Analiza dyskryminacji
Zbiór metod mających na celu jak najlepsze (w zdefiniowanym sensie) opisanie różnic pomiędzy klasami (populacjami). Zagadnienia analizy dyskryminacyjnej obejmują m.in.: Klasyfikację pod nadzorem np. chaid Analizę skupień

3 Linear Discriminant Analysis (LDA)
Metoda zaproponowana przez R.A. Fischera w 1936 r., rozwinięta przez R.C. Rao w 1948 r. W wersji oryginalnej: Założenie, że X jest macierzą obserwacji z p-wymiarowej przestrzeni euklidesowej (faktyczne pole zastosowań znacznie szersze); Zmienna objaśniana: klasa przynależności obserwacji (jedna z dwóch – bo fisher założył że mamy tylko 2 ale może być więcej); Celem reguła decyzyjna oparta na funkcji liniowej.

4 LDA Fischera (przypadek dwóch klas)
Zadanie Fishera sprowadza się do znalezienia takiego kierunku a w przestrzeni X, który najlepiej rozdziela dwie klasy. Konstrukcja LDA opiera się na informacji o wskaźnikach położenia i rozproszenia dla obserwacji z dwóch klas: Estymatora wartości oczekiwanej E(X|g=i); - położenia Estymatora macierzy kowariancji Cov(X|g=i) - rozproszenia.

5 LDA Fischera (przypadek dwóch klas)
Estymator wartości oczekiwanej X 𝑥 𝑘 = 1 𝑛 𝑘 𝑖=1 𝑛 𝑘 𝑥 𝑘𝑖 , k = 1, 2. Estymator macierzy kowariancji dla każdej klasy 𝑊= 1 𝑛−2 𝑘=1 2 𝑛 𝑘 −1 𝑆 𝑘 = 1 𝑛−2 𝑘=1 2 𝑖=1 𝑛 𝑘 𝑥 𝑘𝑖 − 𝑥 𝑘 𝑥 𝑘𝑖 − 𝑥 𝑘 𝑇 Estymatory są nieobciążone

6 LDA Fischera (przypadek dwóch klas)
Ponieważ w ogólności mamy: 𝑉𝑎𝑟 𝑎 𝑇 𝑋 = 𝑎 𝑇 𝐶𝑜𝑣 𝑥 𝑎 Próbkową miarą zmienności wewnątrzgrupowej wzdłuż kierunku a jest: 𝑎 𝑇 𝑊𝑎

7 LDA Fischera (przypadek dwóch klas)
  - jeż Kwadrat odległości miedzy dwoma średnimi Jeżeli nierówność przeciwna zachodzi, to klasyfikujemy do drugiej klasy

8 LDA Fischera (przypadek dwóch klas)
Rozwiązanie: 𝑎 ∗ ∝ 𝑊 −1 𝑥 2 − 𝑥 1 a* - pierwszy wektor kanoniczny a*Tx – pierwsza zmienna kanoniczna odpowiadająca wektorowi X. W dwuklasowym przypadku mamy tylko jeden wektor kanoniczny

9 LDA Fischera (przypadek dwóch klas)
A z falką to to samo co a* w prezentacji (po z rzutowaniu na tę prostą jednym cięciem dość dobrze dzielimy)

10 Uogólnienie na przypadek g klas
Problem: 𝑎 𝑇 𝐵𝑎 𝑎 𝑇 𝑊𝑎 , gdzie: 𝐵= 1 𝑔−1 𝑘=1 𝑔 𝑛 𝑘 𝑥 𝑘 − 𝑥 𝑥 𝑘 − 𝑥 𝑇 𝑊= 1 𝑛−𝑔 𝑘=1 𝑔 𝑛 𝑘 −1 𝑖=1 𝑛 𝑘 𝑥 𝑘𝑖 − 𝑥 𝑘 𝑥 𝑘𝑖 − 𝑥 𝑘 𝑇 Macierz B – miara wariancji międzygrupowej W – wariancja wewnątrzgrupowa Uwaga: Fisher zakładał, że macierze kowariancji dla każdej populacji jest taka sama

11 Uogólnienie na przypadek g klas
B – macierz wariancji międzygrupowej W – macierz wariancji wewnątrzgrupowej Można pokazać, że: 𝑇= 𝑛−𝑔 𝑊+ 𝑔−1 𝐵 Gdzie: 𝑇= 𝑛−1 𝑆

12 Uogólnienie na przypadek g klas
Rozwiązanie: a* (wektor maksymalizujący wariancję międzygrupową) jest wektorem własnym macierzy W-1B, odpowiadającym największej wartości własnej tej macierzy. W praktyce problem rozwiązuje się poprzez rozwiązanie 𝑔 2 problemów dla dwóch klas. G nad 2 bo porównujemy wszystkie populacje i wybieramy najlepszą!

13 Uogólnienie na przypadek g klas
Na 4 rysunku pierwsza zmienna kanoniczna starcza jako ta na którą rzutujemy w celu rozdzielenia

14 Uogólnienie na przypadek g klas
Związki pomiędzy LDA a analizą kanoniczną. Uchylenie założenia o jednakowych macierzach kowariancji. UWAGA: metoda została opracowana dla zmiennych mierzonych na skali interwałowej (dla których sensowna jest metryka euklidesowa), ale sprawdza się również dla zmiennych o charakterze porządkowym czy nominalnym. Jak uchylimy założenie o jednakowych macierzach kowariancji – dostaniemy wtedy co innego QDA (Q - quadratic), linie rozdzilające będą parabolami

15 Literatura Fisher R.A., „The Use of Multiple Measurements in Taxonomic Problems”, Annals of Eugenics, 7 (2): Rao R.C., „The utilization of multiple measurements in problems of biological classification”, Journal of the Royal Statistical Society, Series B 10 (2): 159–203. Koronacki J., Ćwik J., Statystyczne systemy uczące się, Wydawnictwo Naukowo Techniczne, Warszawa 2005. Hastie T., R.Tibshirani, J.Friedman, The Elements of Statistical Learning. Springer (zwłaszcza rozdz. 4) → poszukać wersji elektronicznej pdf M.Krzyśko, W.Wołyński, T.Górecki,M.Skorzybut: Systemy uczące się. + wcześniejsze prace M.Krzyśko o analizie dyskryminacyjnej McLachlan, G. J. (2004). Discriminant Analysis and Statistical Pattern Recognition. Wiley. Duda, R. O.; Hart, P. E.; Stork, D. H. (2000). Pattern Classification (2nd ed.). Wiley


Pobierz ppt "Analiza dyskryminacji"

Podobne prezentacje


Reklamy Google