Ekonometria Analiza dyskryminacyjna Paweł Cibis pawel@cibis.pl 11 maja 2007
A dlaczego Power Point? a tak dla odmiany ;-)
Wielowymiarowa analiza porównawcza Dyscyplina naukowa zajmująca się porównywaniem obiektów określonych za pomocą wielu cech Jeden z jej działów to metody grupowania, służące do badania podobieństw obiektów pod względem poziomu zjawiska złożonego Metody grupowania można podzielić na dyskryminacyjne i klasyfikacyjne
Dyskryminacja a klasyfikacja Dyskryminacja – przydział obiektów do znanych wcześniej klas Klasyfikacja – podział obiektów na nieznane wcześniej klasy Często proces podziału obiektów na klasy jest nazywany klasyfikacją, niezależnie od tego, czy klasy te zostały wcześniej ustalone, czy nie
Czym jest analiza dyskryminacyjna? Zbiór metod pozwalający na znalezienie kombinacji cech, które najlepiej rozróżniają dwie lub więcej klas obiektów lub zdarzeń Zbiór, bo istnieje kilka wariantów analizy dyskryminacyjnej zależnych od posiadanych informacji na temat badanej populacji i przyjętych założeń
Zawężenie zakresu Analiza dyskryminacyjna pozwala na stworzenie klasyfikatora zaliczającego dany obiekt (opisany wieloma cechami) do jednej z wielu znanych wcześniej klas Będziemy się zajmować wyłącznie przypadkami, gdy obiekt może należeć wyłącznie do jednej z dwóch klas
Ogólnie i nieco formalnie Mamy dany wektor X, który zawiera wartości pewnych cech danego obiektu (jest więc obserwacją) Chcemy odgadnąć, czy obserwacja ta należy do jednej z dwóch populacji Każda z tych populacji charakteryzuje się pewnym (wielowymiarowym) rozkładem analizowanych cech Oznaczmy gęstość pierwszej populacji jako f1(x,ө1), a drugiej jako f2(x,ө2), gdzie өi oznacza wektor parametrów i-tego rozkładu Wobec tego zagadnienie dyskryminacyjne sprowadza się do odgadnięcia, z którego rozkładu pochodzi analizowany obiekt Stworzona zostanie funkcja dyskryminacyjna, której wartość dla danego obiektu, określi, z którego rozkładu ten obiekt pochodzi z większym prawdopodobieństwem
Kilka przypadków Znamy rozkłady cech Nie znamy rozkładów cech Przypadek ogólny Rozkład normalny o wspólnej macierzy kowariancji Rozkład normalny o różnych macierzach kowariancji Nie znamy rozkładów cech
Znany rozkład – przypadek ogólny Kryterium klasyfikacyjne – jeżeli dla danego obiektu: to klasyfikowany jest on jako należący do pierwszej populacji, a w przeciwnym wypadku do drugiej Kryterium jest więc wyższa wartość funkcji gęstości w danym punkcie (czyli dla danych wartości cech obiektu)
O co chodzi z tymi gęstościami? Załóżmy, że obiekt charakteryzuje tylko jedna ciągła cecha, a jej rozkłady w każdej z populacji są takie jak na powyższym rysunku Załóżmy też, że obiekt ten musi pochodzić z jednej tych populacji Wysokość krzywej obrazuje natężenie, z jakim powinny pojawiać się obserwacje o danej wartości w populacji o danym rozkładzie
O co chodzi z tymi gęstościami? Nie możemy tu mówić o prawdopodobieństwie wystąpienia obserwacji o danej wartości cechy, gdyż dla rozkładów ciągłych wynosi ono zero Możemy jednak problem odwrócić – jeżeli pojawiała się obserwacja o danej wartości, to o pochodzenie z którego rozkładu będziemy bardziej skłonni ją podejrzewać
O co chodzi z tymi gęstościami? Przykład 1: x=25 Widzimy, że w populacji pierwszej nie występują wartości większe od 21, natomiast w drugiej tak Wobec tego już na tej podstawie możemy przypisać obserwację do drugiej populacji Jest to jednak przypadek skrajny, gdyż zakłada, że dla x=25 wartość pierwszej funkcji gęstości wynosi zero
O co chodzi z tymi gęstościami? Przykład 2: x=7 Pierwsza funkcja gęstości w punkcie x=7 przyjmuje wartość między 0,25 a 0,3 Druga funkcja gęstości w punkcie x=7 przyjmuje wartość między 0,1 a 0,15 Wobec tego obserwacja ta pochodzi raczej z pierwszej populacji
A co, gdy mamy więcej niż 1 cechę? W przypadku wielu cech, analizujemy rozkład wielowymiarowy Każda cecha to zmienna losowa o pewnym rozkładzie charakteryzującym się pewnymi parametrami Istotne są też zależności pomiędzy cechami (macierz kowariancji) Ogólna postać kryterium się jednak nie zmienia
Rozkłady normalne o tej samej macierzy kowariancji i-ta funkcja gęstości wyraża się wzorem: µi to wartość oczekiwana, a ∑ to macierz kowariancji Iloraz funkcji gęstości ma postać:
Rozkłady normalne o tej samej macierzy kowariancji Iloraz funkcji gęstości jest wiekszy od 1 gdy: KD to kryterium dyskryminacyjne, otrzymane poprzez obustronne logarytmowanie przy podstawie naturalnej nierówności dla ilorazu funkcji gęstości Widać więc, choć może nie na pierwszy rzut oka;-), że KD jest wielowymiarową funkcją liniową zmiennej x Stąd metodę tą nazywa się liniową analizą dyskryminacyjną (LDA – linear discriminant analysis)
Rozkłady normalne o różnych macierzach kowariancji W tym przypadku zamiast ∑, dla każdego rozkładu pojawi się osobna macierz kowariancji ∑1 oraz ∑2 Ilorazowe kryterium dyskryminacyjne można znów łatwo przekształcić za pomocą logarytmowania do funkcji KD, której postać tym razem będzie kwadratowa (wzory sobie na razie darujmy) Stąd taki przypadek nazywamy kwadratową analizą dyskryminacyjną (QDA – quadratic discriminant analysis)
Nieznane parametry rozkładów cech Jeżeli znamy funkcje gęstości (rodzaj rozkładu), ale nie znamy pewnych jego parametrów, to posługujemy się w miejscu ich rzeczywistych wartości odpowiednimi estymatorami obliczonymi na podstawie próby W tej sytuacji oczywiście pojawia się problem dokładności estymacji
Nieznane parametry rozkładów cech Pojawić się też może konflikt pomiędzy dokładnością metoda, a dokładnością estymacji QDA jest zwykle nieco dokładniejsza od LDA, gdyż umożliwia lepsze dopasowanie funkcji dyskryminacyjnej do danych Z drugiej strony QDA wymaga estymacji dwóch macierzy kowariancji, a LDA tylko jednej, więc estymacja na potrzeby QDA opatrzona jest większym błędem W większości przypadków lepiej jest zastosować w takiej sytuacji metodę LDA, zamiast QDA
Nieznane postaci funkcji gęstości Jest to najczęstszy przypadek – nie znamy lub nie mamy pewności co do postaci funkcji gęstości rozkładów rozpatrywanych cech Przypomnijmy, iż QDA wymagała wielowymiarowego rozkładu normalnego, a LDA dodatkowo wspólnej macierzy kowariancji
Nieznane postaci funkcji gęstości Okazuje się jednak, iż analiza dyskryminacyjna jest dosyć odporna na niespełnienie założeń Wobec tego możliwe jest podejście niezależne od rozkładu zmiennych Można zbudować funkcję dyskryminacyjną opartą wyłącznie na estymatorach wartości oczekiwanych cech i ich kowariancji
Funkcja dyskryminacyjna Jeżeli obiekt opisany jest za pomocą n cech (a dokładnie – n istotnych wg nas cech), to liniową funkcję dyskryminacyjną można zapisać jako: Y=α1x1+ α2x2+… αnxn, gdzie αi to estymowany parametr przy i-tej zmiennej
Estymator parametrów Wektor współczynników przy zmiennych: Wektory w nawiasie to średnie wartości cech w obu grupach obliczone na podstawie próby
Kryterium dyskryminacyjne Macierzowa postać funkcji dyskryminacyjnej: y=aTx Możemy dzięki temu obliczyć wartość funkcji dyskryminacyjnej dla danej niesklasyfikowanej jeszcze obserwacji Sama wartość o niczym nam jednak nie mówi – potrzebujemy kryterium decyzyjnego Jeśli podstawimy do funkcji dyskryminacyjnej średnie wartości cech dla każdej grupy, otrzymamy średnie wartości funkcji dyskryminacyjnej dla każdej z grup Średnia arytmetyczna z tych wartości będzie punktem odniesienia dla funkcji dyskryminacyjnej – obserwacje o wartości funkcji większej od punktu odniesienia będą klasyfikowane do pierwszej grupy, a pozostałe do drugiej
Kryterium dyskryminacyjne Łatwo pokazać, że punkt odniesienia wyraża się wzorem: Wobec tego kryterium dyskryminacyjne zapiszemy jako:
Reguła decyzyjna Podobnie, jak w przypadku znanego rozkładu, gdy KD>0 klasyfikujemy obiekt do pierwszej grupy, a w przeciwnym przypadku do drugiej Należy zaznaczyć, iż jest to przypadek, w którym zakładamy wspólną macierz kowariancji, a jej estymator jest obliczany na podstawie próby składającej się z obserwacji z obu grup
W razie uwag… Ponieważ w pewien sposób „debiutuję” z tym tematem będę wdzięczny za wszelkie poprawki oraz uwagi Najlepiej ustnie lub mailowo na: pawel@cibis.pl Z góry dziękuję ;-)
Dodatek Coś, co pozwoli lepiej zrozumieć laborki…
Irysy Kosaciec, irys (Iris L., Cryptobasis Nevski) - rodzaj roślin cebulowych i kłączowych należący do rodziny kosaćcowatych. Kosaćce występują w stanie dzikim na półkuli północnej. W Polsce rosną dziko kosaciec bezlistny, kosaciec trawolistny, kosaciec żółty i kosaciec syberyjski. To była definicja z polskiej Wikipedii „Iris” to także popularny zestaw danych do analizy dyskryminacyjnej Składa się ze 150 obserwacji 3 gatunków irysów (po 50 każdego rodzaju)
Setosa, versicolor i virginica Iris Setosa Iris Versicolor Iris Virginica 3 gatunki irysów różnią się kształtem i kolorem płatków Zestaw danych zawiera długości i szerokości 2 rodzajów płatków – petali i sepali
Petale i sepale Sepale to zewnętrzne, najczęściej zielone płatki spełniające funkcję ochronną – w przypadku irysów są barwy fioletowej i odznaczają się większymi rozmiarami od petali Petale to kolorowe, wewnętrzne płatki stanowiące rodzaj wabika dla zapylających kwiaty owadów
Petale i sepale Petale i sepale w ogólnym modelu kwiatka ;-)
To już naprawdę koniec… Dziękuję za uwagę !!!