Pobieranie prezentacji. Proszę czekać

Pobieranie prezentacji. Proszę czekać

Ekonometria Analiza dyskryminacyjna Paweł Cibis 11 maja 2007.

Podobne prezentacje


Prezentacja na temat: "Ekonometria Analiza dyskryminacyjna Paweł Cibis 11 maja 2007."— Zapis prezentacji:

1 Ekonometria Analiza dyskryminacyjna Paweł Cibis 11 maja 2007

2 A dlaczego Power Point? a tak dla odmiany ;-)

3 Wielowymiarowa analiza porównawcza Dyscyplina naukowa zajmująca się porównywaniem obiektów określonych za pomocą wielu cech Dyscyplina naukowa zajmująca się porównywaniem obiektów określonych za pomocą wielu cech Jeden z jej działów to metody grupowania, służące do badania podobieństw obiektów pod względem poziomu zjawiska złożonego Jeden z jej działów to metody grupowania, służące do badania podobieństw obiektów pod względem poziomu zjawiska złożonego Metody grupowania można podzielić na dyskryminacyjne i klasyfikacyjne Metody grupowania można podzielić na dyskryminacyjne i klasyfikacyjne

4 Dyskryminacja a klasyfikacja Dyskryminacja – przydział obiektów do znanych wcześniej klas Dyskryminacja – przydział obiektów do znanych wcześniej klas Klasyfikacja – podział obiektów na nieznane wcześniej klasy Klasyfikacja – podział obiektów na nieznane wcześniej klasy Często proces podziału obiektów na klasy jest nazywany klasyfikacją, niezależnie od tego, czy klasy te zostały wcześniej ustalone, czy nie Często proces podziału obiektów na klasy jest nazywany klasyfikacją, niezależnie od tego, czy klasy te zostały wcześniej ustalone, czy nie

5 Czym jest analiza dyskryminacyjna? Zbiór metod pozwalający na znalezienie kombinacji cech, które najlepiej rozróżniają dwie lub więcej klas obiektów lub zdarzeń Zbiór metod pozwalający na znalezienie kombinacji cech, które najlepiej rozróżniają dwie lub więcej klas obiektów lub zdarzeń Zbiór, bo istnieje kilka wariantów analizy dyskryminacyjnej zależnych od posiadanych informacji na temat badanej populacji i przyjętych założeń Zbiór, bo istnieje kilka wariantów analizy dyskryminacyjnej zależnych od posiadanych informacji na temat badanej populacji i przyjętych założeń

6 Zawężenie zakresu Analiza dyskryminacyjna pozwala na stworzenie klasyfikatora zaliczającego dany obiekt (opisany wieloma cechami) do jednej z wielu znanych wcześniej klas Analiza dyskryminacyjna pozwala na stworzenie klasyfikatora zaliczającego dany obiekt (opisany wieloma cechami) do jednej z wielu znanych wcześniej klas Będziemy się zajmować wyłącznie przypadkami, gdy obiekt może należeć wyłącznie do jednej z dwóch klas Będziemy się zajmować wyłącznie przypadkami, gdy obiekt może należeć wyłącznie do jednej z dwóch klas

7 Ogólnie i nieco formalnie Mamy dany wektor X, który zawiera wartości pewnych cech danego obiektu (jest więc obserwacją) Mamy dany wektor X, który zawiera wartości pewnych cech danego obiektu (jest więc obserwacją) Chcemy odgadnąć, czy obserwacja ta należy do jednej z dwóch populacji Chcemy odgadnąć, czy obserwacja ta należy do jednej z dwóch populacji Każda z tych populacji charakteryzuje się pewnym (wielowymiarowym) rozkładem analizowanych cech Każda z tych populacji charakteryzuje się pewnym (wielowymiarowym) rozkładem analizowanych cech Oznaczmy gęstość pierwszej populacji jako f 1 (x,ө 1 ), a drugiej jako f 2 (x,ө 2 ), gdzie ө i oznacza wektor parametrów i-tego rozkładu Oznaczmy gęstość pierwszej populacji jako f 1 (x,ө 1 ), a drugiej jako f 2 (x,ө 2 ), gdzie ө i oznacza wektor parametrów i-tego rozkładu Wobec tego zagadnienie dyskryminacyjne sprowadza się do odgadnięcia, z którego rozkładu pochodzi analizowany obiekt Wobec tego zagadnienie dyskryminacyjne sprowadza się do odgadnięcia, z którego rozkładu pochodzi analizowany obiekt Stworzona zostanie funkcja dyskryminacyjna, której wartość dla danego obiektu, określi, z którego rozkładu ten obiekt pochodzi z większym prawdopodobieństwem Stworzona zostanie funkcja dyskryminacyjna, której wartość dla danego obiektu, określi, z którego rozkładu ten obiekt pochodzi z większym prawdopodobieństwem

8 Kilka przypadków Znamy rozkłady cech Znamy rozkłady cech –Przypadek ogólny –Rozkład normalny o wspólnej macierzy kowariancji –Rozkład normalny o różnych macierzach kowariancji Nie znamy rozkładów cech Nie znamy rozkładów cech

9 Znany rozkład – przypadek ogólny Kryterium klasyfikacyjne – jeżeli dla danego obiektu: Kryterium klasyfikacyjne – jeżeli dla danego obiektu: to klasyfikowany jest on jako należący do pierwszej populacji, a w przeciwnym wypadku do drugiej Kryterium jest więc wyższa wartość funkcji gęstości w danym punkcie (czyli dla danych wartości cech obiektu) Kryterium jest więc wyższa wartość funkcji gęstości w danym punkcie (czyli dla danych wartości cech obiektu)

10 O co chodzi z tymi gęstościami? Załóżmy, że obiekt charakteryzuje tylko jedna ciągła cecha, a jej rozkłady w każdej z populacji są takie jak na powyższym rysunku Załóżmy, że obiekt charakteryzuje tylko jedna ciągła cecha, a jej rozkłady w każdej z populacji są takie jak na powyższym rysunku Załóżmy też, że obiekt ten musi pochodzić z jednej tych populacji Załóżmy też, że obiekt ten musi pochodzić z jednej tych populacji Wysokość krzywej obrazuje natężenie, z jakim powinny pojawiać się obserwacje o danej wartości w populacji o danym rozkładzie Wysokość krzywej obrazuje natężenie, z jakim powinny pojawiać się obserwacje o danej wartości w populacji o danym rozkładzie

11 O co chodzi z tymi gęstościami? Nie możemy tu mówić o prawdopodobieństwie wystąpienia obserwacji o danej wartości cechy, gdyż dla rozkładów ciągłych wynosi ono zero Nie możemy tu mówić o prawdopodobieństwie wystąpienia obserwacji o danej wartości cechy, gdyż dla rozkładów ciągłych wynosi ono zero Możemy jednak problem odwrócić – jeżeli pojawiała się obserwacja o danej wartości, to o pochodzenie z którego rozkładu będziemy bardziej skłonni ją podejrzewać Możemy jednak problem odwrócić – jeżeli pojawiała się obserwacja o danej wartości, to o pochodzenie z którego rozkładu będziemy bardziej skłonni ją podejrzewać

12 O co chodzi z tymi gęstościami? Przykład 1: x=25 x=25 Widzimy, że w populacji pierwszej nie występują wartości większe od 21, natomiast w drugiej tak Widzimy, że w populacji pierwszej nie występują wartości większe od 21, natomiast w drugiej tak Wobec tego już na tej podstawie możemy przypisać obserwację do drugiej populacji Wobec tego już na tej podstawie możemy przypisać obserwację do drugiej populacji Jest to jednak przypadek skrajny, gdyż zakłada, że dla x=25 wartość pierwszej funkcji gęstości wynosi zero Jest to jednak przypadek skrajny, gdyż zakłada, że dla x=25 wartość pierwszej funkcji gęstości wynosi zero

13 O co chodzi z tymi gęstościami? Przykład 2: x=7 x=7 Pierwsza funkcja gęstości w punkcie x=7 przyjmuje wartość między 0,25 a 0,3 Pierwsza funkcja gęstości w punkcie x=7 przyjmuje wartość między 0,25 a 0,3 Druga funkcja gęstości w punkcie x=7 przyjmuje wartość między 0,1 a 0,15 Druga funkcja gęstości w punkcie x=7 przyjmuje wartość między 0,1 a 0,15 Wobec tego obserwacja ta pochodzi raczej z pierwszej populacji Wobec tego obserwacja ta pochodzi raczej z pierwszej populacji

14 A co, gdy mamy więcej niż 1 cechę? W przypadku wielu cech, analizujemy rozkład wielowymiarowy W przypadku wielu cech, analizujemy rozkład wielowymiarowy Każda cecha to zmienna losowa o pewnym rozkładzie charakteryzującym się pewnymi parametrami Każda cecha to zmienna losowa o pewnym rozkładzie charakteryzującym się pewnymi parametrami Istotne są też zależności pomiędzy cechami (macierz kowariancji) Istotne są też zależności pomiędzy cechami (macierz kowariancji) Ogólna postać kryterium się jednak nie zmienia Ogólna postać kryterium się jednak nie zmienia

15 Rozkłady normalne o tej samej macierzy kowariancji i-ta funkcja gęstości wyraża się wzorem: i-ta funkcja gęstości wyraża się wzorem: µ i to wartość oczekiwana, a to macierz kowariancji µ i to wartość oczekiwana, a to macierz kowariancji Iloraz funkcji gęstości ma postać: Iloraz funkcji gęstości ma postać:

16 Rozkłady normalne o tej samej macierzy kowariancji Iloraz funkcji gęstości jest wiekszy od 1 gdy: Iloraz funkcji gęstości jest wiekszy od 1 gdy: KD to kryterium dyskryminacyjne, otrzymane poprzez obustronne logarytmowanie przy podstawie naturalnej nierówności dla ilorazu funkcji gęstości KD to kryterium dyskryminacyjne, otrzymane poprzez obustronne logarytmowanie przy podstawie naturalnej nierówności dla ilorazu funkcji gęstości Widać więc, choć może nie na pierwszy rzut oka;-), że KD jest wielowymiarową funkcją liniową zmiennej x Widać więc, choć może nie na pierwszy rzut oka;-), że KD jest wielowymiarową funkcją liniową zmiennej x Stąd metodę tą nazywa się liniową analizą dyskryminacyjną (LDA – linear discriminant analysis) Stąd metodę tą nazywa się liniową analizą dyskryminacyjną (LDA – linear discriminant analysis)

17 Rozkłady normalne o różnych macierzach kowariancji W tym przypadku zamiast, dla każdego rozkładu pojawi się osobna macierz kowariancji 1 oraz 2 W tym przypadku zamiast, dla każdego rozkładu pojawi się osobna macierz kowariancji 1 oraz 2 Ilorazowe kryterium dyskryminacyjne można znów łatwo przekształcić za pomocą logarytmowania do funkcji KD, której postać tym razem będzie kwadratowa (wzory sobie na razie darujmy) Ilorazowe kryterium dyskryminacyjne można znów łatwo przekształcić za pomocą logarytmowania do funkcji KD, której postać tym razem będzie kwadratowa (wzory sobie na razie darujmy) Stąd taki przypadek nazywamy kwadratową analizą dyskryminacyjną (QDA – quadratic discriminant analysis) Stąd taki przypadek nazywamy kwadratową analizą dyskryminacyjną (QDA – quadratic discriminant analysis)

18 Nieznane parametry rozkładów cech Jeżeli znamy funkcje gęstości (rodzaj rozkładu), ale nie znamy pewnych jego parametrów, to posługujemy się w miejscu ich rzeczywistych wartości odpowiednimi estymatorami obliczonymi na podstawie próby Jeżeli znamy funkcje gęstości (rodzaj rozkładu), ale nie znamy pewnych jego parametrów, to posługujemy się w miejscu ich rzeczywistych wartości odpowiednimi estymatorami obliczonymi na podstawie próby W tej sytuacji oczywiście pojawia się problem dokładności estymacji W tej sytuacji oczywiście pojawia się problem dokładności estymacji

19 Nieznane parametry rozkładów cech Pojawić się też może konflikt pomiędzy dokładnością metoda, a dokładnością estymacji Pojawić się też może konflikt pomiędzy dokładnością metoda, a dokładnością estymacji QDA jest zwykle nieco dokładniejsza od LDA, gdyż umożliwia lepsze dopasowanie funkcji dyskryminacyjnej do danych QDA jest zwykle nieco dokładniejsza od LDA, gdyż umożliwia lepsze dopasowanie funkcji dyskryminacyjnej do danych Z drugiej strony QDA wymaga estymacji dwóch macierzy kowariancji, a LDA tylko jednej, więc estymacja na potrzeby QDA opatrzona jest większym błędem Z drugiej strony QDA wymaga estymacji dwóch macierzy kowariancji, a LDA tylko jednej, więc estymacja na potrzeby QDA opatrzona jest większym błędem W większości przypadków lepiej jest zastosować w takiej sytuacji metodę LDA, zamiast QDA W większości przypadków lepiej jest zastosować w takiej sytuacji metodę LDA, zamiast QDA

20 Nieznane postaci funkcji gęstości Jest to najczęstszy przypadek – nie znamy lub nie mamy pewności co do postaci funkcji gęstości rozkładów rozpatrywanych cech Jest to najczęstszy przypadek – nie znamy lub nie mamy pewności co do postaci funkcji gęstości rozkładów rozpatrywanych cech Przypomnijmy, iż QDA wymagała wielowymiarowego rozkładu normalnego, a LDA dodatkowo wspólnej macierzy kowariancji Przypomnijmy, iż QDA wymagała wielowymiarowego rozkładu normalnego, a LDA dodatkowo wspólnej macierzy kowariancji

21 Nieznane postaci funkcji gęstości Okazuje się jednak, iż analiza dyskryminacyjna jest dosyć odporna na niespełnienie założeń Okazuje się jednak, iż analiza dyskryminacyjna jest dosyć odporna na niespełnienie założeń Wobec tego możliwe jest podejście niezależne od rozkładu zmiennych Wobec tego możliwe jest podejście niezależne od rozkładu zmiennych Można zbudować funkcję dyskryminacyjną opartą wyłącznie na estymatorach wartości oczekiwanych cech i ich kowariancji Można zbudować funkcję dyskryminacyjną opartą wyłącznie na estymatorach wartości oczekiwanych cech i ich kowariancji

22 Funkcja dyskryminacyjna Jeżeli obiekt opisany jest za pomocą n cech (a dokładnie – n istotnych wg nas cech), to liniową funkcję dyskryminacyjną można zapisać jako: Y=α 1 x 1 + α 2 x 2 +… α n x n, gdzie α i to estymowany parametr przy i-tej zmiennej

23 Estymator parametrów Wektor współczynników przy zmiennych: Wektor współczynników przy zmiennych: Wektory w nawiasie to średnie wartości cech w obu grupach obliczone na podstawie próby Wektory w nawiasie to średnie wartości cech w obu grupach obliczone na podstawie próby

24 Kryterium dyskryminacyjne Macierzowa postać funkcji dyskryminacyjnej: Macierzowa postać funkcji dyskryminacyjnej: y=a T x Możemy dzięki temu obliczyć wartość funkcji dyskryminacyjnej dla danej niesklasyfikowanej jeszcze obserwacji Możemy dzięki temu obliczyć wartość funkcji dyskryminacyjnej dla danej niesklasyfikowanej jeszcze obserwacji Sama wartość o niczym nam jednak nie mówi – potrzebujemy kryterium decyzyjnego Sama wartość o niczym nam jednak nie mówi – potrzebujemy kryterium decyzyjnego Jeśli podstawimy do funkcji dyskryminacyjnej średnie wartości cech dla każdej grupy, otrzymamy średnie wartości funkcji dyskryminacyjnej dla każdej z grup Jeśli podstawimy do funkcji dyskryminacyjnej średnie wartości cech dla każdej grupy, otrzymamy średnie wartości funkcji dyskryminacyjnej dla każdej z grup Średnia arytmetyczna z tych wartości będzie punktem odniesienia dla funkcji dyskryminacyjnej – obserwacje o wartości funkcji większej od punktu odniesienia będą klasyfikowane do pierwszej grupy, a pozostałe do drugiej Średnia arytmetyczna z tych wartości będzie punktem odniesienia dla funkcji dyskryminacyjnej – obserwacje o wartości funkcji większej od punktu odniesienia będą klasyfikowane do pierwszej grupy, a pozostałe do drugiej

25 Kryterium dyskryminacyjne Łatwo pokazać, że punkt odniesienia wyraża się wzorem: Łatwo pokazać, że punkt odniesienia wyraża się wzorem: Wobec tego kryterium dyskryminacyjne zapiszemy jako: Wobec tego kryterium dyskryminacyjne zapiszemy jako:

26 Reguła decyzyjna Podobnie, jak w przypadku znanego rozkładu, gdy KD>0 klasyfikujemy obiekt do pierwszej grupy, a w przeciwnym przypadku do drugiej Podobnie, jak w przypadku znanego rozkładu, gdy KD>0 klasyfikujemy obiekt do pierwszej grupy, a w przeciwnym przypadku do drugiej Należy zaznaczyć, iż jest to przypadek, w którym zakładamy wspólną macierz kowariancji, a jej estymator jest obliczany na podstawie próby składającej się z obserwacji z obu grup Należy zaznaczyć, iż jest to przypadek, w którym zakładamy wspólną macierz kowariancji, a jej estymator jest obliczany na podstawie próby składającej się z obserwacji z obu grup

27 W razie uwag… Ponieważ w pewien sposób debiutuję z tym tematem będę wdzięczny za wszelkie poprawki oraz uwagi Ponieważ w pewien sposób debiutuję z tym tematem będę wdzięczny za wszelkie poprawki oraz uwagi Najlepiej ustnie lub mailowo na: Najlepiej ustnie lub mailowo na: Z góry dziękuję ;-) Z góry dziękuję ;-)

28 Dodatek Coś, co pozwoli lepiej zrozumieć laborki…

29 Irysy Kosaciec, irys (Iris L., Cryptobasis Nevski) - rodzaj roślin cebulowych i kłączowych należący do rodziny kosaćcowatych. Kosaćce występują w stanie dzikim na półkuli północnej. W Polsce rosną dziko kosaciec bezlistny, kosaciec trawolistny, kosaciec żółty i kosaciec syberyjski. Kosaciec, irys (Iris L., Cryptobasis Nevski) - rodzaj roślin cebulowych i kłączowych należący do rodziny kosaćcowatych. Kosaćce występują w stanie dzikim na półkuli północnej. W Polsce rosną dziko kosaciec bezlistny, kosaciec trawolistny, kosaciec żółty i kosaciec syberyjski.L. rodzajkosaćcowatychkosaciec bezlistnykosaciec trawolistnykosaciec żółtykosaciec syberyjskiL. rodzajkosaćcowatychkosaciec bezlistnykosaciec trawolistnykosaciec żółtykosaciec syberyjski To była definicja z polskiej Wikipedii To była definicja z polskiej Wikipedii Iris to także popularny zestaw danych do analizy dyskryminacyjnej Iris to także popularny zestaw danych do analizy dyskryminacyjnej Składa się ze 150 obserwacji 3 gatunków irysów (po 50 każdego rodzaju) Składa się ze 150 obserwacji 3 gatunków irysów (po 50 każdego rodzaju)

30 Setosa, versicolor i virginica Iris Setosa Iris Versicolor Iris Virginica 3 gatunki irysów różnią się kształtem i kolorem płatków 3 gatunki irysów różnią się kształtem i kolorem płatków Zestaw danych zawiera długości i szerokości 2 rodzajów płatków – petali i sepali Zestaw danych zawiera długości i szerokości 2 rodzajów płatków – petali i sepali

31 Petale i sepale Sepale to zewnętrzne, najczęściej zielone płatki spełniające funkcję ochronną – w przypadku irysów są barwy fioletowej i odznaczają się większymi rozmiarami od petali Sepale to zewnętrzne, najczęściej zielone płatki spełniające funkcję ochronną – w przypadku irysów są barwy fioletowej i odznaczają się większymi rozmiarami od petali Petale to kolorowe, wewnętrzne płatki stanowiące rodzaj wabika dla zapylających kwiaty owadów Petale to kolorowe, wewnętrzne płatki stanowiące rodzaj wabika dla zapylających kwiaty owadów

32 Petale i sepale Petale i sepale w ogólnym modelu kwiatka ;-)

33 To już naprawdę koniec… Dziękuję za uwagę !!!


Pobierz ppt "Ekonometria Analiza dyskryminacyjna Paweł Cibis 11 maja 2007."

Podobne prezentacje


Reklamy Google