Ekonometria Analiza dyskryminacyjna

Slides:



Advertisements
Podobne prezentacje
Regresja i korelacja materiały dydaktyczne.
Advertisements

PODZIAŁ STATYSTYKI STATYSTYKA STATYSTYKA MATEMATYCZNA STATYSTYKA
Metody losowania próby
Joanna Sawicka Wydział Nauk Ekonomicznych, Uniwersytet Warszawski
Estymacja. Przedziały ufności.
Analiza współzależności zjawisk
Równanie różniczkowe zupełne i równania do niego sprowadzalne
IV Tutorial z Metod Obliczeniowych
Analiza wariancji jednoczynnikowa
Zmienne losowe i ich rozkłady
Inteligencja Obliczeniowa Metody probabilistyczne.
BUDOWA MODELU EKONOMETRYCZNEGO
Badania operacyjne. Wykład 1
Badania operacyjne. Wykład 2
Wykład no 11.
Liniowość - kryterium Kryterium Znane jako zasada superpozycji
Metody wnioskowania na podstawie podprób
Metody ekonometryczne
Statystyka w doświadczalnictwie
Ulepszenia metody Eigenfaces
Algorytm Rochio’a.
Wykład 6 Standardowy błąd średniej a odchylenie standardowe z próby
Wykład 5 Przedziały ufności
Wykład 4 Przedziały ufności
Klasyfikacja Obcinanie drzewa Naiwny klasyfikator Bayes’a kNN
Modele (hipotezy) zagnieżdżone
Linear Methods of Classification
Rozkład normalny Cecha posiada rozkład normalny jeśli na jej wielkość ma wpływ wiele niezależnych czynników, a wpływ każdego z nich nie jest zbyt duży.
Analiza współzależności dwóch zjawisk
Wykład 4. Rozkłady teoretyczne
Metody Symulacyjne w Telekomunikacji (MEST) Wykład 4: Generowanie zdarzeń  Dr inż. Halina Tarasiuk p. 337, tnt.tele.pw.edu.pl.
Metody Symulacyjne w Telekomunikacji (MEST) Wykład 6/7: Analiza statystyczna wyników symulacyjnych  Dr inż. Halina Tarasiuk
Średnie i miary zmienności
Hipotezy statystyczne
Elementy Rachunku Prawdopodobieństwa i Statystyki
Konstrukcja, estymacja parametrów
Elementy Rachunku Prawdopodobieństwa i Statystyki
Elementy Rachunku Prawdopodobieństwa i Statystyki
Rozkłady wywodzące się z rozkładu normalnego standardowego
BADANIE STATYSTYCZNE Badanie statystyczne to proces pozyskiwania danych na temat rozkładu cechy statystycznej w populacji. Badanie może mieć charakter:
na podstawie materiału – test z użyciem komputerowo generowanych prób
Obserwatory zredukowane
Elementy Rachunku Prawdopodobieństwa i Statystyki
Hipotezy statystyczne
Elementy Rachunku Prawdopodobieństwa i Statystyki
Kilka wybranych uzupelnień
Analiza dyskryminacji
Planowanie badań i analiza wyników
Regresja wieloraka.
Seminarium licencjackie Beata Kapuścińska
Co to jest dystrybuanta?
Metody matematyczne w Inżynierii Chemicznej
Wnioskowanie statystyczne
Metoda reprezentacyjna i statystyka małych obszarów z SAS Instytut Statystyki i Demografii SGH dr Dorota Bartosińska Zajęcia 4 Wnioskowanie statystyczne.
Ekonometria stosowana
Wykład 5 Przedziały ufności
Rozkład wariancji z próby (rozkład  2 ) Pobieramy próbę x 1,x 2,...,x n z rozkładu normalnego o a=0 i  =1. Dystrybuanta rozkładu zmiennej x 2 =x 1 2.
Przenoszenie błędów (rachunek błędów) Niech x=(x 1,x 2,...,x n ) będzie n-wymiarową zmienną losową złożoną z niezależnych składników o rozkładach normalnych.
Przeprowadzenie badań niewyczerpujących, (częściowych – prowadzonych na podstawie próby losowej), nie daje podstaw do formułowania stanowczych stwierdzeń.
Testy nieparametryczne – testy zgodności. Nieparametryczne testy istotności dzielimy na trzy zasadnicze grupy: testy zgodności, testy niezależności oraz.
Treść dzisiejszego wykładu l Klasyfikacja zmiennych modelu wielorównaniowego l Klasyfikacja modeli wielorównaniowych l Postać strukturalna i zredukowana.
Rozkłady statystyk z próby dr Marta Marszałek Zakład Statystyki Stosowanej Instytut Statystyki i Demografii Kolegium.
Ekonometria stosowana Heteroskedastyczność składnika losowego Piotr Ciżkowicz Katedra Międzynarodowych Studiów Porównawczych.
WYKŁAD Teoria błędów Katedra Geodezji im. K. Weigla ul. Poznańska 2
STATYSTYKA – kurs podstawowy wykład 8 dr Dorota Węziak-Białowolska Instytut Statystyki i Demografii.
STATYSTYKA – kurs podstawowy wykład 11
Metody matematyczne w Inżynierii Chemicznej
Radosław Hołówko Konsultant: Agnieszka Pożyczka
Regresja wieloraka – bada wpływ wielu zmiennych objaśniających (niezależnych) na jedną zmienną objaśnianą (zależą)
Jednorównaniowy model regresji liniowej
Zapis prezentacji:

Ekonometria Analiza dyskryminacyjna Paweł Cibis pawel@cibis.pl 11 maja 2007

A dlaczego Power Point? a tak dla odmiany ;-)

Wielowymiarowa analiza porównawcza Dyscyplina naukowa zajmująca się porównywaniem obiektów określonych za pomocą wielu cech Jeden z jej działów to metody grupowania, służące do badania podobieństw obiektów pod względem poziomu zjawiska złożonego Metody grupowania można podzielić na dyskryminacyjne i klasyfikacyjne

Dyskryminacja a klasyfikacja Dyskryminacja – przydział obiektów do znanych wcześniej klas Klasyfikacja – podział obiektów na nieznane wcześniej klasy Często proces podziału obiektów na klasy jest nazywany klasyfikacją, niezależnie od tego, czy klasy te zostały wcześniej ustalone, czy nie

Czym jest analiza dyskryminacyjna? Zbiór metod pozwalający na znalezienie kombinacji cech, które najlepiej rozróżniają dwie lub więcej klas obiektów lub zdarzeń Zbiór, bo istnieje kilka wariantów analizy dyskryminacyjnej zależnych od posiadanych informacji na temat badanej populacji i przyjętych założeń

Zawężenie zakresu Analiza dyskryminacyjna pozwala na stworzenie klasyfikatora zaliczającego dany obiekt (opisany wieloma cechami) do jednej z wielu znanych wcześniej klas Będziemy się zajmować wyłącznie przypadkami, gdy obiekt może należeć wyłącznie do jednej z dwóch klas

Ogólnie i nieco formalnie Mamy dany wektor X, który zawiera wartości pewnych cech danego obiektu (jest więc obserwacją) Chcemy odgadnąć, czy obserwacja ta należy do jednej z dwóch populacji Każda z tych populacji charakteryzuje się pewnym (wielowymiarowym) rozkładem analizowanych cech Oznaczmy gęstość pierwszej populacji jako f1(x,ө1), a drugiej jako f2(x,ө2), gdzie өi oznacza wektor parametrów i-tego rozkładu Wobec tego zagadnienie dyskryminacyjne sprowadza się do odgadnięcia, z którego rozkładu pochodzi analizowany obiekt Stworzona zostanie funkcja dyskryminacyjna, której wartość dla danego obiektu, określi, z którego rozkładu ten obiekt pochodzi z większym prawdopodobieństwem

Kilka przypadków Znamy rozkłady cech Nie znamy rozkładów cech Przypadek ogólny Rozkład normalny o wspólnej macierzy kowariancji Rozkład normalny o różnych macierzach kowariancji Nie znamy rozkładów cech

Znany rozkład – przypadek ogólny Kryterium klasyfikacyjne – jeżeli dla danego obiektu: to klasyfikowany jest on jako należący do pierwszej populacji, a w przeciwnym wypadku do drugiej Kryterium jest więc wyższa wartość funkcji gęstości w danym punkcie (czyli dla danych wartości cech obiektu)

O co chodzi z tymi gęstościami? Załóżmy, że obiekt charakteryzuje tylko jedna ciągła cecha, a jej rozkłady w każdej z populacji są takie jak na powyższym rysunku Załóżmy też, że obiekt ten musi pochodzić z jednej tych populacji Wysokość krzywej obrazuje natężenie, z jakim powinny pojawiać się obserwacje o danej wartości w populacji o danym rozkładzie

O co chodzi z tymi gęstościami? Nie możemy tu mówić o prawdopodobieństwie wystąpienia obserwacji o danej wartości cechy, gdyż dla rozkładów ciągłych wynosi ono zero Możemy jednak problem odwrócić – jeżeli pojawiała się obserwacja o danej wartości, to o pochodzenie z którego rozkładu będziemy bardziej skłonni ją podejrzewać

O co chodzi z tymi gęstościami? Przykład 1: x=25 Widzimy, że w populacji pierwszej nie występują wartości większe od 21, natomiast w drugiej tak Wobec tego już na tej podstawie możemy przypisać obserwację do drugiej populacji Jest to jednak przypadek skrajny, gdyż zakłada, że dla x=25 wartość pierwszej funkcji gęstości wynosi zero

O co chodzi z tymi gęstościami? Przykład 2: x=7 Pierwsza funkcja gęstości w punkcie x=7 przyjmuje wartość między 0,25 a 0,3 Druga funkcja gęstości w punkcie x=7 przyjmuje wartość między 0,1 a 0,15 Wobec tego obserwacja ta pochodzi raczej z pierwszej populacji

A co, gdy mamy więcej niż 1 cechę? W przypadku wielu cech, analizujemy rozkład wielowymiarowy Każda cecha to zmienna losowa o pewnym rozkładzie charakteryzującym się pewnymi parametrami Istotne są też zależności pomiędzy cechami (macierz kowariancji) Ogólna postać kryterium się jednak nie zmienia

Rozkłady normalne o tej samej macierzy kowariancji i-ta funkcja gęstości wyraża się wzorem: µi to wartość oczekiwana, a ∑ to macierz kowariancji Iloraz funkcji gęstości ma postać:

Rozkłady normalne o tej samej macierzy kowariancji Iloraz funkcji gęstości jest wiekszy od 1 gdy: KD to kryterium dyskryminacyjne, otrzymane poprzez obustronne logarytmowanie przy podstawie naturalnej nierówności dla ilorazu funkcji gęstości Widać więc, choć może nie na pierwszy rzut oka;-), że KD jest wielowymiarową funkcją liniową zmiennej x Stąd metodę tą nazywa się liniową analizą dyskryminacyjną (LDA – linear discriminant analysis)

Rozkłady normalne o różnych macierzach kowariancji W tym przypadku zamiast ∑, dla każdego rozkładu pojawi się osobna macierz kowariancji ∑1 oraz ∑2 Ilorazowe kryterium dyskryminacyjne można znów łatwo przekształcić za pomocą logarytmowania do funkcji KD, której postać tym razem będzie kwadratowa (wzory sobie na razie darujmy) Stąd taki przypadek nazywamy kwadratową analizą dyskryminacyjną (QDA – quadratic discriminant analysis)

Nieznane parametry rozkładów cech Jeżeli znamy funkcje gęstości (rodzaj rozkładu), ale nie znamy pewnych jego parametrów, to posługujemy się w miejscu ich rzeczywistych wartości odpowiednimi estymatorami obliczonymi na podstawie próby W tej sytuacji oczywiście pojawia się problem dokładności estymacji

Nieznane parametry rozkładów cech Pojawić się też może konflikt pomiędzy dokładnością metoda, a dokładnością estymacji QDA jest zwykle nieco dokładniejsza od LDA, gdyż umożliwia lepsze dopasowanie funkcji dyskryminacyjnej do danych Z drugiej strony QDA wymaga estymacji dwóch macierzy kowariancji, a LDA tylko jednej, więc estymacja na potrzeby QDA opatrzona jest większym błędem W większości przypadków lepiej jest zastosować w takiej sytuacji metodę LDA, zamiast QDA

Nieznane postaci funkcji gęstości Jest to najczęstszy przypadek – nie znamy lub nie mamy pewności co do postaci funkcji gęstości rozkładów rozpatrywanych cech Przypomnijmy, iż QDA wymagała wielowymiarowego rozkładu normalnego, a LDA dodatkowo wspólnej macierzy kowariancji

Nieznane postaci funkcji gęstości Okazuje się jednak, iż analiza dyskryminacyjna jest dosyć odporna na niespełnienie założeń Wobec tego możliwe jest podejście niezależne od rozkładu zmiennych Można zbudować funkcję dyskryminacyjną opartą wyłącznie na estymatorach wartości oczekiwanych cech i ich kowariancji

Funkcja dyskryminacyjna Jeżeli obiekt opisany jest za pomocą n cech (a dokładnie – n istotnych wg nas cech), to liniową funkcję dyskryminacyjną można zapisać jako: Y=α1x1+ α2x2+… αnxn, gdzie αi to estymowany parametr przy i-tej zmiennej

Estymator parametrów Wektor współczynników przy zmiennych: Wektory w nawiasie to średnie wartości cech w obu grupach obliczone na podstawie próby

Kryterium dyskryminacyjne Macierzowa postać funkcji dyskryminacyjnej: y=aTx Możemy dzięki temu obliczyć wartość funkcji dyskryminacyjnej dla danej niesklasyfikowanej jeszcze obserwacji Sama wartość o niczym nam jednak nie mówi – potrzebujemy kryterium decyzyjnego Jeśli podstawimy do funkcji dyskryminacyjnej średnie wartości cech dla każdej grupy, otrzymamy średnie wartości funkcji dyskryminacyjnej dla każdej z grup Średnia arytmetyczna z tych wartości będzie punktem odniesienia dla funkcji dyskryminacyjnej – obserwacje o wartości funkcji większej od punktu odniesienia będą klasyfikowane do pierwszej grupy, a pozostałe do drugiej

Kryterium dyskryminacyjne Łatwo pokazać, że punkt odniesienia wyraża się wzorem: Wobec tego kryterium dyskryminacyjne zapiszemy jako:

Reguła decyzyjna Podobnie, jak w przypadku znanego rozkładu, gdy KD>0 klasyfikujemy obiekt do pierwszej grupy, a w przeciwnym przypadku do drugiej Należy zaznaczyć, iż jest to przypadek, w którym zakładamy wspólną macierz kowariancji, a jej estymator jest obliczany na podstawie próby składającej się z obserwacji z obu grup

W razie uwag… Ponieważ w pewien sposób „debiutuję” z tym tematem będę wdzięczny za wszelkie poprawki oraz uwagi Najlepiej ustnie lub mailowo na: pawel@cibis.pl Z góry dziękuję ;-)

Dodatek Coś, co pozwoli lepiej zrozumieć laborki…

Irysy Kosaciec, irys (Iris L., Cryptobasis Nevski) - rodzaj roślin cebulowych i kłączowych należący do rodziny kosaćcowatych. Kosaćce występują w stanie dzikim na półkuli północnej. W Polsce rosną dziko kosaciec bezlistny, kosaciec trawolistny, kosaciec żółty i kosaciec syberyjski. To była definicja z polskiej Wikipedii „Iris” to także popularny zestaw danych do analizy dyskryminacyjnej Składa się ze 150 obserwacji 3 gatunków irysów (po 50 każdego rodzaju)

Setosa, versicolor i virginica Iris Setosa Iris Versicolor Iris Virginica 3 gatunki irysów różnią się kształtem i kolorem płatków Zestaw danych zawiera długości i szerokości 2 rodzajów płatków – petali i sepali

Petale i sepale Sepale to zewnętrzne, najczęściej zielone płatki spełniające funkcję ochronną – w przypadku irysów są barwy fioletowej i odznaczają się większymi rozmiarami od petali Petale to kolorowe, wewnętrzne płatki stanowiące rodzaj wabika dla zapylających kwiaty owadów

Petale i sepale Petale i sepale w ogólnym modelu kwiatka ;-)

To już naprawdę koniec… Dziękuję za uwagę !!!