Analiza głównych składowych PCA

Slides:

Advertisements

Podobne prezentacje

Regresja i korelacja materiały dydaktyczne.

Advertisements

Badania statystyczne Wykłady 1-2 © Leszek Smolarek.

Excel Narzędzia do analizy regresji

KORELACJA I REGRESJA WIELOWYMIAROWA

BADANIE KORELACJI ZMIENNYCH

Analiza współzależności zjawisk

IV Tutorial z Metod Obliczeniowych

Analiza wariancji jednoczynnikowa

BUDOWA MODELU EKONOMETRYCZNEGO

WEKTORY Każdy wektor ma trzy zasadnicze cechy: wartość (moduł), kierunek i zwrot. Wartością wektora nazywamy długość odcinka AB przedstawiającego ten wektor.

Analiza współzależności

1 Dane dotyczące sprzedaży wody mineralnej Tygodnie Ilość sprzedanej wody mineralnej Y (litrów) Cena jednego litra X (płn.) 1101,3 262,0 351,7 4121,5 5101,6.

Współczynnik beta Modele jedno-, wieloczynnikowe Model jednowskaźnikowy Sharpe’a Linia papierów wartościowych.

Metody ekonometryczne

Metody ekonometryczne

Podstawowe pojęcia prognozowania i symulacji na podstawie modeli ekonometrycznych Przewidywaniem nazywać będziemy wnioskowanie o zdarzeniach nieznanych.

Dzisiaj na wykładzie Regresja wieloraka – podstawy i założenia

Analiza korelacji.

Universal and Nonuniversal Properties of Cross Correlation in Financial Time Series Vasiliki Plerou, Parameswaran Gopikrishnan, Bernd Rosenow, Luı´s A.

Wykład 14 Liniowa regresja

Prognozowanie na podstawie modelu ekonometrycznego

Linear Methods of Classification

Korelacje, regresja liniowa

ANALIZA KORELACJI LINIOWEJ PEARSONA / REGRESJA LINIOWA

Analiza współzależności dwóch zjawisk

Korelacja, autokorelacja, kowariancja, trendy

Jednoczynnikowa analiza wariancji (ANOVA)

Testowanie hipotez statystycznych

Analiza współzależności cech statystycznych

Rozkład macierzy korelacji ze względu na wartości i wektory własne a problem głównych składowych Singular Value Decomposition SVD.

Podsumowanie projektu

Analiza wariancji jednoczynnikowa.

Irena Woroniecka EKONOMIA MENEDŻERSKA - dodatek do W2

Prognozowanie z wykorzystaniem modeli ekonometrycznych

Modelowanie ekonometryczne

1 Kilka wybranych uzupełnień do zagadnień regresji Janusz Górczyński.

Hipotezy statystyczne

Zagadnienia regresji i korelacji

Finanse 2009/2010 dr Grzegorz Szafrański pokój B106 Termin konsultacji poniedziałek:

Kilka wybranych uzupelnień

Ekonometria stosowana

Regresja wieloraka.

ANALIZA ANOVA - KIEDY? Wiele przedsięwzięć badawczych zakłada porównanie pomiędzy średnimi z więcej niż dwóch populacji lub dwóch warunków eksperymentalnych.

Monika Piwowar Gdańsk Statystyka i analiza danych II Analiza danych z technik wysokoprzepustowych w zastosowaniach.

Przedmiot: Ekonometria Temat: Szeregi czasowe. Dekompozycja szeregów

Ekonometria stosowana

D. Ciołek EKONOMETRIA – wykład 5

D. Ciołek EKONOMETRIA – wykład 3

Regresja liniowa Dany jest układ punktów

Estymatory punktowe i przedziałowe

Model ekonometryczny Jacek Szanduła.

Korelacje dwóch zmiennych. Korelacje Kowariancja.

Treść dzisiejszego wykładu l Weryfikacja statystyczna modelu ekonometrycznego –błędy szacunku parametrów, –istotność zmiennych objaśniających, –autokorelacja,

Budowa skali/indeksu (analiza czynnikowa, analiza głównych składowych) dr Dorota Węziak-Białowolska ISiD.

Ekonometria stosowana Heteroskedastyczność składnika losowego Piotr Ciżkowicz Katedra Międzynarodowych Studiów Porównawczych.

STATYSTYKA – kurs podstawowy wykład 8 dr Dorota Węziak-Białowolska Instytut Statystyki i Demografii.

Modele nieliniowe sprowadzane do liniowych

STATYSTYKA – kurs podstawowy wykład 11

Treść dzisiejszego wykładu l Metoda Najmniejszych Kwadratów (MNK) l Współczynnik determinacji l Koincydencja l Kataliza l Współliniowość zmiennych.

Koło Naukowe Metod Ilościowych

KORELACJA I REGRESJA WIELOWYMIAROWA

EKONOMETRIA W3 prof. UG, dr hab. Tadeusz W. Bołt

Regresja wieloraka – służy do ilościowego ujęcia związków między wieloma zmiennymi niezależnymi (objaśniającymi) a zmienną zależną (objaśnianą) Regresja.

Regresja wieloraka – bada wpływ wielu zmiennych objaśniających (niezależnych) na jedną zmienną objaśnianą (zależą)

Jednorównaniowy model regresji liniowej

Metody klasyfikacyjne

Model ekonometryczny z dwiema zmiennymi

MNK – podejście algebraiczne

Analiza kanoniczna - stanowi uogólnienie liniowej regresji wielorakiej na dwa zbiory zmiennych tzn. dla zmiennych zależnych i niezależnych. Pozwala badać.

Korelacja i regresja liniowa

Zapis prezentacji:

Analiza głównych składowych PCA Redukcja wymiarów Analiza głównych składowych PCA

Redukcja wymiarów Analiza czynnikowa (w tym analiza głównych składowych, PCA) Służy do redukcji liczby zmiennych opisujących zjawiska oraz odkrycia ukrytych prawidłowości w danych Czynnik jest nową zmienną, która nie jest bezpośrednio obserwowalna – jest wyznaczana na podstawie zmiennych pierwotnych Analiza korespondencji Opisowa i eksploracyjna technika analizy danych Skalowanie optymalne

analiza głównych składowych, PCA Założenia: Wiele zmiennych o charakterze ilościowym (lub porządkowym) Obserwujemy liniowe zależności pomiędzy zmiennymi. Weryfikacja: macierz korelacji, wykresy punktowe Dostatecznie duża próba. Polecana: minimum 5-10 obserwacji na zmienną Możliwa redukcja ilości zmiennych. Weryfikujemy testem sferyczności Bartletta i miarą KMO Brak znaczących obserwacji odstających

Jak podsumować dwie zmienne w jedną, aby stracić jak najmniej informacji? Nowa linia jest liniową kombinacją dwóch zmiennych Zasady: maksymalizujemy wariancję (rozrzut wzdłuż linii), jak najmniejsza wartość błędu dopasowania (suma długości czerwonych linie)

PCA opiera się na macierzy kowariancji (lub Korelacji, dystansów) Wariancja zmiennej x Kowariancja Wariancja zmiennej y Kowariancja

Wektory własne macierzy (eigenvectors) Wektor, który po przeskalowaniu wskazuje ten sam kierunek jest wektorem własnym (eigenwektorem). Mnożenie przez macierz dla której został wyznaczony może go wydłużyć, skrócić lub zmienić zwrot. Mogą zostać zidentyfikowane jedynie dla macierzy kwadratowej (n x n) Nie wszystkie macierze kwadratowe posiadają eigenwektory Jeżeli macierz n x n posiada eigenwektory ich liczba wynosi n Np. macierz 3 x 3 będzie posiadała 3 eigenwektory Eigenwektory są wzajemnie ortogonalne (nieskorelowane)

Wartości własne (eigenvalues) Wartość własna eigenwektora, to stała, która x-razy zwiększa lub zmniejsza jego długość Każdy eigenwektor ma korespondujące do niego wartości własne czyli wartości informujące nas jak dużo zmienności jest w danych Eigenwektor z najwyższą wartością własną jest tzw. głównym komponentem (ang. principal component)

Analiza głównych składowych (PCA) Dla dwóch zmiennych Przykładowe dane: Etap 1: Odejmujemy średnią Dane pochodzą ze Smith L. 2002. A tutorial on Principal Components Analysis.

Analiza głównych składowych (PCA) Dla dwóch zmiennych Etap 2 – wyliczamy macierz kowariancji Etap 3 – Wyznaczamy eigenwektory i ich wartości własne dla macierzy kowariancji 1 2 1 2

Eigenwektor 2 Eigenwektor 1

Analiza głównych składowych (PCA) Dla dwóch zmiennych Etap 4 – Sprawdzamy wartości własne eigenwektorów i fomułujemy macierz z eigenwektorami które chcemy zostawić (lub wszystkimi) Etap 5 – Transformujemy dane przez eigenwektory Dane po transformacji: (Macierz z eigenwektorami)T x (Macierz z danymi po odjęciu średniej)T Otrzymujemy dane po transformacji przez eignewektor(y), który(e) wybraliśmy

Analiza głównych składowych (PCA) Dla dwóch zmiennych Dane po przekształceniu. Zachowując wszystkie eigenwektory można wrócić do danych wyjściowych bez utraty informacji

Analiza głównych składowych (PCA) Dla dwóch zmiennych Dane po przekształceniu. Zachowując tylko pierwszy eigenwektor można wrócić do danych wyjściowych, ale tracimy informację

PCA w SPSS Analiza > Redukcja wymiarów > Analiza czynnikowa Uwaga: Analiza czynnikowa jest szerokim pojęciem, domyślnie zaznaczone jest PCA

PCA w SPSS Zaznaczamy wykres osypiska Wyodrębnianie: zmieniamy minimum dla wartości własnych (np. na 0.5) lub ustalamy z góry liczbę czynników na 2 lub 3

PCA w SPSS Oceny: Zapisz jako zmienne regresja – zapisuje współrzędne na poszczególnych składowych dla każdej obserwacji Rotacja: zmienia ładunki, ułatwia interpretacje np. wybieramy Varimax – rotacja ortogonalna, maksymalizująca wariancję dla wyjściowych zmiennych Opcje do zaznaczenia: Sortuj według wartości ładunków czynnikowych Ukryj małe współczynniki

Macierz korelacji – weryfikacja założeń

Macierz korelacji – weryfikacja założeń Współczynnik KMO - porównuje korelacje cząstkowe z dwuzmiennymi wspóczynnikami korelacji. Dalsza analiza ma sens (uzyskamy redukcję wymiarów) jeżeli KMO > 0.5 Test Sferyczności Barletta Hipoteza zerowa: macierz współczynników korelacji jest macierzą jednostkową → nie ma istotnych korelacji między zmiennymi. Redukcja danych przyniesie dobry rezultat jeżeli możemy odrzucić hipotezę zerową

Zasób zmienności wspólnej część wariancji objaśniona przez składowe Zakres od 0 d0 1 – Czym bliżej 1 tym lepiej nasze składowe odzwierciedlają zmienność obserwowana w zmiennych Równe R2 gdybyśmy zrobili model regresji przewidujący zmienną na podstawie pozostałych zmiennych

Wybór najważniejszych składowych Kryteria wyboru: Procent wyjaśnionej wariancji - Skumulowany procent wyjaśnionej wariancji analizowanych zmiennych (min 75%, 80% lub 90%) Kryterium Kaisera - pozostawia się te składowe główne które mają wartości własne większe od 1 Analiza wykresu osypiska (Metoda Catella) – wyszukujemy punkt za którym kończy się stromizna i zliczamy czynniki nad tym punktem

Wykres osypiska Metoda Catella Wykres wariancji powiązanej z każdym z czynników Osypisko czynnikowe element wykresu na którym obserwujemy łagodny spadek wartości własnych składowe, które znalazły się na osypisku poddajemy redukcji

Ładunki czynnikowe Stopień nasycenia danego stwierdzenia skali danym czynnikiem Metody: Osi głównych – wymaga spełnienia założenia o normalności rozkładu Największej wiarygodności wymaga spełnienia założenia o normalności rozkładu Podaje poziom istotności pomiędzy strukturą idealną (modelową) a empiryczną (obserwowaną w badaniu) – istotny wynik wskazuje, że trzeba dobrać inną liczbe czynników

Wykres ładunków czynnikowych Niewielki kąt = duża korelacja zmiennych

PCA w regresji wielokrotnej Współliniowość zmiennych objaśniających Baza Irysy: Sepal length – długość działek kielicha Sepal width – szerokość działek kielicha Petal length – długość płatków korony Petal width – szerokość płatków korony

PCA w regresji wielokrotneJ Współliniowość zmiennych objaśniających VIF – czynnik inflacji wariancji (ang. Variance Inflation Factor) Informuje o ile wariancje współczynników są zawyżone z powodu zależności liniowych w badanym modelu regresji Współczynnik nie powinien przekroczyć 10 – innym często przyjmowanym punktem odcięcia jest 5 Zmienne objaśniające są współliniowe, gdy są mocno skorelowane ze sobą → weryfikacja przez macierz kowariancji Może to skutkować zawyżonym oszacowaniem współczynników, dużymi wartościami błędów standardowych oraz zaniżeniem R2

Współliniowość zmiennych objaśniających Tolerancja Ile procent wariancji danej zmiennej objaśniającej nie jest wyjaśnione przez pozostałe predyktory Współczynnik nie powinien wynosić mniej niż 0,1 –ponad 90% zmienności wyjaśniają pozostałe zmienne Innym często przyjmowany punktem odcięcia jest 0,2 Współliniowość zmiennych objaśniających – co robić? Usunięcie jednej ze skorelowanych zmiennych objaśniających Analiza czynnikowa i połączenie predyktorów w jeden komponent Modelowanie równań strukturalnych

Źródła SPSS: https://www.ibm.com/support/ Smith L. 2002. A tutorial on Principal Components Analysis. Dostępny online. Patterson N, Price AL., Reich D. 2006. Population Structure and Eigenanalysis. Plos ONE. Objaśnienia do tabel wynikowych i wykresów SPSS: https://stats.idre.ucla.edu/spss/output/principal-components- analysis/