Analiza kanoniczna - stanowi uogólnienie liniowej regresji wielorakiej na dwa zbiory zmiennych tzn. dla zmiennych zależnych i niezależnych. Pozwala badać.

Slides:



Advertisements
Podobne prezentacje
Regresja i korelacja materiały dydaktyczne.
Advertisements

Excel Narzędzia do analizy regresji
Analiza współzależności zjawisk
Analiza wariancji jednoczynnikowa
Analiza wariancji Marcin Zajenkowski. Badania eksperymentalne ANOVA najczęściej do eksperymentów Porównanie wyników z 2 grup lub więcej Zmienna niezależna.
BUDOWA MODELU EKONOMETRYCZNEGO
Badania operacyjne. Wykład 2
Regresja w EXCELU.
Analiza współzależności
Analiza współzależności
Portfel wielu akcji. Model Sharpe’a
Współczynnik beta Modele jedno-, wieloczynnikowe Model jednowskaźnikowy Sharpe’a Linia papierów wartościowych.
Analiza wariancji Analiza wariancji (ANOVA) stanowi rozszerzenie testu t-Studenta w przypadku porównywanie większej liczby grup. Podział na grupy (czyli.
Statystyka w doświadczalnictwie
Dzisiaj na wykładzie Regresja wieloraka – podstawy i założenia
Mgr Sebastian Mucha Schemat doświadczenia:
Analiza korelacji.
Dane informacyjne: Gimnazjum im. Marii Skłodowskiej-Curie
Wykład 14 Liniowa regresja
Korelacje, regresja liniowa
ANALIZA KORELACJI LINIOWEJ PEARSONA / REGRESJA LINIOWA
Analiza wariancji ANOVA efekty główne
Analiza współzależności dwóch zjawisk
Metody Symulacyjne w Telekomunikacji (MEST) Wykład 6/7: Analiza statystyczna wyników symulacyjnych  Dr inż. Halina Tarasiuk
Analiza wariancji.
Jednoczynnikowa analiza wariancji (ANOVA)
Hipotezy statystyczne
Analiza wariancji jednoczynnikowa
Testy nieparametryczne
Testowanie hipotez statystycznych
Analiza współzależności cech statystycznych
Rozkłady wywodzące się z rozkładu normalnego standardowego
BADANIE STATYSTYCZNE Badanie statystyczne to proces pozyskiwania danych na temat rozkładu cechy statystycznej w populacji. Badanie może mieć charakter:
Analiza wariancji jednoczynnikowa.
Irena Woroniecka EKONOMIA MENEDŻERSKA - dodatek do W2
Hipotezy statystyczne
Zagadnienia regresji i korelacji
Kilka wybranych uzupelnień
Analiza wariancji ANOVA czynnikowa ANOVA
Planowanie badań i analiza wyników
Ekonometria stosowana
Regresja wieloraka.
Seminarium licencjackie Beata Kapuścińska
Analiza wariancji ANOVA efekty główne. Analiza wariancji ANOVA ANOVA: ANalysis Of VAriance Nazwa: wywodzi się z faktu, że w celu testowania statystycznej.
ANALIZA ANOVA - KIEDY? Wiele przedsięwzięć badawczych zakłada porównanie pomiędzy średnimi z więcej niż dwóch populacji lub dwóch warunków eksperymentalnych.
Wnioskowanie statystyczne
Ekonometria stosowana
D. Ciołek EKONOMETRIA – wykład 5
Analiza wariancji ANOVA czynnikowa ANOVA
Weryfikacja hipotez statystycznych
Model ekonometryczny Jacek Szanduła.
Korelacje dwóch zmiennych. Korelacje Kowariancja.
Treść dzisiejszego wykładu l Weryfikacja statystyczna modelu ekonometrycznego –błędy szacunku parametrów, –istotność zmiennych objaśniających, –autokorelacja,
Przeprowadzenie badań niewyczerpujących, (częściowych – prowadzonych na podstawie próby losowej), nie daje podstaw do formułowania stanowczych stwierdzeń.
Ekonometria stosowana Heteroskedastyczność składnika losowego Piotr Ciżkowicz Katedra Międzynarodowych Studiów Porównawczych.
STATYSTYKA – kurs podstawowy wykład 8 dr Dorota Węziak-Białowolska Instytut Statystyki i Demografii.
Modele nieliniowe sprowadzane do liniowych
STATYSTYKA – kurs podstawowy wykład 11
Rozpatrzmy następujące zadanie programowania liniowego:
Koło Naukowe Metod Ilościowych
Testy nieparametryczne
Regresja wieloraka – służy do ilościowego ujęcia związków między wieloma zmiennymi niezależnymi (objaśniającymi) a zmienną zależną (objaśnianą) Regresja.
Co do tej pory robiliśmy:
Regresja wieloraka – bada wpływ wielu zmiennych objaśniających (niezależnych) na jedną zmienną objaśnianą (zależą)
Jednorównaniowy model regresji liniowej
Analiza współzależności zjawisk
MIARY STATYSTYCZNE Warunki egzaminu.
KORELACJA WIELOKROTNA I CZĄSTKOWA
Korelacja i regresja liniowa
Analiza głównych składowych PCA
Zapis prezentacji:

Analiza kanoniczna - stanowi uogólnienie liniowej regresji wielorakiej na dwa zbiory zmiennych tzn. dla zmiennych zależnych i niezależnych. Pozwala badać związki zachodzące pomiędzy tymi dwoma zbiorami zmiennych.

Pytania: Jaki jest zakres oddziaływania zbioru zmiennych niezależnych na zbiór zmiennych zależnych Który z możliwych zbirów zmiennych niezależnych wyjaśnia maksymalny zakres zmienności w zbiorze zmiennych zależnych Czy wprowadzenie nowych zmiennych niezależnych lub zależnych do analizowanych zbiorów zwiększy zakres wyjaśnianej wariancji całkowitej

Celem analizy są powiązania między dwoma zbiorami zmiennych: {X1, X2, …, Xp} - zmienne niezależne (objaśniające), {Y1, Y2, …, Yq} - zmienne zależne (objaśniane). Analiza kanoniczna polega na znalezieniu takiej liniowej kombinacji Y-ów: U1=a1 Y1 + a2 Y2+…aqYq oraz takiej liniowej kombinacji X-ów: V1=b1 X1 + b2 X2+…bpXp dla której korelacja między U i V przyjmuje maksymalną wartość. Utworzone zmienne nazywamy pierwszymi zmiennymi kanonicznymi, a korelację między nimi pierwszą korelacją kanoniczną. Współczynniki a i b noszą nazwę wag kanonicznych.

Główna idea analizy kanonicznej sprowadza się do badanie zależności między dwoma zbiorami zmiennych poprzez powiązania między „ukrytymi” zmiennymi. Zmienne „ukryte”, będące sumami ważonymi zmiennych pierwszego i drugiego zbioru, są syntetycznym wskaźnikiem mierzącym korelacje.

Najpierw wyznaczana jest para liniowych kombinacji, która ma możliwie największą korelację. Następnie wyznaczana jest kolejna para liniowych kombinacji, która ma największą korelację przy ograniczeniu, że wyznaczone kombinacje nie są skorelowane z tymi wyznaczonymi w pierwszym kroku, itd..

Kolejne zmienne kanoniczne są wyznaczane w taki sposób, aby każda kolejna zmienna wyjaśniała dodatkową część zmienności w analizowanym zbiorze – zmienne kanoniczne są ze sobą nieskorelowane i wyjaśniają coraz mniejszą zmienność. Dla drugiej zmiennej kanonicznej współczynniki a i b są dobierane zatem w taki sposób, aby: 1. V(2) było nieskorelowane z V(1) i U(1) 2. U(2) było nieskorelowane z V(1) i U(1) 3. Przy ograniczeniach 1 i 2, V(2) i V(2) mają możliwie największą korelację. Liczba zmiennych kanonicznych jest równa minimum z liczby zmiennych w pierwszym i drugim zbiorze.

A. Wagi kanoniczne określają wkład poszczególnych zmiennych wejściowych w tworzenie zmiennych kanonicznych. Przy standaryzacji zbiorów zmiennych wejściowych są one odpowiednikiem współczynników beta w regresji wielorakiej. Im większa bezwzględna wartość wagi, tym większy wkład danej zmiennej do zmiennej kanonicznej.

Spełnienie warunku maksymalnego skorelowania oznacza, że otrzymane zmienne możemy uważać za dobrą reprezentację danych wejściowych. Niska korelacja może świadczyć o złym dobraniu modelu lub braku powiązań między analizowanymi zbiorami zmiennych

B. Kanoniczne ładunki czynnikowe to korelacja między zmiennymi kanonicznymi a zmiennymi w każdym zbiorze. Im większy ładunek czynnikowy, tym większy wpływ danej zmiennej na zmienną kanoniczną. Jeżeli podniesiemy wartości ładunków czynnikowych do kwadratu, to otrzymamy udział w wariancji danej zmiennej wyjaśniony przez zmienną kanoniczną.

C. Wariancja wyodrębniona otrzymujemy dzieląc sumę kwadratów współczynników korelacji danej zmiennej kanonicznej przez liczbę zmiennych wejściowych odpowiedniego typu. Mówi ona jaki procent wariancji zmiennych wejściowych wyjaśnia średnio dana zmienna kanoniczna.

D. Współczynniki redundancji powstają przez pomnożenie wariancji wyodrębnionej dla jednego zbioru zmiennych wyjściowych przez kwadrat korelacji kanonicznej. Mówi on, ile przeciętnie wariancji w jednym zbiorze jest wyjaśnione przez daną zmienną kanoniczną w oparciu o drugi zbiór. Jeżeli redundacja pierwszej zmiennej kanonicznej dla zbioru X-ów wynosi 0,5, to oznacza to, że pierwsza zmienna kanoniczna wyjaśnia przeciętnie 50% zmienności w zbiorze Y-ów.

Etapy analizy Wyznaczenie wag kanonicznych, opisujących „czysty” wkład każdej zmiennej do zmiennej kanonicznej. Obliczenie ładunków czynnikowych, które określają korelację każdej zmiennej ze zmienną kanoniczną. Wyliczenie redundacji, która wskazuje ile przeciętnie wariancji jednego zbioru jest wyjaśnione przez daną zmienną kanoniczną za pomocą zmiennych z drugiego zbioru. Analiza kanoniczna poprzez stworzenie skrótowych i syntetycznych wskaźników jest doskonałym narzędziem analizy struktury zależności dwóch zbiorów zmiennych.

Uwagi i ograniczenia  Analiza kanoniczna, podobnie jak analiza regresji, jest bardzo wrażliwa na punkty odstające. Należy więc przed rozpoczęciem analizy prześledzić histogramy i wykresy rozproszenia dla wyjściowych zmiennych.  Badacz powinien sprawdzić istotność (przy wnioskowaniu statystycznym) korelacji kanonicznych zanim przejdzie do interpretacji uzyskanych wyników. Ważne jest, żeby uzyskana wartość korelacji kanonicznej nie była wynikiem zależności między jedną zmienną zależną i jedną zmienną niezależną.  Test hipotezy o istotności korelacji kanonicznych (przy wnioskowaniu statystycznym) zakłada, że dane pochodzą z wielowymiarowego rozkładu normalnego.  Aby otrzymać rzetelne wyniki, zalecane jest co najmniej 20 razy tyle obserwacji co zmiennych do analizy.  Zmienne w dwóch zbiorach nie powinny być współliniowe.

Analizę kanoniczną wywołuje się z menu Statystyka, następnie Wielowymiarowe techniki eksploracyjne/Analiza kanoniczna

Analizę rozpoczynamy po określeniu list zmiennych i kliknięciu przycisku OK. Pojawia się wówczas okno Wyniki analizy kanonicznej [1] Wartość największej i najbardziej istotnej korelacji kanonicznej. Wartości pozostałych można odczytać po kliknięciu przycisku Testy Chi kwadrat na karcie Czynniki kanoniczne. [2] Wartość testu chi kwadrat sprawdzającego istotność największej korelacji kanonicznej oraz poziom prawdopodobieństwa p. [3] Liczbę ważnych przypadków [4] Liczbę zmiennych, wartość wariancji wyodrębnionej oraz całkowitą redundancję dla prawego i lewego zbioru danych. Te same wartości otrzymujemy po kliknięciu przycisku Podsumowanie: wyniki kanoniczne na karcie Podstawowe

Korelacje wewnątrz każdego zbioru zmiennych oraz pomiędzy zbiorami można przeglądać po kliknięciu przycisku Korelacje wewnątrz i między zbiorami na karcie Struktura czynnikowa. Dokładna analiza tych korelacji umożliwia znalezienie zmiennych, które w decydujący sposób przyczyniły się do powstania interesujących nas korelacji kanonicznych. Punktem wyjścia w analizie kanonicznej są pary zmiennych kanonicznych o określonym stopniu skorelowania. Program wylicza najpierw wagi (czyli a1,1, a2,1, … ap1 oraz b1,1, b2,1 ……bq,1), które maksymalizują korelację dwóch sum ważonych (dla pierwszej pary zmiennych kanonicznych: U1 i V1). Następnie znajdywane są następne wagi (czyli a1,2, a2,2, … ap1 oraz b1,2, b2,2 ……bq,2 ),, które maksymalizują drugą korelację kanoniczną (dla drugiej pary zmiennych kanonicznych: U2 i V2)., wyjaśniającą dodatkową część zmienności w dwóch zbiorach, zapewniając jednocześnie brak skorelowania z wyodrębnioną już zmienną kanoniczną. Obliczenia są kontynuowane aż do wyliczenia wszystkich zmiennych kanonicznych, których liczba jest równa minimalnej liczbie zmiennych w którymś ze zbiorów. Aby wyświetlić pierwiastki kanoniczne i otrzymać wagi kanoniczne, które je definiują, na karcie Wartości kanoniczne klikamy przycisk Wagi kanoniczne, lewy i prawy zbiór

U1=-0,57X1-0,95X2-0,07X3 V1=0,23Y1-0,29Y2-0,77Y3+0,29Y4 Mamy w sumie 3 pary zmiennych kanonicznych. Dla pierwszej zmiennej kanonicznej (największe wartości wag), największy związek jest między X2 i Y3 . Im mniejsza wartość zmiennej X2 (waga -0,95), tym mniejsza wartość zmiennej Y3 (waga -0,77).

Uwzględniamy tylko istotne statystycznie zmienne kanoniczne Uwzględniamy tylko istotne statystycznie zmienne kanoniczne. Czynniki kanoniczne - Testy Chi kwadrat. [1] Wartości kolejnych korelacji kanonicznych R. [2] R2, czyli wartości kwadratów kolejnych korelacji kanonicznych. Wartości 1 − R2 to wariancja niewyjaśniona przez kolejne zmienne kanoniczne. Są to tak zwane wartości własne, pomocne przy wyliczaniu zmiennych kanonicznych i korelacji kanonicznej. [3] Wartość testu chi kwadrat, testującego istotność zmiennych kanonicznych (tzn. hipotezę zerową mówiącą , że wszystkie korelacje kanoniczne są równe zero) [4] Liczba stopni swobody testu chi kwadrat [5] Poziom prawdopodobieństwa p dla testu chi kwadrat [6] Wartości statystyki lambda Wilksa. Wartość lambda jest stosowana jako test istotności dla kwadratu korelacji kanonicznej i ma rozkład chi kwadrat.

Wariancja wyodrębniona i Całkowita redundancja traktujemy jako wskaźniki ogólnych korelacji między dwoma zbiorami zmiennych. Wariancja wyodrębniona pokazuje przeciętną ilość wariancji wyodrębnionej ze zmiennych w odpowiednim zbiorze przez wszystkie zmienne kanoniczne (odpowiednio 100% oraz 54%). Całkowita redundancja natomiast to suma redundancji dla wszystkich zmiennych kanonicznych. Wartość tę można interpretować jako przeciętny procent wariancji wyjaśnionej w jednym zbiorze zmiennych przy danym drugim zbiorze zmiennych, w oparciu o wszystkie zmienne kanoniczne. Lewy zbiór zmiennych w 62% wyjaśnia zmienność prawego zbioru zmiennych, natomiast prawy zbiór zmiennych w 33% wyjaśnia zmienność lewego zbioru.