Regresja liniowa Dany jest układ punktów

Slides:



Advertisements
Podobne prezentacje
Regresja i korelacja materiały dydaktyczne.
Advertisements

Excel Narzędzia do analizy regresji
KORELACJA I REGRESJA WIELOWYMIAROWA
Metody numeryczne część 1. Rozwiązywanie układów równań liniowych.
Metody rozwiązywania układów równań liniowych
BUDOWA MODELU EKONOMETRYCZNEGO
Badania operacyjne. Wykład 2
Metody numeryczne wykład no 2.
Metody Numeryczne Wykład no 3.
Dwie metody rozwiązywania układów równań liniowych:
Analiza współzależności
Metody ekonometryczne
Wyrównanie spostrzeżeń zawierających błędy grube
Analiza korelacji.
Korelacje, regresja liniowa
Rozkład normalny Cecha posiada rozkład normalny jeśli na jej wielkość ma wpływ wiele niezależnych czynników, a wpływ każdego z nich nie jest zbyt duży.
OPORNOŚĆ HYDRAULICZNA, CHARAKTERYSTYKA PRZEPŁYWU
Metody numeryczne Wykład no 2.
Matematyka.
Testowanie hipotez statystycznych
Analiza współzależności cech statystycznych
Dodatkowe własności funkcji B-sklejanych zawężenie f do K Rozważmy funkcjeIch zawężenia do dowolnego przedziałutworzą układ wielomianów. Dla i=k ten układ.
Rozkład macierzy korelacji ze względu na wartości i wektory własne a problem głównych składowych Singular Value Decomposition SVD.
Analiza reszt w regresji
BADANIE STATYSTYCZNE Badanie statystyczne to proces pozyskiwania danych na temat rozkładu cechy statystycznej w populacji. Badanie może mieć charakter:
Analiza wariancji jednoczynnikowa.
Obserwatory zredukowane
Zadanie programowania liniowego PL dla ograniczeń mniejszościowych
Zadanie programowania liniowego PL dla ograniczeń mniejszościowych
Prognozowanie z wykorzystaniem modeli ekonometrycznych
Modelowanie ekonometryczne
Statystyka – zadania 4 Janusz Górczyński.
Zagadnienia regresji i korelacji
Finanse 2009/2010 dr Grzegorz Szafrański pokój B106 Termin konsultacji poniedziałek:
Kilka wybranych uzupelnień
Sterowanie – metody alokacji biegunów II
Algebra Przestrzenie liniowe.
Źródła błędów w obliczeniach numerycznych
Ekonometria stosowana
Przekształcenia liniowe
Rozwiązywanie liniowych układów równań metodami iteracyjnymi.
Regresja wieloraka.
METODA ELIMINACJI GAUSSA
METODA ELIMINACJI GAUSSA ASPEKTY NUMERYCZNE
Wyznaczniki, równania liniowe, przestrzenie liniowe Algebra 1
Wstęp do metod numerycznych
Wstęp do metod numerycznych
Trochę algebry liniowej.
Zagadnienie własne Macierz wektorów własnych V=(v1,v2,...,vn) przekształca zatem macierz A do postaci diagonalnej: W większości zastosowań w chemii i fizyce.
Metody rozwiązywania układów równań nieliniowych
Weryfikacja hipotez statystycznych
Regresja liniowa Dany jest układ punktów
Matematyka Ekonomia, sem I i II.
Metody rozwiązywania układów równań liniowych
Model ekonometryczny Jacek Szanduła.
Treść dzisiejszego wykładu l Weryfikacja statystyczna modelu ekonometrycznego –błędy szacunku parametrów, –istotność zmiennych objaśniających, –autokorelacja,
Przeprowadzenie badań niewyczerpujących, (częściowych – prowadzonych na podstawie próby losowej), nie daje podstaw do formułowania stanowczych stwierdzeń.
Ekonometria WYKŁAD 3 Piotr Ciżkowicz Katedra Międzynarodowych Studiów Porównawczych.
Ekonometria stosowana Heteroskedastyczność składnika losowego Piotr Ciżkowicz Katedra Międzynarodowych Studiów Porównawczych.
Fundamentals of Data Analysis Lecture 12 Approximation, interpolation and extrapolation.
STATYSTYKA – kurs podstawowy wykład 8 dr Dorota Węziak-Białowolska Instytut Statystyki i Demografii.
Modele nieliniowe sprowadzane do liniowych
Treść dzisiejszego wykładu l Postać standardowa zadania PL. l Zmienne dodatkowe w zadaniu PL. l Metoda simpleks –wymagania metody simpleks, –tablica simpleksowa.
STATYSTYKA – kurs podstawowy wykład 11
Opracowanie Joanna Szymańska Konsultacja Bożena Hołownia.
Rozpatrzmy następujące zadanie programowania liniowego:
Metody matematyczne w Inżynierii Chemicznej
MATEMATYCZNE MODELOWANIE PROCESÓW BIOTECHNOLOGICZNYCH
Jednorównaniowy model regresji liniowej
Analiza kanoniczna - stanowi uogólnienie liniowej regresji wielorakiej na dwa zbiory zmiennych tzn. dla zmiennych zależnych i niezależnych. Pozwala badać.
Zapis prezentacji:

Regresja liniowa Dany jest układ punktów x x – zmienna objaśniająca (nie obarczona błędem) y – zmienna zależna (obarczona błędem) Naszym zadaniem jest poprowadzenie „najlepszej” prostej przez te punkty.

Wyznaczanie optymalnych parametrów a i b

Bardziej ogólny przypadek dopasowywania równania prostej: regresja ważona

Ocena istotności równania regresji Weryfikujemy następującą hipotezę zerową: H0 : a = 0 wobec H1 : a ≠ 0 (jeżeli a = 0 “w granicach błędu” to nie można mówić o regresji) Przy prawdziwości H0 statystyka: ma rozkład t Studenta z liczbą stopni swobody równej n - 2.

Z tablic rozkładu Studenta odczytujemy, dla wcześniej przyjętego poziomu istotności , wartość krytyczną tn-2,. Jeżeli obliczona wartość t znajduje w dwustronnym obszarze krytycznym (-, - tn-2,), (tn-2,, +), to H0 należy odrzucić na korzyść hipotezy H1

2. Zbadanie istotności różnicy pomiędzy różnicą wariancji odpowiadającą wprowadzeniu członu liniowego (ma ona 1 stopień swobody) a wariancją resztową z modelu liniowego (ma ona 2 stopnie swobody) przy pomocy testu F(1,n-2).

3. Można też przeprowadzić analizę współczynnika korelacji lub jego kwadratu (współczynnika determinacji).

Trochę żonglerki sumami

W ten sposób mamy wzór na współczynnik korelacji przenaszalny na regresję wielokrotną a przy okazji potrafimy wyrazić F przez współczynnik korelacji Dla dociekliwych: udowodnić tożsamość

Linearyzacja Mamy dopasować funkcję nieliniową y=f(x,y;a.b) Przekształcamy funkcję do takiej postaci aby uzyskać postać zlinearyzowaną y=ax+b Gdzie y jest nową zmienną zależną, x nową zmienną objaśniającą a a i b są nowymi parametrami, przy czym ogólnie x=x(x,y), y=y(x,y), a=a(a,b), b=b(a,b)

Przykład problemu nieliniowego linearyzowalnego: kinetyka reakcji pierwszego rzędu

Jeżeli chcemy postępować poprawnie to należy wykonać regresję ważoną, wyliczając wagi poszczególnych przekształconych zmiennych objaśniających zgodnie z rachunkiem błędów. W poprzednim przykładzie

Inne przykłady linearyzacji: Równanie Michalisa-Mentena Równanie Hilla

Obie zmienne są obarczone porównywalnym błędem Sposób: regresja ortogonalna sy sx y x Poprawiona wartość wagi zależy od a, które jest parametrem regresji. Problem liniowy przekształca się w nieliniowy. Problem można obejść przeprowadzając najpierw “zwykłą” regresję i wyznaczyć przybliżone a, następnie wstawić a do wzoru na wagi i przeprowadzić regresję jeszcze raz.

Regresja uogólniona albo analiza konfluentna (x,y) x y (x*,y*)

Przykład problemu nieliniowego nielinearyzowalngo: kinetyka reakcji pierwszego rzędu z produktem przejściowym

Parę słów o macierzach Macierz m´n: tablica m na n (m wierszy n kolumn) liczb (np. tabliczka mnożenia). Macierz kwadradowa: m=n Macierz symetryczna (zawsze kwadratowa): aij=aji Macierz transponowana AT: (AT)ij=aji Macierz nieosobliwa: macierz o niezerowym wyznaczniku. Macierz dodatnio określona: xTAx>0 dla każdego niezerowego wektora x. Norma euklidesowa macierzy: Norma spektralna macierzy Wskaźnik uwarunkowania macierzy

Regresja liniowa wielokrotna Zmienne objaśniające x1,x2,…,xm nie muszą odpowiadać różnym wielkościom lecz mogą być funkcjami tej samej wielkości mierzonej (np. jej kolejnymi potęgami w przypadku dopasowywania wielomianów). Tak więc możemy tu mówić o ugólnym dopasowywaniu krzywych, które można przedstawić jako liniowe funkcje parametrów lub ich kombinacji.

Podobnie jak w przypadku “zwykłej” regresji minimalizujemy następujące sumy kwadratów odchyleń: regresja nieważona regresja ważona

Przypadek szczególny: dopasowywanie wielomianu

Macierz wariancji-kowariancji parametrów: Wariancja resztowa: Macierz wariancji-kowariancji parametrów: Regresja nieważona Regresja ważona Odchylenia standardowe poszczególnych parametrów: Regresja nieważona Regresja ważona

Macierz wariancji-kowariancji (dyspersji) parametrów Macierz współczynników korelacji parametrów

Wyprowadzenie

Test F dla istotności efektu liniowego Test F dla istotności włączenia nowych parmetrów m2>m1 F(m2,m1) porównujemy z wartością krytyczną Fa,m1-m2,n-m2 dla poziomu istotności a. F porównujemy z wartością krytyczną Fa,m-1,n-m Współczynnik determinacji i jego związek z F

Ocena istotności danego parametru Weryfikujemy następującą hipotezę zerową: H0 : pi = 0 wobec H1 : a ≠ 0 (jeżeli a = 0 “w granicach błędu” to nie można mówić o regresji) Przy prawdziwości H0 statystyka: ma rozkład t Studenta z liczbą stopni swobody równej n - m.

Przykład dopasowywania wielomianu: rozkład cosinusa kąta rozpraszania mezonów K z protonami (zakładamy że sj=sqrt(yj). j tj=cos(Qj) yj 1 -0.9 81 2 -0.7 50 3 -0.5 35 4 -0.3 27 5 -0.1 26 6 0.1 60 7 0.3 106 8 0.5 189 9 0.7 318 10 0.9 520

m p1 p2 p3 p4 p5 p6 f F F0.9 1 57.85 9 833.55 - 2 82.66 99.10 8 585.45 3.92 3.458 47.27 185.96 273.61 7 36.41 105.55 3.589 4 37.94 126.55 312.02 137.59 6 2.85 70.65 3.776 5 39.62 119.10 276.49 151.91 52.60 1.68 3.48 4.060 39.88 121.39 273.19 136.58 56.90 16.72 1.66 0.05 4.545

Przykład zastosowania regresji wielokrotnej w analizie QSAR (Leow et al., Bioorganic & Medicinal Chemistry Letters, 17(4), 1025-2032, 2007) IC50 – stężenie związku potrzebne do połówkowej inhibicji ludzkiej metylotransferazy izopropenylocysteinowej. pIC50=-log(IC50) PSA – powierzchnia grup polarnych [A2] PV – objętość grup polarnych [A3] PB1 – parametr steryczny podstawionej grupy fenylowej pPh2 – lipofilowość podstawionego pierścienia fenylowego

Metody rozwiązywania układów równań liniowych

Metody skończone: Metoda Gaussa Metoda Gaussa-Jordana Metody Choleskiego Metoda Householdera Metoda sprzężonych gradientów Metody iteracyjne dla dużych układów równań: Metoda Jacobiego Metoda Gaussa-Seidla

Metoda eliminacji Gaussa z wyborem elementu głównego w kolumnie Układ równań sprowadzamy do postaci trójkątnej Układ z macierzą trójkątną można następnie łatwo rozwiązać zaczynając od obliczenia wartości xn z n-tego równania, następnie wstawić xn do równania n-1 i wyliczyć z niego xn-1, następnie wstawić xn oraz xn-1 do równania n-2 i wyliczyć xn-2 aż do dotarcia do równania pierwszego i wyznaczenia x1.

Wybieramy równanie i takie, że |ai1| jest największym elementem w pierwszej kolumnie po czym przestawiamy i-te równanie na początek i eliminujemy x1 z równań od 2 do n. Procedurę powtarzamy z macierzą A(1) o rozmiarach (n-1)x(n-1) i wektorem b(1) o rozmiarze n-1, eliminując z nich drugą zmienną i otrzymując macierz A(2) o rozmiarach (n-2)x(n-2) i wektor b(2) o rozmiarze n-2. W ten sam sposób postępujemy z kolejnymi macierzami A(2), A(3),..., A(n-1) oraz wektorami b(2), b(3),..., b(n-1).

Dla j-tego kroku Po zakończeniu operacji otrzymujemy układ równań z macierzą trójkątną p jest liczbą przestawień wierszy macierzy A podczas sprowadzania układu równań do postaci trójkątnej.

Z otrzymanego układu równań z macierzą trójkątną wyznaczamy po kolei xn, xn-1,..., x1. Wysiłek obliczeniowy (liczba mnożeń i dzieleń) w metodzie eliminacji Gaussa: Faktoryzacja macierzy A: n(n2-1)/3 operacji Przekształcenie wektora b: n(n-1)/2 operacji Obliczenie x: n(n+1)/2 operacji. Razem: n3/3+n2-n/3≈n3/3 operacji. Kod źródłowy metody eliminacji Gaussa.

Metody typu Choleskiego dla macierzy symetrycznych silnie nieosobliwych LT D L L klasyczna metoda Choleskiego tylko dla macierzy dodatnio określonych.

Postępowanie przy rozwiązywaniu układów równań metodą faktoryzacji Choleskiego. Wyznaczenie faktorów L i D. Układ przyjmuje postać LDLTx=b 2. Obliczenie pomocniczego wektora w. w=L-1b przez rozwiązanie układu równań Lw=b. Ponieważ L jest macierzą trójkątną dolną układ ten rozwiązuje się wyliczając kolejno w1, w2,…, wn podobnie jak w koncowym etapie eliminacji Gaussa. 3. Obliczenie z=D-1w (D jest macierzą diagonalną więc po prostu dzielimy wi przez dii. Ten etap nie występuje w klasycznej metodzie Choleskiego. 4. Obliczenie x poprzez rozwiązanie układu równań z macierzą trójkątną górną LTx=z Ten etap jest identyczny z ostatnim etapem metody eliminacji Gaussa. Metoda wymaga ok. n3/6 operacji (2 razy mniej niż metoda eliminacji Gaussa). Uwaga: klasyczna metoda Choleskiego wymaga ponadto n pierwiastkowań.

Klasyczna faktoryzacja Choleskiego (A=LLT)

Faktoryzacja “bezpierwiastkowa” kod źródłowy