Pobieranie prezentacji. Proszę czekać

Pobieranie prezentacji. Proszę czekać

Regresja liniowa Dany jest układ punktów x y x – zmienna objaśniająca (nie obarczona błędem) y – zmienna zależna (obarczona błędem) Naszym zadaniem jest.

Podobne prezentacje


Prezentacja na temat: "Regresja liniowa Dany jest układ punktów x y x – zmienna objaśniająca (nie obarczona błędem) y – zmienna zależna (obarczona błędem) Naszym zadaniem jest."— Zapis prezentacji:

1 Regresja liniowa Dany jest układ punktów x y x – zmienna objaśniająca (nie obarczona błędem) y – zmienna zależna (obarczona błędem) Naszym zadaniem jest poprowadzenie „najlepszej” prostej przez te punkty.

2 Wyznaczanie optymalnych parametrów a i b

3 Bardziej ogólny przypadek dopasowywania równania prostej: regresja ważona

4 Ocena istotności równania regresji 1.Weryfikujemy następującą hipotezę zerową: H 0 : a = 0 wobec H 1 : a ≠ 0 (jeżeli a = 0 “w granicach błędu” to nie można mówić o regresji) Przy prawdziwości H 0 statystyka: ma rozkład t Studenta z liczbą stopni swobody równej n - 2.

5 Z tablic rozkładu Studenta odczytujemy, dla wcześniej przyjętego poziomu istotności , wartość krytyczną t n-2, . Jeżeli obliczona wartość t znajduje w dwustronnym obszarze krytycznym (- , - t n-2,  ), (t n-2, , +  ), to H 0 należy odrzucić na korzyść hipotezy H 1

6 2. Zbadanie istotności różnicy pomiędzy różnicą wariancji odpowiadającą wprowadzeniu członu liniowego (ma ona 1 stopień swobody) a wariancją resztową z modelu liniowego (ma ona 2 stopnie swobody) przy pomocy testu F(1,n-2).

7 3. Można też przeprowadzić analizę współczynnika korelacji lub jego kwadratu (współczynnika determinacji).

8 Trochę żonglerki sumami

9 Dla dociekliwych: udowodnić tożsamość W ten sposób mamy wzór na współczynnik korelacji przenaszalny na regresję wielokrotną a przy okazji potrafimy wyrazić F przez współczynnik korelacji

10 Linearyzacja Mamy dopasować funkcję nieliniową y=f(x,y;a.b) Przekształcamy funkcję do takiej postaci aby uzyskać postać zlinearyzowaną  =  +  Gdzie  jest nową zmienną zależną,  nową zmienną objaśniającą a a i b są nowymi parametrami, przy czym ogólnie  =  (x,y),  =  (x,y),  =  (a,b),  =  (a,b)

11 Przykład problemu nieliniowego linearyzowalnego: kinetyka reakcji pierwszego rzędu

12 Jeżeli chcemy postępować poprawnie to należy wykonać regresję ważoną, wyliczając wagi poszczególnych przekształconych zmiennych objaśniających zgodnie z rachunkiem błędów. W poprzednim przykładzie

13 Inne przykłady linearyzacji: Równanie Michalisa-Mentena Równanie Hilla

14 Obie zmienne są obarczone porównywalnym błędem x y xx yy Poprawiona wartość wagi zależy od a, które jest parametrem regresji. Problem liniowy przekształca się w nieliniowy. Problem można obejść przeprowadzając najpierw “zwykłą” regresję i wyznaczyć przybliżone a, następnie wstawić a do wzoru na wagi i przeprowadzić regresję jeszcze raz. Sposób: regresja ortogonalna

15 Regresja uogólniona albo analiza konfluentna x y (x,y) (x*,y*)

16 Przykład problemu nieliniowego nielinearyzowalngo: kinetyka reakcji pierwszego rzędu z produktem przejściowym

17 Parę słów o macierzach Macierz m  n : tablica m na n ( m wierszy n kolumn) liczb (np. tabliczka mnożenia). Macierz kwadradowa: m=n Macierz symetryczna (zawsze kwadratowa): a ij =a j i Macierz transponowana A T : (A T ) ij =a ji Macierz nieosobliwa: macierz o niezerowym wyznaczniku. Macierz dodatnio określona: x T Ax>0 dla każdego niezerowego wektora x. Norma euklidesowa macierzy: Norma spektralna macierzy Wskaźnik uwarunkowania macierzy

18 Regresja liniowa wielokrotna Zmienne objaśniające x 1,x 2,…,x m nie muszą odpowiadać różnym wielkościom lecz mogą być funkcjami tej samej wielkości mierzonej (np. jej kolejnymi potęgami w przypadku dopasowywania wielomianów). Tak więc możemy tu mówić o ugólnym dopasowywaniu krzywych, które można przedstawić jako liniowe funkcje parametrów lub ich kombinacji.

19 regresja nieważona regresja ważona Podobnie jak w przypadku “zwykłej” regresji minimalizujemy następujące sumy kwadratów odchyleń:

20 Przypadek szczególny: dopasowywanie wielomianu

21

22 Macierz wariancji-kowariancji parametrów: Wariancja resztowa: Odchylenia standardowe poszczególnych parametrów: Regresja nieważona Regresja ważona Regresja nieważona Regresja ważona

23 Macierz wariancji-kowariancji (dyspersji) parametrów Macierz współczynników korelacji parametrów

24 Wyprowadzenie

25 Test F dla istotności efektu liniowego Test F dla istotności włączenia nowych parmetrów m 2 >m 1 F(m 2,m 1 ) porównujemy z wartością krytyczną F ,m1-m2,n-m2 dla poziomu istotności . F porównujemy z wartością krytyczną F ,m-1,n-m Współczynnik determinacji i jego związek z F

26 Ocena istotności danego parametru Weryfikujemy następującą hipotezę zerową: H 0 : p i = 0 wobec H 1 : a ≠ 0 (jeżeli a = 0 “w granicach błędu” to nie można mówić o regresji) Przy prawdziwości H 0 statystyka: ma rozkład t Studenta z liczbą stopni swobody równej n - m.

27 Przykład dopasowywania wielomianu: rozkład cosinusa kąta rozpraszania mezonów K z protonami (zakładamy że  j =sqrt(y j ). j t j =cos(  j ) yjyj

28 mp1p1 p2p2 p3p3 p4p4 p5p5 p6p6 f  FF

29 Przykład zastosowania regresji wielokrotnej w analizie QSAR (Leow et al., Bioorganic & Medicinal Chemistry Letters, 17(4), , 2007) IC50 – stężenie związku potrzebne do połówkowej inhibicji ludzkiej metylotransferazy izopropenylocysteinowej. pIC50=-log(IC50) PSA – powierzchnia grup polarnych [A 2 ] PV – objętość grup polarnych [A 3 ] PB1 – parametr steryczny podstawionej grupy fenylowej  Ph2 – lipofilowość podstawionego pierścienia fenylowego

30 Metody rozwiązywania układów równań liniowych

31 Metody skończone: Metoda Gaussa Metoda Gaussa-Jordana Metody Choleskiego Metoda Householdera Metoda sprzężonych gradientów Metody iteracyjne dla dużych układów równań: Metoda Jacobiego Metoda Gaussa-Seidla

32 Metoda eliminacji Gaussa z wyborem elementu głównego w kolumnie Układ równań sprowadzamy do postaci trójkątnej Układ z macierzą trójkątną można następnie łatwo rozwiązać zaczynając od obliczenia wartości x n z n-tego równania, następnie wstawić x n do równania n-1 i wyliczyć z niego x n-1, następnie wstawić x n oraz x n-1 do równania n-2 i wyliczyć x n-2 aż do dotarcia do równania pierwszego i wyznaczenia x 1.

33 1.Wybieramy równanie i takie, że |a i1 | jest największym elementem w pierwszej kolumnie po czym przestawiamy i-te równanie na początek i eliminujemy x 1 z równań od 2 do n. 2.Procedurę powtarzamy z macierzą A (1) o rozmiarach (n-1)x(n-1) i wektorem b (1) o rozmiarze n-1, eliminując z nich drugą zmienną i otrzymując macierz A (2) o rozmiarach (n-2)x(n-2) i wektor b (2) o rozmiarze n-2. W ten sam sposób postępujemy z kolejnymi macierzami A (2), A (3),..., A (n-1) oraz wektorami b (2), b (3),..., b (n-1).

34 Dla j-tego kroku Po zakończeniu operacji otrzymujemy układ równań z macierzą trójkątną p jest liczbą przestawień wierszy macierzy A podczas sprowadzania układu równań do postaci trójkątnej.

35 3.Z otrzymanego układu równań z macierzą trójkątną wyznaczamy po kolei x n, x n-1,..., x 1. Wysiłek obliczeniowy (liczba mnożeń i dzieleń) w metodzie eliminacji Gaussa: Faktoryzacja macierzy A: n(n 2 -1)/3 operacji Przekształcenie wektora b: n(n-1)/2 operacji Obliczenie x: n(n+1)/2 operacji. Razem: n 3 /3+n 2 -n/3≈n 3 /3 operacji. Kod źródłowy metody eliminacji Gaussa.

36 Metody typu Choleskiego dla macierzy symetrycznych silnie nieosobliwych LTLT L D L klasyczna metoda Choleskiego tylko dla macierzy dodatnio określonych.

37 Postępowanie przy rozwiązywaniu układów równań metodą faktoryzacji Choleskiego. 1.Wyznaczenie faktorów L i D. Układ przyjmuje postać LDL T x=b 2. Obliczenie pomocniczego wektora w. w=L -1 b przez rozwiązanie układu równań Lw=b. Ponieważ L jest macierzą trójkątną dolną układ ten rozwiązuje się wyliczając kolejno w 1, w 2,…, w n podobnie jak w koncowym etapie eliminacji Gaussa. 3. Obliczenie z=D -1 w (D jest macierzą diagonalną więc po prostu dzielimy w i przez d ii. Ten etap nie występuje w klasycznej metodzie Choleskiego. 4. Obliczenie x poprzez rozwiązanie układu równań z macierzą trójkątną górną L T x=z Ten etap jest identyczny z ostatnim etapem metody eliminacji Gaussa. Metoda wymaga ok. n 3 /6 operacji (2 razy mniej niż metoda eliminacji Gaussa). Uwaga: klasyczna metoda Choleskiego wymaga ponadto n pierwiastkowań.

38 Klasyczna faktoryzacja Choleskiego (A=LL T )

39 Faktoryzacja “bezpierwiastkowa” kod źródłowykod źródłowy


Pobierz ppt "Regresja liniowa Dany jest układ punktów x y x – zmienna objaśniająca (nie obarczona błędem) y – zmienna zależna (obarczona błędem) Naszym zadaniem jest."

Podobne prezentacje


Reklamy Google