Nieliniowa metoda najmniejszych kwadratów Problem liniowy Problem nieliniowy Model: Wymiar x = n Model i poszczególne obserwacje Liczba obserwacji: m Warunek:
Założenia: - f jest funkcjonałem, ciągłym i mającym co najmniej pierwsze pochodne Wielkości: - wektor wartości prawdziwych y - wektor wartości mierzonych y - wektor wartości estymowanych y - wektor wartości prawdziwych parametrów - wektor wartości estymowanych parametrów - wektor błędów resztkowych (residuów) - wektor błędów pomiaru
Podobnie jak dla przypadku liniowego obowiązują zależności: Będziemy też oznaczali: Zadanie optymalnej estymacji nieliniowej metodą najmniejszych kwadratów formułowane w taki sam sposób jak zagadnienie estymacji liniowej Znaleźć minimalizujące (1)
Inne metody iteracyjnego poszukiwania punktów optymalnych Dodatek A W praktycznych zadaniach uzyskanie jawnego rozwiązania (1) podobnie jak dla zadania liniowego jest niemożliwe Potrzebne są metody, które startując z danego punktu początkowego (początkowego przybliżenia), poprzez kolejne, iteracyjnie uzyskiwane, przybliżenia zbieżne są do optymalnej estymaty według metody najmniejszych kwadratów Pokażemy zastosowanie metody Newton’a Inne metody iteracyjnego poszukiwania punktów optymalnych Dodatek A
Oznaczmy bieżącą znaną estymatę nieznanych wartości parametrów Błąd resztkowy dla tej bieżącej znanej estymaty nieznanych wartości parametrów wynosi Kolejną skorygowaną estymatę nieznanych wartości parametrów będziemy starali się znaleźć jako Błąd resztkowy dla tej skorygowanej estymaty nieznanych wartości parametrów wyniesie
Jeżeli składowe są wystarczająco małe można z ich pomocą posługiwać się liniową aproksymacją funkcji w otoczeniu Liniowa aproksymacja oznaczmy macierz jakobianu wówczas liniowa aproksymacja funkcji w otoczeniu
Możemy podać liniowe przybliżenie (predykcję) błędu resztkowego w pobliżu Pamiętając, że - bieżący błąd resztkowy Możemy napisać zależność dla liniowego przybliżenia błędu resztkowego w pobliżu Funkcja kryterialna zadania optymalnej estymacji nieliniowej metodą najmniejszych kwadratów miała postać (1) Aproksymacja tej funkcji kryterialnej w otoczeniu
Mamy Funkcję kryterialną zadania optymalnej estymacji nieliniowej metodą najmniejszych kwadratów Aproksymację tej funkcji kryterialnej w otoczeniu (2) Spostrzeżenie: postać aproksymacji jest identyczna jak rozważane funkcje kryterialne ważonej estymacji liniowej możemy stosować te same metody rozwiązania Zatem: „lokalnie” optymalna korekcja wartości estymat obliczana z wzoru (3)
Strategia: - wybrać początkowe przybliżenie estymat parametrów - korzystając z (3) obliczyć „lokalnie” optymalną korekcję estymat - obliczyć nowe przybliżenie estymat parametrów - ……… Kiedy zakończyć proces iteracyjny? proces zbieżny – różnice wartości funkcji kryterialnej w kolejnych iteracjach są nieznaczące proces niezbieżny – liczba wykonanych iteracji przekracza ustaloną wartość
Realizacja nieliniowej metody najmniejszych kwadratów Model Określ STOP TAK NIE Maksimum iteracji? Estymata początkowa - liniowa lokalna aproksymacja błędów resztkowych Warunek zatrzymania:
Przykład 1: (estymacja parametrów prostego układu dynamicznego) System Dyskretna reprezentacja systemu z przedziałem dyskretyzacji Δt gdzie: Chcemy teraz określić a oraz b bezpośrednio z równania
Mamy Elementy jakobianu
Wybrany punkt startowy dla metody Newton’a Jakobian równań pomiarów Wybrany punkt startowy dla metody Newton’a Parametr zatrzymania dla metody Newton’a
Iteracja 5.0000 5.0000 1 0.4876 1.9540 2 -0.8954 1.0634 3 -1.0003 0.9988 4 -1.0009 0.9985 5 0.9985 -1.0009 6 -1.0009 0.9985 Przeliczenie Poprzednio
Wybrane metody iteracyjnego poszukiwania punktów optymalnych Dodatek A Wybrane metody iteracyjnego poszukiwania punktów optymalnych
Jak rozwiązać zagadnienie zadanie optymalizacji nieliniowej bez ograniczeń? Dla znalezienia minimum funkcjonału nieliniowego można skorzystać z metod iteracyjnych Jeden ze sposobów postępowania w metodach iteracyjnych można streścić w następujących punktach: 1. proces poszukiwania rozpoczynamy w pewnym punkcie 2. poruszamy się od punktu do punktu zgodnie z ogólną formułą lub (1) gdzie, wektor określa kierunek poszukiwania, a dodatni skalar określa długość kroku wykonywanego w kierunku
Ogólny podział metod poszukiwania optimum: 1. metody poszukiwania bezpośredniego – do poszukiwania optimum wykorzystuje się tylko znajomość wartości funkcjonału w określonych punktach 2. metody pierwszego rzędu (gradientowe) – do poszukiwania optimum wykorzystuje się znajomość wartości pierwszych pochodnych funkcjonału w określonych punktach (wartości jakobianu-gradientu) 3. metody drugiego rzędu – do poszukiwania optimum wykorzystuje się oprócz znajomości wartości pierwszych pochodnych funkcjonału w określonych punktach (wartości jakobianu-gradientu), również wartości drugich pochodnych (wartości hessianu) tego funkcjonału w tych punktach
Metody gradientowe Wykorzystując (1) w zbliżaniu się do punktu optimum (minimum), chcielibyśmy Korzystając z rozwinięcia funkcjonału w szereg Taylor’a w otoczeniu punktu bieżącego dla wystarczająco małego otoczenia tego punktu możemy napisać (2) Załóżmy, że posiadamy oszacowanie gradientu funkcjonału w punkcie bieżącym
Jeżeli ma zachodzić to ma mocy musi zachodzić a to implikuje (3) bo
Kierunek spadku Dowolny wektor spełniający warunek (3) nazywamy jest kierunkiem spadku – wartość funkcjonału zmniejszy się jeżeli wykonany zostanie wystarczająco mały krok w tym kierunku
Kierunek najszybszego spadku Przemieszczając się od punktu do punktu w kierunkach najszybszego spadku postępujemy według metody najszybszego spadku W jaki sposób określić wyznaczający, przy znanym gradiencie długość kroku przemieszczenia ?
Długość kroku w kierunku gradientu 1. wykonać krok o takiej długości, aby w kierunku wskazanym przez gradient w punkcie osiągnąć optimum (minimum) funkcjonału - minimalizacja w kierunku - metoda najszybszego spadku 2. wybrać stałą wartość wykonywać kolejne kroki przemieszczenia z tą samą wartością lub określić regułę zmian wartości w zależności od numeru kroku i stosować w kolejnych krokach zmienną, ale uprzednio określoną wartość
Przykład 1: Punkt początkowy Współczynnik długości kroku Wartość gradientu w punkcie początkowym
Przemieszczenie do punktu itd.
Ilustracja graficzna:
Przykład 2: (wpływ wartości współczynnika długości kroku na przebieg minimalizacji Współczynnik długości kroku Trajektoria poszukiwania minimum ma oscylacyjny charakter – zbyt duża wartość współczynnika długości kroku może prowadzić do niestabilności procesu minimalizacji
Stabilność procesu minimalizacji Miara dobroci estymacji jest formą kwadratową Zatem gradient miary dobroci estymacji dany jest Podstawiając wyrażenie na gradient do formuły przemieszczania się od punktu do punktu w metodzie najszybszego spadku i przyjmując stałą wartość współczynnika długości kroku, otrzymamy Liniowy dyskretny system dynamiczny
Stabilność procesu minimalizacji Liniowy dyskretny system dynamiczny będzie stabilny, wtedy i tylko wtedy, gdy wszystkie wartości własne jego macierzy stanu są co do modułu mniejsze od jedności Macierz stanu Hessian formy kwadratowej Niech i będą wartościami i wektorami własnymi hessianu formy kwadratowej Zachodzi zatem:
Policzmy zatem wektory własne hessianu są również wektorami własnymi macierzy stanu a wartości własne macierzy stanu wynoszą Warunek stabilności metody najszybszego spadku Jeżeli założyć, że forma kwadratowa ma silne minimum, to wszystkie wartości własne hessianu są dodatnie i wówczas warunek stabilności
Ostatecznie lub Największy stabilny współczynnik długości kroku jest odwrotnie proporcjonalny do największej krzywizny formy kwadratowej Krzywizna określa jak szybko zmienia się gradient – jeżeli gradient zmienia się szybko, zbyt długi krok w kierunku ostatnio wyznaczonego gradientu może przemieścić poszukiwania do punktu w którym gradient ma wartość większą co do modułu od ostatnio wyznaczonego ale przeciwny znak, a to prowadzi do powiększania długości kroku z iteracji na iterację, czyli niestabilności algorytmu
Przykład 3: Punkt początkowy Dla rozważanej formy kwadratowej
Inne niebezpieczeństwa – różne punkty początkowe – różne optima Minima lokalne silne Minimum globalne
Zależność efektywności procesu iteracyjnego od „kształtu” kryterium
Metody drugiego rzędu (algorytmy Gauss’a-Newton’a) Jesteśmy w punkcie Chcemy dokonać przemieszczenia w taki sposób, aby wartość funkcjonału zmniejszyła się W niedużym otoczeniu zmiany wartości mogą być aproksymowane za pomocą rozwinięcia w szereg Taylor’a drugiego rzędu jakobian hessian
Lokalna strategia: dokonać przemieszczenia ,które minimalizuje aproksymację rzędu drugiego rozważanej funkcji celu Warunek konieczny: Warunek dostateczny: dodatnio określony
Z warunku koniecznego: stąd