Gry różniczkowe i ich zastosowania w Automatyce i Robotyce Patryk Kołacki
Wprowadzenie Co to jest ten system dynamiczny?
Wprowadzenie Co to jest ten system dynamiczny? Jest to model matematyczny rzeczywistego zjawiska przyrody, którego ewolucja jest wyznaczona jednoznacznie przez stan początkowy; najczęściej jest opisany wektorowym równaniem różniczkowym, zwanym równaniem stanu. Co to jest ten system dynamiczny?
Definicje czasu Dwie możliwe definicje czasu: czas dyskretny: czas przybiera wartości ze zbioru {0,1,2,…}. może być rozumiany jako kolejne kroki/iteracje czasowe dobry model do opisu komputerów i systemów cyfrowych czas ciągły: czas przybiera wartości ze zbioru modele systemów wynikające ze zjawisk fizycznych przykłady: samoloty, samochody, temperatura w pokoju, ruch planet wokół słońca Dyskretne systemy dynamiczne są opisywane równaniami różnicowymi: Ciągłe systemy dynamiczne są opisywane równaniami różniczkowymi:
Sterowanie systemem dynamicznym Prawie wszystkie systemy dynamiczne posiadają pewien zbiór wejść sterujących. Zachowanie się systemu jest zdeterminowane przez obecny stan oraz stan wejść. Równanie różnicowe systemu dynamicznego czasu dyskretnego: Równanie różniczkowe systemu dynamicznego czasu ciągłego: Od teraz będziemy rozważać tylko systemy dynamiczne czasu ciągłego…
Definicja gry różniczkowej Zdefiniujmy grę różniczkową. Ustalmy przedział [0, T], zbiory przy czym , oraz funkcję lipschitzowską . Określmy ponadto zbiory: nazywane zbiorami sterowań graczy P1 i P2.
Definicja gry różniczkowej cd. Niech będzie absolutnie ciągłym rozwią- zaniem równania różniczkowego: gdzie:
Definicja gry różniczkowej cd. Ustalmy funkcje i zdefiniowane tak, że dobrze określone są funkcjonały: dla i = 1, 2, dane wzorami: gdzie: i-ty funkcjonał L jest nazywany funkcjonałem kosztu i-tego gracza. Czas T wyznaczający czas końca gry może być nieskoń- czony. Problemem optymalizacyjnym jest takie znalezienie stero- wania u(t) (rozumianego tutaj jako wektor sterowań) aby zmini- malizować funkcjonał (każdy gracz minimalizuje swój własny funkcjonał).
Przykład - pościg i ucieczka Rozważmy obiekt latający (np. dron lub quadrocopter) opisany następującym wektorowym równaniem różniczkowym: i pocisk który próbuje „złapać” nasz obiekt latający: Wprowadzamy opis w przestrzeni stanów: That’s my game! Definiujemy: , jeżeli Funkcjonały kosztu obu graczy definiujemy jako:
Typy gier różniczkowych Gry różniczkowe klasyfikujemy ze względu na wzorzec informacji jaki jest dostępny dla i-tego gracza w czasie t. Oznaczamy go przez , istnieją cztery typy gier: wzorzec informacji w tzw. pętli otwartej: każdy gracz obserwuje warunki początkowe innych graczy i wybiera na początku swoje sterowanie: podczas ewolucji stanu systemu gracze nie mogą (!) zmieniać swoich sterowań wzorzec informacji w tzw. pętli zamkniętej: każdy gracz wybiera swoje sterowanie na początku w każdej chwili czasu można zmienić sterowanie w zależności od stanu systemu czy też reakcji innego gracza
Typy gier różniczkowych cd. memoryless perfect state: feedback perfect state: Powyższe typy wzorców informacyjnych stanowią niejako „mixy” dwóch poprzednich, są jednak spotykane w opisach realnych układów sterowania dlatego zostały tu przed- stawione.
Gry o sumie zerowej O danej grze różniczkowej możemy mówić, że jest grą o sumie zerowej jeżeli spełniony jest poniższy warunek: przy czym C może być dowolną stałą. Oczywiście powyższą definicję można łatwo rozszerzyć na grę w której występuje N graczy.
Punkt równowagi Nasha Koncepcja punktu równowagi Nasha w grach różniczkowych przedstawia się nas- tępująco: „żaden z graczy nie może zmniejszyć swojego kosztu (zwiększyć wypła- ty) poprzez jednostronną zmianę swojej strategii”. Formalna definicja ma następu- jącą treść: Mówimy, że para sterowań , (i =1,2), jest strategią równowagi Nasha jeżeli dla każdego i spełnione są nierówności:
Punkt siodłowy Idea punktu siodłowego w grach różniczkowych opiera się na 3 stwierdzeniach: punkt siodłowy jest osiągany tylko w grach o sumie zerowej mamy do czynienia z jedną funkcją kosztu/wypłaty L gracz I chce zmaksymalizować funkcję L, a gracz 2 zminimalizować L. Przy takich założeniach definiujemy jako punkt siodłowy jeżeli: Uwaga! Ta definicja nie może być rozszerzona na grę w której uczestniczy większa niż 2 liczba graczy.
Twierdzenie weryfikacyjne - Założenia Załóżmy, że istnieją sterowania oraz funkcje , spełniające układ równań różniczkowych cząstkowych: gdzie funkcje są ciągłe i ponadto są nieujemne dla
Twierdzenie weryfikacyjne - Teza Jeżeli spełnione są wszystkie przedstawione wcześniej zało- żenia, to para sterowań jest strategią równowagi Nasha i ponadto:
Gry liniowo - kwadratowe Grę różniczkową nazywamy liniowo – kwadratową jeżeli: , oraz: gdzie: - macierze odpowiednich wymiarów, symetrycznie i nieujemnie określone, a dodat- nio określona.
Wartość gry Przypuśćmy, że istnieje pewna funkcja, określająca wartość gry; wartość gry różni- czkowej, która rozpoczyna się w punkcie , będziemy oznaczać przez . Załóżmy, że w czasie t = 0 gracz I wybiera sterowanie , a gr. II – sterowanie . Po bardzo małym interwale czasu dt zauważymy, że wektor stanu będzie w przybliżeniu równy , gdzie lub w skła- dowych: (*) oraz ogólna wypłata równa się w przybliżeniu: (**) Następnie gra rozpoczyna się z punktu , wyznaczonego przez równanie (*), z osiągniętą już wypłatą (**). Jeżeli rozpoczynając grę od chwili dt, nadal stosowane są optymalne strategie, to ogólna funkcja wypłaty będzie równa: Wiadomo jednak, że: , gdzie:
Wartość gry cd. Mamy zatem: Zatem zakładając, że i są optymalnymi strategiami wybranymi w czasie t = 0, otrzymujemy [na mocy definicji: wartość gry = sup inf (funkcja wypłaty)]: lub, kładąc , mamy: (+) albo w postaci równoważnej: (++) Równanie (+) lub równoważne mu równanie (++) nazywamy równaniem podstawo- wym. Jest to równanie o pochodnych cząstkowych rzędu pierwszego na wartość gry Różniczkowej W(x). W(x) jest oczywiście funkcją stanu początkowego x(0). W równa- niu (++) na ogół można zmieniać kolejność działania dwóch operatorów sup i inf, cho- ciaż w praktyce mogą występować powierzchnie o małych rozmiarach, na których nie musi zachodzić równość.
Bibliografia J. Zabczyk, „Zarys matematycznej teorii sterowania”, Wydawnictwo Naukowe PWN, Warszawa 1991 A. Myślicki, „Gry różniczkowe i całkowe w przestrzeniach fizycznych”, Państwowe Wydawnictwo Naukowe, Warszawa 1974 D. Fundenberg, „Game Theory”, MIT Press, 1991 Wykład autorstwa S. Karamana, MIT, 8.XII.2010 z przedmiotu „Principles of Autonomy and Decision Making”