Gry różniczkowe i ich zastosowania w Automatyce i Robotyce

Slides:



Advertisements
Podobne prezentacje
Modelowanie i symulacja
Advertisements

Sterowanie – metody alokacji biegunów II
Metody badania stabilności Lapunowa
Planowanie bezkolizyjnego ruchu w środowisku wielu robotów z wykorzystaniem gier niekooperacyjnych OWD
Obserwowalność System ciągły System dyskretny
Równanie różniczkowe zupełne i równania do niego sprowadzalne
11. Różniczkowanie funkcji złożonej
Modelowanie pojedynczej populacji .
Rachunek prawdopodobieństwa 2
Badania operacyjne. Wykład 2
Przykład: Dana jest linia długa o długości L 0 bez strat o stałych kilometrycznych L,C.Na początku linii zostaje załączona siła elektromotoryczna e(t),
Wykład no 11.
ZLICZANIE cz. II.
„METODA FOURIERA DLA JEDNORODNYCH WARUNKÓW BRZEGOWYCH f(0)=f(a)=0”
Wykład 16 Ruch względny Bąki. – Precesja swobodna i wymuszona
Metody Sztucznej Inteligencji w Sterowaniu 2009/2010Optymalizacja miary efektywności działania sztucznych sieci neuronowych Dr hab. inż. Kazimierz Duzinkiewicz,
Systemy dynamiczneOdpowiedzi systemów – modele różniczkowe i różnicowe Kazimierz Duzinkiewicz, dr hab. inż.Katedra Inżynierii Systemów Sterowania 1 Systemy.
Sterowalność i obserwowalność
Obserwowalność System ciągły System dyskretny u – wejścia y – wyjścia
Układ równań stopnia I z dwoma niewiadomymi
Stabilność Stabilność to jedna z najważniejszych właściwości systemów dynamicznych W większości przypadków, stabilność jest warunkiem koniecznym praktycznego.
Opis matematyczny elementów i układów liniowych
Automatyka Wykład 3 Modele matematyczne (opis matematyczny) liniowych jednowymiarowych (o jednym wejściu i jednym wyjściu) obiektów regulacji.
Automatyka Wykład 3 Modele matematyczne (opis matematyczny) liniowych jednowymiarowych (o jednym wejściu i jednym wyjściu) obiektów, elementów i układów.
Hipoteza cegiełek, k-ramienny bandyta, minimalny problem zwodniczy
Elementy Rachunku Prawdopodobieństwa i Statystyki
Modele ze strukturą wieku
Metody Lapunowa badania stabilności
AUTOMATYKA i ROBOTYKA (wykład 6)
Podstawy analizy matematycznej II
Obserwatory zredukowane
Stabilność Stabilność to jedno z najważniejszych pojęć teorii sterowania W większości przypadków, stabilność jest warunkiem koniecznym praktycznego zastosowania.
Rozważaliśmy w dziedzinie czasu zachowanie się w przedziale czasu od t0 do t obiektu dynamicznego opisywanego równaniem różniczkowym Obiekt u(t) y(t) (1a)
AUTOMATYKA i ROBOTYKA (wykład 5)
Elementy Rachunku Prawdopodobieństwa i Statystyki
Wykład 2. Pojęcie regularnego odwzorowania powierzchni w powierzchnię i odwzorowania kartograficznego Wykład 2. Pojęcie regularnego odwzorowania powierzchni.
Modelowanie i podstawy identyfikacji 2012/2013Modele fenomenologiczne - dyskretyzacja Kazimierz Duzinkiewicz, dr hab. inż.Katedra Inżynierii Systemów Sterowania1.
Miary efektywności/miary dobroci/kryteria jakości działania SSN
Teoria sterowania 2011/2012Stabilno ść Kazimierz Duzinkiewicz, dr hab. in ż. Katedra In ż ynierii Systemów Sterowania 1 Stabilność Stabilność to jedno.
Dekompozycja Kalmana systemów niesterowalnych i nieobserwowalnych
Modele dyskretne obiektów liniowych
Teoria sterowania Wykład 9 Transmitancja operatorowa i stabilność liniowych układu regulacji automatycznej.
II. Matematyczne podstawy MK
Obserwowalność i odtwarzalność
Sterowalność - osiągalność
Sterowanie – metody alokacji biegunów II
MECHANIKA I WYTRZYMAŁOŚĆ MATERIAŁÓW
Stabilność Stabilność to jedno z najważniejszych pojęć dynamiki systemów i teorii sterowania W większości przypadków, stabilność jest warunkiem koniecznym.
Ile rozwiązań może mieć układ równań?
Drgania punktu materialnego
Dynamika układu punktów materialnych
Metody numeryczne szukanie pierwiastka metodą bisekcji
Przykład 1: obiekt - czwórnik RC
Metody matematyczne w Inżynierii Chemicznej
Systemy dynamiczne 2014/2015Obserwowalno ść i odtwarzalno ść  Kazimierz Duzinkiewicz, dr hab. in ż. Katedra In ż ynierii Systemów Sterowania 1 Obserwowalność.
Zagadnienia AI wykład 2.
WYKŁAD 5 OPTYKA FALOWA OSCYLACJE I FALE
Autor: Michał Salewski
Warstwowe sieci jednokierunkowe – perceptrony wielowarstwowe
Wykład Rozwinięcie potencjału znanego rozkładu ładunków na szereg momentów multipolowych w układzie sferycznym Rozwinięcia tego można dokonać stosując.
Zbiory fraktalne I Ruchy browna.
© Prof. Antoni Kozioł, Wydział Chemiczny Politechniki Wrocławskiej MATEMATYCZNE MODELOWANIE PROCESÓW BIOTECHNOLOGICZNYCH Temat – 5 Modelowanie różniczkowe.
Teoria sterowania Wykład /2016
Metody matematyczne w Inżynierii Chemicznej
Podstawy automatyki I Wykład /2016
jest najbardziej efektywną i godną zaufania metodą,
Podstawy Teorii Sygnałów (PTS) Matematyczny opis systemów i sygnałów
Jednorównaniowy model regresji liniowej
Sterowanie procesami ciągłymi
Podstawy teorii spinu ½
Zapis prezentacji:

Gry różniczkowe i ich zastosowania w Automatyce i Robotyce Patryk Kołacki

Wprowadzenie Co to jest ten system dynamiczny?

Wprowadzenie Co to jest ten system dynamiczny? Jest to model matematyczny rzeczywistego zjawiska przyrody, którego ewolucja jest wyznaczona jednoznacznie przez stan początkowy; najczęściej jest opisany wektorowym równaniem różniczkowym, zwanym równaniem stanu. Co to jest ten system dynamiczny?

Definicje czasu Dwie możliwe definicje czasu: czas dyskretny: czas przybiera wartości ze zbioru {0,1,2,…}. może być rozumiany jako kolejne kroki/iteracje czasowe dobry model do opisu komputerów i systemów cyfrowych czas ciągły: czas przybiera wartości ze zbioru modele systemów wynikające ze zjawisk fizycznych przykłady: samoloty, samochody, temperatura w pokoju, ruch planet wokół słońca Dyskretne systemy dynamiczne są opisywane równaniami różnicowymi: Ciągłe systemy dynamiczne są opisywane równaniami różniczkowymi:

Sterowanie systemem dynamicznym Prawie wszystkie systemy dynamiczne posiadają pewien zbiór wejść sterujących. Zachowanie się systemu jest zdeterminowane przez obecny stan oraz stan wejść. Równanie różnicowe systemu dynamicznego czasu dyskretnego: Równanie różniczkowe systemu dynamicznego czasu ciągłego: Od teraz będziemy rozważać tylko systemy dynamiczne czasu ciągłego…

Definicja gry różniczkowej Zdefiniujmy grę różniczkową. Ustalmy przedział [0, T], zbiory przy czym , oraz funkcję lipschitzowską . Określmy ponadto zbiory: nazywane zbiorami sterowań graczy P1 i P2.

Definicja gry różniczkowej cd. Niech będzie absolutnie ciągłym rozwią- zaniem równania różniczkowego: gdzie:

Definicja gry różniczkowej cd. Ustalmy funkcje i zdefiniowane tak, że dobrze określone są funkcjonały: dla i = 1, 2, dane wzorami: gdzie: i-ty funkcjonał L jest nazywany funkcjonałem kosztu i-tego gracza. Czas T wyznaczający czas końca gry może być nieskoń- czony. Problemem optymalizacyjnym jest takie znalezienie stero- wania u(t) (rozumianego tutaj jako wektor sterowań) aby zmini- malizować funkcjonał (każdy gracz minimalizuje swój własny funkcjonał).

Przykład - pościg i ucieczka Rozważmy obiekt latający (np. dron lub quadrocopter) opisany następującym wektorowym równaniem różniczkowym: i pocisk który próbuje „złapać” nasz obiekt latający: Wprowadzamy opis w przestrzeni stanów: That’s my game! Definiujemy: , jeżeli Funkcjonały kosztu obu graczy definiujemy jako:

Typy gier różniczkowych Gry różniczkowe klasyfikujemy ze względu na wzorzec informacji jaki jest dostępny dla i-tego gracza w czasie t. Oznaczamy go przez , istnieją cztery typy gier: wzorzec informacji w tzw. pętli otwartej: każdy gracz obserwuje warunki początkowe innych graczy i wybiera na początku swoje sterowanie: podczas ewolucji stanu systemu gracze nie mogą (!) zmieniać swoich sterowań wzorzec informacji w tzw. pętli zamkniętej: każdy gracz wybiera swoje sterowanie na początku w każdej chwili czasu można zmienić sterowanie w zależności od stanu systemu czy też reakcji innego gracza

Typy gier różniczkowych cd. memoryless perfect state: feedback perfect state: Powyższe typy wzorców informacyjnych stanowią niejako „mixy” dwóch poprzednich, są jednak spotykane w opisach realnych układów sterowania dlatego zostały tu przed- stawione.

Gry o sumie zerowej O danej grze różniczkowej możemy mówić, że jest grą o sumie zerowej jeżeli spełniony jest poniższy warunek: przy czym C może być dowolną stałą. Oczywiście powyższą definicję można łatwo rozszerzyć na grę w której występuje N graczy.

Punkt równowagi Nasha Koncepcja punktu równowagi Nasha w grach różniczkowych przedstawia się nas- tępująco: „żaden z graczy nie może zmniejszyć swojego kosztu (zwiększyć wypła- ty) poprzez jednostronną zmianę swojej strategii”. Formalna definicja ma następu- jącą treść: Mówimy, że para sterowań , (i =1,2), jest strategią równowagi Nasha jeżeli dla każdego i spełnione są nierówności:

Punkt siodłowy Idea punktu siodłowego w grach różniczkowych opiera się na 3 stwierdzeniach: punkt siodłowy jest osiągany tylko w grach o sumie zerowej mamy do czynienia z jedną funkcją kosztu/wypłaty L gracz I chce zmaksymalizować funkcję L, a gracz 2 zminimalizować L. Przy takich założeniach definiujemy jako punkt siodłowy jeżeli: Uwaga! Ta definicja nie może być rozszerzona na grę w której uczestniczy większa niż 2 liczba graczy.

Twierdzenie weryfikacyjne - Założenia Załóżmy, że istnieją sterowania oraz funkcje , spełniające układ równań różniczkowych cząstkowych: gdzie funkcje są ciągłe i ponadto są nieujemne dla

Twierdzenie weryfikacyjne - Teza Jeżeli spełnione są wszystkie przedstawione wcześniej zało- żenia, to para sterowań jest strategią równowagi Nasha i ponadto:

Gry liniowo - kwadratowe Grę różniczkową nazywamy liniowo – kwadratową jeżeli: , oraz: gdzie: - macierze odpowiednich wymiarów, symetrycznie i nieujemnie określone, a dodat- nio określona.

Wartość gry Przypuśćmy, że istnieje pewna funkcja, określająca wartość gry; wartość gry różni- czkowej, która rozpoczyna się w punkcie , będziemy oznaczać przez . Załóżmy, że w czasie t = 0 gracz I wybiera sterowanie , a gr. II – sterowanie . Po bardzo małym interwale czasu dt zauważymy, że wektor stanu będzie w przybliżeniu równy , gdzie lub w skła- dowych: (*) oraz ogólna wypłata równa się w przybliżeniu: (**) Następnie gra rozpoczyna się z punktu , wyznaczonego przez równanie (*), z osiągniętą już wypłatą (**). Jeżeli rozpoczynając grę od chwili dt, nadal stosowane są optymalne strategie, to ogólna funkcja wypłaty będzie równa: Wiadomo jednak, że: , gdzie:

Wartość gry cd. Mamy zatem: Zatem zakładając, że i są optymalnymi strategiami wybranymi w czasie t = 0, otrzymujemy [na mocy definicji: wartość gry = sup inf (funkcja wypłaty)]: lub, kładąc , mamy: (+) albo w postaci równoważnej: (++) Równanie (+) lub równoważne mu równanie (++) nazywamy równaniem podstawo- wym. Jest to równanie o pochodnych cząstkowych rzędu pierwszego na wartość gry Różniczkowej W(x). W(x) jest oczywiście funkcją stanu początkowego x(0). W równa- niu (++) na ogół można zmieniać kolejność działania dwóch operatorów sup i inf, cho- ciaż w praktyce mogą występować powierzchnie o małych rozmiarach, na których nie musi zachodzić równość.

Bibliografia J. Zabczyk, „Zarys matematycznej teorii sterowania”, Wydawnictwo Naukowe PWN, Warszawa 1991 A. Myślicki, „Gry różniczkowe i całkowe w przestrzeniach fizycznych”, Państwowe Wydawnictwo Naukowe, Warszawa 1974 D. Fundenberg, „Game Theory”, MIT Press, 1991 Wykład autorstwa S. Karamana, MIT, 8.XII.2010 z przedmiotu „Principles of Autonomy and Decision Making”