Uczenie ze wzmocnieniem

Slides:



Advertisements
Podobne prezentacje
Przykład liczbowy Rozpatrzmy dwuwymiarową zmienną losową (X,Y), gdzie X jest liczbą osób w rodzinie, a Y liczbą izb w mieszkaniu. Niech f.r.p. tej zmiennej.
Advertisements

Joanna Sawicka Wydział Nauk Ekonomicznych, Uniwersytet Warszawski
Metody badania stabilności Lapunowa
Obserwowalność System ciągły System dyskretny
Uczenie ze wzmocnieniem
Uczenie ze wzmocnieniem
Marcin Bogusiak Paweł Pilewski
Zmienne losowe i ich rozkłady
Metoda simpleks Simpleks jest uniwersalną metodą rozwiązywania zadań programowania liniowego. Jest to metoda iteracyjnego poprawiania wstępnego rozwiązania.
Rozdział V - Wycena obligacji
WYKŁAD 6 ATOM WODORU W MECHANICE KWANTOWEJ (równanie Schrődingera dla atomu wodoru, separacja zmiennych, stan podstawowy 1s, stany wzbudzone 2s i 2p,
Ludwik Antal - Numeryczna analiza pól elektromagnetycznych –W10
Liczby pierwsze.
Badania operacyjne. Wykład 2
1 mgr inż. Sylwester Laskowski Opiekun Naukowy: prof. dr hab. inż. Andrzej P. Wierzbicki.
Metody Numeryczne Wykład no 3.
Wykład no 11.
PROGRAM OPERACYJNY KAPITAŁ LUDZKI Priorytet III, Działanie 3.2
Metody Sztucznej Inteligencji w Sterowaniu 2009/2010Optymalizacja miary efektywności działania sztucznych sieci neuronowych Dr hab. inż. Kazimierz Duzinkiewicz,
Systemy dynamiczneOdpowiedzi systemów – modele różniczkowe i różnicowe Kazimierz Duzinkiewicz, dr hab. inż.Katedra Inżynierii Systemów Sterowania 1 Systemy.
Metody Sztucznej Inteligencji w Sterowaniu 2009/2010 Metoda propagacji wstecznej Dr hab. inż. Kazimierz Duzinkiewicz, Katedra Inżynierii Systemów Sterowania.
Metoda simpleks opracowanie na podstawie „Metody wspomagające podejmowanie decyzji w zarządzaniu” D. Witkowska, Menadżer Łódź Simpleks jest uniwersalną.
1 Uczenie ze wzmocnieniem Literatura: Paweł Cichosz, Systemy uczące się, Wydawnictwa Naukowo-Techniczne, Warszawa 2000, str Richard Sutton, Andrew.
Uczenie ze wzmocnieniem
Linear Methods of Classification
UKŁADY SZEREGOWO-RÓWNOLEGŁE
Przykładowe zastosowania równania Bernoulliego i równania ciągłości przepływu 1. Pomiar ciśnienia Oznaczając S - punkt spiętrzenia (stagnacji) strugi v=0,
Sieci neuronowe jednokierunkowe wielowarstwowe
Klasyfikacja systemów
Transformacja Z (13.6).
Metody matematyczne w Inżynierii Chemicznej
Automatyka Wykład 3 Modele matematyczne (opis matematyczny) liniowych jednowymiarowych (o jednym wejściu i jednym wyjściu) obiektów, elementów i układów.
Synteza układów sekwencyjnych z (wbudowanymi) pamięciami ROM
Dane do obliczeń.
Analiza współzależności cech statystycznych
Metody Lapunowa badania stabilności
ETO w Inżynierii Chemicznej MathCAD wykład 4.. Analiza danych Aproksymacja danych.
Rozkłady wywodzące się z rozkładu normalnego standardowego
Obserwatory zredukowane
Stabilność Stabilność to jedno z najważniejszych pojęć teorii sterowania W większości przypadków, stabilność jest warunkiem koniecznym praktycznego zastosowania.
Modelowanie – Analiza – Synteza
Podstawy automatyki 2012/2013Transmitancja widmowa i charakterystyki częstotliwościowe Mieczysław Brdyś, prof. dr hab. inż.; Kazimierz Duzinkiewicz, dr.
Zadanie programowania liniowego PL dla ograniczeń mniejszościowych
Zadanie programowania liniowego PL dla ograniczeń mniejszościowych
Zakładamy a priori istnienie rozwiązania α układu równań.
KOLEKTOR ZASOBNIK 2 ZASOBNIK 1 POMPA P2 POMPA P1 30°C Zasada działanie instalacji solarnej.
Podstawy działania wybranych usług sieciowych
Modelowanie i Identyfikacja 2011/2012 Metoda propagacji wstecznej Dr hab. inż. Kazimierz Duzinkiewicz, Katedra Inżynierii Systemów Sterowania 1 Warstwowe.
Modelowanie i identyfikacja 2010/2011Optymalizacja miary efektywności działania sztucznych sieci neuronowych Dr hab. inż. Kazimierz Duzinkiewicz, Katedra.
Teoria sterowania 2011/2012Stabilno ść Kazimierz Duzinkiewicz, dr hab. in ż. Katedra In ż ynierii Systemów Sterowania 1 Stabilność Stabilność to jedno.
Dekompozycja Kalmana systemów niesterowalnych i nieobserwowalnych
Wykład 22 Modele dyskretne obiektów.
Obserwowalność i odtwarzalność
Sterowalność - osiągalność
Stabilność Stabilność to jedno z najważniejszych pojęć dynamiki systemów i teorii sterowania W większości przypadków, stabilność jest warunkiem koniecznym.
-17 Oczekiwania gospodarcze – Europa Wrzesień 2013 Wskaźnik > +20 Wskaźnik 0 a +20 Wskaźnik 0 a -20 Wskaźnik < -20 Unia Europejska ogółem: +6 Wskaźnik.
SYSTEMY EKSPERTOWE I SZTUCZNA INTELIGENCJA
Ekonometryczne modele nieliniowe
Obliczalność czyli co da się policzyć i jak Model obliczeń sieci liczące dr Kamila Barylska.
Jak Jaś parował skarpetki Andrzej Majkowski 1 informatyka +
Co to jest dystrybuanta?
Ekonometryczne modele nieliniowe
Systemy dynamiczne 2014/2015Obserwowalno ść i odtwarzalno ść  Kazimierz Duzinkiewicz, dr hab. in ż. Katedra In ż ynierii Systemów Sterowania 1 Obserwowalność.
Ekonometryczne modele nieliniowe
Wspomaganie Decyzji IV
Elementy geometryczne i relacje
opracowała: Anna Mikuć
Warstwowe sieci jednokierunkowe – perceptrony wielowarstwowe
Podstawowe pojęcia i terminy stosowane w statystyce. Rozkłady częstości Seminarium 2.
Zapis prezentacji:

Uczenie ze wzmocnieniem Literatura: Paweł Cichosz, Systemy uczące się, Wydawnictwa Naukowo-Techniczne, Warszawa 2000, str. 712-792. Richard Sutton, Andrew G. Barto, Reinforcement Learning: An Introduction, MIT Press, Cambridge, MA, 1998. http://www.cs.ualberta.ca/~sutton/book/the-book.html Stuart J.Russel, Peter Norvig, Artificial Intelligence, Prentice-Hall, London, 2003, str. 598-645.

Środowisko Cechy środowiska w sztucznych systemach uczących się: przydziela nagrody i wyznacza bieżący stan jest niezależne od ucznia, czyli oznacza wszystko to, na co uczeń nie ma wpływu Typy środowisk: niestacjonarne (zmienne w czasie) niedeterministyczne - taka sama akcja może spowodować przejście do różnych stanów a przy przejściu do takiego samego stanu może zwrócić różne nagrody nieznane uczniowi: Ze względu na niepełną informację o stanie środowiska (brak własności Markowa) Ze względu na nieznajomość wszystkich możliwych stanów w trakcie uczenia (może ich być nieskończenie wiele) - konieczność uogólniania zachowań

Wieloetapowe procesy decyzyjne Procesy polegające na wielokrotnej interakcji ucznia (agenta) ze środowiskiem. W wyniku podjęcia jednej z możliwych akcji at w danym stanie st, środowisko przechodzi do nowego stanu st+1 i zwraca nagrodę rt st st+1 st+2 st+k ... at, rt+1 at+1, rt+2 at+k-1, rt+k Celem uczenia jest maksymalizacja nagród uzyskanych w ciągu całego procesu, niezależnie od stanu początkowego Wniosek: należy szukać optymalnej strategii (policy) zachowania ucznia (wyboru odpowiedniej akcji w każdym ze stanów)

Ogólny schemat uczenia się w interakcji ze środowiskiem rt st UCZEŃ akcja at rt+1 st+1 ŚRODOWISKO

Typy procesów Ze względu na środowisko: deterministyczne / niedeterministyczne, stacjonarne / niestacjonarne Ze względu na informacje o stanie: spełniające własność Markowa / niespełniające własności Markowa Ze względu na ogólną liczbę stanów środowiska: o skończonej liczbie stanów / o nieskończonej liczbie stanów Ze względu na typ przestrzeni stanów: ciągłe / dyskretne Ze względu na umiejscowienie nagród: tylko w stanach końcowych (terminalnych) / również w stanach pośrednich Ze względu na liczbę etapów procesu: ciągłe (nieskończone), epizodyczne (kończące się po pewnej liczbie kroków)

Metody szukania optymalnej strategii Metoda Monte Carlo Programowanie dynamiczne Metoda różnic czasowych (TD)

Zadanie optymalizacji w procesach epizodycznych Maksymalizacja: gdzie rt - nagroda w kroku t,  - współczynnik dyskontowania, 0  1, reguluje ważność krótko i długoterminowych nagród. Zastosowanie współczynnika dyskontowania wynika z pewnych zastosowań praktycznych: nagrody warto zdobywać jak najszybciej (zadania do-sukcesu), kary jak najdłużej odwlekać (zadania do-porażki)

Przykład GRID-6 0.5 1

Funkcje wartości Funkcja wartości stanu st przy strategii  : Funkcja wartości pary [stan,akcja]: (st , at) przy strategii  : Przy danej strategii  dla każdego stanu s zachodzi równanie:

Porównanie funkcji V oraz Q Wady: Użycie funkcji wartości stanu V(s) wymaga każdorazowej symulacji wykonania jednego kroku naprzód w celu znalezienia akcji optymalnej Użycie funkcji Q(s,a) wymaga stosowania większych tablic lub bardziej złożonych aproksymatorów funkcji

Strategia optymalna Strategia  jest lepsza od strategii ’ jeśli dla każdego s: oraz istnieje takie s, że zachodzi: Strategia jest optymalna, gdy nie ma od niej lepszej. Zachłanna strategia wyboru akcji: Wniosek: zachłanna strategia wyboru akcji względem optymalnej funkcji wartości lub funkcji wartości akcji jest strategią optymalną

Proces decyzyjny Markowa Proces decyzyjny Markowa można zdefiniować jako czwórkę (S, A, , ): S - skończony zbiór stanów A - skończony zbiór akcji (s,a) - funkcja wzmocnienia - zmienna losowa o wartościach rzeczywistych oznaczająca nagrodę po wykonaniu akcji a w stanie s (s,a) - funkcja przejść stanów - zmienna losowa o wartościach ze zbioru S oznaczająca następny stan po wykonaniu akcji a w stanie s W ogólności w każdym kroku t nagroda rt+1 jest realizacją zmiennej losowej (st,at) a stan st+1 jest realizacją zmiennej losowej (st,at)

Przykład GRAF-5 S = {1,2,3,4,5}, A={0,1} Nagroda za akcję a w stanie s:

Przykład GRAF-5 Optymalne wartości stanów dla  = 0.9 V(1) V(2) V(3) 4 5 Optymalne wartości stanów dla  = 0.9 V(1) V(2) V(3) V(4) V(5) 0.299 0.527 0.768 0.945

Uczenie ze wzmocnieniem - ogólny algorytm Zainicjuj Q(s,a) lub V(s) Repeat (dla kolejnych epizodów): Zainicjuj s Repeat (dla kolejnych kroków epizodu): obserwuj aktualny stan st; wybierz akcję at do wykonania w stanie st; wykonaj akcję at; obserwuj wzmocnienie rt+1 i następny stan st+1; ucz się na podstawie doświadczenia (st,at,rt+1,st+1); until s jest stanem końcowym until spełniony warunek końca

Programowanie dynamiczne Prawdopodobieństwo przejścia ze stanu s do s’ po wykonaniu akcji a, oraz średnia nagroda związana z tym zdarzeniem: Model środowiska Równania równowagi Bellmana dla reprezentacji [stan] oraz [stan,akcja] i strategii , ( (s) - akcja w stanie s zgodna ze strategią  ):

Programowanie dynamiczne Przykładowy graf przejść ze stanu s=s1 do s’ {s1 , s2 , s3 }, po wykonaniu akcji a: s2 s1 s3 stąd:

Programowanie dynamiczne Wyprowadzenie równania równowagi dla funkcji wartości stanu s:

Programowanie dynamiczne Równania optymalności Bellmana dla reprezentacji [stan] oraz [stan,akcja]: - wartości optymalne

Programowanie dynamiczne Metody wyznaczania optymalnej strategii: Iteracja strategii - naprzemienne obliczanie V (s) dla wszystkich stanów przy danej strategii  oraz wyznaczanie lepszej strategii ’ dla V (s) Iteracja wartości - obliczanie V (s) stosując strategię zachłanną przy wyborze akcji

Programowanie dynamiczne - wady i zalety duża złożoność obliczeniowa metody dokładnej (bez iteracji) konieczność znajomości modelu środowiska (prawdopodobieństw przejść pomiędzy stanami dla wszystkich możliwych akcji i oczekiwanych wartości nagród) Zalety: pewność znalezienia rozwiązania w przypadku metody dokładnej oraz zbieżność metod iteracyjnych

Metody Monte Carlo Obliczanie funkcji wartości stanów lub par [stan, akcja] dla pewnej strategii  metodą uśredniania nagród z wielu epizodów.

Metody Monte Carlo - wada Powolna zbieżność - obliczenie funkcji wartości nowego stanu bez uwzględnienia wartości stanów następujących po danym (bootstraping) może wymagać wielu iteracji V = ? V = -0.8 -1 1 p = 0.9 p = 0.1 nowy stan

Metody Monte Carlo - zalety Pewna zbieżność do funkcji wartości dla ustalonej strategii przy odpowiedniej eksploracji Nie jest wymagana znajomość modelu środowiska

Metoda różnic czasowych – TD(0) Aktualizacja wartości stanu lub pary [stan,akcja] - ogólna postać:

Metoda różnic czasowych – TD(0) Metody uczenia: Q-learning (off-policy) SARSA (on-policy) Actor-Critic (on-policy) (dodatkowy system wartościowania strategii przyjętej do uczenia (strategia działania + eksploracja) Zalety: uczenie w czasie rzeczywistym dobra zbieżność

Algorytm Q-learning Algorytm Q-learning z aktualizacją wartości par [stan,akcja] niezależną od aktualnej strategii wyboru akcji (off-policy) Zainicjuj Q(s,a) Repeat (dla kolejnych epizodów): Zainicjuj s Repeat (dla kolejnych kroków epizodu): Wykonaj akcję a w stanie s zgodnie z wybraną strategią(np. ε-zachłanną względem Q(s,a)) until s jest stanem końcowym until spełniony warunek końca

Eksploatacja i eksploracja Przykłady strategii wyboru akcji w trakcie uczenia: maksimum losowa -zachłanna softmax Strategia -zachłanna : z prawdopodobieństwem  wybierz akcję losowo z prawdopodobieństwem 1- wybierz akcję: Strategia softmax - wybór akcji zgodnie z rozkładem Bolzmanna (prawdopodobieństwo wylosowania akcji proporcjonalne do jej funkcji wartości):

Algorytm SARSA Algorytm SARSA z aktualizacją wartości par [stan,akcja] zgodnie z aktualną strategią (on-policy) Zainicjuj Q(s,a) Repeat (dla kolejnych epizodów): Zainicjuj s Wykonaj akcję a w stanie s zgodnie ze strategią opartą na Q (np. ε-zachłanną) Repeat (dla kolejnych kroków epizodu): Wykonaj akcję a’ w stanie s’ zgodnie ze strategią wyboru akcji (np. -zachłanną względem Q(s’,a’)) until s jest stanem końcowym until spełniony warunek końca

Różnica pomiędzy algorytmami SARSA i Q-learning - przykład SARSA – zabezpieczenie przed niedeterminizmem strategii użytej do uczenia np. -zachłannej S KLIF K Droga bezpieczna Droga optymalna Q-learning Nauka chodzenia po krawędzi klifu: za każdy krok odbierany jest 1 pkt, za wejście na zbocze klifu 100 pkt Pytanie: Jaka droga zostanie wybrana w przypadku niedeterminizmu środowiska?

Metoda Actor-Critic - schemat Schemat ogólny: Funkcja Strategii (s,a) (actor) błąd TD -  Funkcja wartości V(s) (critic) stan akcja nagroda Środowisko

Algorytm Actor-Critic Algorytm Actor-Critic z funkcją wartości stanów V(s) i dodatkową funkcją wyboru akcji Zainicjuj V(s), (s,a) Repeat (dla kolejnych epizodów): Zainicjuj s Repeat (dla kolejnych kroków epizodu): Wykonaj akcję a w stanie s zgodnie ze strategią wyboru akcji (np. -zachłanną względem (s,a)) until s jest stanem końcowym until spełniony warunek końca

Metoda Actor-Critic - zaleta W stosunku do standardowego algorytmu z reprezentacją stanów (V(s)) wymaga małego nakładu obliczeniowego przy wyborze akcji

Przybliżenie TD(0) Wartość stanu w danym epizodzie jest modyfikowana tylko na podstawie wartości stanu w następnym kroku: st+1 st r > 0

Inne przybliżenia Można zsumować i wykorzystać wszystkie przybliżenia przyjmując, że im dalsze, tym mniej istotne:

Ślady aktywności TD() - zalety Przyspieszenie uczenia dzięki równoległemu przypisywaniu zasług wszystkim stanom lub akcjom, które poprzedzają otrzymanie nagrody Połączenie cech metod Monte Carlo i TD(0) przez odpowiedni wybór współczynnika świeżości  Znaczne przyspieszenie uczenia w przypadku nagród znacznie oddalonych

Ślady aktywności TD() Sumując elementy w kolumnach i uwzględniając: otrzymujemy:

Ślady aktywności TD() gdzie

Ślady aktywności TD() W każdym kroku modyfikowane są wartości wszystkich stanów lub par [stan,akcja]:

Ślady aktywności - algorytm Zainicjuj V(s) Repeat (dla kolejnych epizodów): Zainicjuj s, e(s)=0 dla wszystkich s Repeat (dla kolejnych kroków epizodu): Wykonaj akcję a w stanie s zgodnie z , obserwuj nagrodę r i następny stan s’ for all s: end for until s jest stanem końcowym until spełniony warunek końca

Aproksymatory funkcji Przykłady: Sztuczne sieci neuronowe wielowarstwowe (MLP) Sieci RBF Wielomiany Zalety: Oszczędność miejsca przy dużych zbiorach stanów lub par [stan,akcja] Możliwość uogólniania wiedzy dla stanów pośrednich Uniknięcie dyskretyzacji w przypadku rzeczywistoliczbowej reprezentacji stanów lub akcji

Aproksymator MLP ... s1 s2 s3 sn V(s) ... Q(s,a) s1 s2 s3 sn a

Aproksymatory funkcji - definicje Wartości stanów lub par [stan,akcja] reprezentowane są za pomocą funkcji zależnej od parametrów (i): Wektor parametrów: Kryterium optymalizacji: P(s) – rozkład wag błędów dla poszczególnych stanów, V(s) – wartość stanu s dla strategii 

Gradientowa metoda aproksymacji funkcji wartości stanów Przyjmując przybliżenie: Otrzymujemy algorytm aktualizacji wartości stanu: (następny slajd)

Gradientowa metoda aproksymacji funkcji wartości stanów - TD() Zainicjuj  Repeat (dla kolejnych epizodów): Zainicjuj s, dla wszystkich stanów e(s)=0 Repeat (dla kolejnych kroków epizodu): Wybierz i wykonaj akcję a w stanie s zgodnie z przyjętą strategią until s jest stanem końcowym until spełniony warunek końca

Aproksymacja funkcji - wybór akcji z wykorzystaniem strategii -zachłannej for all a  A(s) symuluj wykonanie akcji a, obserwuj stan s’ end for z prawdopodobieństwem  a’  random(A(s)) Reprezentacja [stan]: for all a  A(s) end for z prawdopodobieństwem  a’  random(A(s)) Reprezentacja [stan,akcja]:

Aproksymatory funkcji Najczęściej stosowane typy aproksymatorów: Wielowarstwowe sieci neuronowe (MLP) Sieci o radialnej funkcji bazowej (RBF) Kodowanie przybliżone (coarse coding) Kodowanie metodą pokryć (CMAC, tile coding)

Aproksymator liniowy Aproksymator liniowy - ogólna postać: - wektor cech wejściowych aproksymatora Kodowanie przybliżone dla 2-wymiarowej przestrzeni stanów - każde pole jest związane z jedną cechą binarną, równą 1 jeśli stan znajduje się wewnątrz pola: Licząc po kolejnych wierszach od lewej do prawej wektor cech: y x