Pobieranie prezentacji. Proszę czekać

Pobieranie prezentacji. Proszę czekać

1 Uczenie ze wzmocnieniem Literatura: Paweł Cichosz, Systemy uczące się, Wydawnictwa Naukowo-Techniczne, Warszawa 2000, str. 712-792. Richard Sutton, Andrew.

Коpie: 1
1 Uczenie ze wzmocnieniem Literatura: Paweł Cichosz, Systemy uczące się, Wydawnictwa Naukowo-Techniczne, Warszawa 2000, str Richard Sutton, Andrew.

Podobne prezentacje


Prezentacja na temat: "1 Uczenie ze wzmocnieniem Literatura: Paweł Cichosz, Systemy uczące się, Wydawnictwa Naukowo-Techniczne, Warszawa 2000, str. 712-792. Richard Sutton, Andrew."— Zapis prezentacji:

1 1 Uczenie ze wzmocnieniem Literatura: Paweł Cichosz, Systemy uczące się, Wydawnictwa Naukowo-Techniczne, Warszawa 2000, str Richard Sutton, Andrew G. Barto, Reinforcement Learning: An Introduction, MIT Press, Cambridge, MA, Stuart J.Russel, Peter Norvig, Artificial Intelligence, Prentice-Hall, London, 2003, str

2 2 Plan wykładu Wieloetapowe procesy decyzyjne - typy procesów i środowisk Programowanie dynamiczne a metoda Monte Carlo Uczenie ze wzmocnieniem – podstawowy algorytm Eksploatacja a eksploracja Metody przyśpieszania zbieżności - ślady aktywności Aproksymacja funkcji wartości stanów Metody kodowania stanów Agregacja stanów Przykłady zastosowań

3 3 Środowisko Cechy środowiska w sztucznych systemach uczących się: przydziela nagrody i wyznacza bieżący stan jest niezależne od ucznia, czyli oznacza wszystko to, na co uczeń nie ma wpływu Typy środowisk: stacjonarne / niestacjonarne (zmienne w czasie) deterministyczne / niedeterministyczne - taka sama akcja może spowodować przejście do różnych stanów, a przy przejściu do takiego samego stanu można uzyskać różne nagrody z tym, że wartości oczekiwane nagród i prawdopodobieństwa przejść są stałe niedeterministyczne o znanym / nieznanym modelu o parametrach ciągłych / dyskretnych o pełnej informacji o stanie (własność Markowa) / o niepełnej informacji o stanie

4 4 Wieloetapowe procesy decyzyjne Procesy polegające na wielokrotnej interakcji ucznia (agenta) ze środowiskiem. W wyniku podjęcia jednej z możliwych akcji a t w danym stanie s t, środowisko przechodzi do nowego stanu s t+1 i zwraca nagrodę r t+1 Celem uczenia jest maksymalizacja nagród uzyskanych w ciągu całego procesu, niezależnie od stanu początkowego Wniosek: należy szukać optymalnej strategii (policy) zachowania ucznia (wyboru odpowiedniej akcji w każdym ze stanów) stst s t+1 s t+2 s t+k... a t, r t+1 a t+1, r t+2 a t+k-1, r t+k

5 5 Ogólny schemat uczenia się w interakcji ze środowiskiem UCZEŃ ŚRODOWISKO akcja a t stst r t+1 rtrt s t+1

6 6 Typy procesów Ze względu na środowisko: deterministyczne / niedeterministyczne, stacjonarne / niestacjonarne Ze względu na informacje o stanie: spełniające własność Markowa / niespełniające własności Markowa Ze względu na ogólną liczbę stanów środowiska: o skończonej liczbie stanów / o nieskończonej liczbie stanów Ze względu na typ przestrzeni stanów: ciągłe (nieprzeliczalne)/ dyskretne Ze względu na umiejscowienie nagród: tylko w stanach końcowych (terminalnych) / tylko w stanach pośrednich / w stanach końcowych oraz pośrednich Ze względu na liczbę etapów procesu: nieskończone / epizodyczne (kończące się po pewnej liczbie kroków)

7 7 Zadanie optymalizacji w procesach epizodycznych Cel maksymalizacji: gdzie r t - nagroda w kroku t, - współczynnik dyskontowania, 0 1, reguluje ważność krótko i długoterminowych nagród. Zastosowanie współczynnika dyskontowania wynika z pewnych praktycznych spostrzeżeń: nagrody warto zdobywać jak najszybciej (zadania do-sukcesu), kary jak najdłużej odwlekać (zadania do-porażki)

8 8 Dobór współczynnika dyskontowania w zależności od wartości nagród Niech r 2 oznacza wartość nagrody za dojście do stanu końcowego, r 1 - wartość nagrody dla pozostałych stanów Zadania do-sukcesu: stąd: r1r1 r1r1 r1r1 r1r1 r1r1 r2r2 r2r2 r1r1 r1r1 r1r1 r1r1 r1r1 r1r1 r1r1 r1r1 r2r2

9 9 Przykład GRID

10 10 Przykład GRID-6 – przykładowe strategie

11 11 Funkcje wartości Funkcja wartości stanu s t przy strategii : Funkcja wartości pary [stan,akcja]: (s t, a t ) przy strategii : Przy danej strategii dla każdego stanu s zachodzi równanie:

12 12 Porównanie funkcji V oraz Q Użycie funkcji wartości stanu V(s) wymaga każdorazowej symulacji wykonania jednego kroku naprzód w celu znalezienia akcji optymalnej Użycie funkcji Q(s,a) wymaga stosowania większych tablic lub bardziej złożonych aproksymatorów funkcji

13 13 Proces decyzyjny Markowa Proces decyzyjny Markowa można zdefiniować jako czwórkę (S, A,, ): S - skończony zbiór stanów A - skończony zbiór akcji (s,a) - funkcja wzmocnienia - zmienna losowa o wartościach rzeczywistych oznaczająca nagrodę po wykonaniu akcji a w stanie s (s,a) - funkcja przejść stanów - zmienna losowa o wartościach ze zbioru S oznaczająca następny stan po wykonaniu akcji a w stanie s W ogólności w każdym kroku t nagroda r t+1 jest realizacją zmiennej losowej (s t,a t ) a stan s t+1 jest realizacją zmiennej losowej (s t,a t )

14 14 Przykład GRAF-5 S = {1,2,3,4,5}, A={0,1} Nagroda za akcję a w stanie s:

15 15 Przykład GRAF-5 Optymalne wartości stanów dla = V(1)V(2)V(3)V(4)V(5)

16 16 Funkcja wartości a strategia Strategia jest lepsza od strategii jeśli dla każdego s: oraz istnieje takie s, że zachodzi: Zachłanna metoda wyboru akcji: - prawdopodobieństwo przejścia od stanu s do s przy wykonaniu akcji a - średnia nagroda przy przejściu od s do s dzięki a

17 17 Strategia optymalna Strategia * jest optymalna jeśli dla każdej strategii oraz dla każdego stanu s: Zachłanna metoda wyboru akcji: Zachłanna metoda wyboru akcji względem optymalnej funkcji wartości lub funkcji wartości akcji jest realizacją strategii optymalnej - prawdopodobieństwo przejścia od stanu s do s przy wykonaniu akcji a - średnia nagroda przy przejściu od s do s dzięki a

18 18 Metody szukania optymalnej strategii Programowanie dynamiczne Metoda Monte Carlo Metoda różnic czasowych (TD)

19 19 Prawdopodobieństwo przejścia ze stanu s do s po wykonaniu akcji a, oraz średnia wartość nagrody związanej z tym zdarzeniem: Równania równowagi Bellmana dla reprezentacji [stan] oraz [stan,akcja] i strategii, ( (s) - akcja w stanie s zgodna ze strategią ): Programowanie dynamiczne Model środowiska

20 20 Przykładowy graf przejść ze stanu s=s 1 do s {s 1, s 2, s 3 }, po wykonaniu akcji a: Programowanie dynamiczne s2s2 s1s1 s3s3 stąd:

21 21 Wyprowadzenie równania równowagi dla funkcji wartości stanu s: Programowanie dynamiczne

22 22 Równania optymalności Bellmana dla reprezentacji [stan] oraz [stan,akcja]: Programowanie dynamiczne - wartości odpowiadające strategii optymalnej

23 23 Metody wyznaczania wartości V lub Q dla danej strategii: Rozwiązanie układu równań o |S| (lub |S A| w przypadku reprezentacji [stan,akcja]) niewiadomych Iteracyjne na podstawie równań równowagi Bellmana (o udowodnionej zbieżności) Metody wyznaczania optymalnej strategii: Iteracja strategii - naprzemienne obliczanie przybliżonych wartości V (s) dla wszystkich stanów przy danej (początkowo losowej) strategii oraz wyznaczanie lepszej strategii dla V (s) do momentu, gdy w kolejnych dwóch iteracjach strategia pozostanie niezmienna Iteracja wartości - obliczanie V(s) stosując zachłanną metodę wyboru akcji do momentu, gdy wartości V(s) przestaną się zmieniać Programowanie dynamiczne

24 24 Iteracyjne obliczanie funkcji wartości stanów powtarzaj dla wszystkich s: mając dane:, P, R aż nastąpi w kroku k obliczanie funkcji wartości stanu dla strategii :

25 25 Iteracja strategii dla reprezentacji [stan] iteracyjne obliczanie funkcji wartości stanu dla strategii lub metodą rozwiązywania układu równań dla wszystkich s: wyznaczanie nowej strategii: obliczanie funkcji wartości stanów dla strategii :

26 26 Iteracja wartości dla reprezentacji [stan] powtarzaj dla wszystkich s: mając dane: P, R aż nastąpi w kroku k

27 27 Programowanie dynamiczne - wady i zalety Wady: konieczność znajomości modelu środowiska (prawdopodobieństw przejść pomiędzy stanami dla wszystkich możliwych akcji i oczekiwanych wartości nagród) Zalety: pewność znalezienia rozwiązania w przypadku metody dokładnej oraz zbieżność metod iteracyjnych mała złożoność obliczeniowa


Pobierz ppt "1 Uczenie ze wzmocnieniem Literatura: Paweł Cichosz, Systemy uczące się, Wydawnictwa Naukowo-Techniczne, Warszawa 2000, str. 712-792. Richard Sutton, Andrew."

Podobne prezentacje


Reklamy Google