Sztuczna Inteligencja - wykład 2

Slides:



Advertisements
Podobne prezentacje
Leszek Smolarek Akademia Morska w Gdyni 2005/2006
Advertisements

Minimalizacja formuł Boolowskich
Planowanie bezkolizyjnego ruchu w środowisku wielu robotów z wykorzystaniem gier niekooperacyjnych OWD
Aukcja o dolara $$$ P. Jaworska W. Filipowicz.
Wybrane zastosowania programowania liniowego
Grażyna Mirkowska PJWSTK 15 listopad 2000
Rachunek prawdopodobieństwa 2
ELEMENTY TEORII GRAFÓW
Wykład 6 Najkrótsza ścieżka w grafie z jednym źródłem
Inteligencja Obliczeniowa Metody probabilistyczne.
Gry o sumie niezerowej Dla 2 graczy trzeba zdefiniować 2 macierze
Badania operacyjne. Wykład 1
Badania operacyjne. Wykład 2
Stochastyczne modele gier ewolucyjnych Jacek Miękisz Instytut Matematyki Stosowanej i Mechaniki Uniwersytet Warszawski.
CLUSTERING Metody grupowania danych Plan wykładu Wprowadzenie Dziedziny zastosowania Co to jest problem klastrowania? Problem wyszukiwania optymalnych.
Wykład nr 4 Rynek pracy W prezentacji zostały wykorzystane slajdy pomocnicze do książki: Microeconomics, R.S.Pindyck D.L.Rubinfeld.
WYKŁAD 7. Spójność i rozpięte drzewa
Dariusz Odejewski Krzysztof Wójcik
Teoretyczne podstawy informatyki
TEORIA PERSPEKTYWY D. KAHNEMAN A. TVERSKY
Wykonała: Aleksandra Śmieciuch
TEORIA GIER.
Algorytmy grafowe Reprezentacja w pamięci
WYKŁAD 7. Spójność i rozpięte drzewa Graf jest spójny, gdy dla każdego podziału V na dwa rozłączne podzbiory A i B istnieje krawędź z A do B. Definicja.
Konkurencja niedoskonała
Przepływy w sieciach. Twierdzenie minimaksowe.
O relacjach i algorytmach
Strategie stabilne ewolucyjnie w oparciu o przykłady zwierzęce
IV OTWARTE MISTRZOSTWA OPOLA W PROGRAMOWANIU ZESPOŁOWYM
Elementy Rachunku Prawdopodobieństwa i Statystyki
Programowanie liniowe w teorii gier
Stabilność Stabilność to jedno z najważniejszych pojęć teorii sterowania W większości przypadków, stabilność jest warunkiem koniecznym praktycznego zastosowania.
Zadanie programowania liniowego PL dla ograniczeń mniejszościowych
Dood.pl Modele biznesowe wyszukiwarek internetowych w teorii i praktyce.
Elementy Rachunku Prawdopodobieństwa i Statystyki
Zadanie programowania liniowego PL dla ograniczeń mniejszościowych
ALGORYTMY ROZWIĄZYWANIA GIER C.D.
Technika optymalizacji
Łukasz Balbus Anna Jaśkiewicz
Teoria sterowania 2011/2012Stabilno ść Kazimierz Duzinkiewicz, dr hab. in ż. Katedra In ż ynierii Systemów Sterowania 1 Stabilność Stabilność to jedno.
Obserwowalność i odtwarzalność
Sterowanie – metody alokacji biegunów II
PROBLEM DUOPOLU Agnieszka Baraniak Karina Borkowska
IV EKSPLORACJA DANYCH Zadania eksploracji danych: klasyfikacja
II Zadanie programowania liniowego PL
Seminarium licencjackie Beata Kapuścińska
D. Ciołek BADANIA OPERACYJNE – wykład 4
Algorytmy i Struktury Danych
Gry różniczkowe i ich zastosowania w Automatyce i Robotyce
D. Ciołek BADANIA OPERACYJNE – wykład 4
Strategie stabilne ewolucyjnie.  Znajduje szerokie zastosowanie w wyjaśnieniu zjawisk badanych przez biologię ewolucyjną.  Stosowane w badaniach behawioralnych.
Teoria perspektywy Daniela Kahnemana i Amosa Tversky`ego
D. Ciołek EKONOMETRIA – wykład 5
Algorytmy Genetyczne Anna Tomkowska Politechnika Koszalińska
Drogi i cykle Eulera w grafach nieskierowanych
GRA CHOMP. Czym jest chomp? Jest to gra dla dwóch osób, rozgrywana na prostokątnej tablicy, zwanej „tabliczką czekolady”
Proste strategiczne gry decyzyjne 1.Inwestor dysponuje opcją na zasadzie wyłączności, chronionej patentem licencją, itp.; model jednookresowy – decyzja.
Autor: Michał Salewski
Warstwowe sieci jednokierunkowe – perceptrony wielowarstwowe
SZTUCZNA INTELIGENCJA
Teoria GIER.
Podstawy zarządzania ćwiczenia nr 4 Temat: p rogramowanie dynamiczne, macierz wypłat, techniki drzew decyzyjnych Horacy Dębowski Horacy.
Pojęcia podstawowe c.d. Rachunek podziałów Elementy teorii grafów
Metody Badań Operacyjnych Michał Suchanek Katedra Ekonomiki i Funkcjonowania Przedsiębiorstw Transportowych.
Oligopol oferentów Założenia modelu: 1.Na rynku danego dobra jest kilku dużych oferentów i bardzo wielu drobnych nabywców. 2.Na rynku a) nie ma preferencji.
Zagadnienia transportowe Katedra Ekonomiki i Funkcjonowania Przedsiębiorstw Transportowych.
Teoria sterowania Wykład /2016
GRY DWUOSOBOWE O SUMIE NIEZEROWEJ
ALGORYTMY I STRUKTURY DANYCH
Zapis prezentacji:

Sztuczna Inteligencja - wykład 2 Teoria grafów - dokończenie Teoria gier

Przeszukiwanie grafów

Algorytm przeszukiwania w głąb Jest to podstawowa metoda badania grafów skierowanych. Bardzo podobna do stosowanych dla drzew, w których startuje się od korzenia i rekurencyjnie bada wierzchołki potomne każdego odwiedzonego wierzchołka. Trudność polega na tym ze w grafie mogą pojawiać się cykle... należy wobec tego znaczyć wierzchołki już odwiedzone i nie powracać więcej do takich wierzchołków. Algorytm przeszukiwania w głąb Z uwagi na fakt, że w celu uniknięcia dwukrotnego odwiedzenia tego samego wierzchołka jest on odpowiednio oznaczany, graf w trakcie jego badania zachowuje się podobnie do drzewa. W rzeczywistości można narysować drzewo, którego krawędzie rodzic-potomek będą niektórymi krawędziami przeszukiwanego grafu G. Takie drzewo nosi nazwę drzewa przeszukiwania w głąb (ang. depth-first-search-first) dla danego grafu.

Znajdowanie maksymalnego przepływu

Teoria gier Jak grać by wygrać (czyli stracić jak najmniej)

Co to jest gra? W każdej grze występuje konflikt interesów (cele każdego z graczy są inne) W każdej grze uczestniczy co najmniej dwóch graczy (jednym z nich może być natura)

Trochę historii 1713 — J. Waldegrave, pierwsza znana dyskusja na temat teorii gier, w swoim liście zaprezentował mieszane rozwiązanie minimaksowe wersji dwuosobowej gry karcianej le Her 1838 — A.A. Cournot w pracy Researches into the Mathematical Principles of the Theory of Wealth prezentuje ogólną analizę teorii gier, m.in. rozważa uproszczoną wersję równowagi Nasha 1928— John von Neumann prezentuje serię artykułów dających początek teorii gier Lata 50 XXw — John Nash prezentuje coś, co dziś znamy jako równowagę Nasha

Przykład gry Dwie osoby grają w grę Kamień (K), Nożyczki (N), Papier (P). W przypadku wygranej przegrywający płaci wygrywającemu 10 zł. Decyzje: K, N, P D1 D2 N P K Zysk D1 Zysk D2 10 -10

Przykład gry Macierz zysków dla D2 Macierz zysków dla D1 D1 D2 D2 D1 K N P 10 -10 D2 D1 K N P -10 10 Macierz zysków dla D2 Macierz zysków dla D1 D1 D2 N P K 10 -10 Zysk D1 Zysk D2

Gry o sumie zerowej 1. W najprostszym przypadku jest dwóch graczy — decydenci (D1, D2) 2. Występuje konflikt interesów między D1 i D2: Wygrana jednego jest przegraną drugiego 3. Każdy z decydentów ma do wyboru różne możliwości - decyzje, strategie 4. Decydenci podejmują swoje decyzje równocześnie - gra statyczna

Gra o sumie zerowej • Macierz strat dla D1, zysków dla D2 D2 D1 K N P -10 10 • Macierz strat dla D1, zysków dla D2 • D1 minimalizuje wynik, D2 - maksymalizuje wynik gry • Zapis (i, j) oznacza, że D1 wybrał wiersz i, a D2 wybrał kolumnę j • Rezultat gry wynosi aij

Gra o sumie zerowej Macierz gry A całkowicie opisuje grę A - postać normalna statycznej skończonej gry o sumie zerowej Strategie bezpieczne: Dla D1 - zapewnienie jak najmniejszej straty niezależnie od decyzji D2 (a w zasadzie w przypadku najgorszej dla D1 decyzji D2) Dla D2 - zapewnienie najwyższego minimalnego zysku niezależnie od decyzji D1 (a w zasadzie w przypadku najgorszej dla D2 decyzji D1)

Strategia bezpieczna dla D1 i0 - strategia bezpieczna dla D1 i0 zapewnia D1 jak najmniejsze straty w przypadku najbardziej konfliktowego (czyli nastawionego na największy zysk) działania D2 Należy wybrać taki wiersz macierzy A, którego największy element jest nie większy niż największy element pozostałych wierszy i = 1, 2, ... , m Poziom bezpieczeństwa dla D1

Strategia bezpieczna dla D2 j0 - strategia bezpieczna dla D2 j0 zapewnia D2 jak największy zysk w przypadku najbardziej konfliktowego (czyli nastawionego na minimalne straty) działania D1 Należy wybrać taką kolumnę macierzy A, której najmniejszy element jest nie mniejszy niż najmniejszy element pozostałych kolumn j = 1, 2, ... , n Poziom bezpieczeństwa dla D1

Istnienie strategii bezpiecznych Jeżeli macierz A reprezentuje proces decyzyjny dwuosobowy, to poziom bezpieczeństwa dla każdego z graczy jest określony jednoznacznie, istnieje co najmniej jedna odpowiadająca mu strategia (strategia bezpieczna dla danego decydenta). Poziom bezpieczeństwa dla D1 jest nie mniejszy od poziomu dla D2, tzn.

Gra o sumie zerowej - przykład 2 D1 - skup - minimalizuje koszty - decyzja dotyczy nastawienia się na skup drobiu dorosłego (1), jaj (2) lub kurcząt (3) D2 - producent drobiu - maksymalizuje zysk - decyzja dotyczy rasy drobiu, który będzie hodowany D2 D1 1 2 3 4 6 5 Strategie bezpieczne: j0 = 3 (poziom bezpieczeństwa dla D2 = 3) i0 = 2 lub i0 = 3 (poziom bezpieczeństwa dla D1 = 5)

Rozwiązanie równowagi D2 D1 1 2 3 4 6 5 Strategie bezpieczne nie mają charakteru równowagi !!!

Rozwiązanie równowagi D2 D1 1 2 3 -1 i0 = 2, j0 = 2; Strategia punktu siodłowego (w strategiach czystych)

Strategia punktu siodłowego Definicja W macierzy A = {aij}, reprezentującej proces decyzyjny, element aij jest wartością punktu równowagi siodłowej, jeśi dla każdego i oraz j zachodzi nierówność:

Wymienialność strategii równowagi Warunkiem koniecznym i wystarczającym istnienia równowagi siodłowej jest równość poziomów bezpieczeństwa obu graczy W grach o sumie zerowej strategie równowagi są wymienialne tzn. jeśli pary (i1, j1) oraz (i2, j2) są strategiami równowagi siodłowej, to również są nimi pary (i1, j2) i (i2, j1)

Brak strategii równowagi • Nie ma rozwiązania w klasie strategii czystych • Jeśli jeden z graczy czeka na zagranie drugiego i wówczas odpowiada najkorzystniejszą dla siebie strategią • gracz, który zagrywa jako pierwszy musi wybrać strategię bezpieczną • w takim przypadku gra przestaje być grą statyczną — gracz działający jako drugi korzysta dynamicznie ze znajomości decyzji swojego przeciwnika

Strategie mieszane • Jeśli gra rozgrywana jest wielokrotnie w tych samych warunkach i graczy interesuje średni wynik gry można wprowadzić losowanie poszczególnych strategii czystych i i j z prawdopodobieństwem, odpowiednio, yi i zj • Gdy gra rozgrywana jest jednokrotnie, ale decyzje nie muszą mieć charakteru binarnego (tak/nie) — przykładem może być decyzja o alokacji środków w różne rodzaje inwestycji lub decyzja o zakupie towarów u różnych producentów bądź w różnych terminach - w takim przypadku wartość yi i zj przypisane strategiom czystym i i j oznaczają stopień udziału danej strategii w rozwiązaniu W obu przypadkach mamy do czynienia z grami o sumie zerowej z rozwiązaniem w strategiach mieszanych

Strategie mieszane Strategią mieszaną nazywamy rozkład prawdopodobieństwa opisany na przestrzeni strategii czystych

Strategie mieszane Zmienne losowe y i z są niezależne - wartość oczekiwana gry wynosi Podobnie jak w przypadku strategii czystych można zdefiniować strategie mieszane bezpieczne i odpowiadające im średnie poziomy bezpieczeństwa

Strategie mieszane - minimax Twierdzenie o minimaksie: Wnioski: • każda gra macierzowa ma jednoznacznie określony punkt siodłowy Sm w strategiach mieszanych • mieszane strategie równowagi siodłowej zawsze istnieją, choć nie muszą być określone jednoznacznie, mają jednak własności wymienialności

Strategie mieszane Strategie mieszanych dla gier n = m = 2 można znaleźć metodą graficzną D2 D1 1 2 3 -1 Dla D1 Dla D2

Gry o sumie niezerowej • Jeśli role graczy są symetryczne - równowaga Nasha • Jeśli podejrzewamy, że przeciwnik będzie „złośliwy” - strategia minimaksowa - sprowadzamy właściwie problem do gry o sumie zerowej • Jeśli w grze występuje hierarchia w procesie decyzyjnym oraz pozycja graczy nie jest identyczna (symetrycza) - równowaga w sensie von Stackelberga

Gry o sumie niezerowej • Równowaga Nasha osiągnięta jest wówczas gdy jednostronne naruszenie równowagi (odejście od strategii dającej równowagę) pogarsza rezultat gracza podejmującego taką decyzję Założenia: • Rozpatrywać będziemy gry dwuosobowe, skończone i statyczne, w których gracze nie kooperują ze sobą • Obaj gracze D1 i D2 chcą minimalizować swoje straty; ich macierze wypłat to odpowiednio A i B; strategie D1 są w wierszach, a D2 w kolumnach

Równowaga Nasha Para strategii (i0, j0) określa rozwiązanie równowagi Nasha w grze dwumacierzowej (A, B) jeśli spełnione są warunki

Równowaga Nasha - przykład Dwaj użytkownicy korzystają ze wspólnego magazynu. Ich koszty związane są z kosztami pobierania z magazynu i stratami związanymi z niezaspokojeniem potrzeb, przy czym zależą od tego, jaką decyzję (1- pobrać, 2 - nie pobrać) podjął drugi użytkownik: D2 D1 1 2 15 30 -15 D2 D1 1 2 20 30 10 A = B = Są dwa położenia równowagi Nasha 1. dla pary strategii (1,1), z rezultatem (15,20) 2. dla pary strategii (2,2), z rezultatem (-15,0) para strategii (2,2) jest lepsza dla obu użytkowników

Strategie dopuszczalne Ocena strategii Para strategii (i1, j1) jest lepsza niż (i2, j2) jeśli oraz i przynajmniej jedna z tych nierówności jest ostra Dopuszczalność strategii Para strategii Nasha jest dopuszczalna, jeśli nie istnieje para strategii od niej lepsza

Walka płci D2 D1 1 2 -2 -1 D2 D1 1 2 -1 -2 A = B = Istnieją dwie dopuszczalne pary strategii dopuszczalnych (1,1) i (2,2) z rezultatami odpowiednio (-2,-1) i (-1,-2) Gracze nie mogą się porozumieć — jeśli zagrają na różne punkty równowagi mogą uzyskać wynik niekorzystny dla obu stron tzn. (1,1)

Dylemat więźnia D2 D1 1 2 30 8 D2 D1 1 2 30 8 A = B = • Strategiami równowagi Nasha jest para (2, 2) dająca wynik (8, 8) • Dla obu graczy lepszym wynikiem jest (2, 2) uzyskiwany przy parze strategii (1,1). Tu konieczne jest całkowite zaufanie graczy do siebie - jednostronne odstępstwo dla drugiego z graczy grozi wynikiem 30. • Para strategii (2, 2) jest natomiast bezpieczna. Zostałaby uzyskana, gdyby każdy z graczy uważał grę za problem o sumie zerowej i wybierał strategię minimaksową dla odpowiedniej gry

Równowaga von Stackelberga • Role graczy są niesymetryczne —jeden z graczy, leader, ma możliwość forsowania swojej strategii w stosunku do drugiego gracza followera •Wymagamy równowagi hierarchicznej • Zadaniem followera jest racjonalna reakcja na decyzje leadera

Równowaga von Stackelberga Zbiór racjonalnych reakcji (optymalnych odpowiedzi) followera (gracz D2) Strategie von Stackelberga dla leadera i0 (S* - koszt dla leadera) Element jR(i0) to odpowiedź followera na strategię i0 leadera Para (i0, j0) jest rozwiązaniem równowagi Stackelberga

Równowaga von Stackelberga - przykład • Para (2,2) jest w równowadze Nasha, wynik (1,0) • Para (1,1) jest w równowadze von Stackelberga z D1 jako leaderem z wynikiem (0,-1) • Para (1,3) jest w równowadze von Stackelberga z D2 jako leaderem z wynikiem (1½, -⅔)

Drzewa decyzyjne

Postać ekstensywna gry • Proces decyzyjny w postaci ekstensywnej ma formę drzewa o skończonej liczbie wierzchołków • Możemy opisać tak gry N-osobowe • Można wprowadzić różne zbiory informacyjne dla różnych poziomów procesu • Dogodna prezentacja gier jedno- i wielokrokowych o sumie zerowej i niezerowej D1 D2 B C A 1 2 5 7 8 4 3

Network Flows a c Source s Sink t b d 10 1 Source s Sink t b d Let G = [V,E] be a directed graph with capacity cap(v,w) on edge [v,w]. A flow is an (integer) function, f, that is chosen for each edge so that We wish to maximize the flow allocation.

A maximum network flow example By inspection 10 1 Source s Sink t b d Step 1: Source s Sink t a c b d 10, 10 10 1 Flow is of size 10

A maximum network flow example Step 2: a c 10, 10 Source s Sink t 10, 10 1 10, 10 1 10, 1 b d 10, 1 1, 1 Source s Sink t a c b d 10, 10 10, 2 10, 9 1,1 1, 1 Maximum flow: Flow is of size 10+2 = 12 Not obvious Flow is of size 10+1 = 11

Ford-Fulkerson Method of Augmenting Paths Set f(v,w) = -f(w,v) on all edges. Define a Residual Graph, R, in which res(v,w) = cap(v,w) – f(v,w) Find paths from s to t for which there is positive residue. Increase the flow along the paths to augment them by the minimum residue along the path. Keep augmenting paths until there are no more to augment.

Example of Residual Graph c 10, 10 10, 10 1 s 10, 10 t 1 10 10 b d 1 Flow is of size 10 Residual Graph, R res(v,w) = cap(v,w) – f(v,w) a c 10 10 10 1 s t 1 10 10 b d 1 Augmenting path

Example of Residual Graph Step 2: a c 10, 10 s t 10, 10 1 10, 10 1 10, 1 b d 10, 1 1, 1 Flow is of size 10+1 = 11 Residual Graph a c 10 s t 10 10 1 1 1 1 b d 1 9 9

Complexity of network flow problems In general, it is possible to find a solution by considering at most |V|.|E| paths, by picking shortest augmenting path first. There are many variations, such as picking most augmenting path first.