Pobierz prezentację
Pobieranie prezentacji. Proszę czekać
1
GRY DWUOSOBOWE O SUMIE NIEZEROWEJ
Równowaga Nasha i rozwiązania niekooperacyjne. Dylemat więźnia. Piotr Włodarek, Piotr Stasiołek Matematyka finansowa studia niestacjonarne
2
Gdy doczynienia mamy z grą dwuosobową o sumie niezerowej to aby ją opisać musimy podać wypłaty obu graczy. Niektóre gry o sumie niezerowej możemy przekształcić za pomocą liniowych przekształceń użyteczności graczy w gry o sumie zerowej. Gry, w których interesy obu graczy są dokładnie przeciwstawne, możemy analizować tymi samymi metodami, co gry o sumie zerowej. Dla gier o sumie niezerowej ogólnie przyjęte jest, że intencje obu graczy nie są ani dokładnie przeciwstawne, ani ze sobą zgodne. Tzn. zakładamy konkurencję pomiędzy uczestnikami gry nie wykluczając jednakże kooperacji w pewnych sytuacjach. Współpraca może polegać na wymianie informacji na temat strategii jaką gracz ma zamiar przyjąć. My jednakże zajmiemy się przypadkiem gry w której komunikacja pomiędzy uczestnikami jest niemożliwa, tzn. gracz będzie przyjmować swoją strategie nie znając strategii którą przyjął przeciwnik.
3
Spójrzmy na grę z punktu widzenia Pana Wiersza
Spójrzmy na grę z punktu widzenia Pana Wiersza. Zauważmy, że niezależnie od tego jaką strategię wybierze Pani Kolumna to Wiersz grając strategię A zawsze uzyska więcej, niż gdyby zagrał B. Strategia A Wiersza dominuje strategię B Wiersza. Możemy oczekiwać, że Wiersz zawsze będzie grał A. Zatem Kolumna powinna zagrać swoją strategię A , a wynikiem gry powinno być (2,3). Układ wartości wypłat przypisanym poszczególnym wynikom faworyzuje Panią Kolumnę. Jak widać, kryterium dominacji z teorii gier o sumie zerowej można stosować także do gier o sumie niezerowej.
4
Dla gier o sumie niezerowej mamy punkty równowagi, które odpowiadają punktom siodłowym dla gier o sumie zerowej. Dla gier o sumie niezerowej istnieją gry niemające równowag w strategiach czystych, które odpowiadają grom o sumie zerowej nieposiadającym punktów siodłowych.
5
W tej grze możemy zaobserwować, że punkty równowagi w strategiach czystych nie występują. Zastanówmy się czy w tej grze istnieją takie strategie mieszane, że jeśli oboje z graczy je zastosują to żaden z nich nic nie zyska, poprzez zmienienie swojej strategii na inną. Zbadajmy grę Kolumny (grę o sumie zerowej, w której wypłaty Kolumny odpowiadają jej wypłatom). W tej grze optymalną strategią Wiersza jest ( A, B) - jeśli Wiersz tak zagra, to Kolumna uzyska oczekiwaną wartość wypłaty równą , niezależnie od tego, jaką strategię sama wybierze. Strategię taką nazywamy strategią wyrównującą Wiersza. Strategia wyrównująca Kolumny to ( A , B) a wartość oczekiwana wynosi . W przypadku gdy oboje z graczy wybiorą swoje strategię wyrównujące, wówczas żaden z nich nie będzie w stanie zyskać na zmianie swojej strategii. Sytuację taką nazywamy równowagą w strategiach mieszanych. Przez Johna Nasha zostało udowodnione, że każda dwuosobowa gra o sumie niezerowej ma co najmniej jedną równowagę, w strategiach czystych lub mieszanych. Równowagi w grach o sumie niezerowej nazywamy równowagami Nasha.
6
W tej grze występują dwa punkty równowagi w strategiach czystych: AB oraz BA. W przypadku gier o sumach zerowych może być kilka punktów siodłowych, ale zawsze są one ekwiwalentne i wymierne. Wszystkie mają te same wartości, a jeśli obaj gracze wybierają strategie zawierające punkty siodłowe wówczas wynik gry będzie zawsze punktem siodłowym. Równowaga BA jest lepsza dla Wiersza, zaś równowaga AB – dla Kolumny w przypadku gdy oboje wybiorą strategie prowadzące do preferowanych przez nich równowag, wynikiem gry będzie BB – najgorszy dla obu graczy i nie będący równowagą. Jeżeli gra ma wiele niewymiennych i nieekwiwalentnych równowag Nasha, gracze mogą nie wiedzieć, do której powinni dążyć.
7
Gra ta ma jedną równowagę Nasha (BB)
Gra ta ma jedną równowagę Nasha (BB). Zauważmy, że startegia B Wiersza dominuje A Wiersza, zaś B Kolumny dominuje A Kolumny – tak więc jest to równowaga najmocniejszego typu. Nie jest to najszczęśliwsze rozwiązanie, ponieważ zarówno Wiersz jak i Kolumna wyszliby lepiej, grając AA i uzyskując wypłaty po 3, a nie po 0. Definicja. Wynik gry jest nieoptymalny w sensie Pareto ( albo subparetooptymalny, lub nieefektywny Pareto), jeśli gra ma inny wynik, dający obu graczom wyższe wypłaty, lub jednemu z graczy taka samą, a drugiemu wyższą. Wynik jest paretooptymalny, jeśli takiego innego wyniku nie ma. Optymalny oznacza „ niebędący w sposób oczywisty gorszy niż jakiś inny”. Na ogół gry mają wiele czynników paretooptymalnych, a w przypadku gier o sumie zerowej wszystkie wyniki mają tę własność, ponieważ zysk dla jednego gracza zawsze oznacza stratę dla drugiego. W grze nr 4 paretooptymalne są wyniki AA, AB i BA. Jedynie BB jest subparetooptymalny, gdyż AA daje obu graczom wyższe wypłaty. KRYTERIUM PARETO: Tylko wynik optymalny w sensie Pareto może być akceptowany jako rozwiązanie gry.
8
W celu sprawdzenia które z wyników są paretooptymalne należy umieścić na układzie współrzędnych wyniki graczy. Wypłatą Wiersza odpowiada oś odciętych, natomiast wypłatą Kolumny oś rzędnych. Gdy już wyznaczymy punkty odpowiadające wynikom w strategiach czystych, wynikom w strategiach mieszanych odpowiadają punkty należące do wieloboku ograniczonego łamaną łączącą wyniki w strategiach czystych. Wielobok ten nazywamy wielobokiem wypłat danej gry.
9
Rys poniżej przedstawia wieloboki wypłat poprzednich gier
Rys poniżej przedstawia wieloboki wypłat poprzednich gier. Wynikami paretooptymalnymi są te, które leżą na „północno- wschodnim” brzegu wieloboku wypłat. Na rys 1 zaznaczono je przerywana linią. Zauważmy, że wynikom paretooptymalnym może odpowiadać odcinek, kilka odcinków bądź też pojedynczy punkt. Równowaga Nasha w strategiach mieszanych nie jest zbyt dobrym rozwiązaniem gry nr 2. Jeżeli przyjrzymy się wielobokowi wypłat (rys2), łatwo przekonamy się dlaczego: równowaga ta nie jest paretooptymalna. „Czysty” wynik AA i oznacza część „mieszanek” AA i BA są dla obu graczy lepsze.
10
Głównymi zaletami wyniku w równowadze jest stabilność oraz to ,że istnieje dla każdej gry. Z drugiej strony, gra może mieć liczne nieekwiwalentne i niewymienne równowagi, co z kolei może wywoływać problemy koordynacji. Nawet jeżeli punkt równowagi jest tylko jeden, może być on nieoptymalny w sensie Pareto. Biorąc to wszystko pod uwagę, niewykluczone, że powinniśmy poszukać innego pomysłu na rozwiązywanie gier o sumie niezerowej. W grach o sumie zerowej punkty równowagi były osiągane wtedy, gdy gracze wybierali bezpiecznie, minimaksowe strategie, maksymalizujące ich wypłaty w najgorszej możliwej sytuacji.
11
Dla podanej gry, rozważmy sytuację Wiersza
Dla podanej gry, rozważmy sytuację Wiersza. Najgorsza z sytuacji to taka gdyby Kolumna przyjęła strategię która miała by na celu zminimalizowanie wypłaty Wiersza. Wówczas strategia jaką miałby przyjąć Wiersz musiała by polegać na minimalizowaniu przypuszczalnych strat, czyli minimaksową strategię w grze Wiersza. Gra Wiersza posiada punkt siodłowy (AA), zatem lepszą strategią dla wiersza będzie strategia A, która gwarantuje mu wypłatę 1- wartość gry Wiersza.
12
Definicja. W grze o sumie niezerowej strategię Wiersza nazywamy strategią bezpieczeństwa Wiersza, zaś wartość gry Wiersza nazywamy poziomem bezpieczeństwa Wiersza. Wiersz grając swoją strategię bezpieczeństwa, gwarantuje sobie wypłatę co najmniej jego poziomowi bezpieczeństwa. Analogiczna definicję można sformułować do Kolumny, w grze obok jej strategia bezpieczeństwa to (A,B), a jej poziom bezpieczeństwa wynosi . Jeśli oboje z graczy zagrają swoimi strategiami bezpieczeństwa wówczas wynikiem tej gry będzie AA+AB=(,). Kolumna uzyskuje wynik równy poziomowi jej bezpieczeństwa, natomiast Wiersz nieco większy. Zaznaczając ten wynik na wielokącie wypłat, widzimy że nie jest on paretooptymalny. Nie jest on również punktem równowagi . gdyby Kolumna przewidywała, iż Wiersz zagra swoją strategię bezpieczeństwa (A), sama zamiast swojej strategii Bezpieczeństwa (A,B) powinna także zagrać czystą strategię A. Analogicznie, jeśli Wiersz przewiduje, że Kolumna zagra swoją mieszaną strategię bezpieczeństwa, to obliczając swoje oczekiwane wypłaty dla strategii A Wiersza: x 2+ x 1= B Wiersza: x 3+ x 0 = stwierdzi, że powinien zagrać B. Definicja. W grze o sumie niezerowej strategią kontrbezpieczną nazywamy strategię będącą najlepszą odpowiedzią na strategię bezpieczeństwa przeciwnika.
13
Tabela zawiera możliwe wyniki dla różnych kombinacji strategii bezpieczeństwa i kontrbezpiecznych dla gry poniżej . Kolumna chciałaby, żeby Wiersz zagrał bezpiecznie i w związku z tym mogłaby zagrać swoją strategią kontrbezpieczną. Wiersz wolałby, aby oboje gracze zagrali kontrbezpiecznie. Struktura zależności jest skomplikowana i niestabilna. Ostrożna gra, która w przypadku gier o sumie zerowej generowała stabilne rozwiązania, w kontekście gier o sumie niezerowej zupełnie pod tym względem się nie sprawdza.
14
Wnioskiem z powyższego jest stwierdzenie , iż teorii rozwiązywania gier o sumie zerowej nie da się przenieść na gry o sumie niezerowej. Niestety nie ma uniwersalnego modelu rozwiązywania gier w których wykluczona jest komunikacja pomiędzy graczami. Definicja. Dwuosobowa gra jest rozwiązywalna w ścisłym sensie, jeżeli: ma co najmniej jedną równowagę optymalną w sensie Pareto jeżeli równowag takich jest więcej, to są one ekwiwalentne i wymienne. Dla gier rozwiązywalnych w ścisłym sensie jesteśmy wstanie wykazać jako rozwiązanie unikalną, paretooptymalną równowagę bądź też zbiór równowag wymiennych i ekwiwalentnych. Gra nr 1 jest rozwiązaniem w ścisłym sensie, ale gra nr 2, 3 i 4 już nie.
15
Rozważmy grę przedstawioną na rysunku.
W grze tej występują dwie równowagi BB i AC, ale na wieloboku wypłat widać, że równowaga BB nie jest paretooptymalna, zatem unikalną równowagą paretooptymalną jest AC. Tak więc gra jest rozwiązywalna w ścisłym sensie. Powiedzieć można, że Pan Wiersz powinien grać strategię A, a Pani Kolumna C.
16
Melvin Dresher i Merrill Flood wymyślili grę, która posłużyła im do pokazania, że w grze o sumie niezerowej mający dokładnie jeden punkt równowagi równowaga ta może nie być paretooptymalna. Pani Kolumna A B Pan A (0,0) (-2,1) Wiersz B (1,-2) (-1,-1) Graczami są dwaj aresztowani, podejrzewani o wspólne popełnienie przestępstwa, przesłuchiwani w dwóch różnych pokojach. Sprytny prokurator oświadczył każdemu z nich, że:
17
Jeżeli jeden z nich przyzna się, zaś drugi nie, przyznający się zostanie nagodzony (wypłata +1), zaś jego wspólnik dostanie wyrok (wypłata -2) Jeżeli obaj się przyznają dostaną niski wyrok (wypłata -1) Z drugiej strony obaj wiedzą, że: Jeśli obaj się nie przyznają, zostaną uwolnieni (wypłata 0)
18
Strategia B to dla obu graczy strategia dominująca co prowadzi do równowagi BB, która nie jest najlepszym rozwiązaniem dla obu więźniów , obaj gracze dużo lepiej wyszli by na AA. Każdemu więźniowi opłaca się przyznać nie zależnie co zrobi drugi więzień ale mimo to oba przyznając się wychodzą gorzej niż razem by się przyznali Konflikt pomiędzy racjonalnością indywidualną w postaci kryterium dominacji a racjonalnością grupową w postaci kryterium Pareto.
19
Ogólna Postać Dylematu Więźnia
Pani Kolumna C D Pan C (R,R) (S,T) Warunki : Wiersz D (T,S) (U,U) T > R > U > S C – Kooperacja ( nie przyznawać się) D – Dezercja (przyznać się) R – Nagroda (reward) za kooperacje S – Wypłata frajera (sucker) T – Wypłata pokusy (templation) U – Wypłata niekooperscyjna
20
Znaczenie dylematu więźnia wypływa z tego, że wiele typowych sytuacji w życiu społecznym ma w swej istotnej warstwie dylemat więźnia np. Dwa sklepy spożywcze maja takie same ceny. Jeden z nich decyduje się na obniżenie cen drugi natomiast musi zdecydować czy obniżyć ceny czy nie Jeżeli drugi nie obniży cen jego klienci mogą przejść do drugiego sklepu
21
Iterowany dylemat więźnia
Polega on na rozgrywaniu tej samej gry wielokrotnie. Wtedy każdy gracz ma możliwość ukarania drugiego gracza za zdradzanie w poprzedniej rundzie. W tej sytuacji, jeśli straty wynikające z ukarania będą większe niż zyski ze zdradzania, współpraca obu graczy może utworzyć stan równowagi. Taka gra może mieć też wiele innych stanów równowagi. Przed efektem domina można bronić się dwoma sposobami: Po pierwsze gracze w rzeczywistości rzadko kiedy stosują się do sposobu gry wynikającego z logicznego rozumienia. Po drugie w wielu sytuacjach odpowiadających Iterowanemu dylematowi więźnia gracze nie wiedzą ile razy będzie rozgrywana gra. Jeśli gracze nie wiedzą która gra będzie ostatnia nie wiedzą która kostka będzie ostatnią kostką, od której miałby się zacząć proces wykluczania kooperacji między graczami
22
Wzór R+ pR+ p2R+ p3R…=R/(1-p)
CO wynika ze wzoru na sumę ciągu geometrycznego . Z drugiej strony jeśli m razy zagramy C a za m+1 zagramy D moja wypłata wyniesie
23
Rozwiązywanie przez odwołanie się do metagry
Czy jeśli Dylemnat Wieźnia rozgrywany jest tylko raz , czy można jakoś uzasadnić wybór strategii C? Kolumna ma 4 strategie Wybierać A nie zaleznie jakiej decyzji Wiersz się spodziewa Wbierać taką samą strategię co wybierze Wiersz Wybierać przeciwną strategie jakiej spodziewa się po wierszu Wybierać B niezależnie jakiej decyzji się wiersza Spodziewa
24
Jak można zauważyć przy obliczaniu wypłat przyjmujemy założenia ,że Pani Kolumna zawsze przewiduje działąnia wiersza poprawnie i dopasowywuje do nich swoje działania Strategia A nie dominuje już strategii B. Niestety strategi IV kolumny dominuje wszystkie jej pozostałe strategie i jedyną równowagą jest B wiersza i IV kolumny
25
Niech decyzja Wiersza będzie zależna od jego przewidywania strategi przez Kolumnę przy takim założeniu będzie miał 16 strategii.
26
W tej grze Kolumnaa nie gry dominującej ale jak można sprawdzić strategia XII Wiersza dominuje wszystkie. W ten sposób zeście na drugi poziom rozumienia Najlepszą strategią Wiersza jest kooperacyjna wtedy i tylko wtedy gdy jest przekonany, że Kolumna będzie działać tak jak on wiedząc o tym kolumna powinna zagrać tak samo jak on
Podobne prezentacje
© 2024 SlidePlayer.pl Inc.
All rights reserved.