GRY DWUOSOBOWE O SUMIE NIEZEROWEJ

Slides:



Advertisements
Podobne prezentacje
Excel Narzędzia do analizy regresji
Advertisements

OLIGOPOLE WNE UW 3 GRUDNIA 2005.
Aukcja o dolara $$$ P. Jaworska W. Filipowicz.
Analiza współzależności zjawisk
Równanie różniczkowe zupełne i równania do niego sprowadzalne
Materiały pochodzą z Platformy Edukacyjnej Portalu
Rachunek prawdopodobieństwa 2
Temat: WIELOŚCIANY KLASA III P r.
Gry o sumie niezerowej Dla 2 graczy trzeba zdefiniować 2 macierze
Badania operacyjne. Wykład 1
Badania operacyjne. Wykład 2
Liniowość - kryterium Kryterium Znane jako zasada superpozycji
WEKTORY Każdy wektor ma trzy zasadnicze cechy: wartość (moduł), kierunek i zwrot. Wartością wektora nazywamy długość odcinka AB przedstawiającego ten wektor.
Materiały pochodzą z Platformy Edukacyjnej Portalu
Stochastyczne modele gier ewolucyjnych Jacek Miękisz Instytut Matematyki Stosowanej i Mechaniki Uniwersytet Warszawski.
Analiza współzależności
Analiza współzależności
Liczby Pierwsze - algorytmy
ZLICZANIE cz. II.
Rachunek prawdopodobieństwa 1
Układ równań stopnia I z dwoma niewiadomymi
Matematyka.
Konkurencja niedoskonała
o granicy funkcji przy obliczaniu granic Twierdzenia
Dodatkowe własności funkcji B-sklejanych zawężenie f do K Rozważmy funkcjeIch zawężenia do dowolnego przedziałutworzą układ wielomianów. Dla i=k ten układ.
Strategie stabilne ewolucyjnie w oparciu o przykłady zwierzęce
AUTOMATYKA i ROBOTYKA (wykład 6)
BADANIE STATYSTYCZNE Badanie statystyczne to proces pozyskiwania danych na temat rozkładu cechy statystycznej w populacji. Badanie może mieć charakter:
Programowanie liniowe w teorii gier
Stabilność Stabilność to jedno z najważniejszych pojęć teorii sterowania W większości przypadków, stabilność jest warunkiem koniecznym praktycznego zastosowania.
A. Sumionka. Starodawna gra marynarska; Gra dwu i wieloosobowa; Gracze wykonują ruchy naprzemian; Złożona ze stosów, w których znajduje się pewna ilość
Elementy Rachunku Prawdopodobieństwa i Statystyki
Systemy wspomagania decyzji
M.STAŃCZYK M. JÓZEFIAK A. MISZTAL
Teoria sterowania 2011/2012Stabilno ść Kazimierz Duzinkiewicz, dr hab. in ż. Katedra In ż ynierii Systemów Sterowania 1 Stabilność Stabilność to jedno.
Finanse 2009/2010 dr Grzegorz Szafrański pokój B106 Termin konsultacji poniedziałek:
Algebra Przestrzenie liniowe.
Stabilność Stabilność to jedno z najważniejszych pojęć dynamiki systemów i teorii sterowania W większości przypadków, stabilność jest warunkiem koniecznym.
Działanie racjonalne w polityce
PROBLEM DUOPOLU Agnieszka Baraniak Karina Borkowska
Materiały pochodzą z Platformy Edukacyjnej Portalu
Dominika Staszewska Roksana Hejman Leszek Gryczka
Materiały pochodzą z Platformy Edukacyjnej Portalu
D. Ciołek BADANIA OPERACYJNE – wykład 4
P. Jaworska W. Filipowicz. Nasi gracze nazywają się Przemek (gracz 1) i Kasia (gracz 2). Wyobraźmy sobie sytuację, w której Przemek i Kasia maja zadecydować.
Strategie stabilne ewolucyjnie.  Znajduje szerokie zastosowanie w wyjaśnieniu zjawisk badanych przez biologię ewolucyjną.  Stosowane w badaniach behawioralnych.
Teoria perspektywy Daniela Kahnemana i Amosa Tversky`ego
FRAKTALE FIGURY LISSAJOUSA Magdalena Szorc
I T P W ZPT 1 Kodowanie stanów to przypisanie kolejnym stanom automatu odpowiednich kodów binarnych. b =  log 2 |S|  Problem kodowania w automatach Minimalna.
Algorytmy Genetyczne Anna Tomkowska Politechnika Koszalińska
GRA CHOMP. Czym jest chomp? Jest to gra dla dwóch osób, rozgrywana na prostokątnej tablicy, zwanej „tabliczką czekolady”
Proste strategiczne gry decyzyjne 1.Inwestor dysponuje opcją na zasadzie wyłączności, chronionej patentem licencją, itp.; model jednookresowy – decyzja.
Rodzaje liczb.
Autor: Michał Salewski
MODELOWANIE ZMIENNOŚCI CEN AKCJI
Podstawy zarządzania ćwiczenia nr 4 Temat: p rogramowanie dynamiczne, macierz wypłat, techniki drzew decyzyjnych Horacy Dębowski Horacy.
Monopol oferenta Założenia modelu:
Oligopol oferentów Założenia modelu: 1.Na rynku danego dobra jest kilku dużych oferentów i bardzo wielu drobnych nabywców. 2.Na rynku a) nie ma preferencji.
 Formuła to wyrażenie algebraiczne (wzór) określające jakie operacje ma wykonać program na danych. Może ona zawierać liczby, łańcuchy znaków, funkcje,
Przeprowadzenie badań niewyczerpujących, (częściowych – prowadzonych na podstawie próby losowej), nie daje podstaw do formułowania stanowczych stwierdzeń.
Weryfikacja hipotez statystycznych „Człowiek – najlepsza inwestycja”
Wyrażenia algebraiczne
GRY DWUOSOBOWE O SUMIE NIEZEROWEJ Równowaga Nasha i rozwiązania niekooperacyjne. Dylemat więźnia. Piotr Włodarek, Piotr Stasiołek Matematyka finansowa.
Rozpatrzmy następujące zadanie programowania liniowego:
Struktury i algorytmy wspomagania decyzji
Matematyka przed egzaminem czyli samouczek dla każdego
Teoria sterowania Wykład /2016
Poszukiwania: ponowna ocena sytuacji
Mikroekonomia Wykład 3.
Zapis prezentacji:

GRY DWUOSOBOWE O SUMIE NIEZEROWEJ Równowaga Nasha i rozwiązania niekooperacyjne. Dylemat więźnia. Piotr Włodarek, Piotr Stasiołek Matematyka finansowa studia niestacjonarne

Gdy doczynienia mamy z grą dwuosobową o sumie niezerowej to aby ją opisać musimy podać wypłaty obu graczy. Niektóre gry o sumie niezerowej możemy przekształcić za pomocą liniowych przekształceń użyteczności graczy w gry o sumie zerowej. Gry, w których interesy obu graczy są dokładnie przeciwstawne, możemy analizować tymi samymi metodami, co gry o sumie zerowej. Dla gier o sumie niezerowej ogólnie przyjęte jest, że intencje obu graczy nie są ani dokładnie przeciwstawne, ani ze sobą zgodne. Tzn. zakładamy konkurencję pomiędzy uczestnikami gry nie wykluczając jednakże kooperacji w pewnych sytuacjach. Współpraca może polegać na wymianie informacji na temat strategii jaką gracz ma zamiar przyjąć. My jednakże zajmiemy się przypadkiem gry w której komunikacja pomiędzy uczestnikami jest niemożliwa, tzn. gracz będzie przyjmować swoją strategie nie znając strategii którą przyjął przeciwnik.

Spójrzmy na grę z punktu widzenia Pana Wiersza Spójrzmy na grę z punktu widzenia Pana Wiersza. Zauważmy, że niezależnie od tego jaką strategię wybierze Pani Kolumna to Wiersz grając strategię A zawsze uzyska więcej, niż gdyby zagrał B. Strategia A Wiersza dominuje strategię B Wiersza. Możemy oczekiwać, że Wiersz zawsze będzie grał A. Zatem Kolumna powinna zagrać swoją strategię A , a wynikiem gry powinno być (2,3). Układ wartości wypłat przypisanym poszczególnym wynikom faworyzuje Panią Kolumnę. Jak widać, kryterium dominacji z teorii gier o sumie zerowej można stosować także do gier o sumie niezerowej.

Dla gier o sumie niezerowej mamy punkty równowagi, które odpowiadają punktom siodłowym dla gier o sumie zerowej. Dla gier o sumie niezerowej istnieją gry niemające równowag w strategiach czystych, które odpowiadają grom o sumie zerowej nieposiadającym punktów siodłowych.

  W tej grze możemy zaobserwować, że punkty równowagi w strategiach czystych nie występują. Zastanówmy się czy w tej grze istnieją takie strategie mieszane, że jeśli oboje z graczy je zastosują to żaden z nich nic nie zyska, poprzez zmienienie swojej strategii na inną. Zbadajmy grę Kolumny (grę o sumie zerowej, w której wypłaty Kolumny odpowiadają jej wypłatom). W tej grze optymalną strategią Wiersza jest ( A, B) - jeśli Wiersz tak zagra, to Kolumna uzyska oczekiwaną wartość wypłaty równą , niezależnie od tego, jaką strategię sama wybierze. Strategię taką nazywamy strategią wyrównującą Wiersza. Strategia wyrównująca Kolumny to ( A , B) a wartość oczekiwana wynosi . W przypadku gdy oboje z graczy wybiorą swoje strategię wyrównujące, wówczas żaden z nich nie będzie w stanie zyskać na zmianie swojej strategii. Sytuację taką nazywamy równowagą w strategiach mieszanych. Przez Johna Nasha zostało udowodnione, że każda dwuosobowa gra o sumie niezerowej ma co najmniej jedną równowagę, w strategiach czystych lub mieszanych. Równowagi w grach o sumie niezerowej nazywamy równowagami Nasha.

W tej grze występują dwa punkty równowagi w strategiach czystych: AB oraz BA. W przypadku gier o sumach zerowych może być kilka punktów siodłowych, ale zawsze są one ekwiwalentne i wymierne. Wszystkie mają te same wartości, a jeśli obaj gracze wybierają strategie zawierające punkty siodłowe wówczas wynik gry będzie zawsze punktem siodłowym. Równowaga BA jest lepsza dla Wiersza, zaś równowaga AB – dla Kolumny w przypadku gdy oboje wybiorą strategie prowadzące do preferowanych przez nich równowag, wynikiem gry będzie BB – najgorszy dla obu graczy i nie będący równowagą. Jeżeli gra ma wiele niewymiennych i nieekwiwalentnych równowag Nasha, gracze mogą nie wiedzieć, do której powinni dążyć.

Gra ta ma jedną równowagę Nasha (BB) Gra ta ma jedną równowagę Nasha (BB). Zauważmy, że startegia B Wiersza dominuje A Wiersza, zaś B Kolumny dominuje A Kolumny – tak więc jest to równowaga najmocniejszego typu. Nie jest to najszczęśliwsze rozwiązanie, ponieważ zarówno Wiersz jak i Kolumna wyszliby lepiej, grając AA i uzyskując wypłaty po 3, a nie po 0. Definicja. Wynik gry jest nieoptymalny w sensie Pareto ( albo subparetooptymalny, lub nieefektywny Pareto), jeśli gra ma inny wynik, dający obu graczom wyższe wypłaty, lub jednemu z graczy taka samą, a drugiemu wyższą. Wynik jest paretooptymalny, jeśli takiego innego wyniku nie ma. Optymalny oznacza „ niebędący w sposób oczywisty gorszy niż jakiś inny”. Na ogół gry mają wiele czynników paretooptymalnych, a w przypadku gier o sumie zerowej wszystkie wyniki mają tę własność, ponieważ zysk dla jednego gracza zawsze oznacza stratę dla drugiego. W grze nr 4 paretooptymalne są wyniki AA, AB i BA. Jedynie BB jest subparetooptymalny, gdyż AA daje obu graczom wyższe wypłaty. KRYTERIUM PARETO: Tylko wynik optymalny w sensie Pareto może być akceptowany jako rozwiązanie gry.

W celu sprawdzenia które z wyników są paretooptymalne należy umieścić na układzie współrzędnych wyniki graczy. Wypłatą Wiersza odpowiada oś odciętych, natomiast wypłatą Kolumny oś rzędnych. Gdy już wyznaczymy punkty odpowiadające wynikom w strategiach czystych, wynikom w strategiach mieszanych odpowiadają punkty należące do wieloboku ograniczonego łamaną łączącą wyniki w strategiach czystych. Wielobok ten nazywamy wielobokiem wypłat danej gry.

Rys poniżej przedstawia wieloboki wypłat poprzednich gier Rys poniżej przedstawia wieloboki wypłat poprzednich gier. Wynikami paretooptymalnymi są te, które leżą na „północno- wschodnim” brzegu wieloboku wypłat. Na rys 1 zaznaczono je przerywana linią. Zauważmy, że wynikom paretooptymalnym może odpowiadać odcinek, kilka odcinków bądź też pojedynczy punkt. Równowaga Nasha w strategiach mieszanych nie jest zbyt dobrym rozwiązaniem gry nr 2. Jeżeli przyjrzymy się wielobokowi wypłat (rys2), łatwo przekonamy się dlaczego: równowaga ta nie jest paretooptymalna. „Czysty” wynik AA i oznacza część „mieszanek” AA i BA są dla obu graczy lepsze.

Głównymi zaletami wyniku w równowadze jest stabilność oraz to ,że istnieje dla każdej gry. Z drugiej strony, gra może mieć liczne nieekwiwalentne i niewymienne równowagi, co z kolei może wywoływać problemy koordynacji. Nawet jeżeli punkt równowagi jest tylko jeden, może być on nieoptymalny w sensie Pareto. Biorąc to wszystko pod uwagę, niewykluczone, że powinniśmy poszukać innego pomysłu na rozwiązywanie gier o sumie niezerowej. W grach o sumie zerowej punkty równowagi były osiągane wtedy, gdy gracze wybierali bezpiecznie, minimaksowe strategie, maksymalizujące ich wypłaty w najgorszej możliwej sytuacji.

Dla podanej gry, rozważmy sytuację Wiersza Dla podanej gry, rozważmy sytuację Wiersza. Najgorsza z sytuacji to taka gdyby Kolumna przyjęła strategię która miała by na celu zminimalizowanie wypłaty Wiersza. Wówczas strategia jaką miałby przyjąć Wiersz musiała by polegać na minimalizowaniu przypuszczalnych strat, czyli minimaksową strategię w grze Wiersza. Gra Wiersza posiada punkt siodłowy (AA), zatem lepszą strategią dla wiersza będzie strategia A, która gwarantuje mu wypłatę 1- wartość gry Wiersza.

Definicja. W grze o sumie niezerowej strategię Wiersza nazywamy strategią bezpieczeństwa Wiersza, zaś wartość gry Wiersza nazywamy poziomem bezpieczeństwa Wiersza.   Wiersz grając swoją strategię bezpieczeństwa, gwarantuje sobie wypłatę co najmniej jego poziomowi bezpieczeństwa. Analogiczna definicję można sformułować do Kolumny, w grze obok jej strategia bezpieczeństwa to (A,B), a jej poziom bezpieczeństwa wynosi . Jeśli oboje z graczy zagrają swoimi strategiami bezpieczeństwa wówczas wynikiem tej gry będzie AA+AB=(,). Kolumna uzyskuje wynik równy poziomowi jej bezpieczeństwa, natomiast Wiersz nieco większy. Zaznaczając ten wynik na wielokącie wypłat, widzimy że nie jest on paretooptymalny. Nie jest on również punktem równowagi . gdyby Kolumna przewidywała, iż Wiersz zagra swoją strategię bezpieczeństwa (A), sama zamiast swojej strategii Bezpieczeństwa (A,B) powinna także zagrać czystą strategię A. Analogicznie, jeśli Wiersz przewiduje, że Kolumna zagra swoją mieszaną strategię bezpieczeństwa, to obliczając swoje oczekiwane wypłaty dla strategii A Wiersza: x 2+ x 1= B Wiersza: x 3+ x 0 = stwierdzi, że powinien zagrać B. Definicja. W grze o sumie niezerowej strategią kontrbezpieczną nazywamy strategię będącą najlepszą odpowiedzią na strategię bezpieczeństwa przeciwnika.

Tabela zawiera możliwe wyniki dla różnych kombinacji strategii bezpieczeństwa i kontrbezpiecznych dla gry poniżej . Kolumna chciałaby, żeby Wiersz zagrał bezpiecznie i w związku z tym mogłaby zagrać swoją strategią kontrbezpieczną. Wiersz wolałby, aby oboje gracze zagrali kontrbezpiecznie. Struktura zależności jest skomplikowana i niestabilna. Ostrożna gra, która w przypadku gier o sumie zerowej generowała stabilne rozwiązania, w kontekście gier o sumie niezerowej zupełnie pod tym względem się nie sprawdza.

Wnioskiem z powyższego jest stwierdzenie , iż teorii rozwiązywania gier o sumie zerowej nie da się przenieść na gry o sumie niezerowej. Niestety nie ma uniwersalnego modelu rozwiązywania gier w których wykluczona jest komunikacja pomiędzy graczami. Definicja. Dwuosobowa gra jest rozwiązywalna w ścisłym sensie, jeżeli: ma co najmniej jedną równowagę optymalną w sensie Pareto jeżeli równowag takich jest więcej, to są one ekwiwalentne i wymienne. Dla gier rozwiązywalnych w ścisłym sensie jesteśmy wstanie wykazać jako rozwiązanie unikalną, paretooptymalną równowagę bądź też zbiór równowag wymiennych i ekwiwalentnych. Gra nr 1 jest rozwiązaniem w ścisłym sensie, ale gra nr 2, 3 i 4 już nie.

Rozważmy grę przedstawioną na rysunku. W grze tej występują dwie równowagi BB i AC, ale na wieloboku wypłat widać, że równowaga BB nie jest paretooptymalna, zatem unikalną równowagą paretooptymalną jest AC. Tak więc gra jest rozwiązywalna w ścisłym sensie. Powiedzieć można, że Pan Wiersz powinien grać strategię A, a Pani Kolumna C.

Melvin Dresher i Merrill Flood wymyślili grę, która posłużyła im do pokazania, że w grze o sumie niezerowej mający dokładnie jeden punkt równowagi równowaga ta może nie być paretooptymalna. Pani Kolumna A B Pan A (0,0) (-2,1) Wiersz B (1,-2) (-1,-1) Graczami są dwaj aresztowani, podejrzewani o wspólne popełnienie przestępstwa, przesłuchiwani w dwóch różnych pokojach. Sprytny prokurator oświadczył każdemu z nich, że:

Jeżeli jeden z nich przyzna się, zaś drugi nie, przyznający się zostanie nagodzony (wypłata +1), zaś jego wspólnik dostanie wyrok (wypłata -2) Jeżeli obaj się przyznają dostaną niski wyrok (wypłata -1) Z drugiej strony obaj wiedzą, że: Jeśli obaj się nie przyznają, zostaną uwolnieni (wypłata 0)

Strategia B to dla obu graczy strategia dominująca co prowadzi do równowagi BB, która nie jest najlepszym rozwiązaniem dla obu więźniów , obaj gracze dużo lepiej wyszli by na AA. Każdemu więźniowi opłaca się przyznać nie zależnie co zrobi drugi więzień ale mimo to oba przyznając się wychodzą gorzej niż razem by się przyznali Konflikt pomiędzy racjonalnością indywidualną w postaci kryterium dominacji a racjonalnością grupową w postaci kryterium Pareto.

Ogólna Postać Dylematu Więźnia Pani Kolumna C D Pan C (R,R) (S,T) Warunki : Wiersz D (T,S) (U,U) T > R > U > S C – Kooperacja ( nie przyznawać się) D – Dezercja (przyznać się) R – Nagroda (reward) za kooperacje S – Wypłata frajera (sucker) T – Wypłata pokusy (templation) U – Wypłata niekooperscyjna

Znaczenie dylematu więźnia wypływa z tego, że wiele typowych sytuacji w życiu społecznym ma w swej istotnej warstwie dylemat więźnia np. Dwa sklepy spożywcze maja takie same ceny. Jeden z nich decyduje się na obniżenie cen drugi natomiast musi zdecydować czy obniżyć ceny czy nie Jeżeli drugi nie obniży cen jego klienci mogą przejść do drugiego sklepu

Iterowany dylemat więźnia Polega on na rozgrywaniu tej samej gry wielokrotnie. Wtedy każdy gracz ma możliwość ukarania drugiego gracza za zdradzanie w poprzedniej rundzie. W tej sytuacji, jeśli straty wynikające z ukarania będą większe niż zyski ze zdradzania, współpraca obu graczy może utworzyć stan równowagi. Taka gra może mieć też wiele innych stanów równowagi. Przed efektem domina można bronić się dwoma sposobami: Po pierwsze gracze w rzeczywistości rzadko kiedy stosują się do sposobu gry wynikającego z logicznego rozumienia. Po drugie w wielu sytuacjach odpowiadających Iterowanemu dylematowi więźnia gracze nie wiedzą ile razy będzie rozgrywana gra. Jeśli gracze nie wiedzą która gra będzie ostatnia nie wiedzą która kostka będzie ostatnią kostką, od której miałby się zacząć proces wykluczania kooperacji między graczami

Wzór R+ pR+ p2R+ p3R…=R/(1-p) CO wynika ze wzoru na sumę ciągu geometrycznego . Z drugiej strony jeśli m razy zagramy C a za m+1 zagramy D moja wypłata wyniesie

Rozwiązywanie przez odwołanie się do metagry Czy jeśli Dylemnat Wieźnia rozgrywany jest tylko raz , czy można jakoś uzasadnić wybór strategii C? Kolumna ma 4 strategie Wybierać A nie zaleznie jakiej decyzji Wiersz się spodziewa Wbierać taką samą strategię co wybierze Wiersz Wybierać przeciwną strategie jakiej spodziewa się po wierszu Wybierać B niezależnie jakiej decyzji się wiersza Spodziewa

Jak można zauważyć przy obliczaniu wypłat przyjmujemy założenia ,że Pani Kolumna zawsze przewiduje działąnia wiersza poprawnie i dopasowywuje do nich swoje działania Strategia A nie dominuje już strategii B. Niestety strategi IV kolumny dominuje wszystkie jej pozostałe strategie i jedyną równowagą jest B wiersza i IV kolumny

Niech decyzja Wiersza będzie zależna od jego przewidywania strategi przez Kolumnę przy takim założeniu będzie miał 16 strategii.

W tej grze Kolumnaa nie gry dominującej ale jak można sprawdzić strategia XII Wiersza dominuje wszystkie. W ten sposób zeście na drugi poziom rozumienia Najlepszą strategią Wiersza jest kooperacyjna wtedy i tylko wtedy gdy jest przekonany, że Kolumna będzie działać tak jak on wiedząc o tym kolumna powinna zagrać tak samo jak on