Mehanizem za iskanje ravnotežne rešitve. Dvojnost v linearnem programiranju. Lastnost medsebojno dvojnih problemov

Za optimalne strategije v teoriji konfliktov veljajo tiste, ki igralce vodijo v stabilna ravnovesja, tj. določene situacije, ki zadovoljujejo vse igralce.

Optimalnost rešitve v teoriji iger temelji na konceptu ravnovesna situacija:

1) nobenemu od igralcev ni koristno odstopati od ravnotežne situacije, če vsi drugi ostanejo v njej,

2) pomen ravnotežja - ko se igra večkrat ponovi, bodo igralci dosegli stanje ravnotežja in začeli igro v kateri koli strateški situaciji.

V vsaki interakciji lahko obstajajo naslednje vrste ravnovesja:

1. ravnovesje v previdnih strategijah . Določeno s strategijami, ki igralcem zagotavljajo zajamčen rezultat;

2. ravnovesje v prevladujočih strategijah .

Dominantna strategija je akcijski načrt, ki udeležencu zagotavlja največji dobiček ne glede na dejanja drugega udeleženca. Zato bo ravnotežje prevladujočih strategij presečišče prevladujočih strategij obeh udeležencev v igri.

Če igralčeve optimalne strategije prevladujejo nad vsemi njihovimi drugimi strategijami, potem ima igra ravnotežje v prevladujočih strategijah. V igri dileme zapornikov bo Nashov niz strategij ravnotežja ("prepoznati - priznati"). Poleg tega je pomembno omeniti, da je tako za igralca A kot za igralca B prevladujoča strategija »prepoznaj«, medtem ko je prevladujoča strategija »ne prepoznam«;

3. ravnovesje Nash . Nashevo ravnotežje je vrsta odločitve v igri dveh ali več igralcev, pri kateri noben udeleženec ne more povečati dobitka z enostransko spremembo svoje odločitve, ko drugi udeleženci ne spremenijo svojih odločitev.

Recimo, da je igra n osebe v normalni obliki, kjer je niz čistih strategij in je niz izplačil.

Ko vsak igralec izbere strategijo v profilu strategije, igralec prejme zmago. Poleg tega so dobitki odvisni od celotnega profila strategij: ne samo od strategije, ki jo izbere igralec sam, ampak tudi od strategij drugih ljudi. Profil strategije je Nashevo ravnotežje, če sprememba strategije ni koristna za nobenega igralca, to je za



Igra ima lahko Nashevo ravnotežje v čistih in mešanih strategijah.

Nash je to dokazal, če dovolimo mešane strategije, nato v vsaki igri n igralci bodo imeli vsaj eno Nashevo ravnotežje.

V Nashevem ravnotežnem položaju mu strategija vsakega igralca zagotavlja najboljši odziv na strategije drugih igralcev;

4. Ravnovesje Stackelberg. Stackelbergov model– teoretični model iger oligopolnega trga ob prisotnosti informacijske asimetrije. V tem modelu je vedenje podjetij opisano z dinamično igro s popolnimi popolnimi informacijami, v kateri je vedenje podjetij modelirano z uporabo statična igre z popolne informacije. Glavna značilnost Igra je prisotnost vodilnega podjetja, ki prvo določi obseg proizvodnje blaga, preostala podjetja pa se po njem vodijo v svojih izračunih. Osnovni predpogoji igre:

· panoga proizvaja homogen izdelek: razlike med izdelki različnih podjetij so zanemarljive, kar pomeni, da se kupec pri izbiri podjetja pri nakupu osredotoča le na ceno;

· v panogi deluje majhno število podjetij;

· podjetja določajo količino proizvedenih izdelkov, cena zanje pa se določi na podlagi povpraševanja;

· obstaja tako imenovano vodilno podjetje, katerega obseg proizvodnje uporabljajo druga podjetja.

Tako se Stackelbergov model uporablja za iskanje optimalne rešitve v dinamičnih igrah in ustreza največjemu izplačilu igralcev, ki temelji na pogojih, ki nastanejo po tem, ko je eden ali več igralcev že izbral. Stackelbergovo ravnotežje.- situacija, v kateri nobeden od igralcev ne more enostransko povečati svojih dobitkov, odločitve pa najprej sprejme en igralec in postanejo znane drugemu igralcu. V igri »dilema zapornikov« bo Stackelbergovo ravnotežje doseženo v kvadratu (1;1) - »priznanje krivde« s strani obeh zločincev;

5. Paretova optimalnost- stanje sistema, v katerem vrednosti posameznega kriterija, ki opisuje stanje sistema, ni mogoče izboljšati brez poslabšanja položaja drugih akterjev.

Paretovo načelo pravi: »Vsaka sprememba, ki ne povzroči izgube, ampak koristi nekaterim ljudem (po njihovi lastni oceni), je izboljšava.« Tako je priznana pravica do vseh sprememb, ki nikomur ne povzročajo dodatne škode.

Množica Pareto optimalnih stanj sistema se imenuje "Paretova množica", "množica Pareto optimalnih alternativ" ali "množica optimalnih alternativ".

Situacija, ko je dosežena Paretova učinkovitost, je situacija, ko so izčrpane vse koristi od menjave.

Paretova učinkovitost je eden osrednjih konceptov sodobnega časa ekonomska znanost. Na podlagi tega koncepta sta zgrajena prvi in ​​drugi temeljni izrek blaginje.

Ena od aplikacij Paretove optimalnosti je Paretova alokacija virov (dela in kapitala) v mednarodni gospodarski integraciji, tj. gospodarsko združevanje dveh ali več držav. Zanimivo je, da je bila Paretova porazdelitev pred in po mednarodni gospodarski integraciji ustrezno matematično opisana (Dalimov R.T., 2008). Analiza je pokazala, da se dodana vrednost sektorjev in dohodek delovnih virov gibljeta v nasprotni smeri v skladu z znano enačbo toplotne prevodnosti, podobno kot plin ali tekočina v vesolju, kar omogoča uporabo metodologije analize ki se uporablja v fiziki v povezavi z ekonomskimi problemi migracije ekonomskih parametrov.

Paretov optimum pravi, da blaginja družbe doseže maksimum, porazdelitev virov pa postane optimalna, če vsaka sprememba te porazdelitve poslabša blaginjo vsaj enega subjekta ekonomskega sistema.

Pareto-optimalno tržno stanje- stanje, ko ni mogoče izboljšati položaja katerega koli udeleženca v ekonomskem procesu, ne da bi hkrati zmanjšali blaginjo vsaj enega od drugih.

Po Paretovem kriteriju (merilo rasti družbene blaginje) je gibanje k optimumu možno le s takšno razporeditvijo virov, ki povečuje blaginjo vsaj enega človeka, ne da bi pri tem škodoval komu drugemu.

Za situacijo S* pravimo, da Pareto prevladuje nad situacijo S, če:

· za katerega koli igralca je njegov izkupiček S<=S*

· obstaja vsaj en igralec, za katerega je njegov izkupiček v situaciji S*>S

Pri problemu "dileme ujetnikov" Paretovo ravnotežje, ko ni mogoče izboljšati položaja enega od igralcev, ne da bi poslabšalo položaj drugega, ustreza položaju kvadrata (2;2).

Razmislimo primer 1:

Ravnovesja v dominantnih strategijahšt.

Nashevo ravnotežje. (5.5) in (4.4). Ker je nedonosno, da bi kateri koli igralec posamezno odstopal od izbrane strategije.

Paretov optimum. (5,5). Ker so dobitki igralcev pri izbiri teh strategij večji od dobitkov pri izbiri drugih strategij.

Stackelbergovo ravnotežje:

Igralec A naredi prvo potezo.

Izbere svojo prvo strategijo. B izbere prvo strategijo. A dobi 5.

Izbere svojo drugo strategijo. B izbere drugo. A dobi 4.

5 > 4 =>

B naredi prvo potezo.

Izbere svojo prvo strategijo. A izbere prvo strategijo. B dobi 5.

Izbere svojo drugo strategijo. In izbere drugo. B dobi 4.

5 > 4 => Stackelbergovo ravnovesje (5, 5)

Primer 2.Modeliranje duopola.

Razmislimo o bistvu tega modela:

Naj obstaja panoga z dvema podjetjema, od katerih je eno "vodilno podjetje", drugo "sledilno podjetje". Naj bo cena izdelka linearna funkcija celotne ponudbe Q:

p(Q) = abQ.

Predpostavimo tudi, da so stroški podjetij na enoto proizvodnje konstantni in enaki z 1 in z 2 oz. Nato bo določen dobiček prvega podjetja formula

Π 1 = p(Q 1 + Q 2) * Q 1 − c 1 Q 1 ,

dobiček pa je temu primerno drugi

Π 2 = p(Q 1 + Q 2) * Q 2 − c 2 Q 2 .

V skladu s Stackelbergovim modelom prvo podjetje - vodilno podjetje - na prvem koraku dodeli svoj rezultat Q 1. Po tem drugo podjetje - sledilno podjetje - z analizo dejanj vodilnega podjetja določi svoj rezultat Q 2. Cilj obeh podjetij je povečati svoje plačilne funkcije.

Nashevo ravnovesje v tej igri je določeno z indukcijo nazaj. Razmislimo o predzadnji fazi igre - potezi drugega podjetja. Na tej stopnji podjetje 2 pozna obseg optimalne proizvodnje prvega podjetja Q 1*. Potem je problem določitve optimalnega izhoda Q 2 * se nanaša na rešitev problema iskanja največje točke plačilne funkcije drugega podjetja. Maksimiranje funkcije Π 2 glede na spremenljivko Q 2, štetje Q 1, ugotovimo, da je optimalna proizvodnja drugega podjetja

To je najboljši odgovor sledilnega podjetja na izbiro vprašanja vodilnega podjetja. Q 1*. Vodilno podjetje lahko poveča svojo plačilno funkcijo, pri čemer upošteva vrsto funkcije Q 2*. Najvišja točka funkcije Π 1 v spremenljivki Q 1 ob zamenjavi Q 2* bo

Če to nadomestimo v izraz za Q 2 * , dobimo

Tako v ravnotežju proizvede vodilno podjetje dvakrat več proizvodnje kot sledilno podjetje.

Za optimalne strategije v teoriji konfliktov veljajo tiste, ki igralce vodijo v stabilna ravnovesja, tj. določene situacije, ki zadovoljujejo vse igralce.

Optimalnost rešitve v teoriji iger temelji na konceptu ravnovesna situacija:

1) nobenemu od igralcev ni koristno odstopati od ravnotežne situacije, če vsi drugi ostanejo v njej,

2) pomen ravnotežja - ko se igra večkrat ponovi, bodo igralci dosegli stanje ravnotežja in začeli igro v kateri koli strateški situaciji.

V vsaki interakciji lahko obstajajo naslednje vrste ravnovesja:

1. ravnovesje v previdnih strategijah . Določeno s strategijami, ki igralcem zagotavljajo zajamčen rezultat;

2. ravnovesje v prevladujočih strategijah .

Dominantna strategija je akcijski načrt, ki udeležencu zagotavlja največji dobiček ne glede na dejanja drugega udeleženca. Zato bo ravnotežje prevladujočih strategij presečišče prevladujočih strategij obeh udeležencev v igri.

Če igralčeve optimalne strategije prevladujejo nad vsemi njihovimi drugimi strategijami, potem ima igra ravnotežje v prevladujočih strategijah. V igri dileme zapornikov bo Nashov niz strategij ravnotežja ("prepoznati - priznati"). Poleg tega je pomembno omeniti, da je tako za igralca A kot za igralca B prevladujoča strategija »prepoznaj«, medtem ko je prevladujoča strategija »ne prepoznam«;

3. ravnovesje Nash . Nashevo ravnotežje je vrsta odločitve v igri dveh ali več igralcev, pri kateri noben udeleženec ne more povečati dobitka z enostransko spremembo svoje odločitve, ko drugi udeleženci ne spremenijo svojih odločitev.

Recimo, da je igra n osebe v normalni obliki, kjer je niz čistih strategij in je niz izplačil.

Ko vsak igralec izbere strategijo v profilu strategije, igralec prejme zmago. Poleg tega so dobitki odvisni od celotnega profila strategij: ne samo od strategije, ki jo izbere igralec sam, ampak tudi od strategij drugih ljudi. Profil strategije je Nashevo ravnotežje, če sprememba strategije ni koristna za nobenega igralca, to je za

Igra ima lahko Nashevo ravnotežje v čistih in mešanih strategijah.

Nash je to dokazal, če dovolimo mešane strategije, nato v vsaki igri n igralci bodo imeli vsaj eno Nashevo ravnotežje.

V Nashevem ravnotežnem položaju mu strategija vsakega igralca zagotavlja najboljši odziv na strategije drugih igralcev;

4. Ravnovesje Stackelberg. Stackelbergov model– teoretični model iger oligopolnega trga ob prisotnosti informacijske asimetrije. V tem modelu je vedenje podjetij opisano z dinamično igro s popolnimi popolnimi informacijami, v kateri je vedenje podjetij modelirano z uporabo statična igre s popolnimi informacijami. Glavna značilnost igre je prisotnost vodilnega podjetja, ki prvo določi obseg proizvodnje blaga, po njem pa se pri izračunih vodijo preostala podjetja. Osnovni predpogoji igre:


· panoga proizvaja homogen izdelek: razlike med izdelki različnih podjetij so zanemarljive, kar pomeni, da se kupec pri izbiri podjetja pri nakupu osredotoča le na ceno;

· v panogi deluje majhno število podjetij;

· podjetja določajo količino proizvedenih izdelkov, cena zanje pa se določi na podlagi povpraševanja;

· obstaja tako imenovano vodilno podjetje, katerega obseg proizvodnje uporabljajo druga podjetja.

Tako se Stackelbergov model uporablja za iskanje optimalne rešitve v dinamičnih igrah in ustreza največjemu izplačilu igralcev, ki temelji na pogojih, ki nastanejo po tem, ko je eden ali več igralcev že izbral. Stackelbergovo ravnotežje.- situacija, v kateri nobeden od igralcev ne more enostransko povečati svojih dobitkov, odločitve pa najprej sprejme en igralec in postanejo znane drugemu igralcu. V igri »dilema zapornikov« bo Stackelbergovo ravnotežje doseženo v kvadratu (1;1) - »priznanje krivde« s strani obeh zločincev;

5. Paretova optimalnost- stanje sistema, v katerem vrednosti posameznega kriterija, ki opisuje stanje sistema, ni mogoče izboljšati brez poslabšanja položaja drugih akterjev.

Paretovo načelo pravi: »Vsaka sprememba, ki ne povzroči izgube, ampak koristi nekaterim ljudem (po njihovi lastni oceni), je izboljšava.« Tako je priznana pravica do vseh sprememb, ki nikomur ne povzročajo dodatne škode.

Množica Pareto optimalnih stanj sistema se imenuje "Paretova množica", "množica Pareto optimalnih alternativ" ali "množica optimalnih alternativ".

Situacija, ko je dosežena Paretova učinkovitost, je situacija, ko so izčrpane vse koristi od menjave.

Paretova učinkovitost je eden osrednjih konceptov sodobne ekonomske znanosti. Na podlagi tega koncepta sta zgrajena prvi in ​​drugi temeljni izrek blaginje.

Ena od aplikacij Paretove optimalnosti je Paretova alokacija virov (dela in kapitala) v mednarodni gospodarski integraciji, tj. gospodarsko združevanje dveh ali več držav. Zanimivo je, da je bila Paretova porazdelitev pred in po mednarodni gospodarski integraciji ustrezno matematično opisana (Dalimov R.T., 2008). Analiza je pokazala, da se dodana vrednost sektorjev in dohodek delovnih virov gibljeta v nasprotni smeri v skladu z znano enačbo toplotne prevodnosti, podobno kot plin ali tekočina v vesolju, kar omogoča uporabo metodologije analize ki se uporablja v fiziki v povezavi z ekonomskimi problemi migracije ekonomskih parametrov.

Paretov optimum pravi, da blaginja družbe doseže maksimum, porazdelitev virov pa postane optimalna, če vsaka sprememba te porazdelitve poslabša blaginjo vsaj enega subjekta ekonomskega sistema.

Pareto-optimalno tržno stanje- stanje, ko ni mogoče izboljšati položaja katerega koli udeleženca v ekonomskem procesu, ne da bi hkrati zmanjšali blaginjo vsaj enega od drugih.

Po Paretovem kriteriju (merilo rasti družbene blaginje) je gibanje k optimumu možno le s takšno razporeditvijo virov, ki povečuje blaginjo vsaj enega človeka, ne da bi pri tem škodoval komu drugemu.

Za situacijo S* pravimo, da Pareto prevladuje nad situacijo S, če:

· za katerega koli igralca je njegov izkupiček S<=S*

· obstaja vsaj en igralec, za katerega je njegov izkupiček v situaciji S*>S

Pri problemu "dileme ujetnikov" Paretovo ravnotežje, ko ni mogoče izboljšati položaja enega od igralcev, ne da bi poslabšalo položaj drugega, ustreza položaju kvadrata (2;2).

Razmislimo primer 1.

Razmislimo o mehanizmu za vzpostavitev tržnega ravnovesja, ko trg pod vplivom sprememb dejavnikov povpraševanja ali ponudbe zapusti to stanje. Obstajata dve glavni vrsti neravnovesja med ponudbo in povpraševanjem: presežek in pomanjkanje blaga.

Presežek(presežek) proizvoda je tržna situacija, ko ponudba proizvoda po dani ceni presega povpraševanje po njem. V tem primeru se pojavi konkurenca med proizvajalci, boj za kupce. Zmagovalec je tisti, ki ponudi več ugodni pogoji prodaja blaga. Tako se trg trudi vrniti v stanje ravnovesja.

Pomanjkanje blago - v tem primeru zahtevana količina za izdelek po določeni ceni presega dobavljeno količino izdelka. V tem primeru nastane konkurenca med kupci za možnost nakupa redkega blaga. Zmaga tisti, ki ponudi najvišjo ceno za določen izdelek. Povišana cena pritegne pozornost proizvajalcev, ki začnejo širiti proizvodnjo in s tem povečati ponudbo blaga. Posledično se sistem vrne v stanje ravnovesja.

Tako ima cena ravnotežno funkcijo, spodbuja širjenje proizvodnje in ponudbe blaga v času pomanjkanja in omejuje ponudbo, osvobodi trg presežkov.

Uravnotežna vloga cene se kaže tako skozi povpraševanje kot ponudbo.

Recimo, da je bilo ravnotežje, vzpostavljeno na našem trgu, porušeno - pod vplivom nekaterih dejavnikov (na primer rasti dohodka) je prišlo do povečanja povpraševanja, zaradi česar se je njegova krivulja premaknila z D1 V D2(slika 4.3 a), vendar je predlog ostal nespremenjen.

Če se cena določenega izdelka ni spremenila takoj po premiku krivulje povpraševanja, bo po povečanju povpraševanja prišlo do situacije, ko bo pri isti ceni P1 količino blaga, ki jo lahko vsak kupec zdaj nakup (QD) presega količino, ki jo proizvajalci lahko ponudijo po dani ceni blaga (QS). Količina povpraševanja bo zdaj presegla količino ponudbe tega izdelka, kar pomeni, da pomanjkanje blaga v velikosti Df = QD – Qs na tem trgu.

Pomanjkanje blaga, kot že vemo, vodi do tekmovanja med kupci za možnost nakupa tega izdelka, kar vodi do zvišanja tržnih cen. V skladu z zakonom ponudbe bo odziv prodajalcev na zvišanje cene povečanje dobavljene količine. Na grafikonu bo to izraženo z gibanjem ravnotežne točke trga E1 vzdolž krivulje ponudbe, dokler se ne preseka z novo krivuljo povpraševanja D2 kjer bo doseženo novo ravnotežje tega trga E2 s ravnotežna količina blaga Q2 in ravnotežna cena P2.

riž. 4.3. Premik ravnotežne cene.


Oglejmo si situacijo, ko je ravnovesno stanje porušeno na strani ponudbe.

Recimo, da je pod vplivom nekaterih dejavnikov prišlo do povečanja ponudbe, zaradi česar se je njena krivulja premaknila v desno od položaja S1 V S2 povpraševanje pa je ostalo nespremenjeno (slika 4.3 b).

Pod pogojem, da tržna cena ostane na enaki ravni (P1) bo povečanje ponudbe povzročilo presežek blago v velikosti Sp = Qs – QD. Posledično obstaja konkurenca prodajalcev, kar vodi do znižanja tržne cene (z P1 do P2) in rast količine prodanega blaga. To se bo odrazilo na grafu s premikanjem točke tržnega ravnovesja E1 vzdolž krivulje povpraševanja, dokler se ne preseka z novo krivuljo ponudbe, kar bo vodilo do vzpostavitve novega ravnotežja E2 s parametri Q2 in P2.

Podobno je mogoče ugotoviti učinek zmanjšanja povpraševanja in zmanjšanja ponudbe na ravnotežno ceno in ravnotežno količino blaga.

IN poučna literatura so oblikovana štiri pravila za interakcijo ponudbe in povpraševanja.

1. Povečanje povpraševanja povzroči povečanje ravnotežne cene in ravnotežne količine blaga.

2. Zmanjšanje povpraševanja povzroči padec tako ravnotežne cene kot ravnotežne količine blaga.

3. Povečanje ponudbe povzroči znižanje ravnotežne cene in povečanje ravnotežne količine blaga.

4. Zmanjšanje ponudbe povzroči povečanje ravnotežne cene in zmanjšanje ravnotežne količine blaga.

Z uporabo teh pravil lahko najdete ravnotežno točko za vse spremembe ponudbe in povpraševanja.

Vrnitev cen na tržno ravnovesno raven lahko ovirajo predvsem naslednje okoliščine:

1) upravno urejanje cen\

2) monopolizem proizvajalec ali potrošnik, kar jim omogoča ohranjanje monopolne cene, ki je lahko umetno visoka ali nizka.


| |

Tema 4. Teorija iger in modeliranje interakcij.

1. Osnovni koncepti teorije iger.

2. Vrste ravnovesja: Nashevo ravnovesje, Steckelbergovo ravnovesje, Pareto-optimalno ravnovesje, ravnovesje dominantnih strategij.

3. Osnovni modeli teorije iger.

Osnovni koncepti teorije iger.

Uporaba matematične metode, ki vključuje teorijo iger, nam pri analizi ekonomskih procesov omogoča, da prepoznamo trende in razmerja, ki ob uporabi drugih metod ostanejo skriti in dobimo celo zelo nepričakovane rezultate.

Upoštevajte, da je teorija iger ena najmlajših matematičnih disciplin. Njen nastanek kot samostojna veja matematike sega v sredino petdesetih let prejšnjega stoletja, ko je izšla znamenita monografija F. Neumanna in O. Morgensterna »Teorija iger in ekonomskega vedenja«. Začetki teorije iger povezani z deli E. Porela (1921).«

Do zdaj se je teorija iger spremenila v celotno matematično področje, ki je bogato z zanimivimi rezultati in ima veliko število praktična priporočila in aplikacije.

Razmislimo o osnovnih predpostavkah in konceptih igralnega modela medčloveških interakcij.

1. Število posameznikov v interakciji je dva. Posamezniki se imenujejo igralci. Koncept igralca nam omogoča modeliranje socialne vloge posameznik: prodajalec, kupec, mož, žena itd. Igra je poenostavljena predstavitev interakcij dveh posameznikov, ki imata različne ali podobne družbene vloge, na primer kupec - prodajalec, prodajalec - prodajalec itd.



2. Vsak posameznik ima določen nabor vedenjskih možnosti ali alternativ. Število možnosti vedenja za različne igralce morda ni enako.

3. Medosebna interakcija se šteje za izvedeno, če oba igralca hkrati izbereta možnosti svojega vedenja in delujeta v skladu z njimi. Posamezno dejanje človeške interakcije se imenuje potek igre. Predpostavlja se, da je trajanje dejanja interakcije nič.

4. Potek igre določata dve celi števili - izbrana številka možnosti obnašanja (poteze) prvega igralca in izbrana številka možnosti obnašanja (poteze) drugega igralca. Največje možno število različnih potez v igri je enako zmnožku skupnega števila potez prvega igralca in skupnega števila potez drugega igralca.

5. Vsaka interakcija med posamezniki ali poteza v igri prejme svojo zaporedno številko: 1, 2, 3 itd. Koncepta "poteze v igri" (par številk) in "številke poteze v igri" (eno število) ne smemo zamenjevati. Predpostavlja se, da se interakcije pojavljajo redno v rednih intervalih, zato število potez v igri označuje dolžino časa, v katerem posamezniki komunicirajo drug z drugim.

6. Vsak igralec si prizadeva doseči največjo vrednost nekega ciljnega indikatorja, ki se imenuje uporabnost ali dobitek. Tako ima igralec lastnosti »ekonomičnega človeka«. Igralčev izkupiček je lahko pozitiven ali negativen. Negativni dobiček se imenuje tudi izguba.

7. Vsaka poteza v igri (par alternativ, ki jih izberejo igralci) ustreza zmagam enega para igralcev. Odvisnost dobitkov igralcev od potez, ki jih izberejo, opisuje matrika igre ali matrika izplačil. Vrstice te matrike ustrezajo alternativam (potezam) prvega igralca, stolpci pa alternativam (potezam) drugega igralca. Elementi igralne matrike so pari dobitkov, ki ustrezajo ustrezni vrstici in stolpcu (poteze igralca). Dobitek prvega igralca (prva številka v celici igralne matrike) ni odvisen le od njegove poteze (številka vrstice), ampak tudi od poteze drugega igralca (številka stolpca). Zato posameznik pred izvedbo interakcije ne ve točne višine svojega dobička. Z drugimi besedami, igralčeva izbira vedenja poteka v pogojih negotovosti, kar pomeni, da ima igralec lastnosti "institucionalne osebe".

8. Igralčeva strategija je običajen vzorec vedenja, ki mu igralec sledi pri izbiri alternativnega vedenja v določenem časovnem obdobju. Igralčeva strategija je določena z verjetnostmi (ali frekvencami) izbire vseh možnih možnosti obnašanja. Z drugimi besedami, igralčeva strategija je vektor, katerega število koordinat je enako skupno število možne alternative in i-ta koordinata enaka verjetnosti (pogostosti) izbire i-ta možnost. Jasno je, da je vsota vrednosti vseh koordinat dani vektor enako ena.

Če igralec v obravnavanem časovnem obdobju izbere samo eno možnost obnašanja, se prikliče igralčeva strategija čisto.

Vse koordinate ustreznega vektorja čiste strategije so enake nič, razen ena, ki je enaka ena.

Strategija, ki ni čista, se imenuje mešano.

V tem primeru ima igralčev strateški vektor vsaj dve koordinati, ki nista nič. Odzivajo se na možnosti aktivnega vedenja. Igralec, ki sledi mešani strategiji, izmenjuje aktivne vedenjske možnosti v skladu z danimi verjetnostmi (frekvencami) izbire. V nadaljevanju bomo zaradi enostavnosti predstavitve gradiva predpostavili, da igralec vedno sledi neki čisti strategiji, to je, da v obravnavanem časovnem obdobju vedno izbere eno samo možnost vedenja iz danega nabora alternativ.

Za institucionalno osebo je značilna spremenljivost njegovega vedenja, ki je odvisna od njenega notranjega stanja, življenjska izkušnja, zunanji socialno okolje itd. V okviru igralnega pristopa k preučevanju institucij se ta lastnost institucionalne osebe izraža v možnosti, da igralec spremeni svojo strategijo. Če bi bila med igralčevimi strategijami vedno objektivno boljša, bi ji vedno sledil in spreminjanje strategije bi bilo nesmiselno. Ampak v resnično življenje oseba običajno upošteva več vedenjskih strategij. Nemogoče je objektivno izpostaviti najboljše med njimi. Igralni model medčloveških interakcij nam omogoča preučevanje te značilnosti institucionalnega vedenja, saj zajema številne vedenjske strategije, ki se med seboj ne izključujejo in odražajo različne vidike obnašanje institucionalne osebe. Poglejmo te vedenjske vzorce.

Igralna matrica

Prvi igralec Drugi igralec
6; 15 2; 13 3; 11
1; 10 5; 14 4; 12
4; 12 4; 13 3; 13

Razlikovati solidarno in nesolidarnost vedenjske strategije. Prvi so najbolj značilni za "institucionalnega človeka", drugi pa za "ekonomskega človeka".

Nesolidarnost Za vedenjske strategije je značilno, da posameznik samostojno izbira svoje vedenje, medtem ko vedenja drugega posameznika sploh ne upošteva ali pa na podlagi obstoječih izkušenj domneva možna opcija njegovo vedenje.

Glavne vrste nesolidarnostnega vedenja vključujejo naslednje: neracionalno, previden, optimiziranje, deviantno in inovativen.

1) Neracionalno vedenje. Označimo dve strategiji prvega igralca z A oziroma B. Pravimo, da je strategija A prevladujoča glede na strategijo B, če je za katero koli potezo drugega igralca izkupiček prvega igralca, ki ustreza strategiji A, večji od njegovega izplačila, ki ustreza strategiji B. Tako je strategija B objektivno slabša z spoštovanje strategije A.

Če lahko igralec vedno svobodno izbere strategijo A, potem strategije B sploh ne bi smel izbrati. Če kljub temu prvi igralec izbere strategijo B, se njegovo vedenje v tem primeru imenuje iracionalno. Da bi prepoznali igralčevo iracionalno vedenje, je dovolj, da analiziramo njegovo izplačilno matriko: izplačilna matrika drugega igralca se ne uporablja.

Upoštevajte, da je izraz "iracionalno vedenje" izposojen iz neo klasična teorija. Pomeni le, da izbira te strategije zagotovo ni najboljša v situaciji, ko sta oba igralca v antagonističnem soočenju, značilnem za »ekonomskega človeka«. Toda za »institucionalno osebo«, ki vstopa v medosebne interakcije z drugimi ljudmi, iracionalno vedenje ni samo možno, ampak se lahko izkaže za najbolj razumno ravnanje. Primer tega je igra Prisoners' Dilemma.

2) Previdno vedenje. »Institucionalni človek« za razliko od »ekonomskega človeka« ni absolutno racionalen, tj. ne izbere vedno najboljšega vedenja, ki maksimira dobiček. Omejena racionalnost »institucionalnega človeka« se izraža v njegovi nezmožnosti izbire najboljša možnost vedenje zaradi velikega števila alternativ, kompleksnega algoritma za določitev optimalne alternative, omejenega časa odločanja itd. Hkrati pa koncept omejene racionalnosti predpostavlja, da je človek glede na vso kompleksnost izbire sposoben izbrati dokaj dobro alternativo.

V igrivem pristopu k preučevanju institucij je omejena racionalnost posameznika ponazorjena s previdnim obnašanjem igralca.

Strategija previdnega vedenja- to je igralčeva strategija, ki mu zagotavlja določen znesek dobitkov ne glede na izbiro (potezo) drugega igralca. Previdna strategija se imenuje tudi maximin, ker se izračuna z iskanjem največje vrednosti iz več minimalnih vrednosti.

Previdna strategija prvega igralca je opredeljena na naslednji način. V vsaki vrstici njegove izplačilne matrike se najde minimalni element, nato pa se izmed teh minimalnih elementov izbere maksimum ali maksimin prvega igralca. Vrstica igralne matrice, na kateri se nahaja maksimin prvega igralca, ustreza njegovi previdni strategiji. Previdna strategija drugega igralca je podobna. V vsakem stolpcu matrike njegovih dobitkov se najde minimalni element, nato pa se iz teh minimalnih elementov določi največji element. Stolpec igralne matrike, v katerem se nahaja maksimin drugega igralca, ustreza njegovi previdni strategiji. Vsak igralec ima lahko več previdnih strategij, vendar je za vse značilna ena vrednost maximina (visoko-nizko strategijo) ali zajamčenih dobitkov. Previdne strategije obstajajo v vsaki matrični igri. Za prepoznavanje igralčeve previdne strategije je dovolj, da analiziramo njegovo izplačilno matriko, ne da bi uporabili izplačilno matriko drugega igralca. Ta lastnost je skupna neracionalnemu in previdnemu vedenju.

3) Optimiziranje vedenja. V gospodarski praksi pogosto pride do situacij, ko gospodarski subjekti (na primer prodajalec in redni kupec) med dolgotrajno medsebojno interakcijo najdejo strategije vedenja, ki ustrezajo obema stranema, in jih zato uporablja " igralcev« za daljše časovno obdobje. V igralnem pristopu k preučevanju institucij je opisana situacija modelirana s konceptom ravnotežnih strategij. Za par takšnih strategij je značilna naslednja lastnost: če prvi igralec odstopi od svoje ravnotežne strategije (izbere drugo), drugi pa še naprej sledi svoji ravnotežni strategiji, potem prvi igralec utrpi škodo v obliki zmanjšanja v višini dobitka. Celica matrike igre, ki se nahaja na presečišču vrstice in stolpca, ki ustreza paru ravnotežnih strategij, se imenuje ravnotežna točka. Matrica igre ima lahko več ravnovesnih točk ali pa jih sploh nima.

Vedenje igralca, ki sledi ravnotežni strategiji, se imenuje optimizacija ( minimax vedenje ali minmax strategija).

Razlikuje se od maksimiziranja vedenja. Prvič, igralčev ravnotežni izkupiček ni največji izmed vseh možnih izplačil. Ne ustreza globalnemu maksimumu, ampak lokalnemu optimumu. Tako globalni maksimum funkcije, definiran na numeričnem intervalu, presega vsak njen lokalni maksimum. Drugič, sledenje ravnotežni strategiji enega igralca pomeni doseganje lokalnega maksimuma le, če drugi igralec ohranja ravnotežno strategijo. Če drugi igralec odstopa od ravnotežne strategije, prvi igralec z nadaljnjo uporabo ravnotežne strategije ne bo imel največjega učinka.

Ravnotežne strategije so določene z naslednjim pravilom: celica matrike igre se šteje za ravnotežno, če je ustrezen izkupiček prvega igralca največji v stolpcu, ustrezen izkupiček drugega igralca pa je največji v vrstici. Tako algoritem za iskanje ravnotežnih strategij uporablja matriko izplačil obeh igralcev in ne enega od njiju, kot v primerih neracionalnega in previdnega vedenja.

4) Deviantno vedenje. Institucionalizacija ravnotežne strategije kot osnovne norme vedenja se pojavi kot posledica človekovega posploševanja njegovih izkušenj medosebnih interakcij, vključno z izkušnjo deviantnega vedenja. Človeško zavedanje negativne posledice Takšno vedenje, ki temelji na izbiri neravnotežnih alternativ, je odločilni argument pri izbiri optimizacijske strategije vedenja. Tako je deviantno vedenje sestavni del življenjske izkušnje "institucionalne osebe", ki služi kot empirična utemeljitev za optimizacijo vedenja. Izkušnja deviantnega vedenja daje osebi zaupanje, da se bo drugi udeleženec v igri vedno držal ravnotežne strategije. Tako taka izkušnja služi kot dokaz racionalnosti vedenja drugega igralca in predvidljivosti prihodnjih interakcij z njim.

5) Inovativno vedenje. Zgoraj je bilo obravnavano deviantno vedenje, katerega glavni namen je empirično utemeljiti in utrditi prvotno ravnotežno strategijo. Namen odstopanja od ravnotežne strategije pa je lahko bistveno drugačen. Inovativno vedenje je sistematično odstopanje od običajne ravnotežne strategije z namenom najti drugo ravnotežno stanje, ki je bolj donosno za inovatorja.

V okviru igralnega modela medčloveških interakcij je cilj inovativnega vedenja mogoče doseči, če ima matrika igre drugačno ravnovesno točko, v kateri je izkupiček igralca inovatorja večji kot v začetnem ravnotežnem stanju. Če te točke ni, bo inovativno vedenje najverjetneje obsojeno na neuspeh in inovator se bo vrnil k prvotni ravnotežni strategiji. Poleg tega bodo njegove izgube zaradi inovacijskega eksperimenta enake skupnemu učinku odstopanja za celotno obdobje poskusa.

V resničnem življenju se posamezniki v interakciji pogosto strinjajo, da bodo v prihodnosti sledili določenim vedenjskim strategijam. V tem primeru se kliče vedenje igralcev solidarno.

Glavni razlogi za solidarnost:

a) korist solidarnostnega obnašanja za oba igralca. V okviru igralnega modela interakcije je to stanje ponazorjeno z igralno matriko, v eni celici katere so izplačila obeh igralcev največji, hkrati pa ni ravnotežna in ne ustreza paru previdnih strategije igralcev. Strategij, ki ustrezajo tej celici, verjetno ne bodo izbrali igralci, ki izvajajo nesolidarnostne modele obnašanja. Če pa se igralci dogovorijo o izbiri ustreznih solidarnih strategij, potem jim bo naknadno nedonosno kršiti dogovor in bo izveden samodejno;

b) etika solidarnostnega vedenja pogosto služi kot »notranji« mehanizem za zagotavljanje spoštovanja dogovora. Moralni stroški v obliki družbenega obsojanja, ki jih bo posameznik nosil, če krši dogovor, lahko nanj vplivajo višja vrednost kot povečanje doseženih dobitkov. Etični dejavnik igra pomembno vlogo v vedenju »institucionalnega človeka«, vendar v igralnem modelu medčloveških interakcij dejansko ni upoštevan;

c) uveljavljanje solidarnostnega vedenja služi kot »zunanji« mehanizem za zagotavljanje skladnosti s sporazumom. Ta dejavnik institucionalno vedenje se tudi ne odraža ustrezno v igralnem modelu interakcij.


Vrste ravnovesja: Nashevo ravnovesje, Steckelbergovo ravnovesje, Pareto-optimalno ravnovesje, ravnovesje dominantnih strategij.

V vsaki interakciji lahko obstaja različne vrste ravnovesja: ravnovesje dominantnih strategij, Nashevo ravnovesje, Stackelbergovo ravnovesje in Paretovo ravnovesje. Prevladujoča strategija je akcijski načrt, ki udeležencu zagotavlja največjo uporabnost ne glede na dejanja drugega udeleženca. V skladu s tem bo ravnotežje prevladujočih strategij presečišče prevladujočih strategij obeh udeležencev v igri. Nashevo ravnotežje je situacija, v kateri je strategija vsakega igralca najboljši odziv na dejanja drugega igralca. Z drugimi besedami, to ravnovesje zagotavlja igralcu največjo uporabnost glede na dejanja drugega igralca. Stackelbergovo ravnotežje nastopi, ko pride do časovnega zamika pri odločanju udeležencev v igri: eden od njih sprejema odločitve, že vedo, kaj je drugi naredil. Tako Stackelbergovo ravnotežje ustreza največji uporabnosti igralcev v pogojih njihovega nehkratnega odločanja. Za razliko od ravnovesja prevladujočih strategij in Nashevega ravnovesja ta vrsta ravnovesja vedno obstaja. Nazadnje, Paretovo ravnotežje obstaja pod pogojem, da ni mogoče povečati uporabnosti obeh igralcev hkrati. Oglejmo si en primer tehnologije za iskanje ravnotežij vseh štirih vrst.

Dominantna strategija- akcijski načrt, ki udeležencu zagotavlja maksimalno uporabnost, ne glede na dejanja drugega udeleženca.

Nashevo ravnotežje- situacija, v kateri nobeden od igralcev ne more enostransko povečati svojih dobitkov s spremembo svojega akcijskega načrta.

Stackelbergovo ravnotežje- situacija, v kateri nobeden od igralcev ne more enostransko povečati svojih dobitkov, odločitve pa najprej sprejme en igralec in postanejo znane drugemu igralcu.

Paretovo ravnotežje- situacija, ko ni mogoče izboljšati položaja katerega koli igralca, ne da bi poslabšali položaj drugega in ne da bi zmanjšali skupne dobitke igralcev.

Naj si podjetje A prizadeva razbiti monopol podjetja B pri proizvodnji določenega izdelka. Podjetje A se odloči, ali naj vstopi na trg, podjetje B pa se odloči, ali naj zmanjša proizvodnjo, če se A odloči za vstop. V primeru stalne proizvodnje v podjetju B sta obe podjetji poraženci, če pa se podjetje B odloči zmanjšati proizvodnjo, potem svoj dobiček »deli« z A.

Ravnovesje dominantnih strategij. Podjetje A primerja svoj izkupiček po obeh scenarijih (-3 in O, če se B odloči začeti cenovno vojno) in (4 in 0, če se B odloči zmanjšati proizvodnjo). Nima strategije, ki bi zagotovila največji dobiček ne glede na B-jeva dejanja: 0 > -3 => "ne vstopi na trg", če B pusti proizvodnjo na isti ravni, 4 > 0 => "vstopi", če B zmanjša proizvodnjo (glej .polne puščice). Čeprav podjetje A nima prevladujoče strategije, jo ima podjetje B. Zanima jo zmanjšanje proizvodnje ne glede na A-jeva dejanja (4 > -2, 10 = 10, glej pikčaste puščice). Posledično ni ravnotežja dominantnih strategij.

Nashevo ravnotežje. Najboljši odgovor podjetja A na odločitev podjetja B, da pusti proizvodnjo enako, je, da ne vstopi, na odločitev o zmanjšanju proizvodnje pa je, da vstopi. Najboljši odgovor podjetja B na odločitev podjetja A, da vstopi na trg, je zmanjšanje proizvodnje, ko se odloči, da ne vstopi, obe strategiji sta enakovredni. Zato se dve Nashevi ravnovesji (A, A2) nahajata na točkah (4, 4) in (0, 10) - A vstopi in B zmanjša proizvodnjo ali A ne vstopi in B ne zmanjša proizvodnje. To je precej enostavno preveriti, saj na teh točkah nihče od udeležencev ni zainteresiran za spremembo svoje strategije.

Stackelbergovo ravnotežje. Predpostavimo, da podjetje A sprejme prvo odločitev, če se odloči vstopiti na trg, bo na koncu končalo pri točki (4, 4): izbira podjetja B je v tej situaciji jasna, 4 > -2. Če se odloči, da ne bo vstopila na trg, bo rezultat dve točki (0, 10): Preference podjetja B dovoljujejo obe možnosti. Ker to ve, podjetje A maksimira svoj izkupiček na točkah (4, 4) in (0, 10), pri čemer primerja 4 in 0. Preference so nedvoumne in prvo Stackelbergovo ravnovesje StA bo na točki (4, 4). Podobno bo Stackelbergovo ravnovesje StB, ko podjetje B sprejme prvo odločitev, na točki (0, 10).

Paretovo ravnotežje. Za določitev Paretovega optimuma moramo zaporedno pregledati vse štiri izide igre in odgovoriti na vprašanje: "Ali prehod na kateri koli drug izid igre hkrati poveča uporabnost za oba udeleženca?" Na primer, iz izida (-3, -2) se lahko pomaknemo na kateri koli drug izid, ki izpolnjuje podani pogoj. Samo iz izida (4, 4) se ne moremo premakniti naprej, ne da bi zmanjšali uporabnost katerega koli od igralcev, to bo Pareto ravnotežje, R.

V antagonistični igri je naravno, da je optimalen izid tisti, pri katerem je za katerega koli igralca nedonosno odstopati od njega. Takšen izid (x*,y*) imenujemo ravnotežna situacija, načelo optimalnosti, ki temelji na iskanju ravnotežne situacije, pa načelo ravnotežja.

Opredelitev. V matrični igri z matriko dimenzij je izid ravnovesna situacija ali sedlo, če

Na sedlu je element matrike hkrati minimum v svoji vrstici in maksimum v svojem stolpcu. V igri iz primera 2 element a 33 je sedlo. Optimalne strategije v tej igri so tretje za oba igralca. Če prvi igralec odstopa od tretje strategije, potem začne zmagovati manj kot a 33. Če drugi igralec odstopa od tretje strategije, potem začne izgubljati več kot a 33. Tako za oba igralca ni nič boljšega kot dosledno slediti tretji strategiji.

Načelo optimalnega obnašanja: če je v matrični igri sedlo, potem je optimalna izbira strategija, ki ustreza sedlu. Kaj se zgodi, če je v igri več kot ena sedla?

Izrek. Naj dve poljubni sedlni točki v matrični igri. Nato:

Dokaz. Iz definicije ravnotežne situacije imamo:

Nadomestimo , v levo stran neenakosti (2.8), v desno stran, , v levo stran neenakosti (2.9) in v desno stran, . Potem dobimo:

To pomeni enakost:

Iz izreka sledi, da ima izplačilna funkcija v vseh ravnotežnih situacijah enako vrednost. Zato se številka kliče na ceno igre. In imenujemo strategije, ki ustrezajo kateri koli od sedlnih točk optimalne strategije igralca 1 oziroma 2. Na podlagi (2.7) so vse optimalne strategije igralca zamenljive.

Optimalno obnašanje igralcev se ne bo spremenilo, če nabor strategij v igri ostane enak, funkcija izplačila pa se pomnoži s pozitivno konstanto (ali ji doda konstantno število).

Izrek. Za obstoj sedla (i*,j*) v matrični igri je nujno in zadostno, da je maksimin enak minimaxu:

(2.10)

Dokaz. Nujnost.Če je (i*,j*) sedlo, potem v skladu z (2.6):

(2.11)

Hkrati imamo:

(2.12)

Iz (2.11) in (2.12) dobimo:

(2.13)

S podobnim razmišljanjem pridemo do enakosti:

torej

Po drugi strani pa obratna neenakost (2.5) vedno velja, zato se (2.10) izkaže za veljavno.

Ustreznost. Naj velja (2.10). Dokažimo obstoj sedla. Imamo:

Glede na enakost (2.10) se neenačbi (2.15) in (2.16) spremenita v enačbi. Potem imamo:

Izrek je dokazan. Na poti se je izkazalo, da splošni pomen maximin in minimax sta enaka ceni igre.

Razširitev mešane igre

Razmislite o matrični igri G. Če je v njej ravnovesna situacija, potem je minimaks enak maksiminu. Poleg tega lahko vsak igralec drugemu posreduje informacije o svoji optimalni strategiji. Njegov nasprotnik iz teh podatkov ne bo mogel pridobiti nobene dodatne koristi. Zdaj pa predpostavimo, da v igri G ni ravnovesne situacije. Nato:

V tem primeru strategiji minimax in maximin nista vzdržni. Igralci imajo lahko spodbude, da odstopajo od svojih previdnih strategij zaradi možnosti pridobitve več dobitkov, ampak tudi s tveganjem izgube, to je manjšega dobitka kot pri uporabi previdne strategije. Pri uporabi tveganih strategij ima posredovanje informacij o njih nasprotniku škodljive posledice: igralec samodejno prejme manjše izplačilo kot pri uporabi previdne strategije.

Primer 3. Naj ima matrika igre obliko:

Za takšno matriko, tj. ni ravnotežja. Previdne strategije igralcev so i*=1, j*=2. Naj igralec 2 sledi strategiji j*=2, igralec 1 pa izbere strategijo i=2. potem bo slednji prejel izplačilo 3, kar je dve enoti več kot maximin. Če pa igralec 2 ugiba o načrtih igralca 1, bo svojo strategijo spremenil na j=1, nato pa bo prvi prejel izplačilo 0, to je manj od njegovega maksimina. Podobno sklepanje lahko izvedemo za drugega igralca. Na splošno lahko sklepamo, da lahko uporaba pustolovske strategije prinese večji rezultat od zagotovljenega v ločeni igri, vendar je njena uporaba povezana s tveganjem. Postavlja se vprašanje, ali je mogoče združiti zanesljivo previdno strategijo s pustolovsko strategijo na tak način, da povečate svoje povprečne dobitke? V bistvu je vprašanje, kako razdeliti dobitek med igralce (2.17)?

Izkazalo se je, da je smiselna rešitev uporaba mešane strategije, torej naključnega izbora čistih strategij. Naj vas spomnimo, da Strategija igralca 1 se imenuje mešana, če izbere i-to vrstico z določeno verjetnostjo p i . To strategijo je mogoče identificirati s porazdelitvijo verjetnosti na veliko vrsticah. Recimo, da ima prvi igralec m čistih strategij, drugi igralec pa n čistih strategij. Potem so njihove mešane strategije verjetnostni vektorji:

(2.18)

Razmislite o dveh možnih mešanih strategijah za prvega igralca iz primera 3: . Te strategije se razlikujejo v porazdelitvah verjetnosti med čistimi strategijami. Če v prvem primeru vrstice matrike izbere igralec z enakimi verjetnostmi, potem v drugem primeru - z različnimi. Ko govorimo o mešani strategiji, mislimo naključni izbor ne izbira "naključno", ampak izbira, ki temelji na delovanju naključnega mehanizma, ki zagotavlja porazdelitev verjetnosti, ki jo potrebujemo. Tako je met kovanca zelo primeren za izvajanje prve od mešanih strategij. Igralec izbere prvo ali drugo linijo, odvisno od tega, kako pade kovanec. V povprečju bo igralec enako pogosto izbral tako prvo kot drugo linijo, vendar izbira pri določeni ponovitvi igre ni podvržena nobenemu fiksnemu pravilu in ima najvišjo stopnjo tajnosti: do implementacije naključnega mehanizma, ni znano niti prvemu igralcu. Mehanizem žrebanja je zelo primeren za izvajanje druge mešane strategije. Igralec vzame sedem enakih papirčkov, tri označi s križcem in jih vrže v klobuk. Nato naključno izvleče eno izmed njih. Po klasični teoriji verjetnosti bo z verjetnostjo 3/7 izvlekel list papirja s križcem, z verjetnostjo 4/7 pa prazen list papirja. Tak mehanizem risanja je sposoben uresničiti vse racionalne verjetnosti.

Naj igralci sledijo mešanim strategijam (2.18). Potem je izkupiček prvega igralca pri določeni ponovitvi igre naključna spremenljivka: v(X,Y). Ker igralci izbirajo strategije neodvisno drug od drugega, je po izreku množenja verjetnosti verjetnost izbire izida (i, j) z zmago enaka produktu verjetnosti. Nato porazdelitveni zakon naključne spremenljivke v(X,Y) podana z naslednjo tabelo

Zdaj pa pustite, da se igra odvija za nedoločen čas. Potem je povprečni izkupiček v takšni igri enak matematičnemu pričakovanju vrednosti v(X,Y).

(2.19)

Na koncu, a dovolj veliko število ponovitvah igre se bo povprečni izkupiček nekoliko razlikoval od vrednosti (2,19).

Primer 4. Izračunajte povprečni dobiček (2,19) za igro iz Primera 3, ko igralci uporabljajo naslednje strategije: . Matrika izplačila in matrika verjetnosti izgledata takole:

Poiščimo povprečje:

Tako je povprečni izkupiček (2,20) vmes med maximinom in minimaxom.

Ker je za katerikoli par mešanih strategij X in Y mogoče izračunati povprečno vrednost igre, se pojavi problem iskanja optimalne strategije. Naravno je, da začnete z raziskovanjem previdnih strategij. Previdna strategija prvega igralca mu zagotovi maximin. Previdna strategija drugega igralca ne dovoljuje, da bi prvi zmagal več kot minimax. Najpomembnejši rezultat v teoriji iger z nasprotnimi interesi je naslednji:

Izrek. Vsaka matrična igra ima ravnovesno situacijo v mešanih strategijah. Dokaz tega izreka ni enostaven. V tem tečaju je izpuščen.

Posledice: Obstoj ravnotežne situacije pomeni, da je maximin enak minimaxu, zato ima vsaka matrična igra ceno. Optimalna strategija za prvega igralca je maksimin strategija. Optimalna strategija za drugo je minimax. Ker je problem iskanja optimalnih strategij rešen, pravimo, da je vsaka matrična igra rešljiv na različnih mešanih strategijah.

Rešitev igre 2x2

Primer 5. Reši igro. Ni težko preveriti, da ni sedla. Označimo optimalno strategijo prvega igralca (x, 1-x) je stolpčni vektor, vendar ga zaradi priročnosti zapišemo kot niz. Označimo optimalno strategijo drugega igralca (y,1-y).

Izplačilo prvega igralca je naključna spremenljivka z naslednjo porazdelitvijo:

v(x,y) 2 -1 -4 7
str xy x(1-y) (1-x)y (1-x)(1-y)

Najdemo povprečni izkupiček na iteracijo prvega igralca – matematično pričakovanje naključne spremenljivke v(x,y):

Preoblikujemo ta izraz:

To matematično pričakovanje je sestavljeno iz konstantnega (5/7) in spremenljivega dela: 14(x-11/14)(y-8/14). Če vrednost l drugačen od 8/14, potem lahko prvi igralec vedno izbere X tako, da je variabilni del pozitiven, s čimer se povečajo vaši dobitki. Če vrednost X drugačen od 11/14, potem lahko drugi igralec vedno izbere l na tak način, da je variabilni del negativen, kar zmanjša izplačilo prvega igralca. Tako je sedlo določeno z enačbama: x*=11/14, y*=8/14.

2.5 Reševanje igre

Na primeru bomo pokazali, kako rešiti takšne igre.

Primer 6. Reši igro . Pazimo, da ni sedla. Označimo mešano strategijo prvega igralca X=(x, 1-x) je stolpčni vektor, vendar ga zaradi priročnosti zapišemo kot niz.

Naj prvi igralec uporabi strategijo X, drugi pa svojo j-th čist strategijo. Označimo povprečni izkupiček prvega igralca v tej situaciji kot . Imamo:

Upodabljajmo grafe funkcij (2.21) na segmentu .

Ordinata točke, ki se nahaja na katerem koli segmentu ravne črte, ustreza dobitku prvega igralca v situaciji, ko uporablja mešano strategijo (x, (1-x)), in drugi igralec – ustrezna čista strategija. Zagotovljen rezultat prvega igralca je spodnja ovojnica družine premic (lomljeno ABC). Najvišja točka ta prekinjena črta (točka B) je največji zajamčeni rezultat igralca 1. Abscisa točke B ustreza optimalni strategiji prvega igralca.

Ker je želena točka B presečišče premic in , lahko njeno absciso najdemo kot rešitev enačbe:

Tako je optimalna mešana strategija prvega igralca (5/9, 4/9). Ordinata točke B je cena igre. Je enako:

(2.22)

Upoštevajte, da črta, ki ustreza drugi strategiji drugega igralca, poteka nad točko B. To pomeni, da če prvi igralec uporablja svojo optimalno strategijo, igralec 2 pa drugo, se izguba drugega poveča v primerjavi z uporabo strategij. 1 ali 3. Tako druga strategija ne bi smela sodelovati pri optimalni strategiji drugega igralca. Optimalna strategija igralca 2 bi morala izgledati takole: . Čisti strategiji 1 in 3 drugega igralca, ki imata v optimalni strategiji neničelne komponente, običajno imenujemo pomemben. Strategija 2 se imenuje nepomemben. Iz zgornje slike in iz enakosti (2.22) je jasno, da ko prvi igralec uporabi svojo optimalno strategijo, dobiček drugega igralca ni odvisen od tega, katero od njegovih bistvenih strategij uporablja. Uporabi lahko tudi katero koli mešano strategijo, sestavljeno iz pomembnih (zlasti optimalne), dobitek pa se v tem primeru ne bo spremenil. Povsem podobna trditev velja tudi za nasprotni primer. Če drugi igralec uporablja svojo optimalno strategijo, potem dobiček prvega igralca ni odvisen od njegove bistvene strategije in je enak stroškom igre.