Miklós
-7 °C
2 °C

Egyre jobban blöfföl a pókerező szoftver

2003.08.04. 09:42
A játékok pontosan meghatározott szabályaikkal, speciális céljaikkal a mesterségesintelligencia- (MI) kutatás izgalmas, kihívásokban bővelkedő terepét képezik. Nemcsak a sakk, hanem például a logikailag egyszerűbb, ám stratégiailag komplex póker is.
A póker abban szintén különbözik a legtöbbet tanulmányozott sakktól, vagy a dámától, hogy nem-determinisztikus játék, hiányos (rejtett) információkkal. Márpedig a hézagos, nem megbízható információ kezelése, a bizonytalan feltételek közötti döntéshozás a számítógép-tudományok egyik alapproblémája.

Az online pókertől a pókerprogramokig

Tavaly májusban sokan, főként profi játékosok hökkentek meg, amikor az amatőr (de rendkívül tetszetős művésznevű) Chris Moneymaker mindenkit lekörözve két és fél millió dollárt nyert az egyik nagy nemzetközi versenyen. Előtte a kaszinóknál olcsóbb, ám ugyanúgy igazi pénzre menő online szalonokban pallérozódott intenzíven, s ott szokott hozzá a gyorsabb leosztásokhoz.

A számítógépes környezet megváltoztatta a póker arculatát: régebben bevett stratégiákkal hagytak fel, újak kerültek előtérbe, pörgősebbek, rövidebb lefolyásúak a menetek.

A szoftver-szimuláció a gyakorlás egyik módja. A stratégiákat, nüánszokat, a legkülönbözőbb lapkombinációkat többezer, akár millió meneten keresztül tesztelhetjük. Ha nem is az összest, de rengeteg lehetséges kimenetet végigjátszhatunk. A programok - az állandóan a biztonságra ügyelőtől az ész nélkül hazardírozóig - eltérő, színes játékos-archetípusokat "személyesítenek meg". Az ismert Wilson Software mesterséges kártyásai például elsősorban arra tanítanak, hogyan győzzünk élesben.

Mások viszont nem egyszerű gyakorlótársakat, hanem - az MI, vagy akár a gazdaságtan eredményeit alkalmazva - tényleges opponenseket terveznek. A póker matematikájának mélységeit ismerő botjaik a legjobb stratégiákat keresik, s a játék szépsége helyett a győzelem lebeg előttük.

Tíz évig fejlesztették

Az eddigi legkiválóbb pókerbotnak az Alberta Egyetem (Kanada) Számítógépes-póker Kutatócsoport fejlesztése, az elsősorban védekezésben és ellentámadásban jeleskedő PsOpt (pseudo-optimal poker program) bizonyult. Technikai leírása ezerkétszáz résztvevő feletti mezőnyben nyerte el az első helyet, melyet az augusztus 9-15. között, Acapulcóban megrendezésre kerülő MI Konferencián adnak át tervezőinek. Tíz éves - a Kanadai Természettudományos és Mérnöki Kutatótanács (NSERC) által szponzorált -, mesterséges világbajnok kidolgozását megcélzó munka gyümölcse.

A csoportot a sikeres Chinook sakkprogramjáról (1994) ismert Jonathan Schaeffer vezeti, míg a fődesigner a korábbi hivatásos játékos, jelenleg doktorandusz, Darse Billings.

"Számítástudományos szempontokat nézve, a póker a sakknál és a dámánál is sokkal érdekesebb" - állítja Schaeffer. "A dáma egy tökéletes információ-játék. Ránézünk a táblára, s látjuk, hol van az összes bábu. A póker más. Nem ismerjük ellenfelünk lapjait, ami azt jelenti: cselekedeteiből következtetéseket kell levonnunk. Az ellenfél legfőbb érdeke, hogy megtévesszen. A blöff a játék egyik kritikus része."

"PsOpt kemény dió, nagyon nehéz játszani ellene" - nyilatkozta programjukról Billings. "Nem úgy versenyez, mint az ember. És ez így jó. Az első, valóban kiegyensúlyozott stratégiát követő program. A szükséges gyakorisággal blöfföl, gyorsítja fel, lassítja le a játékot." Modellt épít fel magának, az alapján teszi fel a tétet, vagy passzol.

Mindketten lefogadnák: csak idő kérdése a világ legjobb kártyása felett diadalmaskodó digitális versenyző színrelépése.

Egyelőre azonban még nem történt meg a "csoda". Januárban az egyik nemzetközi éljátékos küzdött PsOpt-tal: nagyjából hétezer (!) leosztás után derült ki, hogy az ember a jobb.

Nash-equilibrium

John Nash
A program a játékelmélet fejlődéséhez jócskán hozzájáruló 1994-es Nobel-díjas John Nash 1950-es matematikai formuláján, a Nash-equilibriumon (egyensúly, NE) alapul. A formula szerint valamennyi játékos számára létezik a stratégiáknak egy sorozata, amin egyiküknek sem áll szándékában egyoldalúan változtatni. Akkor áll fenn egyensúlyi állapot, ha bármelyikük módosítja a stratégiát, s így kevesebb haszonhoz jut, mintha maradt volna az eredeti mellett. Azaz, a stratégiasorozat és a hozzá kapcsolódó kimenetek alkotják a Nash-equilibriumot.

Michael Wooldridge szerint abban az esetben beszélhetünk két stratégia (s1, s2) NE-áról, kölcsönös egyensúlyáról, ha i ágens s1-et játszik, és j ágens nem tud jobbat tenni, mint s2-t játszani, illetve ha j ágens s1-et játszik, és i ágens nem tud jobbat tenni, mint s2-t játszani (An Introduction to Multiagent Systems, 2002). Nem tartalmaz minden interakció-forgatókönyv NE-ot, viszont akad olyan, amelyik egynél többel rendelkezik.

Az új generációra várva

Mivel - a milliárd és milliárd lehetséges kimenet miatt - teljes modellt lehetetlen készíteni, Schaefferék a hasonló leosztások kombinálásával hét csoportra szűkítették a kört. A bot számára ezek alapján dolgozták ki az akciótervet. A régebbi változatok tíz-résztvevős, míg a mostani két-résztvevős játékra íródott. És sokkal jobban teljesít elődjeinél.

Billings már a következő generációs botot fejleszti. A program "maximum-stratégiát" követ: figyelemmel kíséri az ellenfél viselkedését, alkalmazkodik hozzá, megingásaiból profitál. A játékelméletet felhasználva (és a hosszútávú győzelem alapfeltételeként), a veszteségek kezelését szintén elsajátítja.

A fejlesztők kihangsúlyozzák: mindezzel nem pénznyerés a céljuk. "Ez egy kutatási projekt" - húzza alá Schaeffer. "Új, a számítógépek számára a bizonytalanság kezelését lehetővé tevő módszereket vizsgálunk. És a póker ideális terep erre." Schaeffer állítását alátámasztja, hogy programjaik igazi pénzben még nem játszottak. Talán az újabb generáció.

Nászút ajándékba!

Esküvőt tervez? Tervezzen velünk, nyerjen wellness nászutat!

Év végi utazás

Ajándékozzon utazást, töltse a karácsonyt és a szilvesztert külföldön!