Ábrahám
14 °C
31 °C

Blöffölő botok

2007.06.18. 10:30
A pókerszoftverek jól teljesítenek, ha játszanak, esélyeket mérnek fel, stratégiákat követnek. A váratlan, az illogikus kezelése viszont meghaladja tudásukat. Nem tudnak blöffölni. Vagy már igen? Két dél-afrikai kutató ugyanis a megtévesztés művészetét elsajátító botot fejlesztett.
A pókerező szoftverágensek, botok nem számítanak újdonságnak, online kaszinók, speciális honlapok gyakori „vendégei”. Sokszor győznek, de azért még bőven akad mit csiszolniuk tudományukon. Elkeseredett – összeesküvéselmélet-hívő – vesztesek azonban még olyankor is botokat látnak ellenfelükben, amikor húsvér ember győzte le őket.

Aiden, a bot

Pedig a botok nem is blöffölnek. Eleve úgy programozzák őket, hogy a szabályoknak és a mindenkori lapleosztásnak megfelelően kiválasszák a legjobb stratégiát, majd annak megfelelően cselekedjenek.

A dél-afrikai Witwatersrand Egyetem (Johannesburg) két kutatója, Evan Hurwitz és Tshilidzi Marwala által létrehozott Aiden viszont képes megtanulni blöffölni. A virtuális játékos tudománya általában értéktőzsdei előrejelzéseket végző, tehát váratlan és illogikus eseményeket „megorroló” neurálisháló algoritmuson alapul.

Aiden az Angolában közkedvelt lerpa nevű kártyajátékon igyekezett kipallérozni a különös képességét. Ugyan nem pókeren, de a lényeg ugyanaz: blöffölj, ha mindenképpen úgy hozza a szükség!

Az előprogramozásnál nem okították ki a lerpa szabályaira.

Az ágens tanulópénze

Rögtön a mélyvízbe engedték, első kísérletre három másik bottal játszott. Egymástól tanultak, és következtettek a játék szabályaira, a másik lapjaira, egy-egy leosztás végkimenetelére. Aiden-nel mindig közölték, hogy a nála lévő lapok közül mikor melyiket használhatja. Az első negyven leosztásnál passzív maradt, majd egyszer megpróbálta, és vesztett. Többet nem kísérletezett.

A következő alkalommal nem volt más választása, játszania kellett. Egyre jobban megismerte a szabályokat, követte, hogy mikor nyert, mikor vesztett. Igyekezett tanulni belőle. De még mindig nem jutott el odáig, hogy blöffölni merészkedjen.

Mindezek után Hurwitz és Marwala eldöntötték, hogy Aiden három hasonlóan „kiképzett” bottal versengjen. Korábbi eredményeik függvényében saját (agresszív, nem kockáztató, stb.) stratégiákat alakítottak ki. Egyikük, az agresszív Randy, néhány rossz lapjárást és elveszített vagy egyszerűen kihagyott menetet követően hirtelen taktikát váltott. Még akkor is játszott, amikor kifejezetten rossz lapjai voltak. Elkezdett blöffölni!

Aki kockáztat, nyer

Mindeközben az óvatosabb Aiden nem változtatott, sokszor viszonylag jó lapokat birtokolva is passzt mondott… Randy gyakrabban nyert. Kiszámította, hogy a blöffölés eredményre vezet kockázatot nem vállaló ellenfeleivel szemben. Azaz nem váratlan, illogikus cselekedetként, hanem inkább egyfajta nyereségmaximalizáló statisztikai alapú optimalizálásként „fogta fel.”

„Randy esete azt bizonyítja, hogy az ágensek meg tudják tanulni ezt a jellegzetesen humán viselkedést” – értékelte a botok teljesítményét Philippe de Wilde, a Heriot-Watt Egyetem (Edinburgh) számítástudományi szakembere. – „A stratégiát a játékból generálják, ami az emberre nagyon jellemző tanulási mód.”