További Szoftver cikkek
Aiden, a bot
Pedig a botok nem is blöffölnek. Eleve úgy programozzák őket, hogy a szabályoknak és a mindenkori lapleosztásnak megfelelően kiválasszák a legjobb stratégiát, majd annak megfelelően cselekedjenek.
A dél-afrikai Witwatersrand Egyetem (Johannesburg) két kutatója, Evan Hurwitz és Tshilidzi Marwala által létrehozott Aiden viszont képes megtanulni blöffölni. A virtuális játékos tudománya általában értéktőzsdei előrejelzéseket végző, tehát váratlan és illogikus eseményeket „megorroló” neurálisháló algoritmuson alapul.
Aiden az Angolában közkedvelt lerpa nevű kártyajátékon igyekezett kipallérozni a különös képességét. Ugyan nem pókeren, de a lényeg ugyanaz: blöffölj, ha mindenképpen úgy hozza a szükség!
Az előprogramozásnál nem okították ki a lerpa szabályaira.
Az ágens tanulópénze
Rögtön a mélyvízbe engedték, első kísérletre három másik bottal játszott. Egymástól tanultak, és következtettek a játék szabályaira, a másik lapjaira, egy-egy leosztás végkimenetelére. Aiden-nel mindig közölték, hogy a nála lévő lapok közül mikor melyiket használhatja. Az első negyven leosztásnál passzív maradt, majd egyszer megpróbálta, és vesztett. Többet nem kísérletezett.
A következő alkalommal nem volt más választása, játszania kellett. Egyre jobban megismerte a szabályokat, követte, hogy mikor nyert, mikor vesztett. Igyekezett tanulni belőle. De még mindig nem jutott el odáig, hogy blöffölni merészkedjen.
Mindezek után Hurwitz és Marwala eldöntötték, hogy Aiden három hasonlóan „kiképzett” bottal versengjen. Korábbi eredményeik függvényében saját (agresszív, nem kockáztató, stb.) stratégiákat alakítottak ki. Egyikük, az agresszív Randy, néhány rossz lapjárást és elveszített vagy egyszerűen kihagyott menetet követően hirtelen taktikát váltott. Még akkor is játszott, amikor kifejezetten rossz lapjai voltak. Elkezdett blöffölni!
Aki kockáztat, nyer
Mindeközben az óvatosabb Aiden nem változtatott, sokszor viszonylag jó lapokat birtokolva is passzt mondott… Randy gyakrabban nyert. Kiszámította, hogy a blöffölés eredményre vezet kockázatot nem vállaló ellenfeleivel szemben. Azaz nem váratlan, illogikus cselekedetként, hanem inkább egyfajta nyereségmaximalizáló statisztikai alapú optimalizálásként „fogta fel.”
„Randy esete azt bizonyítja, hogy az ágensek meg tudják tanulni ezt a jellegzetesen humán viselkedést” – értékelte a botok teljesítményét Philippe de Wilde, a Heriot-Watt Egyetem (Edinburgh) számítástudományi szakembere. – „A stratégiát a játékból generálják, ami az emberre nagyon jellemző tanulási mód.”