
Weiler Péter képzőművész munkássága és portfóliója mesterséges intelligenciával fűszerezve.
MEGVESZEMA legmodernebb érvelő mesterségesintelligencia-modellek, mint az OpenAI o1, az Anthropic Claude 3.7, a Google Gemini Flash és a kínai csoda, a DeepSeek R1, sorra összeomlanak, amint szisztematikus gondolkodást igénylő, összetettebb problémákkal kerülnek szembe – állapította meg az a kutatás, amelyet az Apple kutatói publikáltak a cég fejlesztői konferenciája előtti napokban.
Az Apple, mint ismert, évekre visszanyúló ütemtévesztésbe kerülve lemaradt az OpenAI által kirobbantott fogyasztói mesterségesintelligencia-forradalomról, és a kiszivárgott hírek szerint a legutóbbi produktumaik sem ütötték meg a mércét ezen a területen. A cég minden jel szerint stratégiai váltásra készül, amit egyedi megfigyelésekkel támogat meg a szóban forgó kutatás.
Az OpenAI o1 modell a fejlesztői és független visszajelzések szerint is PhD, vagyis doktori szinten teljesített fizikából, kémiából és biológiából különböző teljesítménymérő teszteken, de a konkurens nagy érvelő modellek (rövidítéssel LRM-ek) is jól matekoznak és programoznak.
Az Apple kutatói egy korábbi vizsgálatukban az amerikai matematikai olimpia feladatain tesztelték az érvelő modelleket, amik meglepően gyatra, 5 százalékos eredményt értek el. Ezúttal viszont klasszikus logikai fejtörőkkel tették próbára a gépeket, mint a Hanoi tornyai. Ezt a játékot Édouard Lucas francia matematikus találta ki 1883-ban. Lényege, hogy van három függőleges rúd, és egy különböző méretű tárcsákból álló tornyot kell egyik rúdról a másikra átpakolni úgy, hogy nem szabad nagyobb tárcsát tenni egy kisebbre. Hasonló feladvány volt még a dáma játék, vagy hogy hogyan vihető át egy folyón egy farkas, egy kecske és egy káposzta.
Ezek a feladatok az emberek problémamegoldó képességét teszik próbára, és amint sikerült megragadni az alatta meghúzódó logikát, fokozódó bonyolultság mellett is megoldhatók. Kiderült azonban, hogy a nagy érvelő modellek számára nem ilyen egyszerű a dolog, a nehézség emelkedésével romlik a teljesítményük és végül képtelenek megoldani.
A kutatók nemcsak ezt figyelték meg, hanem azt is, hogy az LRM-ek lényegében feladták a megoldást. Ez abban mutatkozott meg, hogy a gépek szellemi műveleteinél használt egységek, úgynevezett tokenek felhasználása csökkenni kezdett – ez azt mutatta, hogy a nehézség fokozódásával csökkent az erőfeszítésük.
Ez természetesen nem jelenti azt, hogy a mesterséges intelligenciának kampec. Szakmabeliek megjegyezték, hogy természetesen az embereknek is megvannak a maguk korlátai logikai feladványok terén. A kutatók pedig valójában egyáltalán nem próbálták összehasonlítani a gépeket az emberekkel. A Torontói Egyetem közgazdásza, Kevin A. Bryan azt kifogásolta, hogy a tesztek viszonylag esetlegesek voltak.
Ha azt mondod, hogy itt egy probléma, amit egy óra alatt lehet megoldani papíron, és öt percet adsz rá, akkor leírok egy becslést vagy egy megoldási ötletet, és leteszem a tollat
– írta X-en.
Sean Goedecke szerint ugyanez történt a DeepSeek R1 esetében, ami egy ezer lépésből álló Hanoi tornyai levezetésnél úgy döntött, hogy nem írhat le ezer lépést, rövidebb megoldást keresett, majd feladta.
A kutatás következtetése, hogy a jelenlegi nyelvi modellek még messze nem emelkedtek el a konvencionális algoritmusok képességeitől és nem közelítik az általános mesterséges intelligenciától várt gondolkodó szintet. Mindez azért nemcsak mennyiségi (vagy teljesítménybeli), hanem minőségi probléma, mert az LRM-ek lényege pont az lenne, hogy nehéz feladványokat tudnak levezetni.
Nem csak a fejtörő megoldásáról van szó. Van olyan kísérletünk, ahol megadjuk a megoldási algoritmust a modellnek, és így sem sikerül neki. Az alapján, amit a gondolataikban látunk, nem logikusak és nem is intelligensek
– emelte ki a kutatás egyik szerzője, Iman Mirzadeh.
Az Apple kutatói egyes vélemények szerint meggarymarcusolták az érvelő modelleket. Az előbbi mondatban szereplő fura szó Gary Marcus mesterségesintelligencia-kutató nevét takarja, aki még 2022-ben a Nature-ben publikált apró részproblémákig lemenő elemzést arról, hogy miként nem gondolkodnak a nagy nyelvi modellek. Marcus maga a The Guardian hasábjain elemezte a helyzetet, kiemelve, hogy a Rand Corporation kutatói már 1957-ben alkottak olyan általános problémamegoldó programot, ami sok más problémát ugyan nem, de a Hanoi tornyait például meg tudta oldani.
Mint írta, 1998 óta érvel azzal, hogy a mesterséges neurális hálók képtelenek eltávolodni a betanításuktól és általánosítva megoldani egy problémát, huszonöt évvel később pedig igazából ugyanez a helyzet. A szakember szerint ez azért gond, mert bár remélték, hogy az egyre bonyolultabb és egyre nagyobb adatközpontokon futó modelleknél a növekedés megoldja ezt a problémát, nem így történt.
Gary Marcus felhívta a figyelmet az Arizonai Egyetem egyetem munkatársának egyik megállapítására, amely szerint az emberek antropomorfizálják a mesterséges intelligenciát és azt gondolják, hogy hozzájuk hasonlóan gondolkodik. Az új eredmények alapján azonban jóval távolabb vagyunk a gondolkodó gépektől, mint azt képzeljük. Mindez lelombozó lehet azoknak, akik az emberi szintű mesterséges intelligencia megjelenését várják, és jó hír azoknak, akik tartanak tőle.
(Borítókép: Yuichiro Chino / Getty Images)
Weiler Péter képzőművész munkássága és portfóliója mesterséges intelligenciával fűszerezve.
MEGVESZEM