A robot szeme és a kognitív látás
További Tudomány cikkek
Baranyi Péter
A történet legkevesebb öt évre megy vissza. Baranyi Péter 2000-ben Japánban dolgozott egy Gifu megyei kutatóintézetben, csoportjával robotirányítással, robotvezérléssel foglalkozott. A robotokat arra tanították, hogy különféle akadályok között különböző stílusokban közlekedjenek. Kézenfogtak egy robotot, és végigvitték az akadálypályán. "Ha lopakodva vittük, akkor azt, ha meg büszkén, minden akadálytól messze, mert mondjuk veszélyes anyagot vitt, akkor meg ezt tanulta meg. Később pedig idegen terepen ezt a stílust imitálta." A laboratórium 2002-ben meg is kapta a legjobb humanoid robot díjat.
De ekkor a kutató már nem Japánban dolgozott. Viszont 2001-ben Vancouverben magyar és japán kutatókkal közösen megalapították az Integrált Intelligens Rendszerek nevű japán-magyar laboratóriumot. A labor egyik fele itt van Budapesten a Magyar Tudományos Akadémia Számítástechnikai és Automatizálási Kutató Intézetében, illetve a Budapesti Műszaki és Gazdaságtudományi Egyetem Távközlési és Média Informatikai Tanszékén, a másik fele pedig Japánban a Tokiói Egyetemen, ahol egy-másfél éves ciklusokban rendszeresen váltják egymást fiatal magyar kutatók, és használják a méregdrága robotrendszereket. Egy humanoid robot alapegysége közel százmillió forint, de a teljes felszerelt ára elérheti a többszáz millió forintot is.
"Ebben a tokiói laborban volt vezető Korondi Péter professzor, aki jelenleg a Budapesti Műszaki és Gazdaságtudományi Egyetemen tanít. Az ő tanítványa volt például az Ando professzor, aki most a humanoid robot projekt vezetője a Tsukuba Kutatóintézetben" - meséli a kutató, aki lépten-nyomon hangsúlyozza, hogy az ő elismerése számos kutató több évtized alatt felhalmozott eredményeire épül.
Magyar kutatók látogatása a AIST-ban, Tsukuba, Japan
Fotók: Baranyi Péter
"Mi itt kidolgozunk elméleti részeket, majd kiküldjük Japánba, kint pedig megvalósítják - magyarázza a labor működését. - A mai internettechnológia mellett nem számít, hogy a szomszéd szobában vagy Japánban van a labor. Látjuk egymást, beszélünk, innen tudjuk irányítani a kinti kutatásokat. Az Európai Unió is támogatja az ilyen virtuális laboratóriumok alapítását."
"És mi az a Sigma Xi?" - árulom el szemrebbenés nélkül tájékozatlanságomat.
"Az egyik legnagyobb és legidősebb tudományos társaság, 65 ezer tagja és körülbelül ötszáz tudományos osztálya van. Több mint száz éve alakult, és ezalatt kétszáz Nobel-díjast számlált tagjai között. A társaságnak van egy nemzetközi osztálya, ennek a díját kaptam meg."
Messze még a terminátor
A dijjal Baranyi Péter két fő kutatási irányát ismerték el. Az egyik a rendszer- és irányításelmélet. "Egy újfajta matematikai szerkezetet javasoltunk arra, hogyan lehet rendszerelméleti problémákat ábrázolni és automatikusan megoldani. Az automatikus megoldás azt jelenti, hogy a feladatot oldja meg maga számítógép, a lehető legkevesebb emberi beavatkozással. Például ha egy robot kezére teszünk egy egyensúlyozandó pálcát, akkor az első pár próbálkozásnál elejti, de közben feldolgozza, hogy milyen ennek a rendszernek a dinamikája, és automatikusan megtervezi, hogyan irányítsa a kezét, majd hamarosan meg fogja tartani a pálcát" - magyarázza a kutató.
A másik terület a kognitív látás. Az előzmények itt is Japánig mennek vissza. "Amikor kint voltam a robotok között, nem volt nehéz rájönni, hogy látás nélkül nem lesznek olyanok, mint a sci-fi filmekben. Amíg egy jól meghatározott feladatot kell ugyanúgy elvégezniük, mondjuk csavarokat meghúzni vagy hegeszteni egy futószallagon, addig nem nagyon kell látniuk. De ha egy humanoid robotnak azt a feladatot adjuk, hogy menjen és szolgáljon fel egy kávét, abban a pillanatban baj van, mert látás nélkül nem fog menni."
Baranyi Péter 2003-ban kezdett el a látással foglalkozni egy fiatal kutatócsoporttal a SZTAKI-ban, mely "Magyarországon a látással kapcsolatos mérnöki tudományok fellegvára, és nemzeközileg is elismertségnek örvend. Például Vámos Tibor már 1976-ban foglalkozott térbeli látással, Roska Tamás világszerte híres analóg áramköröket fejlesztett a látással kapcsolatban. Szirányi Tamás is foglalkozik képi információk felismerésével. Számítógépes geometriára épülő gépi látásban pedig nemzetközi szinten elismert eredményei vannak Dimitrij Csetverikovnak."
Nem számolni, megérteni
"És mi is az a kognitív látás?" - kérdezem, mit sem sejtve, milyen messze vagyunk még a tárgytól.
"Megpróbálom először elhelyezni a fő tudományos irányok között, úgy könnyebb megérteni - kezdi válaszát. - A gépi látás matematikai műveletekkel, optikai és fizikai törvények alapján megpróbálja kiszámolni a képen megjelenő tér bizonyos tulajdonságait, tárgyak helyét. A másik irányzatot egy kis történethez kötik. Az MIT-n egy végzős hallgatót tanárai felkértek egy egyszerű tárgyak felismerésére képes program fejlesztésére. A feladatot azonban máig nem sikerült maradéktalanul teljesíteni nagyfokú bonyolultsága miatt. A kor informatikai eszközei még elmaradnak a kívánt szinttől, másrészt a kutatók nagyon keveset tudnak azokról a kognitív folyamatokról, amelyek az emberi agy számára lehetővé teszik tárgyak felismerését.
Megfigyelték, hogy az ember 6 milliszekundum alatt felismeri, van-e bármilyen állat egy általános képen, 250 milliszekundum alatt pedig azt, hogy van-e macska. Ezt a feladatot azonban egy mai szuperszámítógép sem tudja megoldani, bármennyi időt adunk is neki. Ez azért elgondolkodtató, ha tudjuk, hogy az agy legkisebb számítási egységének, az agysejtnek milliszekundumos nagyságrendű a számítási, információtovábbítási ideje, a számítástechnikában használt logikai kapu működése viszont ennél 5 milliószor gyorsabb. Az ebben az értelemben 'lassú' agy valószínűleg felépítésének, speciális architektúrájának és információ tárolási, illetve feldolgozási módjának köszönhetően képes mégis egy ilyen bonyolult feladat megoldására."
E meglepő tények indították arra a kutatókat, hogy az emberi látásból vegyenek ötleteket. A bioinformatika az idegsejtek működését vizsgálja és másolja le elektronikus eszközökbe. "A kognitív informatika viszont azzal foglalkozik, hogy egy adott sejtkomplexum, egy 'modul' az agyban, milyen feladatot milyen céllal hajt végre, és nem próbálja megadni a végrehajtott feladat sejtszintű magyarázatát."
Baranyi Péter kutatócsoportja együttműködik a magyarországi Kognitív Központtal, ahonnan az emberi látásról összegyűlt ismereteket és kísérleti eredményeket kapják. "Ezeknek megpróbáljuk megadni valamilyen informatikai reprezentációját, azaz egy modelljét. Arra próbáljuk rábírni számítógépünket, hogy lásson és hozzánk hasonló dolgokat lásson. A látott képből megpróbálunk megérteni dolgokat, nem pedig kiszámolni."
"Mit jelent itt, hogy megérteni?" - kérdezem.
"Igazán senki nem tudja, miként ért az agy, ezért mi a valóságot jelentősen legyszerűsítve azt értjük megértésen, amit az agyban is mérhetünk, hogy bizonyos tárgyak vagy képi tulajdonságok felismerése, illetve megértése esetén jól meghatározható neuronok aktiválódnak. Ha ránézünk egy szobára, akkor lesz egy neuroncsoport, amelyik azt mondja, hogy szobát látunk, és ha fürdőszobára nézünk, akkor ezen a csoporton belül lesz egy neuron, amelyik a fürdőszobáért felelős és különösen aktív lesz, ami azt jelenti, a fürdőszoba felismerése megtörtént."
"Az agykutatók azért nem mondanak olyat, hogy egy ilyen összetett információt egyetlen neuron kódolna" - vetem közbe.
"Persze! Amit mondtam, az inkább analógia, de ha lejjebb megyünk, nagyon primitív képi információknál viszont tényleg van ilyen. Vannak olyan neuronok, melyek akkor aktiválódnak, amikor háromszög van a képen, vannak olyanok, amelyek akkor aktiválódnak, amikor kör. Az agy látókérgi rétegében bizonyos vonalmeredekségekre is teljesen más neuronok aktiválódnak. Tehát az agy a látott képet egy pillanat alatt szétválasztja sokszáz, neuronokból alkotott képpé, és mindegyik kép más információt mutat. Elektródákkal kimérhető, hogy 30-40 különböző vonalmeredekségre is elvégzi ezt az agy. Egészen pontosan erre javasoltunk egy sokdimenziós modellt, és a díjat részben ezért kaptuk."
Neurális hálózat és kártyapakli
A modell a Vizuális Tulajdonságok Tömbje nevet kapta. De innentől meséljen egyedül a kutató, mert már végképp nem merek úgy tenni, mintha bármit önállóan tudnék írni a témáról.
"Ez a tömb olyan feladatokat lát el, ami az agy látókérgében is megtalálunk, vagyis meredekség szerinti vonal-dekompozíciót végez. Ha a meredekség szerinti képeket egymás mögé tesszük, mint egy kártyapakli lapjait, egy háromdimenziós tömböt kapunk. Ha pixelenként összeadjuk őket a meredekséget képviselő harmadik dimenzióban, és azt találjuk, hogy egy pixelnél több aktívat is összeadtunk, akkor nyilván azon a helyen több vonal megy át, csak különböző meredekségű, és akkor máris látjuk, hogy ott találkozási pont van. Sőt, azt is látjuk, hol van az a két vonal, és mekkora közöttük a szögtávolság és így tovább.
Ennek a sokomdimenziós képi reprezentációnak - és ez valószínűleg az agyban is így van - különböző vetületei, automatikusan kiválasztanak a képből egyértelmű információkat. Anélkül, hogy bármit is számolnánk, megadja, hogy hol van háromszög, négyzet vagy kör.
Ezt a tömböt neurális hálózattal meg tudjuk fogalmazni. Minden pixelnek saját neuronja van, és egyszerre, párhuzamosan számítódik az egész, mint az agyban. Ha lenne egy ilyen párhuzamos számításra alkalmas chipünk, és a japánok most ajánlották fel egyet, akkor ahogy a kamera néz, gyakorlatilag abban a pillanatban megkapjuk a kontúrokat és különböző alakokat 'kiszínezve' különböző neuronhoz rendelve, azaz 'megértve'.
Ez más, mint a hagyományos kontúrozás, nálunk színes ez a kontúrrendszer, tehát megvan benne, hogy melyik vonal minek a része. Ha rögtön megjelennek a háromszögek pirosban, a téglalapok kékben, akkor ez azt jelenti, hogy valahol megértette a gép, hogy ez háromszög vagy téglalap, így tovább, ha eljutunk oda, hogy más színnel rajzolja ki a képen a házak, emberek, autók kontúrvonalát, akkor ez azt jelenti, hogy megértette ezeket a tárgyakat."