Miért nem tudnak kezet rajzolni a képgenerátorok?
További Tech-Tudomány cikkek
- Hallucinogén koktélt azonosítottak egy ókori egyiptomi ivóedényben
- Egyedülálló régészeti felfedezést tettek az orosz tudósok
- Év végétől az egész EU-ban változás lép életbe a mobiltelefonoknál
- Vak, a szaglását is elvesztette, de még mindig fickós a 192 éves óriásteknős
- Új, magyar nyelvű vírus kezdett terjedni a Messengeren szenteste előtt
Korunk izgalmas jelensége a hatalmas lépésekkel fejlődő mesterséges intelligencia, legyen nyelvi modell vagy képgeneráló rendszer. A gép produktumai alig megkülönböztethetők az emberi alkotásoktól, de találhatunk árulkodó részleteket, ha tudjuk, hol keressük.
A már évek óta ismert arcképgenerátorok esetében ilyenek lehetnek a furcsa alakú pupillák – a gép ugyanis nem tudja, hogy az alapértelmezés szerint kerek mindenkinél.
A Dall-E, Midjourney és Stable Diffusion esetében ugyanakkor komikus rémálom, ami a kezekkel történik. Számon felüli megnyúlt ujjak és többszörös csuklók tűnnek fel. Kérdés, miért.
Általában elmondható, hogy a mesterséges intelligencia adathalmazában kevesebbszer jelennek meg a kezek, mint az arcok. Ráadásul kisebbek, kevésbé láthatók teljes alakjukban
– magyarázza a Stability AI szóvivője.
Az algoritmus betanítására használt, több milliárd képből álló adathalmazban a kezek legtöbbször fognak valamit, poharat, mikrofont, egy másik kezet. Bizonyos szögekben pár ujj látszik, máskor egy sem. A gép számára valószínűleg nem világos, hogy az emberi anatómia részei.
Az emberek világában teljesen máshogy alakult a dolog: az őskori barlangfestményeken az emberi kéz volt az első stencil. A kéz mindig is a művészet egyik fontos motívuma volt. Részletes és élethű ábrázolása a reneszánsz korában terjedt el. Leonardo da Vinci például megszállottan rajzolta az emberi kéz csontjainak, szalagjainak bonyolult struktúráját.
A gép tehát a rajzolót utánozza annak tudása nélkül. Így egyelőre csak annyit ért, ha arc van a képen, egy környezetében található tárgyra csatlakozó nudlihalmaz is lesz valahol. A legnagyobb művészek stílusát utasításra reprodukáló rendszer a világ ismeretének hiányát idioszinkretikus improvizálással pótolja. Ez pedig azért fontos, mert mutatja, a mesterséges intelligenciának továbbra is komoly korlátai vannak, ami a részletekben mutatkozik meg.
(Futurism)
(Borítókép: Kinga Krzeminska / Getty Images Hungary)