Miért nem tudnak kezet rajzolni a képgenerátorok?
További Tech-Tudomány cikkek
- Rongyként nyújtható és csavarható az LG új kijelzője
- Az élet keresése közben végezhetett a marslakókkal az amerikai szonda
- Itt a nagy dobás a 4iG-től: műholdakat állítanak Föld körüli pályára
- Minden eddiginél furább hibrid szörnyeteggel rukkolhat elő az Apple
- Hamarosan képtelenek leszünk kiszolgálni az adatközpontok energiaigényét
Korunk izgalmas jelensége a hatalmas lépésekkel fejlődő mesterséges intelligencia, legyen nyelvi modell vagy képgeneráló rendszer. A gép produktumai alig megkülönböztethetők az emberi alkotásoktól, de találhatunk árulkodó részleteket, ha tudjuk, hol keressük.
A már évek óta ismert arcképgenerátorok esetében ilyenek lehetnek a furcsa alakú pupillák – a gép ugyanis nem tudja, hogy az alapértelmezés szerint kerek mindenkinél.
A Dall-E, Midjourney és Stable Diffusion esetében ugyanakkor komikus rémálom, ami a kezekkel történik. Számon felüli megnyúlt ujjak és többszörös csuklók tűnnek fel. Kérdés, miért.
Általában elmondható, hogy a mesterséges intelligencia adathalmazában kevesebbszer jelennek meg a kezek, mint az arcok. Ráadásul kisebbek, kevésbé láthatók teljes alakjukban
– magyarázza a Stability AI szóvivője.
Az algoritmus betanítására használt, több milliárd képből álló adathalmazban a kezek legtöbbször fognak valamit, poharat, mikrofont, egy másik kezet. Bizonyos szögekben pár ujj látszik, máskor egy sem. A gép számára valószínűleg nem világos, hogy az emberi anatómia részei.
Az emberek világában teljesen máshogy alakult a dolog: az őskori barlangfestményeken az emberi kéz volt az első stencil. A kéz mindig is a művészet egyik fontos motívuma volt. Részletes és élethű ábrázolása a reneszánsz korában terjedt el. Leonardo da Vinci például megszállottan rajzolta az emberi kéz csontjainak, szalagjainak bonyolult struktúráját.
A gép tehát a rajzolót utánozza annak tudása nélkül. Így egyelőre csak annyit ért, ha arc van a képen, egy környezetében található tárgyra csatlakozó nudlihalmaz is lesz valahol. A legnagyobb művészek stílusát utasításra reprodukáló rendszer a világ ismeretének hiányát idioszinkretikus improvizálással pótolja. Ez pedig azért fontos, mert mutatja, a mesterséges intelligenciának továbbra is komoly korlátai vannak, ami a részletekben mutatkozik meg.
(Futurism)
(Borítókép: Kinga Krzeminska / Getty Images Hungary)