A Google a nemrég megrendezett 2025-ös I/O fejlesztői konferenciáján rántotta le a leplet legújabb, Veo 3 nevű mesterségesintelligencia-modelljéről, amely iparági szakértők és az internetezők szerint is forradalmasíthatja a filmkészítést. A bemutatott technológia olyan valósághű, hanggal és párbeszéddel szinkronizált videókat képes létrehozni, amelyeket szinte lehetetlen megkülönböztetni az emberi operatőrök munkájától – a közösségi oldalakon pedig már most futótűzként terjednek ezek a felvételek.

A közösségi oldalak mára túlzások nélkül mindennapjaink részévé váltak, nagy valószínűséggel ön is a Facebookról kattintott rá erre a cikkre. Ezeket a platformokat az elmúlt egy-két évben viszont elárasztották az AI által generált tartalmak. Bár a pontos számok nem ismertek, becslések szerint a hírfolyamokban általánosságban ma már tízből legalább három poszt a mesterséges intelligencia által alkotott tartalom – ezt az arányt pedig a Google új dobása csak tovább növeli. Ráadásul a Google új modelljei miatt most már a megkülönböztetésük is minden korábbinál nehezebb lesz – cikkünk borítóképét is ezek egyikével generáltuk, a valósághoz annak semmi köze sincs.

A fejlesztés talán legjelentősebb újítása – ellentétben a korábbi, néma klipeket gyártó modellekkel –, hogy a Veo 3 tökéletesen szinkronizált hangot generál a videóhoz. Ez magában foglalja a környezeti zajokat, a hangeffektusokat és akár a szereplők párbeszédét is, közel hibátlan ajakszinkronnal. A bemutató során egy egyszerű szöveges parancsra („egy cukorkából készült billentyűzet”) a rendszer például nemcsak a látványt, de a hozzá tartozó ropogós, cukorszerű gépelési hangokat is megalkotta.

Nincsenek többé hatujjú mutánsok

Emellett pedig nem csupán a hang, de a kép minősége is szintet lépett. A korábbi AI-videógenerátorokkal ellentétben – amelyek gyakran anatómiailag pontatlan emberi alakokat hoztak létre – a Veo 3 kiemelkedik a meggyőzően valósághű vonásokkal rendelkező emberek megalkotásában, legfőképpen az ötujjas kezek terén. Ez a látszólag apró részlet jelentős technikai vívmány, mivel a helyes kézanatómia régóta fennálló kihívást jelentett az AI-rendszerek számára. A modell emellett fenntartja a vizuális folytonosságot a klipek során, ragaszkodik a valós világ fizikájához, és konzisztens arcvonásokat generál, elkerülve a korábbi rendszereket sújtó uncanny valley effektust.

Az anatómiai pontosság azonban túlmutat a puszta ujjak számán – a Veo 3 természetes arányokkal, valósághű bőrtextúrákkal és folyamatos mozgással rendelkező embereket hoz létre.

Ahogy arról korábbi cikkünkben is írtunk, a technológiai ugrást a Google egy kreatív csomagba, a Flow nevű platformba integrálta, amely a Veo 3 mellett a cég képgeneráló (Imagen 4) és nyelvi (Gemini) modelljeit is egyesíti. Az eszközt kifejezetten filmkészítőknek és történetmesélőknek szánták, lehetővé téve, hogy ötleteiket és forgatókönyvvázlataikat pillanatok alatt, lenyűgöző minőségben keltsék életre. Dave Clark filmkészítő úgy fogalmazott, a technológia „a szabadság új érzését adja”.

Ezzel egy időben pedig egy olyan korszakba léptünk, ahol az AI által generált képeket, videókat és hanganyagokat szinte lehetetlen megkülönböztetni a valóságtól – a korábbi árulkodó jelek javarészt eltűntek.

A TikTokon megosztott, vírusszerűen terjedő videókban az internetezőket például különösen lenyűgözte az AI azon képessége, hogy az olyan finom emberi arckifejezéseket és gesztusokat ad vissza, amelyek már-már megkülönböztethetetlenek a valóságtól. A technológia persze még nem tökéletes, és korlátai is vannak – például ahogy említettük, maximum nyolc másodperces anyagokat képes generálni –, ettől függetlenül viszont technológiai áttörés ide vagy oda, már most komoly problémákat vet fel.

Az alábbi videóban minden egyes képkockát, illetve hanghatást a Google Veo 3 generált, teljesen magától, kizárólag egy néhány mondatos szöveges utasítás alapján; a különböző klipek viszont utólag lettek összevágva. Érdekesség, hogy a felvétel egy magyar felhasználó promptjaiból született, az X-hez és a TikTokhoz hasonló közösségi oldalakon pedig többmilliós megtekintéssel rendelkezik már.

Alább pedig arra láthat példát, hogy a modell hogyan képes az emberek hangjával és akcentusával játszadozni:

Mi valódi és mi nem?

Jelenleg csak a fentihez hasonló ártatlan felvételek terjednek a közösségi oldalakon, de gondoljunk bele, mi történik akkor, amikor egy politikus nyilatkozata, egy híres ember reklámja vagy egy háborús esemény tűnik tökéletesen valósághűnek, miközben azt teljes egészében a gép alkotta. A probléma többrétű: a legnyilvánvalóbb veszély a célzott álhírek és propagandavideók terjesztése, de a személyes visszaélések és csalások is komoly problémát jelenthetnek.

Az olyan vállalatok, mint például a Google persze nem engedik, hogy modelljeikkel ismert emberek másait generáljuk le, a technológia viszont idővel szélesebb körökben is elérhetővé válik, amit már nem lehet ennyire kontrollálni. Ugyanakkor a felhasználók nincsenek teljesen kiszolgáltatva: a védekezés kulcsa a tudatosság és a kritikus gondolkodás. Mindig tegyük fel a kérdést: ki vagy mi a tartalom forrása? Egy megbízható hírügynökség vagy egy ismeretlen, névtelen profil? Ha egy hír túl hihetetlennek vagy túl felháborítónak tűnik, valószínűleg nem is igaz. Illetve mielőtt bármit megosztanánk, érdemes más, hitelesnek vélt forrásokból is utánanézni a hírnek.

Mindemellett viszont a felelősség oroszlánrésze a technológiát fejlesztő és azt terjesztő platformoké – nekik kell megteremteniük a biztonságos digitális környezetet. A közösségi oldalak például már elkezdték bevezetni az AI által létrehozott tartalmakat jelölő címkéket, amelyek képek és videók alatt is megjelenhetnek – figyeljünk ezekre. Ha pedig egy videónál nem találunk ilyet, de gyanús, hogy az, kezeljük azt fenntartásokkal, illetve jelentsük azt a fejlesztők felé.

Ahogy azt már többször is hangsúlyoztuk, a Veo 3 és a hozzá hasonló technológiák egyszerre jelentenek lenyűgöző kreatív eszközt és potenciális veszélyforrást. A jövő tőlünk függ, és attól, hogy a fejlesztők, a platformok és mi, felhasználók közösen megtanuljuk-e felelősséggel kezelni ezt az új, a valóság és az illúzió határán egyensúlyozó korszakot.

(Borítókép: Bármennyire is valósághű, a fotót teljes egészében a Google legújabb, Imagen 4 modelljével generáltuk, mindösszesen egy kétmondatos prompttal.)