Tetovált István király, depressziós Petőfi

2024.02.14. 10:08

Józsa Örs és Józsa Kata a Soundcam Productions #fridaysession című sorozatával számos fiatal és tehetséges előadónak adott lehetőséget arra, hogy bemutatkozzanak. Jelenleg a HoloChron megvalósítói, amely egyedi digitális élményt nyújtva hoz létre élethű avatárokat, azaz digitális képmásokat. Bemutatkozásként a magyar kultúra napján a Petőfi Sándorról készült videót publikálták.

Az interjúban többek között arról beszélnek, hogy

  • a múltba és a jövőbe is el tudnak vinni,
  • részletgazdag történelmi karaktereket akartak létrehozni, ráadásul magyarul,
  • élő emberek képmását is létre tudják hozni, 
  • mi az a kontextusalapú érzelemkinyerés,
  •  a karaktereik képesek a beszélgetés kontextusát is figyelembe venni.

Mit kell tudni a HoloChronról? Miben más ez, mint a többi techcsoda?

Örs: A HoloChron igazi game-changer, ami újraéleszti a múlt legendás alakjait digitális formában. Elkészítjük azokat a részletgazdag digitális avatárokat, amelyekkel interaktívan tudsz kommunikálni, mintha tényleg jelen lennének. Szóval ha valaha is kíváncsi voltál, hogy Mátyás király milyen tanácsot adna neked egy nehéz döntésben, vagy Petőfi mit gondolna a mai világról, a HoloChron ezt a lehetőséget hozza el neked. Emellett az innovatív holoportációs közvetítéseinkkel új távlatokat nyitunk a digitális kommunikáció területén. 

A projekt célja, hogy forradalmasítsuk a holografikus reklámok világát is, tehát nemcsak a múltba viszünk vissza, hanem egy nagy lépéssel a jövőbe is.

Kata: A HoloChron nem csak egy vállalkozás; olyan kezdeményezés, amely a digitális innovációval új életet lehel a múltba, miközben a jelen kommunikációs módszereit is megújítja. Ezáltal a kultúraátadás és a tanulás sokkal egyszerűbbé és érdekesebbé válik, ami miatt ezt a projektet ügyként is tekintjük, nem csupán üzleti vállalkozásként.

Örs: Négy különböző területre koncentrálunk, amelynek a központjában a HoloChron Box van, ami egy holografikus megjelenítő. Ehhez lehet társítani a HoloChron AI-t, a HoloChron TPortot és a HoloChron Spotot. A HoloChron AI az AI-vezérelt karaktermodellezésünk, a TPorttal azonos időben, élethűen és méretarányosan streamelhetünk személyeket, mégpedig élő hang- és képmásátvitellel. A Spottal pedig holografikus technológiánkat használva nyitunk új dimenziókat a termékek és szolgáltatások bemutatásában és reklámozásában.

Ti nem teljesen a programozóvilágból jöttök, sokkal inkább a zene területéről. A SoundCam productionsszel már évek óta végeztetek stúdiómunkákat, majd egy éles váltás következett. Hogyan jött a HoloChron ötlete?

Örs: A zenei és a kreatív projektjeink mellett mindig kerestük az új lehetőségeket. Észrevettük, hogy a zenére szinkronizált fényekkel, füsttel és izgalmas kameramozgásokkal sokkal magával ragadóbbá tehetjük a produkciókat. Ezért kezdtem további lehetőségeket keresni, hogy miképpen tehetnénk még dinamikusabbá a helyszínt és a hátteret, például green screen és LED-falak segítségével, így folyamatosan változtathatjuk a környezetet.

Ekkor merült fel egy új ötlet, amely a metauniverzumban különböző tartalmakat nyújtott volna a magyar zenészek és művészek által, mint például koncertek vagy zenei oktatás. De ezt az ötletet egyelőre félretettük, mert még nem éreztem teljesen kiforrottnak. Ebben az időszakban kezdtünk elmerülni az avatárok létrehozásában és a motion capture technológiák, valamint a játék motorok világában, ami teljesen új perspektívát nyitott számunkra. Világossá vált, hogy ez komoly befektetést és rengeteg tanulást igényel.

Amikor a VR és a mesterséges intelligencia világa felpezsdült, és a játékfejlesztők elkezdték az NPC-ket AI segítségével „okosítani”, rájöttem, milyen lehetőségek rejlenek ebben.

Ezek az AI-vezérelt NPC-k (non-player character, amelyet nem élő ember irányít – a szerk.) lehetővé tették, hogy a játékban a karakterek valódi, értelmes válaszokat adjanak. Ez inspirált minket arra, hogy elképzeljük, milyen lenne, ha a múzeumokban is hasonló interaktív karakterekkel találkozhatnánk. Ritkán járok múzeumba, mert nehezen kötnek le a tárlatok, de a technológia adta lehetőségek izgattak.

Pont ezért gondoltam, hogy milyen jó lenne, ha mindezt magyarul, első körben AR segítségével tudnánk megvalósítani. Képzeld el, hogy a telefonoddal bárhova irányítva megjelenhetne Petőfi vagy bármely más nagy alak, és beszélgethetnél vele. De nem az AR-os megoldás lett a nyerő első körben, hanem a hologramos megjelenítés, mármint a HoloChron Box. Ebből indultunk ki. Az úton rengeteg akadállyal kellett szembenéznünk, különösen a magyar nyelv miatt, hiszen angolul már léteznek virtuális asszisztensi lehetőségek mindenféle formában. De a mi célunk sokkal több volt, mint egy sima asszisztens: részletgazdag történelmi karaktereket, valós képmásokat akartunk létrehozni, ami jóval összetettebb feladat, ráadásul magyarul. Itt megjegyezném, hogy nemcsak történelmi személyeknek tudjuk a digitális képmását létrehozni, hanem természetesen élő embereknek is.

Hogyan kell elképzelni egy ilyen munkafolyamatot, hogyan készülnek ezek a digitális képmások, mire van szükség hozzá?

Örs: A digitális képmások létrehozása négy alapvető elemre épül.

Az első lépés a generálás maga, vagyis az „agy”, ahova az információkat és a nyelvi modelleket tápláljuk.

Vegyük például Mátyás királyt: rengeteg információt találhatunk róla online és a könyvekben, de a lényeg a részletekben rejlik. Nemcsak arról van szó, hogy összegyűjtjük az információkat, hanem hogy életre keltsük a karakterét, beleértve azt is, hogyan viselkedhetett vagy éppen mit mondhatott volna egy adott helyzetben. Így nemcsak adatokat, hanem érzelmeket, viselkedésformákat is beépítünk.

Az „agy” tehát kulcsfontosságú elem, amit körülbelül húsz összekapcsolt nyelvi modell és a beszédet szöveggé, illetve szöveget beszéddé alakító technológiák alkotják. Ezek a modellek erősítik egymást, hogy minél élethűbben tudjuk visszaadni a karakterek személyiségét. Jelenleg harmincféle érzelmet és azok intenzitását tudjuk szabályozni, hogy a digitális képmás valóban hiteles legyen.

Kata: Az érzelmek finomhangolása különösen fontos. Például egy nagy magyar zeneszerző esetében, aki híres volt arról, hogy arrogáns azokkal, akiket nem tartott tehetségesnek, nekünk meg kell határoznunk, hogy ez az arrogancia mikor és kivel jelenik meg. Nem elég egyszerűen arrogánsnak beállítani; az interakciók során ki kell alakulnia ennek az árnyalatnak is.

Örs: Ezért használjuk a kontextusalapú érzelemkinyerést, ami lehetővé teszi számunkra, hogy mélyrehatóan értelmezzük és adekvátan reagáljunk a felhasználói interakciókra.

Amikor valaki beszélgetésbe kezd egy karakterrel, például ezzel a nagy zeneszerzővel, az interakció során feltárul, hogy a felhasználó hogyan áll hozzá, és ennek megfelelően alakul a karakter válasza. Ha a karakter számára szimpatikus a beszélgetőpartner, a kommunikáció barátságosabb lehet, ellenkező esetben viszont a zeneszerző távolságtartóbb oldalát is megmutathatja.

És ez minden következő személlyel változhat, mivel minden interakció egyedi. Az érzelemkinyerés és a szövegelemzés integrálása elengedhetetlen a hiteles és élethű digitális karakterek létrehozásához, mivel ez teszi lehetővé a valós idejű, dinamikus és kontextushoz igazodó válaszok generálását.

Ha jól értem, kihívás volt megoldani azt is, hogy magyarul beszéljen.

Örs: A magyar nyelvű beszédképesség megvalósítása valóban kihívást jelentett a projektünkben. Specifikusan a Text-to-Speech (TTS) technológia és az „agy” megalkotása jelentette a nagy kihívást, amely során egyedi, magyar nyelvre optimalizált nyelvi modelleket fejlesztettünk ki. Ezek a modellek lehetővé tették számunkra, hogy a karaktereink természetes, helyes szövegekkel és jó fogalmazásmóddal, magyar akcentussal kommunikáljanak. A célunk az volt, hogy a beszédük gyors és élethű legyen, ami elengedhetetlen az autentikus felhasználói élmény szempontjából.

A vizuális megjelenítés tekintetében a hiperrealisztikus ábrázolásra törekedtünk. A karakterek kialakításakor kiemelt figyelmet fordítottunk az arckifejezésekre és a testmozgások hűséges visszaadására. A motion capture technológia alkalmazásával valósághűen tudtuk reprodukálni az emberi mozgást. A TikTokon megosztott Petőfi Sándor-karakterünk mozgása, amely Kata mozgásán alapult, szemlélteti, mennyire fontos a mozgások változatossága és pontos ábrázolása. 

A felhasználóktól kapott visszajelzések, mint például, hogy „Petőfi kissé femininné vált”, arra ösztönöznek minket, hogy folyamatosan finomítsuk a mozgásmintákat annak érdekében, hogy azok minél jobban tükrözzék a karakterek egyéni jellemzőit és történelmi kontextusát.

Kata: És akárhogy is próbálkozom, nem tudok másképp mozogni. Egyszerűen nem úgy mozgok, mint egy férfi. Ez egy fizikai adottság.

Örs: Rendszerünk tehát nem csupán a szövegértelmezésre és beszédgenerálásra képes nyelvi modelleket tartalmaz, hanem a vizuális megjelenítés és a mozgáselemzés terén fejlett algoritmusokat és szoftveres megoldásokat is, amelyek együttesen egy élethű digitális élményt nyújtanak. Jelenleg Szent István- és Petőfi Sándor-karaktereinkkel látható demó a weboldalunkon, amelyek bemutatják, hogyan valósítjuk meg a gyors és természetes interakciókat a felhasználókkal.

Számomra pont az az érdekes, hogy ráadásul két olyan személyt kreáltatok meg, akikről szinte nincs is például képi információnk.

Örs: Valóban, ez az egyik legizgalmasabb aspektusa a projektünknek. Nemcsak Istvánt és Petőfit, hanem más történelmi személyiségeket is – mint Mátyás király, Kodály Zoltán vagy Zrínyi Miklós – megalkottunk, akikről korlátozottan vagy egyáltalán nem áll rendelkezésre vizuális anyag. Ilyenkor különösen fontos, hogy a karakterek megjelenése egyértelműen azonosítható legyen. Korabeli leírások és ábrázolások alapján dolgozunk, hogy mindegyik karakter hűen tükrözze az adott személyiség jegyeit.

Kata: Pontosan, és itt nemcsak a kinézetről van szó, hanem arról is, hogy minden karakter egyedi stílussal és tudással rendelkezzen. Amikor valaki egy Petőfit kér tőlünk, az a Petőfi csak az övé lesz. Ha egy másik ügyfél is szeretne egy Petőfit, újrakezdjük az egész folyamatot az elejétől, kinézet, tudás stb. alapján, így biztosítjuk azt, hogy minden – úgymond – változat egyedi legyen.

Például István király modernizálása során tetoválásokat helyeztünk el a kezére, amelyek a honfoglalást és a királyi szimbólumokat, mint az országalma és a jogar, ábrázolják.

Ezáltal próbáltuk fiatalosabbá, trendibbé tenni a karaktert a mai fiatalság számára is, miközben fontos volt számunkra, hogy megőrizzük az ő nagyságát és bölcsességét. Odafigyeltünk arra, hogy bár modern elemeket adunk hozzá, István király karaktere továbbra is bölcsen válaszoljon, de közben a kommunikáció stílusa laza és közvetlen maradjon.

Ha régi nyelven kezdene beszélni, például ómagyarul, lehet, hogy nem is értenénk.

Örs: Pontosan, az a szépsége a technológiánknak, hogy flexibilis a nyelvhasználat tekintetében. Tudjuk, hogy ha a karaktereink régebbi magyar nyelven kezdenének beszélni, az nehezebben lenne érthető a mai közönség számára. 

Ezért, bár a karaktereink képesek a korukra jellemző nyelven kommunikálni, figyelünk arra, hogy a beszédjük modern és érthető maradjon, miközben néha belecsempészünk korhű nyelvi fordulatokat, amelyek emlékeztetnek arra, hogy valóban egy másik időből származnak.

Ami a mimikát illeti, nagyon fontos számunkra, hogy a karakterek arckifejezései minél élethűbbek legyenek. Bevetünk egy csomó fejlett technológiát, hogy ezek a virtuális személyiségek olyanok legyenek, mintha tényleg ott állnának előtted. A célunk, hogy a beszédjük tökéletes összhangban legyen a testmozgásukkal és arckifejezéseikkel, ami igazán belevisz az élménybe.

Ha jól tudom, Petőfi éppen depressziós…

Örs: Igazából, amikor tesztelem a rendszert, nem az a cél, hogy minden egyes alkalommal új sessiont hozzak létre. Sokkal inkább arra vagyok kíváncsi, hogy a rendszer hogyan reagál, milyen gyorsan tud válaszolni, és hogy az animációk megfelelően működnek-e. Néha tehát nem maga a válasz a lényeg, hanem a rendszer általános teljesítménye. Tesztelgetéseim során felvetődött az ukrán–orosz konfliktus is, ami Petőfit eléggé megviselte, és ezáltal egyfajta aggodalmat érez a világ jelenlegi állapota iránt. Ezért, ha nem indítok új sessiont, a korábbi beszélgetések információi beépülnek a karakter tudásába, így „tanulnak” az interakciók során, ami a hosszú távú memóriájuknak köszönhető.

Vannak kulcsszavak, amelyek aktiválják az adott mozdulatot? Átlagemberként ezt hogyan kell elképzelni?

Örs: Pontosan, a karaktereink bizonyos kulcsszavakra és kifejezésekre vannak programozva, amelyek aktiválják a hozzájuk kapcsolódó gesztusokat vagy arckifejezéseket. Ahogy az előzőekben említettem, a kontextusértelmezési képességekkel ezek kéz a kézben működnek.

Például ha azt mondod nekik, hogy „te hülye vagy”, az a kontextustól függően különböző reakciókat válthat ki. Ha ezt egy vicces szituációban mondod, miután a karakter viccet mesélt, akkor a karakterünk valószínűleg nevetni fog, nem pedig sértődötten reagál.

Ez azt mutatja, hogy a karaktereink képesek a beszélgetés kontextusát is figyelembe venni, nem csak a szó szerinti szöveget.

Tudnak valamit kezdeni amúgy az iróniával például?

Örs: Igen, fontos a beszélgetés kezdete. Ha eleve ironikusan állsz hozzá, a rendszer felismeri ezt, és ehhez igazítja a reakcióit.

Kata: Ha már folytatódott közöttetek egy beszélgetés, és a karakter „profilozott” téged, akkor képes az iróniát és a humort is kezelni. Tehát ha humorosan interaktálsz vele, olyan válaszokat kapsz, amelyek illenek a hangulathoz.

Örs: A karakterek és a rendszerünk működésének alapjait négy pillér alkotja. De a lényegi kérdés az, hogy ezeket hogyan visszük át a valóságba. Itt jön képbe a HoloChron Box, ami egy életnagyságú holografikus megjelenítő, tehát nem pontosan hologram, de közel áll hozzá, és ezzel éri el, hogy úgy érezd, mintha valóban egy élő személy állna előtted.

Kata: És hogy mennyire élethűek, azt még a kutyáink is megerősítették. Mind a ketten jól megnézték, amikor először felbukkant Petőfi.

Miként lehet a HoloChron technológiát alkalmazni a gyakorlatban, például a turizmus vagy az oktatás területén?

Örs: A HoloChron Boxunkhoz több különböző szolgáltatás is társítható. Itt van például a HoloChron AI, ahol a karakterek generálása történik, és persze maga a boksz, a megjelenítő felület. 

Lehetőség van arra is, hogy valós idejű közvetítéssel valós személyeket „teleportáljunk” a bokszba, ami kiváló lehetőséget nyújt például zenészeknek, hogy egyszerre több helyen „jelenjenek meg”, és promózzák az új koncertjüket, de előadásokat is lehet tartani.

Kata: És ha valaki a bokszban jelenik meg, akkor úgy van kialakítva, hogy hallja és lássa a másik oldalt, tehát interaktív marad a kommunikáció.

Örs: Ezenfelül van egy spotszolgáltatásunk is, amely kifejezetten reklámcélokra lett kifejlesztve. A boksz tulajdonságainak köszönhetően számtalan lehetőség nyílik, például múzeumi tárgyak „életre keltésére” vagy akár a magyar turizmus népszerűsítésére. Például egy repülőtérre kihelyezett bokszban lehet kombinálni, mondjuk, a HoloChron AI és a Spot szolgáltatásunkat, szóval képzeljük el, hogy sétál egy ember a reptéren, és különböző hologramos reklámokat lát, mondjuk, Magyarországról, a Szent Koronáról, ahogy forog, a Parlamentről stb. Oda áll a boksz elé, és megjelenik előtte Szent István, köszönti az arra sétáló embert, megkérdezi, hogy honnan jött, majd átvált arra a nyelvre, és elkezdi ajánlani azokat a helyeket, amelyeket érdemes neki meglátogatni. Istvánunk előbb felméri, hogy milyen típusú az ember, szereti-e például a múzeumokat, vagy inkább csak bulizni jött: ennek fényében eligazítja a turistát, és tanácsokat ad, de közben azt is elmondja, hogy ő ki, és hogy mit kell Szent Istvánról és arról a korról tudni. Ez csak egy példa, számtalan lehetőség van.

HoloChron AI v1
Fotó: HoloChron

Ezekben tehát az a közös, hogy interaktívak. Mik a további tervek a HoloChronnal?

Örs: Valóban, minden interaktív lehet a projektünkben, és ezen a területen szeretnénk még tovább fejlődni. Jövőbeli céljaink között szerepel, hogy a karaktereink még jobban értelmezzék a környezetüket, beleértve a kameraképet is, amit a boksz tetejéből kapunk, és ami lehetővé teszi számukra, hogy pontosabban reagáljanak a velük szemben álló beszélgetőpartnerre. Továbbá

szeretnénk, ha a karakterek képesek lennének az előttük történő cselekvésekre reagálni, mint például tánc vagy éneklés, lehetővé téve, hogy akár együtt énekeljenek vagy táncoljanak az interaktáló személlyel.

A gyorsaság terén is folyamatosan törekszünk a fejlesztésekre, hogy a válaszadás minél életszerűbb legyen, általában kettő-három másodpercen belül.

Kata: Fontos az is, hogy a válaszadás sebessége ne legyen azért túl gyors. Az a kettő-három másodperc késedelem szükséges ahhoz, hogy az interakció természetesnek és életszerűnek tűnjön.

Örs: Hozzátenném, hogy bár nem találtuk fel a spanyolviaszt, de büszkék vagyunk arra, hogy a projektünk magyar. Elsődlegesen a hazai piacra összpontosítottunk, ami különösen nagy kihívást jelentett a magyar nyelv árnyalt kezelése miatt. Ezek a kihívások még inkább motiváltak minket a fejlesztésben.

A további terveink között szerepel az AR- (kiterjesztett valóság) technológia integrálásának megvalósítása és a holografikus megjelenítők választékának bővítése.

Ezekkel az ambíciókkal a HoloChron csapata folyamatosan keresi az új lehetőségeket és innovációkat, hogy a digitális interaktivitást új szintre emeljük. Az élethű interakciók és a magyar nyelvű környezet további finomítása mellett nyitottak vagyunk minden új ötletre és együttműködésre, hogy a HoloChront még szélesebb körben ismertté és elérhetővé tegyük.