
Weiler Péter képzőművész munkássága és portfóliója mesterséges intelligenciával fűszerezve.
MEGVESZEMA Microsoft újabb jelentős lépést tett a mesterséges intelligencia integrálása felé – a vállalat bejelentette, hogy a Copilot Vision nevű AI-funkció mostantól ingyenesen használható az Edge böngésző felhasználói számára. A hírt Mustafa Suleyman, a Microsoft mesterséges intelligenciával kapcsolatos részlegének vezérigazgatója tette közzé a Blueskyon.
A Copilot Vision a Microsoft elmondása szerint egy „beszédalapú élmény”, amely lehetővé teszi a felhasználók számára, hogy hangparancsokkal kommunikáljanak a mesterséges intelligenciával. Ami azonban kiemeli az átlagból, az az, hogy a funkció képes valós időben értelmezni a felhasználó képernyőjén megjelenő tartalmat, ezzel új távlatokat nyitva az online interakcióban és az alkalmazások használatában – ehhez foghatót egyelőre csak a Google Pixel és Galaxy S25-ös mobilokon tapasztalhattunk a Gemini Live-val.
Suleyman kiemelte, hogy az opcionálisan bekapcsolható funkcióval a Copilot Vision „szó szerint láthatja, amit mi magunk is a képernyőn”. A vezérigazgató példaként említette, hogy a Vision segíthet egy recept követésében főzés közben, vagy akár egy bonyolultabb álláshirdetés „dekódolásában” is, megkönnyítve az interjúra való felkészülést és a motivációs levelek megírását. Fontos azonban megjegyezni, hogy a Microsoft támogatási oldala szerint
a Copilot Vision csak kiemel, felolvas és ötletel a képernyőn látottak alapján; nem kattint linkekre és nem végez műveleteket a felhasználó helyett.
Azon felhasználók számára, akik a Copilot Pro előfizetéssel rendelkeznek, a Copilot Vision hamarosan rendszerszinten is elérhetővé válik – tehát nemcsak a Microsoft Edge böngészőn belül, hanem a Windows 11 bármely szegletében előhívhatják, például a Photoshopban, videószerkesztő szoftverekben vagy akár olyan játékokban, mint a Minecraft.
Ha ki szeretné próbálni az ingyenes Copilot Visiont, egyszerűen csak kattintson erre a linkre a Microsoft Edge böngészőn belül. A rövid oktatóvideó megtekintése és az engedélyek megadása után a Copilot oldalsávjában található mikrofon ikonra kattintva indítható el a Vision-munkamenet, amelyet egy hangjelzés és a böngésző színének enyhe megváltozása jelez. Már amennyiben az ön esetében elérhető a fejlesztés, nekünk ugyanis egyelőre nem engedte a Microsoft, hogy kipróbáljuk azt.
Megeshet, hogy ez nem véletlen. Az első beszámolók alapján kevés felhasználó számára volt zökkenőmentes a Vision használta, a The Verge újságírójának például több próbálkozásra volt szüksége, mire az Edge egyáltalán felajánlotta az engedélyezést, de még így sem jelentek meg számára a vezérlők.
És ha már a használatnál tartunk, fontos kitérni a Microsoft álláspontjára is az adatvédelmet illetően. A vállalat hangsúlyozza, hogy a Copilot kivétel nélkül rögzíti a felhasználóknak adott válaszokat, de nem gyűjti a bemeneteket, képeket vagy az oldal tartalmát a Vision-munkamenet során, ami azt jelenti, hogy elméletben a képernyőn látott információk nem kerülhetnek a Microsoft kezébe. A képernyőmegosztás leállításához a felhasználók befejezhetik a munkamenetet vagy bezárhatják a böngészőablakot.
Az elmúlt hónapokban még a korábbinál is rohamosabb fejlődésen ment keresztül a mesterséges intelligencia, különösen az OpenAI gondozásában fejlesztett ChatGPT, és a Google-féle Gemini. Előbbi tavasz elején az új képalkotó modelljével tarolta le az internetet a Studio Ghibli-trendnek köszönhetően, majd a ChatGPT újragondolt memóriafunkciója váltott ki felemás reakciókat a felhasználókból. Ahogy arról az Indexen is írtunk, az új fejlesztés eddig korlátozott információk – mint például lekérdezések és testre szabások – megőrzését és felhasználását tette lehetővé a jövőbeli válaszokhoz.
Ezek mellett pedig a Google sem unatkozott. Amellett, hogy elérhetővé tették a Gemini legújabb, 2.5-ös modelljét, egy Copilot Visionhöz hasonló funkciót is bevezettek, ami a Microsoft megoldásával ellentétben működik is. A Gemini Live különlegessége, hogy amellett, hogy látja és értelmezi, ami megjelenik a telefon kijelzőjén, a mobil kamerájával is összeköthetjük, így a külvilággal kapcsolatos dolgokra is azonnal reagálni tud. Például segíthet egy növény felismerésében, miközben gondozási tippeket ad – de egy koncertplakátot megmutatva neki egy pillanat alatt létrehozhat egy eseményt a naptárunkban.
A Gemini Live egyelőre a Google Pixel és Samsung Galaxy S25-ös telefonokon használható teljesen ingyenesen, idővel pedig más androidos és iOS-es készülékre is megérkezik, ebben az esetben viszont már Gemini Advanced előfizetésre lesz szükség a használatához. A Copilot Vision ezzel szemben egyelőre úgy néz ki, hogy az Edge böngészőn belül mindenki számára ingyenes marad – a kérdés már csak az, mikor válik működőképessé.
(Borítókép: David Paul Morris / Bloomberg via Getty Images)
Weiler Péter képzőművész munkássága és portfóliója mesterséges intelligenciával fűszerezve.
MEGVESZEM