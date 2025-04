Megérkezett a Microsoft legújabb AI-fejlesztése, a Copilot Vision, ami a kiválasztottak számára – elméletben – már használható is a vállalat saját böngészőjében, az Edge-ben. Az AI forradalminak ígérkezik, a Microsoft a platformjain ugyanis most először lehetőséget ad arra, hogy a felhasználó megossza vele képernyőjét, így a mesterséges intelligencia pontosan arra reagálhat, amit a felhasználó maga előtt lát. Van viszont egy kis bökkenő: a funkciót egyelőre nem tudtuk kipróbálni, és ezzel nem csak mi voltunk így.

A Microsoft újabb jelentős lépést tett a mesterséges intelligencia integrálása felé – a vállalat bejelentette, hogy a Copilot Vision nevű AI-funkció mostantól ingyenesen használható az Edge böngésző felhasználói számára. A hírt Mustafa Suleyman, a Microsoft mesterséges intelligenciával kapcsolatos részlegének vezérigazgatója tette közzé a Blueskyon.

A Copilot Vision a Microsoft elmondása szerint egy „beszédalapú élmény”, amely lehetővé teszi a felhasználók számára, hogy hangparancsokkal kommunikáljanak a mesterséges intelligenciával. Ami azonban kiemeli az átlagból, az az, hogy a funkció képes valós időben értelmezni a felhasználó képernyőjén megjelenő tartalmat, ezzel új távlatokat nyitva az online interakcióban és az alkalmazások használatában – ehhez foghatót egyelőre csak a Google Pixel és Galaxy S25-ös mobilokon tapasztalhattunk a Gemini Live-val.

Forradalminak ígérkezik

Suleyman kiemelte, hogy az opcionálisan bekapcsolható funkcióval a Copilot Vision „szó szerint láthatja, amit mi magunk is a képernyőn”. A vezérigazgató példaként említette, hogy a Vision segíthet egy recept követésében főzés közben, vagy akár egy bonyolultabb álláshirdetés „dekódolásában” is, megkönnyítve az interjúra való felkészülést és a motivációs levelek megírását. Fontos azonban megjegyezni, hogy a Microsoft támogatási oldala szerint

a Copilot Vision csak kiemel, felolvas és ötletel a képernyőn látottak alapján; nem kattint linkekre és nem végez műveleteket a felhasználó helyett.

Azon felhasználók számára, akik a Copilot Pro előfizetéssel rendelkeznek, a Copilot Vision hamarosan rendszerszinten is elérhetővé válik – tehát nemcsak a Microsoft Edge böngészőn belül, hanem a Windows 11 bármely szegletében előhívhatják, például a Photoshopban, videószerkesztő szoftverekben vagy akár olyan játékokban, mint a Minecraft.

Nekünk nem működött

Ha ki szeretné próbálni az ingyenes Copilot Visiont, egyszerűen csak kattintson erre a linkre a Microsoft Edge böngészőn belül. A rövid oktatóvideó megtekintése és az engedélyek megadása után a Copilot oldalsávjában található mikrofon ikonra kattintva indítható el a Vision-munkamenet, amelyet egy hangjelzés és a böngésző színének enyhe megváltozása jelez. Már amennyiben az ön esetében elérhető a fejlesztés, nekünk ugyanis egyelőre nem engedte a Microsoft, hogy kipróbáljuk azt.

Megeshet, hogy ez nem véletlen. Az első beszámolók alapján kevés felhasználó számára volt zökkenőmentes a Vision használta, a The Verge újságírójának például több próbálkozásra volt szüksége, mire az Edge egyáltalán felajánlotta az engedélyezést, de még így sem jelentek meg számára a vezérlők.

És ha már a használatnál tartunk, fontos kitérni a Microsoft álláspontjára is az adatvédelmet illetően. A vállalat hangsúlyozza, hogy a Copilot kivétel nélkül rögzíti a felhasználóknak adott válaszokat, de nem gyűjti a bemeneteket, képeket vagy az oldal tartalmát a Vision-munkamenet során, ami azt jelenti, hogy elméletben a képernyőn látott információk nem kerülhetnek a Microsoft kezébe. A képernyőmegosztás leállításához a felhasználók befejezhetik a munkamenetet vagy bezárhatják a böngészőablakot.

Ez lenne a jövő?

Az elmúlt hónapokban még a korábbinál is rohamosabb fejlődésen ment keresztül a mesterséges intelligencia, különösen az OpenAI gondozásában fejlesztett ChatGPT, és a Google-féle Gemini. Előbbi tavasz elején az új képalkotó modelljével tarolta le az internetet a Studio Ghibli-trendnek köszönhetően, majd a ChatGPT újragondolt memóriafunkciója váltott ki felemás reakciókat a felhasználókból. Ahogy arról az Indexen is írtunk, az új fejlesztés eddig korlátozott információk – mint például lekérdezések és testre szabások – megőrzését és felhasználását tette lehetővé a jövőbeli válaszokhoz.

Ezek mellett pedig a Google sem unatkozott. Amellett, hogy elérhetővé tették a Gemini legújabb, 2.5-ös modelljét, egy Copilot Visionhöz hasonló funkciót is bevezettek, ami a Microsoft megoldásával ellentétben működik is. A Gemini Live különlegessége, hogy amellett, hogy látja és értelmezi, ami megjelenik a telefon kijelzőjén, a mobil kamerájával is összeköthetjük, így a külvilággal kapcsolatos dolgokra is azonnal reagálni tud. Például segíthet egy növény felismerésében, miközben gondozási tippeket ad – de egy koncertplakátot megmutatva neki egy pillanat alatt létrehozhat egy eseményt a naptárunkban.

A Gemini Live egyelőre a Google Pixel és Samsung Galaxy S25-ös telefonokon használható teljesen ingyenesen, idővel pedig más androidos és iOS-es készülékre is megérkezik, ebben az esetben viszont már Gemini Advanced előfizetésre lesz szükség a használatához. A Copilot Vision ezzel szemben egyelőre úgy néz ki, hogy az Edge böngészőn belül mindenki számára ingyenes marad – a kérdés már csak az, mikor válik működőképessé.

(Borítókép: David Paul Morris / Bloomberg via Getty Images)

Weiler Péter képzőművész munkássága és portfóliója mesterséges intelligenciával fűszerezve. MEGVESZEM