Ott törhet ki digitális háború, ahol a források eddig sem voltak mindig biztosak

GettyImages-157821527
2024.08.16. 18:48
Ahogy egyre erősebben érezhető a mesterséges intelligencia (MI) nyomulása, úgy fokozzák az önkéntesek az ellenőrzést a világ legnagyobb online enciklopédiájánál. A Wikipedia alapítása óta küzd azzal, hogy hamis bejegyzések kerülnek fel a rendszerbe. Azonban van jelenleg 265 ezer elkötelezett önkéntese, akik gyorsan kipucolják a fals információkat.

A Wikipedia presztízse, elismertsége megkérdőjelezhetetlen, hiszen 2024-ben már havi 16 milliárd látogatásnál tart, és ami az előnye, az egyben a hátránya is, hiszen ezeken a felületeken a legjobb elrejteni a dezinformációt, vagy éppen marketingüzeneteket cégekről, emberekről. A ChatGPT megjelenését követően a Wikipediánál is azonnal bővítették a gépi tanulással foglalkozó részleget. Jimmy Wales, a cég társalapítója szerint a MI egy lehetőség és egy fenyegetés is egyben. Majd a legutóbbi adománygyűjtő körútján elmagyarázta, szerinte mi is platformjuk szerepe a mesterséges intelligencia korában.

Miguel Ángel Garcia, a Wikipedia Spanyolország egyik partnere az El Pais című spanyol lapnak beszélt arról, hogy miként bukkant nemrégiben gyanús, vélhetően már MI generálta szövegekre az enciklopédiában.

Egyre inkább feltűnt, hogy újabb és újabb szerkesztők jelentkeznek, majd feltettek nagyon alaposan kidolgozott, hosszú anyagokat, ami egyáltalán nem jellemző. A kezdő önkéntesek apránként, darabonként, szinte bekezdésenként rakják össze cikkeiket.

Garcia teljesen tudatában van a szerkesztői fejlődésnek. Maga is még 2006-ban, gimnazistaként csatlakozott, és kezdetben csak az elírásokat, a nyelvtani hibákat javította. Első cikkét pedig szülőfalujáról, Campasperáról írta, ami Valladolid város környékén található Spanyolországban. Azért döntött így, mert egy sort sem talált falujáról, végül megírta a bejegyzést, majd feltöltötte és saját fotóival illusztrálta.

Azonban mióta megérkezett az MI, egyre több az új, ismeretlen önkéntes, akik hosszú, jól strukturált, alaposnak tűnő cikkel, tartalommal jelentkeznek – folytatta Garcia. Amikor olvassuk ezeket, rögtön feltűnnek azok az apró, felesleges csavarok, amiket az ember alapból nem ír bele ilyen tartalmakba.

Emellett időről időre felbukkannak a szövegben tagline-ok, azok a néhány szavas mottók, jelmondatok, amelyek a mai márkaérték-építés leghatékonyabb eszközei.

A márkát nem is kell nevén nevezni, hiszen a tagline alapján mindenkinek beugrik a márka. (Nálunk is ismert tagline-ok: Tesco – A legkisebb is számít, Borsodi – Az élet habos oldala, Coca Cola – Taste the Feeling, vagy 2021-től Real magic!) Azonban benne van a pakliban, hogy az ilyen cikkek bizony eltűnnek a Wiki több mint 62 millió szócikke között, ráadásul ezek több mint 300 nyelven íródtak.

Chris Albon, a Wikimedia Alapítvány gépi tanulásért felelős részlegének igazgatója elmondta, hogy önkénteseik már 2002 óta  használtak időnként mesterséges intelligenciát, elsősorban feleslegesen hosszú, időrabló munkák elvégzésére. Viszont a nem megfelelő szövegek kiszűrésének egyetlen módja az önkéntesek közösségének alkalmazása, hogy moderálják a tartalmakat. Ők tehát nemcsak írnak, hanem szükség esetén szerkesztenek, vagy eldöntik, hogy egy-egy tartalom alkalmas-e publikálásra.

A ChatGPT korában tehát egyre fontosabb az emberek által ellenőrzött tartalom.

A Wikipedia alapelvei – vagyis a vita, a konszenzus és a szigorú forrásmegjelölés – beváltak az elmúlt két évtizedben. Minden szövegükben szerepelni kell másodlagos forrásnak, vagyis olyan linkeknek, amelyek más honlapokra mutatnak.

Nem büntetik a mesterséges intelligencia használatát

Ha az új Wikipedia-bejegyzésekben nincs forrásmegjelölés, akkor az ellenőrző önkéntesek akcióba lépnek. A legtöbb esetben azonnal törlik a cikket, mert két kattintás után kiderül, hogy teljességgel semmitmondó, értelmetlen. Ha nem törlik, akkor megjelölik, hogy 30 nap után automatikusan törlődni fog a bejegyzés, ha a szerző nem látja el a szükséges forrásokkal az írást.

Egyébként maguk az önkéntesek alakítják az MI-eszközök felelős alkalmazását a Wikipedia felületein, és folyamatosan ellenőrzik annak betartását. Alapvetően nem büntetik az MI használatát szöveg létrehozásánál, csak akkor, ha az nem éri el az enciklopédia minőségi elvárásait.

Középtávon mindenképpen szembesülni fognak a külső források problémájával is. Akkor lesz baj, amikor MI generálta szövegek válnak hiteles forrássá a való világban. Egyre több digitális újság indul a világban, a legtöbb bármit megjelentet a felületén. Aztán megjelennek azok az emberek, akik elkezdenek referenciaként hivatkozni ezekre az ál-médiakiadványokra.

Ezeknek kiszűrése a szerkesztők feladata a Wikipediánál. Ha az önkéntes úgy véli, hogy egy-egy oldal nem megbízható, akkor jelzi, és a közösség eldönti, feketelistára kerül-e a weboldal. Ez már megtörtént például a Daily Mail esetében. A brit pletykalapot nem lehet forrásként használni, mert rendszeresen közöl nem ellenőrzött információkat.

Tartalomgyűjtés: Wikipedia kontra MI chatbotok

Az MI korában az online enciklopédia működtetői látnak még egy problémát a Wikipedia jövőjét illetően. Mi van akkor, ha a chatbotok – mint a ChatGPT vagy a Google Gemini – a jövőben a felhasználó kérését pompásan megoldják egy számára készített gyors összefoglalóval? Ki fog akkor Wikipedia-bejegyzéseket olvasni? És ami problémásabb lehet, ki szerkeszti azokat a tartalmakat?

Azt feltételezik, hogy ha megszűnnek az olyan tartalomgyűjtő helyek, mint a Wikipedia és a közvetlen tartalomfogyasztó pontok, mint a ChatGPT közötti kapcsolat, akkor bizony egyre kevesebb önkéntes fog jelentkezni a Wikihez. Hosszabb távon gondot jelenthet a tartalomban gazdag oldalak összekapcsolása az MI-vel, hiszen az nem fog mást csinálni, mint a promptnak megfelelően kigyűjti és újrarendszerezi csak a kért információt, az eredeti forrás megjelölése nélkül.

Ezzel pedig azt kockáztatjuk, hogy az MI elképesztő mennyiségű hamis vagy valótlan információt fog a világra zúdítani.

A felhasználó pedig képtelen lesz magától kiszűrni, hogy mi hamis állítás és mi nem az. Ennek pedig egyetlen megoldása lehet, a tartalom tulajdonlása, vagyis a forrásmegjelölés – mondja a Wikimedia Alapítvány gépi tanulási részlegének igazgatója.

Ez azonban most egy ördögi körnek tűnik. Az olyan alkalmazásokat, mint a ChatGPT vagy a Google Gemini olyan hatalmas adatbázisból „tanították”, mint például a Wikipedia. A nagy nyelvi modell (LLM) egy olyan MI-alapú rendszer, amely mesterséges neurális hálókból áll, és amelyet a gépi tanulás, illetve a deep learning segítségével sok paraméterből álló adatbázisok óriási tömegén tanítanak arra, hogy kommunikáljon, és kérésre nyelvi feladatokat oldjon meg. Ezeknek a hatalmas adatbázisoknak az egyike az önkéntesek által feltöltött több tíz millió cikkből álló Wikipedia is.

(Borítókép: John Phillips / UK Press / Getty Images)