Szédítő a szöveggenerátorok rejtélyének megfejtése
További Tech-Tudomány cikkek
A nagy nyelvi modellekről, mint a GPT-3 vagy ChatGPT néven széles körben ismertté vált GPT-3.5, tudjuk, hogy rengeteg szövegen betanítva káprázatosan jól tudják megtippelni, melyik szó jön egy adott mondatban. Ez alapján a mobilokon ismertté vált automatikus szövegkiegészítő funkció intelligens változatának is tűnhetnek, de olyan jól végzik a dolgukat, hogy az emberek nem veszik észre, hogy generált szöveget olvasnak.
A szövegelő mesterséges intelligenciák azonban valamiért többet tudnak, mint amennyit tudniuk kellene. Például egy adott hangvételű mondatból százezer helyett pár tucat példa alapján képesek hasonlókat generálni. Ezt kontextuson belüli tanulásnak nevezik.
Egy nyelvi modell olyan mérnöki csoda, amely betanítása költséges munka, időt és hatalmas adatkészleteket igényel. Az eredmény egy 175 milliárd paramétert kezelő rendszer. Kontextuson belüli tanulás közben azonban nem változnak paraméterek,
A GÉP ÚGY TANUL, HOGY KÖZBEN NEM TANUL.
A Google, a Stanford és az MIT munkatársai szerették volna megfejteni, miként lehetséges ez.
Ébredj, Neo!
A megoldás enyhén szólva szédületes. A kutatók felfedezték, hogy a hatalmas neurális hálózatok rengetege egyszerűbb lineáris modelleket rejt, ezek tanuló algoritmusként működnek, amelyek fix paraméterek mellett is modellezik az új feladatot.
Ha finomhangolni akarnak egy ilyen modellt, rendszerint a területhez tartozó információt gyűjtenek, amelyet mérnöki segítséggel feldolgoznak. Most viszont csak öt példa kell, és megcsinálja, amit akarunk. A kontextuson belüli tanulás túlzottan is hatékony, ezért kell megértenünk
– magyarázza Ekin Akyürek, a jelenséget leíró tudományos dolgozat szerzője.
A szakmai vélekedés az, hogy betanításból származik az illúzió, hogy a modellek képesek tanulni. Egyszerűbben: nincs olyan, amit a mesterséges intelligencia ne látott volna már.
Akyürek ezt megcáfolta, olyan szintetikus adatokat talált ki, amelyeket a gép nem ismerhetett, az azonban a mesterséges kontextusba is beletanult. A jelenséget ezután egy kifejezetten ilyen tanulásra alkalmas transzformer neurális hálón próbálták elemezni.
A GPT-3 96 rétegből áll, az első réteg a bemenő adaté, az utolsó a kijövő adaté, ami a kettő között van, a betanításkor jön létre, és nehezen megfejthető. A transzformer matematikai elemzése szerint valahol a legelső rétegeken
a modell saját kisebb változatának szimulációját állítja elő.
Akyürek kutatótársainak elemzése alapján elméletileg lehetséges, hogy pusztán két réteg elég lehet egy ilyen szimulációhoz. A kutatás a gépi tanulás további fejlődéséhez nyit ajtót, nemcsak azt értjük meg belőle, hogyan tanulnak meg összetett feladatokat, hanem a tanulásuk hatásfoka is nagyban javulhat.
(MIT News)