A Google besokallt a Gmail miatt
A spamek küldői gyakran használnak úgynevezett homoglifákat, vagyis a valódi betűkhöz hasonló karaktereket, láthatatlan karaktereket és egyéb trükkös szövegmanipulációkat annak érdekében, hogy megkerüljék a Gmail szövegosztályozó modelljeit, amelyek az adathalász- és egyéb káros tartalmakat hivatottak kiszűrni.
A Google újítása, a RETVec (Resilient & Efficient Text Vectorizer) nevű programja „segít az osztályozó modelleknek a legmodernebb osztályozási teljesítményt elérni”, miközben „minden nyelvet és minden UTF-8 karaktert támogat, előfeldolgozás nélkül”. A RETVec az eredmények javítását nagyon egyszerű szóbeágyazási modellel éri el.
A RETVec Gmailben állítólag 38 százalékkal javította a spamfelismerési arányt az eddigi alapszinthez képest. A Google azt állítja, hogy az elmúlt évben széles körben tesztelte az új programot, melyet „rendkívül hatékonynak talált a biztonsági és visszaélés elleni alkalmazásokban” – írja a 9to5google.com.