A hangelemző, ami terroristák üldözésekor is hasznos
További Tech cikkek
- Olyat hibát produkál a Windows, hogy garantáltan mindenki kiugrik a székéből
- Könnyen megeshet, hogy a Google kénytelen lesz eladni a Chrome-ot
- A Huawei hivatalosan is bejelentette, előrendelhető a Mate 70
- Lesöpörheti Elon Musk X-ét a Bluesky, már a Google is relevánsabbnak találja
- Ezek a leggyakrabban használt jelszavak – érdemes változtatni, ha ön is használja valamelyiket
Kedve lenne ordítani? Ne tegye. De tényleg. Nem hogy ordítani, de beszélni sem lesz kedve, ha megtudja, hogy milyen elképesztően profi hangelemző algoritmust fejlesztett ki a Fujitsu. A rendszer csupán fél perc betanítást igényel, ennyi idő alatt elmenti a hangunk legfontosabb jellemzőit, és ezt követően bármikor megállapítja, hogy mikor hallható a mi hangunk.
Nicsak, ki beszél?
Bárki csukott szemmel felismeri Dörner Györgyöt, ha Bruce Willis szinkronhangjaként megszólal a tévében, de a gépi személyazonosítást sok körülmény nehezíti. Például az, hogy általában nem stúdiómikrofonba beszélünk, és nem is Dolby minőségben hallható a hangunk. Többnyire be kell érni az okostelefonok és pc-k igencsak változatos minőségű hangrendszereivel.
Nem beszéd
Szinte mindegyik okostelefont, és a számítógépek nagy részét is vezérelni tudjuk hangosan kimondott utasításokkal. Ezt hívjuk beszédfelismerésnek, amikor a szoftver azt tudja értelmezni, hogy mit mondunk. Ennek is vannak különböző típusai, a korlátozott szókinccsel rendelkező, szótár alapú megoldásoktól egészen a szabadszavas, sokkal több mindent megértő rendszerekig. Ettől nagyban különbözik a hang alapú személyazonosítás, amikor a szoftver nem a beszéd tartalmát elemzi, hanem azt, hogy ki beszél.
A Fujitsu tudósai arra találtak ki egy szabadalmazott módszert, hogy a feldolgozandó hangmintát függetlenné tegyék a rögzítő- és lejátszóeszközöktől, a környezettől, valamint az átviteli csatornától. Ez sokkal nagyobb kihívás, mint amikor az átviteli csatorna változatlan. A Google Hangouts videocsevegője például felismeri, hogy a konferenciahívás közben éppen ki szólalt meg, de ebben az esetben mindegyik résztvevő ugyanazt a hangkódoló algoritmust használja, tehát a hanghullámokat torzító dolgok nagy része ismert. A Fujitsu algoritmusa azt oldotta meg, hogy a hangfelvételben csak az emberhez köthető információk maradjanak meg.
Zajos környezetben 3 százalék alatti a rendszer hibaaránya, és ez nagy fejlődés a korábban használt módszerek 10 százalék körüli értékéhez képest. Csendben és nyugalomban az elemzések alig 1 százaléka téves. A módszer akkor is működik, ha idegen nyelven szólalunk meg, és az is kiszűrhető, ha megpróbáljuk eltorzítani a hangunkat.
Reszkessetek, betörők!
A hangelemzés kétélű fegyver, ezt a Fujitsu is elismerte, de ők nyugodtan hátradőlhetnek annak a tudatában, hogy transzparens módon bemutatták a megoldást. Innentől a felhasználókon múlik, hogy miként alkalmazzák. Elvileg kidolgozható olyan rendszer, amivel a cégek az okostelefonunk követése nélkül, néhány mikrofonnal azonosítani tudnak minket, miközben a plázában rohangálunk.
Megfigyelhetik, hogy mikor milyen boltban jártunk, akkor is, ha minden – hasonló nyomon követésre használható – eszközünk offline. Csak annyi az alapfeltétel, hogy meg kell szólalnunk, de fél perc beszéd már a kasszánál simán összejön. Aki meg társasággal meg rucikat válogatni, fél óra csacsogást is lead. Ennek az lehet a haszna a cégek számára, hogy később ez alapján bombázhatnak minket hirdetésekkel a közösségi portálokon.
Elkapják a lövedékek hangját
Az Egyesült Államokban már 110 várost szereltek fel mikrofonokkal, hogy háromszögeléssel be tudják mérni a lövöldözések helyét, és anélkül oda tudják küldeni a járőröket, hogy bárki feltárcsázta volna a 911-es segélyhívó számot. Viszonylag kevés helyre kell mikrofonokat telepíteni, és a módszer előnye az optikai érzékeléssel szemben, hogy nem szükséges rálátni az eseményekre. A hangból az is pontosan kiderült, hogy mennyi lövést adtak le.
Bőven találunk hasznos célokat is. A párizsi terrortámadás után nem nagyon kell magyarázni, hogy bizonyos esetekben milyen óriási jelentősége lehet a hang alapú azonosításának. A fejlesztés eredeti célja az volt, hogy a börtönökben azonosítsák a betelefonáló családtagokat, mint biztonságos személyeket, és ugyanígy a szabadlábon lévő bűnözők hívásait is kiszűrjék. Ettől nem tűnik nagyon távolinak, hogy feltételezett terroristákra, megfigyelni kívánt személyekre is szélesebb körben alkalmazzák a gépi hangazonosítást. Könnyen lehet, hogy a jövőben a kamerák mellé profibb mikrofonokat is telepítenek az utcákra.
A Fujitsu gondolt arra is, hogy nem minden esetben, sőt, nem mindenkinek van lehetősége ujjlenyomattal vagy tenyérvéna-szkennerrel igazolni a személyazonosságot, és ilyenkor kapóra jön a beszédhangunk.