A hangelemző, ami terroristák üldözésekor is hasznos

További Tech cikkek

Kedve lenne ordítani? Ne tegye. De tényleg. Nem hogy ordítani, de beszélni sem lesz kedve, ha megtudja, hogy milyen elképesztően profi hangelemző algoritmust fejlesztett ki a Fujitsu. A rendszer csupán fél perc betanítást igényel, ennyi idő alatt elmenti a hangunk legfontosabb jellemzőit, és ezt követően bármikor megállapítja, hogy mikor hallható a mi hangunk.

Nicsak, ki beszél?

Bárki csukott szemmel felismeri Dörner Györgyöt, ha Bruce Willis szinkronhangjaként megszólal a tévében, de a gépi személyazonosítást sok körülmény nehezíti. Például az, hogy általában nem stúdiómikrofonba beszélünk, és nem is Dolby minőségben hallható a hangunk. Többnyire be kell érni az okostelefonok és pc-k igencsak változatos minőségű hangrendszereivel.

Nem beszéd

Szinte mindegyik okostelefont, és a számítógépek nagy részét is vezérelni tudjuk hangosan kimondott utasításokkal. Ezt hívjuk beszédfelismerésnek, amikor a szoftver azt tudja értelmezni, hogy mit mondunk. Ennek is vannak különböző típusai, a korlátozott szókinccsel rendelkező, szótár alapú megoldásoktól egészen a szabadszavas, sokkal több mindent megértő rendszerekig. Ettől nagyban különbözik a hang alapú személyazonosítás, amikor a szoftver nem a beszéd tartalmát elemzi, hanem azt, hogy ki beszél.

A Fujitsu tudósai arra találtak ki egy szabadalmazott módszert, hogy a feldolgozandó hangmintát függetlenné tegyék a rögzítő- és lejátszóeszközöktől, a környezettől, valamint az átviteli csatornától. Ez sokkal nagyobb kihívás, mint amikor az átviteli csatorna változatlan. A Google Hangouts videocsevegője például felismeri, hogy a konferenciahívás közben éppen ki szólalt meg, de ebben az esetben mindegyik résztvevő ugyanazt a hangkódoló algoritmust használja, tehát a hanghullámokat torzító dolgok nagy része ismert. A Fujitsu algoritmusa azt oldotta meg, hogy a hangfelvételben csak az emberhez köthető információk maradjanak meg.

Zajos környezetben 3 százalék alatti a rendszer hibaaránya, és ez nagy fejlődés a korábban használt módszerek 10 százalék körüli értékéhez képest. Csendben és nyugalomban az elemzések alig 1 százaléka téves. A módszer akkor is működik, ha idegen nyelven szólalunk meg, és az is kiszűrhető, ha megpróbáljuk eltorzítani a hangunkat.

Reszkessetek, betörők!

A hangelemzés kétélű fegyver, ezt a Fujitsu is elismerte, de ők nyugodtan hátradőlhetnek annak a tudatában, hogy transzparens módon bemutatták a megoldást. Innentől a felhasználókon múlik, hogy miként alkalmazzák. Elvileg kidolgozható olyan rendszer, amivel a cégek az okostelefonunk követése nélkül, néhány mikrofonnal azonosítani tudnak minket, miközben a plázában rohangálunk.

Megfigyelhetik, hogy mikor milyen boltban jártunk, akkor is, ha minden – hasonló nyomon követésre használható – eszközünk offline. Csak annyi az alapfeltétel, hogy meg kell szólalnunk, de fél perc beszéd már a kasszánál simán összejön. Aki meg társasággal meg rucikat válogatni, fél óra csacsogást is lead. Ennek az lehet a haszna a cégek számára, hogy később ez alapján bombázhatnak minket hirdetésekkel a közösségi portálokon.

Elkapják a lövedékek hangját

Az Egyesült Államokban már 110 várost szereltek fel mikrofonokkal, hogy háromszögeléssel be tudják mérni a lövöldözések helyét, és anélkül oda tudják küldeni a járőröket, hogy bárki feltárcsázta volna a 911-es segélyhívó számot. Viszonylag kevés helyre kell mikrofonokat telepíteni, és a módszer előnye az optikai érzékeléssel szemben, hogy nem szükséges rálátni az eseményekre. A hangból az is pontosan kiderült, hogy mennyi lövést adtak le.

Bőven találunk hasznos célokat is. A párizsi terrortámadás után nem nagyon kell magyarázni, hogy bizonyos esetekben milyen óriási jelentősége lehet a hang alapú azonosításának. A fejlesztés eredeti célja az volt, hogy a börtönökben azonosítsák a betelefonáló családtagokat, mint biztonságos személyeket, és ugyanígy a szabadlábon lévő bűnözők hívásait is kiszűrjék. Ettől nem tűnik nagyon távolinak, hogy feltételezett terroristákra, megfigyelni kívánt személyekre is szélesebb körben alkalmazzák a gépi hangazonosítást. Könnyen lehet, hogy a jövőben a kamerák mellé profibb mikrofonokat is telepítenek az utcákra.

A Fujitsu gondolt arra is, hogy nem minden esetben, sőt, nem mindenkinek van lehetősége ujjlenyomattal vagy tenyérvéna-szkennerrel igazolni a személyazonosságot, és ilyenkor kapóra jön a beszédhangunk.

5 könyv
Több mint 600 meghökkentő, érdekes és tanulságos történet!

MEGVESZEM

Az oldalról ajánljuk

Bookline

E. O. Chirovici
Tükrök könyve - filmes borítóval

3817 Ft

Martos Gábor
A műkereskedelem legjei

5015 Ft