Amióta a Google az összes kütyüjét az Asszisztens nevű hangvezérelt mini mesterséges intelligencia köré építi, nagy erőket fektet annak feljeszésébe, hogy a szoftver élethűen szólaljon meg, olvasson fel szöveget, emberinek hangozzon, de lélektelen géphangnak. A jelek szerint ebben elég jelentős sikereket értek el. Az új generációs beszédszintetizátor szoftverükről, a Tacotron 2-ről most adtak ki egy tanulmányt (PDF), amiben részletesen kifejtik, hogyan érték ezt el.

Röviden a titok annyi, hogy két neurális hálózat dolgozza meg az írott szöveget. Az első egy spektogramot készít a mondatokból, a második (a híres Deepmind egyik programja) pedig ez alapján alkotja meg a hangot. Hogy ez mennyire működik jó, annak demonstrálására itt van kétszer két mondat, az egyiket egy valódi ember mondja, a másikat a Tacotron 2.

“George Washington was the first President of the United States.”

https://google.github.io/tacotron/publications/tacotron2/demos/washington_gen.wav https://google.github.io/tacotron/publications/tacotron2/demos/washington_gt.wav

“That girl did a video about Star Wars lipstick.”

https://google.github.io/tacotron/publications/tacotron2/demos/lipstick_gt.wav https://google.github.io/tacotron/publications/tacotron2/demos/lipstick_gen.wav

A szoftver képes a hangsúlyozásra is:

“The buses aren’t the problem, they actually provide a solution.”

https://google.github.io/tacotron/publications/tacotron2/demos/bus_nostress.wav

“The buses aren’t the PROBLEM, they actually provide a SOLUTION.”

https://google.github.io/tacotron/publications/tacotron2/demos/bus_stress.wav

A rendszer egyelőre csak a Google laborjában működik, az Asszisztensbe csak valamikor a közeljövőben fogják beépíteni, ha a példákban hallott női hang mellé elkészül a férfi verzió is (amihez az egész MI-t újra kell tanítani beszélni).

(A példáknál a George Washington-os mondatoknál az első volt a gép generálta hang, a Star Wars-okoknál a második)