Baidu je čínská firma, která poskytuje různé služby na internetu (takový lokální Google), a podle některých měření patří do top pěti celosvětově nejnavštěvovanějších webů. Specializuje se také na umělou inteligenci a už vloni představila službu na klonování lidského hlasu, která dokázala z třicetiminutového audia poznat hlas člověka tak dokonale, že jím pak mohla „mluvit“. Teď je tato umělá inteligence ještě dokonalejší, podle magazínu Vice jí stačí necelé čtyři vteřiny. A jmenuje se Deep Voice.
K naklonování hlasu tedy nyní stačí vlastně jedna kratičká věta a výsledek je poměrně realistický. Deep Voice toho umí dost, třeba mění pohlaví hlasu, styl řeči i akcenty. Na něčem podobném pracuje i Google, ten má projekt Tacotron 2 a také systém na převod textu na řeč a generování hlasu WaveNet.
Tyto možnosti znamenají široké pole pro nejrůznější legrácky, ale také příležitost generovat to, co třeba politik nikdy neřekl.
V případě těchto technologií není snadné rozlišit, co bylo vygenerováno umělou inteligencí a co je skutečný lidský hlas. Google Assistant může mluvit například hlasem Johna Lennona, což je třeba v případě předpovědi počasí zajímavá alternativa.
Zdroj fake news
Strojové učení v kombinaci s různě rozsáhlými záznamy hlasu nějaké osobnosti pak umí nechat tuto osobnost velmi autenticky říkat cokoliv. Tyto možnosti znamenají nejen široké pole působnosti pro nejrůznější legrácky, ale také příležitost generovat to, co třeba politik nebo jiná známá osobnost nikdy neřekli.
Je obtížné rozeznat, co je skutečné a co umělé. A s tím přicházejí i snahy o vytváření umělé pravdy.
Tato vyspělá technologie otevírá firmám, jako je Lyrebird, dveře k poskytování nových služeb a produktů. Lyrebird využívá umělou inteligenci k tvorbě hlasů pro chatboty, audioknihy, videohry a různé čtečky čehokoliv. Inovátoři sami uznávají, že s jejich nápady musí přijít i velká zodpovědnost a vyvarování se možných zneužití. Podobně jako jiné nové technologie má i umělý hlas mnoho výhod, ale i nástrah. Je obtížné rozeznat, co je skutečné a co umělé. A s tím přicházejí i snahy o vytváření umělé pravdy.
Mozek na to nestačí
Podle výzkumu amerických vědců, který se zaměřoval na lidský mozek a umělou inteligenci, naše mozky nezaznamenávají významné rozdíly mezi skutečnými a umělými hlasy. Ve skutečnosti je prý pro naše mozky těžší poznat falešné hlasy než falešné obrázky. Nyní, když tyto služby z oblasti umělé inteligence vyžadují pouze malé množství zvuku, aby vytvořily použitelný umělý hlas, který kopíruje i styl mluvení a tón hlasu každého jednotlivce, stoupá šance na zneužití.
Vědci zatím netuší, podle čeho by mohl lidský mozek identifikovat falešný hlas. Zvyšování povědomí o tom, že tato technologie existuje a jak sofistikovanou se pomalu ale jistě stává, musí být základním krokem k ochraně posluchačů před „sednutím na lep“. Naše schopnost kriticky posoudit situaci, vyhodnotit zdroj informací a ověřit jeho důvěryhodnost bude stále důležitější.
Reklama
foto: Shutterstock, zdroj: Forbes