Nová aplikace dokáže napodobit hlas kohokoliv

Výzkumníci společnosti Microsoft oznámili novou aplikaci, která využívá umělou inteligenci k napodobení hlasu člověka po pouhých několika vteřinách tréninku. Model hlasu pak lze použít v aplikacích pro převod textu na řeč, jak píše server Technewsworld.

Aplikace nazvaná VALL-E může být použita k vytvoření specifického hlasu z pouhého třívteřinového záznamu.

V současné době existují programy, které umí vystřihnout a vložit řeč do zvukového proudu a tato řeč je převedena na hlas mluvčího ze zadaného textu. Program však musí být vycvičen, aby napodoboval hlas člověka, což může trvat hodinu i déle.

„Jednou z význačných vlastností tohoto modelu je, že to zvládne během několika sekund. To je velmi působivé,“ řekl serveru TechNewsWorld Ross Rubin, hlavní analytik společnosti Reticle Research, která se zabývá poradenstvím v oblasti spotřebitelských technologií v New Yorku.

Podle výzkumníků VALL-E výrazně překonává stávající nejmodernější systémy převodu textu na řeč (TTS) jak v přirozenosti řeči, tak v podobnosti s mluvčím.

VALL-E navíc dokáže zachovat emoce mluvčího a akustické prostředí. Pokud by tedy byl například vzorek řeči nahrán přes telefon, text s použitím tohoto hlasu by zněl, jako by byl čten přes telefon.

Super působivý

VALL-E je znatelným zlepšením oproti předchozím moderním systémům, jako je YourTTS, který byl uveden na trh počátkem roku 2022, řekl Giacomo Miceli, počítačový vědec a tvůrce webové stránky s umělou inteligencí generovanou nekonečnou diskusí, na níž se objevuje syntetická řeč Wernera Herzoga a Slavoje Žižeka.

„Na VALL-E je zajímavé nejen to, že ke klonování hlasu potřebuje pouze tři sekundy zvuku, ale také to, jak přesně dokáže tento hlas, emoční zabarvení a případný šum v pozadí sladit,“ řekl Miceli serveru TechNewsWorld. Ritu Jyoti, viceprezidentka skupiny pro umělou inteligenci a automatizaci ve společnosti IDC, která se zabývá globálním průzkumem trhu, označila VALL-E za „významný a super působivý“.

„Jde o výrazné zlepšení oproti předchozím modelům, které vyžadují mnohem delší dobu tréninku pro vygenerování nového hlasu,“ řekla Jyotiová serveru TechNewsWorld.

„Tato technologie je stále ještě na začátku a očekávají se další vylepšení, aby zněla více jako člověk,“ dodala.

Stále spousty otazníků

Na rozdíl od OpenAI, tvůrce ChatGPT, Microsoft nezpřístupnil VALL-E veřejnosti, takže nad jeho výkonem zůstávají otazníky.

„Čím delší je generovaný zvukový úryvek, tím větší je pravděpodobnost, že člověk uslyší věci, které znějí trochu jinak,“ poznamenal Miceli. „Slova mohou být při syntéze řeči nejasná, vynechaná nebo zdvojená.“ „Je také možné, že přepínání mezi jednotlivými emočními rejstříky by znělo nepřirozeně,“ dodal.

Schopnost aplikace napodobit emoce mluvčího má také další skeptiky. „Bude zajímavé sledovat, jak propracovaná tato schopnost je,“ řekl Mark N. Vena, prezident a hlavní analytik společnosti SmartTech Research v kalifornském San Jose.

„Skutečnost, že tvrdí, že to dokáže s pouhými několika sekundami zvuku, je těžko uvěřitelná,“ pokračoval, „vzhledem k současným omezením algoritmů umělé inteligence, které vyžadují mnohem delší hlasové vzorky.“

Etické obavy

Odborníci vidí pro VALL-E přínosné aplikace, ale i některé ne tak přínosné. Jyoti zmínil úpravu řeči a nahrazení hlasových herců. Miceli poznamenal, že tato technologie by mohla být použita k vytvoření editačních nástrojů pro podcastery, k přizpůsobení hlasu chytrých reproduktorů a také by mohla být začleněna do systémů pro zasílání zpráv a chatů, videoher a dokonce i navigačních systémů.

„Druhou stranou mince je, že by zlomyslný uživatel mohl naklonovat hlas například politika a nechat ho říkat věci, které znějí absurdně nebo pobuřujícím způsobem, nebo obecně šířit falešné informace či propagandu,“ dodal Miceli.

Vena vidí v technologii obrovský potenciál pro zneužití, pokud je tak dobrá, jak tvrdí Microsoft. „Na úrovni finančních služeb a bezpečnosti není těžké vymyslet případy použití nekalými subjekty, které by mohly způsobit opravdu škodlivé věci,“ řekl.

Zdroj: Technewsworld