Nová aplikace dokáže napodobit hlas kohokoliv
Výzkumníci společnosti Microsoft oznámili novou aplikaci, která využívá umělou inteligenci k napodobení hlasu člověka po pouhých několika vteřinách tréninku. Model hlasu pak lze použít v aplikacích pro převod textu na řeč, jak píše server Technewsworld.
Aplikace nazvaná VALL-E může být použita k vytvoření specifického hlasu z pouhého třívteřinového záznamu.
V současné době existují programy, které umí vystřihnout a vložit řeč do zvukového proudu a tato řeč je převedena na hlas mluvčího ze zadaného textu. Program však musí být vycvičen, aby napodoboval hlas člověka, což může trvat hodinu i déle.
„Jednou z význačných vlastností tohoto modelu je, že to zvládne během několika sekund. To je velmi působivé,“ řekl serveru TechNewsWorld Ross Rubin, hlavní analytik společnosti Reticle Research, která se zabývá poradenstvím v oblasti spotřebitelských technologií v New Yorku.

Podle výzkumníků VALL-E výrazně překonává stávající nejmodernější systémy převodu textu na řeč (TTS) jak v přirozenosti řeči, tak v podobnosti s mluvčím.
VALL-E navíc dokáže zachovat emoce mluvčího a akustické prostředí. Pokud by tedy byl například vzorek řeči nahrán přes telefon, text s použitím tohoto hlasu by zněl, jako by byl čten přes telefon.
Super působivý
VALL-E je znatelným zlepšením oproti předchozím moderním systémům, jako je YourTTS, který byl uveden na trh počátkem roku 2022, řekl Giacomo Miceli, počítačový vědec a tvůrce webové stránky s umělou inteligencí generovanou nekonečnou diskusí, na níž se objevuje syntetická řeč Wernera Herzoga a Slavoje Žižeka.
„Na VALL-E je zajímavé nejen to, že ke klonování hlasu potřebuje pouze tři sekundy zvuku, ale také to, jak přesně dokáže tento hlas, emoční zabarvení a případný šum v pozadí sladit,“ řekl Miceli serveru TechNewsWorld. Ritu Jyoti, viceprezidentka skupiny pro umělou inteligenci a automatizaci ve společnosti IDC, která se zabývá globálním průzkumem trhu, označila VALL-E za „významný a super působivý“.
„Jde o výrazné zlepšení oproti předchozím modelům, které vyžadují mnohem delší dobu tréninku pro vygenerování nového hlasu,“ řekla Jyotiová serveru TechNewsWorld.
„Tato technologie je stále ještě na začátku a očekávají se další vylepšení, aby zněla více jako člověk,“ dodala.
Stále spousty otazníků
Na rozdíl od OpenAI, tvůrce ChatGPT, Microsoft nezpřístupnil VALL-E veřejnosti, takže nad jeho výkonem zůstávají otazníky.
„Čím delší je generovaný zvukový úryvek, tím větší je pravděpodobnost, že člověk uslyší věci, které znějí trochu jinak,“ poznamenal Miceli. „Slova mohou být při syntéze řeči nejasná, vynechaná nebo zdvojená.“ „Je také možné, že přepínání mezi jednotlivými emočními rejstříky by znělo nepřirozeně,“ dodal.
Schopnost aplikace napodobit emoce mluvčího má také další skeptiky. „Bude zajímavé sledovat, jak propracovaná tato schopnost je,“ řekl Mark N. Vena, prezident a hlavní analytik společnosti SmartTech Research v kalifornském San Jose.
„Skutečnost, že tvrdí, že to dokáže s pouhými několika sekundami zvuku, je těžko uvěřitelná,“ pokračoval, „vzhledem k současným omezením algoritmů umělé inteligence, které vyžadují mnohem delší hlasové vzorky.“

Etické obavy
Odborníci vidí pro VALL-E přínosné aplikace, ale i některé ne tak přínosné. Jyoti zmínil úpravu řeči a nahrazení hlasových herců. Miceli poznamenal, že tato technologie by mohla být použita k vytvoření editačních nástrojů pro podcastery, k přizpůsobení hlasu chytrých reproduktorů a také by mohla být začleněna do systémů pro zasílání zpráv a chatů, videoher a dokonce i navigačních systémů.
„Druhou stranou mince je, že by zlomyslný uživatel mohl naklonovat hlas například politika a nechat ho říkat věci, které znějí absurdně nebo pobuřujícím způsobem, nebo obecně šířit falešné informace či propagandu,“ dodal Miceli.
Vena vidí v technologii obrovský potenciál pro zneužití, pokud je tak dobrá, jak tvrdí Microsoft. „Na úrovni finančních služeb a bezpečnosti není těžké vymyslet případy použití nekalými subjekty, které by mohly způsobit opravdu škodlivé věci,“ řekl.
Zdroj: Technewsworld
Nejnovější články
- Jeden nespokojený senior může zablokovat stavbu celého satelitního městečka o několika domech
- Kalifornie testuje autobusy s rychlostí 225 km/h. Pro svou zběsilou jízdu budou mít vlastní pruh na dálnici
- Některé České restaurace trestají nedojedená jídla poplatkem. Kdo nedojí, připlatí si
- Cyklistický airbag může být rozhodujícím prvkem pro záchranu života. Objevují se hlasy pro jeho povinné zavedení
- Ukrajina tak dlouho žádala USA o zbraně dlouhého doletu, až se je naučila vyrábět sama
- Psychologie říká, že lidé, kteří dosáhnou 70 let a uvědomí si, že je jejich děti již nepotřebují, mohou pociťovat hluboký dopad na své duševní zdraví
- Zpráva evropských úřadů potvrzuje: hrozny, jahody a pomeranče jsou ovoce nejvíce kontaminovány pesticidy
- Kbelík a mop mají své dny sečteny: odborníci na úklid sdílejí stejný názor a v roce 2026 se přiklánějí k jeho vylepšené verzi
- Blíží se úplné zatmění slunce: Dočkáme se ho v létě a bude to nádherná podívaná
- Je konec: Legendární švédská automobilka po 75 letech končí prodejem posledních vyrobených aut