Nový nástroj umělé inteligence od OpenAI naklonuje řeč. Stačí mu pouze 15vteřinový vzorek

Tento zajímavý nástroj je schopen vrátit hlas lidem, kteří o něj přišli. Funkce je zatím ve fázi testování. I tak ale výrobce uznává, že hrozí zneužití této funkce.

OpenAI stojí za rozšířeným generativním nástrojem AI – ChatGPT. Nyní společnost představila novinku, kterou je klonování hlasu. Tuto futuristickou vymoženost nazývají ,,Voice Engine“.

Voice Engine dokáže replikovat hlas, intonaci a další vzorce řeči na základě celkem krátkého ,,vzorku“ původního zvuku. Stačí pouze 15 vteřin!

Pro srovnání, platforma AI ElevenLabs s podobnou funkcí vyžaduje ,hlasové vzorky, které trvají alespoň minutu. Pro dosažení nejlepších výsledků je však potřeba 10 minut nepřetržité řeči.

OpenAI spolupracovala se společností Lifespan a tvůrci nástroje zvaného Livox (aplikace pro alternativní komunikaci) vytvořené pro lidi s postižením. Odborníci pracovali s nahrávkou ženského hlasu. Tým Open AI dokázal obratem poskytnout okamžitou schopnost převodu textu na řeč, která by pacientce umožnila efektivně mluvit ,,svým vlastním hlasem“. Voice engine by měl být stejně tak dobrý i v jiných jazycích než je angličtina.

Společnost říká, že Voice Engine byl poprvé vyvinut na konci roku 2022 a již se používá k napájení přednastavených hlasů dostupných v rozhraní API pro převod textu na řeč OpenAI a také funkci Hlas a čtení nahlas ChatGPT. S nejnovějšími pokroky společnost říká, že je před širším vydáním opatrná.

Hlasy celebrit, vládních úředníků i běžných občanů jsou zneužívány třeba na politické kampaně, nebo falešné reklamy. Proto se firma předběžně rozhodla, že tuto technologii nevypustí do světa ve velkém.

Abyste měli přesnou představu, jak moc skutečně takový zvuk zní, můžete si pustit ukázky přímo na webu OpenAI.

Zdroj: decrypto