a female mannequin is looking at a computer screen

17. 11. 2023 12:24

Výzkumníci vytváří realistická videa mluvících hlav pomocí programu s umělou inteligencí

AI, Animace, program, umělá inteligence, výzkum

Tým výzkumníků pod vedením docenta Lu Shijiana z Fakulty počítačových věd a inženýrství NTU vyvinul počítačový program, který vytváří realistická videa odrážející výrazy obličeje a pohyby hlavy mluvící osoby, k čemuž potřebuje pouze zvukový záznam a fotografii obličeje.

DIverse yet Realistic Facial Animations neboli DIRFA je program založený na umělé inteligenci, který vezme zvukový záznam a fotografii a vytvoří 3D video, na němž daná osoba předvádí realistické a konzistentní animace obličeje synchronizované s mluveným zvukem. Program vyvinutý na fakultě NTU vylepšuje stávající přístupy, které se potýkají s variacemi póz a kontrolou emocí.

Za tímto účelem tým vycvičil systém DIRFA na více než 1 milionu audiovizuálních klipů od více než 6 000 osob získaných z databáze s otevřeným zdrojovým kódem, aby dokázal předvídat náznaky z řeči a spojit je s výrazy obličeje a pohyby hlavy.

Čtěte také

Některé České restaurace trestají nedojedená jídla poplatkem. Kdo nedojí, připlatí si

21. 5. 2026

Zobrazit příspěvek na Instagramu

Příspěvek sdílený NTUsg (@ntu_sg)

Výzkumníci uvedli, že systém DIRFA by mohl vést k novým aplikacím v různých odvětvích a oblastech, včetně zdravotnictví, protože by mohl umožnit sofistikovanější a realističtější virtuální asistenty a chatboty a zlepšit tak uživatelské zkušenosti. Mohl by také sloužit jako účinný nástroj pro osoby s postižením řeči nebo obličeje, kterým by pomohl vyjádřit jejich myšlenky a emoce prostřednictvím expresivních avatarů nebo digitálních reprezentací, čímž by se zlepšila jejich schopnost komunikace.

Vzhledem k tomu, že zvuk je obvykle silně spojen s pohyby rtů, ale slaběji s výrazem obličeje a polohou hlavy, snažil se tým vytvořit mluvící obličeje, které vykazují přesnou synchronizaci rtů, bohatou mimiku obličeje a přirozené pohyby hlavy odpovídající poskytnutému zvuku.

Čtěte také

Kalifornie testuje autobusy s rychlostí 225 km/h. Pro svou zběsilou jízdu budou mít vlastní pruh na dálnici

21. 5. 2026

K vyřešení tohoto problému tým nejprve navrhl svůj model umělé inteligence DIRFA, který zachycuje složité vztahy mezi zvukovými signály a animacemi obličeje, uvádí portál Techxplore.

Kromě přidání dalších možností a vylepšení rozhraní programu DIRFA budou výzkumníci z NTU dolaďovat výrazy obličeje pomocí širšího spektra datových souborů, které zahrnují rozmanitější výrazy obličeje a hlasové zvukové záznamy.

zdroj: Techxplore

Čtěte také