Výzkumníci vytváří realistická videa mluvících hlav pomocí programu s umělou inteligencí
Tým výzkumníků pod vedením docenta Lu Shijiana z Fakulty počítačových věd a inženýrství NTU vyvinul počítačový program, který vytváří realistická videa odrážející výrazy obličeje a pohyby hlavy mluvící osoby, k čemuž potřebuje pouze zvukový záznam a fotografii obličeje.
DIverse yet Realistic Facial Animations neboli DIRFA je program založený na umělé inteligenci, který vezme zvukový záznam a fotografii a vytvoří 3D video, na němž daná osoba předvádí realistické a konzistentní animace obličeje synchronizované s mluveným zvukem. Program vyvinutý na fakultě NTU vylepšuje stávající přístupy, které se potýkají s variacemi póz a kontrolou emocí.
Za tímto účelem tým vycvičil systém DIRFA na více než 1 milionu audiovizuálních klipů od více než 6 000 osob získaných z databáze s otevřeným zdrojovým kódem, aby dokázal předvídat náznaky z řeči a spojit je s výrazy obličeje a pohyby hlavy.
Výzkumníci uvedli, že systém DIRFA by mohl vést k novým aplikacím v různých odvětvích a oblastech, včetně zdravotnictví, protože by mohl umožnit sofistikovanější a realističtější virtuální asistenty a chatboty a zlepšit tak uživatelské zkušenosti. Mohl by také sloužit jako účinný nástroj pro osoby s postižením řeči nebo obličeje, kterým by pomohl vyjádřit jejich myšlenky a emoce prostřednictvím expresivních avatarů nebo digitálních reprezentací, čímž by se zlepšila jejich schopnost komunikace.
Vzhledem k tomu, že zvuk je obvykle silně spojen s pohyby rtů, ale slaběji s výrazem obličeje a polohou hlavy, snažil se tým vytvořit mluvící obličeje, které vykazují přesnou synchronizaci rtů, bohatou mimiku obličeje a přirozené pohyby hlavy odpovídající poskytnutému zvuku.
K vyřešení tohoto problému tým nejprve navrhl svůj model umělé inteligence DIRFA, který zachycuje složité vztahy mezi zvukovými signály a animacemi obličeje, uvádí portál Techxplore.
Kromě přidání dalších možností a vylepšení rozhraní programu DIRFA budou výzkumníci z NTU dolaďovat výrazy obličeje pomocí širšího spektra datových souborů, které zahrnují rozmanitější výrazy obličeje a hlasové zvukové záznamy.
zdroj: Techxplore