Výzkumníci vytváří realistická videa mluvících hlav pomocí programu s umělou inteligencí
Tým výzkumníků pod vedením docenta Lu Shijiana z Fakulty počítačových věd a inženýrství NTU vyvinul počítačový program, který vytváří realistická videa odrážející výrazy obličeje a pohyby hlavy mluvící osoby, k čemuž potřebuje pouze zvukový záznam a fotografii obličeje.
DIverse yet Realistic Facial Animations neboli DIRFA je program založený na umělé inteligenci, který vezme zvukový záznam a fotografii a vytvoří 3D video, na němž daná osoba předvádí realistické a konzistentní animace obličeje synchronizované s mluveným zvukem. Program vyvinutý na fakultě NTU vylepšuje stávající přístupy, které se potýkají s variacemi póz a kontrolou emocí.
Za tímto účelem tým vycvičil systém DIRFA na více než 1 milionu audiovizuálních klipů od více než 6 000 osob získaných z databáze s otevřeným zdrojovým kódem, aby dokázal předvídat náznaky z řeči a spojit je s výrazy obličeje a pohyby hlavy.
Výzkumníci uvedli, že systém DIRFA by mohl vést k novým aplikacím v různých odvětvích a oblastech, včetně zdravotnictví, protože by mohl umožnit sofistikovanější a realističtější virtuální asistenty a chatboty a zlepšit tak uživatelské zkušenosti. Mohl by také sloužit jako účinný nástroj pro osoby s postižením řeči nebo obličeje, kterým by pomohl vyjádřit jejich myšlenky a emoce prostřednictvím expresivních avatarů nebo digitálních reprezentací, čímž by se zlepšila jejich schopnost komunikace.
Vzhledem k tomu, že zvuk je obvykle silně spojen s pohyby rtů, ale slaběji s výrazem obličeje a polohou hlavy, snažil se tým vytvořit mluvící obličeje, které vykazují přesnou synchronizaci rtů, bohatou mimiku obličeje a přirozené pohyby hlavy odpovídající poskytnutému zvuku.
K vyřešení tohoto problému tým nejprve navrhl svůj model umělé inteligence DIRFA, který zachycuje složité vztahy mezi zvukovými signály a animacemi obličeje, uvádí portál Techxplore.
Kromě přidání dalších možností a vylepšení rozhraní programu DIRFA budou výzkumníci z NTU dolaďovat výrazy obličeje pomocí širšího spektra datových souborů, které zahrnují rozmanitější výrazy obličeje a hlasové zvukové záznamy.
zdroj: Techxplore
Nejnovější články
- Jeden nespokojený senior může zablokovat stavbu celého satelitního městečka o několika domech
- Kalifornie testuje autobusy s rychlostí 225 km/h. Pro svou zběsilou jízdu budou mít vlastní pruh na dálnici
- Některé České restaurace trestají nedojedená jídla poplatkem. Kdo nedojí, připlatí si
- Cyklistický airbag může být rozhodujícím prvkem pro záchranu života. Objevují se hlasy pro jeho povinné zavedení
- Ukrajina tak dlouho žádala USA o zbraně dlouhého doletu, až se je naučila vyrábět sama
- Psychologie říká, že lidé, kteří dosáhnou 70 let a uvědomí si, že je jejich děti již nepotřebují, mohou pociťovat hluboký dopad na své duševní zdraví
- Zpráva evropských úřadů potvrzuje: hrozny, jahody a pomeranče jsou ovoce nejvíce kontaminovány pesticidy
- Kbelík a mop mají své dny sečteny: odborníci na úklid sdílejí stejný názor a v roce 2026 se přiklánějí k jeho vylepšené verzi
- Blíží se úplné zatmění slunce: Dočkáme se ho v létě a bude to nádherná podívaná
- Je konec: Legendární švédská automobilka po 75 letech končí prodejem posledních vyrobených aut