Aplikace od společnosti Microsoft umožňuje, aby tváře na fotografiích hovořily a zpívaly s věrohodným výrazem obličeje

Tým výzkumníků v oblasti umělé inteligence ve společnosti Microsoft Research Asia vyvinul aplikaci umělé inteligence, která převádí statický obrázek osoby a zvukovou stopu na animaci, která přesně zobrazuje osobu, která mluví nebo zpívá zvukovou stopu s odpovídající mimikou.

Výzkumný tým se snažil animovat nehybné obrázky, které mluví a zpívají s použitím libovolné poskytnuté doprovodné zvukové stopy, a zároveň zobrazovat věrohodnou mimiku obličeje. To se jim zjevně podařilo díky vývoji systému VASA-1, který pomocí umělé inteligence mění statické obrázky, ať už zachycené kamerou, nakreslené nebo namalované, na to, co popisují jako „nádherně synchronizované“ animace.

V každé z animací se spolu se slovy mění i mimika obličeje tak, aby se zdůraznilo, co se říká. Výzkumníci také poznamenávají, že navzdory realistickému charakteru videí lze při bližším zkoumání odhalit nedostatky a důkazy, že byla uměle vytvořena, uvádí portál Techxplore.

Výzkumný tým dosáhl svých výsledků trénováním aplikace na tisících obrázků s nejrůznějšími výrazy obličeje. Uvádějí také, že systém v současné době vytváří snímky o velikosti 512 × 512 pixelů při rychlosti 45 snímků za sekundu. Vytvoření videí také trvalo v průměru dvě minuty při použití grafického procesoru Nvidia RTX 4090 pro stolní počítače.

Výzkumný tým naznačuje, že systém VASA-1 by mohl být použit k vytváření extrémně realistických avatarů pro hry nebo simulace. Zároveň si uvědomují možnost zneužití, a proto systém nezpřístupňují k obecnému použití.

zdroj: Techxplore