person holding space gray iPhone 5s taking picture

20. 4. 2024 9:51

Aplikace od společnosti Microsoft umožňuje, aby tváře na fotografiích hovořily a zpívaly s věrohodným výrazem obličeje

Tým výzkumníků v oblasti umělé inteligence ve společnosti Microsoft Research Asia vyvinul aplikaci umělé inteligence, která převádí statický obrázek osoby a zvukovou stopu na animaci, která přesně zobrazuje osobu, která mluví nebo zpívá zvukovou stopu s odpovídající mimikou.

Výzkumný tým se snažil animovat nehybné obrázky, které mluví a zpívají s použitím libovolné poskytnuté doprovodné zvukové stopy, a zároveň zobrazovat věrohodnou mimiku obličeje. To se jim zjevně podařilo díky vývoji systému VASA-1, který pomocí umělé inteligence mění statické obrázky, ať už zachycené kamerou, nakreslené nebo namalované, na to, co popisují jako „nádherně synchronizované“ animace.

V každé z animací se spolu se slovy mění i mimika obličeje tak, aby se zdůraznilo, co se říká. Výzkumníci také poznamenávají, že navzdory realistickému charakteru videí lze při bližším zkoumání odhalit nedostatky a důkazy, že byla uměle vytvořena, uvádí portál Techxplore.

Čtěte také

Některé České restaurace trestají nedojedená jídla poplatkem. Kdo nedojí, připlatí si

21. 5. 2026

Výzkumný tým dosáhl svých výsledků trénováním aplikace na tisících obrázků s nejrůznějšími výrazy obličeje. Uvádějí také, že systém v současné době vytváří snímky o velikosti 512 × 512 pixelů při rychlosti 45 snímků za sekundu. Vytvoření videí také trvalo v průměru dvě minuty při použití grafického procesoru Nvidia RTX 4090 pro stolní počítače.

Výzkumný tým naznačuje, že systém VASA-1 by mohl být použit k vytváření extrémně realistických avatarů pro hry nebo simulace. Zároveň si uvědomují možnost zneužití, a proto systém nezpřístupňují k obecnému použití.

zdroj: Techxplore

Čtěte také