Umělá inteligence společnosti Google vám vytvoří HD video z textového zadání
Společnost Google oznámila, že pracuje na vývoji Imagen Video, režimu umělé inteligence pro převod textu na video, který dokáže na základě textového zadání vytvářet videa v rozlišení 1280 × 768 pixelů při 24 snímcích za sekundu. Toto oznámení přišlo necelý týden poté, co společnost Meta představila svůj nástroj pro převod textu na video s umělou inteligencí Make-A-Video, píše web Arstechnica.
Podle dokumentu společnosti Google má Imagen Video některé pozoruhodné schopnosti; dokáže například vytvářet videa podle děl slavných malířů (například obrazů Vincenta van Gogha), vytvářet 3D rotující objekty se zachováním textury objektu a vykreslovat psaný text v animacích různých stylů. Klíčem ke schopnostem Imagen Video je „kaskáda“ sedmi difuzních modelů, které transformují počáteční textový popis (např. medvěd myje nádobí) do videa s nízkým rozlišením (16 snímků, 24 × 48 pixelů, 3 snímky za sekundu).

S každým dalším krokem pak zvyšují rozlišení na vyšší a vyšší snímkovou frekvenci. Výsledné video má délku 5,3 sekundy. Příklady uvedené na webových stránkách Imagen Video se pohybují od všedních, jako Roztávající zmrzlina stékající po kornoutu až po Přelet nad intenzivní bitvou pirátských lodí na rozbouřeném oceánu.

Přestože výsledky obsahují zjevné artefakty, vykazují větší plynulost a detailnost než předchozí modely převodu textu na obraz. V těchto dnech byl také oficiálně představen další model převodu textu na video. Jmenuje se Phenaki a umí vytvářet delší videa z podrobných zadání.
Zdroj: arstechnica.com