Nahradí umělá inteligence filmové skladatele? Nový nástroj od Google pomůže vytvořit zvukové stopy k videu
Společnost DeepMind společnosti Google nabízí nový nástroj pro vytváření zvukových stop. Technologie funguje tak, že pomocí textových pokynů přizpůsobí zvukovou stopu videozáznamu.
Umělá inteligence má mnoho různých schopností a mezi nejužitečnější patří nástroje, které by mohly způsobit revoluci ve filmovém průmyslu. Začínající producenti budou moci nejen vygenerovat video, ale také ho obohatit o odpovídající zvukovou stopu. O tento druhý úkol se postará umělá inteligence DeepMind, kterou vlastní společnost Google.
DeepMind vytvoří zvukovou stopu pro naše video
Na oficiálním blogu amerického giganta najdeme informace o zcela novém nástroji vytvořeném pro generování zvukové stopy k filmům, vytvořené na základě textových podnětů. Důležité je, že jsou přizpůsobeny obsahu videa. Podle Googlu mohou uživatelé pomocí tohoto nástroje vytvářet scény s „dramatickou hudbou, realistickými zvukovými efekty nebo dialogy, které odpovídají postavám a tónu filmu“. Výše zmíněná stránka také uvádí příklady takových zvukových stop a je třeba říci, že znějí docela dobře.
Mezi příklady patří video zobrazující futuristické město, jehož ulicemi se řítí auto. Soundtrack je založen na replice „smyk auta, dusot motoru auta, andělská elektronická hudba“.
Dalším příkladem je video zobrazující kovboje, který pomalu jede na koni na pozadí západu slunce. Tato skladba byla vytvořena na základě narážky „Jak slunce zapadá nad prérií, hraje pomalá, jemná ústní harmonika“.
To jsou jen dva z několika příkladů, které jsou k dispozici na webových stránkách. Ukazují však, že AI odvádí při tvorbě soundtracků docela dobrou práci. Samozřejmě se zatím jedná pouze o krátké úryvky k jednoduchým filmům. Časem však bude technologie schopna vytvářet složitější skladby.
Podle společnosti Goopgle dokáže DeepMind také generovat „neomezený“ počet zvukových stop pro filmy, což uživatelům umožní vytvářet nekonečné množství zvukových možností. Společnost také tvrdí, že nástroj umělé inteligence vycvičila na videu, zvukových záznamech a anotacích obsahujících „podrobné popisy zvuků a přepisy mluvených dialogů“. Výsledkem je, že video-audio generátor přiřazuje zvukové události k vizuálním scénám.
Umělá inteligence nahradí filmové skladatele? Spíše ne
Nový nástroj má prozatím určitá omezení. Zatím nedokáže dokonale synchronizovat pohyby rtů s dialogy. To je vidět na videu níže, které ukazuje rodinu sedící u stolu. Společnost také upozorňuje, že kvalita generovaného zvuku závisí na kvalitě obrazu. Pokud je tedy zdrojový materiál zrnitý a zkreslený, bude i zvuk méně kvalitní.
Nový nástroj společnosti DeepMind zatím není veřejně dostupný, protože stále prochází testováním. Není tedy známo, kdy si uživatelé budou moci jeho schopnosti vyzkoušet.
Ukazuje to však, jak rychlý je vývoj umělé inteligence, zejména pokud jde o vytváření oblasti a zvuku. Nástroje jako Veo a Sora, které umožňují vytvářet videa a v kombinaci s nástroji pro tvorbu zvukové stopy, by mohly v budoucnu amatérským filmařům výrazně usnadnit život. Místo utrácení velkých peněz za vybavení a najímání herců bude možné vytvořit jakýkoli film, aniž byste museli opustit domov.
Zdroj: blog Google