Společnost Meta pracuje na realistickém zvuku ve virtuální krajině

Společnost Meta se skupinou výzkumníků z Texaské univerzity v Austinu pracují na zavedení realistického zvuku do metaverze, jak uvádí server Techradar.

Ředitelka výzkumu ve společnosti Meta AI Kristen Garumanová vysvětluje, že rozšířená a virtuální realita není jen o vizuální stránce. Zvuk hraje velmi důležitou roli v tom, aby svět působil realisticky. Garuman říká, že zvuk je utvářen prostředím, ve kterém se nachází. Existují různé faktory, které ovlivňují zvuk, jako je například geometrie místnosti.

Společnost Meta chce dosáhnout, aby využití AR brýlí rozšířené reality sloužilo k nahrávání zvuku i obrazu z jednoho místa. Použitím sady tří modelů umělé inteligence se záznam transformuje tak, abyste měli doma pocit, že se realita odehrává přímo před vámi.

Z pohledu se zdá, že se Meta specifikuje na brýle rozšířené reality. Plán společnosti Meta pro náhlavní soupravy VR zahrnuje replikaci pohledů a zvuků prostředí, například koncertu. Vám se tak bude zdát, jako byste tam byli osobně.

Meta byla tázána, jak lidé mohou poslouchat vylepšený zvuk. Budou lidé poslouchat se sluchátky, nebo bude zvuk vycházet z náhlavní soupravy? Odpovědi nebyly ještě zveřejněny.

Dále padla otázka, jak mohli vývojáři přijít k těmto modelům umělé inteligence. Modely jsou vytvořeny jako open source, tím pádem na technologii mohou pracovat i další vývojáři. Další podrobnější informace nám Meta zatím neprozradila.

Umělá inteligence a její proměna

Zajímá nás, jak dokáže Meta nahrávat zvuk na brýle pro rozšířenou realitu a nechat ho odrážet v novém nastavení.

Prvním řešení je AViTAR. Je to umělá inteligence, která přenáší zvuk, aby odpovídal novému prostředí. Meta uvedla jako příklad matku, která nahrává taneční recitál svého dítěte v sále při použití brýlí rozšířené reality.

Podle jednoho výzkumníka si dotyčná matka může odnést nahrávku a přehrát si ji v prostředí domova, kde umělá inteligence zvuk upraví. Bude skenovat prostředí, zohlední případné překážky v místnosti a bude to vypadat, jako by se recitál odehrával přímo před ní se stejnými brýlemi.

Aby byl zvuk čistý a kvalitní, tak k tomu slouží funkce Visually-Informed Dereverberation. Tato funkce z klipu odstraní rušivý dozvuk. Příkladem je záznam houslového koncertu na vlakovém nádraží, který si odnesete domů. Umělá inteligence klip vyčistí a upraví tak, abyste slyšeli jen hudbu koncertu bez jiných rušivých zvuků.

Poslední uvedený model umělé inteligence je VisualVoice, ten využívá kombinaci vizuálních a zvukových signálů, aby oddělil hlasy od ostatních zvuků. Například nahráváte video dvou lidí, kteří se hádají. Umělá inteligence dokáže zaměřit a izolovat jeden hlas, abyste mu rozuměli a zároveň umlčí zvuky ostatní. Meta uvádí, že vizuální signály jsou důležitou součástí, jelikož AI potřebuje vidět, kdo mluví.

Cílem Mety je přidat video a další podněty, aby dále vylepšovala zvuk řízený umělou inteligencí. Technologie je ale zatím v rané fázi vývoje a není známo, kdy Meta uvede Al do náhlavní soupravy Quest.

Zdroj: redakce, Techradar, vision.cs.utexas.edu, ai.facebook.com