Toto je budoucnost. Umělá inteligence dokáže vizualizovat, co si myslíte

Výzkumníci Yu Takagi a Shinji Nishimoto z univerzitě v Osace nedávno vydali studii, ve kterém popisují, jak lze pomocí latentních difuzních vzorů rekonstruovat obrazy s vysokým rozlišením (mluvíme o 512 × 512 pixelech), a to čtením aktivity lidského mozku získané z funkční magnetické rezonance (fMRI).

Předchozí studie zahrnovaly trénování a případné dolaďování generativních modelů, jako jsou GAN, se stejným souborem dat používaným při experimentech s fMRI.

To je náročné, protože práce s generativními modely je nejen obtížná, ale tréninkový materiál je velmi omezený. Zdá se, že výzkumníkům z Osaky se podařilo tato omezení obejít použitím stabilní difúze, a výsledky vypadají opravdu působivě. Představme si praktickou aplikaci. Jednoho dne by nám nemluvící nebo ochrnutí lidé, kteří nedokážou něco vyfotit, mohli pomocí umělé inteligence přesně ukázat, co si myslí.

Jedná se o jednu z prvních studií, která tímto způsobem využívá difuzní modely. Stabilní difúze se v poslední době dostala pod palbu kritiky – přinejmenším v oblasti umění. Důvodem je, že některé difuzní modely (Stability AI, Midjourney a DeviantArt) používají obrázky chráněné autorským právem, které se nacházejí v obrovských katalozích dat používaných k trénování nástrojů pro generování uměleckých děl umělou inteligencí. Pokud jsou však data použita správně, může být pouhé trénování těchto modelů přínosné. Lidé by mohli přesně reprezentovat svůj vnitřní svět a komunikovat novými způsoby.

Zdroj: redakce, pcgamer.com