Bývalí vědci z Meta vyvinuli model umělé inteligence, který vytváří proteiny „nenalezené v přírodě“
Stejně jako ChatGPT generuje text předpovídáním slova, které bude s největší pravděpodobností následovat v sekvenci, může nový model umělé inteligence (AI) napsat nové proteiny, které se přirozeně nevyskytují od nuly.
Vědci použili nový model, ESM3, k vytvoření nového fluorescenčního proteinu, který sdílí pouze 58 % své sekvence s přirozeně se vyskytujícími fluorescenčními proteiny. Zástupci společnosti EvolutionaryScale vydali malou verzi modelu pod nekomerční licencí a velkou verzi modelu zpřístupní komerčním výzkumníkům.
ESM3 je velký jazykový model (LLM) podobný OpenAI GPT-4, který pohání chatbota ChatGPT, a vědci trénovali jejich největší verzi na 2,78 miliardách proteinů. Pro každý protein extrahovali informace o sekvenci (pořadí stavebních bloků aminokyselin, které tvoří protein), struktuře (trojrozměrný složený tvar proteinu) a funkci (co protein dělá). Náhodně maskovali části informací o těchto proteinech a požadovali, aby ESM3 předpověděl chybějící části.
ESM3 však přesahuje pouhé předpovídání existujících proteinů. Pomocí informací získaných ze 771 miliard unikátních informací o struktuře, funkci a sekvenci může model generovat nové proteiny s konkrétními funkcemi. To bylo popsáno jako „ChatGPT moment pro biologii, uvádí portál Livescience.
Model vytvořil 96 proteinů se sekvencemi a strukturami, které pravděpodobně produkují fluorescenci. Vědci pak vybrali jednu s nejmenším počtem sekvencí společných s přirozeně fluorescenčními proteiny. Přestože byl tento protein 50krát méně jasný než přirozené zelené fluorescenční proteiny, ESM3 vytvořil další iteraci, která vedla k novým sekvencím, které zvýšily jas – a výsledkem byl zelený fluorescenční protein, který se nenachází v přírodě, nazvaný „esmGPF“. Tým EvolutionaryScale odhadl, že k dosažení těchto iterací, provedených během několika okamžiků umělou inteligencí, by trvalo 500 milionů let evoluce.
zdroj: Livescience