在蛋白(bái)質設計(jì)中,如何生成具有預定義功能(néng)和(hé)特性的蛋白(bái)質結構一直是一個具有挑戰性的問題。近日,由多倫多大(dà)學的研究人員開(kāi)發了(le)一種人工(gōng)智能(néng)AI系統,可以使用(yòng)生成擴散來(lái)創建自(zì)然界中沒有的蛋白(bái)質——這(zhè)與目前流行的AI圖像創建平台(如Midjourney、OpenAI等)背後的技術相同。這(zhè)篇名爲Score-based generative modeling for de novo protein design的研究成果發表于《自(zì)然》子刊《Nature Computational Science 》,也(yě)是首次發表在同行評議(yì)的雜(zá)志上(shàng)。研究指出,該AI系統将有助于促進生殖生物學領域的發展,通過使全新的治療蛋白(bái)的設計(jì)和(hé)測試更加有效和(hé)靈活,有望加速藥物開(kāi)發。
蛋白(bái)質由氨基酸鏈組成,氨基酸鏈可以折疊成三維形狀,決定蛋白(bái)質的功能(néng)。這(zhè)些(xiē)形狀經過數十億年的進化,變化多端,複雜(zá)而且數量有限。現(xiàn)在,随着對(duì)現(xiàn)有蛋白(bái)質折疊方式的進一步了(le)解,研究人員已經開(kāi)始利用(yòng)人工(gōng)智能(néng)原理(lǐ)設計(jì)自(zì)然界中不會(huì)産生的折疊模式。
由于很(hěn)難預測哪些(xiē)折疊将是真實的并在蛋白(bái)質結構中起作(zuò)用(yòng),研究人員決定通過将基于生物物理(lǐ)學的蛋白(bái)質結構表示與圖像生成空(kōng)間的擴散方法相結合來(lái)解決這(zhè)個問題。研究人員稱這(zhè)個新系統爲 ProteinSGM,它來(lái)自(zì)于現(xiàn)有蛋白(bái)質的大(dà)量圖像表示,這(zhè)些(xiē)圖像準确地編碼了(le)蛋白(bái)質的結構。
研究人員将這(zhè)些(xiē)圖像輸入到(dào)生成擴散模型中,該模型逐漸添加噪聲,直到(dào)每個圖像都變成噪聲。該模型跟蹤圖像如何變得更嘈雜(zá),然後反向運行該過程,學習如何将随機像素轉換爲對(duì)應于全新蛋白(bái)質的清晰圖像。
優化圖像生成過程的早期階段是創建ProteinSGM的最大(dà)挑戰之一。使用(yòng)AI系統的關鍵之一在于蛋白(bái)質結構的适當的圖像表示,此後擴散模型就可以學習如何準确地生成新的蛋白(bái)質。
擴散模型,也(yě)被稱爲基于分數的生成模型(SGMs),在圖像合成方面顯示出驚人的表現(xiàn)。ProteinSGM是基于圖像的蛋白(bái)質結構表示開(kāi)發的生成模型,可以産生真實的從(cóng)頭生成的蛋白(bái)質。
爲了(le)測試由ProteinSGM生成的新蛋白(bái)質,研究人員使用(yòng) AlphaFold 2的改進版OmegaFold進行驗證。通過 OmegaFold的匹配和(hé)實驗室的實驗測試,研究小(xiǎo)組證實,幾乎所有的新序列都能(néng)折疊成所需的蛋白(bái)質結構,也(yě)就是說,由AI生成的在自(zì)然界任何地方都不存在的全新蛋白(bái)質折疊得到(dào)了(le)驗證。
研究人員認爲,基于這(zhè)項研究,下(xià)一步的研究方向則是通過ProteinSGM進行進一步開(kāi)發具有最大(dà)治療潛力的抗體和(hé)其他(tā)的蛋白(bái)質。這(zhè)将是一個非常令人興奮的研究和(hé)創新領域。