IT之家 3 月 1 日消息,微軟研究院于 2 月 20 日發(fā)布博文,宣布推出 AI 模型 BioEmu-1,能夠預(yù)測蛋白質(zhì)隨時間推移的運動和形狀變化,在生物醫(yī)學(xué)、藥物發(fā)現(xiàn)和結(jié)構(gòu)生物學(xué)領(lǐng)域帶來新可能。
借助 AI 探究蛋白質(zhì)
從形成肌肉纖維到保護(hù)我們免受疾病侵害,在幾乎所有生物過程中,蛋白質(zhì)都發(fā)揮著至關(guān)重要的作用。
科學(xué)家近年來利用深度學(xué)習(xí),在研究蛋白質(zhì)結(jié)構(gòu)方面已取得重大進(jìn)展,能夠根據(jù)氨基酸序列準(zhǔn)確預(yù)測蛋白質(zhì)結(jié)構(gòu)。然而,僅從氨基酸序列預(yù)測單一蛋白質(zhì)結(jié)構(gòu)就像觀看電影的單幀畫面,只提供了一個高度靈活分子的截圖。
微軟 BioEmu-1
不同于 DeepMind 的 AlphaFold 專注于確定靜態(tài)蛋白質(zhì)結(jié)構(gòu),BioEmu-1 模擬蛋白質(zhì)在不同構(gòu)象之間的動態(tài)轉(zhuǎn)換,為理解蛋白質(zhì)運動、設(shè)計有效治療方案提供了新的工具。
AlphaFold 3 在結(jié)構(gòu)生物學(xué)領(lǐng)域取得了重大進(jìn)展,改進(jìn)了蛋白質(zhì)與 DNA、RNA 和小分子的相互作用模型,但它無法預(yù)測蛋白質(zhì)隨時間的變化。
BioEmu-1 彌補了這一不足,它可以生成多個可能的構(gòu)象,而不僅僅是單一的最佳擬合結(jié)構(gòu),這在藥物開發(fā)中尤為重要。
BioEmu-1 利用生成式深度學(xué)習(xí),從大型數(shù)據(jù)集中學(xué)習(xí)模式,然后生成與這些模式一致的新樣本,通過結(jié)合靜態(tài)蛋白質(zhì)結(jié)構(gòu)、分子動力學(xué)模擬數(shù)據(jù)和實驗穩(wěn)定性數(shù)據(jù)進(jìn)行訓(xùn)練。
BioEmu-1 的核心機(jī)制是一個擴(kuò)散模型,它迭代地生成蛋白質(zhì)結(jié)構(gòu)并根據(jù)學(xué)習(xí)到的約束條件提高其準(zhǔn)確性。BioEmu-1 的關(guān)鍵輸出是平衡系綜的預(yù)測和自由能預(yù)測。
BioEmu-1 使用三種類型的數(shù)據(jù)集進(jìn)行訓(xùn)練:(1)AlphaFold 數(shù)據(jù)庫 (AFDB) 結(jié)構(gòu);(2)廣泛的 MD 模擬數(shù)據(jù)集;(3)實驗性蛋白質(zhì)折疊穩(wěn)定性數(shù)據(jù)集。
通過這些數(shù)據(jù)集的訓(xùn)練,BioEmu-1 可以識別蛋白質(zhì)序列映射到多個不同結(jié)構(gòu),預(yù)測合理的結(jié)構(gòu)變化,并學(xué)習(xí)以正確的概率對折疊和未折疊結(jié)構(gòu)進(jìn)行采樣。
BioEmu-1 每小時可生成數(shù)千個蛋白質(zhì)結(jié)構(gòu)樣本,相比需要數(shù)周時間的傳統(tǒng)分子動力學(xué)模擬,顯著加快了研究速度并降低了計算成本,其預(yù)測自由能的誤差幅度在 1 kcal / mol 以內(nèi),與傳統(tǒng)分子動力學(xué)模擬相當(dāng),但計算成本卻顯著降低。
IT之家附上參考地址
Exploring the structural changes driving protein function with BioEmu-1
Microsoft’s New BioEmu-1 AI Model Can Predict How Proteins Move and Change
Scalable emulation of protein equilibrium ensembles with generative deep learning
廣告聲明:文內(nèi)含有的對外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。