最近,DeepMind 開(kāi)源 AlphaFold2,讓學(xué)術(shù)圈再一次沸騰了。
這意味著,對(duì)于普通研究人員而言曾需要花幾年時(shí)間才能破解的蛋白質(zhì)結(jié)構(gòu),現(xiàn)在用 AlphaFold2 幾小時(shí)就能算出來(lái)了!
那么,如此厲害的 AlphaFold2 究竟如何做到的呢?
DeepMind 團(tuán)隊(duì)已經(jīng)將它的詳細(xì)信息在《Nature》上公開(kāi)發(fā)表。
現(xiàn)在,就讓我們來(lái)看看 AlphaFold2 的魔法是怎么實(shí)現(xiàn)的吧。
卷積消失了,Attention 來(lái)了
論文中,研究人員強(qiáng)調(diào) AlphaFold2 是一個(gè)完全不同于 AlphaFold 的新模型。
的確,它們使用的模型框架都不一樣,這也是 AlphaFold2 準(zhǔn)確性能夠突飛猛進(jìn)的主要原因。
此前 AlphaFold 中所有的卷積神經(jīng)網(wǎng)絡(luò),現(xiàn)在都被替換成了 Attention。
為什么要這樣做呢?
我們首先要了解一下 AlphaFold 的工作原理:
它主要是通過(guò)預(yù)測(cè)蛋白質(zhì)中每對(duì)氨基酸之間的距離分布,以及連接它們的化學(xué)鍵之間的角度,然后將所有氨基酸對(duì)的測(cè)量結(jié)果匯總成 2D 的距離直方圖。
然后讓卷積神經(jīng)網(wǎng)絡(luò)對(duì)這些圖片進(jìn)行學(xué)習(xí),從而構(gòu)建出蛋白質(zhì)的 3D 結(jié)構(gòu)。
▲ AlphaFold 主要架構(gòu)
但這是一種從局部開(kāi)始進(jìn)行預(yù)測(cè)的方式,很有可能會(huì)忽略蛋白質(zhì)結(jié)構(gòu)信息的長(zhǎng)距離依賴性。
而 Attention 的特點(diǎn)剛好可以彌補(bǔ)這一缺陷,它是一種模仿人類注意力的網(wǎng)絡(luò)架構(gòu),可以同時(shí)聚焦多個(gè)細(xì)節(jié)部分。
這樣可以使得框架預(yù)測(cè)的結(jié)果更加全面、準(zhǔn)確。
在 CASP13 中,AlphaFold 預(yù)測(cè)的準(zhǔn)確性還只有不到 60 分。
但是在 CASP14 中 AlphaFold2 就將準(zhǔn)確性直接拔高到了 92.4/100。
圖網(wǎng)絡(luò) + Attention
具體來(lái)看,AlphaFold2 主要利用多序列比對(duì)(MSA),把蛋白質(zhì)的結(jié)構(gòu)和生物信息整合到了深度學(xué)習(xí)算法中。
它主要包括兩個(gè)部分:神經(jīng)網(wǎng)絡(luò) EvoFormer 和結(jié)構(gòu)模塊(Structure module)。
在 EvoFormer 中,主要是將圖網(wǎng)絡(luò) (Graph networks)和多序列比對(duì) (MSA)結(jié)合完成結(jié)構(gòu)預(yù)測(cè)。
圖網(wǎng)絡(luò)可以很好表示事物之間的相關(guān)性,在這里,它可以將蛋白質(zhì)的相關(guān)信息構(gòu)建出一個(gè)圖表,以此表示不同氨基酸之間的距離。
研究人員用 Attention 機(jī)制構(gòu)建出一個(gè)特殊的“三重自注意力機(jī)制(Triangular self-attention)”,來(lái)處理計(jì)算氨基酸之間的關(guān)系圖。
▲ 三重自注意力機(jī)制(Triangular self-attention)
然后,他們將這一步得到的信息與多序列比對(duì)結(jié)合。
多序列比對(duì)主要是使相同殘基的位點(diǎn)位于同一列,暴露出不同序列之間的相似部分,從而推斷出不同蛋白質(zhì)在結(jié)構(gòu)和功能上的相似關(guān)系。
計(jì)算出的氨基酸關(guān)系與 MSA 進(jìn)行信息交換,能直接推理出空間和進(jìn)化關(guān)系的配對(duì)表征。
預(yù)測(cè)所有原子的 3D 結(jié)構(gòu)
架構(gòu)的第二部分是一個(gè)結(jié)構(gòu)模塊 (Structure Module),它的主要工作是將 EvoFormer 得到的信息轉(zhuǎn)換為蛋白質(zhì)的 3D 結(jié)構(gòu)。
▲ 結(jié)構(gòu)模塊(Structure module)
在這里,研究人員同樣使用了 Attention 機(jī)制,它可以單獨(dú)計(jì)算蛋白質(zhì)的各個(gè)部分,稱為“不變點(diǎn)注意力(invariant point attention)”機(jī)制。
它以某個(gè)原子為原點(diǎn),構(gòu)建出一個(gè) 3D 參考場(chǎng),根據(jù)預(yù)測(cè)信息進(jìn)行旋轉(zhuǎn)和平移,得到一個(gè)結(jié)構(gòu)框架。
▲ 不變點(diǎn)注意力(invariant point attention)
然后 Attention 機(jī)制會(huì)對(duì)所有原子都進(jìn)行預(yù)測(cè),最終匯總得出一個(gè)高度準(zhǔn)確的蛋白質(zhì)結(jié)構(gòu)。
此外,研究人員還強(qiáng)調(diào) AlphaFold2 是一個(gè)“端到端”的神經(jīng)網(wǎng)絡(luò)。
他們會(huì)反復(fù)把最終損失應(yīng)用于輸出結(jié)果,然后再對(duì)輸出結(jié)果進(jìn)行遞歸,不斷逼近正確結(jié)果。
這樣做既能減少額外的訓(xùn)練,還能大幅提高預(yù)測(cè)結(jié)構(gòu)的準(zhǔn)確性。
為破解蛋白質(zhì)折疊謎題帶來(lái)希望
Alphafold2 的出現(xiàn),能更好地預(yù)判蛋白質(zhì)與分子結(jié)合的概率,從而極大地加速新藥研發(fā)的效率。
此次 Alphafold2 開(kāi)源,將進(jìn)一步推動(dòng)科學(xué)界前進(jìn)。
據(jù)了解,目前 DeepMind 已經(jīng)與瑞士的一些研究團(tuán)隊(duì)合作,通過(guò)預(yù)測(cè)蛋白質(zhì)結(jié)構(gòu)開(kāi)展藥物方面的研究。
事實(shí)上,研究 Alphafold2 預(yù)測(cè)程序本身,也為探索蛋白質(zhì)結(jié)構(gòu)折疊原理帶來(lái)了希望。
芝加哥大學(xué)的計(jì)算生物學(xué)家 Jinbo Xu 就表示:
這些工具的開(kāi)源,意味著科學(xué)界能夠在此基礎(chǔ)上開(kāi)發(fā)出更加強(qiáng)大的軟件。
論文地址:
https://www.nature.com/articles/s41586-021-03819-2_reference.pdf
補(bǔ)充材料:
https://static-content.springer.com/esm/art%3A10.1038%2Fs41586-021-03819-2/MediaObjects/41586_2021_3819_MOESM1_ESM.pdf*
廣告聲明:文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時(shí)間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。