Meta 讓 150 億參數(shù)語言模型學(xué)會(huì)從頭設(shè)計(jì)「全新」蛋白質(zhì)，LeCun：效果驚人

新智元 2022/12/23 15:58:03 責(zé)編：遠(yuǎn)生

評(píng)論：

Meta 最新力作！經(jīng)過訓(xùn)練的語言模型直接化身「造物主」，可以設(shè)計(jì)、生成蛋白質(zhì)，生命的終極奧秘要被人工智能發(fā)現(xiàn)了嗎？

AI 在生物醫(yī)學(xué)領(lǐng)域再次獲得新進(jìn)展。沒錯(cuò)，這次還和蛋白質(zhì)有關(guān)。

不同的是，過去的 AI 是發(fā)現(xiàn)蛋白質(zhì)結(jié)構(gòu)，這回開始自己設(shè)計(jì)和生成蛋白質(zhì)結(jié)構(gòu)了。如果說過去是「檢察官」，現(xiàn)在說是進(jìn)化成了「造物主」也不是不行。

參與本項(xiàng)研究的是 Meta 的 AI 研究機(jī)構(gòu)中包括 FAIR 的蛋白質(zhì)研究團(tuán)隊(duì)。作為在 Facebook 任職多年的首席 AI 科學(xué)家，Yann LeCun 也是第一時(shí)間轉(zhuǎn)發(fā)了這個(gè)自家團(tuán)隊(duì)的成果，并給予高度評(píng)價(jià)。

Meta 讓 150 億參數(shù)語言模型學(xué)會(huì)從頭設(shè)計(jì)「全新」蛋白質(zhì)，LeCun：效果驚人

BioRxiv 上的這兩篇論文是 Meta 在蛋白質(zhì)設(shè)計(jì) / 生成方面的「驚人」的成果。該系統(tǒng)使用模擬退火算法來尋找一個(gè)氨基酸序列，該序列的折疊方式符合所需的形狀或滿足約束條件（如對(duì)稱性）。

Meta 讓 150 億參數(shù)語言模型學(xué)會(huì)從頭設(shè)計(jì)「全新」蛋白質(zhì)，LeCun：效果驚人

ESM2，原子層級(jí)結(jié)構(gòu)預(yù)測(cè)的模型

你猜的沒錯(cuò)，這項(xiàng)研究和這兩篇論文的基礎(chǔ)，正是不久前由 Meta 提出的蛋白質(zhì)預(yù)測(cè)和發(fā)現(xiàn)的大語言模型：ESM2。

這是一個(gè) 150 億參數(shù)的大模型。隨著模型從 800 萬個(gè)參數(shù)擴(kuò)展到 1500 萬個(gè)參數(shù)，內(nèi)部表征中出現(xiàn)的信息能夠在原子分辨率下進(jìn)行三維結(jié)構(gòu)預(yù)測(cè)。

Meta 讓 150 億參數(shù)語言模型學(xué)會(huì)從頭設(shè)計(jì)「全新」蛋白質(zhì)，LeCun：效果驚人

利用大型語言模型來學(xué)習(xí)進(jìn)化模式，可以直接從蛋白質(zhì)序列中端到端地生成準(zhǔn)確的結(jié)構(gòu)預(yù)測(cè)，在保持準(zhǔn)確性的同時(shí)，預(yù)測(cè)速度比當(dāng)前最先進(jìn)的方法快 60 倍。

事實(shí)上，借助于這種新的結(jié)構(gòu)預(yù)測(cè)能力，Meta 在短短兩周內(nèi)用一個(gè)由大約 2000 個(gè) GPU 組成的集群上，預(yù)測(cè)出了圖譜中超過 6 億個(gè)宏基因組蛋白質(zhì)的序列。

兩篇論文的通信作者，來自 Meta AI 的 Alex Rives 表示，ESM2 語言模型展現(xiàn)出的通用性不僅超出了天然蛋白質(zhì)的范圍，而且還能夠可編程地生成復(fù)雜和模塊化的蛋白質(zhì)結(jié)構(gòu)。

蛋白質(zhì)設(shè)計(jì)「專用編程語言」

工欲善其事，必先利其器。

為了讓蛋白質(zhì)設(shè)計(jì)和生成更有效率，研究人員在之前成果（主要是 ESM2）的基礎(chǔ)上，還專門開發(fā)了一種面向蛋白質(zhì)設(shè)計(jì)的高級(jí)編程語言。

Meta 讓 150 億參數(shù)語言模型學(xué)會(huì)從頭設(shè)計(jì)「全新」蛋白質(zhì)，LeCun：效果驚人

論文地址：https://www.biorxiv.org/ content / 10.1101/2022.12.21.521526v1

該研究的主要負(fù)責(zé)人之一，論文「A high-level programming language for generative protein design」的通訊作者 Alex Rives 在社交媒體上表示，這個(gè)成果，使得對(duì)具有復(fù)雜和模塊化結(jié)構(gòu)的大型蛋白質(zhì)和復(fù)合物的生成進(jìn)行編程成為可能。

論文作者之一、斯坦福大學(xué)的研究人員 Brian Hie 在推特上也對(duì)這篇文章的主要研究思路和成果做了自己的解釋。

總體上講，這篇文章描述了生成式機(jī)器學(xué)習(xí)如何實(shí)現(xiàn)由用于蛋白質(zhì)設(shè)計(jì)的高級(jí)編程語言控制的復(fù)雜蛋白質(zhì)的模塊化設(shè)計(jì)。

Meta 讓 150 億參數(shù)語言模型學(xué)會(huì)從頭設(shè)計(jì)「全新」蛋白質(zhì)，LeCun：效果驚人

他表示，這篇文章的主要想法不是使用序列或結(jié)構(gòu)的構(gòu)建塊，而是將模塊化置于更高的抽象級(jí)別，并讓黑盒優(yōu)化生成特定設(shè)計(jì)。優(yōu)化的每一步預(yù)測(cè)原子級(jí)結(jié)構(gòu)。

Meta 讓 150 億參數(shù)語言模型學(xué)會(huì)從頭設(shè)計(jì)「全新」蛋白質(zhì)，LeCun：效果驚人

與之前的蛋白質(zhì)設(shè)計(jì)方法相比，這種新思路產(chǎn)生的方法可以讓設(shè)計(jì)者指定任意的、不可微的約束，范圍從指定原子級(jí)坐標(biāo)到蛋白質(zhì)的抽象設(shè)計(jì)方案，比如對(duì)稱設(shè)計(jì)。

Meta 讓 150 億參數(shù)語言模型學(xué)會(huì)從頭設(shè)計(jì)「全新」蛋白質(zhì)，LeCun：效果驚人

對(duì)于可編程性來說，約束條件是模塊化的，這一點(diǎn)很重要。比如下圖就是將同一約束分層應(yīng)用于兩個(gè)層次的對(duì)稱性編程的情況。

Meta 讓 150 億參數(shù)語言模型學(xué)會(huì)從頭設(shè)計(jì)「全新」蛋白質(zhì)，LeCun：效果驚人

這些約束也很容易重新組合。比如，可以把對(duì)原子坐標(biāo)的約束和對(duì)對(duì)稱性的約束結(jié)合起來?；蛘呖梢詫⒉煌问降膬杉?jí)對(duì)稱性結(jié)合起來，為一個(gè)不對(duì)稱的復(fù)合結(jié)構(gòu)體編程。

Meta 讓 150 億參數(shù)語言模型學(xué)會(huì)從頭設(shè)計(jì)「全新」蛋白質(zhì)，LeCun：效果驚人

Brian Hie 認(rèn)為，這一成果是朝著更可控、更有規(guī)律、更有表現(xiàn)力的蛋白質(zhì)設(shè)計(jì)邁出的一步。他也感謝了來自 Meta AI 和其他合作者的共同努力。

讓蛋白質(zhì)設(shè)計(jì)「就像蓋大樓」

在論文中，研究人員認(rèn)為，蛋白質(zhì)設(shè)計(jì)將受益于一套基本的抽象概念所提供的規(guī)律性、簡單性和可編程性，就像那些用于建筑、機(jī)器、電路和計(jì)算機(jī)軟件工程的抽象概念一樣。

但與這些人工創(chuàng)造物不同的是，蛋白質(zhì)不能被分解成容易重組的部分，因?yàn)樾蛄械木植拷Y(jié)構(gòu)與它的整體環(huán)境糾纏在一起。經(jīng)典的從頭開始的蛋白質(zhì)設(shè)計(jì)試圖確定一套基本的結(jié)構(gòu)構(gòu)件，然后將其組裝成高階結(jié)構(gòu)。

同樣，傳統(tǒng)的蛋白質(zhì)工程通常將天然蛋白質(zhì)序列的片段或結(jié)構(gòu)域重組為混合嵌合體。然而，現(xiàn)有的方法還不能實(shí)現(xiàn)真正可編程性所需的高組合復(fù)雜性。

本文展示了現(xiàn)代生成模型在新的組合復(fù)雜性水平上實(shí)現(xiàn)了模塊化和可編程性的經(jīng)典目標(biāo)。把模塊化和可編程性放在一個(gè)更高的抽象水平上，在這個(gè)水平上，生成式模型彌補(bǔ)了人類直覺和特定序列和結(jié)構(gòu)的產(chǎn)生之間的差距。

在這種情況下，蛋白質(zhì)設(shè)計(jì)者只需要重新組合高層次的指令，而獲得滿足這些指令的蛋白質(zhì)的任務(wù)則放在生成模型上。

研究人員提出了一種用于生成性蛋白質(zhì)設(shè)計(jì)的編程語言，允許設(shè)計(jì)者指定直觀的、模塊化的和分層次的程序。高層次的程序可以通過生成模型轉(zhuǎn)化為低層次的序列和結(jié)構(gòu)。這套方法利用了蛋白質(zhì)語言模型的進(jìn)展，可以學(xué)習(xí)結(jié)構(gòu)信息和蛋白質(zhì)的設(shè)計(jì)原則。

Meta 讓 150 億參數(shù)語言模型學(xué)會(huì)從頭設(shè)計(jì)「全新」蛋白質(zhì)，LeCun：效果驚人

在這項(xiàng)研究中的具體實(shí)施基于一個(gè)基于能量的生成模型，如上圖所示。

首先，一個(gè)蛋白質(zhì)設(shè)計(jì)者指定了一個(gè)由一組分層組織的約束條件組成的高級(jí)程序（圖 A）。

然后，這個(gè)程序編譯成一個(gè)能量函數(shù)，評(píng)估與約束條件的兼容性，這些約束條件可以是任意的和不可區(qū)分的（圖 B）。

通過將原子級(jí)結(jié)構(gòu)預(yù)測(cè)（由語言模型啟用）納入能量函數(shù)來應(yīng)用結(jié)構(gòu)上的約束。這種方法能夠生成廣泛的復(fù)雜設(shè)計(jì)（圖 C）。

從無到有生成蛋白質(zhì)序列

在論文「Language models generalize beyond natural proteins」中，來自 MetaAI 團(tuán)隊(duì)的作者 Tom Sercu 表示，這個(gè)工作主要完成了兩項(xiàng)任務(wù)。

Meta 讓 150 億參數(shù)語言模型學(xué)會(huì)從頭設(shè)計(jì)「全新」蛋白質(zhì)，LeCun：效果驚人

論文地址：https://www.biorxiv.org/ content / 10.1101/2022.12.21.521521v1

第一項(xiàng)是為給定的主鏈結(jié)構(gòu)設(shè)計(jì)序列。使用語言模型，可以獲得針對(duì)所有目標(biāo)的成功設(shè)計(jì)，成功率達(dá) 19/20，而沒有語言模型參與的序列設(shè)計(jì)，成功率只有 1/20。

Meta 讓 150 億參數(shù)語言模型學(xué)會(huì)從頭設(shè)計(jì)「全新」蛋白質(zhì)，LeCun：效果驚人

第二個(gè)任務(wù)是無約束生成。研究團(tuán)隊(duì)提出了一種從語言模型定義的能量景觀中采樣（序列、結(jié)構(gòu)）對(duì)的新方法。

Meta 讓 150 億參數(shù)語言模型學(xué)會(huì)從頭設(shè)計(jì)「全新」蛋白質(zhì)，LeCun：效果驚人

通過不同的拓?fù)浣Y(jié)構(gòu)進(jìn)行采樣，再次提高實(shí)驗(yàn)的成功率（達(dá) 71/129 或 55%）。

為了證明預(yù)測(cè)的蛋白質(zhì)結(jié)構(gòu)超越了天然蛋白質(zhì)的限制，研究團(tuán)隊(duì)在涵蓋所有已知天然蛋白質(zhì)的序列數(shù)據(jù)庫中，對(duì)語言模型生成的蛋白質(zhì)序列進(jìn)行搜索。

Meta 讓 150 億參數(shù)語言模型學(xué)會(huì)從頭設(shè)計(jì)「全新」蛋白質(zhì)，LeCun：效果驚人

結(jié)果顯示，二者并無匹配關(guān)系，自然序列和語言模型生成的預(yù)測(cè)結(jié)構(gòu)不同。

Sercu 表示，可以單獨(dú)使用 ESM2 蛋白質(zhì)語言模型對(duì)蛋白質(zhì)結(jié)構(gòu)進(jìn)行設(shè)計(jì)。研究團(tuán)隊(duì)通過實(shí)驗(yàn)測(cè)試了 228 種蛋白質(zhì)，成功率為 67%！

Meta 讓 150 億參數(shù)語言模型學(xué)會(huì)從頭設(shè)計(jì)「全新」蛋白質(zhì)，LeCun：效果驚人

Sercu 認(rèn)為，僅在序列上訓(xùn)練的蛋白質(zhì)語言模型可以學(xué)習(xí)連接序列和結(jié)構(gòu)的深層模式，并且可以用于從頭設(shè)計(jì)蛋白質(zhì)，超出了自然探索的設(shè)計(jì)空間。

探索蛋白質(zhì)生成的深層語法

在論文中，Meta 的研究人員表示，雖然只對(duì)語言模型在序列上訓(xùn)練，模型依然能夠設(shè)計(jì)蛋白質(zhì)的深層語法結(jié)構(gòu)，突破天然蛋白質(zhì)的局限。

如果用 A 圖的方塊表示所有蛋白質(zhì)序列構(gòu)成的空間，那么天然蛋白質(zhì)序列是灰色部分，覆蓋了其中一小部分。為了超越自然序列進(jìn)行推廣，語言模型需要訪問底層設(shè)計(jì)模式。

Meta 讓 150 億參數(shù)語言模型學(xué)會(huì)從頭設(shè)計(jì)「全新」蛋白質(zhì)，LeCun：效果驚人

研究團(tuán)隊(duì)要做的是兩件事：第一，從頭設(shè)計(jì)蛋白質(zhì)（de novo）主鏈；第二，根據(jù)主鏈，從無到有生成蛋白質(zhì)序列。

研究團(tuán)隊(duì)使用掩碼語言模型，對(duì) ESM2 進(jìn)行訓(xùn)練，訓(xùn)練內(nèi)容包括進(jìn)化過程中數(shù)百萬種不同的天然蛋白質(zhì)。

Meta 讓 150 億參數(shù)語言模型學(xué)會(huì)從頭設(shè)計(jì)「全新」蛋白質(zhì)，LeCun：效果驚人

語言模型訓(xùn)練后，可以在模型的內(nèi)部 attention 狀態(tài)中識(shí)別有關(guān)蛋白質(zhì)三級(jí)結(jié)構(gòu)的信息。之后，研究人員通過線性投影，將蛋白質(zhì)序列中一對(duì)位置的 attention 轉(zhuǎn)換為殘基間距離的分布。

Meta 讓 150 億參數(shù)語言模型學(xué)會(huì)從頭設(shè)計(jì)「全新」蛋白質(zhì)，LeCun：效果驚人

研究人員表示，語言模型預(yù)測(cè)蛋白質(zhì)結(jié)構(gòu)的能力，指出了構(gòu)成天然蛋白質(zhì)序列背后更深層次的結(jié)構(gòu)序列，以及存在一個(gè)可由模型學(xué)習(xí)的深層語法的可能性。

結(jié)果表明，在進(jìn)化過程中，大量蛋白質(zhì)序列包含的生物結(jié)構(gòu)和功能，揭示了蛋白質(zhì)的設(shè)計(jì)構(gòu)造。這種構(gòu)造完全可以通過學(xué)習(xí)蛋白質(zhì)序列的機(jī)器模型得以重現(xiàn)。

Meta 讓 150 億參數(shù)語言模型學(xué)會(huì)從頭設(shè)計(jì)「全新」蛋白質(zhì)，LeCun：效果驚人

語言模型在 6 項(xiàng)實(shí)驗(yàn)中成功預(yù)測(cè)的蛋白質(zhì)結(jié)構(gòu)

跨蛋白質(zhì)的深層語法的存在，解釋了似乎相互矛盾的兩組發(fā)現(xiàn)：對(duì)天然蛋白質(zhì)的理解取決于訓(xùn)練數(shù)據(jù)；而語言模型又可以在已知的天然蛋白質(zhì)家族之外進(jìn)行預(yù)測(cè)和探索。

如果蛋白質(zhì)語言模型的縮放定律繼續(xù)有效，可以預(yù)料，AI 語言模型的生成能力將不斷提高。

研究團(tuán)隊(duì)表示，由于存在蛋白質(zhì)結(jié)構(gòu)的基礎(chǔ)語法，機(jī)器模型將學(xué)習(xí)更加罕見的蛋白質(zhì)構(gòu)造，從而擴(kuò)展模型的預(yù)測(cè)能力和探索空間。

一年前，DeepMind 開源 AlphaFold2 連登 Nature、Science，刷爆生物和 AI 學(xué)界。

一年后，人工智能預(yù)測(cè)模型如雨后春筍，頻頻填補(bǔ)蛋白質(zhì)結(jié)構(gòu)領(lǐng)域的空白。

如果說人類給予人工智能以生命，那么人工智能是否是人類補(bǔ)全生命奧秘的最后一塊拼圖呢？

參考資料：

https://twitter.com/TomSercu/status/1606075975891972096
https://twitter.com/BrianHie/status/1606074806620737536
https://www.biorxiv.org/content/10.1101/2022.12.21.521521v1
https://www.biorxiv.org/content/10.1101/2022.12.21.521526v1

本文來自微信公眾號(hào)：新智元（ID：AI_era），編輯：編輯部

廣告聲明：文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時(shí)間，結(jié)果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮

Meta 讓 150 億參數(shù)語言模型學(xué)會(huì)從頭設(shè)計(jì)「全新」蛋白質(zhì)，LeCun：效果驚人

ESM2，原子層級(jí)結(jié)構(gòu)預(yù)測(cè)的模型

蛋白質(zhì)設(shè)計(jì)「專用編程語言」

讓蛋白質(zhì)設(shè)計(jì)「就像蓋大樓」

從無到有生成蛋白質(zhì)序列

探索蛋白質(zhì)生成的深層語法

相關(guān)文章

ESM2，原子層級(jí)結(jié)構(gòu)預(yù)測(cè)的模型