AlphaFold2 被超越,中國(guó)團(tuán)隊(duì)刷新全球蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)紀(jì)錄

量子位 2021/12/14 13:08:43 責(zé)編:長(zhǎng)河

AlphaFold2 的紀(jì)錄,剛剛被刷新了。

最新消息,全球持續(xù)蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)競(jìng)賽 CAMEO(Continous Automated Model EvaluatiOn)上,DeepMind 旗下 AlphaFold2 的紀(jì)錄被刷新。

HeliXonAI,一個(gè)此前名不見(jiàn)經(jīng)傳的“新面孔”,加冕第一。同時(shí),在全球結(jié)構(gòu)預(yù)測(cè)領(lǐng)域主要評(píng)價(jià)指標(biāo) lDDT(Local Distance Different Test)中,HeliXonAI 跑分也高達(dá) 83.5 分,連續(xù)四周排名第一,遠(yuǎn)超第二名的 70.2 分。

HeliXonAI 由此一鳴驚人,成為圈內(nèi)熱議焦點(diǎn)。但隨著幕后團(tuán)隊(duì)浮出水面,如此成績(jī)又被認(rèn)為情理之中。

因?yàn)榇蛟靾F(tuán)隊(duì)華深智藥,正是生物計(jì)算領(lǐng)域大牛彭健的創(chuàng)業(yè)公司,也是張亞勤旗下清華 AIR 智能產(chǎn)業(yè)研究院首個(gè)公開(kāi)的孵化項(xiàng)目。

超越 AlphaFold2 的 HeliXonAI

CAMEO(Continous Automated Model EvaluatiOn),全球持續(xù)蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)競(jìng)賽,由瑞士生物信息研究所和巴塞爾大學(xué)聯(lián)合舉辦,與 CASP 被認(rèn)為是結(jié)構(gòu)預(yù)測(cè)領(lǐng)域最重要的兩項(xiàng)比賽。

但不同于 CASP 的是,CAMEO 的參賽者需要每周預(yù)測(cè) 20 個(gè)由世界范圍內(nèi)的結(jié)構(gòu)生物學(xué)家最新破解出結(jié)構(gòu)的蛋白質(zhì)的結(jié)構(gòu),比賽的得分與排名也會(huì)每周實(shí)時(shí)更新。該競(jìng)賽吸引了全球生物計(jì)算領(lǐng)域的最頂尖選手。

諸如華盛頓大學(xué)蛋白質(zhì)設(shè)計(jì)研究所的 David Baker 教授研發(fā)的 RoseTTAFold,百度開(kāi)發(fā)的 PaFold,和騰訊研發(fā)的 tFold 等模型,都在其中競(jìng)逐。而華深智藥的結(jié)構(gòu)預(yù)測(cè)平臺(tái) HeliXonAI,已經(jīng)連續(xù)四周在主要評(píng)價(jià)指標(biāo) lDDT(Local Distance Different Test)上達(dá)到 83.5 分,持續(xù)排名世界第一。

在 CAMEO 的結(jié)果中,越靠右表示預(yù)測(cè)的結(jié)構(gòu)越多,越靠上表示預(yù)測(cè)的結(jié)構(gòu)越準(zhǔn)…… 而現(xiàn)在,牢牢地占據(jù)最右上角的就是 HeliXonAI。

更令人驚喜的是,在上一周 CAMEO 發(fā)布的 17 個(gè)目標(biāo)蛋白質(zhì)上,HeliXonAI 的平均 lDDT 預(yù)測(cè)精確度,達(dá)到了 84.0—— 意味著對(duì) AlphaFold2 的超越。

之前 DeepMind 團(tuán)隊(duì)公開(kāi)的 AlphaFold2 模型預(yù)測(cè)精確度,評(píng)分在 81.9。并且在另一評(píng)價(jià)指標(biāo) TM-score 上,也有一致的結(jié)果。

HeliXonAI 以 91.6 的評(píng)分,同樣超越了 AlphaFold2 的 85.6。相比 RoseTTAFold 和 PaFold 的 76 分,更是數(shù)量級(jí)上的超越。

此外,在最新一周的標(biāo)注為“困難”(hard) 的 7 個(gè)蛋白結(jié)構(gòu)中,HeliXonAI 更是進(jìn)一步拉開(kāi)差距,在 TM-score 上比第二名 Alphafold2 高出 6 分之多。總之,不同層面的數(shù)據(jù)結(jié)果都在說(shuō)明,全球蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)的王座,易主了。

HeliXonAI 如何煉成?

眾所周知,蛋白質(zhì)在理解生命科學(xué)與藥物開(kāi)發(fā)中的地位舉足輕重。為了執(zhí)行特定功能,蛋白質(zhì)必須折疊成對(duì)應(yīng)的結(jié)構(gòu)。然而,理解蛋白質(zhì)的三維空間結(jié)構(gòu)一直是生物學(xué)中的重大挑戰(zhàn),已經(jīng)困擾生物學(xué)家 50 多年…

直到 2020 年由 DeepMind 團(tuán)隊(duì)開(kāi)發(fā)的 AlphaFold2 模型,在第十四屆國(guó)際蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)競(jìng)賽(CASP14)上,幾乎達(dá)到冷凍電子顯微鏡等實(shí)驗(yàn)技術(shù)的準(zhǔn)確度。一石激起千層浪,引領(lǐng)計(jì)算生物領(lǐng)域的標(biāo)志性變革。

但 AlphaFold2 實(shí)際也并非完美,例如在同源信號(hào)較弱的情況下預(yù)測(cè)的誤差較大,對(duì)于抗體可變區(qū)域的預(yù)測(cè)也精度欠佳。華深智藥團(tuán)隊(duì),也是看到了可改進(jìn)之處,著手開(kāi)發(fā)人工智能藥物開(kāi)發(fā)平臺(tái) ——HeliXonAI。該平臺(tái)囊括了包含蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)在內(nèi)的一整套生命建模算法體系,將被用于承接包含抗體設(shè)計(jì),靶點(diǎn)發(fā)現(xiàn)等諸多挑戰(zhàn)性任務(wù)。

同時(shí),HeliXonAI 的蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)算法在 AlphaFold2 的基礎(chǔ)上,提出了諸多改進(jìn)。比如數(shù)據(jù)上利用數(shù)據(jù)蒸餾引入了更為龐大的無(wú)結(jié)構(gòu)氨基酸序列數(shù)據(jù)庫(kù),并且在模型上設(shè)計(jì)了新穎的進(jìn)化調(diào)整(Evolutionary Calibration)模塊實(shí)現(xiàn)了對(duì)多比對(duì)序列的信息較正。又比如對(duì)于空間坐標(biāo)的優(yōu)化,HeliXonAI 引入了幾何平滑(Geometric Smoothing)模塊,利用幾何深度學(xué)習(xí)的特性,和近一千層的深度,不斷地將坐標(biāo)優(yōu)化到正確位置上。

這 2 大全新的模塊的加入,能夠迭代式地修復(fù)同源序列對(duì)比中的誤差并相應(yīng)地對(duì)所有原子幾何位置做出對(duì)應(yīng)的調(diào)整,這樣就能更為有效地解決同源信號(hào)弱的問(wèn)題,并在原子級(jí)別的細(xì)節(jié)上做出更精準(zhǔn)的預(yù)測(cè)。最終,在 8 塊 A100 顯卡上,經(jīng)過(guò)連續(xù)接近 3 個(gè)多月的訓(xùn)練,HeliXonAI 實(shí)現(xiàn)了模型預(yù)測(cè)能力指標(biāo)上對(duì) AlphaFold2 的超越。

當(dāng)然,需要指出的是,如此成果并非只是 3 個(gè)月的沖刺,背后還有華深智藥團(tuán)隊(duì)的多年積累。

華深智藥打造者?

彭健,伊利諾伊大學(xué)厄巴納-香檳分校(UIUC)計(jì)算機(jī)科學(xué)系及醫(yī)學(xué)院終身教授,生物計(jì)算領(lǐng)域的知名大牛,機(jī)器學(xué)習(xí)與蛋白質(zhì)結(jié)構(gòu)和功能預(yù)測(cè)的頂級(jí)科學(xué)家。

他在博士期間設(shè)計(jì)的著名算法 RaptorX 以及在 UIUC 任教期間設(shè)計(jì)的 DeepContact 算法,多次在 CASP 比賽中獲得領(lǐng)先的成績(jī),并很早就嘗試將深度學(xué)習(xí)的技術(shù)引入這個(gè)領(lǐng)域。

彭健也因此在 2016 年獲得有“諾獎(jiǎng)風(fēng)向標(biāo)”之稱(chēng)的斯隆研究獎(jiǎng),并于 2020 年獲得計(jì)算生物領(lǐng)域最高獎(jiǎng)奧弗頓獎(jiǎng)(Overton Prize)。此前,奧弗頓獎(jiǎng)獲得者包括 David Baker,Trey Ideker 以及 Aviv Regev 等計(jì)算生物學(xué)領(lǐng)軍人物,而彭健教授也是該獎(jiǎng)項(xiàng) 20 年來(lái)的唯一華人得主。

今年 6 月,看到了領(lǐng)域內(nèi)正在發(fā)生的質(zhì)變,在張亞勤旗下清華大學(xué)人工智能產(chǎn)業(yè)研究院孵化之下,正式創(chuàng)辦華深智藥。很快便完成了千萬(wàn)美元級(jí)天使輪融資。

創(chuàng)辦伊始,華深智藥就明確要打造新一代人工智能科學(xué)計(jì)算平臺(tái),并結(jié)合自研高通量生物實(shí)驗(yàn)技術(shù),為研發(fā)人員提供微觀世界分子計(jì)算、模擬與設(shè)計(jì)的智能系統(tǒng)。彭健明確,在新藥開(kāi)發(fā)領(lǐng)域,特別是大分子藥物開(kāi)發(fā),華深智藥希望用創(chuàng)新性地使用 AI 重構(gòu)藥物開(kāi)發(fā)流程,從而極大程度上提高新藥研發(fā)速度和效率。而 HeliXonAI 平臺(tái),就是華深智藥第一階段的成果。

并且 HeliXonAI 平臺(tái)的產(chǎn)業(yè)應(yīng)用,也已經(jīng)開(kāi)始展現(xiàn),因?yàn)樵撈脚_(tái)集成了包含蛋白質(zhì)交互,蛋白質(zhì)動(dòng)態(tài)建模,抗體關(guān)鍵區(qū)域建模,靶點(diǎn)查詢(xún),蛋白質(zhì)設(shè)計(jì)等一整套生命建模流程體系……

于是在針對(duì)新冠病毒變異株的抗體設(shè)計(jì)和免疫逃逸位點(diǎn)檢測(cè)等任務(wù)中,也能發(fā)揮作用。

據(jù)說(shuō),相關(guān)成果已經(jīng)進(jìn)入產(chǎn)業(yè)轉(zhuǎn)換階段了。

CAMEO 傳送門(mén):

https://www.cameo3d.org/modeling/1-week/difficulty/all/?to_date=2021-12-04

廣告聲明:文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時(shí)間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。

相關(guān)文章

關(guān)鍵詞:蛋白質(zhì),人工智能

軟媒旗下網(wǎng)站: IT之家 最會(huì)買(mǎi) - 返利返現(xiàn)優(yōu)惠券 iPhone之家 Win7之家 Win10之家 Win11之家

軟媒旗下軟件: 軟媒手機(jī)APP應(yīng)用 魔方 最會(huì)買(mǎi) 要知