設(shè)置
  • 日夜間
    隨系統(tǒng)
    淺色
    深色
  • 主題色

生物史最全“證件照”:DeepMind 開放 35 萬種蛋白質(zhì)結(jié)構(gòu),超人類知識(shí) 2 倍

智東西 2021/7/23 12:15:07 責(zé)編:遠(yuǎn)洋

今天將成為人類生物學(xué)歷史上具有重大意義的一天!

智東西 7 月 23 日消息,今日,人工智能研究實(shí)驗(yàn)室 DeepMind 與歐洲生物信息學(xué)研究所 EMBL-EBI(European Bioinformatics Institute)合作,推出了 AlphaFold 蛋白質(zhì)結(jié)構(gòu)數(shù)據(jù)庫,該數(shù)據(jù)庫提供了迄今為止人類蛋白質(zhì)組最完整、最準(zhǔn)確的圖像,是人類積累的高精度人類蛋白質(zhì)結(jié)構(gòu)知識(shí)的兩倍多。

除了人類蛋白質(zhì)組(人類基因組表達(dá)的所有蛋白質(zhì)約 2 萬種)之外,他們還將提供其他 20 種具有生物學(xué)意義的生物蛋白質(zhì)組的開放訪問,總計(jì)超過 35 萬種蛋白質(zhì)結(jié)構(gòu),包括從果蠅到小鼠等動(dòng)物,以及從大腸桿菌到酵母等細(xì)菌。

發(fā)布第一批數(shù)據(jù)后,DeepMind 計(jì)劃繼續(xù)增加蛋白質(zhì)庫,幾乎覆蓋所有科學(xué)已知的已測序蛋白質(zhì),共超過 1 億種結(jié)構(gòu),該庫將由 EMBL 維護(hù)。在 EMBL 總干事 Edith Heard 看來:“這些數(shù)據(jù)集將改變我們對(duì)生命運(yùn)作方式的理解?!?/p>

“我認(rèn)為這是 DeepMind 整個(gè) 10 年多生命周期的頂峰。”DeepMind 聯(lián)合創(chuàng)始人兼 CEO Demis Hassabis 談道,從成立之初,DeepMind 就打算將 AI 方面取得的突破在圍棋、雅達(dá)利等游戲上進(jìn)行測試,并將其應(yīng)用于現(xiàn)實(shí)世界的問題,以加速科學(xué)突破并造福人類。

Demis Hassabis 稱,這些數(shù)據(jù)對(duì)科學(xué)和商業(yè)研究人員來說都將永久免費(fèi)開放?!叭魏稳硕伎梢詫⑺糜谌魏问虑?,他們只需要?dú)w功于參與引用的人?!彼f。

▲ 長期以來,人源中介體復(fù)合物(Mediator Complex)一直是結(jié)構(gòu)生物學(xué)家最具挑戰(zhàn)性的多蛋白系統(tǒng)之一。(圖源:Nature)

01.AlphaFold 預(yù)測蛋白質(zhì)結(jié)構(gòu)、緩解多領(lǐng)域生物研究瓶頸

21 世紀(jì)是生物的世紀(jì),更是計(jì)算機(jī)的世紀(jì)。

早在去年 12 月,DeepMind 就推出了 AlphaFold 2 系統(tǒng),可通過 AI 軟件對(duì)蛋白質(zhì)結(jié)構(gòu)進(jìn)行準(zhǔn)確預(yù)測,該解決方案被認(rèn)為能解決困擾科學(xué)家們 50 年的蛋白質(zhì)折疊(protein folding)問題。

直到上周,DeepMind 還發(fā)表了相關(guān)科學(xué)論文和源代碼,以解釋如何創(chuàng)建這個(gè)高度創(chuàng)新的系統(tǒng),允許其他人通過 AlphaFold 來完成相關(guān)研究工作。

AlphaFold 系統(tǒng)的誕生,證明了 AI 可以在幾分鐘內(nèi)準(zhǔn)確預(yù)測蛋白質(zhì)的 3D 結(jié)構(gòu),精確到原子精度。而 AlphaFold 蛋白質(zhì)結(jié)構(gòu)數(shù)據(jù)庫的開放,也將促進(jìn)世界各地的科學(xué)家們加速對(duì)人類蛋白質(zhì)的研究。

那么,何為蛋白質(zhì)折疊問題?

簡單來說,許多生物過程都是圍繞蛋白質(zhì)來進(jìn)行的,而蛋白質(zhì)是由氨基酸序列組成的大型復(fù)雜分子,其真正的作用取決于自身獨(dú)特的 3D 結(jié)構(gòu),也就是蛋白質(zhì)中氨基酸序列的折疊方式。

了解蛋白質(zhì)結(jié)構(gòu)能增進(jìn)人類對(duì)生命組成部分的理解,從而推動(dòng)科學(xué)家們在各個(gè)領(lǐng)域的研究。

例如,英國樸茨茅斯大學(xué)(CEI)正在利用 AlphaFold 來設(shè)計(jì)一種新型酶,以快速分解污染嚴(yán)重的一次性塑料等廢物;美國科羅拉多大學(xué)博爾德分校通過 AlphaFold 預(yù)測,來研究抗生素耐藥性的前景;美國加利福尼亞大學(xué)舊金山分校則使用 AlphaFold 來研究新型冠狀病毒的工作原理……

▲ AlphaFold 預(yù)測的蛋白質(zhì)結(jié)構(gòu)的兩個(gè)例子(藍(lán)色)與實(shí)驗(yàn)結(jié)果(綠色)的比較(圖源:DeepMind)

這些都是科學(xué)家們利用科技帶來的大量生物數(shù)據(jù)信息,一步步轉(zhuǎn)換為未來人類的進(jìn)步。

但科學(xué)家們指出,這些信息轉(zhuǎn)換到現(xiàn)實(shí)世界并產(chǎn)生結(jié)果的過程,仍需要大量時(shí)間?!拔艺J(rèn)為這不會(huì)在一年內(nèi)改變患者的治療方式,但它肯定會(huì)對(duì)科學(xué)界產(chǎn)生巨大影響。”科羅拉多大學(xué)生物化學(xué)系教授 Marcelo C. Sousa 說。

需要注意的是,AlphaFold 軟件生成的是蛋白質(zhì)結(jié)構(gòu)的預(yù)測,而不是實(shí)驗(yàn)確定的模型,這意味著在某些情況下,科學(xué)家還需要進(jìn)一步的工作來驗(yàn)證結(jié)構(gòu)。

DeepMind 對(duì)此表示,他們花了許多時(shí)間在 AlphaFold 軟件中構(gòu)建準(zhǔn)確度指標(biāo),讓它能對(duì)每個(gè)預(yù)測的可信度進(jìn)行排名。

不過,蛋白質(zhì)結(jié)構(gòu)的預(yù)測仍對(duì)科學(xué)研究帶來了巨大幫助。以往科學(xué)家們確定蛋白質(zhì)結(jié)構(gòu)的實(shí)驗(yàn)過程既耗時(shí)又昂貴,還要依賴大量反復(fù)試驗(yàn),而蛋白質(zhì)結(jié)構(gòu)預(yù)測即便置信度低,也可以為科學(xué)家指明正確的研究方向,為他們節(jié)省多年的工作。

英國格拉斯哥大學(xué)(University of Glasgow)結(jié)構(gòu)生物學(xué)教授 Helen Walden 認(rèn)為,DeepMind 的數(shù)據(jù)將“顯著緩解研究瓶頸”,但“進(jìn)行生物化學(xué)和生物學(xué)評(píng)估的費(fèi)力、耗費(fèi)資源的工作”將繼續(xù)存在,例如藥物功能研究。

Sousa 也提到,他曾在工作中使用過 AlphaFold 的數(shù)據(jù),“科學(xué)家們能快速地感受到它帶來的影響?!彼f,在他們與 DeepMind 的合作中,他們有一個(gè)包含蛋白質(zhì)樣本的數(shù)據(jù)集,但 10 年來都還沒開發(fā)出一個(gè)合適的模型,直到 DeepMind 同意為他們提供一個(gè)結(jié)構(gòu),在 15 分鐘內(nèi)就解決了這個(gè)問題。

02. 蛋白質(zhì)折疊難題背后、AlphaFold 分析速度已提升 16 倍

AlphaFold 只需 15 分鐘就能解決的問題,為何困擾了這些科學(xué)家 10 年?蛋白質(zhì)折疊問題究竟難在哪?

如我們前面所說,蛋白質(zhì)由氨基酸鏈構(gòu)成,人體中共含有 20 種不同的氨基酸,任何一個(gè)蛋白質(zhì)都可以由數(shù)百個(gè)氨基酸組成,且每個(gè)氨基酸都有不同的折疊和扭曲結(jié)構(gòu)。

這些都意味著,哪怕是一個(gè)常見的蛋白質(zhì)分子,它的最終結(jié)構(gòu)都有許多種可能構(gòu)型。一個(gè)估計(jì)是,典型的蛋白質(zhì)可以以 10^300 種方式折疊。不用數(shù)了,就是“1”后面跟著 300 個(gè)“0”的可能性。

不過由于蛋白質(zhì)的樣本太小,科學(xué)家們難以用顯微鏡檢查,不得不使用成本昂貴且復(fù)雜的方法來間接確定蛋白質(zhì)結(jié)構(gòu),比如核磁共振和 X 射線晶體學(xué)(X-ray crystallography)。

但實(shí)際上,簡單地通過氨基酸序列來確定蛋白質(zhì)結(jié)構(gòu)的構(gòu)想,在理論上一直是難以實(shí)現(xiàn)的。因此,分析蛋白質(zhì)結(jié)構(gòu)也成為了人們攻克生物學(xué)領(lǐng)域的一大難關(guān)。

直到近年來,人們發(fā)現(xiàn)可以利用 AI 的方法來分析蛋白質(zhì)結(jié)構(gòu)。借助這些技術(shù),AI 系統(tǒng)可以通過在已知蛋白質(zhì)結(jié)構(gòu)的數(shù)據(jù)集上進(jìn)行訓(xùn)練,并最終利用這些信息來預(yù)測蛋白質(zhì)結(jié)構(gòu)。

多年來,很多團(tuán)隊(duì)都參與到這項(xiàng) AI 研究中,其中 DeepMind 基于深厚的 AI 人才庫和大量計(jì)算資源基礎(chǔ),一直走在該領(lǐng)域的前沿。

去年,DeepMind 在一項(xiàng)名為 CASP 的國際蛋白質(zhì)折疊比賽中脫穎而出,其 AlphaFold 軟件對(duì)蛋白質(zhì)結(jié)構(gòu)的預(yù)測結(jié)果非常準(zhǔn)確。對(duì)此,CASP 聯(lián)合創(chuàng)始人之一的計(jì)算生物學(xué)家 John Moult 說:“在某種意義上,蛋白質(zhì)折疊的難題已經(jīng)有了解決方案?!?/p>

▲ DeepMind 的 AlphaFold 軟件顯著提高了計(jì)算蛋白質(zhì)折疊的準(zhǔn)確性(圖源:DeepMind)

自去年 CASP 競賽以來,AlphaFold 系統(tǒng)也實(shí)現(xiàn)了升級(jí),現(xiàn)在它分析蛋白質(zhì)結(jié)構(gòu)的速度已提高了 16 倍?!拔覀兛梢栽趲追昼妰?nèi)折疊一個(gè)普通蛋白質(zhì),多數(shù)情況下只要幾秒鐘?!盚assabis 談道。

英國雷丁大學(xué)教授 Liam McGuffin 曾開發(fā)出一些蛋白質(zhì)折疊軟件,他肯定了 AlphaFold 的技術(shù),但也指出,AlphaFold 的成功主要?dú)w功于科學(xué)家們數(shù)十年的先前研究和公開數(shù)據(jù)。

“DeepMind 擁有大量研究資源來保持?jǐn)?shù)據(jù)庫的更新,他們比任何一個(gè)學(xué)術(shù)團(tuán)體都更有能力做到這一點(diǎn)?!盡cGuffin 認(rèn)為,盡管科學(xué)家們最終也會(huì)走到這一步,但速度會(huì)更慢,因?yàn)樗麄儧]有足夠的資源。

03. 持續(xù)推進(jìn) AI 發(fā)展,年底數(shù)據(jù)庫結(jié)構(gòu)將增至 1.3 億個(gè)

盡管 DeepMind 每年都處于大量虧損的狀態(tài),但這次開放蛋白質(zhì)結(jié)構(gòu)數(shù)據(jù)庫是免費(fèi)的。

實(shí)際上,DeepMind 歸屬于 Google 母公司 Alphabet,該公司一直在商業(yè)醫(yī)療保健領(lǐng)域投入大量資源。還有許多報(bào)道稱,DeepMind 與 Alphabet 在研究自主性和商業(yè)可行性等問題上存在分歧。

不過 Hassabis 談道,公司一直在計(jì)劃免費(fèi)提供這些信息,這樣做是對(duì) DeepMind 創(chuàng)始精神的體現(xiàn)?!拔覀冊诒皇召彆r(shí)與 Alphabet 達(dá)成的協(xié)議是,DeepMind 主要的研究目的是推進(jìn) AGI(通用人工智能)和 AI 技術(shù)的發(fā)展,然后利用它們來攻克科學(xué)領(lǐng)域的難題?!彼f。

他認(rèn)為,Alphabet 有許多部門都專注于盈利,但 DeepMind 對(duì)研究的關(guān)注能夠“為科學(xué)界帶來各種各樣的好處,包括聲望和信譽(yù),從而通過多種方法實(shí)現(xiàn)價(jià)值。”

Hassabis 還強(qiáng)調(diào),雖然 DeepMind 的主要研究目標(biāo)是一些基礎(chǔ)領(lǐng)域,但其技術(shù)已廣泛應(yīng)用于谷歌的其他業(yè)務(wù)中?!皫缀跄闶褂玫娜魏喂雀璁a(chǎn)品,其中一部分技術(shù)都有我們的參與?!彼嘎丁?/p>

與此同時(shí),Hassabis 預(yù)測 AlphaFold 將成為未來的標(biāo)志,因?yàn)樗故玖?AI 在處理人類生物學(xué)等復(fù)雜問題上的巨大潛力。

“我認(rèn)為我們正處于一個(gè)非常激動(dòng)人心的時(shí)刻?!盚assabis 提到:“在接下來的十年中,我們和 AI 領(lǐng)域的其他人都希望能取得突破性進(jìn)展,真正加速解決我們在地球上面臨的真正重大問題。”

對(duì)于接下來的計(jì)劃,EMBL-EBI 的結(jié)構(gòu)生物信息學(xué) Sameer Velankar 談道,到今年年底,本周提交的大約 36.5 萬個(gè)蛋白質(zhì)結(jié)構(gòu)預(yù)測將增加至 1.3 億個(gè),幾乎是所有已知蛋白質(zhì)的一半。

此外,隨著 DeepMind 的繼續(xù)投資,以及未來對(duì) AlphaFold 的改進(jìn),系統(tǒng)和數(shù)據(jù)庫也將定期更新。

04. 結(jié)語:站在巨人肩膀上看未來,以 AI 實(shí)現(xiàn)多領(lǐng)域多點(diǎn)開花

對(duì) DeepMind 而言,從 AlphaFold 系統(tǒng)的更新迭代到蛋白質(zhì)結(jié)構(gòu)數(shù)據(jù)庫的開放,研究團(tuán)隊(duì)在五年里不僅必須要?jiǎng)?chuàng)造性地克服許多技術(shù)難題,還要面臨許多復(fù)雜算法的創(chuàng)新挑戰(zhàn),這些都是推動(dòng)人工智能和生物學(xué)領(lǐng)域發(fā)展的必經(jīng)之路。

不能忽視的是,DeepMind 乃至未來研究團(tuán)隊(duì)的創(chuàng)新,都是建立在先前幾代科學(xué)家的研究發(fā)現(xiàn)上。從蛋白質(zhì)成像和晶體學(xué)的早起先驅(qū),到數(shù)以千計(jì)的預(yù)測專家和結(jié)構(gòu)生物學(xué)家,他們一路披荊斬棘,花了多年時(shí)間對(duì)蛋白質(zhì)展開深入研究。

我們也期待,站在巨人的肩膀上的他們,未來能開辟更多創(chuàng)新的科學(xué)研究途徑,推動(dòng)更多領(lǐng)域的發(fā)展和進(jìn)步。

廣告聲明:文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時(shí)間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。

相關(guān)文章

關(guān)鍵詞:DeepMind

軟媒旗下網(wǎng)站: IT之家 最會(huì)買 - 返利返現(xiàn)優(yōu)惠券 iPhone之家 Win7之家 Win10之家 Win11之家

軟媒旗下軟件: 軟媒手機(jī)APP應(yīng)用 魔方 最會(huì)買 要知