【新智元導(dǎo)讀】剛剛,分子生物學(xué)界引爆核彈級(jí)消息:人類的 DNA,已經(jīng)能由 AI 重新改寫(xiě)了!初創(chuàng)公司 Profluent 宣布開(kāi)源了世界首個(gè) AI 設(shè)計(jì)基因編輯器,成功編輯了人類細(xì)胞中的 DNA。這可太科幻了,如果有機(jī)會(huì),你會(huì)選擇「改造」自己的 DNA 嗎?
AI,能夠重寫(xiě)人類基因組了?
就在剛剛,初創(chuàng)公司 Profluent 宣布,完全由 AI 設(shè)計(jì)的基因編輯器,已經(jīng)成功編輯了人類細(xì)胞中的 DNA。
也就是說(shuō),世界上首個(gè)使用 AI 從頭設(shè)計(jì)的分子級(jí)精確基因編輯器誕生了。
就像 ChatGPT 能生成詩(shī)歌一樣,Profluent 這個(gè)全新的 AI 系統(tǒng),可以讓我們編輯自己 DNA 的微觀機(jī)制生成藍(lán)圖。
在迄今最廣泛的基于 CRISPR 的基因編輯系統(tǒng)數(shù)據(jù)集上,研究者訓(xùn)練了 LLM。這些 LLM 產(chǎn)生的蛋白質(zhì),將幾乎所有天然存在的 CRISPR-Cas 家族的多樣性,擴(kuò)大了 4.8 倍!
并且,基因編輯器在人類細(xì)胞中顯示出了與 SpCas9(一個(gè)示例基因編輯器)相當(dāng)或更好的活性和特異性,同時(shí)距離超過(guò) 400 個(gè)突變。
這也就意味著,我們掌握了自己的基因組密碼。未來(lái)的科學(xué)家,會(huì)比今天更精確、更快速地對(duì)抗疾病。而且,公司還決定,會(huì)在 OpenCRISPR 協(xié)議下,自由釋放這些 DNA 分子。
Profluent 聯(lián)創(chuàng) Ali Madani 表示,「嘗試用 AI 設(shè)計(jì)的生物系統(tǒng),編輯人類 DNA 是一次科學(xué)登月之旅」。
「我們的成功表明,在未來(lái),AI 可精準(zhǔn)設(shè)計(jì)出一系列定制的疾病治療方案」。
有網(wǎng)友表示,「是時(shí)候重新編程人類了嗎?AI 驅(qū)動(dòng)的 CRISPR 技術(shù)進(jìn)步,正挑戰(zhàn)著基因倫理的邊界」。
如果你可以改變自己的 DNA,你會(huì)這么做嗎?
貧血、失明疾病的基因,由我們自己修改
初創(chuàng)公司 Profluent 在剛剛發(fā)表的這篇論文中,詳細(xì)描述了這項(xiàng)技術(shù)。
論文地址:https://www.biorxiv.org/content/10.1101/2024.04.22.590591v1.full.pdf
論文預(yù)計(jì)將于下月,在美國(guó)基因與細(xì)胞治療學(xué)會(huì)年會(huì)上發(fā)表。
這項(xiàng)技術(shù)和驅(qū)動(dòng) ChatGPT 的方法是一樣的,它在分析大量生物數(shù)據(jù)后,創(chuàng)造了新的基因編輯器,包括科學(xué)家已經(jīng)用于編輯人類 DNA 的微觀機(jī)制。
這些基因編輯器基于的是諾獎(jiǎng)的獲獎(jiǎng)方法,涉及一種名叫 CRISPR 的生物機(jī)制。
基于 CRISPR 的技術(shù)誕生后,即在業(yè)界引起轟動(dòng)。它改變了科學(xué)家研究疾病的方式。
在以前,如果我們不幸得了鐮狀細(xì)胞性貧血和失明這樣的遺傳性疾病,往往束手無(wú)策,而現(xiàn)在,CRISPR 技術(shù)可以直接讓我們修改導(dǎo)致這些疾病的基因了!
CRISPR 方法使用的是我們?cè)谧匀唤缰邪l(fā)現(xiàn)的機(jī)制:從細(xì)菌中收集的生物材料,竟然神奇地賦予了這些微生物抵抗細(xì)菌的能力。
加州大學(xué)舊金山分校生物工程和治療科學(xué)系教授兼系主任 James Fraser 介紹說(shuō),這些生物材料從未在地球上存在過(guò),而 Profluent 的 AI 系統(tǒng),正是從大自然中學(xué)習(xí)如何創(chuàng)造這些全新的東西。
如果這些技術(shù)繼續(xù)發(fā)展,所產(chǎn)生的基因編輯器,或許會(huì)比我們?nèi)祟惤?jīng)過(guò)數(shù)十億年進(jìn)化磨練的基因編輯器更靈活、更強(qiáng)大。
現(xiàn)在,Profluent 表示正在開(kāi)源 OpenCRISPR-1 編輯器,這也就意味著,個(gè)人、學(xué)術(shù)實(shí)驗(yàn)室和公司都能免費(fèi)使用這些技術(shù)。
AI 界常見(jiàn)的開(kāi)源,可以加速新技術(shù)的產(chǎn)生。不過(guò),對(duì)于生物實(shí)驗(yàn)室和制藥公司來(lái)說(shuō),像 OpenCRISPR-1 這樣的開(kāi)源并不常見(jiàn)。
當(dāng)然,Profluent 也只是開(kāi)源了其 AI 技術(shù)生成的基因編輯器,并沒(méi)有開(kāi)源 AI 技術(shù)本身。
AI 編輯蛋白質(zhì),為何意義重大
目前,蛋白質(zhì)工程界想要復(fù)制功能性蛋白質(zhì),或者用「定向進(jìn)化」來(lái)迭代修飾,通常還是需要從自然界中復(fù)制。
許多對(duì)人類有重大意義的蛋白質(zhì),都是我們偶然發(fā)現(xiàn)的,比如狗的胰島素、酸奶設(shè)施中的 Cas9 和經(jīng)常造成食物中毒的肉毒桿菌毒素。
大型生成蛋白質(zhì)語(yǔ)言模型的作用,就是可以捕獲使天然蛋白質(zhì)發(fā)揮作用的基本藍(lán)圖。它們勾勒出一條捷徑,可以繞過(guò)進(jìn)化的隨機(jī)過(guò)程,推動(dòng)人類有意識(shí)地為特定目的設(shè)計(jì)蛋白質(zhì)。
Cas9 蛋白,是 CRISPR-Cas9 基因編輯系統(tǒng)的核心組成部分,它是一種 RNA 引導(dǎo)的核酸酶,可以搜索人類基因組中的所有 30 億個(gè)核苷酸,并在一個(gè)特定位點(diǎn)進(jìn)行切割。
這種核酸酶與單導(dǎo) RNA(sgRNA)復(fù)合在一起,sgRNA 由一個(gè)在結(jié)構(gòu)上與蛋白質(zhì)相互作用的支架和一個(gè)間隔序列組成,后者可通過(guò)編程靶向基因組中的任何位點(diǎn)。
棘手的是,大多數(shù) Cas9 蛋白的長(zhǎng)度超過(guò) 1000 個(gè)氨基酸,整個(gè)設(shè)計(jì)空間包含 20^1000 種可能的序列,比起可觀測(cè)宇宙中的原子數(shù)量,它都要高出幾個(gè)數(shù)量級(jí)!
而且,由于這些蛋白質(zhì)必須以精確的順序協(xié)調(diào)許多相互作用,才能實(shí)現(xiàn)精確切割,因此即使是單個(gè)錯(cuò)位突變,也可能完全消除蛋白質(zhì)的功能。
如果通過(guò)實(shí)驗(yàn)窮盡所有可能的序列變異,許多科學(xué)家?guī)纵呑訒r(shí)間都做不完。然而,AI 系統(tǒng)卻能很輕松地探索整個(gè)搜索空間,發(fā)現(xiàn)功能性的基因編輯器。而且,只需要花幾個(gè)小時(shí)!
全球首個(gè)開(kāi)源基因編輯器,改寫(xiě)人類 DNA
基因編輯器 OpenCRISPR-1,由一個(gè) Cas9 樣蛋白質(zhì),和引導(dǎo) RNA(guide RNA)構(gòu)成。
正如之前所述,它是完全由 Profluent 的 AI 大模型開(kāi)發(fā)的。
在具體實(shí)現(xiàn)過(guò)程中,研究人員對(duì) 26TB 組裝的「基因組」和「元基因組」數(shù)據(jù)庫(kù)系統(tǒng)進(jìn)行挖掘,整理出超 100 萬(wàn)個(gè) CRISPR 操縱子(operon)的數(shù)據(jù)集。
通過(guò)訓(xùn)練 OpenCRISPR,AI 從大規(guī)模序列和生物背景中學(xué)習(xí),生成了自然界不存在的數(shù)百萬(wàn)種 CRISPR 樣蛋白。
研究人員稱,AI 生成了自然界中已發(fā)現(xiàn)的「CRISPR-Cas 家族」的 4.8 倍的蛋白質(zhì)集群,完全實(shí)現(xiàn)了指數(shù)級(jí)擴(kuò)展!
而且,語(yǔ)言模型還為類 Cas9 效應(yīng)蛋白定制了單引導(dǎo) RNA 序列。
與原型基因編輯效應(yīng)器 SpCas9 相比,幾個(gè)生成的基因編輯器顯示出,可比或改進(jìn)的活性和特異性,同時(shí)在序列上相差 400 個(gè)突變。
最后,研究人員還證明了 AI 生成的基因編輯 OpenCRISPR-1 與堿基編輯的兼容性。
這項(xiàng)研究中的關(guān)鍵結(jié)果,具體如下。
AI 生成 4.8 倍「CRISPR-Cas」蛋白質(zhì)宇宙
生成蛋白質(zhì)語(yǔ)言模型通常是在,大型涵蓋多種系統(tǒng)發(fā)育和功能的天然蛋白序列的數(shù)據(jù)集上,進(jìn)行預(yù)訓(xùn)練 。
這些模型能夠生成,反映天然蛋白質(zhì)分布和特性的真實(shí)蛋白質(zhì)序列。
然而,對(duì)于特定的應(yīng)用,例如新型基因編輯器的生成,有必要將生成過(guò)程導(dǎo)向特定的感興趣的蛋白家族子集。
對(duì)此,研究人員進(jìn)行了詳盡的數(shù)據(jù)挖掘來(lái)構(gòu)建數(shù)據(jù)庫(kù)。
他們搜索了 26.2TB 的組裝微生物基因組和宏基因組,發(fā)現(xiàn)了 1,246,163 個(gè) CRISPR-Cas 操縱子。
與 CRISPRCasDB 和 CasPDB 等精選數(shù)據(jù)庫(kù),以及世界上最大的蛋白質(zhì)資源 UniProt 相比,最新創(chuàng)建的數(shù)據(jù)庫(kù)顯示出更大的多樣性。
通過(guò)總結(jié)共性,研究人員發(fā)現(xiàn)了所有 CRISPR-Cas 蛋白的單一模型,能夠生成跨家族的不同序列。
為了生成新型 CRISPR-Cas 蛋白,作者在 CRISPR-Cas Atlas 上微調(diào)了基于 ProGen2 的語(yǔ)言模型,由此平衡了蛋白家族的表示和序列簇大小。
從這個(gè)模型中,研究者生成了 400 萬(wàn)個(gè)序列。其中一半是直接從模型生成的,另一半是由天然蛋白質(zhì) N 或 C 末端的最多 50 個(gè)殘基提示,以引導(dǎo)向特定蛋白的生成。
為了評(píng)估其新穎性和多樣性,作者使用 MMseqs2 對(duì)每個(gè)家族的生成序列和天然序列按 70% 的同一性進(jìn)行了聚類。
結(jié)果發(fā)現(xiàn),與 CRISPR-Cas 圖譜中的天然蛋白相比,生成序列實(shí)現(xiàn)了 4.8 倍的多樣性擴(kuò)展。
對(duì)于天然蛋白質(zhì)很少的家族,比如 Cas13 和 Cas12a,生成序列的多樣性分別增加了 8.4 倍和 6.2 倍。
另外,只需要極少的上下文,即提供 50 個(gè)或更少的殘基,就能針對(duì)某一特定科引導(dǎo)序列生成與感興趣的科保持一致。
100 萬(wàn)個(gè)類 Cas9 蛋白全部生成
雖然許多 CRISPR-Cas 蛋白已被用于基因組編輯 ,但 Cas9 仍是應(yīng)用最廣泛的一種。
為了生成類 Cas9 的新序列,研究人員從 CRISPR-Cas 圖譜中采樣,Cas9 的 N 端或 C 端 50 個(gè)殘基,對(duì) CRISPR-Cas 模型進(jìn)行了提示。
這里,作者使用了 CRISPR-Cas Atlas 中 238917 條 Cas9 序列,對(duì)另一個(gè)語(yǔ)言模型進(jìn)行了微調(diào)。
這一模型生成可行的類 Cas9 序列的速度是 CRISPR-Cas 模型的 2 倍(54.2%),而且需要任何提示。
為了探索 II 型效應(yīng)器的潛在序列分布,研究人員使用 Cas9 模型生成了 100 萬(wàn)個(gè) Cas9 蛋白。
生成的可存活代(n=542,042)與同一性為 40% 的天然 Cas9 聚類在一起,并用作構(gòu)建最大似然系統(tǒng)發(fā)育樹(shù)的輸入(圖 2a)。
引人注目的是,生成的蛋白質(zhì)主導(dǎo)了系統(tǒng)發(fā)育的格局,占系統(tǒng)發(fā)育總多樣性的 94.1%。
與整個(gè) CRISPR-Cas 圖譜相比,多樣性增加了 10.3 倍(圖 2b)。
新的系統(tǒng)發(fā)生群分布在整個(gè)樹(shù)中,這表明該模型捕捉到了 Cas9 的全部多樣性,并沒(méi)有過(guò)度擬合任何特定系。
生成的序列與 CRISPR-Cas 圖譜的差異很大,與任何自然序列的平均同一性只有 56.8%(圖 2c)。
總體而言,生成的序列與同一蛋白質(zhì)簇中天然蛋白質(zhì)的長(zhǎng)度密切匹配,皮爾遜相關(guān)性為 0.97(圖 2d)。
此外,圖 2e 顯示了,天然 Cas9、祖先序列重建和 48 個(gè)生成蛋白的靶上和脫靶的編輯效率。圖 2f 展示了自然 Cas9、祖先序列重建,以及生成蛋白在靶向編輯效率和特異性方面的對(duì)比。
生成的基因編輯器,在人類細(xì)胞中發(fā)揮作用
然后,研究者進(jìn)一步將關(guān)注范圍縮小到 CRISPR-Cas9 系統(tǒng),并在 CRISPR-Cas 圖譜中的 238,917 個(gè) Cas9 蛋白上,訓(xùn)練了蛋白質(zhì)語(yǔ)言模型。
使用這些模型,研究者生成了可與 SpCas9 互操作的 Cas9 樣蛋白。也就是說(shuō),它們與基因組的相同部分(PAM)結(jié)合,并與相同的 sgRNA 相容,因此,它們可用于相同的應(yīng)用。
研究者選擇了其中 48 個(gè)生成的序列,用于在人類細(xì)胞中進(jìn)行嚴(yán)格的功能表征。
最熱門(mén)的 OpenCRISPR-1,在靶向位點(diǎn)的活性與 SpCas9 相當(dāng)(OpenCRISPR-1 的編輯率為 55.7%,SpCas9 的編輯率為 48.3%),但令人驚訝的是,在脫靶位點(diǎn)的編輯減少了 95%(OpenCRISPR-1 的編輯率為 0.32%,SpCas9 為 6.1%)。
此外,作為一種非常新的蛋白質(zhì),OpenCRISPR-1 與 SpCas9 相距 403 個(gè)突變,與 CRISPR-Cas 圖譜中的任何天然蛋白質(zhì)相距 182 個(gè)突變。
研究者們還發(fā)現(xiàn),當(dāng)與脫氨酶配對(duì)時(shí),OpenCRISPR-1 和 SpCas9 在精確編輯靶基因組中的單個(gè)堿基時(shí),具有相似的活性和特異性。
他們還能保持堿基編輯活性,同時(shí)通過(guò)用由另一種 Profluent 訓(xùn)練的蛋白質(zhì)語(yǔ)言模型生成的脫氨酶,來(lái)提高特異性。
最后,為了進(jìn)一步優(yōu)化所生成的核酸酶的活性,研究者還訓(xùn)練了一個(gè)模型來(lái)為任何給定的 Cas9 樣蛋白生成相容的 sgRNA。
與 SpCas9 的 sgRNA 相比,這些生成的 sgRNA 可以提高所測(cè)試的五種蛋白質(zhì)中四種產(chǎn)生的核酸酶的活性。
AI,正在改善醫(yī)療保健
現(xiàn)在,全世界都有很多項(xiàng)目,在用 AI 技術(shù)改善醫(yī)療保健。
比如,華盛頓大學(xué)的科學(xué)家們正在用 ChatGPT 和 Midjourney 背后的方法來(lái),創(chuàng)造全新的蛋白質(zhì),并且正在努力加速新疫苗和藥物的開(kāi)發(fā)。
如今大火的許多生成式 AI,背后都是由神經(jīng)網(wǎng)絡(luò)驅(qū)動(dòng)的。通過(guò)分析大量數(shù)據(jù),神經(jīng)網(wǎng)絡(luò)就習(xí)得了某些技能。
比如,Midjourney 以神經(jīng)網(wǎng)絡(luò)為基礎(chǔ),分析了數(shù)百萬(wàn)張數(shù)字圖像,以及描述每張圖像的標(biāo)題。這樣,系統(tǒng)就學(xué)會(huì)了識(shí)別圖像和文字之間的聯(lián)系,可以畫(huà)出「犀牛從金門(mén)大橋上跳下來(lái)」這樣的畫(huà)。
Profluent 的技術(shù),也是由一個(gè)類似的 AI 模型驅(qū)動(dòng)的。
這個(gè)模型從氨基酸和核酸序列中學(xué)習(xí),正是這些化合物,定義了科學(xué)家用來(lái)編輯基因的微觀生物學(xué)機(jī)制。
本質(zhì)而言,它就是分析了從自然界中提取的 CRISPR 基因編輯器的行為,學(xué)習(xí)了如何生成全新的基因編輯器。
Profluent 的 CEO Ali Madani 介紹道,這些 AI 模型都是從序列中學(xué)習(xí)的,無(wú)論是字符、單詞、計(jì)算機(jī)代碼,還是氨基酸的序列。
Madani 先生在加州伯克利 Profluent 實(shí)驗(yàn)室內(nèi),此前他曾在軟件巨頭 Salesforce 的人工智能實(shí)驗(yàn)室工作
人類編輯基因,還會(huì)有多遠(yuǎn)
目前,Profluent 尚未對(duì)這些合成基因編輯器進(jìn)行臨床試驗(yàn),因此尚不清楚它們是否能與 CRISPR 的性能相媲美,甚至超過(guò) CRISPR。
但他們的研究表明了,AI 模型可以產(chǎn)生能夠編輯人類基因組的東西。
盡管如此,這項(xiàng)成果還不太可能在短期內(nèi)影響醫(yī)療保健。
UC 伯克利創(chuàng)新基因組學(xué)研究所的基因編輯先驅(qū)兼科學(xué)主任費(fèi) Fyodor Urnov 表示,科學(xué)家們并不缺乏天然存在的基因編輯器,用來(lái)對(duì)抗疾病。
真正的瓶頸在于,這項(xiàng)編輯器在用于臨床治療之前,還會(huì)因安全性、制造、監(jiān)管審查產(chǎn)生極高的成本。
但是,隨著學(xué)習(xí)越來(lái)越多的數(shù)據(jù),生成式 AI 系統(tǒng)的潛力不可小覷。
如果 Profluent 的技術(shù)繼續(xù)改進(jìn),終有一天,科學(xué)家們可以用更精確的方式編輯基因。到那時(shí),我們可能身處這樣一個(gè)世界 —— 許多藥物和治療方法,都能快速為個(gè)人量身定制。這是今天的人們所不敢想的。
「我夢(mèng)想著這樣一個(gè)世界,我們可以在幾周內(nèi)按需提供 CRISPR,」 Urnov 博士說(shuō)。
還有一個(gè)重大的問(wèn)題就是,CRIPSR 有風(fēng)險(xiǎn)嗎?
長(zhǎng)期以來(lái),科學(xué)家們一直在警告:不要使用 CRISPR 進(jìn)行人類增強(qiáng)!因?yàn)椋@是一項(xiàng)相對(duì)較新的技術(shù),很可能會(huì)產(chǎn)生不良的副作用,比如引發(fā)癌癥。而且還有些人會(huì)用于非道德的用途,比如轉(zhuǎn)基因人類胚胎。
合成基因編輯器,也面臨著這項(xiàng)問(wèn)題。而如今,科學(xué)家們已經(jīng)掌握了編輯胚胎所需的一切技術(shù)。
但 Fraser 博士表示,如果真的有人想用它們做壞事,也只會(huì)使用現(xiàn)有的東西,而非 AI 創(chuàng)建的編輯器。
參考資料:
https://www.profluent.bio/blog/editing-the-human-genome-with-ai
https://www.nytimes.com/2024/04/22/technology/generative-ai-gene-editing-crispr.html
本文來(lái)自微信公眾號(hào):新智元 (ID:AI_era)
廣告聲明:文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時(shí)間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。