設(shè)置
  • 日夜間
    隨系統(tǒng)
    淺色
    深色
  • 主題色

AI 成功改寫人類 DNA:全球首個基因編輯器開源,近 5 倍蛋白質(zhì)宇宙 LLM 全生成

新智元 2024/4/24 14:01:48 責(zé)編:汪淼

【新智元導(dǎo)讀】剛剛,分子生物學(xué)界引爆核彈級消息:人類的 DNA,已經(jīng)能由 AI 重新改寫了!初創(chuàng)公司 Profluent 宣布開源了世界首個 AI 設(shè)計基因編輯器,成功編輯了人類細(xì)胞中的 DNA。這可太科幻了,如果有機(jī)會,你會選擇「改造」自己的 DNA 嗎?

AI,能夠重寫人類基因組了?

就在剛剛,初創(chuàng)公司 Profluent 宣布,完全由 AI 設(shè)計的基因編輯器,已經(jīng)成功編輯了人類細(xì)胞中的 DNA。

也就是說,世界上首個使用 AI 從頭設(shè)計的分子級精確基因編輯器誕生了。

就像 ChatGPT 能生成詩歌一樣,Profluent 這個全新的 AI 系統(tǒng),可以讓我們編輯自己 DNA 的微觀機(jī)制生成藍(lán)圖。

在迄今最廣泛的基于 CRISPR 的基因編輯系統(tǒng)數(shù)據(jù)集上,研究者訓(xùn)練了 LLM。這些 LLM 產(chǎn)生的蛋白質(zhì),將幾乎所有天然存在的 CRISPR-Cas 家族的多樣性,擴(kuò)大了 4.8 倍!

并且,基因編輯器在人類細(xì)胞中顯示出了與 SpCas9(一個示例基因編輯器)相當(dāng)或更好的活性和特異性,同時距離超過 400 個突變。

這也就意味著,我們掌握了自己的基因組密碼。未來的科學(xué)家,會比今天更精確、更快速地對抗疾病。而且,公司還決定,會在 OpenCRISPR 協(xié)議下,自由釋放這些 DNA 分子。

OpenCRISPR-1 的物理結(jié)構(gòu),OpenCRISPR-1 即是由 Profluent 的 AI 技術(shù)創(chuàng)建的基因編輯器

▲ OpenCRISPR-1 的物理結(jié)構(gòu),OpenCRISPR-1 即是由 Profluent 的 AI 技術(shù)創(chuàng)建的基因編輯器

Profluent 聯(lián)創(chuàng) Ali Madani 表示,「嘗試用 AI 設(shè)計的生物系統(tǒng),編輯人類 DNA 是一次科學(xué)登月之旅」。

「我們的成功表明,在未來,AI 可精準(zhǔn)設(shè)計出一系列定制的疾病治療方案」。

有網(wǎng)友表示,「是時候重新編程人類了嗎?AI 驅(qū)動的 CRISPR 技術(shù)進(jìn)步,正挑戰(zhàn)著基因倫理的邊界」。

如果你可以改變自己的 DNA,你會這么做嗎?

貧血、失明疾病的基因,由我們自己修改

初創(chuàng)公司 Profluent 在剛剛發(fā)表的這篇論文中,詳細(xì)描述了這項技術(shù)。

論文地址:https://www.biorxiv.org/content/10.1101/2024.04.22.590591v1.full.pdf

論文預(yù)計將于下月,在美國基因與細(xì)胞治療學(xué)會年會上發(fā)表。

這項技術(shù)和驅(qū)動 ChatGPT 的方法是一樣的,它在分析大量生物數(shù)據(jù)后,創(chuàng)造了新的基因編輯器,包括科學(xué)家已經(jīng)用于編輯人類 DNA 的微觀機(jī)制。

這些基因編輯器基于的是諾獎的獲獎方法,涉及一種名叫 CRISPR 的生物機(jī)制。

基于 CRISPR 的技術(shù)誕生后,即在業(yè)界引起轟動。它改變了科學(xué)家研究疾病的方式。

在以前,如果我們不幸得了鐮狀細(xì)胞性貧血和失明這樣的遺傳性疾病,往往束手無策,而現(xiàn)在,CRISPR 技術(shù)可以直接讓我們修改導(dǎo)致這些疾病的基因了!

CRISPR 方法使用的是我們在自然界中發(fā)現(xiàn)的機(jī)制:從細(xì)菌中收集的生物材料,竟然神奇地賦予了這些微生物抵抗細(xì)菌的能力。

加州大學(xué)舊金山分校生物工程和治療科學(xué)系教授兼系主任 James Fraser 介紹說,這些生物材料從未在地球上存在過,而 Profluent 的 AI 系統(tǒng),正是從大自然中學(xué)習(xí)如何創(chuàng)造這些全新的東西。

如果這些技術(shù)繼續(xù)發(fā)展,所產(chǎn)生的基因編輯器,或許會比我們?nèi)祟惤?jīng)過數(shù)十億年進(jìn)化磨練的基因編輯器更靈活、更強(qiáng)大。

現(xiàn)在,Profluent 表示正在開源 OpenCRISPR-1 編輯器,這也就意味著,個人、學(xué)術(shù)實(shí)驗(yàn)室和公司都能免費(fèi)使用這些技術(shù)。

AI 界常見的開源,可以加速新技術(shù)的產(chǎn)生。不過,對于生物實(shí)驗(yàn)室和制藥公司來說,像 OpenCRISPR-1 這樣的開源并不常見。

當(dāng)然,Profluent 也只是開源了其 AI 技術(shù)生成的基因編輯器,并沒有開源 AI 技術(shù)本身。

由 OpenCRISPR-1 編輯的人類細(xì)胞延時攝影

▲ 由 OpenCRISPR-1 編輯的人類細(xì)胞延時攝影

AI 編輯蛋白質(zhì),為何意義重大

目前,蛋白質(zhì)工程界想要復(fù)制功能性蛋白質(zhì),或者用「定向進(jìn)化」來迭代修飾,通常還是需要從自然界中復(fù)制。

許多對人類有重大意義的蛋白質(zhì),都是我們偶然發(fā)現(xiàn)的,比如狗的胰島素、酸奶設(shè)施中的 Cas9 和經(jīng)常造成食物中毒的肉毒桿菌毒素。

大型生成蛋白質(zhì)語言模型的作用,就是可以捕獲使天然蛋白質(zhì)發(fā)揮作用的基本藍(lán)圖。它們勾勒出一條捷徑,可以繞過進(jìn)化的隨機(jī)過程,推動人類有意識地為特定目的設(shè)計蛋白質(zhì)。

Cas9 蛋白,是 CRISPR-Cas9 基因編輯系統(tǒng)的核心組成部分,它是一種 RNA 引導(dǎo)的核酸酶,可以搜索人類基因組中的所有 30 億個核苷酸,并在一個特定位點(diǎn)進(jìn)行切割。

這種核酸酶與單導(dǎo) RNA(sgRNA)復(fù)合在一起,sgRNA 由一個在結(jié)構(gòu)上與蛋白質(zhì)相互作用的支架和一個間隔序列組成,后者可通過編程靶向基因組中的任何位點(diǎn)。

棘手的是,大多數(shù) Cas9 蛋白的長度超過 1000 個氨基酸,整個設(shè)計空間包含 20^1000 種可能的序列,比起可觀測宇宙中的原子數(shù)量,它都要高出幾個數(shù)量級!

而且,由于這些蛋白質(zhì)必須以精確的順序協(xié)調(diào)許多相互作用,才能實(shí)現(xiàn)精確切割,因此即使是單個錯位突變,也可能完全消除蛋白質(zhì)的功能。

如果通過實(shí)驗(yàn)窮盡所有可能的序列變異,許多科學(xué)家?guī)纵呑訒r間都做不完。然而,AI 系統(tǒng)卻能很輕松地探索整個搜索空間,發(fā)現(xiàn)功能性的基因編輯器。而且,只需要花幾個小時!

全球首個開源基因編輯器,改寫人類 DNA

基因編輯器 OpenCRISPR-1,由一個 Cas9 樣蛋白質(zhì),和引導(dǎo) RNA(guide RNA)構(gòu)成。

正如之前所述,它是完全由 Profluent 的 AI 大模型開發(fā)的。

在具體實(shí)現(xiàn)過程中,研究人員對 26TB 組裝的「基因組」和「元基因組」數(shù)據(jù)庫系統(tǒng)進(jìn)行挖掘,整理出超 100 萬個 CRISPR 操縱子(operon)的數(shù)據(jù)集。

通過訓(xùn)練 OpenCRISPR,AI 從大規(guī)模序列和生物背景中學(xué)習(xí),生成了自然界不存在的數(shù)百萬種 CRISPR 樣蛋白。

研究人員稱,AI 生成了自然界中已發(fā)現(xiàn)的「CRISPR-Cas 家族」的 4.8 倍的蛋白質(zhì)集群,完全實(shí)現(xiàn)了指數(shù)級擴(kuò)展!

而且,語言模型還為類 Cas9 效應(yīng)蛋白定制了單引導(dǎo) RNA 序列。

與原型基因編輯效應(yīng)器 SpCas9 相比,幾個生成的基因編輯器顯示出,可比或改進(jìn)的活性和特異性,同時在序列上相差 400 個突變。

最后,研究人員還證明了 AI 生成的基因編輯 OpenCRISPR-1 與堿基編輯的兼容性。

這項研究中的關(guān)鍵結(jié)果,具體如下。

AI 生成 4.8 倍「CRISPR-Cas」蛋白質(zhì)宇宙

生成蛋白質(zhì)語言模型通常是在,大型涵蓋多種系統(tǒng)發(fā)育和功能的天然蛋白序列的數(shù)據(jù)集上,進(jìn)行預(yù)訓(xùn)練 。

這些模型能夠生成,反映天然蛋白質(zhì)分布和特性的真實(shí)蛋白質(zhì)序列。

然而,對于特定的應(yīng)用,例如新型基因編輯器的生成,有必要將生成過程導(dǎo)向特定的感興趣的蛋白家族子集。

對此,研究人員進(jìn)行了詳盡的數(shù)據(jù)挖掘來構(gòu)建數(shù)據(jù)庫。

他們搜索了 26.2TB 的組裝微生物基因組和宏基因組,發(fā)現(xiàn)了 1,246,163 個 CRISPR-Cas 操縱子。

與 CRISPRCasDB 和 CasPDB 等精選數(shù)據(jù)庫,以及世界上最大的蛋白質(zhì)資源 UniProt 相比,最新創(chuàng)建的數(shù)據(jù)庫顯示出更大的多樣性。

通過總結(jié)共性,研究人員發(fā)現(xiàn)了所有 CRISPR-Cas 蛋白的單一模型,能夠生成跨家族的不同序列。

為了生成新型 CRISPR-Cas 蛋白,作者在 CRISPR-Cas Atlas 上微調(diào)了基于 ProGen2 的語言模型,由此平衡了蛋白家族的表示和序列簇大小。

從這個模型中,研究者生成了 400 萬個序列。其中一半是直接從模型生成的,另一半是由天然蛋白質(zhì) N 或 C 末端的最多 50 個殘基提示,以引導(dǎo)向特定蛋白的生成。

為了評估其新穎性和多樣性,作者使用 MMseqs2 對每個家族的生成序列和天然序列按 70% 的同一性進(jìn)行了聚類。

結(jié)果發(fā)現(xiàn),與 CRISPR-Cas 圖譜中的天然蛋白相比,生成序列實(shí)現(xiàn)了 4.8 倍的多樣性擴(kuò)展。

對于天然蛋白質(zhì)很少的家族,比如 Cas13 和 Cas12a,生成序列的多樣性分別增加了 8.4 倍和 6.2 倍。

另外,只需要極少的上下文,即提供 50 個或更少的殘基,就能針對某一特定科引導(dǎo)序列生成與感興趣的科保持一致。

100 萬個類 Cas9 蛋白全部生成

雖然許多 CRISPR-Cas 蛋白已被用于基因組編輯 ,但 Cas9 仍是應(yīng)用最廣泛的一種。

為了生成類 Cas9 的新序列,研究人員從 CRISPR-Cas 圖譜中采樣,Cas9 的 N 端或 C 端 50 個殘基,對 CRISPR-Cas 模型進(jìn)行了提示。

這里,作者使用了 CRISPR-Cas Atlas 中 238917 條 Cas9 序列,對另一個語言模型進(jìn)行了微調(diào)。

這一模型生成可行的類 Cas9 序列的速度是 CRISPR-Cas 模型的 2 倍(54.2%),而且需要任何提示。

為了探索 II 型效應(yīng)器的潛在序列分布,研究人員使用 Cas9 模型生成了 100 萬個 Cas9 蛋白。

生成的可存活代(n=542,042)與同一性為 40% 的天然 Cas9 聚類在一起,并用作構(gòu)建最大似然系統(tǒng)發(fā)育樹的輸入(圖 2a)。

引人注目的是,生成的蛋白質(zhì)主導(dǎo)了系統(tǒng)發(fā)育的格局,占系統(tǒng)發(fā)育總多樣性的 94.1%。

與整個 CRISPR-Cas 圖譜相比,多樣性增加了 10.3 倍(圖 2b)。

新的系統(tǒng)發(fā)生群分布在整個樹中,這表明該模型捕捉到了 Cas9 的全部多樣性,并沒有過度擬合任何特定系。

生成的序列與 CRISPR-Cas 圖譜的差異很大,與任何自然序列的平均同一性只有 56.8%(圖 2c)。

總體而言,生成的序列與同一蛋白質(zhì)簇中天然蛋白質(zhì)的長度密切匹配,皮爾遜相關(guān)性為 0.97(圖 2d)。

此外,圖 2e 顯示了,天然 Cas9、祖先序列重建和 48 個生成蛋白的靶上和脫靶的編輯效率。圖 2f 展示了自然 Cas9、祖先序列重建,以及生成蛋白在靶向編輯效率和特異性方面的對比。

生成的基因編輯器,在人類細(xì)胞中發(fā)揮作用

然后,研究者進(jìn)一步將關(guān)注范圍縮小到 CRISPR-Cas9 系統(tǒng),并在 CRISPR-Cas 圖譜中的 238,917 個 Cas9 蛋白上,訓(xùn)練了蛋白質(zhì)語言模型。

使用這些模型,研究者生成了可與 SpCas9 互操作的 Cas9 樣蛋白。也就是說,它們與基因組的相同部分(PAM)結(jié)合,并與相同的 sgRNA 相容,因此,它們可用于相同的應(yīng)用。

研究者選擇了其中 48 個生成的序列,用于在人類細(xì)胞中進(jìn)行嚴(yán)格的功能表征。

最熱門的 OpenCRISPR-1,在靶向位點(diǎn)的活性與 SpCas9 相當(dāng)(OpenCRISPR-1 的編輯率為 55.7%,SpCas9 的編輯率為 48.3%),但令人驚訝的是,在脫靶位點(diǎn)的編輯減少了 95%(OpenCRISPR-1 的編輯率為 0.32%,SpCas9 為 6.1%)。

此外,作為一種非常新的蛋白質(zhì),OpenCRISPR-1 與 SpCas9 相距 403 個突變,與 CRISPR-Cas 圖譜中的任何天然蛋白質(zhì)相距 182 個突變。

多種生成的核酸酶(綠色),包括 OpenCRISPR-1(深綠色),具有與 SpCas9(藍(lán)色)相當(dāng)或更高的靶向活性,但脫靶活性要低得多

▲ 多種生成的核酸酶(綠色),包括 OpenCRISPR-1(深綠色),具有與 SpCas9(藍(lán)色)相當(dāng)或更高的靶向活性,但脫靶活性要低得多

研究者們還發(fā)現(xiàn),當(dāng)與脫氨酶配對時,OpenCRISPR-1 和 SpCas9 在精確編輯靶基因組中的單個堿基時,具有相似的活性和特異性。

他們還能保持堿基編輯活性,同時通過用由另一種 Profluent 訓(xùn)練的蛋白質(zhì)語言模型生成的脫氨酶,來提高特異性。

使用 ABE8.20(一種高活性工程脫氨酶)以及生成的脫氨酶 PF-DEAM-1 和 PF-DEAM-2 進(jìn)行堿基編輯時,OpenCRISPR-1 的功能與 SpCas9 非常相似

▲ 使用 ABE8.20(一種高活性工程脫氨酶)以及生成的脫氨酶 PF-DEAM-1 和 PF-DEAM-2 進(jìn)行堿基編輯時,OpenCRISPR-1 的功能與 SpCas9 非常相似

最后,為了進(jìn)一步優(yōu)化所生成的核酸酶的活性,研究者還訓(xùn)練了一個模型來為任何給定的 Cas9 樣蛋白生成相容的 sgRNA。

與 SpCas9 的 sgRNA 相比,這些生成的 sgRNA 可以提高所測試的五種蛋白質(zhì)中四種產(chǎn)生的核酸酶的活性。

對于測試的 5 種生成的核酸酶中的 4 種,使用模型生成的 sgRNA 提高了編輯效率

▲ 對于測試的 5 種生成的核酸酶中的 4 種,使用模型生成的 sgRNA 提高了編輯效率

AI,正在改善醫(yī)療保健

現(xiàn)在,全世界都有很多項目,在用 AI 技術(shù)改善醫(yī)療保健。

比如,華盛頓大學(xué)的科學(xué)家們正在用 ChatGPT 和 Midjourney 背后的方法來,創(chuàng)造全新的蛋白質(zhì),并且正在努力加速新疫苗和藥物的開發(fā)。

如今大火的許多生成式 AI,背后都是由神經(jīng)網(wǎng)絡(luò)驅(qū)動的。通過分析大量數(shù)據(jù),神經(jīng)網(wǎng)絡(luò)就習(xí)得了某些技能。

比如,Midjourney 以神經(jīng)網(wǎng)絡(luò)為基礎(chǔ),分析了數(shù)百萬張數(shù)字圖像,以及描述每張圖像的標(biāo)題。這樣,系統(tǒng)就學(xué)會了識別圖像和文字之間的聯(lián)系,可以畫出「犀牛從金門大橋上跳下來」這樣的畫。

Profluent 的技術(shù),也是由一個類似的 AI 模型驅(qū)動的。

這個模型從氨基酸和核酸序列中學(xué)習(xí),正是這些化合物,定義了科學(xué)家用來編輯基因的微觀生物學(xué)機(jī)制。

本質(zhì)而言,它就是分析了從自然界中提取的 CRISPR 基因編輯器的行為,學(xué)習(xí)了如何生成全新的基因編輯器。

Profluent 的 CEO Ali Madani 介紹道,這些 AI 模型都是從序列中學(xué)習(xí)的,無論是字符、單詞、計算機(jī)代碼,還是氨基酸的序列。

Madani 先生在加州伯克利 Profluent 實(shí)驗(yàn)室內(nèi),此前他曾在軟件巨頭 Salesforce 的人工智能實(shí)驗(yàn)室工作

人類編輯基因,還會有多遠(yuǎn)

目前,Profluent 尚未對這些合成基因編輯器進(jìn)行臨床試驗(yàn),因此尚不清楚它們是否能與 CRISPR 的性能相媲美,甚至超過 CRISPR。

但他們的研究表明了,AI 模型可以產(chǎn)生能夠編輯人類基因組的東西。

盡管如此,這項成果還不太可能在短期內(nèi)影響醫(yī)療保健。

UC 伯克利創(chuàng)新基因組學(xué)研究所的基因編輯先驅(qū)兼科學(xué)主任費(fèi) Fyodor Urnov 表示,科學(xué)家們并不缺乏天然存在的基因編輯器,用來對抗疾病。

真正的瓶頸在于,這項編輯器在用于臨床治療之前,還會因安全性、制造、監(jiān)管審查產(chǎn)生極高的成本。

但是,隨著學(xué)習(xí)越來越多的數(shù)據(jù),生成式 AI 系統(tǒng)的潛力不可小覷。

如果 Profluent 的技術(shù)繼續(xù)改進(jìn),終有一天,科學(xué)家們可以用更精確的方式編輯基因。到那時,我們可能身處這樣一個世界 —— 許多藥物和治療方法,都能快速為個人量身定制。這是今天的人們所不敢想的。

「我夢想著這樣一個世界,我們可以在幾周內(nèi)按需提供 CRISPR,」 Urnov 博士說。

還有一個重大的問題就是,CRIPSR 有風(fēng)險嗎?

長期以來,科學(xué)家們一直在警告:不要使用 CRISPR 進(jìn)行人類增強(qiáng)!因?yàn)椋@是一項相對較新的技術(shù),很可能會產(chǎn)生不良的副作用,比如引發(fā)癌癥。而且還有些人會用于非道德的用途,比如轉(zhuǎn)基因人類胚胎。

合成基因編輯器,也面臨著這項問題。而如今,科學(xué)家們已經(jīng)掌握了編輯胚胎所需的一切技術(shù)。

但 Fraser 博士表示,如果真的有人想用它們做壞事,也只會使用現(xiàn)有的東西,而非 AI 創(chuàng)建的編輯器。

參考資料:

本文來自微信公眾號:新智元 (ID:AI_era)

廣告聲明:文內(nèi)含有的對外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。

相關(guān)文章

關(guān)鍵詞:基因編輯,蛋白質(zhì)AI基因,DNA

軟媒旗下網(wǎng)站: IT之家 最會買 - 返利返現(xiàn)優(yōu)惠券 iPhone之家 Win7之家 Win10之家 Win11之家

軟媒旗下軟件: 軟媒手機(jī)APP應(yīng)用 魔方 最會買 要知