IT之家 1 月 12 日消息,哥倫比亞大學瓦格洛斯醫(yī)學院的研究團隊開發(fā)了一種新型人工智能(AI)模型 ——“通用表達轉換器”(GET),能夠準確預測任何人類細胞中的基因活性,從而揭示細胞的內部機制。這一研究成果發(fā)表在最新一期的《自然》雜志上,有望徹底改變科學家研究癌癥、遺傳疾病等的方式。
該研究的資深作者、系統(tǒng)生物學教授勞爾?拉巴丹(Raul Rabadan)表示:“可預測且通用的計算模型使我們能夠快速、準確地揭示生物過程。這些方法可以有效地進行大規(guī)模計算實驗,推動并指導傳統(tǒng)實驗方法的發(fā)展。”
傳統(tǒng)的生物學研究方法雖然擅長揭示細胞如何執(zhí)行其功能或對外界干擾作出反應,但無法預測細胞的工作機制或對變化的反應,例如致癌突變的影響。拉巴丹指出:“能夠準確預測細胞活動將徹底改變我們對基本生物過程的理解,使生物學從描述看似隨機過程的科學轉變?yōu)槟軌蝾A測細胞行為背后系統(tǒng)的科學?!?/p>
近年來,隨著細胞數(shù)據(jù)的海量積累和 AI 模型的日益強大,生物學正逐漸向預測性科學轉變。2024 年諾貝爾化學獎就授予了利用 AI 預測蛋白質結構的開創(chuàng)性研究。然而,使用 AI 方法預測細胞內基因和蛋白質的活動仍然面臨巨大挑戰(zhàn)。
據(jù)IT之家了解,在這項新研究中,拉巴丹及其團隊嘗試利用 AI 預測特定細胞中哪些基因處于活躍狀態(tài)。基因表達信息可以幫助研究人員確定細胞的身份及其功能執(zhí)行方式。拉巴丹實驗室的研究生傅曦(Xi Fu,音譯)決定采用一種不同的方法,利用從正常人體組織中獲取的數(shù)百萬個細胞的基因表達數(shù)據(jù)訓練機器學習模型。模型的輸入包括基因組序列以及顯示基因組哪些部分可訪問和表達的數(shù)據(jù)。
這一方法的整體思路類似于 ChatGPT 等流行的“基礎”模型。這些系統(tǒng)通過訓練數(shù)據(jù)識別底層規(guī)則(如語言的語法),然后將這些規(guī)則應用于新場景。拉巴丹解釋道:“我們的方法完全一致:我們從多種細胞狀態(tài)中學習‘語法’,然后將其應用于特定條件 —— 無論是病變細胞還是正常細胞 —— 并嘗試預測其行為模式?!?/p>
傅曦和拉巴丹隨后與多位合作者共同訓練和測試了這一新模型,其中包括共同第一作者亞歷杭德羅?布恩迪亞(Alejandro Buendia)和卡內基梅隆大學的申通莫(Shentong Mo,音譯)。在超過 130 萬個人類細胞數(shù)據(jù)上訓練后,該系統(tǒng)能夠準確預測從未見過的細胞類型的基因表達,其結果與實驗數(shù)據(jù)高度吻合。
接下來,研究團隊展示了其 AI 系統(tǒng)在揭示病變細胞隱藏生物學機制方面的強大能力。他們以一種遺傳性兒童白血病為例,利用 AI 預測了突變基因如何破壞兩種不同轉錄因子之間的相互作用,從而決定白血病細胞的命運。實驗室實驗證實了 AI 的預測。了解這些突變的影響可以揭示驅動這種疾病的特定機制。
此外,這一新型計算方法還為研究人員探索基因組“暗物質”的作用提供了可能。基因組“暗物質”是指基因組中不包含已知蛋白質編碼基因的絕大部分區(qū)域。拉巴丹指出:“癌癥患者中發(fā)現(xiàn)的大多數(shù)突變都位于基因組的‘暗區(qū)域’,這些突變不影響蛋白質功能,因此一直未被充分研究。通過使用這些模型,我們可以觀察突變并揭示基因組這一部分的功能?!?/p>
目前,拉巴丹正與哥倫比亞大學及其他機構的研究人員合作,探索從腦癌到血癌等多種癌癥,研究正常細胞中的調控“語法”以及細胞在癌癥發(fā)展過程中的變化。
這項研究不僅為理解癌癥以外的多種疾病開辟了新途徑,還可能為新療法的靶點識別提供支持。通過向計算機模型輸入新發(fā)現(xiàn)的突變,研究人員可以深入了解這些突變如何影響細胞。
拉巴丹認為,這項研究是生物學領域人工智能應用重大趨勢的一部分:“這是一個非常激動人心的生物學新時代,它將生物學轉變?yōu)橐环N預測性科學?!?/p>
廣告聲明:文內含有的對外跳轉鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時間,結果僅供參考,IT之家所有文章均包含本聲明。