首頁 > 科學探索>科技前沿

哈佛與牛津開發(fā)基因致病性預測模型，現(xiàn)已成功預測 3600 萬個致命基因突變

量子位 2021/10/28 16:43:57 責編：長河

評論：

直接從基因層面預測疾病，這一直是近現(xiàn)代醫(yī)學研究的主要方向之一。

然而，全體人類的基因變異體數(shù)量遠超現(xiàn)有的探測技術，甚至僅僅是不同個體的蛋白質區(qū)編碼也會展現(xiàn)出巨大的差異性。

因此，超過 98% 的基因變異給人體帶來的影響依舊是未知且無法預測的。

但最近，來自哈佛醫(yī)學院和牛津大學的科學家合作開發(fā)了一種 AI 模型，成功預測了 3219 個疾病基因中超過 3600 萬個變體的致病性，并將超過 25 萬個未知變體進行了歸類。

哈佛與牛津開發(fā)基因致病性預測模型，現(xiàn)已成功預測 3600 萬個致命基因突變

這項研究現(xiàn)已登上 Nature。

“從進化中預測致病性”

其實，現(xiàn)在臨床上已有用于預測基因變異影響的模型。

但這些模型往往是在經(jīng)過標注的臨床數(shù)據(jù)集上進行有監(jiān)督學習，一旦進入現(xiàn)實場景，標簽偏差、標簽稀疏以及噪音就會造成其準確率的下降，并不能作為基因變異體分類的可靠依據(jù)。

而這次的研究團隊提出了一個叫做 EVE（Evolutionary model of Variant Effect）的模型。

這是一個僅根據(jù)進化序列訓練的無監(jiān)督生成模型。

哈佛與牛津開發(fā)基因致病性預測模型，現(xiàn)已成功預測 3600 萬個致命基因突變

模型預測變異基因的致病性主要分為兩步：

第一步，使用變型自動編碼器 VAE 來學習蛋白質的氨基酸序列分布。

學習了多個領域的復雜高維分布之后，模型就捕捉到了進化過程中的自然序列約束，包括各種位置之間的復雜依賴關系。

再從得到的近似后驗分布（Approximate Posterior Distribution）中取樣，評估每個單一氨基酸變體相對于野生型的相對可能性。

這種相對可能性被稱為“進化指數(shù)”，與臨床標簽進行比較后發(fā)現(xiàn)，區(qū)分致病性和良性標簽的數(shù)值在不同的蛋白質中是一致的，這說明無監(jiān)督的方法能夠有效推斷致病性。

哈佛與牛津開發(fā)基因致病性預測模型，現(xiàn)已成功預測 3600 萬個致命基因突變

第二步，在所有單一氨基酸變體的進化指數(shù)分布上擬合了一個雙組分（two-component）的全局-局部高斯混合模型。

哈佛與牛津開發(fā)基因致病性預測模型，現(xiàn)已成功預測 3600 萬個致命基因突變

這一步的輸出是在區(qū)間 [0，1] 內定義的連續(xù)致病性值，0 代表良性，1 代表致病性。

然后將 EVE 模型運用于 ClinVar 數(shù)據(jù)庫中的 3219 個人類基因上，得到的結果圖中的平均曲線面積（AUC）為 0.91，說明 EVE 模型對絕大多數(shù)的基因變異都能做到具有臨床意義的預測：

哈佛與牛津開發(fā)基因致病性預測模型，現(xiàn)已成功預測 3600 萬個致命基因突變

優(yōu)于已知模型，與實驗預測效果一致

研究團隊也將 EVE 模型與已知的模型進行了對比，可以看到，在預先確定已知的已標注臨床數(shù)據(jù)的預測上，其效果優(yōu)于同類計算模型：

哈佛與牛津開發(fā)基因致病性預測模型，現(xiàn)已成功預測 3600 萬個致命基因突變

那么這樣一個 AI 計算模型與用于預測致病性的經(jīng)典方法 —— 深度突變掃描實驗（Deep Mutational Scan Experiment）相比效果又如何呢？

對比實驗后可以看到，EVE 模型在臨床預測方面的總體表現(xiàn)與經(jīng)典方法效果基本一致：

哈佛與牛津開發(fā)基因致病性預測模型，現(xiàn)已成功預測 3600 萬個致命基因突變

而當從 ClinVar 數(shù)據(jù)庫中選擇一組數(shù)量規(guī)模更大，但高質量標注較小的數(shù)據(jù)時，EVE 模型的表現(xiàn)甚至更好：

哈佛與牛津開發(fā)基因致病性預測模型，現(xiàn)已成功預測 3600 萬個致命基因突變

哈佛 & 牛津合作出品

這篇論文有三位共同一作，其中 Jonathan Frazer 和 Mafalda Dias 都來自哈佛大學的系統(tǒng)生物學，他們同時也是 Marks Group 實驗室中的一員。

哈佛與牛津開發(fā)基因致病性預測模型，現(xiàn)已成功預測 3600 萬個致命基因突變

而 Pascal Notin 則是來自牛津大學的計算機科學專業(yè)的博士生，主要研究領域包括貝葉斯深度學習、生成模型、因果推理和計算生物學的交叉領域。

哈佛與牛津開發(fā)基因致病性預測模型，現(xiàn)已成功預測 3600 萬個致命基因突變

論文鏈接：

https://www.nature.com/articles/s41586-021-04043-8

廣告聲明：文內含有的對外跳轉鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時間，結果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮

關鍵詞：模型，人工智能

哈佛與牛津開發(fā)基因致病性預測模型，現(xiàn)已成功預測 3600 萬個致命基因突變

“從進化中預測致病性”

優(yōu)于已知模型，與實驗預測效果一致

哈佛 & 牛津合作出品

相關文章

優(yōu)于已知模型，與實驗預測效果一致