設置
  • 日夜間
    隨系統(tǒng)
    淺色
    深色
  • 主題色

Nature 子刊:用機器學習揭露人類基因調控背后的“語法”

量子位 2022/2/26 14:00:16 責編:長河

AI 又立功了。這次,來自芬蘭赫爾辛基大學的最新研究借助機器學習,破解了人類基因調控背后的“語法”。而在此之前,科學家僅僅是知道 DNA 可以決定基因在某時某處進行表達,現(xiàn)在終于對它背后的邏輯有了深刻的理解。

這項成果將給癌癥和遺傳病研究帶來新啟發(fā),現(xiàn)已登上 Nature 子刊 (自然?遺傳學)。

登上 Nature 子刊

破解基因調控背后的“語法”

正式開始之前,先來一點背景知識。基因調控(Gene regulation)是控制細胞內基因活性的重要過程,不正確的調控會導致疾病產(chǎn)生,比如癌癥。

人類基因組的 DNA 包含為蛋白質編碼的基因,這些蛋白質序列可賦予肌肉細胞力量,賦予腦細胞處理信息的能力等。DNA 中還包含調控基因的元素,決定基因何時何地表達,比如確保肌肉基因只在肌肉里表達,大腦基因在大腦中表達。

我們一直對決定基因調控的編碼邏輯知之甚少,這是因為:雖然人類基因組包含近 30 億個堿基對,但基因組序列(genomic sequence)太短,無法用來學習背后的邏輯。

現(xiàn)在,芬蘭科學院腫瘤遺傳學高級研究中心的科學家們,采用了一種創(chuàng)新方法 —— 不使用自然基因組序列,而是將隨機合成的 DNA 序列引入人類細胞。

這些細胞讀取新的 DNA 后,突出顯出作為活性調控元素(active regulatory elements)的序列。這些序列就是要研究的對象。

作者介紹,它們的空間加起來是整個人類基因組的 100 倍。有了足夠規(guī)模的數(shù)據(jù)集,就可以利用機器學習進行數(shù)據(jù)分析了。

都有哪些發(fā)現(xiàn)?

我們知道,基因表達受可結合 DNA 的轉錄因子( 一種蛋白質的總稱)調控。這個機器學習模型則顯示,單個轉錄因子以“加性”方式參與基因調控,且語法較弱(with weak grammar)。

在兩個主要調控元件 —— 增強子(增強轉錄作用)和啟動子(定義轉錄的起始)之中,增強子會以一種不在轉錄因子之間產(chǎn)生相互作用的機制增加啟動子的表達。

隨后,研究人員比較了三種不同的人類細胞:結腸癌細胞、肝癌細胞以及來自視網(wǎng)膜的正常細胞。他們發(fā)現(xiàn)只有少數(shù)轉錄因子在細胞中保持高度活性,但它們的活性與細胞類型無關,在哪里都是相似的。

這一結果表明,人類細胞中的基因調控元件可以根據(jù)染色質環(huán)境(context)分為兩種:要么位于 DNA 密集的封閉染色質區(qū)域,要么位于 DNA 沒有緊密圍繞組蛋白的更開放的染色質環(huán)境中。

染色質和染色體是同一種物質的兩種形態(tài)。染色質是伸展的狀態(tài)。有利于 DNA 信息的表達。傳統(tǒng)觀點則認為,活性調控元件只位于開放的染色質區(qū)域內,在這里轉錄因子很容易接觸到 DNA。

因此,在封閉染色質區(qū)域內發(fā)現(xiàn)起作用的活性調節(jié)元件是該研究的核心新觀察結果之一。此外,研究人員還發(fā)現(xiàn)了依賴于染色質的調控元件。

這些元件在基因組中的正常位點具有活性,但如果將它們從原始位置移出并轉移到另一個基因附近,它們的活性就會大大降低。

論文地址:

https://www.nature.com/articles/s41588-021-01009-4

參考鏈接:

https://phys.org/news/2022-02-uncovers-grammar-human-gene.html

廣告聲明:文內含有的對外跳轉鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時間,結果僅供參考,IT之家所有文章均包含本聲明。

相關文章

關鍵詞:機器學習,基因

軟媒旗下網(wǎng)站: IT之家 最會買 - 返利返現(xiàn)優(yōu)惠券 iPhone之家 Win7之家 Win10之家 Win11之家

軟媒旗下軟件: 軟媒手機APP應用 魔方 最會買 要知