Nature 子刊：用機器學(xué)習(xí)揭露人類基因調(diào)控背后的“語法”

量子位 2022/2/26 14:00:16 責編：長河

評論：

AI 又立功了。這次，來自芬蘭赫爾辛基大學(xué)的最新研究借助機器學(xué)習(xí)，破解了人類基因調(diào)控背后的“語法”。而在此之前，科學(xué)家僅僅是知道 DNA 可以決定基因在某時某處進行表達，現(xiàn)在終于對它背后的邏輯有了深刻的理解。

這項成果將給癌癥和遺傳病研究帶來新啟發(fā)，現(xiàn)已登上 Nature 子刊（自然?遺傳學(xué)）。

登上 Nature 子刊

破解基因調(diào)控背后的“語法”

正式開始之前，先來一點背景知識。基因調(diào)控（Gene regulation）是控制細胞內(nèi)基因活性的重要過程，不正確的調(diào)控會導(dǎo)致疾病產(chǎn)生，比如癌癥。

人類基因組的 DNA 包含為蛋白質(zhì)編碼的基因，這些蛋白質(zhì)序列可賦予肌肉細胞力量，賦予腦細胞處理信息的能力等。DNA 中還包含調(diào)控基因的元素，決定基因何時何地表達，比如確保肌肉基因只在肌肉里表達，大腦基因在大腦中表達。

我們一直對決定基因調(diào)控的編碼邏輯知之甚少，這是因為：雖然人類基因組包含近 30 億個堿基對，但基因組序列（genomic sequence）太短，無法用來學(xué)習(xí)背后的邏輯。

現(xiàn)在，芬蘭科學(xué)院腫瘤遺傳學(xué)高級研究中心的科學(xué)家們，采用了一種創(chuàng)新方法 —— 不使用自然基因組序列，而是將隨機合成的 DNA 序列引入人類細胞。

這些細胞讀取新的 DNA 后，突出顯出作為活性調(diào)控元素（active regulatory elements）的序列。這些序列就是要研究的對象。

作者介紹，它們的空間加起來是整個人類基因組的 100 倍。有了足夠規(guī)模的數(shù)據(jù)集，就可以利用機器學(xué)習(xí)進行數(shù)據(jù)分析了。

我們知道，基因表達受可結(jié)合 DNA 的轉(zhuǎn)錄因子（一種蛋白質(zhì)的總稱）調(diào)控。這個機器學(xué)習(xí)模型則顯示，單個轉(zhuǎn)錄因子以“加性”方式參與基因調(diào)控，且語法較弱（with weak grammar）。

在兩個主要調(diào)控元件 —— 增強子（增強轉(zhuǎn)錄作用）和啟動子（定義轉(zhuǎn)錄的起始）之中，增強子會以一種不在轉(zhuǎn)錄因子之間產(chǎn)生相互作用的機制增加啟動子的表達。

隨后，研究人員比較了三種不同的人類細胞：結(jié)腸癌細胞、肝癌細胞以及來自視網(wǎng)膜的正常細胞。他們發(fā)現(xiàn)只有少數(shù)轉(zhuǎn)錄因子在細胞中保持高度活性，但它們的活性與細胞類型無關(guān)，在哪里都是相似的。

這一結(jié)果表明，人類細胞中的基因調(diào)控元件可以根據(jù)染色質(zhì)環(huán)境（context）分為兩種：要么位于 DNA 密集的封閉染色質(zhì)區(qū)域，要么位于 DNA 沒有緊密圍繞組蛋白的更開放的染色質(zhì)環(huán)境中。

染色質(zhì)和染色體是同一種物質(zhì)的兩種形態(tài)。染色質(zhì)是伸展的狀態(tài)。有利于 DNA 信息的表達。傳統(tǒng)觀點則認為，活性調(diào)控元件只位于開放的染色質(zhì)區(qū)域內(nèi)，在這里轉(zhuǎn)錄因子很容易接觸到 DNA。

因此，在封閉染色質(zhì)區(qū)域內(nèi)發(fā)現(xiàn)起作用的活性調(diào)節(jié)元件是該研究的核心新觀察結(jié)果之一。此外，研究人員還發(fā)現(xiàn)了依賴于染色質(zhì)的調(diào)控元件。

這些元件在基因組中的正常位點具有活性，但如果將它們從原始位置移出并轉(zhuǎn)移到另一個基因附近，它們的活性就會大大降低。

論文地址：

https://www.nature.com/articles/s41588-021-01009-4

參考鏈接：

https://phys.org/news/2022-02-uncovers-grammar-human-gene.html

廣告聲明：文內(nèi)含有的對外跳轉(zhuǎn)鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時間，結(jié)果僅供參考，IT之家所有文章均包含本聲明。