科學家開發(fā)標記和檢索 DNA 數(shù)據(jù)文件新技術(shù)，DNA 數(shù)據(jù)存儲有望成真

2021/6/15 9:56:40 來源：新浪科技作者：任天責編：遠洋

評論：

北京時間 6 月 15 日消息，據(jù)國外媒體報道，在近期的一項新研究中，美國麻省理工學院的科學家開發(fā)了一種標記和檢索 DNA 數(shù)據(jù)文件的技術(shù)，這或許能讓 DNA 數(shù)據(jù)存儲成為可能。

此時此刻，地球上大約有 10 萬億吉字節(jié)（GB）的數(shù)據(jù)量，而每一天，人類制造出來的電子郵件、照片、社交媒體動態(tài)和其他數(shù)字文件加起來，又有 250 萬吉字節(jié)的數(shù)據(jù)。這些數(shù)據(jù)中的大部分都存儲在名為“艾字節(jié)（exabyte，簡稱 EB）數(shù)據(jù)中心”的巨大設(shè)施中（1EB 相當于 10 億 GB），其規(guī)?？赡苡袔讉€足球場那么大，建造和維護成本約為 10 億美元。

許多科學家認為，解決天量數(shù)據(jù)存儲問題的另一種辦法在于包含我們遺傳信息的生物大分子：脫氧核糖核酸（DNA）。從地球生命誕生至今，DNA 已經(jīng)進化到可以以極高的密度存儲大量信息，理論上一個裝滿 DNA 的咖啡杯就可以存儲世界上所有的數(shù)據(jù)。

我們需要新的解決方案，來存儲世界正不斷積累的大量數(shù)據(jù)，尤其是檔案數(shù)據(jù)，DNA 的密度甚至是閃存的 1000 倍。另一個有趣的特性是，DNA 聚合物一旦制造出來，它就不會再消耗任何能量。你可以把數(shù)據(jù)寫入 DNA，然后永久存儲起來。

科學家已經(jīng)證明，圖像和文本可以編碼為 DNA，但我們還需要一種從許多 DNA 片段混合物中挑選出所需文件的簡單方法。在新研究中，科學家展示了一種方法，能將每個數(shù)據(jù)文件封裝到一個 6 微米的二氧化硅球形“膠囊”中，并使用 DNA 短序列作為標簽，以顯示其文件內(nèi)容。

利用這種方法，研究人員從包含 20 張圖像的 DNA 文件中準確提取出了以 DNA 序列形式存儲的單個圖像?？紤]到可以用到的標簽數(shù)量，這種方法最多能擴展到 10^20 個文件。

穩(wěn)定的存儲介質(zhì)

科學家開發(fā)標記和檢索 DNA 數(shù)據(jù)文件新技術(shù)，DNA 數(shù)據(jù)存儲有望成真

這些由二氧化硅制成的球體便是 DNA“文件”，每個球體中都包含編碼特定圖像的 DNA 序列，其外部覆蓋有描述圖像內(nèi)容的核苷酸條形碼

數(shù)字存儲系統(tǒng)將文本、照片和其他類型的信息都編碼為一系列的 0 和 1，同樣的信息也可以用構(gòu)成遺傳密碼的 4 種核苷酸（A、T、G 和 C，即腺嘌呤、胸腺嘧啶、鳥嘌呤和胞嘧啶）編碼在 DNA 中。例如，G 和 C 可以代表 0，而 A 和 T 代表 1。

作為存儲介質(zhì)，DNA 還具有其他幾個特點。首先，它非常穩(wěn)定，而且合成和測序都相當容易（但目前還十分昂貴）。其次，它具有非常高的存儲密度 ——1 個核苷酸相當于 2 個比特，大約為 1 立方納米。因此，以 DNA 形式存儲的數(shù)據(jù)完全可以放在我們的手掌中。

這種存儲數(shù)據(jù)的新方法面臨著諸多障礙，首先就是合成如此大量 DNA 需要耗費的成本。目前，寫入 1 拍字節(jié)（100 萬 GB）的數(shù)據(jù)需要花費 1 萬億美元。為了與磁帶（通常用于存儲檔案數(shù)據(jù)）競爭，估計 DNA 合成的成本需要降低約 6 個數(shù)量級，這一目標可能會在 10 年或 20 年內(nèi)實現(xiàn)，就像過去幾十年來閃存存儲信息的成本大幅下降一樣。

除了成本之外，使用 DNA 存儲數(shù)據(jù)的另一個主要瓶頸是，我們很難從所有文件中挑選出想要的文件。

假設(shè)寫入 DNA 的技術(shù)已經(jīng)很先進，可以實現(xiàn)在 DNA 中寫入 1 艾字節(jié)或 1 澤字節(jié)（zettabyte，簡稱 ZB，1ZB=1000EB）數(shù)據(jù)的成本效益，會發(fā)生什么？你會有一大堆的 DNA，也就是無數(shù)的文件、圖像或電影和其他東西，但你需要在其中找到想要的某一張圖片或某一部電影，這就像大海撈針。

目前，DNA 文件通常使用 PCR（聚合酶鏈式反應）方法來檢索。每個 DNA 數(shù)據(jù)文件都包含一個與特定 PCR 引物結(jié)合的序列。為了讀取某個特定的文件，需要將該引物添加到樣品中，找到并放大所想要的序列。然而，這種方法的一個缺點是，引物與目標序列以外的 DNA 序列之間可能存在串擾，導致不必要的文件輸出。此外，PCR 的檢索過程需要用到酶，最終會消耗庫中的大部分 DNA，這有點像在干草堆里找一根針，因為其他所有 DNA 都沒有被放大，因此基本上它們都被扔掉了。

解決 DNA 文件檢索難題

科學家開發(fā)標記和檢索 DNA 數(shù)據(jù)文件新技術(shù)，DNA 數(shù)據(jù)存儲有望成真

研究人員將這樣的圖像儲存在 DNA 中

麻省理工學院的研究小組開發(fā)了一種新的檢索技術(shù)，希望取代 PCR 方法。他們將每個 DNA 文件封裝到一個微小的二氧化硅膠囊中，每個膠囊都貼上了由單鏈 DNA 組成的“條形碼”，與文件內(nèi)容相對應。為了證明這種方法的成本效益，研究人員將 20 個不同的圖像編碼到大約長度為 3000 個核苷酸的 DNA 片段中，這大致相當于 100 個字節(jié)（他們的研究還顯示，這些膠囊可以容納高達 1GB 的 DNA 文件）。

研究中的每個文件都有相應的條形碼標簽，如“貓”或“飛機”等。當研究人員想要提取一個特定的圖像時，他們會取出一個 DNA 樣本，加入與目標標簽相對應的引物。例如，老虎的圖像對應的標簽是“貓”“橘色”和“野生”，而家貓的圖像對應“貓”“橘色”和“家養(yǎng)”。

這些引物用熒光或磁性顆粒標記，便于從樣本中提取并識別匹配片段。通過這種方法，研究人員可以將需要的文件移出來，剩下的 DNA 則完整地放回去，繼續(xù)存儲數(shù)據(jù)。他們的檢索過程允許布爾邏輯語句，如“總統(tǒng)和 18 世紀”會生成“喬治?華盛頓”的結(jié)果，這很類似谷歌的圖像檢索。

在目前的概念驗證階段，搜索速度是每秒 1000 字節(jié)（1KB）。文件系統(tǒng)的搜索速度是由每個膠囊的數(shù)據(jù)量大小決定的，而目前限制數(shù)據(jù)量大小的因素就是在 DNA 上寫入 100 兆字節(jié)（MB）數(shù)據(jù)所需的高昂成本，以及可以并行使用的分類器的數(shù)量。如果 DNA 合成變得足夠便宜，就能夠用這種方法將每個文件存儲的數(shù)據(jù)量最大化。

研究人員所使用的條形碼 —— 單鏈 DNA 序列 —— 取自哈佛醫(yī)學院遺傳學和醫(yī)學教授史蒂芬?埃利奇開發(fā)的序列庫，其中包含了 10 萬個序列。如果給每個文件貼上兩個這樣的標簽，就可以唯一地標記 100 億（10^10）個不同的文件；如果每個文件上有 4 個標簽，就可以唯一地標記 10^20 個文件。

在 DNA 中寫入、復制、讀取，以及用 DNA 進行低能耗的檔案數(shù)據(jù)存儲方面，我們?nèi)〉昧丝焖龠M步，但這也使得從巨大的數(shù)據(jù)庫（10^21 字節(jié)，澤字節(jié)規(guī)模）中精確檢索數(shù)據(jù)文件變得極為困難，這項新研究引人注目的地方在于，它使用一個完全獨立的 DNA 外層解決了這個問題，擴展了 DNA 的不同屬性（雜交而非測序），而且使用的是現(xiàn)有的儀器和化學試劑。

科學家設(shè)想這種 DNA 封裝技術(shù)可以用于存儲“冷”數(shù)據(jù)，即保存在檔案中但不經(jīng)常訪問的數(shù)據(jù)。目前，研究實驗室已經(jīng)成立了一家名為 Cache DNA 的初創(chuàng)公司，正在開發(fā) DNA 的長期存儲技術(shù)，既可以用于長期的 DNA 數(shù)據(jù)存儲，也能用于短期的臨床和其他現(xiàn)有的 DNA 樣品存儲。

雖然我們可能還需要一段時間才能將 DNA 作為數(shù)據(jù)存儲介質(zhì)，但目前在 Covid-19 檢測、人類基因組測序和其他基因組學領(lǐng)域中，對于 DNA 和 RNA 樣品的低成本和大規(guī)模存儲的解決方案都有很緊迫的需求。

廣告聲明：文內(nèi)含有的對外跳轉(zhuǎn)鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時間，結(jié)果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮

科學家開發(fā)標記和檢索 DNA 數(shù)據(jù)文件新技術(shù)，DNA 數(shù)據(jù)存儲有望成真

穩(wěn)定的存儲介質(zhì)

解決 DNA 文件檢索難題

相關(guān)文章

科學家開發(fā)標記和檢索 DNA 數(shù)據(jù)文件新技術(shù)，DNA 數(shù)據(jù)存儲有望成真