一小杯DNA可裝下全世界資訊,MIT開發全新DNA資訊儲存讀取技術

語言: CN / TW / HK

撰文:ZS

編審:王新凱

人類文明的發展離不開資訊傳遞與互動。隨著人類文明從狩獵文明到資訊文明的轉變,資訊改變了人們生活的方方面面,甚至影響了人們的生存,例如我們每天吃飯離不開外賣、購物離不開手機等等。

而隨著網際網路技術的快速發展,人類世界的資料資訊也在急劇增長。有統計資料顯示,目前全世界每天產生的郵件、照片、推文、影片等等數字檔案超過 250 萬 Gb,而全世界總數字檔案更是高達 10 萬億 Gb。這些資料大多被儲存在巨大的資料中心中,一個儲存量為 10 億 Gb 的大型資料中心,佔地可達數個足球場,建設和維護成本高達 10 億美元。

而隨著 5G 技術的發展, 人類資訊儲存的需求會更加爆炸,在可預見的未來,基於傳統矽基儲存介質的儲存方式將不可避免地陷入資源枯竭的困境。 於是,開發新的儲存技術就顯得尤為重要。

近日,來自美國麻省理工學院生物工程系的 Mark Bathe 教授帶領的研究團隊, 成功開發出了全新的以 DNA 為基礎的資訊儲存和讀取技術,實現了 DNA 資料的快速準確檢索識別。 簡單來說,這一技術首先將資料儲存在 DNA 中,然後將每個資料檔案封裝在一個直徑 6 微米的二氧化矽顆粒中,並且通過可顯示內容的短 DNA 序列進行標記,通過這些標記,人們可以快速搜尋所需的資訊。

該研究以 “Random access DNA memory using Boolean search in an archival file storage system” 為題發表在最新一期的 Nature Materials 雜誌上。

對此 Bathe 教授表示,“我們需要新的方案來解決海量資料的儲存問題,DNA 的密度實際上比快閃記憶體還要高 1000 倍, 理論上一個裝滿 DNA 的咖啡杯就可以儲存世界上所有的資料。 另一個有趣的點在於,一旦你製造出了 DNA 聚合物,它就不會再消耗任何能量,我們可以將其永久儲存。”

DNA 儲存資訊,靠譜嗎?

我們都知道,所有資訊在計算機中都是藉助 0 和 1 兩種程式碼儲存的,而 DNA 是由 A、T、G、C 四種鹼基組成的。因此,長期以來就有科學家設想,如果將四種鹼基中的 A、T 表示 0,G、C 表示 1,那麼 DNA 也可以儲存資訊了。

相比於目前常用的以矽基材料為基礎的資訊儲存技術,DNA 得特性使其天生就是一種非常理想的儲存介質。首先, DNA 非常穩定 ,合成和測序技術目前非常成熟,操作容易。其次, 由於 DNA 密度較高 其資料儲存密度遠遠超過傳統資料儲存技術,可儲存規模更是遠遠超出現有最大資料中心的容量。直觀來說, 1 立方厘米的 DNA 儲存的資料資訊比一萬億張光碟儲存量還多。

最後,之前 已有科學家證實了使用 DNA 進行資料儲存的可行性 ,例如在 2012 年,哈佛大學的喬治・丘奇(George Church)就曾在 Science 期刊發表論文,將自己的一本大小為 659kb 書存進了 DNA 中,並將其匯入了大腸桿菌進行復制。

然而,目前以 DNA 為基礎的儲存技術要想應用到臨床還需要解決兩個非常重要的問題。例如 DNA 儲存的成本問題 ,以目前 DNA 合成的成本計算,在 DNA 中存入 100 萬 Gb 的資料,成本高達 1 萬億美元。

對此,Bathe 教授表示,“如果要跟矽基儲存競爭,DNA 合成的成本需要再下降 6 個數量級。不過,就像過去幾十年間矽基儲存價格的大幅降低,DNA 合成成本預計在未來 20 年左右就會降到和矽基儲存相當”。

除了成本之外, DNA 儲存所面臨的另外一個難題在於,如何從所有儲存資訊中挑出想要的檔案。 目前,人們常用的是 PCR(聚合酶鏈式反應)來檢索 DNA 檔案,每個 DNA 資料檔案都包含一個特定的 PCR 引物結合序列。

不過,這一檢索方法有一個致命的缺點,那就是引物和靶 DNA 序列之間可能存在干擾,脫靶會導致不需要的檔案被拉出。此外,PCR 檢索過程中需要酶,最終也會消耗掉大部分的 DNA。

新技術解決 DNA 儲存資訊檢索難題

作為替代方法,Bathe 教授帶領的研究團隊開發了一種全新的檢索技術。該技術首先將每個 DNA 檔案封裝到一個直徑 6 微米的二氧化矽顆粒中,每個顆粒最高容量可達 1Gb,同時每個二氧化矽顆粒都被標記上與檔案內容相關的 DNA 單鏈條形碼。

接下來,研究團隊驗證了上述方法的可行性,他們將獅子、老虎、貓、狗、香蕉、飛機等等 20 個不同的影象編碼到大約 3000 個核苷酸長度的 DNA 片段中,相當於大約 100 B。每個檔案都標有與 “貓” 或 “飛機” 等標籤相對應的條形碼。

圖 | 可內容定址的分子檔案系統的寫 - 訪問 - 讀迴圈

當研究人員想要提取特定影象時,只需新增與他們正在尋找的標籤相對應的引物,就能快速找到對應的檔案。引物用熒光或磁性粒子標記,便於從樣本中讀取和識別匹配資訊,這種方法允許人們自主刪除所需的檔案,而不會損壞其他 DNA 檔案。

同時,研究人員使用了來自哈佛醫學院 Stephen Elledge 教授開發的 100000 個序列庫中的單鏈 DNA 序列,每個序列長約 25 個核苷酸。如果在每個 DNA 檔案上放置兩個這樣的標籤,可以對 100 億個不同的檔案進行唯一不重複標記,如果每個檔案上有四個標籤,則可以唯一不重複標記 1 萬億億個不同的檔案。通過這種方法,研究團隊實現了每秒 1 KB 的搜尋檢索速度,目前來看,這一速度仍然太慢。

不過,研究團隊表示, 目前 DNA 儲存技術比較適合用於儲存 “冷” 資料,也就是儲存一些不常訪問的資料。 目前 Bathe 教授正在成立一家名為 Cache DNA 的初創公司,致力於長期儲存 DNA 技術的研究。

總的來說,Bathe 教授的研究突破了 DNA 儲存技術發展的瓶頸,為 DNA 儲存過程中的資訊搜尋提供了一種新的解決方案。未來, 隨著 DNA 作為儲存介質成本的下降,人類基因測序和其他相關技術的發展,DNA 儲存技術非常有希望替代傳統的矽基儲存。

參考資料:

https://www.sciencedaily.com/releases/2021/06/210610135710.htm

https://www.nature.com/articles/s41563-021-01021-3

「其他文章」