天津大學DNA儲存取得重大突破 可讓資訊儲存千年萬年

語言: CN / TW / HK

記者從天津大學獲悉,該校合成生物學團隊創新DNA儲存演算法,將十幅精選敦煌壁畫存入DNA中,通過加速老化實驗驗證壁畫資訊在實驗室常溫下可儲存千年,在9.4℃下可儲存兩萬年。該演算法支援DNA分子成為世界上最可靠的資料儲存介質之一,可以讓面臨老化破損危機的人類文化遺產資訊儲存千年萬年。

該成果近日發表於《自然·通訊》上。

DNA儲存的敦煌壁畫

從結繩記事、倉頡造字到磁帶、硬碟等現代磁光電儲存技術,人類文明的發展與儲存技術密切相關。隨著科學技術的進步,資料儲存方式不斷迭代創新。中國科學院院士、天津大學元英進教授帶領團隊一直致力於下一代儲存技術——DNA儲存。“據國際資料公司估計,到2025年全球資料總量將達到驚人的175ZB(1ZB≈10的21次方位元組)。全世界都在建資料中心,資料中心的能耗是驚人的。DNA儲存由於其高儲存密度與低能耗處理等特點,被視為一種極具潛力的儲存技術,成為應對資料儲存增長挑戰的新機遇。”元英進院士介紹說。

2021年8月元英進教授團隊取得DNA儲存的重大突破,從頭編碼設計合成了一條長度為254886鹼基對、專用於資料儲存的酵母人工染色體,將兩張經典圖片和一段視訊儲存於人造染色體中,利用酵母繁殖實現了資料穩定複製,並用納米孔測序器件實現了資料快速讀出與無錯恢復。

DNA儲存技術概念圖

DNA儲存高效低耗,但作為一種鏈式生物大分子,在體外常溫儲存時會面臨DNA斷裂降解等風險,嚴重影響資訊儲存的長期可靠性,是亟待解決的關鍵科學問題。對此,元英進團隊設計了基於德布萊英圖理論的序列重建演算法來解決DNA斷裂等問題。該演算法結合貪婪路徑搜尋和迴圈冗餘校驗碼來實現斷裂DNA片段的高效從頭組裝,從原理上支援了DNA儲存的長期可靠性。

結合該序列重建演算法(內碼)與噴泉碼演算法(外碼),團隊設計編碼了6.8MB敦煌壁畫,合成了承載圖片資訊的DNA片段21萬條。為資料的長期可靠性,團隊製備了一個沒有任何特殊保護的DNA水溶液樣本,並在70℃下加速樣本斷裂、降解長達十週。處理後的DNA片段80%以上都發生了斷裂錯誤,依靠設計的序列重建演算法依然可以準確組裝並解碼96.4%以上的片段,再通過噴泉碼解決少量片段丟失的問題,原始的敦煌壁畫圖片依然能夠完美恢復。根據理論推算,這種程度的高溫破壞相當於實驗室常溫25℃一千年或者9.4℃長達兩萬年的自然儲存。

這是繼基於人工合成染色體的酵母體內資訊儲存模式取得突破後,天津大學合成生物學團隊在DNA資訊體外儲存模式上取得的又一重要突破。