25年來,DNA存儲領域有哪些重要突破?1克DNA能存儲215PB數據是什麼概念?
來源:熊卓
大家好,我是清華大學機械工程系的教授熊卓,很高興在這裏分享我的團隊對於DNA存儲領域的瞭解和思考。
DNA是我們很熟悉的生物大分子,但「DNA存儲」一詞對大家仍較為陌生。DNA存儲是指通過DNA分子來進行數據存儲的技術,借助DNA分子極小的基本單元及其生物特性,實現數據存儲。

計算機中通過「0」、「1」排布實現數據存儲,DNA中則可通過堿基「A」、「T」、「C」、「G」的排布來實現數據存儲。由於DNA單個核苷酸尺寸極小,且分子結構穩定,DNA存儲具備極高的信息密度和穩定性。理論上,1克DNA可存儲約215PB的數據,能裝10000億本《紅樓夢》,且在理想條件下可保存數千年。
DNA存儲從實現走向成熟
儘管DNA存儲的想法在上世紀60年代就已經出現,但長期以來缺少行之有效的實現方法。隨著DNA合成與測序技術的快速進步,在過去25年中研究人員已成功將DNA存儲變為現實,並將文本、圖像、音頻等多種類型的數據存進DNA。
2012年,哈佛大學的研究人員成功將數百KB的數據存儲於DNA中,標誌著DNA存儲從理論走向現實。
2017年,微軟和華盛頓大學的團隊實現了對超過200MB數據的存儲與訪問,標誌著DNA存儲技術向成熟邁出重要一步。

近年來,編碼和糾錯技術取得顯著進展。通過噴泉編碼、RS糾錯編碼等方法,DNA存儲的密度逼近理論極限,並且在合成與測序存在錯誤的情況下仍可恢復數據。
創新的存儲方法「百花齊放」
除了傳統的DNA序列存儲,研究人員探索了基於DNA納米結構和生物集成的存儲方法。
樊春海院士團隊(上海交通大學)利用DNA摺紙術開發了加密存儲方法。他們在DNA平面結構上添加可通過原子力顯微鏡探針識別的凸起結構,通過特定DNA輸入改變結構圖像,實現狀態切換和加密。這種方法提升了存儲安全性和納米尺度的可編程性。
北京大學錢瓏團隊與張成團隊合作開發的「epi-bit」方法,通過表觀遺傳修飾(如DNA甲基化)編碼數據,避免了傳統DNA合成的逐一添加核苷酸過程,實現並行和可編程寫入。實驗中,60名誌願者通過簡單工具包完成數據編碼和讀取,展現了低成本和易用性。
元英進院士團隊(天津大學)利用酵母人工染色體將數據嵌入活體細胞基因組。他們開發了一種DNA可移動存儲系統,使用預生成的DNA片段作為「可移動類型」,通過快速組裝實現數據寫入。這種方法避免了高成本的DNA合成過程,為生物集成存儲提供了可持續的解決方案。
東南大學劉宏教授團隊通過電化學方法替代傳統化學合成,顯著提高DNA合成效率。他們將DNA序列存儲在電極上,通過讀取特定電信號獲取信息,簡化了讀取過程。此外,他們實現了DNA合成與測序的儀器集成,提升了技術便捷性。
我們的團隊提出了一種將DNA存儲與納米點陣存儲相結合的雙模式存儲方法,將DNA連接在固相基底上,分別在DNA分子和基底上的納米點陣中存儲相關聯的詳細數據和概要數據(包括預覽數據、索引數據和引物信息),更好地對DNA文件進行了管理,提高了索引效果。
實用化的關鍵:隨機訪問技術的突破
DNA存儲實用化的關鍵在於實現數據的隨機訪問。由於DNA分子通常以混合池形式存儲,快速定位目標數據是一大挑戰。近年來,研究人員開發了多種方法來實現這一目標,包括特異性PCR擴增和物理檢索。
其中,特異性PCR擴增利用特定引物進行特異性PCR擴增,實現對特定數據塊的隨機訪問。物理檢索則通過物理分隔方法將不同的DNA分子直接劃分至不同的可尋址區域,如熱響應性微膠囊、磁珠、微盤片甚至細菌微球中,通過對這些微單元進行索引以讀取目標DNA文件。
我們也開發了一種基於「細菌彩珠硬盤」的DNA存儲技術,將編碼後的DNA信息插入帶有螢光表達功能的質粒中,並轉化至細菌內。隨後,利用微流控技術將細菌封裝於水凝膠微球中,實現快速隨機訪問和室溫長期保存。該系統理論最大存儲量可達260,700 PB(約254 EB,即2.6億TB),僅需1.5立方米的空間(接近家用冰箱體積)即可存儲該量級的數據。
ELMM特別適用於數據中心的冷存儲場景。其室溫存儲特性可減少90%以上的製冷能耗,而生物自複製能力使數據備份成本趨近於零。實測檢索速度達196.72 MB/s,超過磁帶庫(160 MB/s),可作為低頻數據存儲層,與SSD/HDD形成分級存儲體系。

儘管DNA存儲技術在現階段仍面臨成本高、寫入速度慢等挑戰,但長期來看,其在數據存儲方面的潛力不可忽視。未來,DNA存儲有望在多個領域展現其獨特價值,並通過技術進步和產業化推動實現更廣泛的應用。以下是對未來發展的幾點暢想:
技術突破與成本降低
隨著DNA合成和測序技術的持續進步,預計未來五到十年內,DNA存儲的成本將顯著下降。例如,新型的酶促DNA合成技術可能取代傳統的化學合成方法,大幅降低合成成本和時間。同時,高通量測序技術的進步將提高讀取速度和準確性。研究人員還在探索利用非天然核苷酸或化學修飾DNA分子來進一步提高存儲密度和穩定性。
標準化與自動化
目前DNA存儲的流程高度依賴人工操作,未來標準化和自動化設備的開發將是關鍵。統一的編碼格式、糾錯機制和數據訪問協議將推動DNA存儲的商業化進程。自動化DNA存儲設備的出現,例如集成的DNA合成、保存和讀取一體機,將使DNA存儲像今天的硬盤一樣易於使用。
檔案保存與文化遺產保護
DNA存儲因其超高密度和長期穩定性,非常適合用於檔案保存和文化遺產保護。例如,全球重要文獻、藝術作品的數字化副本,甚至瀕危語言的音頻記錄,都可以通過DNA存儲實現數千年的保存。未來,國際機構如聯合國教科文組織可能推動建立全球DNA數據檔案庫,用於保護人類文明的數字遺產。
DNA存儲中心的興起未來五到十年內,DNA存儲中心可能開始投入使用。這些中心將類似於傳統數據中心,但規模更小、能耗更低,專門用於存儲需要長期保存的數據。它們可能率先在政府檔案館、博物館或大型科技公司中部署,標誌著DNA存儲從實驗室走向實際應用。
綠色存儲與可持續發展
傳統數據中心耗能巨大,而DNA存儲的能耗極低,符合綠色科技的發展趨勢。未來,DNA存儲中心可能採用生物基材料和可再生能源進行數據存儲與維護,進一步減少碳足跡。結合合成生物學,DNA存儲還可能實現數據的「生物循環」,通過微生物降解和再合成實現數據的可持續管理。
生物計算與存儲一體化
NA存儲的未來不僅限於數據存儲,還可能與生物計算結合,形成存儲與計算一體化的全新範式。例如,利用DNA分子在細胞內的動態重組特性,開發能夠在存儲數據的同時進行邏輯運算的系統。
跨領域應用與社會影響
DNA存儲的潛在應用遠不止檔案保存。例如,在醫療領域,DNA存儲可用於存儲個人基因組數據和健康記錄,實現個性化醫療;在航天領域,DNA存儲可用於在極端環境下保存任務數據。此外,DNA存儲還可能催生全新的加密技術,利用DNA分子的複雜性和生物特性開發極安全的安全存儲方案。然而,DNA存儲的普及也可能帶來倫理和安全挑戰,如數據隱私、生物安全等問題,需要製定相應的國際標準甚至法規。
總體來看,DNA存儲作為一項前沿技術,正在從夢想逐步走向現實。儘管當前仍面臨技術挑戰,但其在信息密度、穩定性、低能耗和可持續性方面的獨特優勢,使其成為未來數據存儲的重要方向。
我相信,隨著技術的進步和應用的拓展,DNA存儲有望重塑我們對數據存儲的認知,為人類文明的數字保存和可持續發展提供全新的解決方案。我們期待這一領域在未來十年內迎來更多突破,也希望更多人關注並參與到DNA存儲的研究與應用中。