AI加速基因研究,MIT團隊用幾分鐘即可預測數千種3D基因結構

(來源:MIT News)(來源:MIT News)

每個細胞都含有相同的基因序列,但只表達其中的一部分。這種細胞特異性的基因表達模式確保了不同類型的細胞(如腦細胞和皮膚細胞)之間的差異,這些差異部分由遺傳物質的三維結構決定,該結構控制著每個基因的可訪問性。

近期,麻省理工學院的化學家們提出了一種新方法:利用生成式 AI 來確定這些三域奇因組結構。他們的技術可以在短短幾分鐘內預測數千種結構,比現有的實驗分析方法快得多。

通過這種方法,研究人員能夠更輕鬆地研究基因組的三維結構如何影響單個細胞的基因表達模式和功能。

「我們的目標是嘗試從基礎的 DNA 序列預測三域奇因組結構。」該研究的資深作者、麻省理工學院化學系副教授 Bin Zhang 說,「現在我們已經可以做到這一點,這種方法與最先進的實驗分析技術不相上下,並為未來深入研究開闢更多可能性。」

目前,這項研究成果已經發表在 Science Advances 上,麻省理工學院的研究生 Greg Schuette 和 Zhuohan Lao 是這篇論文的主要作者。

從序列到結構

在細胞核內,DNA 和蛋白質形成了一種稱為染色質的復合物,它包含多個層次的組織,使細胞能夠將 2 米長的 DNA 塞進直徑只有百分之一毫米的細胞核中。長鏈 DNA 纏繞在稱為組蛋白的蛋白質上,形成了類似珠子串在繩上的結構。

特定位置上可以附加被稱為表觀遺傳修飾的化學標籤,這些標籤因細胞類型不同而變化,並影響染色質的摺疊方式及其附近基因的可訪問性。染色質構象的這些差異有助於決定哪些基因在不同的細胞類型或同一細胞內的不同時間點被表達。

在過去的 20 年里,科學家們開發出很多確定染色質結構的實驗方法,其中一種被廣泛使用的技術名為「Hi-C」,通過將細胞核中的相鄰 DNA 鏈連接在一起發揮作用。然後,研究人員可以通過將 DNA 切成許多小片段並對其進行測序來確定哪些片段彼此靠近。

這種方法可用於大量細胞來計算染色質切片的平均結構,也可用於單個細胞來確定特定細胞內的結構。然而,Hi-C 以及類似技術比較耗時費力,處理一個細胞的數據大約需要一週時間。

為了克服這些局限性,Bin Zhang 團隊利用生成式 AI 開發了一個模型,創建了一種快速、準確的方法來預測單細胞中的染色質結構。他們設計的 AI 模型可以快速分析 DNA 序列,並預測這些序列可能在細胞中產生的染色質結構。

「深度學習在模式識別方面非常擅長。」Bin Zhang 說,「它能夠分析非常長的 DNA 片段,包含數千個堿基對,並找出這些 DNA 堿基對中編碼的重要信息。」

研究人員創建的模型名為「ChromoGen」,包含兩個部分:第一部分是一個深度學習模型,經過訓練後能夠「讀取」基因組,分析基礎 DNA 序列和染色質數據;第二部分是一個生成式 AI 模型,基於超過 1100 萬個染色質構象的數據進行訓練,能夠預測物理上準確的染色質構象。

在將兩部分進行整合後,第一部分「告知」生成模型細胞類型特異環境如何影響不同染色質結構的形成,從而有效捕捉序列與結構之間的關係。對於每個序列,研究人員使用模型生成許多可能的結構。這是因為 DNA 是一種非常無序的分子,因此單一的 DNA 序列可以產生許多不同的可能構象。

「預測基因組結構的一個主要複雜因素是不存在單一的目標解。無論你觀察基因組的哪一部分,都存在一系列結構分佈,而預測這種非常複雜的高維統計分佈極其困難。」 Schuette說道。

快速分析

一旦訓練完成,該模型可以在極短時間內生成預測,比 Hi-C 或其他實驗技術快得多。

「你可能需要花費六個月的時間進行實驗才能得到某一特定細胞類型的幾十種結構,而使用我們的模型,在單顆 GPU 上只需 20 分鐘就能生成特定區域的一千種結構。」Schuette 表示。

在訓練了他們的模型後,研究人員用它對 2000 多個 DNA 序列進行了結構預測,然後將它們與實驗確定的這些序列的結構進行了比較。他們發現,模型生成的結構與實驗數據中看到的結構相同或非常相似。

「我們通常會查看每個序列的數百或數千種構象,這可以合理地表示特定區域可能具有的結構多樣性。」Bin Zhang 表示,「如果你在不同的細胞中多次重覆實驗,你很可能會得到一個非常不同的構象,而這也是我們模型預測到的。」

此外,研究人員還發現,該模型能夠對未用於訓練的其他細胞類型的數據做出準確預測,這表明該模型可用於分析細胞類型之間的染色質結構差異,以及這些差異如何影響其功能。該模型還可用於探索單個細胞內可能存在的不同染色質狀態,以及這些變化如何影響基因表達。

另一個潛在的應用是探索特定 DNA 序列中的突變如何改變染色質構象,這有助於揭示此類突變如何導致疾病的發生。「我認為可以用這種模型來解決很多其他未知問題。」Bin Zhang 表示。

這項研究由美國國立衛生研究院資助。目前,研究人員已經將所有數據和模型公開,供其他研究者獲取。

原文鏈接:

https://news.mit.edu/2025/with-generative-ai-mit-chemists-quickly-calculate-3d-genomic-structures-0131