AI助力破解病毒密碼,MIT團隊開發新模型能更好地「猜」出抗體長什麼樣

(來源:MIT News)(來源:MIT News)

借助 AI 模型,研究人員在根據蛋白質序列預測蛋白質結構方面已經取得了巨大進步,然而,這種方法對於抗體卻不是那麼有效,部分原因是由於這種類型的蛋白質具有「高變異性」。

為瞭解決這個挑戰,麻省理工學院的研究人員開發出一種新方法讓模型能夠更準確地預測抗體結構。通過這種方法,研究人員能夠篩選出數百萬種可能的抗體,從而確定可用於治療 SARS-CoV-2 和其他傳染病的抗體。

這項研究工作的領導者、麻省理工學院計算機科學與人工智能實驗室(CSAIL)計算與生物學小組負責人、西蒙斯數學教授 Bonnie Berger 表示:「這種新方法可以在大量信息中更有效地找到重要的線索,並且可以幫助製藥公司節省不必要的開支,避免用錯誤的藥物進行昂貴的臨床測試。」

這項新技術側重對抗體高變異區進行建模,同時也具有分析個體抗體庫的潛力,這將有助於研究對愛滋病毒等疾病具有超級反應能力的人的免疫反應,從而幫助弄清楚為什麼他們的抗體能夠有效地抵禦病毒。

目前,這篇論文已經發表在 PNAS 上。Bryan Bryson 是這篇論文的共同通訊作者,他是麻省理工學院生物工程副教授,也是麻省總醫院、麻省理工學院和哈佛大學拉貢研究所的成員;Rohit Singh(前 CSAIL 研究科學家,現任杜克大學生物統計學、生物信息學和細胞生物學助理教授)和 Chiho Im 是該論文的共同一作。此外,賽諾菲和蘇黎世聯邦理工學院的研究人員也為這項研究做出了貢獻。

高變異性建模

蛋白質由長鏈氨基酸組成,可以摺疊成大量結構。近年來,研究人員使用 AlphaFold 等來預測這些結構變得更加容易。比如 ESMFold 和 OmegaFold 等都是基於大語言模型,這些模型最初是為了分析大量文本而開發的,其能夠學習和預測語句中的下一個單詞,同樣的方法也適用於蛋白質序列,通過學習哪些蛋白質結構最有可能由不同模式的氨基酸組成。

然而,這種方法並不總是適用於抗體,尤其是針對抗體的高變異區。抗體通常具有 Y 形結構,這些高變異區位於 Y 形結構的尖端,負責檢測並結合外源蛋白質(即抗原),而 Y 形結構的底部提供結構支撐並幫助抗體與免疫細胞相互作用。

高變異區的長度不盡相同,但通常不會超過 40 個氨基酸。據估計,通過改變這些氨基酸的序列,人體免疫系統可以產生多達 10¹⁸ 種不同的抗體,從而確保身體能夠對各種各樣的潛在抗原做出反應。這些序列不像其他蛋白質序列那樣受到進化限制,因此大語言模型很難「學會」準確預測其結構。

「大語言模型能夠很好地預測蛋白質結構的部分原因是進化限制了這些序列,而模型可以解讀這些限制的含義。這類似於通過查看句子中單詞的上下文來學習語法規則,從而弄清楚它的含義。」Rohit Singh 表示。

為了對這些高變異區進行建模,研究人員創建了兩個基於現有蛋白質大語言模型的模塊:一個模塊針對來自蛋白質數據庫(PDB)中約 3,000 個抗體結構的高變異序列進行訓練,使其能夠瞭解哪些序列傾向於生成相似的結構;另一個模塊基於約 3,700 個抗體序列與它們結合三種不同抗原的強度相關的數據進行訓練。

這種計算模型稱為「AbMap」,其可以根據氨基酸序列預測抗體結構和結合強度。為了證明該模型的實用性,研究人員用它來預測能夠強烈中和 SARS-CoV-2 病毒刺突蛋白的抗體結構。

研究人員從一組被預測會與該靶點結合的抗體開始,然後通過改變高變異區產生數百萬種變體,這種模型能夠識別出最成功的抗體結構,比基於大語言模型的傳統蛋白質結構模型更準確。

隨後,研究人員採取了一些「額外步驟」,將抗體劃分為具有相似結構的組。他們與賽諾菲的研究人員合作,從每個組中選擇抗體進行實驗測試。實驗發現,82% 的抗體比模型中的原始抗體具有更好的結合強度。

研究人員指出,「在開發初期就能找到多種優質的候選抗體,可以幫助製藥公司避免浪費大量資金去測試最終會失敗的候選抗體。」

「他們不想孤注一擲。他們不希望把所有的希望都放在一個抗體上,然後在臨床前試驗中發現它有毒性問題。相反,他們更願意擁有一系列不錯的選擇,同時推進這些選項,這樣如果其中一個出了問題還有其他備選方案。」Rohit Singh 說。 

比較抗體

基於這項技術,研究人員還嘗試解決一些長期存在的難題,即為什麼不同的人對感染的反應不同。例如,為什麼有些人感染新冠病毒後病情更嚴重?為什麼有些接觸過愛滋病毒的人卻不會被感染?

科學家們一直試圖通過對個體免疫細胞進行單細胞 RNA 測序並進行比較來回答這些問題,這一過程被稱為「抗體庫分析」。先前的研究表明,來自不同兩個人的抗體庫重疊度可能只有 10%,然而,測序無法提供與結構信息一樣全面的抗體「全景圖譜」,因為具有不同序列的兩種抗體也可能具有相似的結構和功能。

這種新模型可以通過快速生成個體中發現的所有抗體的結構來幫助解決這個問題。在這項研究中,研究人員發現,當考慮到抗體結構時,個體之間的重疊比序列比較中看到的 10% 要多得多。他們現在計劃進一步研究這些結構如何促進人體針對特定病原體的整體免疫反應。

「大語言模型在這裏發揮得非常好,因為它既能像基於序列的分析那樣靈活擴展,又能達到基於結構的分析的準確性。」Rohit Singh 表示。

這項研究得到了賽諾菲和 Abdul Latif Jameel 健康機器學習診所資助。

原文鏈接:

https://news.mit.edu/2025/new-computational-model-can-predict-antibody-structures-more-accurately-0102