重磅突破：AI 填補蛋白質設計一大空白，或揭秘癌症、癡呆症發病機制，促進新藥發現和生物材料研發

中風、癡呆症等神經系統疾病是致病、致殘的主要原因之一，據世界衛生組織（WHO）報導，全球有超過三分之一的人口遭受這類疾病的影響。其中，神經退行性疾病是一類慢性高發疾病，更是嚴重威脅人類的健康和生活質量。

深入瞭解蛋白質的結構和運作方式，將為我們解決這些疾病提供重要依據。早在上世紀 50 年代，對於蛋白質摺疊問題的探索就已經開始了。而 AlphaFold 的出現，徹底改變了科學家們研究蛋白質摺疊的範式。

如今，AI for protein sciences 又有了新的突破——

近日，來自哥本哈根大學、聖裘德兒童研究醫院和伊利諾伊理工學院的研究團隊，推出了一種設計具有特定結構性質的蛋白質變體的通用算法，將蛋白質的研究拓展到了固有無序蛋白（IDPs）領域。

IDPs 是一種無法摺疊成穩定或有序三維結構的蛋白質，被認為在健康系統和各種疾病的病理生理學中都具有重要的生物學意義。與摺疊的蛋白質不同，IDPs 的特點是高度無序、局部移動性和高動態性，對現有預測工具而言尤其具有挑戰性。

這項研究不僅在理論上提出了新的設計方法，還通過實驗驗證了設計的 IDPs 變體，並使用機器學習模型來預測 IDPs 的集合屬性，為計算蛋白質設計提供了新的工具，或將幫助我們瞭解多種神經退行性疾病（如阿爾茨海默病、帕金森病、肌萎縮側索硬化症）和多種類型癌症的發病機制，以及促進新藥的發現和生物材料的開發。

相關研究論文以「Design of intrinsically disordered protein variants with diverse structural properties」為題，已發表在權威期刊 Science Advances 上。

我們為什麼需要關注 IDPs？

一張摺紙在以特定方式被摺疊之前，只不過是壓制的木漿；一旦被摺疊，它就變成了新的東西。幾次精確的摺疊和翻轉後，它就變成了一種可以預測你未來的紙製品——幸運簽。同樣的一張紙，改變幾個摺疊步驟，就變成了一隻展翅欲飛的鶴，象徵著好運的降臨。

類似地，一長串氨基酸分子在自發摺疊成其特定形狀之前沒有任何功能。細胞通過將氨基酸的小分子串成長長的多肽鏈來製造蛋白質。選擇哪種氨基酸取決於 DNA 提供的指令集。在生成後的瞬間，多肽鏈精確地彎曲、摺疊成蛋白質的最終 3D 形狀。

如果蛋白質不能極其高效地完成這一摺疊過程，一系列災難就會在人體內發生進。摺疊錯誤或解開的蛋白質可能會產生毒性和導致細胞死亡。許多疾病和障礙，如鐮狀細胞性貧血，都是由摺疊錯誤的蛋白質引起的。摺疊錯誤的蛋白質還可以聚集成團塊，這是阿爾茨海默病和帕金森病等神經退行性疾病的標誌。

因此，預測出蛋白質分子的 3D 形狀對於我們理解或者是治療神經退行性疾病是非常重要的。

然而，結構生物學領域曆來專注於研究摺疊成穩定 3D 結構的蛋白質和核酸，目前對蛋白質在細胞中如何發揮功能的理解大多基於「序列-結構-功能」關係這一概念。

而真核生物中約有 30% 的蛋白質並不摺疊成穩定的 3D 結構，這些動態變形的蛋白質就是 IDPs，或者當它們位於其他結構化蛋白質域的背景下時，被稱為「固有無序區域」（IDRs）。IDPs 和 IDRs 在分子和細胞功能中扮演著各種重要角色，挑戰著序列-結構-功能範式。

IDPs 的細胞功能失調與幾種神經退行性疾病（阿爾茨海默病、帕金森病、肌萎縮側索硬化症）和許多癌症有關，它具有自我結合形成生物分子凝聚物並在細胞環境中生成多種無膜細胞器的能力，這一特性在細胞生物學和疾病中越來越被認為是非常重要的。

為了更全面地理解生物學和人類疾病，達特茅斯學院助理教授 Paul Robustelli 在一個相關的專題中強調：「結構生物學必須超越對具有穩定 3D 結構的蛋白質的研究，併發展規則來解釋 IDRs 的序列如何決定它們在溶液中採用的形狀分佈，以及這種分佈如何決定它們在細胞中的功能和在疾病中的功能失調。」

將計算蛋白質設計擴展到 IDPs

IDPs 具有極端但通常非隨機的結構異質性，不能形成穩定的摺疊結構，因此與摺疊蛋白質相比，IDPs 的結構預測更具挑戰性，其計算設計仍然受限。

為此，Francesco Pesce 和同事們已經解決了這個挑戰。在之前發佈的名為 CALVADOS 的計算模型的基礎上，他們設計了一個通用算法來生成具有預定義全局屬性的 IDPs，並使用它來生產四種具有不同特性的 IDPs。他們還專注於一種名為 A1-LCD 的 IDPs，並通過實驗驗證了該模型對 A1-LCD 幾種變體的序列-集合關係的推導。

他們設計了具有特定結構性質的蛋白質變體的通用算法。該算法利用粗粒度模擬和自由能計算，結合蒙地卡羅采樣方法，在序列空間中進行搜索，生成具有目標結構特徵的蛋白質序列。研究人員使用該算法設計了多種蛋白質變體，並對其進行了實驗驗證，結果表明該算法能夠有效地設計具有不同緊密度、長程相互作用和相分離傾向的蛋白質變體。

該算法通過搜索序列空間，並使用高效的粗粒度模擬將每個序列與其構象性質聯繫起來。並使用 CALVADOS 模型進行粗粒度分子動力學（MD）模擬，並生成 IDPs 的構象集合。算法會利用蒙地卡羅算法（MCMC）采樣序列空間，並預測其構象性質（通過 MD 模擬和計算自由能）。通過優化過程，尋找特定氨基酸排列，以確定目標結構特徵。

圖 | 研究團隊設計具有目標構象性質的 IDPs 序列的算法概述。

該算法可以設計具有特定結構性質的 IDPs 序列，例如緊縮程度、長程接觸和相分離傾向。此外，它還可以探索序列空間，並找到具有新穎構象特徵的 IDPs 序列。研究團隊還利用機器學習模型加速算法，使其更高效。

在未來，研究團隊建議進行更廣泛的序列空間采樣，並探索將 MCMC 采樣與其他方法（如強化學習和貝葉斯優化）相結合來更有效地探索序列空間。並且，作者指出機器學習和模擬的結合將在設計具有更複雜結構可觀測量的序列時尤為重要，其中模擬可能更昂貴，而化學計算可能效率較低。此外，該算法可以應用於設計具有其他結構特徵的序列，並展示了設計具有目標接觸圖的序列的可能性。

AI for Proteins，一直在進步

自 20 世紀 60 年代起，科學家們對蛋白質的研究就開始了，當時主要靠 X 射線和核磁共振（NMR）等傳統技術來解析其結構。隨著對蛋白質生物化學機制認識的深化和計算技術的迅猛進步，研究者們開始轉向計算方法來預測蛋白質的結構。

2016 年，許錦波團隊開創性地將深度殘差網絡（ResNet）運用於結構預測，顯著提升了蛋白質殘基接觸預測的精確度。基於這一成果，一系列結合共進化和深度學習算法的研究相繼問世，例如 AlphaFold（側重於殘基距離預測）和楊建益與 David Baker 團隊開發的 trRosetta（側重於引入二面角信息等），均採納了 ResNet 架構。

2020 年，AlphaFold2 在 CASP14 競賽中一鳴驚人，達到了 98.5% 的預測準確率。2021年，David Baker 團隊在 Science 雜誌發佈了開源的蛋白質預測工具 Rose湯臣AFold，該工具利用自然語言處理（NLP）技術，直接從多序列比對（MSA）中提取共進化信息，其預測精度可與 CASP14 中的 AlphaFold2 相媲美。從此，基於蛋白質序列的預訓練模型，亦稱為蛋白質語言模型（PLM），開始廣泛應用於蛋白質結構預測。

2022 年末，Meta 公司推出了 ESM-2 和 ESMFold，成為當時發佈的最龐大、最複雜的蛋白質語言模型之一。2024 年，David Baker 團隊推出了 Rose湯臣AFold All-Atom（RFAA）這一新型結構預測方法，它能精確描繪生物單元中所有原子的 3D 坐標，包括蛋白質、核酸、小分子、金屬和化學修飾。

除了在蛋白質結構預測領域的顯著進展，人工智能（AI）也在蛋白質研究的其他多個方向持續發力，如預測蛋白質與其他生物分子的相互作用、蛋白質設計、蛋白質組學等。展望未來，AI 將繼續拓展其影響力，填補蛋白質研究領域的諸多空白。

本文來自微信公眾號「學術頭條」（ID：SciTouTiao），作者：學術頭條，36氪經授權發佈。