Nature重磅研究:AlphaFold繪製病毒「族譜」,揭開身世之謎
【導讀】除了蛋白質設計和藥物發現,Nature上最近刊登的一篇論文又解鎖了AlphaFold這類生物大模型的新用途——揭示生物的親緣關係和進化史。
今年7月,被Meta解散的ESMFold團隊成功另起爐灶,發佈了他們最新的生命科學大模型ESM3,打出的slogan正是「用語言模型模擬5億年進化。」
論文地址:https://evolutionaryscale-public.s3.us-east-2.amazonaws.com/research/esm3.pdf
這個用途,很快就被生物學家們敏銳地捕捉到了。
最近發表的很多工作中,科學家們正在用AlphaFold和ESMFold等模型,重新繪製病毒譜系,探索到了一些令人驚訝的「親緣關係」。
這些成果,不僅可以揭秘病毒家族的進化史,還能讓我們更好地應對未來的生化風險。
如果用傳統方法,科學家們需要根據基因組比較的結果來理解病毒進化。
但是和哺乳動物比起來,病毒的進化速度可以說是快如閃電,尤其是基因由RNA組成的病毒,需要比對的基因組數量和複雜度就會急遽增加。
此外,病毒的進化不僅來源於基因突變,它們還可以從其他生物體獲取遺傳物質,這就辨識病毒「親緣關係」的工作更加困難。看起來大不相同的基因序列,可能隱藏著病毒之間非常深層而遙遠的關係。
相比病毒的基因,它們編碼的蛋白質的形狀或結構變化往往比較緩慢,然而英國格拉斯哥大學的分子病毒學家Joe Grove表示,在AlphaFold等工具出現之前,即使是整個病毒家族的蛋白質結構,也很難靠傳統方法完成研究和比較。
Grove和他的團隊最近在Nature上發表的一篇論文,正是借助了大模型的力量,通過糖蛋白的結構揭示了黃病毒科的進化史。
論文地址:https://www.nature.com/articles/s41586-024-07899-8
黃病毒包括丙型肝炎病毒、登革熱病毒和寨卡病毒,以及一些主要的動物病原體,還有一些可能對人類健康構成新威脅的物種。
病毒如何進入細胞
自從疫苗大範圍接種後,丙肝成為了我們不太熟悉的一種傳染病,但這個病毒每年依舊造成了數十萬人的死亡。
如果要開發更為有效的丙肝疫苗,我們就需要理解黃病毒是憑藉哪個蛋白質進入細胞的(其中就包含糖蛋白),這些蛋白質也同樣決定了病毒能夠感染哪些宿主。
如果僅在序列層面研究、比對,你會發現各個病毒的蛋白質差異如此之大,很難找到有意義的聯繫。但如果借助生物大模型的蛋白質結構預測功能,這個難題將迎刃而解。
研究人員使用DeepMind的AlphaFold 2模型,和Meta開發的結構預測工具ESMFold,為458種黃病毒的蛋白質生成了超過3.3萬個預測結構。
之所以同時使用AlphaFold和ESMFold兩種模型,是由於二者之間的一個本質差異。
AlphaFold的輸入需要依賴於相似蛋白質的多個序列,但ESMFold不同,它是在數千萬個蛋白質序列上訓練的「蛋白質語言模型」,可以只接受耽擱序列作為輸入,因而非常適合深入分析那些最「神秘」的病毒。
這些結構的預測結果讓研究人員們發現了一些意想不到的聯繫,有些和黃病毒看似八竿子打不著的親戚,也能用類似蛋白作為「鑰匙」來進入細胞。
比如,丙肝使用的細胞感染系統和瘟病毒就非常類似,包括比較經典的豬瘟,以及其他的動物病原體。
AI輔助工具還能告訴我們,丙肝和瘟病毒所用的「進入系統」和其他病毒非常不同。對此,Grove也很難做出解釋:「對於丙型肝炎和它的親戚們,我們不知道它們的進入系統來自哪裡,可能是那些病毒很久以前發明的。」
從細菌中得到「盜版」蛋白
除了瘟病毒,預測的結構還幫黃病毒找到了兩個「親戚」——寨卡病毒和登革熱病毒,它們的進入蛋白似乎有相同的起源;此外,黃病毒似乎還從細菌那裡「竊取」了一種酶並據為己有。
此前,雪梨大學病毒學家Mary Petrone的團隊也曾在一種奇怪的黃病毒中發現了類似的「盜竊」行為。
她表示,「在黃病毒的進化過程中,『基因盜取』可能發揮了比我們之前認為的更大的塑造作用。」
瑞士洛桑大學的計算生物學家David Moi還指出,考慮到AI輔助工具未被發掘的潛力,黃病毒研究只是冰山一角。
借助人工智能,其他病毒,甚至很多細胞生物的進化歷史都很可能被重寫。
「我們將用新一代工具重新講述它們的故事。既然我們現在能看得更遠,所有這些生物的進化歷史都需要更新。」
在生命科學的很多未解之謎中,AI所迸發出的巨大能量讓我們看到了答案的曙光,也讓我們期待著故事被改寫的那一天。
參考資料:
https://www.nature.com/articles/d41586-024-02970-w
本文來自微信公眾號「新智元」,編輯:祖楊 好睏 ,36氪經授權發佈。