2024年盧保化學獎揭曉,AlphaFold開發者和David Baker斬獲諾獎

香港時間10月9日17:45,2024年盧保化學獎揭曉。

DeepMind創始人戴米斯·哈薩比斯(Demis Hassabis)和資深成員約翰·賈伯(John Jumper),以及華盛頓大學教授大衛·貝克(David Baker),三位學者憑藉蛋白預測系統AlphaFold以及蛋白結構預測斬獲今年的化學獎。

憑什麼一個AI能屢屢斬獲國際性的醫學大獎?很多生物學家有些不屑,認為這裏沒有高深的科學,有的只是工程。

實際上,AlphaFold的研發之路也並不順暢,從積累已經確認的蛋白質結構數據到預測幾乎所有人類蛋白質的結構,AlphaFold為蛋白質結構研究賦予了一個全新的視角。

獲獎者介紹:DeepMind創始人戴米斯·哈薩比斯(Demis Hassabis)和資深成員約翰·賈伯(John Jumper),華盛頓大學教授David Baker。

獲獎理由:表彰他們在蛋白結構設計和預測方面的貢獻。

一、一個艱巨的問題

眾所周知,蛋白質在細胞內扮演著眾多重要角色,其功能與其三維結構形態密切相關,對蛋白質結構的洞察可以揭示功能並解開生物學的謎團。

Christian AnfinsenChristian Anfinsen

60多年前,已故美國國立衛生研究院(NIH)的科學家基斯坦奴·安芬森(Christian Anfinsen)發現了一個很有意思的現象:蛋白質可以在沒有外力幫助的情況下自己恢復成特定的形狀。

據此,他得出結論,蛋白質的形狀是由它的組成成分——氨基酸的排列順序所決定的。

實際上,即使是結構很小的蛋白質,要嘗試所有可能的形狀,需要花費的時間可能比宇宙存在的時間還長。但在生物體細胞內,蛋白質卻可以在毫秒內迅速地找到最適合的形狀。

這不禁讓我們感到困惑,自然界是如何解決這個難題的呢?

為了理解蛋白質的構建原理並探索其結構,科研人員採用了多種方法。他們試圖用能量方程表達物理間的相互作用,同時運用X射線晶體學和其他技術來製作可作為蛋白質結構藍圖的模板。此外,他們還結合了關於特定氨基酸的知識(比如說是否帶電荷)以及它們在鏈上的位置,以獲得關於蛋白質結構特徵的線索。

1994年,馬里蘭大學的約翰·穆特(John Moult)及其團隊啟動了「結構預測臨床評估」(CASP)項目來追蹤蛋白質結構預測領域的發展。該項目每兩年組織一次,參與者會收到在實驗室中已經解決但尚未發佈的蛋白質的氨基酸序列,然而應用自己開發的系統生成預測模型,這些模型最後又與實驗結果進行比較並打分。

在過去的幾十年里,模型的性能以小增量緩慢上升,有時會停滯甚至倒退。

早期,華盛頓大學教授大衛·貝克(David Baker)曾開發了一種方法,他從一個全球共享的蛋白質數據庫(PDB)中提取了短片段,來預測蛋白質內的局部結構。儘管確實有所收穫,但這種基於片段的策略對絕大多數蛋白質來說不僅很耗時,而且應用有限。

與此同時,科學家一直在不斷積累已經確認的蛋白質結構數據。截至2014年,PDB中已有超過10萬種蛋白質結構的記錄,但這麼多蛋白質結構記錄也僅僅是當時已知數千萬蛋白質序列的一小部分。

二、引入人工智能進入摺疊過程

在2018年第13屆CASP比賽中,DeepMind團隊採用了機器學習技術改進了預測方案。與傳統AI方法依賴預設邏輯不同,機器學習能自我發現數據中的模式。在將機器學習作為蛋白質預測網絡的核心組件後,哈薩比斯和賈伯的隊伍以高準確度遙遙領先,甚至相較於去年最佳水平提升了近50%。

Science對DeepMind在CASP13表現中的報導Science對DeepMind在CASP13表現中的報導

儘管取得了成功,DeepMind的研究人員並未止步:他們希望開發出誤差不超過一個原子大小的實用工具。哈薩比斯、賈伯等人進行了頭腦風暴,將幾何和遺傳學概念融入了已知的蛋白質知識,如原子具有特定半徑、鍵具有特定角度。他們旨在將這些因素納入考慮,同時不幹擾系統的自主學習能力。

研究人員設計出從有限實驗證據中提取最多信息的方法,並採取策略使AlphaFold2能夠高效學習。他們允許AlphaFold2在任何階段進行調整避免早期錯誤。整個過程中,它可以逐步完善結構模型。

哈薩比斯、賈伯及其同事還放棄了指導傳統算法的原則,如線性接近性原則,而是更注重三維關係,因為相距數百個亞單位的氨基酸可以在摺疊的蛋白質中共存。此外,他們還開發了一種算法,特別關注不同氨基酸的物理距離。

AlphaFold2取得的突破並非單一元素的貢獻,而是眾多創新想法共同作用的結果。

三、嚴格的訓練

為了訓練該系統,哈薩比斯和賈伯的團隊使用了PDB(Protein Data Bank)對確定的結構進行實驗。AlphaFold2反復將其模擬出的答案與真實答案進行比較,並最終變成現實。在訓練集的每個成員重覆這個過程後,該算法吸收了蛋白質結構的原理。

在過去的幾年里,機器學習將蛋白質結構領域推向了一個新領域在過去的幾年里,機器學習將蛋白質結構領域推向了一個新領域

研究人員利用了一些技巧來提高網絡的學習能力,如他們在MSA中隱藏了氨基酸並要求其填補空白。通過這種方式,他們要求AI系統掌握進化關係規則。他們還遞歸地提供任何給定步驟的輸出,這為AlphaFold2提供了許多重新考慮和改進的機會。

AlphaFold2還計算了對其預測的可信度,這些可信度評分使研究人員能從可用數據中獲取更多信息,從而提高其性能。

研究人員向AI系統提供大約14萬PDB序列後,再讓它運行了另一組尚未解決結構的序列。此外,他們挑選了最可靠的35萬個序列/結構對,並用這些數據訓練了該系統,從而提高其準確度。

四、重塑蛋白質科學

2020年,AlphaFold2在CASP14競賽中脫穎而出。它的預測達到了原子精度,並可以在幾分鐘內為沒有模板的蛋白質生成出色的結果,這是第一種在已知沒有相似結構的情況下構建高解像度預測的方法。

2021年7月,哈薩比斯和賈伯發表了他們的模型以及對幾乎所有人類蛋白質的結構預測。在短短兩年內,他們論文的影響力已經超過了自1900年以來在《自然》雜誌上發表的近10萬篇研究論文中的幾乎所有文章,這篇論文排名第50,被頂級期刊上發表的7000多篇論文引用。

之後,哈薩比斯和賈伯與歐洲分子生物學實驗室歐洲生物信息學研究所合作,向科學界分享了該程序和數據庫,超過一百萬的研究人員使用了這些資源。

DeepMind團隊此後將其目錄擴展到已測序基因組的生物中的幾乎所有已知蛋白質。這些目錄包括了病毒的蛋白質組,這些病毒是流行病威脅和世界衛生組織高優先級病原體。

目前,AlphaFold2系統在許多生物醫學領域及相關領域產生了巨大的影響,通過應用AlphaFold2,研究人員重新設計了針對人類細胞的蛋白質,開闢了藥物輸送和基因治療的新途徑,學術實驗室和公司正在利用AlphaFold2開發疫苗、設計藥物、製造分解汙染物的酶等,前景一片光明。

參考資料:

AlphaFold—for predicting protein structures.Lasker Foundation.

本文來自微信公眾號:深究科學 (ID:deepscience),作者:周晨