數百萬晶體數據訓練、解決晶體學相位問題,深度學習方法PhAI登Science

第一時間掌握

編輯 | KX編輯 | KX

時至今日,晶體學所測定的結構細節和精度,從簡單的金屬到大型膜蛋白,是任何其他方法都無法比擬的。然而,最大的挑戰——所謂的相位問題,仍然是從實驗確定的振幅中檢索相位信息。

丹麥哥本哈根大學研究人員,開發了一種解決晶體相問題的深度學習方法 PhAI,利用數百萬人工晶體結構及其相應的合成衍射數據訓練的深度學習神經網絡,可以生成準確的電子密度圖。

研究表明,這種基於深度學習的從頭算結構解決方案方法,可以以僅 2 埃的解像度解決相位問題,該解像度僅相當於原子解像度可用數據的 10% 到 20%,而傳統的從頭算方法通常需要原子解像度。

相關研究以《PhAI: A deep-learning approach to solve the crystallographic phase problem》為題,於 8 月 1 日發佈在《Science》上。

論文鏈接:https://www.science.org/doi/10.1126/science.adn2777

晶體學是自然科學中的核心分析技術之一。X 射線晶體學為晶體的三維結構提供了獨特的視角。為了重建電子密度圖,必須知道足夠多的衍射反射的複雜結構因子 F。在傳統實驗中,只能獲得振幅 |F|,而相位 ϕ 會丟失。這是晶體學相位問題。

圖示:標準晶體結構測定流程圖。(來源:論文)圖示:標準晶體結構測定流程圖。(來源:論文)

20 世紀 50 年代和 60 年代取得了重大突破,Karle 和 Hauptmann 開發了用於解決相位問題的所謂直接方法。但直接法需要原子解像度的衍射數據。然而,原子解像度的要求是一種經驗觀察。

近年來,傳統的直接方法已被對偶空間方法所補充。目前可用的從頭算方法似乎已達到極限。相位問題的普遍解決方案仍然未知。

從數學上講,結構因子振幅與相位的任何組合都可以進行逆傅里葉變換。然而,物理和化學要求(例如具有原子狀電子密度分佈)對與一組振幅一致的相位的可能組合施加了規則。深度學習的進步使得人們能夠探索這種關係,也許比目前的從頭算方法更深入。

在此,哥本哈根大學的研究人員採用了數據驅動的方法,使用數百萬個人造晶體結構及其相應的衍射數據,旨在解決晶體學中的相位問題。

研究表明,這種基於深度學習的從頭算結構解決方案方法,可以在僅最小晶格平面距離(dmin= 2.0 Å 的解像度下執行,只需要使用直接方法所需數據的 10% 到 20%。

神經網絡的設計與訓練

構建的人神經網絡稱之為 PhAI,接受結構因子振幅 |F| 並輸出相應的相位值 ϕ 。PhAI 的架構如下圖所示。

圖示:PhAI 神經網絡方法解決相位問題。(來源:論文)圖示:PhAI 神經網絡方法解決相位問題。(來源:論文)

晶體結構的結構因子數量取決於晶胞大小。根據計算資源,對輸入數據的大小設置了限制。輸入結構因子振幅是根據 Miller 指數 (h、k、l) 服從

的反射來選擇的。

也就是,限制在原子解像度下晶胞尺寸約為 10 Å 的結構。此外,選擇了最常見的中心對稱空間群 P21/c。中心對稱性將可能的相位值限制為零或 π rad。

研究使用主要包含有機分子的人工晶體結構訓練神經網絡。創建了大約 49,000,000 個結構,其中有機晶體結構佔 94.29%,金屬有機晶體結構佔 5.66%,無機晶體結構佔 0.05%。

神經網絡的輸入由振幅和相位組成,它們由卷積輸入塊處理,添加並輸入到一系列卷積塊(Conv3D)中,然後是一系列多層感知器(MLP)塊。來自線性分類器(相位分類器)的預測相位通過網絡循環 Nc 次。訓練數據是通過將 GDB-13 數據庫中的金屬原子和有機分子插入到晶胞中生成的。生成的結構被組織成訓練數據,從中可以計算出在采樣溫度因子、解像度和完整性時的真實相位和結構因子振幅。

解決真實結構問題

經過訓練的神經網絡在標準計算機上運行,計算需求適中。它接受 hkl 索引列表和相應的結構因子振幅作為輸入。不需要其他輸入信息,甚至不需要結構的晶胞參數。這與所有其他現代從頭算方法有著根本區別。網絡可以即時預測並輸出相位值。

研究人員使用計算得出的真實晶體結構的衍射數據測試了神經網絡的性能。共獲得 2387 個測試用例。對於所有收集的結構,考慮了多個數據解像度值,範圍從 1.0 到 2.0 Å。為了進行比較,還使用了電荷翻轉方法來檢索相位信息。

圖示:相位和真實電子密度圖之間的相關係數 r 的直方圖。(來源:論文)圖示:相位和真實電子密度圖之間的相關係數 r 的直方圖。(來源:論文)

經過訓練的神經網絡表現出色;如果相應的衍射數據解像度良好,它可以解決所有測試結構(N = 2387),並且在從低解像度數據中解決結構方面表現出色。儘管神經網絡幾乎沒有針對無機結構進行訓練,但它可以完美地解決此類結構。

電荷翻轉法在處理高解像度數據時表現優異,但隨著數據解像度的降低,其產生合理正確解的能力逐漸下降;然而,它仍然以 1.6Å 的解像度解決了大約 32% 的結構。通過進一步試驗和更改輸入參數(例如翻轉閾值),可以改善通過電荷翻轉確定的結構數量。

在 PhAI 方法中,這種元優化是在訓練期間執行的,不需要由用戶執行。這些結果表明,在晶體學中必須有原子解像度數據才能從頭算相位的普遍觀念可能被打破。PhAI 僅需要 10% 至 20% 的原子解像度數據。

這一結果清楚地表明,原子解像度對於從頭算方法來說不是必需的,並為基於深度學習的結構測定開闢了新途徑。

這種深度學習方法的挑戰是擴展神經網絡,也就是說,較大晶胞的衍射數據將需要大量的輸入和輸出數據以及訓練期間的計算成本。未來,需要進一步研究,將該方法擴展到一般情況。