科學家用AI打造單細胞半測序器,可用於大規模高解像度單細胞研究,促進高效低成本單細胞測序技術的行業應用
近日,加拿大麥吉爾大學丁俊教授和團隊研發出一款名為 scSemiProfiler 的單細胞半測序器。
通過利用生成式人工智能和主動學習的方法,只需使用少量費用測量一些代表性樣本的單細胞數據,就能結合所有樣本的 bulk 數據,來針對所有樣本生成高精度的單細胞數據。
即本次方法能夠針對單細胞數據實現「半測序」,然後將這些單細胞數據作為模板,來把其他樣本的 bulk 數據分解成為單細胞數據。
這樣一來不僅可以節約成本,並能提供與真實數據相似的半測序單細胞數據。利用本次工具所生成的半測序數據集,和真實數據集十分相似,並且相關的源代碼能被無縫安裝。
從 bulk 數據中生成單細胞無疑是一個十分新穎的方法,可以極大程度上減少單細胞測序的成本,從而可以促進該項技術在大規模疾病隊列上的應用。
總的來說,這款方法能夠提供既便宜、又可靠的單細胞「半測序」數據,能讓科研人員、醫療工作者和工業生產人員,用上既簡單、又便宜的單細胞測序技術。
「18000 美元和 100 萬美元」
丁俊表示,很多學者都希望在研究中使用單細胞測序技術,因為單細胞技術比傳統 bulk 技術有著更高的精度,故能測量單個細胞的基因表達。而傳統 bulk 技術只能測量一群細胞的平均基因表達值。
但是,單細胞技術的價格比傳統 bulk 技術要貴很多。比如,同樣研究 100 個樣本的隊列,假設每個樣本需要測 5000 個細胞,bulk RNA 測序只需要花費大約 18000 美元,而單細胞 RNA 測序則需要花費大約 100 萬美元(基於 2023 年麥吉爾大學醫學中心成本估計)。
為瞭解決單細胞數據價格昂貴的問題,人們開始使用去捲積的方法,並嘗試借助單細胞數據模板,來從 bulk 數據中估計出不同細胞類型的細胞比例。
但是,這些方法依然不能解決問題,因為所估計出的細胞比例,相比單細胞數據缺少了很多信息,而且現有方法的估計結果往往也不夠準確。
因此,丁俊及其團隊的王靖韜等人希望利用 bulk 數據中的信息,使用人工智能方法還原出單細胞基因表達數據。這樣一來,當進行大規模隊列時,就可以得到更加經濟實惠的高質量單細胞數據。
在挑戰和質疑中「獲勝」
研究中,丁俊及其團隊觀察到:在其他領域比如計算機視覺,生成式人工智能方法已被用於提升數據解像度。
以此為啟發,他和團隊決定採用深度生成模型,即採用變分自編碼器和生成對抗網絡,來提升 bulk 測序數據的解像度。
丁俊表示,之所以這樣做是因為他和團隊觀察到變分自編碼器和生成對抗網絡,已經能將舊圖像解像度提升至 4K。
假設能將類似的方法用於 bulk 測序數據,那麼解像度將能達到單細胞數據的「4K」水平。
但是,對於單細胞數據和圖像數據來說,它們各有各的挑戰,因此無法簡單照搬其他領域的方法和思路。單細胞數據的噪聲更大,而且細胞和基因的順序不具有特定意義。
同時,本次方法也並非簡單地類提升圖像解像度,它更是對於數據維度的提升:即將一維的 bulk 數據,提升成為「細胞+基因」的單細胞數據矩陣,所以操作難度也更大。
更重要的是要保證提升完的數據確實可以加深對疾病的研究,幫助尋找到更有效的疾病標記物和治療靶點,而不僅僅是簡單的提高維度。
對於 bulk 數據來說,它某種意義上是單細胞數據在細胞維度上的平均數據。所以,丁俊和團隊在使用生成式模型來重構單細胞樣本的過程中,利用這一特性去約束生成的單細胞數據,設法讓所生成的單細胞樣本的平均值,接近目標樣本的 bulk 數據。
此外,為了實現成本的最小化,即為了在使用時只需測量最少的代表性樣本,他和團隊開發出一種主動學習算法。該算法能以迭代的方式,來選擇最具信息量的代表性樣本,從而實現半測序性能的最大化。
這時,他們所要打造的新方法基本形成雛形,於是開始在多個公開數據集上進行測試,借此證明了本次方法在不同場景下的有效性。
此外,課題組還不斷地使用新數據集開展驗證,通過此發現了一系列現實場景中存在的挑戰。比如單細胞數據和 bulk 數據的測序技術存在系統性差異,再比如特殊情況下生成的單細胞數據和真實數據的相似性欠佳等。
於是,他們採用一些方法針對模型加以調整,包括開發能夠繞過不同測序技術系統性差異的模型訓練方法、開發新穎的模型訓練技術、以及調整模型訓練過程等,確保了本次方法的魯棒性和準確性。
在開展此次研究的過程中,丁俊團隊遇到了不少挑戰與質疑。以往沒有研究團隊使用這種方法來提升單細胞數據的維度,通常研究人員更多是從 bulk 樣本中估計細胞類型的比例,因而無法達到單細胞水平的精確度。
嘗試從未有人成功過的研究方向,帶來了潛在的風險和挑戰甚至是質疑,尤其是作為麥吉爾大學醫學院的新成員,對於丁俊團隊來說,他們要在資源相對有限的情況下,進行這樣一個極具挑戰性和不確定性的項目,難度可想而知。
在此背景下,團隊在項目中取得的幾次階段性突破不僅振奮人心,更堅定了團隊通過該方法來降低大規模單細胞隊列測序成本的信心和決心。
第一個突破是:
現有的深度生成模型在重構單細胞數據時性能不佳,生成數據與原始數據間存在顯著差異。
多次調整模型之後,他們決定改進模型架構,採用變分自編碼器與生成對抗網絡(VAE-GAN)結合的策略,並例如圖卷積的形式集成了大量生物先驗知識。
最終,他們開發出一款原創模型及其訓練方法,成功實現了單細胞數據的高精度重構。
第二個突破是:
在將 bulk 數據分解為單細胞數據的過程中,最初生成的細胞與真實細胞之間存在較大差異。
通過對深度學習訓練的各個步驟進行優化,他們開發出一種全新的模型訓練方法,能夠更加精確地控制梯度在不同訓練階段的傳導,使生成的數據與真實數據在可視化和分析結果上高度一致。
第三個突破是:
在處理 bulk 測序和單細胞測序技術的系統性差異時,現有方法未能有效解決性能問題。
他們通過開發一種數據轉化方法,成功繞過了測序技術的系統性差異,並在不同應用場景下的多個數據集中取得了準確的單細胞數據生成結果。
圖 | 相關論文(來源:Nature Communications)
王靖韜是第一作者,丁俊擔任通訊作者。
目前,已有大量針對 RNA 測序進行開發的方法。理論上,本次方法也能擴展到其他任何模態的數據。
因此,下一步他們將嘗試將本次方法用於其他模態之中。同時,雖然本次方法很有潛力去降低大規模單細胞的測序成本。
但是,計算算力的限制是他們無法迴避的難題。由於該團隊的模型使用深度生成模型和主動學習模型,因此都非常消耗算力。
對於擁有算力資源的計算領域的課題組,這可能並不是一個很大的問題。
但是,醫學研究者和生物研究者是本次方法的最大潛在用戶群體,而他們通常並沒有足夠的算力來支撐模型的訓練和預測。為了消除這一個障礙,丁俊等人正在開發基於雲端的版本並將提供給所有用戶。
未來,他希望能讓更多人便捷地使用 scSemiProfiler 方法,從而能夠獲取高質量、低成本的單細胞數據,最終為科研帶來更多助力。
參考資料:
1.Wang, J., Fonseca, G.J. & Ding, J. scSemiProfiler: Advancing large-scale single-cell studies through semi-profiling with deep generative models and active learning.Nat Commun 15, 5989 (2024). https://doi.org/10.1038/s41467-024-50150-1
運營/排版:何晨龍