複雜度從指數降低至線性,科學家打造元細胞推斷方法MetaQ,讓百萬級測序數據分析成為可能

近日,四川大學彭璽教授團隊開發出一款準確、高效的元細胞推斷方法 MetaQ,將時間複雜度從現有方法的指數級降低到線性,並具有常數級的空間複雜度。

圖 | 圖 | 

課題組告訴 DeepTech,這也是首個可以處理任意規模單細胞數據的元細胞推斷方法。相較於當前最優的 SEACell 方法,MetaQ 方法在處理 10 萬個細胞時,時間效率提升大約 100 倍,內存開銷僅有前者的 1/25。由於內存限制的原因,當該團隊使用 SEACell 方法的時候,在他們的服務器上無法處理更大規模的數據,但是理論上本次方法在更大規模數據上的計算效率優勢會更加明顯。

(來源:Nature Communications)(來源:Nature Communications

將現有元細胞推斷方法複雜度從指數級降低到線性

課題組表示,MetaQ 的最大貢獻在於將現有元細胞推斷方法的複雜度從指數級降低到線性,在保留生物特性的同時能夠顯著減少待分析的細胞數量,從而讓傳統單細胞分析工具處理百萬級的測序數據成為可能。

MetaQ 方法顯著的效率和可擴展性優勢得益於從一種新的視角來理解元細胞。之前的 SEACell 等方法都是通過直接計算細胞間的距離,以「判別式」的方式尋找相近的細胞合併成元細胞。但是,當數據規模增大之後,全局的相似性計算和細胞合併過程會面臨巨大的時間成本和內存開銷。

與現有方法不同的是,他們受到細胞發育分化過程的啟發,發現元細胞的推斷過程可以看作是細胞分化的逆過程,即若幹個相似的細胞可以回溯到同一個元細胞,而這個元細胞保留了這些細胞共有的特徵,它能有效地分化出其下的全部原始細胞。

基於這一思想,他們提出通過「生成式」的細胞量化過程來實現元細胞推斷。簡單來說,MetaQ 將所有原始細胞量化到一個具有若干可學習條目的碼本,每個細胞會被分配到與其最相似的條目,而碼本里的每個條目則對應一個元細胞,用於重構它所量化的所有原始細胞。為了更好地重構效果,模型會傾向於把相似細胞量化到同一個條目中,從而去識別同質細胞進而實現元細胞推斷。

本次所提出的細胞量化框架主要具備兩方面優勢:一是避免了細胞間全局相似性的計算,從而能夠顯著提升計算效率;二是通過改變量化重構的目標,可以輕鬆適配不同組學或多組學的測序數據,大大提升了方法泛用性。

除了效率上的顯著提升,在細胞類型註釋、發育軌跡推斷和差異表達分析等多個下遊任務上,本次 MetaQ 方法也取得了更優性能。

MetaQ 在上遊層面實現了測序數據的有效壓縮,突破了各類單細胞數據下遊分析的計算瓶頸,對於精準醫療、疾病機制解析、藥物研發及再生醫學等不同應用領域具有深遠影響。

首先,MetaQ 有望推動個性化治療邁向更精細的層面,使得癌症、神經退行性疾病和自身免疫病等複雜疾病的異質性得到前所未有的解析,同時促進靶向治療方案的優化。

其次,在新藥開發過程中,大規模的單細胞數據可用於高通量藥物篩選,從而精確揭示藥物作用機制及細胞耐藥性演化,提高先導化合物篩選的效率。

再次,在免疫治療領域,大規模單細胞數據可以描繪完整的免疫細胞圖譜,指導個體化疫苗設計和細胞治療策略的優化。

最後,在再生醫學方面,幹細胞分化的精確調控依賴於對細胞命運決定機制的深入理解,而大規模單細胞分析可提供系統性指導,從而提高組織工程和器官再生的成功率。

總而言之,MetaQ 提供了一個實用的單細胞數據壓縮增強工具,顯著降低了大規模單細胞數據分析的計算開銷,對於各類下遊任務均具有推動作用,能夠助力研究人員從海量數據中發現新的生物規律。

(來源:Nature Communications)(來源:Nature Communications

一勞永逸解決大規模單細胞分析計算複雜度難題

近幾年來,該團隊嘗試開展了一些單細胞智能分析方面的工作。在與華西醫院的同行交流的時候,得知目前單細胞測序技術已經非常成熟,可以獲得大量高質量的測序數據。而現在單細胞領域研究的瓶頸更多是在下遊分析階段。

簡單來說,目前常用的 Seurat、Scanpy 等單細胞分析工具並沒有針對大規模數據進行優化,很多分析算法的複雜度都是指數級,這就導致處理幾十萬個細胞一次可能要等一天多的時間。如果數據規模再大一些就會直接出現內存不足的情況,曾有一支來自華西醫院的團隊把內存加到 2T 發現也沒能從根本上解決計算開銷的問題。

儘管一些新開發的基於深度學習的單細胞分析算法,對於大規模數據分析有著比較好的支持能力,但是這些算法大都是只面向某一個特定的任務,比如細胞分群、數據整合等等。

而在實際分析流程中可能會涉及到一連串的任務,需要依次調用不同的算法。然而,不同算法之間的數據接口往往又不互通,這就造成了較高的部署成本和學習成本,因此大家還是更傾向於使用 Seurat、Scanpy 等經典的成熟分析工具,以便在一個框架下完成各種常用任務。

那麼,如何讓傳統的分析工具也能處理大規模數據呢?一種最直接的想法就是對數據進行壓縮,其中元細胞推斷方法便是通過聚合生物學上相似的細胞群體,將若幹個單細胞壓縮為單個代表性的元細胞,從而在最大程度上保留生物信息的情況下顯著減少待分析的細胞數量。

之前的 SEACell 等元細胞推斷方法已經驗證所推斷得到的元細胞能夠很好地作為原始細胞數據的代理,根據元細胞得到的分析結果和根據原始細胞得到的分析結果具有良好的一致性,甚至前者還可能更好一些,因為元細胞在一定程度上緩解了測序數據的稀疏性。

但是在實際使用中他們又發現一個問題:雖然對元細胞進行分析能夠顯著提升效率,不過從海量數據中準確推斷出元細胞這個過程非常的耗時,比如當前效果最好的 SEACell 方法從十萬個細胞中推斷一千個元細胞需要花費一天多的時間。

換而言之,現有的元細胞推斷方法本質上是將計算瓶頸從下遊分析轉移到元細胞推斷階段,並未真正解決計算複雜度問題。

因此,他們就想開發一個準確、高效的元細胞推斷算法,一勞永逸地解決大規模單細胞分析中的計算複雜度問題,助力高通量測序時代單細胞智能分析領域的發展。

(來源:Nature Communications)(來源:Nature Communications
解決問題比使用高級方法更重要

沿著上述思路他們開始了文獻調研,發現已經有一些元細胞推斷方法具備一定能力。然而,試了一下之後發現雖然推斷出的元細胞能夠作為代理較好地保留原始數據中的信息,但是這些元細胞推斷方法還是很慢,並沒有從根本上解決計算複雜度的問題。

因為他們課題組是計算機出身,想到人工智能領域用於數據或者模型壓縮的經典思路便是量化(Quantization),於是開始嘗試設計面向單細胞數據的量化重構框架。

在具體開發中,他們調研了不同組學的單細胞數據的分佈特點,做了針對性的數據建模。在初步實驗中,他們發現當量化碼本的條目個數增大之後,可能會出現碼本的坍縮問題,於是他們又進行了方法改進,設計了條目的調整機制。

在實驗驗證中,他們找到不同規模和不同組學的若幹個單細胞數據集,在不同下遊任務上驗證了此次方法的有效性,借此發現本次方法能在顯著提升計算效率的情況下,取得和現有方法差不多甚至稍優的元細胞推斷結果。

日前,相關論文以《MetaQ:通過單細胞量化實現快速、可擴展和準確的元細胞推理》(MetaQ: fast, scalable and accurate metacell inference via single-cell quantization)為題發在 Nature Communications[1],李雲帆是第一作者,彭璽擔任通訊作者。

圖 | 相關論文(來源:Nature Communications

彭璽表示:「我認為在 AI4Science 研究中,最重要是找到合適的研究問題。只要所開發的方法能夠真正解決一個哪怕很小、但卻是生命科學研究過程中很棘手的一個問題,那我覺得這個研究就是有意義的,並不需要刻意去追求方法設計中用到了多少前沿的、複雜的技術,有效且能解決真問題才是最重要的。」

關於這個方法本身,他們認為現在目前的整體框架已能較好地實現大規模單細胞數據壓縮,後續可能會在細節上進行改進。

比如,嘗試利用最新的單細胞基座模型來進一步提升性能,面向更多的組學設計相應的數據建模方法,或者針對空間轉錄組等數據類型進行針對性的方法優化等等。

參考資料:

1.Li, Y., Li, H., Lin, Y. et al. MetaQ: fast, scalable and accurate metacell inference via single-cell quantization. Nat Commun 16, 1205 (2025). https://doi.org/10.1038/s41467-025-56424-6

運營/排版:何晨龍