時序大模型突破十億參數！新混合專家架構，普林斯頓格里菲斯等機構出品

10月28日 15:54 新浪網 news-china-auto-hilite

TimeMoE團隊投稿自凹非寺

量子位 | 公眾號 QbitAI

時序大模型，參數規模突破十億級別。

來自全球多隻華人研究團隊提出了一種基於混合專家架構（Mixture of Experts, MoE）的時間序列基礎模型——Time-MoE。

據瞭解，該模型首次將時間序列預訓練大模型的參數規模推向十億級別。

Time-MoE模型通過MoE架構的獨特優勢，將模型參數成功擴展至24億，不僅顯著提升了預測精度，還在降低計算成本的同時超越了眾多現有模型，全面達到了SOTA（State of the Art）水平。

與此同時，團隊精心整理了預訓練數據集Time-300B，這是目前時序領域最大的公開數據集，為各類時序任務提供了通用解決方案。

十億參數時序大模型

這篇文章主要有以下三點技術突破：

強大的混合專家架構：Time-MoE採用稀疏激活機制，在預測任務中僅激活部分網絡節點，這不僅確保了高預測精度，還顯著降低了計算負擔，完美解決了時序大模型在推理階段的計算瓶頸。

靈活的預測範圍：Time-MoE支持任意長度的輸入和輸出範圍，能夠處理從短期到長期的各種時序預測任務，實現了真正的全域時序預測。

全球最大規模的開源時序數據集：團隊開發了Time-300B數據集，涵蓋9個領域的超過3000億個時間點，為模型提供了豐富的多領域訓練數據，確保其在多種任務中的卓越泛化能力。

在相同激活參數條件下，Time-MoE顯著超越了現有的時序基礎模型。在相同的FLOPs下，其稀疏架構展現出相較於密集模型的卓越精度優勢。

模型框架：

輸入Token Embedding

Time-MoE使用逐點分詞方法以確保時間序列信息的完整性，提高了模型處理不同長度序列的靈活性與適用性，如模型框架圖中①所示。在②中，SwiGLU激活函數對每個時間序列點進行嵌入，其中包括一個Feed-forward network (FFN) 和一個Swish FFN，從而增強模型對多維輸入的處理能力：

MoE Transformer模塊

Time-MoE基於decoder-only Transformer，並結合了大規模語言模型中的最新技術。Transformer模塊里， RMSNorm對每個子層輸入進行了歸一化處理，從而提升了訓練的穩定性。同時，採用旋轉位置編碼代替絕對位置編碼，使得模型在處理可變序列長度時具備更好的外推能力。此外，模型引入了稀疏激活的混合專家層來取代標準Transformer模塊里的FFN。公式化概括如下：