Transformer作者初創重磅發佈Transformer²，AI模型活了，動態調整自己權重

Sakana AI發佈了Transformer²新方法，通過奇異值微調和權重自適應策略，提高了LLM的泛化和自適應能力。新方法在文本任務上優於LoRA；即便是從未見過的任務，比如MATH、HumanEval和ARC-Challenge等，性能也都取得了提升。

從章魚通過改變皮膚顏色來融入周圍環境，到人類大腦在受傷後重新連接神經網絡，無不體現著那句經典的名言——「物競天擇，適者生存」。

然而，對於LLM來說，想要加入哪怕只是一句話的新知識，都必須要再訓練一次。

針對這一挑戰，來自Sakana AI的研究團隊剛剛提出了一種全新的方法——Transformer²。它可以通過實時選擇性地調整權重矩陣中的單一組件，使LLM能夠適應未見過的任務。

文章鏈接：https://arxiv.org/pdf/2501.06252

傳統上，LLM的後訓練通過一次全面的訓練來優化模型，使其具備廣泛的能力。

從簡化的角度，這種「one shot」微調框架看起來很理想，但在實際操作中卻很難實現。例如，後訓練需要大量資源，導致計算成本和訓練時間顯著增加。此外，當引入更多樣化的數據時，很難同時克服過擬合和任務干擾。

相比之下，自適應模型提供了一種更靈活高效的方法。與其一次性訓練LLM來應對所有任務，不如開發專家模塊，根據需求將其離線開發並增強到基礎LLM中。

然而，創建多個專家模塊，對LLM進行微調，顯著增加了需要訓練的參數數量，而且容易過擬合，模塊之間的組合也不夠靈活。

對此，新框架通過有選擇性地調整模型權重中的關鍵組件，讓LLM能夠實時適應新任務。

Transformer²的名稱體現了它的兩步過程：首先，模型分析傳入的任務，理解其需求；然後應用任務專用的適應性調整，生成最佳結果。

Transformer²在多種任務（如數學、編碼、推理和視覺理解）中表現出了顯著的進步，在效率和特定任務的表現上超越了傳統靜態方法如LoRA，同時所需的參數大大減少。

LLM的「大腦」：權重矩陣

人類大腦通過互聯的神經通路，存儲知識並處理信息。

而LLM將知識存儲在權重矩陣中。這些矩陣構成了LLM的「大腦」，保存了它從訓練數據中學習到的核心內容。

要理解這個「大腦」，並確保它能夠有效地適應新任務，需要深入分析其內部結構。

而奇異值分解（SVD）提供了寶貴的洞察力。

可以將SVD看作是一名外科醫生，正在對LLM的大腦進行細緻操作。這名外科醫生將LLM中存儲的龐大複雜的知識分解成更小、更有意義且獨立的部分（例如，針對數學、語言理解等的不同路徑或組件）。

SVD通過識別LLM權重矩陣中的主成分來實現這一目標。

在新研究中發現，增強某些成分的信號，同時抑制其他部分的信號，可以提高LLM在下遊任務中的表現。

基於這一發現，Transformer²邁出了下一步，向動態、任務特定的適應性發展，讓LLM能在多種複雜場景中表現得更加出色。

引入Transformer²

Transformer²通過兩步過程重新定義了LLM如何應對多樣的任務。

其核心在於能夠動態調整權重矩陣中的關鍵組件。

在訓練階段，引入了奇異值微調（SVF）方法，該方法使用強化學習（RL）來增強或抑制不同「大腦」組件的信號，以應對多種下遊任務。

在推理階段，新方法採用三種不同的策略來識別任務的特徵，並根據任務要求調整模型的權重。

下圖概述了新方法。

左圖：使用SVD將LLM的「大腦」（即權重矩陣）分解為若干獨立的組件。

右圖：利用RL訓練這些組件的組合以應對不同任務。組件可能在多個任務中共享。例如，在上圖中，紫色齒輪在語言理解和推理任務之間是共享的。推理時，首先識別任務類型，然後動態調整組件的組合。

使用SVF和RL進行訓練

在訓練階段，SVF學習一組z向量，其中每個下遊任務對應一個z向量。

每個z向量可以視作該任務的專家，它是一個緊湊的表示，指定了權重矩陣中每個組件的期望強度，充當「放大器」或「衰減器」，調節不同組件對模型行為的影響。

例如，假設SVD將權重矩陣分解為五個組件[A，B，C，D，E]。

對於數學任務，學習到的z向量可能是[1，0.8，0，0.3，0.5]，這表明組件A對數學任務至關重要，而組件C幾乎不影響其表現。

對於語言理解任務，z向量可能是[0.1，0.3，1，0.7，0.5]，表明儘管C組件對數學任務的貢獻較小，但它對語言理解任務至關重要。

SVF利用RL在預定義的下遊任務集上學習這些z向量。

學習到的z向量使Transformer²能夠適應各種新的下遊任務，同時僅引入最少量的附加參數（即z向量）。

自適應性

在推理階段，新框架使用兩階段適應策略，有效地結合了任務專用的z向量。

在第一次推理階段，給定任務或單個輸入提示，Transformer²通過以下三種適應方法之一來分析測試時的條件。

在第二階段，Transformer²結合這些z向量來調節權重，從而生成最適合新設置的最終響應。

新研究總結了三種任務檢測/適應方法如下：

基於提示的適應：使用專門設計的適應性提示，對任務分類（如數學、編程），並選擇一個預訓練的z向量。

基於分類器的適應：使用SVF訓練的任務分類器在推理時識別任務，並選擇合適的z向量。

少樣本適應：通過加權插值結合多個預訓練的z向量。簡單的優化算法根據在少樣本評估集上的表現調整這些權重。

這三種方法共同確保了Transformer²能夠實現強大且高效的任務適應，為其在多種場景下的出色表現奠定了基礎。

主要結果

作者將這些方法應用於Llama和Mistral LLM，在廣泛的任務上進行測試，包括數學（GSM8K，MATH）、代碼（MBPP-Pro，HumanEval）、推理（ARC-Easy，ARC-Challenge）和視覺問答（TextVQA，OKVQA）。

SVF測評

首先通過SVF在這些任務上獲取z向量，並與LoRA進行了比較。

下表中的結果表明，SVF在文本任務上優於LoRA，特別是在GSM8K任務上有顯著提升。這可以歸因於RL訓練目標。與LoRA的微調方法不同，RL不要求每個問題都有「完美解決方案」。右側的直方圖也展示了SVF在視覺領域的驚人表現。

未見過的任務

隨後將適應框架與LoRA在未見過的任務上進行對比評估，特別是在MATH、HumanEval和ARC-Challenge任務上。

下表左側展示了，隨著方法複雜度的提升，新架構的策略在所有任務上都取得了逐步的性能提升。

在未見任務上的測試集表現。左圖：在未見任務上的自適應。右圖：學習到的z向量插值權重。

而右圖分析了少樣本（few-shot）學習如何結合不同的z向量來處理任務。

在解決MATH問題時，出乎意料的是，模型並非僅依賴於其專門為GSM8K（數學）任務訓練的z向量。這表明，複雜的數學推理任務有益於結合數學、編程和邏輯推理能力。

在其他任務和模型中也觀察到了類似的意外組合，凸顯了該框架能夠綜合多種專業知識，從而實現最佳表現。

模型知識轉移

最後，作者探索了一個挑戰傳統AI發展理念的有趣問題：能否將一個模型的知識轉移到另一個模型中？令人興奮的是，將Llama學習到的z向量轉移到Mistral時，作者觀察到後者在大多數任務上表現出提升。下表中給出了詳細的結果。

儘管這些發現具有前景，但需要注意的是，這兩個模型具有相似的架構，這可能是它們能夠兼容的原因。

不同AI模型之間是否能實現知識共享仍然是一個懸而未決的問題。

然而，這些結果暗示了一個令人興奮的可能性：打開特定任務技能的解耦與重用的大門，為更新的、更大的模型提供支持。

「活體智能」

但這僅僅是開始。Transformer²為呈現了未來的場景：AI系統不再是為固定任務訓練的靜態實體。相反，它們將體現「活體智能」，即不斷學習、演化和適應的模型。

像Transformer²這樣的自適應系統彌合了靜態AI與「活體智能」之間的差距，為高效、個性化、完全集成的AI工具鋪平道路，這些工具將推動各個行業的進步以及我們日常生活的發展。

作者介紹

共同一作Qi Sun，目前是東京工業大學研究助理。他從2023年開始在Sakana AI做兼職研究員。2024年10月，他獲得了東京科學大學的博士學位。此前，他在東京工業大學獲得碩士學位，在大連理工大學獲得學士學位。

共同一作Yujin Tang，2024年1月起擔任Sakana AI的研究科學家，研究領域為強化學習和機器人。此前在DeepMind、Google等公司從事研發工作。他在東京大學獲得博士學位，在早稻田大學獲得碩士學位，在上海交通大學獲得學士學位。

參考資料：

https://arxiv.org/abs/2501.06252

https://sakana.ai/transformer-squared/

本文來自微信公眾號「新智元」，作者：新智元，36氪經授權發佈。

你可能喜歡