Transformer作者初創重磅發佈Transformer²,AI模型活了,動態調整自己權重

Sakana AI發佈了Transformer²新方法,通過奇異值微調和權重自適應策略,提高了LLM的泛化和自適應能力。新方法在文本任務上優於LoRA;即便是從未見過的任務,比如MATH、HumanEval和ARC-Challenge等,性能也都取得了提升。

從章魚通過改變皮膚顏色來融入周圍環境,到人類大腦在受傷後重新連接神經網絡,無不體現著那句經典的名言——「物競天擇,適者生存」。

然而,對於LLM來說,想要加入哪怕只是一句話的新知識,都必須要再訓練一次。

針對這一挑戰,來自Sakana AI的研究團隊剛剛提出了一種全新的方法——Transformer²。它可以通過實時選擇性地調整權重矩陣中的單一組件,使LLM能夠適應未見過的任務。

文章鏈接:https://arxiv.org/pdf/2501.06252 文章鏈接:https://arxiv.org/pdf/2501.06252 

傳統上,LLM的後訓練通過一次全面的訓練來優化模型,使其具備廣泛的能力。

從簡化的角度,這種「one shot」微調框架看起來很理想,但在實際操作中卻很難實現。例如,後訓練需要大量資源,導致計算成本和訓練時間顯著增加。此外,當引入更多樣化的數據時,很難同時克服過擬合和任務干擾。

相比之下,自適應模型提供了一種更靈活高效的方法。與其一次性訓練LLM來應對所有任務,不如開發專家模塊,根據需求將其離線開發並增強到基礎LLM中。

然而,創建多個專家模塊,對LLM進行微調,顯著增加了需要訓練的參數數量,而且容易過擬合,模塊之間的組合也不夠靈活。

對此,新框架通過有選擇性地調整模型權重中的關鍵組件,讓LLM能夠實時適應新任務。

Transformer²的名稱體現了它的兩步過程:首先,模型分析傳入的任務,理解其需求;然後應用任務專用的適應性調整,生成最佳結果。

Transformer²在多種任務(如數學、編碼、推理和視覺理解)中表現出了顯著的進步,在效率和特定任務的表現上超越了傳統靜態方法如LoRA,同時所需的參數大大減少。

LLM的「大腦」:權重矩陣

人類大腦通過互聯的神經通路,存儲知識並處理信息。

而LLM將知識存儲在權重矩陣中。這些矩陣構成了LLM的「大腦」,保存了它從訓練數據中學習到的核心內容。

要理解這個「大腦」,並確保它能夠有效地適應新任務,需要深入分析其內部結構。

而奇異值分解(SVD)提供了寶貴的洞察力。

可以將SVD看作是一名外科醫生,正在對LLM的大腦進行細緻操作。這名外科醫生將LLM中存儲的龐大複雜的知識分解成更小、更有意義且獨立的部分(例如,針對數學、語言理解等的不同路徑或組件)。

SVD通過識別LLM權重矩陣中的主成分來實現這一目標。

在新研究中發現,增強某些成分的信號,同時抑制其他部分的信號,可以提高LLM在下遊任務中的表現

基於這一發現,Transformer²邁出了下一步,向動態、任務特定的適應性發展,讓LLM能在多種複雜場景中表現得更加出色。

引入Transformer²

Transformer²通過兩步過程重新定義了LLM如何應對多樣的任務。

其核心在於能夠動態調整權重矩陣中的關鍵組件。

在訓練階段,引入了奇異值微調(SVF)方法,該方法使用強化學習(RL)來增強或抑制不同「大腦」組件的信號,以應對多種下遊任務。

在推理階段,新方法採用三種不同的策略來識別任務的特徵,並根據任務要求調整模型的權重。

下圖概述了新方法。

左圖:使用SVD將LLM的「大腦」(即權重矩陣)分解為若干獨立的組件。左圖:使用SVD將LLM的「大腦」(即權重矩陣)分解為若干獨立的組件。

右圖:利用RL訓練這些組件的組合以應對不同任務。組件可能在多個任務中共享。例如,在上圖中,紫色齒輪在語言理解和推理任務之間是共享的。推理時,首先識別任務類型,然後動態調整組件的組合。

使用SVF和RL進行訓練

在訓練階段,SVF學習一組z向量,其中每個下遊任務對應一個z向量。

每個z向量可以視作該任務的專家,它是一個緊湊的表示,指定了權重矩陣中每個組件的期望強度,充當「放大器」或「衰減器」,調節不同組件對模型行為的影響。 

例如,假設SVD將權重矩陣分解為五個組件[A,B,C,D,E]。

對於數學任務,學習到的z向量可能是[1,0.8,0,0.3,0.5],這表明組件A對數學任務至關重要,而組件C幾乎不影響其表現。

對於語言理解任務,z向量可能是[0.1,0.3,1,0.7,0.5],表明儘管C組件對數學任務的貢獻較小,但它對語言理解任務至關重要。

SVF利用RL在預定義的下遊任務集上學習這些z向量。

學習到的z向量使Transformer²能夠適應各種新的下遊任務,同時僅引入最少量的附加參數(即z向量)。

自適應性

在推理階段,新框架使用兩階段適應策略,有效地結合了任務專用的z向量。 

在第一次推理階段,給定任務或單個輸入提示,Transformer²通過以下三種適應方法之一來分析測試時的條件。

在第二階段,Transformer²結合這些z向量來調節權重,從而生成最適合新設置的最終響應。

新研究總結了三種任務檢測/適應方法如下:

基於提示的適應:使用專門設計的適應性提示,對任務分類(如數學、編程),並選擇一個預訓練的z向量。

基於分類器的適應:使用SVF訓練的任務分類器在推理時識別任務,並選擇合適的z向量。

少樣本適應:通過加權插值結合多個預訓練的z向量。簡單的優化算法根據在少樣本評估集上的表現調整這些權重。

這三種方法共同確保了Transformer²能夠實現強大且高效的任務適應,為其在多種場景下的出色表現奠定了基礎。

主要結果

作者將這些方法應用於Llama和Mistral LLM,在廣泛的任務上進行測試,包括數學(GSM8K,MATH)、代碼(MBPP-Pro,HumanEval)、推理(ARC-Easy,ARC-Challenge)和視覺問答(TextVQA,OKVQA)。

SVF測評

首先通過SVF在這些任務上獲取z向量,並與LoRA進行了比較。 

下表中的結果表明,SVF在文本任務上優於LoRA,特別是在GSM8K任務上有顯著提升。這可以歸因於RL訓練目標。與LoRA的微調方法不同,RL不要求每個問題都有「完美解決方案」。右側的直方圖也展示了SVF在視覺領域的驚人表現。 

未見過的任務

隨後將適應框架與LoRA在未見過的任務上進行對比評估,特別是在MATH、HumanEval和ARC-Challenge任務上。 

下表左側展示了,隨著方法複雜度的提升,新架構的策略在所有任務上都取得了逐步的性能提升。 

在未見任務上的測試集表現。左圖:在未見任務上的自適應。右圖:學習到的z向量插值權重。在未見任務上的測試集表現。左圖:在未見任務上的自適應。右圖:學習到的z向量插值權重。

而右圖分析了少樣本(few-shot)學習如何結合不同的z向量來處理任務。 

在解決MATH問題時,出乎意料的是,模型並非僅依賴於其專門為GSM8K(數學)任務訓練的z向量。這表明,複雜的數學推理任務有益於結合數學、編程和邏輯推理能力。 

在其他任務和模型中也觀察到了類似的意外組合,凸顯了該框架能夠綜合多種專業知識,從而實現最佳表現。

模型知識轉移

最後,作者探索了一個挑戰傳統AI發展理念的有趣問題:能否將一個模型的知識轉移到另一個模型中?令人興奮的是,將Llama學習到的z向量轉移到Mistral時,作者觀察到後者在大多數任務上表現出提升。下表中給出了詳細的結果。

儘管這些發現具有前景,但需要注意的是,這兩個模型具有相似的架構,這可能是它們能夠兼容的原因。

不同AI模型之間是否能實現知識共享仍然是一個懸而未決的問題。

然而,這些結果暗示了一個令人興奮的可能性:打開特定任務技能的解耦與重用的大門,為更新的、更大的模型提供支持

「活體智能」

但這僅僅是開始。Transformer²為呈現了未來的場景:AI系統不再是為固定任務訓練的靜態實體。相反,它們將體現「活體智能」,即不斷學習、演化和適應的模型。

像Transformer²這樣的自適應系統彌合了靜態AI與「活體智能」之間的差距,為高效、個性化、完全集成的AI工具鋪平道路,這些工具將推動各個行業的進步以及我們日常生活的發展。

作者介紹

共同一作Qi Sun,目前是東京工業大學研究助理。他從2023年開始在Sakana AI做兼職研究員。2024年10月,他獲得了東京科學大學的博士學位。此前,他在東京工業大學獲得碩士學位,在大連理工大學獲得學士學位。

共同一作Yujin Tang,2024年1月起擔任Sakana AI的研究科學家,研究領域為強化學習和機器人。此前在DeepMind、Google等公司從事研發工作。他在東京大學獲得博士學位,在早稻田大學獲得碩士學位,在上海交通大學獲得學士學位。

參考資料: 

https://arxiv.org/abs/2501.06252

https://sakana.ai/transformer-squared/

本文來自微信公眾號「新智元」,作者:新智元,36氪經授權發佈。