模型預訓練模式「變天」?Meta推出預訓練框架,訓練token減少21.5%

「預測下一個 token」(NTP,Next Token Prediction),最早由美國數學家克羅達·艾爾伍德·香農(Claude Elwood Shannon)於 1948 年在《通信的數學理論》一書中提出。

圖 | 克羅達·艾爾伍德·香農(Claude Elwood Shannon)(來源:資料圖)圖 | 克羅達·艾爾伍德·香農(Claude Elwood Shannon)(來源:資料圖)

它指的是通過觀察一系列給定的 token,預測序列中的下一個 token。如今,「預測下一個 token」已經成為自然語言處理的核心機制。

OpenAI 前首席科學家、聯合創始人伊利亞·蘇茨克維(Ilya Sutskever)曾多次表示,只要能夠預測下一個 token,就能幫助人類達到通用人工智能。

近日,通過結合「預測下一個 token」概念與連續概念,Meta 提出一款名為「連續概念混合(CoCoMix,Continuous Concept Mixing)」的預訓練框架。(註:連續概念,指的是連續思維鏈技術,這是一種旨在提升模型推理能力的方法。)

圖 | CoCoMix 的相關論文的第一作者吉洪·塔克(Jihoon Tack)(來源:https://jihoontack.github.io/)

CoCoMix 能夠預測那些從預訓練的稀疏自編碼器中學習到的連續概念,並能通過與 token 隱藏表示交錯的方式,將這些概念混入模型的隱藏狀態中。實驗結果顯示,CoCoMix 的樣本效率更高,並且始終優於「預測下一個 token」、知識蒸餾和插入暫停標記(inserting pause tokens)。(註:插入暫停標記,是一種訓練大型語言模型的方法,旨在模擬人類在思考過程中的停頓,從而提升模型的生成文本質量和邏輯性。)

實驗中,研究人員通過在多個語言建模基準測試上進行評估,以及在規模從百萬級參數到十億級參數不等的預訓練模型上進行評估,借此證明了 CoCoMix 的有效性。

例如,當將 CoCoMix 用於 1.38B 大小的模型時,CoCoMix 實現了與「預測下一個 token」相當的性能,但是訓練 token 能夠減少 21.5%。

此外,在從弱監督到強監督的場景中,CoCoMix 從小型模型中提取的概念,甚至可以作為真實標籤來監督較大模型的訓練。

並且,CoCoMix 能夠通過直接檢查和修改預測概念來增強可解釋性和可操縱性,從而能為指導模型的內部推理過程帶來幫助。

圖 | CoCoMix 的概況(來源:arXiv)圖 | CoCoMix 的概況(來源:arXiv

CoCoMix:在十億級模型上持續提高「預測下一個 token」的性能

研究人員表示,在打造 CoCoMix 的時候他們使用預先訓練的稀疏自編碼器來提取語義概念,並根據歸因分數選擇最具影響力的概念,以此來量化每個概念對於模型輸出的影響。

然後,研究人員開始進行模型訓練,並使用交叉熵損失從其隱藏狀態來預測被選定的概念。一旦預測出多個概念,研究人員就將它們壓縮成一個連續的概念,並通過與 token 嵌入交錯混合到隱藏狀態之中,從而直接為「預測下一個 token」帶來助力。

這樣做的另一個好處,可以針對預測出的概念進行分析,從而實現內容的可控生成以及提高模型的可解釋性。

為了針對 CoCoMix 進行實證評估,研究人員提出了以下研究問題:首先,CoCoMix 能否提高大模型預訓練中「預測下一個 token」的性能?其次,與其他知識提取方法相比,CoCoMix 在從弱到強的監督設置上是否有所改善?其次,CoCoMix 是否引入了模型可解釋性和可操縱性?最後,CoCoMix 的每個擬議組件對性能有何貢獻?(註:知識提取,是指從非結構化或半結構化的數據源中自動提取結構化信息的過程。擬議組件,指的是正在討論或計劃中的組件,這些組件可能尚未完全實現或標準化,但被認為是終版模型的重要組成部分。)

針對此,在訓練設置上,研究人員使用了在 124M 大小的 GPT-2 上進行訓練的預訓練開源稀疏自編碼器。與此同時,他們使用三個不同數量的活動參數來訓練 CoCoMix,包括 69M、386M 和 1.38B,上下文長度則為 1024。

由於連續概念的交錯,CoCoMix 使用的浮點運算比「暫停 token」少,但是比「預測下一個 token」要多。(註:暫停 token,是一種特殊的標記,用於在模型的預訓練和微調過程中引入可學習的「暫停」機制,旨在提高 Transformer 模型在處理多樣化任務時的性能。)

研究人員表示,其中一個實驗使用了 200B 個 token 外,其餘所有實驗均使用 20B 個訓練 token 進行。在評估 CoCoMix 時,對於所使用的基準模型或基準數據集,他們使用了標準的「預測下一個 token」預訓練程序,以及使用了在預訓練中常見的知識蒸餾。

實驗中,他們排除了那些需要訓練多個模型的知識蒸餾基準模型。對於知識蒸餾,研究人員在平衡 KL 散度與「預測下一個 token」損失的同時,針對教師模型和學生模型輸出之間的 KL 散度進行最小化。(註:KL 散度,是一種衡量兩個概率分佈之間差異的指標。)

在評估設置上,研究人員使用驗證困惑度的預訓練數據集和 7 個下遊任務,以便針對模型的常識推理能力和閱讀理解能力進行基準測試。與此同時,他們將 OpenWebMath 作為一個預訓練數據集,以便證明即使在一個不同的語料庫上訓練模型,那些從一個預訓練語言模型中學到的概念仍然可以用於 CoCoMix。

另外,研究人員還展示了以下兩個核心結果:第一,他們展示了在相對大規模的預訓練設置中與「預測下一個 token」的比較;第二,他們展示了與知識蒸餾基線的比較。特別是在弱到強的監督場景中,研究人員證明從小模型中提取的概念可被用於指導更大的模型。

與此同時,研究人員在 200B token 上訓練「預測下一個 token」和 CoCoMix。如下圖所示,CoCoMix 始終能夠顯著提高各種尺寸模型的下遊任務性能。

(來源:arXiv)(來源:arXiv

實驗結果表明,從較小的 124M 模型中提取的概念,能讓 386M 和 1.38B 等較大模型受益,從而顯示出從弱到強的監督有效性。此外,如下圖所示,CoCoMix 在十億級模型上持續提高了「預測下一個 token」的性能。同時,使用 CoCoMix 所帶來的性能增益,會隨著訓練步驟的增加而增加,也就是說它擁有很強的泛化性能。

(來源:arXiv)(來源:arXiv

研究人員還比較了 CoCoMix 和知識蒸餾基線在多個場景中的表現。這些場景包括:讓更強的教師模型教導更小的學生模型的場景;從弱監督到強監督的場景,即讓較弱的教師教導較強的學生模型;分佈偏移場景,即讓學生模型在與教師模型的預訓練分佈在不同的語料上進行訓練。如下表所示,CoCoMix 在所有模型配置中均比知識蒸餾有所改進。

(來源:arXiv)(來源:arXiv

特別是,在弱監督到強監督的設置中,CoCoMix 表現出顯著的性能提升。例如,在 3.86 億參數規模的模型中,將平均困惑度降低了 2.8,而知識蒸餾方法並沒有顯示出較大改進。這是因為較弱的教師模型可能會引入嘈雜知識或次優知識,尤其是當學生模型的能力超過教師模型時。

在下圖中也可以觀察到這一趨勢:使用知識蒸餾訓練的模型,在訓練中途落後於標準訓練,這是因為學生模型的速度超過了教師模型。相比之下,CoCoMix 能夠有選擇性地利用有用的概念,從而獲得一致的性能提升。

(來源:arXiv)(來源:arXiv

CoCoMix 兼具可解釋性和可操縱性

CoCoMix 的另一個核心優勢是其可解釋性和模型導向性。具體來說,當模型被訓練用來預測隱藏狀態下的概念時,可以根據概念預測來分析它關注的概念。

為了驗證這種可操縱性是否可以按照預期工作,研究人員在預訓練模型的稀疏自編碼器潛在空間中引導相同概念的激活,並確認輸出是否表現出相應的概念。

研究人員使用用 CoCoMix 訓練的 386M 參數模型,其中預訓練模型是 GPT-2。如下圖所示,當與「網站地址」相關的概念被放大時,這兩個模型都開始生成實際的網站地址。這表明研究人員的模型已經成功地學習了 GPT-2 對齊的概念。

(來源:arXiv)(來源:arXiv

與此同時,研究人員還對 CoCoMix 進行了詳細分析,以驗證每個擬議組件的效果。期間,他們使用了 69M 模型,針對從 OpenWebText 數據集中采樣的 20B token 進行訓練。

在歸因得分有效性的分析上,他們先是分析歸因得分是否有效地提取了重要概念。為了證明這一點,研究人員使用概念提取的激活值 ct 來訓練 CoCoMix。之所以這樣做,是因為激活值能夠很好地反映這一概念的重要性。如下圖所示,使用

歸因得分顯著提高了性能,與基於激活值的選擇相比,樣本效率提高了 17.5%。

(來源:arXiv)(來源:arXiv

在組件的分析上,研究人員分析了本次方法之中每個組成部分的貢獻:首先,分析概念預測方程 2 的貢獻;其次,分析概念插入方程的貢獻。下圖中的結果表明,這兩個組件對於性能改進都至關重要。

具體來說,僅僅使用預測損失的概念就可以適度減少困惑。同時,將概念插入與預測相結合,可以提高損失函數的有效性,從而能夠實現進一步的性能提升。這顯示插入讓模型能夠有效地利用預訓練的大模型潛在推理。

(來源:arXiv)(來源:arXiv

而對於未來的探索方向,研究人員認為通過其他選擇標準來提升 CoCoMix 的性能,或者通過去除不良概念以減少偏差,將會是非常有價值的探索方向。

參考資料:

https://arxiv.org/pdf/2502.08524

運營/排版:何晨龍