「壓縮即智能」,成就LLM的Transformer 未必是終極解?

機器之心PRO · 會員通訊 Week 45

—- 本週為您解讀 ③個值得細品的 AI & Robotics 業內要事 —-

1. LLM 驗證了「壓縮即智能」,但 Transfomer 未必長青?

LLM是否能驗證知識壓縮理論? GPT之後,大模型將向哪個方向演進? 有哪些質疑的聲音? ….

2. 控製器 HOVER、模型π0…實現通用機器人控制的最終形態會是什麼?

「通用機器人控製器」是什麼概念?實現機器人通用控制的價值是什麼?關於通用機器人控制,近期有哪些工作值得關注?在技術路徑上有何不同?為何近期推出的通用機器人控制模型的參數都不大?做機器人通用控制,小模型可能效果更好?

3. WEKA 深度報告:從 1500+ 從業者看法剖析 2024 AI 趨勢

企業中最流行哪種 AI?企業更希望把預算投在哪些 AI 技術?為什麼AI難以規模化部署?企業部署 AI有什麼難點?….

…本期完整版通訊含 3 項專題解讀 + 28 項本週 AI & Robotics 賽道要事速遞,其中技術方面 9 項,國內方面 8 項,國外方面 11 項。

本期通訊總計 22164 字,可免費試讀至 10% 

 消耗 99 微信豆即可兌換完整本期解讀(約合人民幣 9.9 元) 

要事解讀① 「壓縮即智能」,成就LLM的 Transformer 未必是終極解?

引言:在人工智能發展的浪潮中,神經網絡、專家系統、決策樹和遺傳算法等技術先後經歷過興盛、被冷藏,而後複興的循環。自大模型熱潮興起,大多 LLM 均採用 Transformer 結構,基於預訓練的 LLM 範式也是最主流的做法。然而,隨著 OpenAI o1 模型、Sutton 的 Dynamic DL 範式和 Mamba、RWKV 等工作的出現,下一代 LLM 的範式可能和當前路線會有很大不同。

LLM 是「壓縮即智能」的有效驗證,但未必是最優的選擇?

Ilya Sutskever 2023 年向黃仁勳描述的「AI 預測下一個單詞可以實現真正的理解」的理念在一系列 LLM 進展中被驗證,其帶來的「壓縮即智能」的觀點進而得到了大量關注和認可。GPT 的訓練過程被描述為對知識的無損壓縮,但當前最流行的 Transfomer 架構卻未必是這一路徑下的最優選擇。

1、以 ChatGPT 為代表的 LLMs 在近期取得的突破驗證了 Ilya 在描述的「預測下一個 token 就是在理解世界」,也驗證了知識壓縮理論在 LLM 中的有效性。

① Ilya 在 2023 年 3 月 GTC 大會和黃仁勳的對談中表示,ChatGPT 在學習預測下一個詞時,實際上理解了文本背後的現實世界過程和情感等信息,形成了「世界模型」,預訓練則提高了模型對複雜過程的理解。

② 同樣在 2023 年的 2 月和 8 月,Open AI 核心研究員 Jack Rae 和尚未離開 OpenAI 的 Ilya 分別在演講中從不同的角度討論了為什麼他們認為壓縮就是智能,而 GPT 預測下個 token 等同於無損壓縮,因此具備最強的智能。

2、根據 Ilya 和 Jack Rae 的演講,(AGI)的追求在於更強的泛化能力,而泛化能力越強,智能水平越高。壓縮在這裏被視作一種對數據的無損處理,即在不丟失任何信息的前提下,減少數據所需的存儲空間。[8]

① 對於數據集的最佳無損壓縮,實際上是找到了一種方式,能夠以最簡潔的形式表達數據集中的所有信息,這種方式能夠很好地泛化到新的、未見過的數據上。

② 從另一種角度描述,如果一個模型能夠無損地壓縮一個數據集,那麼它很可能也能很好地處理該數據集之外的數據,因為它已經學會了數據中的通用規律和模式。

③ GPT 之所以被認為是最好的無損壓縮器,是因為它能夠在無監督學習的環境下,高效地處理和整合多樣化的數據,提取公用部分,並實現複雜的映射關係,從而在表徵空間中達到最優的壓縮效果。

3、在 GPT 獲得成功後,Transformer 成為了當前 LLM 領域最為流行的架構。但伴隨圍繞 Transformer 的研究逐步發展,其局限也不斷被發掘,進而引發一系列工作對基於 Transformer 的 LLM 範式提出挑戰。

LLM 範式變革已經出現多個徵兆了?

Scaling Law 讓 OpenAI 取得了模型能力上的絕對優勢,也引發了國內外團隊嘗試在預訓練環節投入越來越多的計算資源和海量數據。然而,在模型越做越大,越做越貴的趨勢下,包括 OpenAI 在內的多個團隊均在嘗試改進這種高成本的 LLM 範式。其中,Google DeepMind 團隊的「Scaling LLM Test-Time Compute」和 OpenAI 在 o1 發佈時介紹的嘗試均映射出 LLM 的訓練範式正在隱隱從預訓練轉向推理;而深度學習先驅深度學習先驅 Richard S。Sutton 的工作則在 Dynamic Deep Learning 的遠期願景下,解鎖更適應持續學習環境的訓練範式,規避現有大模型訓練的高成本和災難性遺忘等局限。

1、Google DeepMind 和 UC 伯克利的研究者在 2024 年 8 月的「Scaling LLM Test-Time Compute」論文中探究了如何通過增加測試時(Test-Time)的計算量來提高 LLMs 的性能,發現這種方法在部分情況下比單純擴展模型參數更加有效。(詳見 Pro 會員通訊 Week36 期)

2、「Scaling LLM Test-Time Compute」的核心思路在於,假設通過在測試時(test-time)投入額外的計算資源,即 Scaling test-time compute,LLM 在理論上應該能做到比訓練時更好的表現。

① 如果預訓練模型的大小可以與推理期間的額外計算資源交換,那麼規模較小的模型將有希望替代原本需要部署在數據中心的大規模 LLM。

② 如果使用額外的推理時間計算資源來自動化改進模型輸出的質量,也可以作為算法優化中減少依賴人類監督的路徑。

3、該工作探討了兩種主要機制來擴展測試時的計算:一種是針對基於過程的密集驗證器獎勵模型(PRM)進行搜索,另一種是在測試時根據 prompt 自適應地更新模型的響應分佈。

① 通過對這兩種策略的研究,研究者發現不同方法的有效性高度依賴於 prompt 的難度,並提出了「計算最優」擴展策略,根據 prompt 難度自適應地分配測試時的計算資源。

② 實驗發現,將額外計算資源投入測試時計算在大多問題上具有較高性價比,但對最難的問題仍是預訓練計算取得的進展更有效。

4、「 Scaling LLM Test-Time Compute」發佈於 OpenAI 推出 o1 模型(9 月)前夕。彼時,人們對仍是「草莓」的 o1 有著許多猜測,而Google DeepMind 這項工作的曆年傳聞中草莓會在「回答前思考」的特徵。在 o1 發佈後,其「 RL Scaling」的新方向則進一步引發了業界對 LLM 訓練範式轉移的熱議。(詳見 Pro 會員通訊 Week37 期)

① o1 模型的特點是「三思而後行」。通過訓練,o1 在響應用戶之前會先產生一個很長的內部思維鏈,完善自己的思維過程,嘗試不同的策略,並認識到自己的錯誤。

② 這種思考能力使 o1 在面對複雜問題時,能夠像人類一樣進行長時間的思考和推理,從而得出更加準確和深入的答案。

5、OpenAI 在 o1 技術報告稱更多的強化學習(訓練時計算)和更多的思考時間(測試時計算)能讓 o1 的性能持續提高,且這種 Scaling 方法的限制與此前流行的預訓練的限制有很大不同。

① 圍繞 OpenAI 在技術博客中對測試時計算(test-time compute)的發現,許多聲音指出 Scaline Law 的範式正在從 Training-Time 轉向 Inference-Time。

6、北大對齊團隊撰文解讀了o1在技術上的細節,並指出o1象徵著「Post-Training Scaling Laws」已經出現,並為該路徑提供了有理的支持。

① Post-Training Scaling Laws代表的是預訓練階段參數Scaling Up帶來的邊際收益開始遞減,而後訓練階段的強化學習訓練和推理階段思考計算量的增大則能夠顯著提升模型性能。

② o1模型可能使用了類似於AlphaGo中的MCTS和RL方法,通過搜索找到正確的答案路徑。強化學習在o1中的作用是誘導合理推理過程的產生,而不是直接搜索過程和最終答案。