田淵棟:2024年年終總結

新智元報導  

【新智元導讀】2024年已經結束,2025年對於AI又意味著什麼?田淵棟最新長文中對過去一年做了全面的總結。

一轉眼2024年又接近尾聲了,該是寫總結的時候了。

學術研究

這一年我們還是做了一些比較有趣的工作,主要圍繞兩個要點:其一是提高大語言模型(LLM)在一些困難推理和規劃(reasoning & planning)問題上的能力,其二是如何提升LLM的訓練與部署的效率,此外作為業餘愛好,我繼續做一些理論工作來理解網絡學習的本質。

更好的LLM推理和規劃儘管大語言模型在許多任務上表現出色,但在應對複雜的推理規劃問題時,相比傳統符號搜索算法,仍然不盡如人意,像旅行規劃問題(Travel Planning, ICML’24 Spotlight)就是一個例子。今年我們圍繞這一難題展開了一系列研究。在年初的Searchformer中,我們將A*搜索的符號推理過程中的中間步驟(如搜索、展開下一步節點、從死路中回溯等)記錄下來,並作為模型的思維鏈,針對一些傳統規劃問題進行訓練。用十分之一參數和十分之一數據,我們的模型性能相當於直接預測答案的模型,在此基礎上再用自身好的合成數據進行微調,優化其性能(相當於某種程度的蒸餾),結果發現推理鏈變得更短,而模型的性能卻不斷提升。現在回過頭來看,這與廣泛討論的o1的思路有一定相似之處。

在SearchFormer的基礎上,我們的Dualformer通過隨機移除推理鏈中的部分token和步驟(有時甚至完全移除),來縮短模型的推理鏈條,同時優化其推理能力。有意思的地方是通過這種方式,DualFormer實現了快思考(fast thinking)與慢思考(slow thinking)的動態切換。面對簡單問題時,模型能夠快速得出答案,而在複雜問題上,它會自動切換到更深入的推理模式。

年末的Coconut利用了連續隱空間(Continuous Latent Space)來減少推理鏈的長度,從最初的離散思維鏈(CoT)開始,使用課程學習(curriculum training)的方法,我們逐步將其中的每一句話壓縮成一個連續的隱空間表示。通過這種方式,推理鏈的長度大幅縮短。Coconut在一些需要搜索回溯, 有大量岔路和陷阱的數據集上,效果比CoT要好——因為不帶反思的CoT是貪心搜索的,會掉進死胡同,然後出現幻覺得到錯誤的答案;而連續隱空間推理鏈似乎會以廣度優先方式同時搜索所有可能的下一步,從而得到正確的答案。我有種感覺,連續隱空間相當於量子力學高治伯特空間里的疊加態,而將它離散化采樣成一些token相當於通過觀測,讓疊加態塌縮到一個確定的答案,如果不離散化,在連續空間計算可能更有效率。關於這個方向,我們還會繼續探索。

讓LLM在推理和規劃上變強的另一條路線是調用已有組合優化工具來解決困難的優化問題。像旅行規劃(Travel Planning)可以通過先用LLM把自然語言的提問轉化成符號表示,然後調用已有的一些符號求解工具,比如說混合整數規劃(MILP),來直接得到最優解,再轉回自然語言。整個過程保證最優解的質量並且輸出接近實時。我們的一篇EMNLP Demo paper就是這麼做的,之後針對多輪對話,還可以用Agent Constitution的方式進行優化,以讓大模型能在最小的對話輪數內問到關鍵的問題,收集最優先的信息。

最後LLM本身也可以用來加速離散空間的組合搜索過程。一個例子是如何生成看起來像自然語言的對抗性提示詞(Adversarial Promp)來攻破大模型的安全機制。這個問題並不容易,因為提示詞是一個長的離散token序列,其搜索空間十分巨大,而且還要有各種複雜的自然語言約束。我們上半年的AdvPrompter通過微調一個LLM來生成對抗性提示詞,使得目標模型輸出危險句子的概率變大,這樣兼顧語言的自然性和攻擊的有效性,同時訓練也較有效率。實驗表明用開源模型生成的對抗性提示詞,遷移到閉源模型同樣有效。

提高LLM訓練及部署的效率。上半年的GaLore(ICML’24 Oral)開發了一種能夠減少內存消耗的預訓練/微調的方法。與SGD或者Adam把梯度拉長成一個大向量再優化不同,GaLore把模型中的權重視為原本的矩陣,對其梯度進行低維投影,這樣就大幅減少了優化過程中所需的計算資源。

梯度的大小變小了,其對應的優化器的狀態(Optimizer State)也會變小,進而顯著降低內存消耗。這樣就不用要求權重本身是低秩的(事實上在預訓練一開始時權重因為隨機初始化肯定不是低秩的)。用這種做法可以把7B的模型預訓練所需內存壓縮到24G以內,一張RTX 4090卡可以放下,在20B token以內的訓練效果也和全量梯度差不多,之後會有更大規模的結果。

在此基礎上,我們聯合一些學術實驗室推出Q-GaLore(權重採用4比特存儲,進一步減少內存消耗)和Tensor-GaLore(低維投影張量梯度,應用於解PDE方程)等後續工作。自發佈以來,GaLore這篇工作還是有一定影響力。

另外我們也有一些模型部署的工作。MobileLLM發現一些直接訓練端側小模型(350M-1B)的有趣技術,SpinQuant優化權重旋轉矩陣以減少outlier對於量化模型的影響,在LLaMA 3.2 1B/3B的模型上有應用(見Meta的官方博客)。最近,我們與CMU合作的MagicPIG揭示了Top-K注意力機制的一些本質問題,在模型部署時將KV cache放入CPU內存,並且通過Local Sensitive Hashing (LSH)來提高KV cache載入速度。

從下半年開始,我在Meta AI(FAIR)負責領導一個專注於規劃和推理方向的團隊。團隊規模約為10人,致力於提升模型推理和規劃的能力。今年開了個還不錯的頭,希望明年能做出有更多有意思的東西來。下一年還是希望更加hands-on,對想要實現的目標集中精力去進行深度思考。

小說《破曉之鍾》出版

今年我的小說《破曉之鍾》終於出版了,也算是第一次破圈的嘗試。豆瓣和微信讀書上的評分都還不錯,也收到很多鼓勵的評價。實體書的銷量也可以,出版社說打算再印一些。這一切都已經超出我的預期了。

小說是2020-2021年寫的,當時還沒有能用的大模型,每個字都是自己敲出來的。接下來的第二部應該會用AI嘗試一下輔助寫作。目前就算是最好的大模型(如GPT 4o、Claude 3.5 Sonnet和Gemini 2)寫出來的東西也是不能用的,需要經過大量的修改,但已經比一年前好太多,特別是Claude 3.5能自動把一些角色聯繫起來製造有意義的互動,新出的Gemini 2也能主動製造一些情節轉折了,當然這些都僅限於千字以內,再長就回到了經典的「迎接任何挑戰」,「前途一定光明」,「幸福生活在一起」等等的無聊套路上。期待之後的一些工作流的組合會帶來驚喜。

對未來的一些瘋狂的想法

馬上要2025年了,大模型變得越來越好用,能力也越來越強,它將不再僅僅是勁爆新聞,而會大量滲透進我們每天的生活。舉個實際例子,最近我用大模型開發了一個簡單的會議管理工具,它會快速生成網頁,用戶可以在頁面上選擇時間段並直接安排會議,我在手機上批準後,會自動給雙方發會議提醒,並將這個時間段標記為佔用。整個開發過程僅花了兩個多小時,而以前如果要實現類似功能,可能需要大量時間研究工具文檔或API。現在借助大模型,開發變得極為高效。這個工具是我在參加NeurIPS會議前一天臨時起意寫的,在開會期間發揮了很大作用,儘管還有些bug,但有效減少了額外的溝通協調。

另一個例子是我手機上的一個每天給我推薦arXiv文章的Bot,也是代碼寫了幾個小時就上線,自己點按鈕選擇喜不喜歡這篇文章,讓Bot自己訓練模型滿足推薦偏好。有了這個Bot之後,相關論文就能第一時間發現,並且能充分利用碎片時間,相當方便。其它的還有ToDoBot等等,不停提醒每天要做的事情,減少無所事事刷手機的時間。

未來的競爭力,將越來越依賴於個人對大模型工具的使用能力,將工具與自身需求相結合,形成高度私人化個性化的工作流程。像這篇博客就是用Whisper聽寫+大模型整理的,但省不了各種複製黏貼操作。

我很期待明年在Agent起來後,做個人項目更加自動化便利化的可能性。以後從「需求」到「實現」的鏈條會越縮越短,對效率的不懈追求會減少中間的冗餘節點,最後的形態可能會出乎所有人的預料。在寫代碼變成不停寫註釋按Tab的今天,可能更重要的是想像力,清楚的戰略規劃,還有立即行動的執行力。有了這些之後,在各類AI滿地都是,便宜得如水和空氣一樣的未來,「言出法隨」或者「所思即所得」就不再是科幻小說里描繪的未來,而是活生生的現實了。

什麼時候真正會有AGI

與大家通常的定義不同,AGI在我心中的定位是「AI是否達到人類學習的效率」,人可以通過很少一些樣本去學習,並且能深入理解問題的本質,並產生深刻的見解。

但目前的大模型還做不到,需要極大量的數據樣本,這些樣本讓人去看,一百輩子都不夠。即便如此,吐出來的文字和分析都浮於表面,處於「外行看起來很高深,但內行看起來很傻逼」的狀態。

要做到這一點,我還是覺得AI最終要系統化理論化。這方面的工作並不是公司的核心任務,但我個人認為非常重要。等到scaling laws所需的資源超過能提供的極限,或者進步停滯,那理解模型其內在學習機制的重要性會變得更加突出。

這將是從「煉金術」到「化學」的轉變,也是研究者的巨大機遇。今年的這篇CoGO(見田淵棟:求道之人,不問寒暑(十))讓我有幸窺見神經表示和符號表示的有趣聯繫:由梯度下降獲得的兩層神經網絡的解,和代數結構有著深刻的關聯。當然這個只存在於比較特殊的情況下,在更加一般化的情況下,兩者如何對應,會是一個很有意思的研究課題。

參考資料:

https://zhuanlan.zhihu.com/p/15135181332

註:本文得到了作者本人授權轉載,若二次轉載需聯繫原作者。