Llama版o1來了,來自上海AI Lab,強化學習代碼已開源,基於AlphaGo Zero範式
夢晨 發自 凹非寺
量子位 | 公眾號 QbitAI
複刻OpenAI o1推理大模型,開源界傳來最新進展:
LLaMA版o1項目剛剛發佈,來自上海AI Lab團隊。
簡介中明確:使用了蒙地卡羅樹搜索,Self-Play強化學習,PPO,以及AlphaGo Zero的雙重策略範式(先驗策略+價值評估)。
在2024年6月,o1發佈之前,團隊就開始探索蒙地卡羅樹搜索提高大模型數學能力,積累了一些關注。
這次最新開源代碼,也在開發者社區引起熱議。
OpenAI o1系列發佈後,團隊開始升級算法,專注於數學奧賽問題,作為OpenAI草莓項目的開源版本。
10月初,團隊上傳新論文,使用成對優化(不直接給出絕對分數,而是比較兩個答案的相對優劣)提高Llama模型數學奧賽能力。
在最難的AIME2024基準測試30道題中,原版LLaMA-3.1-8B-Instruct做對2道,優化後做對8道,超過了除o1-preview和o1-mini之外的其他商業閉源方案。
10月底,團隊宣佈在基於AlphaGo Zero架構複刻OpenAIo1的努力中取得了重大進展:
已成功使模型在學習過程中通過與搜索樹交互獲得高級思維能力,無需人工標註。
不到一週時間,項目便開源了。
LLaMA版o1最新進展
目前已開源內容包括:預訓練數據集、 預訓練模型、強化學習訓練代碼。
OpenLongCoT-Pretrain數據集,包含10萬+條長思維鏈數據。
每條數據包含一個完整的數學問題推理過程,包含思考內容和評分結果。
例如一個幾何問題,包含了問題描述、圖形坐標、計算過程和結論推導等完整的推理鏈路,以及對各個推理步驟的批評和驗證內容,對推理過程進行評價和指導。
在此數據集繼續預訓練後,模型可讀取和輸出類似o1的長思維鏈過程。
預訓練代碼尚未發佈,目前推薦使用LLaMaFactory代替。
有意思的是雖然項目名為LLaMA-O1,但目前官方給的預訓練模型基於GoogleGemma 2。
目前在預訓練模型基礎上,可以繼續進行強化學習訓練,從代碼中可以看出訓練過程如下:
-
使用蒙地卡羅樹搜索進行自我對弈(self-play)以生成經驗
-
將經驗存儲在優先經驗重播緩衝區中
-
從緩衝區采樣批次數據進行訓練
-
更新模型參數和經驗優先級
論文中也給出了訓練過程的圖示。
同時訓練代碼中使用了以下關鍵技術點:
-
使用LoRA進行參數高效微調
-
使用PPO算法作為策略優化方法
-
實現了GAE(Generalized Advantage Estimation)算法用於計算優勢函數
-
使用優先經驗重播提高訓練效率
最後,LLaMA-O1代碼發佈在名為SimpleBerry的GitHub帳號下,並沒有特別簡介,還比較神秘。
其他與SimpleBerry有關的帳號和官網中,只能看出性質是一個研究實驗室,也並未透露更多研究方向信息。
其他o1複刻項目進展
除LLaMA-O1之外,另一個公開進展的o1複刻項目O1-Journey來自上交大團隊。
團隊在十月初發佈了第一份進展報告,其中介紹了創新Journey Learning範式,以及第一個成功將搜索和學習整合到數學推理中的模型。
O1-Journey核心開發團隊主要由上交大大三、大四本科生,以及上交大GAIR實驗室(生成式人工智能研究實驗室)的一年級博士生組成。
指導教師包括上交大副教授劉鵬飛,姚班校友、史隆獎得主李遠誌等。
LLaMA-O1:
https://github.com/SimpleBerry/LLaMA-O1
相關論文:
https://arxiv.org/abs/2406.07394
https://arxiv.org/abs/2410.02884
O1-Journey:
https://github.com/GAIR-NLP/O1-Journey/