顛覆LLM格局,AI2新模型OLMo2,訓練過程全公開,數據架構雙升級

【導讀】非營利研究機構AI2近日推出的完全開放模型OLMo 2,在同等大小模型中取得了最優性能,且該模型不止開放權重,還十分大方地公開了訓練數據和方法。

最近,非營利研究機構AI2上新了OLMo2系列模型,他們稱之為「迄今為止最好的完全開源模型」。

OLMo 2系列包含7B和13B兩個型號,相比如Llama 3.1和Qwen 2.5等開源模型達到了同等甚至更優的性能,同時FLOPS計算量更少,在性能和計算效率之間取得了極佳的平衡,為開源LLM開闢了新的可能性。 

不同大小開源模型的性能對比,OLMo 2的表現優於同參數規模模型

在多個下遊任務上,OLMo 2展現出了強大的泛化能力和適應能力。在10個基準上,OLMo-2-13B的性能全面超越了Llama-2-13B,OLMo-2-8B的基準均分也超過了Llama-3.1-8B。 

訓練過程全公開

不同於Llama、Qwen這類只開源模型權重的項目,這次AI2也秉持了一貫的開源風格,即不止發佈了訓練好的OLMo 2模型權重,還公開了訓練數據、代碼、訓練過程。這無疑為之後的LLM的研究和應用提供了寶貴的資源。 

論文地址:https://arxiv.org/pdf/2501.00656 

OLMo 2的訓練過程分為3個階段,分別是預訓練、中期訓練和後期的指令調優。預訓練數據混合了高質量的網頁數據、代碼數據和學術論文數據等。 

在預訓練階段,OLMo 2通過多種技術改進了訓練穩定性,例如過濾重覆的n-gram、使用更好的初始化方法、架構改進和超參數調整。這確保了模型在訓練過程中不會出現崩潰或損失激增,從而提高了最終模型的性能。 

預訓練使用的高質量數據集 預訓練使用的高質量數據集 

中期訓練階段使用高質量的領域特定數據(例如數學數據),以及合成數據,來增強模型的能力,特別是在數學任務上的表現;加上微退火技術評估以及選擇高質量的數據源,進一步優化了中期訓練的效果。 

中期訓練使用的高質量數據集 中期訓練使用的高質量數據集 

最後的指令調優階段,研究人員基於Tülu 3的指令調優方法,開發了OLMo 2-Instruct模型,專注於使用許可數據,並擴展最終階段的強化學習與可驗證獎勵(RLVR)。 

此外,監督微調(SFT)、直接偏好優化(DPO)和RLVR等多階段訓練,顯著提高了模型的指令跟隨能力和生成質量。 

OLMo 2的開源是全方位的,包括所有用於複製和擴展這些模型所需的訓練和評估代碼、數據集、模型檢查點、日誌及超參數的選擇等,相比只開源權重,使更多研究人員和開發者能夠使用和改進這些模型。 

通過開源所有組件,OLMo 2促進了對語言模型行為和使用的理解和研究,促進語言模型研究的透明度和可重覆性,這些足以成為之後研究所依賴的基礎設施。 

OLMo 2 7B和13B模型的訓練過程中的超參數 OLMo 2 7B和13B模型的訓練過程中的超參數 

多管齊下造就「低碳」LLM

在大規模語言模型訓練中,計算資源和環境影響是不可忽視的因素。Deepseek V3能夠以20分之一的成本進行訓練,而OLMo 2團隊也通過減少主機-設備同步、數據預處理、數據緩存等多種方法降低了訓練成本,並取得了顯著的成效。 

OLMo 2的訓練主要在兩個集群上進行:Jupiter和Augusta。Jupiter集群配備了128個節點,每個節點有8張H100,總共1024個GPU;Augusta集群由160個A3 Mega虛擬機組成,每個虛擬機也有8張H100,總共1280個GPU。 

OLMo 2的7B模型在4.05萬億token上進行訓練,13B模型在5.6萬億token上進行訓練。訓練時間取決於模型的參數規模和訓練數據量。 

同時為了降低能源消耗,團隊使用水冷系統來降低GPU的溫度和功耗,從而提高訓練效率並降低電力成本。 

這些措施加在一起,相比訓練同大小的Llama 3.1所消耗的1022MWh電力,OLMo 2 7B訓練過程中總計只消耗了131MWh的電力,相當於只有約10分之一的耗電量,顯著降低了訓練過程消耗的算力,能源及碳足跡。 

vv

OLMo 2的發佈,標誌著開源LLM的持續進步,為相關領域的研究建立一個新生態系統。在這個生態系統中,新的訓練方法和技術需要被理解和分享。 

參考資料: 

https://allenai.org/blog/olmo2 

本文來自微信公眾號「新智元」,編輯:peter東 祖楊 ,36氪經授權發佈。