全球開發者組團訓練,首個異步強化學習32B推理模型震撼來襲!數據已開源

新智元報導  

編輯:英智 好睏

【新智元導讀】全球首個去中心化強化學習訓練的32B模型震撼發佈!無需授權,就能用自家異構計算資源參與其中,讓編碼、數學與科學領域的推理性能邁向新高度。

最近,全球第一個用去中心化強化學習訓練的32B模型——INTELLECT-2正式發佈!

任何人都能用自己的異構計算資源參與,無需授權。

這種全新的範式,讓去中心化訓練在編碼、數學和科學領域,邁向前沿的推理性能。

INTELLECT-2是大規模去中心化強化學習的開端,他們的下一步計劃是用強化學習訓練端到端智能體。

去中心化強化學習正處於起步階段,若能彙聚社區和各方貢獻,開源AI有望超越閉源實驗室。

AI社區對這項工作給出了非常積極的肯定。

隨著OpenAI o1和DeepSeek R1的發佈,出現了預訓練以外的擴展範式,借助RL進行優化,讓模型有更多時間進行推理。

之前發佈的成果曾探討,為何通過RL訓練的推理模型,相比標準的LLM預訓練,更適合去中心化訓練。

INTELLECT-2將有力地證實這一觀點。

博客鏈接:https://www.primeintellect.ai/blog/intellect-2博客鏈接:https://www.primeintellect.ai/blog/intellect-2

全球首個去中心化強化學習32B模型

過去一年,研究者致力於構建所有關鍵的開源組件,讓INTELLECT-2具備前沿的推理性能,支持異構計算節點,並允許無需授權的貢獻,能對32B參數模型進行去中心化RL訓練:

  • prime-RL:新推出的開源庫,用於完全異步的去中心化RL,基於具備容錯的去中心化訓練框架prime開發。

  • SYNTHETIC-1 & GENESYS:用於RL任務眾包和驗證環境的庫。

  • TOPLOC:實現高效、可驗證的推理方法,用於驗證INTELLECT-2中所有去中心化rollout節點的計算。

  • 協議測試網:提供基礎設施和經濟激勵,用於聚合和協調全球計算資源,打造真正自主的開源AI生態系統。

Prime-RL:去中心化訓練框架

INTELLECT-2基礎設施主要由三個組件構成:

  • 推理采樣節點(Inference Rollout Workers):一組去中心化節點,用最新的策略模型,從環境中收集推理軌跡(reasoning rollouts),並計算相應的獎勵。

  • TOPLOC驗證節點(TOPLOC Validators):負責高效驗證無需授權的rollout工作節點的推理計算,打造無需信任的系統。

  • GRPO訓練節點(GRPO Training Workers):從去中心化推理采樣節點收集到新生成的數據後,採用DeepSeek的GRPO訓練方法進行訓練。訓練完成後,這些訓練節點會通過Shardcast庫,將更新後的權重廣播給所有推理節點,以啟動下一輪數據收集。

該基礎設施具備以下特性:

  • 完全消除通信開銷:通過異步強化學習,新策略模型的廣播與正在進行的推理和訓練完全重疊,通信不再成為瓶頸。

  • 支持異構推理節點:允許任何人按自己的節奏生成推理軌跡(reasoning traces),跨節點處理速度沒有統一要求。

  • 資源需求低:在這種訓練設置中,佔計算資源大頭的推理節點可以在消費級GPU上運行。例如,配備4塊RTX 3090 GPU的機器,足以支持32B參數模型的訓練。

  • 實現高效驗證:推理計算的驗證過程,不會引入訓練瓶頸。

異步強化學習

RL在本質上比傳統的LLM預訓練更具異步性。在去中心化RL中,數據收集和網絡訓練可以分開進行。

多個節點在並行環境中運行,各自異步收集經驗數據,中央學習器負責接收和處理這些數據。

由於經驗數據到達的時間不同,且來自狀態空間的不同部分,每個步驟的發生速率也有所不同。

異步強化學習在Tulu 3和Llama 4中得到了成功應用,採用單步異步強化學習方法,提升了訓練效率。

消融實驗表明,即使採用四步異步訓練(即推理節點使用的策略模型落後四步),也能複現DeepScaleR的結果,且不會降低模型性能。

這樣的異步程度,在去中心化RL訓練中,即使全局互聯較弱,也能將通信時間完全隱藏在計算過程中。

同步DeepScaleR訓練與異步Prime-RL的比較:即使延遲增加(最多四步),Prime-RL的性能仍能與同步基線媲美

此外,異步強化學習不僅實現了去中心化訓練設置,還通過分別優化訓練和推理引擎,進一步提高了效率。

例如,在prime-rl庫中,rollout節點可以利用vLLM,及全套推理優化技術。

完全異步的在線RL訓練框架prime-rl已開源,任何人都能借此開啟全球去中心化RL訓練。

Shardcast

基礎設施中的一個關鍵組件,Shardcast是能盡快將新策略模型從訓練節點廣播到所有去中心化推理節點的機制。

Shardcast是一個通過基於H湯臣P的樹狀拓撲網絡分發大型文件的庫,由以下部分組成:

  • 源服務器(Origin Server):作為根節點,將大文件分片,並通過H湯臣P提供分片服務。

  • 中間節點(Middle Nodes):作為中間服務器,從上遊服務器下載分片,並以流水線方式轉發。

  • 客戶端節點(Client Nodes):下載分片並重新組裝成原始文件。

TOPLOC驗證

TOPLOC是一種用於可驗證推理的局部敏感哈希方案,旨在檢測推理過程中的惡意修改。

它能實現以下功能:

  • 檢測推理過程中對模型、提示或精度的修改。

  • 有效應對GPU硬件的不確定性,這是可驗證計算中的主要挑戰之一。TOPLOC在不同類型的GPU、張量並行配置和注意力內核上都能可靠運行。

  • 驗證速度比生成速度快得多。

在INTELLECT-2中對TOPLOC進行生產環境測試,任何人都能以無需授權的方式貢獻GPU資源。

協議測試網

幾週前,團隊宣佈了公共協議測試網的啟動,旨在實現真正自主的開源AI生態系統。

今天,首個無需授權的計算池開放,任何人都能在自己的GPU上運行協議測試網節點。

註冊、計算資源驗證、對惡意行為的懲罰等操作,都在公共以太坊Base測試網上完成。這帶來了諸多好處:

  • 全球規模的計算資源聚合:節點設計允許任何人在全球任何計算設備上運行,加入去中心化網絡,並最終因節點所做的貢獻獲得獎勵。這有助於擴展規模,無授權地整合來自全球的數據中心資源。

  • 為完全去中心化訓練奠定基礎:所有加入計算池的節點都以點對點(peer-to-peer)的方式進行通信和協調。這為完全去中心化、無授權地訓練和微調開源模型奠定了基礎,對構建真正自主的開源AI生態系統至關重要。

除了對基礎設施進行多項改進,在協議層面也有其他關鍵進展。

  • 檢測和防範攻擊與欺詐的機制:將TOPLOC驗證集成到節點中,實現高效驗證,有助於識別偽造GPU或汙染數據集的行為。

  • 鼓勵誠實行為的激勵:為減少不誠信行為,嘗試採用經濟激勵,抑制偽造GPU或提交虛假數據等惡意行為。具體做法是要求節點預先抵押一定的資金,如果節點被認定存在不誠信行為,這些抵押資金將被扣除。

此外,團隊為節點的工作設定了24小時的驗證期,期間若發現問題,節點工作將被判定無效並扣除相應獎勵。如果節點出現惡意行為或試圖鑽機制的空子,最多會扣除24小時的獎勵。

模型訓練詳情

INTELLECT-2的目標是訓練出一個具有可控思考預算的前沿推理模型。

用戶和開發者可通過系統提示詞,指定模型在得出最終解決方案前,對一個問題應思考的token數量。

這種方法能讓訓練出的模型在實際應用中更加高效。

近期的研究(如ThinkPrune、L1和Deepscaler)表明,經過專門訓練、在嚴格約束下進行推理訓練的模型,幾乎能解決所有無約束推理模型可解決的問題,且速度更快,推理成本也更降低。

通過提示控制推理預算,用戶既能利用這一優勢,又能在遇到極具挑戰性的問題時,選擇更長的推理時間。

「L1:利用RL控制推理模型的思考時長」的研究結果表明,推理模型可以被訓練來遵循其提示詞中指定的token數量,且模型性能會隨推理預算的增加而可預測地提升團隊用自研框架prime-rl獨立複現了論文結果

為訓練出這樣的模型,團隊以QwQ-32B為基模型,遵循Deepseek-R1的方法,應用GRPO算法,結合數學和編程領域的可驗證獎勵。

在初步實驗中,以下幾個部分對控制模型思考預算、提升模型性能起到了重要作用:

通過長度獎勵實現可控思考預算

除了根據輸出的正確性給予任務獎勵外,還引入了長度獎勵,以引導模型遵循提示詞中指定的思維預算。

團隊參考了L1的研究思路,從指定範圍內采樣目標長度,將其加入提示詞,根據目標長度與實際響應長度的差異來分配獎勵。

與L1不同,團隊沒有從一個連續的值範圍中采樣目標長度,而是從一小組預定義的值中采樣,更有利於模型學習。

通過長度控制進行訓練,不僅讓模型更實用,還能更高效地利用異構推理硬件。

對於每個rollout過程,為GPU顯存和算力較低的推理節點分配較小的思考預算,為計算能力更強的節點分配較大的思考預算。

這樣,可以在較慢的節點設置較低的最大生成長度,從而在使用異構硬件時,各個rollout的處理時間基本一致。

離線數據過濾

實驗中發現仔細篩選數據對模型性能至關重要。

用原始的Deepscaler數據集和方法訓練DeepSeek-R1-Distill-Qwen-7B模型時,模型性能並未提升。

對數據難度進行嚴格篩選,只保留模型無法100%正確解答的問題。訓練過程中的獎勵增加,最終模型在數學基準測試中的表現也有提高。

在Deepscaler數據集的未過濾版本(左)和經難度過濾版本(右)上訓練DeepSeek-R1-Distill-Qwen-7B的獎勵軌跡

為篩選INTELLECT-2的訓練數據集,用DeepSeek-R1-Distill-Qwen-7B對所有問題進行8次采樣,以評估問題的難度。為確保訓練集中只保留具有挑戰性的問題,僅採用解答率為75%及以下的問題。

在線優勢過濾:訓練過程中,如果所有完成結果都獲得相同的獎勵,這些問題就不會產生訓練信號,因為其優勢值(以及相應的損失)為零。

團隊會過濾掉這些問題,繼續進行推理,直到獲得一整批具有非零優勢的問題。

這提高了訓練效率,避免在無意義的樣本上浪費計算資源。此外,這意味著推理所需時間多於訓練,因此非常適合用去中心化推理節點。

訓練任務與驗證器

對於INTELLECT-2,團隊主要關注可驗證的數學和編程問題,從SYNTHETIC-1中選取了經過嚴格質量和難度篩選的任務子集。

完整的訓練數據集可在Hugging Face上獲取。

數據集地址:https://huggingface.co/datasets/PrimeIntellect/Intellect-2-RL-Dataset

如何貢獻計算資源

INTELLECT-2是首個真正意義上允許任何人用自己的計算資源參與的項目。

由於大家的熱情極高,計算池的容量早早就已經滿了。

現在想要貢獻算力,還得提申請排隊才行。

當然,並不是隨便什麼算力他們都接受——

  • GPU必須是A100(80GB),H100(80GB),H200(141GB)

  • 算力節點需要是4卡或者8卡為一組

訓練進度和算力貢獻情況長這樣:

儀表盤:

儀表盤:

https://app.primeintellect.ai/intelligence

總結來看,INTELLECT-2的發佈是大規模去中心化強化學習的開端。

基礎架構現已搭建完畢,接下來需要共同努力,將其擴展到更具影響力的應用領域。

參考資料:

https://x.com/PrimeIntellect/status/1912266266137764307