告別傳統強化學習?上下文強化學習基座模型 OmniRL 讓 AI 「自學成才」
當下的 AI 大模型,在特定場景中表現卓越,卻往往囿於定製化的藩籬,難以跨越環境鴻溝。尤其在強調自主決策的強化學習領域,AI Agent 一旦脫離預設環境便「水土不服」。
通用性,成為橫亙在強化學習通往 AGI 征途上的關鍵瓶頸。
文章將深入解析 OmniRL 的創新技術細節與實驗結果,闡述其如何通過上下文強化學習方法和大規模元訓練策略,探索讓 AI 從「環境適應」走向「能力泛化」的可行路徑。
作者 | AIRS
出品丨AI 科技大班營(ID:rgznai100)
長期以來,強化學習模型在面對不同環境時的泛化能力一直是研究者們關注的焦點。如何讓 AI 智能體擺脫對特定環境的依賴,像人類一樣快速適應新情境,是實現通用人工智能的關鍵挑戰之一。
為瞭解決這一難題,香港中文大學 AIRS(深圳市人工智能與機器人研究院)相關團隊近期預公開了強化學習基座模型 OmniRL。
該團隊創新性地提出了一種離散隨機環境的規模化生成方法,能夠生成百萬級別的馬爾可夫決策鏈任務,並用於合成數百億時間步的泛強化學習過程數據,進行模型的訓練。更進一步,他們還提出了一種在上下文中整合強化學習和模仿學習的數據合成方法和模型結構。
令人驚喜的是,利用這種隨機世界訓練出的 OmniRL 模型,無需梯度微調,即可直接用於解決前所未見的 Gymnasium 環境。
OmniRL 創新性地提出了上下文強化學習範式,旨在構建具備通用學習能力的基座模型。它能否真正讓 AI 學會「自學成才」,告別傳統強化學習的局限?讓我們深入瞭解 OmniRL,探究其背後的奧秘。
論文地址:https://arxiv.org/abs/2502.02869
開源代碼:https://github.com/airs-cuhk/airsoul/tree/main/projects/OmniRL

預訓練和元訓練:授模型以魚和授模型以漁
傳統預訓練模型,如同讓學生死記硬背知識點,雖然也能應付考試 (特定任務),但缺乏真正的泛化能力。預訓練最早以教會模型完成多種多樣的任務為出發點,在大規模預訓練中,模型除了記住這些訓練任務本身,湧現出的最重要的能力就是上下文學習(In-Context Learning),這種能力能夠幫助大模型通過提示信息來構建完成新任務的能力。
OmniRL 提出大規模元訓練,和預訓練不同之處在於,OmniRL 目標不是記憶訓練任務的技能本身,而是學習如何進行強化學習的過程。元學習,又叫學習學習的方法(Learning To Learn),早在 80 年代被提出。但 OmniRL 論文認為,缺乏大規模任務和長序列支撐的元學習,容易實際陷入「任務識別」的模式:模型只是記住了訓練的環境,在推理時通過識別處於哪一個環境「激活」對應的技能。這種模式不具備對未見任務和分佈外任務的泛化性。
圖 1 OmniRL 模型結構示意圖
首次利用上下文學習統一多強化學習和模仿學習
OmniRL 提出同時利用先驗信息和後驗獎勵(Feedback)進行上下文學習,使得該模型可以自己在不同學習模式間根據需求切換。
圖 2 展示了在隨機世界中訓練的 OmniRL 模型,僅通過上下文學習,不依賴於任何梯度優化,在冷啟動,或者預先給定一段演示軌跡(包括專家演示,以及較差的演示),能通過在線強化學習(Online-RL),離線強化學習(Offline-RL),模仿學習(IL)的自主切換,達到較好表現,證明上下文學習有巨大的靈活性。進一步,還能在演示的基礎上,進一步通過自主探索持續提升自身能力。

圖 2 OmniRL 能夠通過上下文學習進行在線強化學習,離線強化學習或者模仿學習。進一步,完全沒有經歷多智能體訓練的相比傳統人工設計強化學習方法有巨大效率優勢。

首次揭示出數據多樣性和序列長度重要性根源
OmniRL 使用數千萬參數的 Transformer 和高效線性注意力結構來進行建模。訓練任務數超過 50 萬個,時間步數超過一百萬。OmniRL 在實驗中對比相同數據量,但來自不同任務數量的效果,發現任務數量不夠多時,模型會轉向記憶 + 環境識別模式,即把所有訓練的環境儲存在參數記憶中,通過上下文進行快速的辨識。
這種模式下,智能體能否以更少的樣本適應訓練過程中見過的環境,但卻不能泛化到未見環境。而任務數量充分時,才能激發通用上下文學習能力,這種能力可以有效泛化到未見任務,但對於所有任務都需要更長的上下文學習週期。
這個結論一定程度說明:
-
數據的完整性和多樣性比數據的絕對準確性(absolute fidelity)更重要。即使採用失真的數據,通過提升上下文學習的泛化性,也有可能更好泛化到真實任務。
-
長序列建模和長時記憶是通用學習能力的自然選擇。在訓練任務數量增延長,模型在學習過程中自然選擇不去記憶任務關聯的知識,而是只記憶學習方法,從而導致對訓練集中出現的任務也需要花費更長適應時間。這正是大規模元學習的特點。

圖 3 相同數據量,不同任務量訓練的損失值(越低越好)和上下文長度以及元訓練迭代次數的關係。任務數量越多,在已見(seen)和未見(unseen)任務上的表現越一致,但在上下文維度上花費更長的下降時間。

面向下一代通用具身智能體的技術探索
OmniRL 的最終目標是實現對任意環境都能完全自主探索和學習的智能體。對於具身智能意義更加重大。大語言模型通過參數記憶捕捉了大量常識,百科和數理邏輯,構成了其零樣本能力的基礎。但具身智能面對多樣的環境,任務以及複雜的本體異構性,常識很難成為解決具身問題的基礎。OmniRL 相關團隊認為,自主學習能力和長時記憶將是通用具身智能體的關鍵。
值得討論的是上下文自主學習和記憶能力和當前大語言模型的長時序推理和思維鏈的異同點。OmniRL 團隊認為,當前 OmniRL 更多側重系統 1(直覺思維)的學習能力,後者側重系統 2(邏輯思維和規劃)本身。
誠然,直覺思維(系統 1)與邏輯思維(系統 2)能力的學習與提升對於通用人工智能而言,均至關重要。然而,當前主流的大語言模型在對這兩種能力的深度探索上,仍存在顯著不足。正是在這一背景下,OmniRL 的出現恰逢其時,有力地填補了這一關鍵空白,使其在具身智能等前沿應用領域,展現出傳統強化學習方法難以企及的獨特優勢與潛力。

「AI 會取代程序員嗎?」——這個問題如今愈發令人困擾。伴隨著 Cursor 等 AI 編程助手爆火,面對日新月異的技術,不少開發者感到迷茫:未來的程序員究竟該何去何從?是被 AI 取代,還是與 AI 共舞?在這個充滿變革與機遇的時代,我們需要重新思考軟件開發的未來。為此,CSDN 特別策劃推出了最新一期特刊:《新程序員 008:大模型驅動軟件開發》。
讀過《新程序員》的開發者曾這樣感慨道:「讓我驚喜的是,中國還有這種高質量、貼近開發者的雜誌,我感到非常激動。最吸引我的是裡面有很多人對 AI 的看法和經驗和一些採訪的內容,這些內容既真實又有價值。」



















