OpenAI姚順雨:大模型下半場是產品的遊戲
AI趨勢正在「半場休息」,在此之前訓練>評估,在此之後評估>訓練。
這是OpenAI員工、姚班校友姚順雨給出的最新判斷。

AI發展分為上下兩階段。上半場以模型和方法為中心,核心構建了模型和訓練方法;隨著AI技術成熟,下半場的重點轉向如何定義有現實意義的任務、如何有效評估AI系統的表現。
這要求研究者要及時轉變思維和技能樹方向,可能要更接近於產品經理。
為什麼會出現這種轉變?
因為強化學習終於能泛化了。
在姚順雨最新的blog中,他系統性闡釋了如上觀點以及背後思考。想法剛剛發佈就得到了不少業內人士的認可:
我同意你的觀點。評估中還有一點值得考慮:成本成為越來越重要的影響因素。

離線RL/無監督學習→在線RL學習策略。我們是不是已經準備好轉型了?

值得一提的是,這篇文章也有AI參與了撰寫。
這篇博文是基於我在史丹福大學和哥倫比亞大學的演講。我使用OpenAI深度研究來閱讀我的PPT並打了草稿。
AI下半場是產品的遊戲
姚順雨表示,人工智能發展走向新階段,我們的思維方式應該變一變了。
把重點從解決問題轉移到定義問題,在新時代評估比訓練更重要。
我們不僅要思考「我們能否訓練一個模型來解決XX」,而是要思考「我們應該訓練AI做什麼?我們如何衡量真正的進步?」
為什麼這麼說?
先來看AI的上半場發生了什麼。
AI上半場:方法為王
在AI發展的「前半場」,最有影響力的工作主要集中在模型和訓練方法(如 Transformer、AlexNet、GPT-3),而不是任務或基準。即便是非常重要的基準數據集如ImageNet,其引用量也不到AlexNet的三分之一。

究其原因,是因為方法比任務更難、更有趣。
構建新算法或模型架構通常需要深刻的洞察和複雜的工程實踐——比如反向傳播算法、AlexNet、Transformer這樣的突破;相比之下,任務的設定往往只是把人類的已有任務(如翻譯、圖像識別)轉化為可度量的標準,技術含量相對較低。
沒什麼洞察力,甚至都沒什麼工程力的體現。

加之,任務容易定義但不夠通用,而方法(如Transformer)卻可被廣泛應用到NLP、CV、RL等多個領域,從而產生跨任務的通用價值。
一個好的模型架構或算法可以在多個基準上「爬山」(hillclimb),因為它具有通用性和簡潔性。這也是為什麼「方法勝於任務」在這個階段成為主導邏輯。
儘管這種以「方法創新」為主導的範式持續多年並催生了巨大突破,但這些方法的積累最終帶來了範式轉變的臨界點——這些基礎能力的集成已經可以構建出「可工作的AI任務解法配方(recipe)」,也就意味著:我們終於可以認真考慮如何解決真實任務本身,而不僅僅是構建更強的模型。
強化學習里,算法是次要的
姚順雨認為,配方由三要素組成:
-
大規模語言訓練
-
計算與數據的規模化
-
推理與行動
具備這三要素即可產出穩定且強大的AI。
通過強化學習可以理解為何是這三要素。
強化學習的三大核心是算法、環境和先驗知識。
長期以來,強化學習研究者大多主要關注算法,忽視環境和先驗。但隨著經驗增長,大家發現環境和先驗對實際效果影響巨大。

但是在深度強化學習時代,環境變得很重要。
算法的性能通常特定於它的開發和測試環境。如果忽視了環境,就可能建立一個「最優」的算法,但這個算法只是在特定情況下很強。
那為什麼不首先找出真正想要解決的環境,然後再找最適合它的算法?
姚順雨表示,這正是OpenAI最初的思路。
OpenAI最初的計劃就是把整個數字世界變成一個可以用強化學習解決的「環境」,然後用聰明的RL算法來解決這些環境中的任務,最終實現數字通用人工智能(digital AGI)。
OpenAI在這個思路下完成了很多經典工作,比如用RL打Dota、解決機械手等。
但它並沒有實現讓RL解決計算機/上網的問題,RL Agent也無法遷移到其他環境,似乎差了點什麼。
到了GPT-2/3時期,OpenAI意識到,缺的是先驗知識。
需要引入強大的語言先驗知識,才能解決在複雜環境中難以泛化的問題。這使得RL Agent在聊天或網頁任務中有顯著提升,如WebGPT、ChatGPT。
但這好像和人類智慧上仍舊有差別,比如人類可以輕鬆上手一個新遊戲、哪怕是零樣本,但是當時AI做不到。
影響泛化的關鍵是「推理能力」。
人類不是單純執行指令,而是會進行抽像思考。比如:「地牢危險 → 我需要武器 → 沒有武器 → 可能藏在箱子裡 → 箱子3在櫃子2 → 那我先去櫃子2」。
姚順雨說,推理是種「奇怪」的動作。

推理本身不直接改變世界,但其空間是無限組合的。在傳統 RL 框架中,它是「不划算」的 —— 推理不像行動那樣有即時反饋,反而會「稀釋」獎勵。
但如果把「推理」加入RL的動作空間,並結合語言預訓練模型的先驗,就可以帶來極強的泛化能力。類似於:雖然你面對的是無限個空盒子,但你從過往經驗中學會了如何在空盒子中識別有價值的選擇。
所以,一旦有了好的語言預訓練先驗+合適的環境設計(允許語言推理),RL法本身反倒變得次要。
o系列、R1、Deep Research、智能體等,都是由此而來。
或許正如祖比斯所說,你無法預見未來的點點滴滴是如何連接的;只有回頭看時,你才能把它們串聯起來。
下半場要有新的評估規則
由此,配方改變了AI社區的比賽規則。
開發新模型→刷新基準→創建更難的基準→更強的新模型。
這種規則在AI發展的上半場是有必要的,因為在模型智能水平不夠高時,提高智商通常會提高效用。
可問題是,儘管AI已經在各類基準測試(如圍棋、SAT、律師考試、IOI 等)中超越人類,但這些成就並未真正轉化為現實世界的價值或效用。
Jason Wei的一張圖可以很好解釋這一趨勢,AI刷榜的速度越來越快,但是世界因此改變了嗎?

姚順雨認為當前的評估方式主要存在兩方面局限,導致AI在解決現實問題上嚴重脫節。
1. 假設任務是獨立同分佈的(i.i.d.):模型被要求獨立完成每個任務,然後取平均得分。這種方式忽略了任務之間的連貫性和學習效應,無法評估模型長期適應能力和記憶機制的重要性。
2. 假設評估過程應自動化且與人無關:當前模型接收輸入 → 完成任務 → 接收評分。但真實世界中,大多數任務(如客戶服務、軟件開發)都需要持續的人機互動。

解決之道就是重新設計評估方式,為下半場製定新的遊戲規則。
姚順雨認為創新的評估應該貼近現實世界任務、優化模型配方解決任務,形成新的正向循環。
這個遊戲很難,因為它陌生,但是也很令人興奮。
上半場的玩家解決影片、遊戲和考試任務,下半場的玩家則利用智能創建有用的產品,建立起價值數十億甚至數萬億美元的公司。
歡迎來到AI下半場!
姚班學霸、思維樹作者
最後再來介紹一下本文作者姚順雨。
他去年加入OpenAI,擔任研究員,負責研究智能體。
他身上的關鍵字有:
-
清華姚班
-
姚班聯席會主席
-
清華大學學生說唱社聯合創始人
-
普林斯頓計算機博士
他的研究成果包括:
-
思維樹(Tree of Thoughts):讓LLM反復思考,大幅提高推理能力。
-
SWE-bench:一個大模型能力評估數據集。
-
SWE-agent:一個開源AI程序員。
最後,想要閱讀更原汁原味的版本,可戳:https://ysymyth.github.io/The-Second-Half/
本文來自微信公眾號:量子位,作者:明敏