「後訓練 + STaR」是 OpenAI 絕密項目「草莓」背後的秘密嗎？

—- 本週為您解讀 ③個值得細品的 AI & Robotics 業內要事 —-

1. 「後訓練 + STaR」是 OpenAI 絕密項目「草莓」背後的秘密嗎？

「草莓」的來龍去脈瞭解一下？「草莓」真的有望實現類人推理和長期任務執行嗎？有哪些工作能側面映出「草莓」的真實面目？為什麼 Sam Altman 表示「今年最重要的進步將圍繞推理能力展開」？OpenAI、DeepMind 各家提升模型推理能力的路徑方法有何區別？…

2. 誰能活到下一輪？大模型&AIGC 創企生存現狀一撇

哪些美國AI創企更受老牌資本青睞？融到巨款大模型公司都做什麼產品？Stability AI要峰迴路轉了嗎？Character AI 在下什麼棋？今年都有哪些大牛投身大模型和 AIGC 創業了？…

3. 信通院報告：為什麼大模型進行基準測試很重要？

大模型基準測試意義何在？當前大模型基準測試有何體系？現有的基準測試存在什麼問題？信通院的「方升」表現如何？…

…本期完整版通訊含 3 項專題解讀 + 28 項本週 AI & Robotics 賽道要事速遞，其中技術方面 9 項，國內方面 4 項，國外方面 15 項。

本期通訊總計 30714 字，可免費試讀至 11%

消耗 99 微信豆即可兌換完整本期解讀（約合人民幣 9.9 元）

要事解讀① 「後訓練 + STaR」是 OpenAI 絕密項目「草莓」背後的秘密嗎？

日期：7 月 13 日

事件：據媒體報導，OpenAI 內部正在一個代號為「草莓（Strawberry）」的項目中開發一種新的人工智能模型。據媒體對十多位人工智能研究人員的採訪判斷稱，「草莓」項目的推理能力是迄今為止人工智能模型一直無法實現的。

「草莓」項目來龍去脈全解析 [1] [2]

1、外媒路透社報導稱，OpenAI 內部正在開發代號為「草莓」的項目，能夠為 AI 模型提供高級推理能力。據媒體引用知情人士消息稱，「草莓」項目目的是讓公司的 AI 不僅能生成查詢答案，還能提前規劃，以便自主、可靠地瀏覽互聯網，進行 OpenAI 所稱的「深度研究」。

2、據報導，「草莓」項目擁有兩方面的功能，一是擁有類似人類的新推理能力，另一功能是執行長期任務。

① 據媒體彭博社報導，在 OpenAI 內部全員會議上，OpenAI 展示了一個研究項目的演示，並聲稱該項目擁有類似人類的新推理能力。據知情人士稱，「草莓」涉及一種專門處理人工智能模型的方法，已在非常大的數據集上進行過預訓練。據 OpenAI 內部文件，其正在利用名為「deep-research」的數據集創建、訓練和評估模型。

② 另一功能是執行長期任務，指的是需要模型提前規劃並在較長時間內執行一系列操作的複雜任務。

3、「草莓」項目的前身是 Q*，即在此前引起眾多傳聞的 Q * 項目。據早前的媒體報導，

① OpenAI 在發給員工的內部信息中承認了一個名為 Q * 的項目，並在 Altman 被開除之前致信董事會。Q*項目被認為是 CEO Sam Altman 被董事會開除的導火索。

② 據知情人士稱，今年早些時候，其觀看了 OpenAI 工作人員告訴他們為 Q* demo 的演示，Q* 能夠回答棘手的科學和數學問題，而這些問題是目前市面上的模型無法企及的。

③ 據悉，Q-Star 能夠解決以前從未見過的數學問題，研究人員認為，這可以應用於新穎的科學研究等方面。一些內部人士認為，這可能是 OpenAI 在追尋超級智能 / 通用人工智能（AGI）道路上取得的一項突破。

4、關於絕密項目「草莓」，媒體報導中存在各種猜測，

① 「草莓」用到了後訓練（post-training）方法，即在對大量通用數據進行訓練後，調整基礎模型以特定方式優化其性能。

②「草莓」與史丹福大學 2022 年開發的一種名為 STaR（Self-Taught Reasoner）的方法有相似之處。

5、OpenAI 將 AGI 劃分為了 5 個等級，OpenAI 認為，公司目前處於第一級「聊天機器人」，但即將達到第二級「推理者」，預計將在一年或一年半內實現。

將大模型推理能力帶入下一個 level？「草莓」項目如何解鎖類人推理和長期任務兩大能力？

1、上文提到，「草莓」項目的兩大功能分別為類人類的推理能力和執行長期任務，而現有目前市面上的大語言模型僅能實現對話能力和簡單的推理能力。例如，近期熱議的關於 9.11 和 9.9 哪個更大的問題，GPT-4o、Gemini 等主流模型無一例外均答錯。

2、語言模型（LMs）在推理任務中的應用，核心思路主要集中在通過訓練模型來解決複雜問題。這些任務通常涉及理解文本的含義，並在此基礎上進行邏輯推理，以預測或生成文本。思路不同，做法也不同：[3] [4]

① 一種最常用的做法是通過預訓練和微調，通過在大量文本數據上預訓練語言模型，使其能夠捕捉語言的複雜模式和結構。以及在特定任務上對預訓練模型進行微調，以提高其在特定推理任務上的表現；

② 生成思考鏈是近期較為熱門的一種做法，一些研究表明語言模型在給定一些支撐的情況下，能夠生成有助於解決問題的思考鏈解決方案。這種方法不需要額外的監督，可以自主生成推理過程。

③ 利用語言模型自身進行推理，即通過訓練語言模型生成自己的推理過程，而不是依賴於外部數據集。這種方法可以看作是自我對弈策略的延伸，其中模型通過迭代訓練來解決越來越難的問題。

④ 訓練語言模型進行推理，包括挖掘推理軌跡和自我生成推理兩種方向，通過在挖掘的推理軌跡或類似推理的數據上訓練語言模型，可以提高其推理能力，但需要手動註釋，成本較高，且難以擴展；而自我生成推理依賴於語言模型自身生成的推理，避免了手動註釋的需求。

2、根據目前「草莓」項目被爆出的相關信息線索，「草莓」與史丹福大學計算機和Google研究院的 STaR 系列工作十分相似，也許可以從 STaR 系列工作中觀察到「草莓」項目類似的實現思路。STaR 系列工作包含兩篇技術論文工作，分別是 2022 年 5 月發佈的《STaR: Self-Taught Reasoner Bootstrapping Reasoning With Reasoning》和今年 3 月發佈的《Quiet-STaR: Language Models Can Teach Themselves to Think Before Speaking》。

3、在第一篇工作「STaR（Self-Taught Reasoner）」中，研究者發現，顯式的中間推理可以提高大型語言模型（LLM）在諸如數學或常識問答等複雜推理任務中的表現。研究者提出了一種可擴展的自舉方法「STaR」，允許模型學習生成自己的理由，同時學習解決越來越困難的問題。該工作的創新點在於不依賴大規模人工標註的數據集進行訓練，通過自舉的方式讓大模型自己學會如何推理。[5]

① 簡單來說，研究者一開始把少量帶有推理步驟的樣本作為示範，與待推理的問題一起輸入給模型。模型生成每個問題的推理步驟和答案，從中篩選出推理結果正確的樣本，將其作為新的訓練數據。同時，對於無法正確推理的問題，研究者引入了「反向推理」機制，將正確答案作為提示，讓模型倒推對應的推理步驟，將生成結果併入訓練集。最終，研究者用新的訓練數據微調原始語言模型，重覆進行推理生成，直至性能趨於穩定。

4、Quiet-STaR 則是在「STaR」工作的基礎上進行了延展，通過從問答數據集中采樣理由來引導語言模型自我提升其推理能力，Quiet-STaR 的目標是讓語言模型學會在任意文本中推斷未明確表述的理由。[3]

① 相比於 STaR，Quiet-STaR 把推理過程的生成從顯式的思考變成了隱式的內部思考，實現了對推理過程的靜默建模。不同於 STaR 在輸入中明確包含生成推理步驟的 prompt，Quiet-STaR 直接在模型內部、每個 token 處並行地生成推理過程。

② 簡單來說，Quiet-STaR 是通過在每個標記之後生成解釋未來文本的理由（思考），混合有無理由的未來文本預測（說話），然後使用 REINFORCE 學習生成更好的理由（學習）。

並行采樣算法：為了有效地在輸入序列的每個標記位置生成推理，Quiet-STaR 提出了並行采樣算法，通過緩存每個前向傳播並使用對角線注意力掩碼來實現高效生成，允許模型並行生成多個推理候選。
自定義的元標記：Quiet-STaR 引入了自定義的開始和結束思想的元標記（和），這些標記幫助語言模型學習何時生成推理以及何時根據該推理進行預測。
混合頭（Mixing Head）：Quiet-STaR 使用了一個混合頭，是一個淺層的多層感知機（MLP），用於確定在給定的標記上，應該在多大程度上使用包含推理的下個標記預測與基礎語言模型預測之間的混合。
REINFORCE 優化：Quiet-STaR 使用 REINFORCE 算法來優化推理生成參數，增加對未來文本更有概率的推理的生成可能性。該方法可以鼓勵模型生成有助於預測未來文本的推理，同時丟棄那些使未來文本預測變得不太可能的推理。
非短視損失（Non-myopic Loss）：Quiet-STaR 不僅僅考慮下一個標記的預測，而是採用一個包含多個未來標記的損失函數，從而提高推理的效果。

③ 實驗結果顯示，使用 Quiet-STaR 訓練的 LLM 在直接回答困難問題方面表現出顯著改進，理由引發的推理過程使 LLM 更有效地處理複雜問題。同時，Quiet-STaR 導致推理基準（GSM8K 和 CommonsenseQA）上的性能提升，無需在這些特定任務上進行任何微調。此外，Quiet-STaR 明顯降低了困惑度，即一個指示預測序列中下一個單詞難度的度量，使得 LLM 的整體文本生成過程更加順暢和高效。

5、除了 STaR 系列工作外，媒體報導中還提到了後訓練（post-training）方法。據媒體引用消息人士稱，「草莓」用到了後訓練（post-training）方法，即在對大量通用數據進行訓練後，調整基礎模型以特定方式優化其性能。

① 後訓練是在模型的初始預訓練階段之後，進一步對模型進行訓練的過程。這個階段通常使用的數據集比預訓練階段的數據集更專注於某個領域或任務，但比微調階段使用的數據集更大、更廣泛。其目的是在不過度專化到某個特定任務的同時，提高模型對特定領域的理解和表現。

② 在 Meta 推出 Llama 3 的介紹中，也提到了後訓練的重要性，「我們在後訓練階段投入了大量的工作，我想大家都喜歡談論預訓練，以及我們擴大了規模，使用的 GPU 數量達到了數萬個，以及在預訓練中使用了多少數據，但實際上，真正的關鍵在於後訓練階段。

6、除了 STaR 系列工作外，關於「草莓」項目的前身 Q*的推測，也能帶來一些線索。（詳細內容見會員通訊 Week 47&Week 10）