360gpt2-o1 上線：「會思考」的國產大模型，探索 AI 推理新極限

12月14日 10:43 新浪網 tech-auto-hilite

感謝IT之家網民有鯽雪狐的線索投遞！

IT之家 12 月 14 日消息，「360 智腦」官方公眾號昨日（12 月 13 日）發佈博文，宣佈推出 360 自研 AI 大模型 360gpt2-o1，推理能力顯著提升，在數學和邏輯推理任務上表現出色。

該模型通過合成數據優化、模型後訓練和「慢思考」範式實現了技術突破，並在多項權威評測中取得了優異成績。

在多項基礎數學評測（如 MATH、高考數學）以及權威數學競賽（包括 AIME24、AMC23）中，360gpt2-o1 均取得了顯著的成績，不僅超越了前代模型 360gpt2-pro，也優於 GPT-4o 模型。

在數學競賽評測中，360gpt2-o1 超過了阿里巴巴最新開源的 o1 系列模型 QWQ-32B-preview。IT之家附上該模型整體架構如下：

優化合成數據

該模型通過指令合成、質量 / 多樣性篩選等方法，解決了高質量數學與邏輯推理數據稀缺的問題，有效擴充了訓練數據集。

模型後訓練

該模型採用兩階段訓練策略，先用小模型生成多樣化的推理路徑，再用大模型進行 RFT 訓練和強化學習訓練，提升模型推理能力和反思糾錯能力。

「慢思考」範式

利用蒙地卡羅樹搜索探索多樣化解決方案，並引入 LLM 進行錯誤驗證和糾錯，模擬人類逐步推理和反思的過程，最終形成包含反思、驗證、糾錯和回溯的長思維鏈。

廣告聲明：文內含有的對外跳轉鏈接（包括不限於超鏈接、二維碼、口令等形式），用於傳遞更多信息，節省甄選時間，結果僅供參考，IT之家所有文章均包含本聲明。