360gpt2-o1 上線:「會思考」的國產大模型,探索 AI 推理新極限

感謝IT之家網民 有鯽雪狐 的線索投遞!

IT之家 12 月 14 日消息,「360 智腦」官方公眾號昨日(12 月 13 日)發佈博文,宣佈推出 360 自研 AI 大模型 360gpt2-o1,推理能力顯著提升,在數學和邏輯推理任務上表現出色。

該模型通過合成數據優化、模型後訓練和「慢思考」範式實現了技術突破,並在多項權威評測中取得了優異成績。

在多項基礎數學評測(如 MATH、高考數學)以及權威數學競賽(包括 AIME24、AMC23)中,360gpt2-o1 均取得了顯著的成績,不僅超越了前代模型 360gpt2-pro,也優於 GPT-4o 模型。

在數學競賽評測中,360gpt2-o1 超過了阿里巴巴最新開源的 o1 系列模型 QWQ-32B-preview。IT之家附上該模型整體架構如下:

優化合成數據

該模型通過指令合成、質量 / 多樣性篩選等方法,解決了高質量數學與邏輯推理數據稀缺的問題,有效擴充了訓練數據集。

模型後訓練

該模型採用兩階段訓練策略,先用小模型生成多樣化的推理路徑,再用大模型進行 RFT 訓練和強化學習訓練,提升模型推理能力和反思糾錯能力。

「慢思考」範式

利用蒙地卡羅樹搜索探索多樣化解決方案,並引入 LLM 進行錯誤驗證和糾錯,模擬人類逐步推理和反思的過程,最終形成包含反思、驗證、糾錯和回溯的長思維鏈。

廣告聲明:文內含有的對外跳轉鏈接(包括不限於超鏈接、二維碼、口令等形式),用於傳遞更多信息,節省甄選時間,結果僅供參考,IT之家所有文章均包含本聲明。