國產大模型正選中文邏輯推理,「天工大模型4.0」o1版來了

機器之心原創

編輯:杜偉、澤南

沒想到,技術發展得竟然這麼快。最近,人們已經開始暢想 AI 時代後的生活了。

上週末,摩根大通 CEO 傑米・戴蒙(Jamie Dimon)表示,由於人工智能技術,未來幾代人每週可以只工作三天半,活到一百歲。

一些研究認為,生成式 AI 等技術可以讓目前佔用人們工作時間 60-70% 的任務實現自動化。這些變革需要的技術從何而來?那一定是突破性 AI,有人整理出了各位 AI 領域大佬對通用人工智能(AGI)出現時間的預測。DeepMind 的哈薩比斯就認為,我們距離 AGI 的出現還差兩到三個重大技術創新。

像 OpenAI CEO 山姆・奧特曼,甚至認為 AGI 明年就會出現。想來想去,如此自信的原因可能在於最近人們讓大模型學會了「推理」的方法

就在 9 月份,OpenAI 正式公開前所未有的複雜推理大模型 o1,這是一個重大突破,新模型既具有通用的能力,也可以解決比此前的科學、代碼和數學模型能做到的更難問題。實驗結果表明,在絕大多數推理任務中,o1 的表現明顯優於 GPT-4o。

o1 在具有挑戰性的推理基準上比 GPT-4o 有了很大的改進。

o1 在具有挑戰性的推理基準上比 GPT-4o 有了很大的改進。

OpenAI 為大模型的能力開啟了新方向:「能不能像人一樣思考與推理」已經成為了評判它們能力的重要指標。廠商發佈的新模型要是不帶點思維鏈,恐怕都不好意思拿出手了。

不過直到如今,o1 的正式版仍然遲遲沒有推出。AI 社區尤其是國內大模型公司正在向 o1 的霸主地位發起衝擊,並開始在一些權威評測中取得領先。

今天,國內首款具備中文邏輯推理能力的 o1 模型來了,它便是由崑崙萬維推出的「天工大模型 4.0」 o1 版(英文名:Skywork o1)。這也是近一個月來,該公司在大模型及相關應用上的第三次大動作,此前天工 AI 高級搜索、實時語音對話 AI 助手 Skyo 先後亮相。

自即日起,Skywork o1 將開啟內測,想要體驗的小夥伴趕緊申請起來了。

申請地址:www.tiangong.cn

三款模型並舉

角逐推理新戰場

此次,Skywork o1 包含了以下三款模型,既有回饋開源社區的開放版本,也有能力更強的專用版本。

其中,開源版本的 Skywork o1 Open 參數為 8B,在各項數學和代碼指標上實現顯著提升,並將 Llama-3.1-8B 的性能拉到同生態位 SOTA,超越了 Qwen-2.5-7B instruct。同時,Skywork o1 Open 還解鎖了 GPT-4o 等更大量級模型無法完成的數學推理任務(如 24 點計算)。這也為推理模型在輕量級設備上的部署提供了可能性。

另外,崑崙萬維還將開源兩個針對推理任務的 Process-Reward-Model(PRM),分別是 Skywork o1 Open-PRM-1.5BSkywork o1 Open-PRM-7B。此前開源的 Skywork-Reward-Model 僅能對整個模型回答打分,而 Skywork o1 Open-PRM 可以細化到對模型回答中的每個步驟進行打分。

相較於開源社區現有的 PRM,Skywork o1 Open-PRM-1.5B 能達到 8B 的模型效果,例如RLHFlow 的 Llama3.1-8B-PRM-Deepseek-Data、OpenR 的 Math-psa-7B。Skywork o1 Open-PRM-7B 更強,能同時在大部分基準上接近甚至超越 10 倍量級的 Qwen2.5-Math-RM-72B

據介紹,Skywork o1 Open-PRM 還是第一款適配代碼類任務的開源 PRM。下表為以 Skywork-o1-Open-8B 作為基礎模型,使用不同 PRM 在數學和代碼評測集上的評估結果。

註:除 Skywork-o1-Open-PRM 外,其他開源 PRM 均未針對代碼類任務上進行專門優化,故不進行代碼任務的相關對比。

詳細技術報告也將在不久後發佈。目前模型和相關介紹已在 Huggingface 開源。

開源地址:https://tinyurl.com/skywork-o1

Skywork o1 Lite 具備了完整的思考能力,達到了更快的推理與思考速度,在中文邏輯和推理、數學等問題上表現尤為突出。Skywork o1 Preview 是此次完整版推理模型,搭配自研的線上推理算法,對比 Lite 版本可以呈現更多樣和深度的思考過程,做到了更完善和更高質量的推理。

也許你會問,當前複現 o1 模型的工作都在推理層面下足了功夫,Skywork o1 又有什麼與眾不同呢?

崑崙萬維表示,該系列模型在模型輸出上內生了思考、計劃和反思等能力,在慢思考中一步步地進行推理、反思與驗證,解鎖了「深思熟慮」等典型的進階版複雜人類思考能力,確保了回答的質量和深度。

當然,Skywork o1 的成色如何,我們還是得看實戰效果。

一手實測

這次 Skywork o1 徹底拿捏住了推理

機器之心提前拿到了測試資格,對 Skywork o1 系列模型,尤其是 Lite 和 Preview 版本的推理能力進行了全方位的考察。下圖為 Skywork o1 Lite 的界面展示。

我們先讓 Skywork o1 Lite 自報家門,可以看到,模型並沒有直接給出答案,而是將包括問題定位、自我能力剖析等在內的完整思考過程直觀展現給用戶,並且會顯示思考時間,這也是如今推理模型的顯著特點。

接下來正式進入測試環節,我們蒐羅了各種類型的推理問題,看究竟能不能繞暈 Skywork o1。

比大小、數「r」問題,不再翻車

此前,大模型在面對一些看起來非常簡單的比大小、數數問題時往往翻車。現在這些問題再也難不倒 Skywork o1 Lite 了。

在比較 13.8 與 13.11 孰大孰小時,Skywork o1 Lite 給出了完整的思維鏈路,找出解題的關鍵在於小數位大小。同時模型還自我反思,二次檢查自己得出的結論,並提醒容易答錯的點。

同樣地,在正確回答「Strawberry 中有多少個 「r」?」時,Skywork o1 Lite 也是思考、驗證、確認的完整鏈路。

在回答具有擾亂項的問題時,Skywork o1 Lite 很快釐清思路,不受干擾因素的影響。

玩轉腦筋急轉彎,不陷入語言陷阱

大模型有時會被中文語境下的腦筋急轉彎問題搞糊塗,導致給出錯誤的答案。這次 Skywork o1 Lite 可以輕鬆拿下這類問題。

兩對父子只釣到三條魚,卻每人都分到了一條,Skywork o1 Lite 能弄明白是怎麼回事。

掌握各種常識,告別智障屬性

大模型能不能在常識推理層面接近人類水平,是提高其自身可信度、增強決策能力、拓展多領域應用的重要指標之一。Skywork o1 Lite 和 Preview 在這點上都表現不錯。

比如長度(英吋、釐米、碼)與質量單位(公斤)的區分。

比如鹽水冰塊為什麼比純水冰塊更容易融化。

再比如一個人站在完全靜止的船上,當向後跳躍時船向前運動。Skywork o1 Lite 解釋清楚了現象背後的物理知識。

化身做題小能手,高考題也不在話下

數學推理是解決複雜任務的基礎能力,具備強大數學推理能力的大模型有助於用戶高效地解決跨學科複雜任務。

在求解序列問題「2, 6, 12, 20, 30… 這個序列的第 10 項是多少?」時,Skywork o1 Lite 觀察數字排列特點、找到規律、驗證規律,最終給出了正確答案。

在求解組合(從 10 人中選出 3 人組成一隊,共多少種選擇)問題時,Skywork o1 Preview 在全鏈路思考過後,答案正確。

再來一道動態規劃(硬幣面值 1、3、5,最少幾枚硬幣湊出 11?)問題,Skywork o1 Lite 給出了最優解。

我們接下來給 Skywork o1 Lite 上上難度,考它兩道高考數學題,題目出自 2024 年高考全國甲卷數學(文)。

首先是一道概率題(甲、乙、丙、丁四人排成一列,丙不在排頭,且甲或乙在排尾的概率是多少),Skywork o1 Lite 很快給出了正確答案。

然後是函數題(

),Skywork o1 Lite 解題思路、答案一氣嗬成。

心思縝密,邏輯思辨能力很強

大模型的邏輯推理是實現更強通用人工智能的核心能力之一,而 Skywork o1 Lite 在解答這類問題時頗有心得。比如經典的說謊問題,Skywork o1 Lite 從邏輯自洽的角度分辨出誰說實話、誰在說謊。

對於悖論問題,Skywork o1 Lite 也沒有被矇蔽頭腦。

面對道德困境,做到不偏不倚

倫理決策很大程度上是保證人工智能安全發展、遵守社會道德規範、增強用戶信任與接受度的重要因素,大模型更要謹言慎行。

關於「救老婆還是救老媽」這個千古難題,Skywork o1 Lite 沒有給出絕對答案,而是權衡利弊,並給出了合理的建議。

還有「救多救少」的兩難取捨問題,Skywork o1 Preview 也沒有輕易下結論,而是提出了一些更深層次的思考。

弱智吧考驗,也能 hold 住

弱智吧問題常常用來考驗大模型的智力水平,Skywork o1 Lite 能夠輕鬆應答這類問題,比如高考滿分 750、考上 985 的區別。

再比如「午餐肉能不能在晚上吃」,Skywork o1 Lite 顯然沒有受到食物名稱的誤導。

代碼問題也能搞掂

Skywork o1 Lite 能夠解決一些代碼問題,比如 LeetCode 上的孤島個數(Number of islands)問題。

題目為「給定一個 2 維網格圖,其中 「1」(陸地) 和 「0」(水),計算島嶼的數量。島嶼被水包圍,通過水平或垂直連接相鄰的陸地形成,你可以假設網格的四邊都被水包圍著。」

到這裏,我們可以下一波結論了:

一方面,以往大模型經常翻車的「小」問題,在推理能力加持下的 Skywork o1 眼裡都是小菜一碟。另一方面,通過完整的思考與規劃、自我反思以及自我驗證鏈路,Skywork o1 在複雜問題場景同樣具備縝密的思辨能力,可以更加準確、高效地輸出結果。

如此一來,相較以往強得多的推理能力將激發 Skywork o1 在更多樣垂類任務和領域的應用潛力,尤其是容易翻車的邏輯推理和複雜的科學、數學任務。同時上線天工之後,也勢必將進一步優化在創意寫作等高質量內容生成與深度搜索領域的任務效果。

國產 o1 模型

自研技術驅動

此前,我們已經見證過崑崙萬維提出的一系列生成式 AI 垂直類應用,包括但不限於搜索、音樂、遊戲、社交、AI 短劇等方向。在這背後,在大模型基礎技術的研發上,崑崙萬維早有佈局。

自 2020 年起,崑崙萬維開始持續加碼 AI 大模型投入,ChatGPT 剛上線一個月後,該公司就發佈了自己的 AIGC 模型系列。在很多垂直領域,崑崙萬維都已經推出了應用,包括全球首款 AI 流媒體音樂平台 Melodio、AI 音樂創作平台 Mureka、AI 短劇平台 SkyReels 等等。

在基礎技術層面上,崑崙萬維目前已經構建起「算力基礎設施 — 大模型算法 —AI 應用」的全產業鏈佈局,其中「天工」系列大模型是其核心。

去年 4 月,崑崙萬維發佈自主研發的「天工 1.0」大模型。到今年 4 月,天工大模型升級到了 3.0 版本,採用 4 千億級參數 MoE 混合專家模型,並同步選擇開源。如今,天工 4.0 版本又基於智能湧現的方法實現了邏輯推理任務上的能力提升。

在技術上,Skywork o1 在邏輯推理任務上性能大幅提升,要得益於天工三階段自研的訓練方案,包括如下:

一是推理反思能力訓練。Skywork o1 通過自研的多智能體體系構建了高質量的分步思考、反思和驗證數據,並輔以高質量、多樣性的長思考數據對基座模型進行繼續預訓練和監督微調。

二是推理能力強化學習。Skywork o1 團隊研發了最新的適配分步推理強化的 Skywork o1 Process Reward Model(PRM),不僅可以有效捕捉到複雜推理任務中間步驟和思考步驟對最終答案的影響,而且結合自研分步推理強化算法進一步加強了模型推理和思考能力。

三是推理 planning。基於天工自研的 Q * 線上推理算法配合模型在線思考,並尋找最佳推理路徑。這也是全球首次將 Q * 算法實現和公開,在 MATH 等數據集上可以顯著提升 LLM 的推理能力,並降低計算資源的需求。

在 MATH 數據集上,Q * 幫助 DeepSeek-Math-7b 提升至 55.4% 的準確率,超越了 Gemini Ultra。

Q * 算法論文地址:https://arxiv.org/abs/2406.14283

可以看出,崑崙萬維的技術已經達到了業界的領先水平,在競爭激烈的生成式 AI 領域,逐漸站穩了一席之地。

相對於目前生成式 AI 應用的百花齊放,在基礎技術層面上,研究已經開始走進「深水區」。只有那些經過長期積累的公司,才能構建起改變我們生活的新一代應用。

期待崑崙萬維在未來給我們帶來更多、更強大的技術。