20萬卡吞金獸Grok 3炸裂登場,卡帕西大神親測:性能超過DeepSeek R1,網民:算力翻數倍,性能提升不到10%?
xAI 發佈 Grok 3 和 Grok 3-mini
在 AI 領域,埃隆·馬斯克再次成為全球焦點。2 月 12 日,這位科技狂人在杜拜世界政府峰會上透露,其旗下的人工智能公司 xAI 即將發佈新一代 AI 模型 Grok 3,並稱其為”迄今為止最強大的 AI 模型”。這一消息立即引發科技界強烈關注。

剛剛,Grok 3 連同 Grok 3 mini 如約而至。
發佈會一開始,馬斯克再次解釋了「Grok」一詞的含義。這個詞來自羅伯特·卡爾希恩萊因的小說《異鄉異客》。這個詞被一個在火星長大的角色使用,意思是充分而深刻地理解某事。「Grok」這個詞傳達了深刻的理解,而同理心是其中的重要組成部分。
馬斯克稱,Grok 3 之所以能在很短的時間內就超越 Grok 3,是因為背後有一支強大的技術團隊和數據中心支持。據 xAI 團隊介紹,要訓練出超級規模的模型就需要一個超級規模的數據中心做支持,所以他們先是花費了 122 天建成了 10 萬卡的數據中心。但隨後他們發現,這還遠遠不夠。於是他們又用了 92 天就將原來的 Colossus 規模從 10 萬卡擴建到 20 萬卡,並在此基礎上推出了 Grok 3。

Grok 3 最引人注目的特點將推理能力整合到了模型中。推理指的是模型在嘗試解決問題之前需要花費大量時間進行思考。大約一個月前,Grok 3 的預訓練完成了,從那時起,xAI 團隊一直在努力將推理能力整合到當前的 Grok 3 模型中。然而,這仍處於早期階段,模型仍在訓練中。
今天展示的是 Grok 3 推理模型的一部分。此外,xAI 也在訓練一個迷你版本的推理模型。Grok 3-mini 與 Grok 3 在推理上取得的結果相差不大,Grok 3-mini 訓練時間更長,有時它的表現甚至略優於 Grok 3 推理模型。這僅僅表明 Grok 3 推理模型具有巨大的潛力,因為它仍在訓練中。
在性能效果上,xAI 從數學、科學和編碼三個方面將 Grok 3、Grok 3 mini 與各主流模型進行了對比。綜合來看,Grok-3 推理模型測試版在數學、科學和編碼三個方面均表現優異,尤其是在編碼方面得分最高。Grok-3 mini 推理模型的表現也相當不錯,儘管略低於 Grok-3 推理模型測試版,但仍優於 OpenAI 的 o3-mini、o1、DeepSeek-R1 等其他主流模型。
今場發佈會,Grok 3 還引入了 DeepSearch,該公司將其描述為一種新型搜索引擎和類似 Agen 功能的早期版本。據 xAI 工程師介紹,DeepSearch 是 xAI 的第一代 Agent 工具,不但能幫助開發者、研究人員和科學家編寫代碼,實際上還能幫助每個人回答日常遇到的問題。

據馬斯克介紹,Grok 3 中支持兩種訂閱模式:X(Twitter)平台的 Premium+ 深度用戶和月費 30 美元 / 年費 300 美元的 SuperGrok。xAI 將在一週時間內在 Grok 3 中上線語音模式,數週後對企業用戶提供包含 DeepSearch 的 API 接入方案,並在幾個月後對 Grok 2 進行全面開源。

性能如何?
先來具體看看現在 Grok 3 的各項水平是怎樣的?
首先來明確一下 xAI 對其的使用場景目標,馬斯克在直播中表示,希望能夠使用 Grok 3 完成特別重要的現實任務,比如打造一台特斯拉、解決太空發射問題或者應用到數據中心。據其預測,「兩年之內會發生兩件事情:計算機在各方面打敗人類,幫助實現盧保級的科學數據突破。下一次重大突破在明年 11 月出現,我們會真正讓 SpaceX 登錄陸火星,應用 Grok 模型來去計算整個的發射過程。
同時,xAI 宣佈將成立一家 AI 遊戲工作室來製作遊戲。直播中,xAI 現場演示了用 Grok3 創造一個融合《俄羅斯方塊》和《寶石迷陣》的遊戲案例。

現在也已經有模型體驗者用 Grok 3 創建了遊戲:
給 Scaling Law 帶來什麼驚喜
此次 Grok 3 之所以在發佈前就吸引來如此多人的關注,一大原因之一是大家對 Scaling Law 當前真實效果的重視。現在越來越多的聲音稱「Scaling Law 終結了」,即大模型不再具有規模效應,增加參數數量、算力、訓練語料等更多資源或許也無法繼續增強模型的性能效果了。
發佈會上,xAI 團隊透露,Grok 3 背後有 20 萬張英偉達 GPU 、4 億個 GPU 小時的超強算力支持。
Grok 3由Colossus超級計算機訓練完成,最初 xAI 用了122天讓首批 10 萬卡集群投入使用,後續又花費 92 天拓展到20萬卡集群,較前代產品 Grok 2 使用的 15000 個 GPU 實現了數倍的跨越式提升。據公開介紹,OpenAI 訓練 GPT-4 用了大約 25000 塊 A100 GPU,據 Lambda 測算,H100 的訓練吞吐量為 A100 的 160%。也就是說,GPT 4 相當於用了 15625 塊 H100。
再對比近期大火的 DeepSeek,據公開論文介紹,DeepSeek-V3 的總訓練成本為 278.8 萬個 H800 GPU 小時。儘管另據獨立研究機構 SemiAnalysis 估計,「DeepSeek 擁有約 1 萬張 H800 和約 1 萬張 H100。此外,他們還大量訂購 H20 GPU」,但也遠不及 Grok 3 的訓練算力高。
因而,許多網民都將其這次發佈當做 Scaling Law 技術路線的又一次驗證,並且馬斯克在 2024 年中啟動 Grok 3 訓練時稱對標的是 GPT 5。
目前,Grok 3 暫未公佈其參數規模。微軟在近日發佈的一篇醫學相關論文中披露,GPT-4 有 1.76 萬億個參數,GPT-4o 和 GPT-4o-mini 的參數分別為 2000 億和 80 億。另據公開介紹,DeepSeek-V3 的參數規模達到 6710 億,但會使用混合專家架構以保證僅激活選定的參數,以便準確高效地處理給定任務。

接下來從性能效果上展開講講 Grok 3 到底怎麼樣。xAI 從數學、科學、編碼三方面去對比了 Grok 3 系列和當前熱門前沿模型,並在多個基準測試中都擊敗了其他競爭對手。

據介紹,在 Arena 中(這是一項眾包測試,讓不同的 AI 模型相互競爭,並讓用戶投票選出他們喜歡的答案),Grok-3 是有史以來第一個得分突破 1400 分的模型,並在所有類別中均排名第一。

而去年發佈的Grok 2模型在Arena 測試中得分為1280分。與Grok 2相比,Grok 3 早期版本的性能提升了近10%。

這樣來看,在大語言模型(LLM)領域,Scaling Laws 或許依然成立。
不過,Grok 3 不僅僅是 LLM,還引入了「思維鏈」(Chain Of Thought)推理能力。馬斯克稱,Grok 3 在複雜的推理任務中表現優於其競爭對手。據介紹,xAI 的最新模型 Grok 3在 2024 美國數學邀請考試(AIME)中取得了 93% 的驕人成績,將其他前沿模型甩在了身後。即使是其 mini 版,也足以與其他 AI 模型的能力相媲美。

值得注意的是,大約五天前,AIME 2025 競賽也結束了。隨後,xAI 團隊讓兩個模型(Grok 3 和 Grok 3 mini)在同一基準的同一考試中進行比拚。有趣的是,更大的 Grok 3 推理模型在這次全新的考試中表現更好。這表明,與較小的模型相比,更大的模型具有更強的泛化能力和性能。然而,與去年的考試相比,較小的模型表現更好,因為它更有效地學習了之前的考試內容。

Grok 3 能擠進全球模型 Top 5 嗎?
這次,不少網民對 Grok 3 模型給出了正面評價,「Grok 3 的出現標誌著人工智能發展史上的一個重要里程碑。憑藉其令人印象深刻的 ELO 分數和推理能力,我們顯然看到了人工智能在解決複雜問題方面的飛躍。」
AI 大佬 Andrej Karpathy 今天早些時候獲得了 Grok 3 的早期訪問權限,他也成為首批能夠快速體驗其功能的人之一。Karpathy 表示,Grok 3 好的點是「創建一個棋盤遊戲網頁,顯示一個六邊形網格,就像《卡坦島》遊戲中的那樣。每個六邊形網格都編號為 1..N,其中 N 是六邊形瓷磚的總數。使其通用,以便可以使用滑塊更改‘環’的數量。例如,在《卡坦島》中,半徑為 3 個六邊形。請使用單個 HTML 頁面。」
Karpathy 強調,很少有模型能夠可靠地正確完成這個任務。頂級的 OpenAI 思維模型(例如 o1-pro,每月 200 美元)也能做到,但 DeepSeek-R1、Gemini 2.0 Flash Thinking 和 Claude 都無法做到。但 Grok 3 也有弱點。「它沒有解決我的‘表情符號謎題’問題,在這個問題中,我給出了一個帶有隱藏在 Unicode 變體選擇器中的消息的笑臉,即使我以 Rust 代碼的形式給出了如何解碼的強烈提示。我見過的最大的進展來自 DeepSeek-R1,它曾經部分解碼了消息。」
那麼,Grok 3 能擠進全球頂級模型之列嗎?在馬斯克看來,是能的。從今天的發佈會來看,他對 Grok 3 充滿信心,並認為該模型能未來能擊敗一眾先進模型登頂最強模型寶座。
但事實真的如此嗎?目前,Grok AI 在人工智能領域仍是一個小角色。它的受歡迎程度遠不及 ChatGPT 等競爭對手,截至 2024 年 11 月,ChatGPT 佔據了人工智能工具市場份額的 62.5%。
不過,Grok 確實擁有一些與競爭對手不同的特點。它最大的優勢是能原生集成社交媒體 X,使該聊天機器人能夠訪問社交媒體平台的實時信息,其獨特的編程方式使其能夠以叛逆和俏皮的語氣回答挑釁性的提示。由於這些獨特賣點,馬斯克的 AI 聊天機器人在 X 用戶中很受歡迎。
然而,該聊天機器人經常捲入爭議,從回應政治虛假信息到因其可訪問 X 數據而宣傳有偏見的內容。ChatGPT 和 Gemini 等競爭對手也擁有更多參數,因此它們的響應通常更準確。
基於以上種種,有外界聲音認為堆砌了如此多的算力,即使使用合成訓練數據,Grok 3 也不太可能與更大的競爭對手相提並論。
Grok 系列模型的起源與背景
Grok 系列模型是埃隆·馬斯克旗下人工智能公司 xAI 的核心產品之一。xAI 成立於 2022 年,旨在開發具有更高推理能力和邏輯一致性的人工智能系統。馬斯克一直對人工智能的發展持謹慎態度,多次公開表達對人工智能潛在風險的擔憂。然而,他也認為,人工智能技術的進步是不可避免的,因此他希望通過 xAI 開發出更安全、更透明且對人類友好的 AI 系統。
Grok 的名字來源於科幻作家羅伯特·卡爾希恩萊因的小說《異鄉異客》,意為「深刻理解」或「完全掌握」。這一命名體現了馬斯克對人工智能的期望:不僅要能夠處理複雜的任務,還要具備對人類思維和邏輯的深刻理解。
Grok 1 於 2023 年初發佈,是 xAI 推出的首款人工智能聊天機器人。作為初代模型,Grok 1 的主要目標是驗證合成數據訓練方法的可行性。與當時主流的 ChatGPT 等模型不同,Grok 1 並未完全依賴真實世界數據進行訓練,而是採用了大量合成數據。合成數據是通過算法生成的模擬數據,能夠覆蓋更廣泛的情景和邏輯結構。
Grok 1 的推出引起了廣泛關注,它能夠處理複雜的邏輯問題,並在某些特定任務上超越了當時的 ChatGPT 3.5。然而,Grok 1 也存在一些明顯的局限性。例如,由於合成數據的局限性,它在處理真實世界中的細微差別和複雜性時表現不佳。此外,Grok 1 的訓練成本極高,且模型規模較小,限制了其在實際應用中的推廣。
2023 年年中,在 Grok 1 的基礎上,xAI 推出了 Grok 2。這一代模型在多個方面進行了重大改進。依然採用了更大規模的合成數據集,同時結合了少量高質量的真實世界數據,以彌補初代模型在處理真實場景中的不足。Grok 2 還引入了更先進的訓練算法,尤其是在數學推理、代碼生成和複雜問題解決方面超越了當時的 ChatGPT 4。它還首次嘗試了多模態能力,能夠處理文本、圖像和簡單影片數據。
然而,在眾多優秀大模型層出不窮的 2023 年,Grok 2 的問世並沒有掀起太大浪花。Grok 2 依然有著很多弊端,儘管其技術能力備受認可,但由於其使用權限僅限於 X 平台(原 Twitter)的高級用戶,普通用戶無法直接體驗。這一限制導致 Grok 2 的市場覆蓋率較低,未能對 ChatGPT 等競爭對手形成實質性威脅。如今 Grok 3 來了,情況會有變化嗎?
我們拭目以待。
本文來自微信公眾號「InfoQ」(ID:infoqchina),作者:冬梅、衛華,36氪經授權發佈。