20萬張GPU,號稱「地球上最聰明的AI」Grok-3來了,斬獲多個Top1,網民:算力消耗是DeepSeek V3的263倍

香港時間 2 月 18 日中午,埃隆·馬斯克旗下的人工智能公司 xAI 重磅發佈了 Grok 3 系列模型,宣稱其在數學、科學和編碼基準測試中,擊敗了 Google Gemini、DeepSeek V3、Claude 以及 OpenAI 的 GPT-4o。

更為值得關注的是,Grok 3 的訓練並非如此前傳聞的在「10 萬張 GPU 上進行」,而是使用了「20 萬張 GPU」。對此,有網民指出其算力消耗是 DeepSeek V3 的 263 倍。正因此,「又壕又橫」的馬斯克將其稱為「地球上最聰明的 AI」。

01 Grok 3 基準測試曝光

根據 xAI 工程師的介紹,Grok 3 其實是一個模型家族——而不僅僅是一個模型。Grok 3 的輕量級版本——Grok 3 mini——在犧牲一定準確度的情況下,能夠更快地響應問題。

目前,並不是所有模型都已經上線(其中一些仍處於測試階段),但會從今天開始陸續推出。此外,原定今天要發佈的語音模式並未出現,馬斯克隨後也在 X 上解釋稱,「語言模式仍然有點不完善,所以大概會在一週左右推出,但它很棒。」

根據官方公開的測試結果,Grok 3 在包括 AIME(評估模型在一系列數學問題上的表現)和 GPQA(評估模型在博士級別的物理學、生物學和化學問題上的表現)等基準測試中,遠超 GPT-4o、Gemini-2 Pro、DeepSeek V3、Claude 3.5 Sonnet 等大模型。

在大模型競技場 Chatbot Arena(LMSYS)測試中,xAI 工程師表示,早期版本的 Grok-3 獲得了第一的成績,達到了 1402 分,超越了 Gemini 2.0 Flash Thinking 實驗版本、ChatGPT-4o 最新版本以及最近大火的 DeepSeek R1 等等。

要知道在 Chatbot Arena 中,用戶或評審可以通過對比不同的模型響應,並進行投票,以評定哪個模型提供了最佳的答案。平台通過這種「人類評分」的方式幫助研究人員和開發者瞭解各大聊天機器人模型的優劣,推動模型的持續改進。時下 Grok 3 是在過往業界已發佈的大模型中首個突破 1400 分、獲得多個第一的大模型。

美國著名 TMT 投資人 Gavin Baker 評價道,「xAI 成立於 DeepMind 之後的 13 年、OpenAI 之後的 8 年,現在已領先於兩者。它被譽為 AI 實驗室中的「SR-71 黑鳥」(象徵其突破性、超前性和強大的技術能力)。」

02 推理大模型賽道再添新成員——Grok 3

與此同時,Grok 3 也支持推理能力了。

xAI 工程師介紹道,「大約一個月前,Grok 3 的預訓練完成,從那時起,我們一直在努力將推理能力整合到當前的 Grok 3 模型中。不過,這仍處於早期階段,模型仍在繼續訓練。今天展示的只是 Grok 3 推理模型的一部分。同時,我們還在訓練一個 mini 版本的推理模型。」

今天,xAI 帶來的推理模型一個是 Grok 3 Reasoning Beta,另一個是 Grok 3 mini Reasoning,其類似於 OpenAI 的 o3-mini 和 DeepSeek 的 R1 這樣的「推理」模型,都能夠仔細「推理」問題。推理模型在給出結果之前會徹底自我核實,這幫助它們避免了通常會讓其他模型出錯的陷阱。

隨後,官方也展示了 Grok-3 推理基準測試結果。

xAI 聲稱,在使用更多測試時間計算時(圖中淺色延展部分),Grok-3 Reasoning 在多個流行的基準測試中超過了 o3-mini 的最佳版本——o3-mini-high,其中包括一個名為 AIME 2025 的新數學基準測試。

推理模型可以通過 Grok 應用程序訪問。界面顯示如下,用戶可以點擊 Grok 3 的「Think」模式來體驗,或者對於更複雜的問題,使用「Big Brain」模式,後者這種模式依賴額外的計算資源進行推理。

xAI 描述這些推理模型最適合處理數學、科學和編程相關的問題。

除此之外,Grok 3 還引入了 DeepSearch,該公司將其描述為一種新型搜索引擎和類似代理的功能的早期版本。它可以掃瞄互聯網內容和 X(原 Twitter),分析信息並針對問題提供摘要。顯然可以看出,它對標的是此前 OpenAI 推出的 Deep Research 功能。

馬斯克還表示,在 Grok 應用程序中,某些推理模型的「思維」被隱藏,以防止「蒸餾」(一種 AI 模型開發者用來從另一個模型中提取知識的方法)。

03 20 萬張 GPU 訓練出來的 Grok 3

回顧過往,2023 年 7 月,馬斯克集結 Deepmind、微軟、特斯拉以及學術界的多位大佬成立了人工智能初創公司 xAI。僅僅半年之後,xAI 就帶來其研發成果——Grok-1 大模型,還採用了開源策略,迅速吸引了大量關注。截至目前,Grok-1 在 GitHub 上已經獲得了近 50k 個 Star,Fork 數達到 8.3k,成功迎接了當時 OpenAI 和 Google 等閉源大模型帶來的競爭壓力。

然而,在百模大戰中,走別人走過的路、打造千篇一律的模型顯然無法脫穎而出。在此次 Grok 3 發佈會上,馬斯克再次重申了自己對大模型的構想,並解釋了為何將其命名為「Grok」。

「實際上,我們應該解釋一下為什麼我們叫它 ‘Grok’。這個詞來自羅伯特·卡爾希恩萊因的小說《異鄉異客》。它由一個在火星長大的角色使用,意思是完全並深刻地理解某件事。‘Grok’ 傳達的是深刻的理解,而同理心是其中一個重要部分。」

總的來說,馬斯克希望 Grok 模型願意回答其他 AI 系統不敢回答的爭議性問題。正因此,馬斯克此次也表示,「Grok 3 是一種最大程度地尋求真相的人工智能,即使這種真相有時與政治正確相悖。

在能力上,馬斯克稱新版的 Grok 3 能力比 Grok 2 高出一個數量級。對此,xAI 的工程師進行了現場演示。

一、「使用 pygame,製作一個結合了俄羅斯方塊和寶石方塊的遊戲。代碼可以很長。將其輸出為一個文件。讓它變得非常棒。」

得到如下的結果:

二、「生成從地球發射、著陸火星然後在下一個發射窗口返回地球的 3D 動圖的代碼。」

可以看出,Grok 3 的表現確實不錯。那麼,Grok 3 的能力為什麼會這麼強?

事實上,和其他公司有所不同,xAI 背後有馬斯克這位世界首富的支持。據 xAI 工程師在直播中介紹:

去年四月,埃隆決定,xAI 成功並打造最好的 AI 的唯一途徑,就是建立我們自己的數據中心。我們沒有太多時間,因為我們想盡快推出 Grok 3。所以,我們意識到必須在大約四個月內完成數據中心的建設。我們花了 122 天讓首批 10 萬個 GPU 啟動並運行,這是一項巨大的努力。我們相信,這是世界上最大規模的全連接 H100 集群。但我們並沒有就此止步。

我們很快意識到,為了構建我們設想中的 AI,我們需要將集群規模翻倍。因此,我們啟動了另一個階段——這是我們第一次公開談論這個——在短短 92 天內將容量翻倍。我們利用這些計算能力,在這個過程中持續改進產品。」

簡單來說,之前媒體多次報導 xAI 使用了 10 萬個 GPU 構建了超級計算機 Colossus,但那隻是初步階段。後來,xAI 構建了一個包含約 20 萬個 GPU 的數據中心,而 Grok 3 的訓練正是在此基礎設施上進行的。

不難想像馬斯克有多麼豪橫、Grok 3 的能力有多強了,有網民在 Grok 3 推出後發了一張圖:不難想像馬斯克有多麼豪橫、Grok 3 的能力有多強了,有網民在 Grok 3 推出後發了一張圖:

04 Grok 2 將在不久後開源

當前,X 的 Premium+ 訂閱用戶將率先體驗 Grok 3,其他功能則通過 xAI 推出的新計劃 SuperGrok 提供。SuperGrok 定價為每月 30 美元或每年 300 美元,付費後可以解鎖更多的推理和 DeepSearch 查詢,並提供無限制的圖像生成功能。

最後,在與網民的 QA 環節,馬斯克表示,未來——大約一週後——Grok 將推出「語音模式」,為 Grok 提供合成語音。幾週後,Grok 3 模型將與 DeepSearch 功能一起進入 xAI 的企業 API。

再幾個月後,xAI 將開源 Grok 2。「我們的總體方針是,當下一個版本完全發佈時,我們將開源最後一個版本 [的 Grok],」馬斯克說。「當 Grok 3 成熟並穩定下來,這可能會在幾個月內實現,然後我們將開源 Grok 2。」

05 業界評價不一

整體而言,Grok 3 在各項基準上的測試結果都拿下了不錯的成績,但實測結果如何?

來自知名學者、紐約大學教授 Gary Marcus 有些質疑道,「馬斯克和他公司里的 3 位員工現場演示了 Grok 3,對於最近看過這些系統演示的任何人來說,這次演示看起來就像是很多其他演示的公式化模仿:一些比之前稍微好一點的基準測試結果,更多的訓練(顯然是 Grok 2 所用計算量的 15 倍),演示了一個 Tetris 變體的自動編程,雖然似乎沒有完全成功,還有一個新產品,名為「Deep Search」,聽起來和「Deep Research」很相似。為了增加一些份量,他們還在測試時計算的類別中加入了 o1、o3、r1 等等。我沒有注意到任何真正創新的東西。」

他進一步分享他的看法:

Sam Altman 現在可以鬆口氣了。

沒有顛覆性進展;也沒有重大飛躍。幻覺問題依然沒有奇蹟般解決,等等。

話雖如此,OpenAI 的護城河正在不斷縮小,因此價格戰將繼續,除了英偉達(Nvidia)外,其他公司很難獲得利潤。

純粹的預訓練擴展顯然未能帶來 AGI。

不過,一些在獲得 Grok 3 早期使用權的 AI 專家們卻並不這麼認為。在 Grok 3 發佈後,AI 大牛 Andrej Karpathy 也在 X 上從多個維度分享了自己的體驗:

思維能力:

✅ 首先,Grok 3 顯然具備了接近最前沿的思維模型(「Think」按鈕),並且在我提出的《卡坦島》問題上表現出色:

「創建一個網頁,展示一個六邊形網格,像《卡坦島》遊戲中的板塊那樣。每個六邊形都編號為 1..N,其中 N 是六邊形的總數量。使其具有通用性,可以通過滑動條更改‘環數’。例如在卡坦島中,半徑為 3 個六邊形。請用單一的 HTML 頁面。」

很少有模型能穩定地解決這個問題。OpenAI 頂級的思維模型(例如 o1-pro,月費 200 美元)也能做到,但 DeepSeek-R1、Gemini 2.0 Flash Thinking 和 Claude 都做不到。

❌ 它沒有解答我提出的「表情符號謎題」問題,其中包含通過 Unicode 變體選擇器隱藏的消息,即使我提供了強烈的提示,並附帶了 Rust 代碼。DeepSeek-R1 曾部分解碼過這個消息。

❓ 它解決了我給它的一些井字棋問題,思路清晰(許多最前沿模型通常會失敗)。於是我提高了難度,要求它生成 3 個「棘手」的井字棋局面,它失敗了(生成了無意義的棋盤/文本),o1-pro 也失敗了。

✅ 我上傳了 GPT-2 的論文,提出了一些簡單的查詢,結果都很不錯。然後,我要求它估算訓練 GPT-2 所需的訓練 FLOP 數量,沒有搜索功能。這是一個難題,因為 tokens 數量並未明確列出,所以必須部分估算並進行計算,涉及查找、知識和數學等多個領域。一個例子是:40GB 文本 ≈ 40B 字符 ≈ 40B 字節(假設是 ASCII)≈ 10B tokens(假設每個 token 約 4 字節),以 10 個週期訓練 ≈ 100B token 訓練運行,參數為 15 億,且每個參數/每個 token 需要 2+4=6 FLOP,那麼總 FLOP 為:100e9 × 1.5e9 × 6 ≈ 1e21 FLOPs。Grok 3 和 4o 都沒能解決這個任務,但開啟思考模式的 Grok 3 能很好地解答,而 o1-pro(GPT 思維模型)則失敗。

我喜歡的是,這個模型在被要求時會嘗試解決黎曼假設,類似於 DeepSeek-R1,但不像許多其他模型(如 o1-pro、Claude、Gemini 2.0 Flash Thinking)那樣立刻放棄,只是說這是一個偉大的未解之謎。我最終不得不停止它的嘗試,因為我有點心疼它,但它展現了勇氣,誰知道,也許有一天……

總的來說,我的印像是,Grok 3 的能力大約在 o1-pro 的水平,領先於 DeepSeek-R1,當然,我們還需要實際的、真實的評估來進一步確認。

DeepSearch

這個功能非常有趣,似乎結合了 OpenAI 和 Perplexity 所稱的「深度研究」與思維能力。不同之處在於,它被命名為「Deep Search」(唉)。它能為你提供高質量的答案,適用於你可能在互聯網文章中找到答案的各種研究性/查詢性問題。例如,我嘗試了幾個問題,以下是我從最近的 Perplexity 搜索歷史中竊取的內容以及其回答結果:

✅ 「即將發佈的 Apple 發佈會有什麼消息?」

✅ 「為什麼 Palantir 的股票最近上漲?」

✅ 「《白蓮花 3》在哪裡拍攝?是不是和第一、第二季是同一個團隊?」

✅ 「Bryan Johnson 用的是什麼牙膏?」

❌ 「《單身即地獄》第四季的演員們現在怎麼樣了?」

❌ 「Simon Willison 提到他用的語音轉文字程序是什麼?」

❌ 我在這裏確實發現了一些不完善的地方。例如,模型似乎預設不喜歡引用 X 作為來源,儘管你可以明確要求它這麼做。有幾次我發現它虛構了不存在的 URL。有幾次它說了一些我認為不準確的事實,並且沒有提供出處(可能是因為沒有相關引用)。例如,它告訴我「Kim Jeong-su 仍然在和 Kim Min-seol 約會」,這顯然是錯誤的吧?當我要求它生成關於主要 LLM 實驗室及其總資金和員工數量的報告時,它列出了 12 個主要實驗室,但沒有提到它自己(xAI)。

我對 DeepSearch 的印像是,它大約在 Perplexity DeepResearch 提供的水平(這已經很棒了!),但還沒有達到 OpenAI 最近發佈的「深度研究」水平,後者依然顯得更加徹底和可靠(雖然也遠非完美,例如當我嘗試使用它時,它也錯誤地排除了 xAI 作為「主要 LLM 實驗室」)。

隨機的 LLM 挑戰

我嘗試了一些有趣的 / 隨機的 LLM 挑戰查詢。這些查詢對於人類來說很簡單,但對 LLMs 來說卻很有挑戰性,我很好奇 Grok 3 能在這些方面取得多大進展。

✅ Grok 3 知道「草莓」中有 3 個「r」,但它還告訴我,「LOLLAPALOOZA」中只有 3 個「L」。啟用思考模式後解決了這個問題。

✅ Grok 3 告訴我 9.11 > 9.9(這是其他 LLMs 常見的錯誤),但啟用思考模式後解決了。

✅ 一些簡單的謎題即使沒有啟用思考模式也能解決得不錯,比如:「Sally(一個女孩)有 3 個兄弟。每個兄弟有 2 個姐妹。Sally 有多少個姐妹?」 GPT4o 說 2(不正確)。

❌ 可惜模型的幽默感似乎並沒有明顯提高。這是 LLMs 的常見問題,尤其是在幽默能力和模式崩潰方面。比如,90% 的 1,008 次請求讓 ChatGPT 講笑話的輸出都是重覆的 25 個笑話。即使在遠離簡單雙關語的細節提示下(例如,給我一個單口相聲),它生成的幽默似乎也不算是最前沿的幽默。生成的笑話是:「為什麼雞加入了樂隊?因為它有鼓槌,想成為一名咯咯明星!」。在快速測試中,思考模式沒有起到太大幫助,可能還讓情況變得稍微糟糕了一點。

❌ 模型似乎仍然對「複雜倫理問題」過於敏感,例如它生成了一篇 1 頁的文章,基本上拒絕回答是否有倫理理由在救 100 萬人時錯誤性別稱呼某人。

❌ Simon Willison 的「生成一個騎單車的鵜鶘的 SVG」。這考驗了 LLM 在二維網格上佈置多個元素的能力,這是非常困難的,因為 LLM 無法像人類一樣「看」,它是在黑暗中用文本進行佈置。儘管這些鵜鶘還不錯,但仍有點問題(請參見圖像和對比)。Claude 的表現最好,但我懷疑他們可能在訓練時專門針對 SVG 能力進行了優化。

總結

根據今天早上大約 2 小時的快速評估,Grok 3 + 思維模式的表現大致處於 OpenAI 最強模型(o1-pro,月費 200 美元)的前沿水平,略勝於 DeepSeek-R1 和 Gemini 2.0 Flash Thinking。這在考慮到團隊從一年前才開始著手的情況下,表現非常出色,這個時間表在到達前沿領域方面是前所未有的。請記住這些模型是隨機的,每次可能會給出不同的答案,而且現在還處於非常早期的階段,因此我們需要在接下來幾天/幾週內進行更多的評估。不過,初步的 LM 競賽結果看起來非常鼓舞人心。現在,對 xAI 團隊表示祝賀,他們顯然擁有巨大的動力和形勢,我很高興將 Grok 3 添加到我的「LLM 委員會」中,並期待它今後的表現。」

那麼,你覺得 Grok 3 的能力如何?

參考:

https://garymarcus.substack.com/p/grok-3-hot-take?utm_campaign=post&utm_medium=web

https://x.com/karpathy/status/1891720635363254772

https://x.com/i/broadcasts/1gqGvjeBljOGB

本文來自微信公眾號「CSDN」,整理:屠敏,36氪經授權發佈。