Grok3 來了,馬斯克笑了,網站崩潰了
幾個小時前,伊隆·馬斯克終於發佈了他口中「地球上最聰明的 AI」——Grok3。
在 Grok3 中,馬斯克團隊一口氣帶來了「地表最強」基礎模型、推理模型以及第一個 agent(智能體)產品,還預告了正在路上的語音模型。官宣這一攬子新品,xAI 旨在追平甚至超越當前所有領先的 AI 產品能力。讓所有人都重視 xAI 這頭「房間里的大象」。

目前,只有 X 社交平台的 Premium+會員可以用 Grok3 測試版,但可能受限於其訂閱價格(40 美元/月)價格或發佈時間(當地晚上)的原因,X 平台暫未出現很多使用案例分享。
馬斯克的老同事 Andrej Karpathy(早年特斯拉自動駕駛負責人)提前內測了 Grok3,綜合使用下來,他認為 Grok 3 的能力大致與 o1-pro(200 美元/月)相當,優於 DeepSeek-R1 和 Gemini 2.0 Flash Thinking。
同時,對於 Grok3 發的第一個 Agent 產品「Deep Search」,他認為這個功能大概和 Perplexity 的「Deep Research」產品差不多,可以查閱網絡資料進行自主探索、給出高質量回答,但有時也會出現編造信息或錯誤引用的情況,似乎還沒到 OpenAI 最新發佈的「Deep Research」水平,後者給人感覺更全面更可靠。

值得注意的是,Grok3 對發佈只有一場直播 demo,沒有官方博客和技術報告等更多信息。馬斯克表示,模型每小時都在升級中,一週以後,Grok3 會帶來更好更穩定的能力和更多基準測試的成績。
馬斯克的號召力還是很強,Grok3 網站剛一上線,就被熱情的網民們點崩潰了。
顯然,競爭越來越白熱化的 AI 大戰,讓馬斯克倉促地舉辦了這場發佈會。Grok3 以及 xAI 的重要性幾何,還要再等等。
01 第一個 10 萬級 H100 訓練出來的模型,Grok3 怎麼樣?
在已有Google、Anthropic 和 OpenAI 的情況下,馬斯克的 xAI 仍被視為最有希望與這三家巨頭抗衡的公司之一。一大原因就在於擁有 20 萬卡集群——Colossus。作為世界上最大的人工智能超級計算機,Colossus 採用英偉達全棧參考設計,配備 20 萬個英偉達 Hopper GPU。

Grok3 便是在這一集群上訓練的,1 月初剛剛完成了預訓練,現在 Grok3 的計算能力是 Grok-2 的 10 倍以上。
馬斯克表示,Grok3 實際上仍然還在訓練中,今天先展示 Grok3 在一部分基準測試中的成績。

在其展現的評測標準上,Grok3 在數學、科學、代碼能力上全面領先。即便是 Grok3-mini,也超越了 Gemini、Claude、DeepSeek 當前所能獲得的最好基座模型。|截圖來源:X
「如果上述基準看起來是在評測『教科書的背誦能力』,那麼在實際使用能力上,Grok3 基座模型也確實是第一」。他們表示,在發佈前兩週,Grok3 以巧克力的代號在 Imarena 基準(前 Lmsys 基準)上進行了盲評,問同一個問題,讓用戶根據回答評價哪個模型更好,該基準被視為更加客觀的測試。

在這一基準測試中,Grok3 達到了 1400 分,這也是這一榜單首次出現超過 1400 分的基座模型。並且,Grok3 在總體/風格控制、編碼、數學、創意寫作、指令遵循、長指令提問、多輪等基座模型的所有評測類別上,都是第一。
官方稱 Grok3 還在不斷更新中,每天、每小時都在改進,今天給大家演示的模型版本就比送去評測的版本更先進。同時,最佳的預訓練模型顯然不夠,Grok3 還可以像人類一樣思考、反思、驗證,回到第一性原理再思考等,具備了強大的推理能力。
他們表示,從 1 月初完成預訓練模型以來,努力通過強化學習對其進行推理訓練,現在還在早期階段,但已經激發出了更多的能力。當給予更多的求解時間或者計算量,Grok3 模型表現更好。未來,還會發佈一個 mini 版本的推理模型。

最後,團隊放出了 Grok3 的第一代 agent,幫助工程師、研究人員和科學家進行編碼、幫助每個人回答研究問題,有點像下一代搜索引擎的「Deep Search」。該功能與此前Google、OpenAI 和 Perplexity 的「Deep Research」類似,旨在幫助人類完成比較深度的研究工作。

現場 demo 中,Grok 被問及「下一個星艦發射日」時,可以根據提問拆解用戶意圖、思考、查閱網站閱讀、交叉驗證信息來源、回答問題,團隊稱可以節省人類數十、上百小時的研究時間。|截圖來源:X
02 Grok3 究竟行不行,還需要讓子彈再飛一會
看完馬斯克的 Grok3 發佈會,鮮少能感受到「世界上最聰明的 AI」,總體是對齊第一梯隊玩家、並沒有超越的感覺。所以不少網民直呼:
「白瞎了」20 萬張 Hopper GPU。
但現在下結論,還是太早了。
整個行業預訓練上 Scaling Law 放緩,更多是受限於互聯網數據用完了。換句話說,馬斯克的 20 萬卡集群和他本人的極致工程能力,還沒有得以發揮。
我們來算算。
去年 4 月決定自建數據中心,迅速搞掂英偉達 20 萬張 Hopper 卡的到貨,122 天拉起了 10 萬卡集群,又用 92 天將數據中心擴展到 20 萬卡集群。這是獨有的馬斯克執行力。黃仁勳都說了,當模型大小增加一倍,算力崩掉的概率要多出一個數量級。馬斯克在十萬級卡上完成預訓練滿打滿算也就半年多。
另一邊,推理上的 Scaling Law,放在整個 AI 行業也剛剛開始,而這部分也更吃算力、無論是需要做實驗探索還是實際訓練。
在不久前舉辦的杜拜世界政府峰會上,馬斯克表示 Grok3 強大的推理能力背後,使用了創新的訓練方法和大量合成數據,能夠通過數據來回迭代實現邏輯一致性。如果發現錯誤數據,系統會反思並移除不符合現實的內容。但這些創新馬斯克團隊在今天的發佈會上並未提及,就像他說的 Grok3 還在繼續訓練中,更好的版本要等下週以後。
顯然,AI 競爭白熱化,讓馬斯克在當下顯倉促地拿出了 Grok3。或許是要在Google、Anthropic、OpenAI 在接下來一兩週內更新下一代模型之前,佔個先手。至少讓大家看到 Grok3 即將追平現狀了,但究竟有沒有突破、能不能再突破,還需要時間的檢驗。
別忘了,馬斯克可是戰略高手,一方面加緊修煉 xAI,一方面放出「收購 OpenAI」的新聞給對手造成困擾。在 AI 這條路上,你很難預測馬斯克到底能做出什麼來。
本文來自微信公眾號「極客公園」(ID:geekpark),作者:宛辰,編輯:靖宇,36氪經授權發佈。