馬斯克花了20萬塊GPU煉出的Grok-3,水平到底怎麼樣?
昨天中午,馬斯克終於發佈了預熱已久的Grok-3,不出所料,國內的很多自媒體又高潮了,今天刷到的短影片平台上介紹Grok-3的博主,表情誇張,各種吹噓,還說之前的大模型已經是石器時代的產物了,符合國內互聯網的一貫的造神風格。
言歸正傳,這篇文章我們來客觀地分析一下Grok-3,厲害的方面我們要承認,正視我們跟老美之間的差距,但Grok-3不足的地方,我們也要說明,畢竟它還不是真正的AGI。那Grok-3的水平到底怎麼樣?
由於Grok-3還沒有全面開放,網上真正用過的也不是很多,所以我們把網上實測過的結果都展示給大家。
官方給的測評結果
下面四張圖是馬斯克在X平台曬出來的,是不是感覺Grok-3遙遙領先?
但如果仔細看裡面的數據,就會發現一點點端倪,那就是其實領先並不大,像下面第一張圖,Grok-3是1400,而第二名的gemini-2.0是1380,性能只提升了1.4%,20萬張卡只換來這一點點的提升?有同學說相比Grok-2的提升幅度很大,但Grok-2的表現簡直沒法看,太拉胯了。
後面三種圖的提升幅度如果看百分比的話會大一點,但相對成本而言,這個幅度的提升就太小了。筆者認為這也再次驗證了DeepSeek確實非常適合我們當前的國情,出現得非常及時。我們沒有老美那幫企業那麼多的高端顯卡進行訓練,只能是把工程的效率提升,降低成本。




而且我們並不能完全相信官方給出的測評數據,去年國內某個AI大模型公司,官方測評成績很高,但實測很垃圾,典型的高分低能,後來被發現是針對那幾個測評專門做了優化。我說這個並不是懷疑Grok-3作弊,而是我們不能單憑這四張圖就認為這就是馬斯克口中的地表最強AI。
大佬的看法
首先就是Andrej Karpathy的測評,也是被國內自媒體轉發最多的一個,

Andrej 發表的內容比較長,我們就只把Summary貼出來:

就昨天上午約兩小時的快速初步評估而言,Grok 3 + 深度思考(Thinking)的表現大致處於 OpenAI 最強模型(o1 – pro,每月 200 美元)的前沿水平,且略優於 DeepSeek – R1 和 Gemini 2.0 快速思考(Flash Thinking)。
考慮到該團隊大約在一年前才從零起步,能在如此短的時間內達到前沿水平,這相當令人驚歎,這樣的發展速度前所未見。同時也要留意一些注意事項 —— 模型具有隨機性,每次給出的答案可能略有不同,而且目前時間還很早,所以在接下來的幾天或幾週內,我們還需等待更多評估結果。
早期在大語言模型競技平台(LM arena)上的結果確實看起來相當鼓舞人心。目前,熱烈祝賀 xAI 團隊,他們顯然進展迅速且形勢強勁。我很期待將 Grok 3 納入我的 「大語言模型顧問團」,並聽聽它未來的見解。
Andrej 給的評價其實算是比較中肯的,也就是說對其他幾個領先的大模型而言,並沒有明顯的優勢,但也承認Grok-3現在也已經是一線大模型的水平。
至於其他的大佬,除了尬吹的,就是像Alexandr Wang這種想跟Grok繼續合作的,都沒有實際測評給出比較客觀的評價。

網民們的測評
編寫代碼的能力
在發佈會現場,讓Grok-3寫了俄羅斯方塊的遊戲,Grok-3生成的俄羅斯方塊和寶石迷陣兩個遊戲的混合體成功運行,雖然界面挺美觀,但實際結果就是遊戲邏輯有些問題。但我覺得這也是可以接受的,一下子寫出來這麼複雜的代碼,還是有些難度,如果後面再持續跟Grok-3反饋,我相信這個遊戲也是能完成的。
但X上也有老哥測了後說Grok-3的代碼能力不行(筆者對這個測試結果存疑,不確定這位老哥是否測的公平公正):
筆者的看法
馬斯克和他的同事進行的Grok-3的現場演示,看起來就像是許多其他演示的千篇一律的翻版:在基準測試中取得了比之前稍好一些的成績,進行了更多訓練(用於 Grok 2 的計算量的 15 倍),展示了俄羅斯方塊變體的自動編碼,但似乎效果不太理想,還推出了一款名為 「深度搜索」(Deep Search)的新產品,這名字聽起來很像 「深度研究」(Deep Research),缺乏新意。此外,在測試計算量方面又有新成員 o1、o3、r1 等等加入。我沒看到任何真正原創的東西。
當然老馬自己也承認它仍處於 「測試版」。它比完整但尚未發佈的 o3 版本更智能嗎?目前我們不知道。
至於網上瘋傳的「暴擊DeepSeek R1數學屠榜!瘋狂復仇OpenAI」,我認為言過其實,Grok-3沒有改變遊戲規則的突破,沒有重大飛躍,大模型的幻覺問題也依然存在。
但也要承認,OpenAI 的護城河在不斷變窄,所以價格戰會持續,除了英偉達,對其他各方來說,盈利仍將難以實現。單純的預訓練規模擴張顯然未能實現AGI。
本文來自微信公眾號:傅里葉的貓,作者:張海軍