號稱「地球上最聰明的人工智能」,馬斯克的 Grok 3 竟答不對 9.11 和 9.9 哪個大

感謝IT之家網民 有鯽雪狐 的線索投遞!

IT之家 2 月 19 日消息,昨天馬斯克及其 xAI 團隊在直播中正式發佈了 Grok 3,此前馬斯克通過持續的預熱宣傳,將外界對 Grok3 的期待值推向了前所未有的高度。馬斯克稱 Grok 3 為,然而其實際表現似乎對不起這個名號。

IT之家注意到,在發佈會上,馬斯克宣稱 Grok 3 在數學、科學與編程的基準測試中超越了所有主流模型,並計劃將其應用於 SpaceX 的火星任務計算,甚至預測未來三年內將實現盧保獎級別的突破。

但 Grok 3 的實際測試表現卻讓人大跌眼鏡。發佈後,一些媒體測試了最新的 Beta 版 Grok 3,並提出了那個經典的用來刁難大模型的問題:「9.11 與 9.9 哪個大?」遺憾的是,號稱目前最聰明的 Grok 3,仍然無法正確回答這個問題,被網民戲稱為「天才不願意回答簡單問題」。

此外,在 xAI 發佈會直播中,在分析遊戲《流放之路 2》的職業與昇華效果時,Grok 3 也給出了大量錯誤答案,並且馬斯克也沒有看出這些明顯的錯誤。

儘管在官方 PPT 中,Grok3 在大模型競技場 Chatbot Arena 中看似「遙遙領先」,但實際上其與 DeepSeek R1 和 GPT4.0 的差距僅為 1% 到 2%。

馬斯克在發佈會上透露,Grok 3 使用了超過 20 萬張 H100 芯片,總訓練小時數達到兩億小時。作為對比,DeepSeek V3 僅使用 2000 張 H800 芯片訓練兩個月,其性能卻與 Grok 3 相差無幾。這表明,隨著模型規模的不斷擴大,性能提升的邊際效應已經顯現。

值得一提的是,馬斯克在社交媒體上表示,當前的 Grok 3 僅是測試版,完整版將在未來幾個月推出,並邀請用戶反饋使用問題。

廣告聲明:文內含有的對外跳轉鏈接(包括不限於超鏈接、二維碼、口令等形式),用於傳遞更多信息,節省甄選時間,結果僅供參考,IT之家所有文章均包含本聲明。