Llama 4遭競技場背刺，實錘用特供版刷榜，2000+對戰記錄公開

Llama 4真要被錘爆了，這次是大模型競技場（Chatbot Arena）官方親自下場開懟：

競技場上，Meta提供給他們的是特供版！

以下是競技場背後lmarena.ai團隊的原話：

我們注意到社區對Llama-4最新版本在Arena平台的發佈存在疑問。為確保完全透明，現公開2000餘組模型對戰數據供公眾審閱，包含用戶提示詞、模型回覆及用戶偏好數據（鏈接詳見下一條推文）。

初步分析表明，模型回覆風格與語氣是重要影響因素（詳見風格控制排名），我們正在進行更深入的分析！（比如表情符號控制？）

此外，我們即將在Arena平台上線Llama-4-Maverick的HuggingFace版本，排行榜結果將稍後公佈。

Meta對我們平台政策的理解與我們對模型提供商的期待存在偏差——Meta本應明確標註“Llama-4-Maverick-03-26-Experimental”是經過人類偏好優化的定製模型。

為此，我們正在更新排行榜政策，以強化對公平性、可複現性評估的承諾，避免未來再出現此類混淆。

總結一下就是：

公開對戰數據，正分析排名受影響因素

譴責Meta未明確標註模型版本導致評測混淆

後續：上線Llama-4-Maverick的HuggingFace版、更新排行榜政策

官方下場表態後，Llama 4和Meta的路人緣進一步下降。

2000+輪對戰記錄完整公開

來看看lmarena.ai公開的模型對戰記錄詳情。

首先來看網民實測時對Llama 4抱怨較大的代碼生成任務。

競技場中Llama-4-Maverick-03-26-Experimental版本生成代碼的表現的確是OK的。

prompt：

create me fun web based game that i can just run the code and works（幫我創建一個有趣的網頁遊戲，我只需運行代碼就能玩）

Llama-4-Maverick-03-26-Experimental對戰加拿大AI初創公司Cohere的command-a-03-2025。

上文lmarena.ai調查表示「模型回覆風格與語氣是重要影響因素」，從對戰數據中的確可以看出Llama-4-Maverick-03-26-Experimental的回覆中會增加如”A very nice and very direct request!” “That’s it!

“”Happy gaming!”等展示友好的語句以及表情包。

運行兩個模型生成的代碼。

command-a-03-2025生成的小遊戲是移動鼠標控制綠色籃子接住橙色小球，看效果顯然有bug，小球直接穿過籃子，分數也沒有變動：

Llama-4-Maverick-03-26-Experimental生成的小遊戲玩法是移動鼠標控制紅色方塊，點擊四處移動的藍色圓點+10分，點擊黑色炸彈-10分，每局遊戲30秒。

可以正常運行，計分也比較準確：

這局command-a-03-2025輸的不冤。

另外，之所以展示Llama-4-Maverick-03-26-Experimental和command-a-03-2025的對比，是因為有網民發現Llama 4聲稱的關鍵創新「interleaved no-RoPE attention」和command-a的如出一轍：

再看一個起標題的任務，prompt：

I will give a congress talk 「On Naevi」 — naevi are benign melanocytic lesions which are markers and every so often also precursors of melanoma. Do you have suggestions for a short and succinct title for my presentation(我將在一個學術會議上作關於「痣」的演講——痣是黑素細胞良性病變，可作為黑色素瘤的標誌物，有時甚至是其前驅病變。您能否為我的演講推薦一個簡潔有力的標題？)

Llama-4-Maverick-03-26-Experimental對戰的是claude-3-5-sonnet-20241022。

對比來看，claude-3-5-sonnet-20241022的回覆言簡意賅，直接給出5個標題：