擰巴的朱克伯格

出品 | 虎嗅科技組

作者 | 房曉楠

編輯 | 苗正卿

頭圖 | 視覺中國

無疑，這幾天AI圈最大的流量都被Meta承包了。

先是4月6日，遲遲不出手的Meta終於亮相，一舉扔出包括Llama 4 Scout（109B）、Llama 4 Maverick （400B）和Llama 4 Behemoth在內的Llama 4套餐，憑藉「原生多模態MoE架構」「性能超越DeepSeek V3」「1000萬token上下文」等亮點，一路高舉高打。業界也是喜聞樂見，「開源之光依舊能打」等聲音持續不斷，Llama 4出道即巔峰。

但沒想到，緊接著負面聲音層出不窮。

一方面，開發者在實際測評時發現，Llama 4的性能並沒有官方宣揚的那樣強大，甚至在代碼、邏輯推理方面，遠不如GPT-4o、DeepSeek R1 、 Gemini 2.5 pro。

另一方面，有自稱Meta內部員工的人員爆料，Llama 4存在造假嫌疑，為了「趕工期」，在後訓練階段中，將多個benchmark測試集混入訓練數據，以提升基準分數。甚至，技術負責人看不過去這樣的造假行為，遞交辭職報告。傳聞一出，立即發酵，Meta陷入輿論風波中，各種聲討聲不斷。

一位大模型從業者在朋友圈發文稱，「Meta的‘作弊’行為，讓他想到2023年百模大戰時期。」另有業內人士認為大模型和芯片不一樣，一味追求跑分榜單意義不大，大模型的核心能力還是要放到業務場景中實戰。

而經過一夜的輿論發酵，目前，Meta官方已正式做出回應，Llama 4不存在造假、打榜等行為，模型質量表現不一，是有充足的理由可以解釋的，即「我們在模型一準備好就立即發佈了，所以預計在各個平台的公開實現需要幾天時間才能完全穩定下來」。

之後，Meta首席AI科學家Yann LeCun也轉發澄清貼，表明Meta並不存在造假行為。

但是這番解釋並沒有讓大家信服，根據澄清文，緊跟而來的疑點是，「如果模型還沒有穩定下來，Meta為何急著發佈？」

其實，關於這一點，答案很明顯，Meta急了。

在Llama 4發佈之前，Meta上一次發佈新品還是在去年7月，發佈Llama 3.1 405B模型，彼時DeepSeek仍處於蟄伏期，Meta風光無限，CEO朱克伯格也高調預告著已經處於開發中的Llama 4。

只是沒想到，今年年初，DeepSeek憑藉強大的多場景理解與內容生成能力成功「出圈」，AI圈的競爭格局瞬間改變，壓力給到一眾大模型企業，Meta自然也不例外。有消息稱，當時Meta就意識到，相較於DeepSeek-V3，研發中的Llama 4 在各項測試中都比不過前者，於是研發進程一再被打亂。

一位業內人士告訴虎嗅，相傳DeepSeek出來後，Meta便在內部設置了四個作戰室，天天研究DeepSeek，思考該如何複現其模型能力。另外，這次Meta首次在Llama系列模型中採用MoE架構，或許也是出於這一路徑早已被DeepSeek驗證過。

但顯然，Llama 4的性能表現並沒有達到預期，即便是大手筆地用了20萬的顯卡集群。

其實，或許Meta的壓力要來得更早一些。

在Llama 4 造假傳聞出來後，虎嗅在向業內人士求證的過程中，得到的反饋大都是，「這很正常，Meta被逼急了，就只能去作弊了。」

一位業內人士告訴虎嗅，Llama的危機感並不是完全是因為年初DeepSeek出現才有的，這隻是加速了這一認知，其實早從去年下半年開始，在開源上，Llama系列模型的影響力就大不如前了，開發者早早就達成一致，轉向性能表現更好的Qwen系列和DeepSeek。

所以，在這次Llama 4發佈之際，大家更多是抱著Meta將帶來怎樣的提升與改進，並非期待它真的能夠顛覆DeepSeek，重新反勝。

只是沒想到，Meta不僅沒有讓大家看到它的進步，更是因為一些「迷惑」操作，讓自己深陷造假風波。

而最新消息是，目前在社區內還有一些開發者在繼續試圖找出Meta造假的證據。

其實，不管這次Meta造假與否，已經沒那麼重要了，重點是，Llama系列模型已經無法再現昔日榮光是真的，Meta面臨著巨大的信任危機是真的。如果說之前，Meta的壓力與挑戰還在於如何應對DeepSeek和Qwen帶來的衝擊，那麼現在，如何針對Llama 4 存在的性能缺陷，早點修復Bug，重新奪回起開發者的信任，才是更為迫切的難題。

原本，這隻是AI圈一場事先張揚的新品發佈，沒想到卻一波三折，最終演變成一場「鬧劇」，可想而知，這早已背離Meta的初衷。

不知道看到這樣的結果，Meta是否會後悔，反正已經晚了，又何必在乎再晚一點，面對DeepSeek這樣橫空出世的「大魔王」，焦慮是正常的，如果老老實實交出一份誠心之作，即便再不如意，也不會像如今這般「慘淡收場」。