擰巴的朱克伯格

出品 | 虎嗅科技組
作者 | 房曉楠
編輯 | 苗正卿
頭圖 | 視覺中國
無疑,這幾天AI圈最大的流量都被Meta承包了。
先是4月6日,遲遲不出手的Meta終於亮相,一舉扔出包括Llama 4 Scout(109B)、Llama 4 Maverick (400B)和Llama 4 Behemoth在內的Llama 4套餐,憑藉「原生多模態MoE架構」「性能超越DeepSeek V3」「1000萬token上下文」等亮點,一路高舉高打。業界也是喜聞樂見,「開源之光依舊能打」等聲音持續不斷,Llama 4出道即巔峰。
但沒想到,緊接著負面聲音層出不窮。
一方面,開發者在實際測評時發現,Llama 4的性能並沒有官方宣揚的那樣強大,甚至在代碼、邏輯推理方面,遠不如GPT-4o、DeepSeek R1 、 Gemini 2.5 pro。
另一方面,有自稱Meta內部員工的人員爆料,Llama 4存在造假嫌疑,為了「趕工期」,在後訓練階段中,將多個benchmark測試集混入訓練數據,以提升基準分數。甚至,技術負責人看不過去這樣的造假行為,遞交辭職報告。傳聞一出,立即發酵,Meta陷入輿論風波中,各種聲討聲不斷。
一位大模型從業者在朋友圈發文稱,「Meta的‘作弊’行為,讓他想到2023年百模大戰時期。」另有業內人士認為大模型和芯片不一樣,一味追求跑分榜單意義不大,大模型的核心能力還是要放到業務場景中實戰。
而經過一夜的輿論發酵,目前,Meta官方已正式做出回應,Llama 4不存在造假、打榜等行為,模型質量表現不一,是有充足的理由可以解釋的,即「我們在模型一準備好就立即發佈了,所以預計在各個平台的公開實現需要幾天時間才能完全穩定下來」。
之後,Meta首席AI科學家Yann LeCun也轉發澄清貼,表明Meta並不存在造假行為。
但是這番解釋並沒有讓大家信服,根據澄清文,緊跟而來的疑點是,「如果模型還沒有穩定下來,Meta為何急著發佈?」
其實,關於這一點,答案很明顯,Meta急了。
在Llama 4發佈之前,Meta上一次發佈新品還是在去年7月,發佈Llama 3.1 405B模型,彼時DeepSeek仍處於蟄伏期,Meta風光無限,CEO朱克伯格也高調預告著已經處於開發中的Llama 4。
只是沒想到,今年年初,DeepSeek憑藉強大的多場景理解與內容生成能力成功「出圈」,AI圈的競爭格局瞬間改變,壓力給到一眾大模型企業,Meta自然也不例外。有消息稱,當時Meta就意識到,相較於DeepSeek-V3,研發中的Llama 4 在各項測試中都比不過前者,於是研發進程一再被打亂。
一位業內人士告訴虎嗅,相傳DeepSeek出來後,Meta便在內部設置了四個作戰室,天天研究DeepSeek,思考該如何複現其模型能力。另外,這次Meta首次在Llama系列模型中採用MoE架構,或許也是出於這一路徑早已被DeepSeek驗證過。
但顯然,Llama 4的性能表現並沒有達到預期,即便是大手筆地用了20萬的顯卡集群。
其實,或許Meta的壓力要來得更早一些。
在Llama 4 造假傳聞出來後,虎嗅在向業內人士求證的過程中,得到的反饋大都是,「這很正常,Meta被逼急了,就只能去作弊了。」
一位業內人士告訴虎嗅,Llama的危機感並不是完全是因為年初DeepSeek出現才有的,這隻是加速了這一認知,其實早從去年下半年開始,在開源上,Llama系列模型的影響力就大不如前了,開發者早早就達成一致,轉向性能表現更好的Qwen系列和DeepSeek。
所以,在這次Llama 4發佈之際,大家更多是抱著Meta將帶來怎樣的提升與改進,並非期待它真的能夠顛覆DeepSeek,重新反勝。
只是沒想到,Meta不僅沒有讓大家看到它的進步,更是因為一些「迷惑」操作,讓自己深陷造假風波。
而最新消息是,目前在社區內還有一些開發者在繼續試圖找出Meta造假的證據。
其實,不管這次Meta造假與否,已經沒那麼重要了,重點是,Llama系列模型已經無法再現昔日榮光是真的,Meta面臨著巨大的信任危機是真的。如果說之前,Meta的壓力與挑戰還在於如何應對DeepSeek和Qwen帶來的衝擊,那麼現在,如何針對Llama 4 存在的性能缺陷,早點修復Bug,重新奪回起開發者的信任,才是更為迫切的難題。
原本,這隻是AI圈一場事先張揚的新品發佈,沒想到卻一波三折,最終演變成一場「鬧劇」,可想而知,這早已背離Meta的初衷。
不知道看到這樣的結果,Meta是否會後悔,反正已經晚了,又何必在乎再晚一點,面對DeepSeek這樣橫空出世的「大魔王」,焦慮是正常的,如果老老實實交出一份誠心之作,即便再不如意,也不會像如今這般「慘淡收場」。