Llama 4 發佈：我看到了 DeepSeek 的影子

04月06日 13:34 新浪網 tech-auto-hilite

Llama 4 發佈了。

https://huggingface.co/meta-llama

Llama 4 的三款模型

但這次，它沒有高調宣稱參數量「遙遙領先「，而是通過三款模型來重新佈局：

• Scout：109B 參數，17B 激活，16 專家 MoE，可部署在單張 H100 上，10M token 長上下文，適用於文檔分析、多輪對話、代碼等任務
• Maverick：400B 參數，17B 激活，128 專家 MoE，1M token 長上下文：400B 參數，128 專家，推理僅激活兩個。對標 GPT-4o，性能不遜色，推理成本僅為其十分之一
• Behemoth：2T 參數，288B激活，16 專家 MoE，不部署、不開放，僅用於訓練階段，為 Scout 和 Maverick 生成訓練數據

一個用、一主力、一教學，不卷彼此，也不試圖通吃所有任務。

講道理，看這個發佈的時候，我總隱隱有當時讀 DeepSeek V3 技術報告的感覺：擁抱 MoE，擁抱合成數據

架構轉向：MoE 登上主舞台

Lllma 3 是 Dense，哪怕 400B 的模型都是 Dense；而 Llama 4 是 MoE 架構。

MoE 大概就是這樣

過去，MoE 更多還是「實驗室選項」，自 DeepSeek 大火後，很多廠商開始嘗試將其用於主力模型，比如這次的 Meta。在 Llama 4 中，模型 Scout 配置 16 專家，而 Maverick 則是 128 專家，推理時都只激活兩個，17B的量。

回顧一下，DeepSeek 在 R1 和 V3 中也是類似：671B 總參數，37B 激活，用更可控的計算開銷，換來模型能力密度的提升。

當然，得說一下，MoE 並不適合所有任務場景，也存在調度複雜、專家平衡等訓練難題。但它至少打開了一個現實維度：參數使用方式，和參數數量本身一樣值得被設計。

多模態：從外掛走向原生

Llama 3 時代，圖像輸入依賴外掛 encoder，與語言模型拚接；Llama 4 時代，圖像直接作為 token 輸入，參與語言上下文建模。

這意味著：圖文不是模型之後拚出來的，而是在訓練中就一體建模的語境單位。

這種結構帶來的提升，在任務表現中非常直接：

• Maverick 在 DocVQA 拿下 94.4，超過 GPT-4o（92.8）
• ChartQA 達到 90.0，MathVista 73.7，均高於 GPT-4o
• 推理成本卻僅為 GPT-4o 的十分之一

Maverick 跑分成績

而原生多模態架構也體現在 Scout 身上——雖然是輕量模型，但在 DocVQA、ChartQA 上，Scout 依然打出了高於同尺寸模型（甚至部分大模型）的穩定表現。

Scout 跑分成績

此處說一下， DeepSeek 的 V3/R1 仍未引入圖像 token

訓練轉向：大模型是過程

Behemoth 最大號的 Llama4，很強，但它不對外。

Behemoth：這是個不對外的模型

Behemoth：這是個不對外的模型

Behemoth的全部作用，是生成訓練數據，為 Scout 和 Maverick 提供能力示範，並通過輕量 DPO 和 RLHF 進一步優化行為。換句話說，Meta 並不再執著於「最強模型」上線，而是選擇把最大資源投入到訓練系統本身。

這個事情，有點像：

• OpenAI 開發了「草莓」，來訓練新的 GPT
• DeppSeek 開發了 DeepSeek-R1-Light 來訓練 DeepSeek V3

《DeepSeek-V3 Technical Report》

《DeepSeek-V3 Technical Report》

不是封神，而是轉向

在我看來，Llama 4 並沒有帶來參數最大、能力最強的單點突破。但它用一個更完整、更分工明確的體系，回應了模型設計正在發生的變化：

Scout 是部署，Maverick 是交付，Behemoth 是理解力的源頭

與其說是一次產品發佈，更像是宣告一次路線調整。