Llama 3.1 會助推這波「小模型」熱潮嗎？

07月28日 12:30 新浪網 news-china-auto-hilite

機器之心PRO · 會員通訊 Week 30

—- 本週為您解讀 ③個值得細品的 AI & Robotics 業內要事 —-

1. Llama 3.1 會助推這波「小模型」熱潮嗎？

Llama 3.1 405B 訓的小模型為什麼更強？今年哪些頭部AI公司在做小模型？Meta 還提出了哪些做小模型的技巧？提到了哪些小模型相關的工作？都在做小模型，Scaling law 還重要嗎？小模型相比大模型優勢在哪？更強的小模型要如何「煉」？…

2. AI 影片生成賽道：誰有機會吃蛋糕？誰在陪跑？

今年出現了哪些 AI 影片生成工具？新工具/模型追上Sora了嗎？影片生成賽道哪些玩家拿到錢了？影片生成的 PMF 有苗頭了嗎？哪些火過的團隊沒動靜了？…

3. 一站式 LLM 指南：論文深度剖析大型語言模型全貌

Cosmo IMD 的高級研究科學家 Giorgio Roffo 的論文都盤了LLM的哪些方面？重點講了哪些內容？提升LLM性能的關鍵技術有哪些？在資源受限環境中下，如何更好地部署大模型？…

…本期完整版通訊含 3 項專題解讀 + 29 項本週 AI & Robotics 賽道要事速遞，其中技術方面 13 項，國內方面 7 項，國外方面 9 項。

本期通訊總計 26447 字，可免費試讀至 8%

消耗 99 微信豆即可兌換完整本期解讀（約合人民幣 9.9 元）

要事解讀① Llama 3.1 會助推這波「小模型」熱潮嗎？

日期：7 月 24 日

事件：2024年以來，OpenAI、微軟、Mistral AI 等機構開卷「小模型」賽道，陸續推出小參數規模模型。與此同時，Meta 推出開源模型 Llama 3.1 405B，朱克伯格希望基於 405B 模型的開源特性，使其成為微調和蒸餾小型模型的最佳選擇。

大小模型的分岔口？Llama 3.1 405B 「大號」模型會是未來小模型的新起點嗎？

在發佈Llama 3.1 405B 開源大模型時，朱克伯格其文章《Open Source AI Is the Path Forward》中特別提到：「較於閉源模型，這些開源模型在成本效益上顯著提升，特別是 405B 模型的開源特性，使其成為微調和蒸餾小型模型的最佳選擇。」

1、Meta 於近期發佈的 Llama 3.1 405B 因尺寸為開源模型中最大，性能媲美頂尖閉源模型等特徵而引起了業內熱議。在該模型發佈前，多家頭部機構發佈了小尺寸模型，掀起了一陣「小模型」工作的熱潮。然而，Llama 3.1 405B 雖然「龐大」，但似乎並不會阻止小模型熱潮的延展。

① 自今年以來，Meta 發佈了 350M 的 MobileLLM；微軟推出了 Phi-3 系列小模型；Google開源 Gemma 2 為 9B 和 27B 兩種參數規模；蘋果開發了 DCLM-7B；Hugging Face 推出了135M、360M 和 1.7B 規模的 SmolLM，OpenAI 推出 GPT-4o mini；Mistral AI 和英偉達共同開發了12B 參數的 Mistral NeMo。

2、Meta 發佈 Llama 3.1 405B 版本對比此前的 Llama 系列模型，在參數、預訓練數據等方面均有提升。[9]

① Llama 3.1 405B 支持多種語言，上下文長度達到 128K，在常識、可操縱性、數學、工具使用和多語言翻譯等方面可與頂級 AI 模型相媲美，其在一系列關鍵基準測試上的性能與 GPT-4o 十分接近。

② Llama 3.1 在大約 15 萬億的多語言 Token 語料庫上進行了預訓練，而 Llama 2 只使用了 1.8 萬億 Token。

③ Meta為此優化了整個訓練堆棧，預訓練採用超過 16,000 個 H100 GPU ，3.8 × 10²⁵ 次浮點運算（FLOPs），超過 Llama 2 的最大版本近 50 倍。

3、除了 Llama 3.1 405B ，Meta 還推出了 8B 和 70B 模型的升級版本，並在《The Llama 3 Herd of Models》論文中強調了在小模型上的投入，稱其對較小模型進行的訓練時間遠超了計算最優的時長。

① Meta 在論文中表示，這些較小模型在相同推理預算下的表現優於計算最優模型，他們在後訓練階段使用了 Llama 3.1 405B 進一步提高了 70B 和 8B 模型這些較小模型的質量。

② 升級後的 8B、70B 兩個版本同樣支持多種語言，上下文長度達到 128K，並與具有相似數量參數的閉源和開源模型具有競爭力。

③ Llama 3 8B 幾乎在每個任務類別中都優於競爭模型；Llama 3 70B 在大多數基準測試中都優於 Llama 2 70B。

4、Meta 還在論文中分享了數據對小模型能力的關鍵作用。

① 在後訓練中，Meta 通過多輪對齊來完善 Chat 模型，涉及監督微調（SFT）、拒絕采樣和直接偏好優化。大多數 SFT 樣本由合成數據生成。其中，大多數 SFT 樣本均採用合成數據。

② Meta 還重點介紹了退火數據（Annealing Data）的作用。通過在少量高質量代碼和數學數據上進行退火處理，可以顯著提升預訓練模型在關鍵基準測試上的性能。該方法對 8B 小模型在邏輯代碼能力方面有明顯提升。在 15T Tokens 的預訓練中，佔比數別為知識 50%、數學 25%、代碼 17%、多語言 8%。

表：2024年以來頭部AI機構發佈的小模型彙總。[1] – [9]

「小模型」熱潮下，Scaling law 還重要嗎？

1、在 Scaling Law 的「指引」下，語言模型越訓越大。然而，對於Scaling Law是否真的有效的質疑聲在業界一直存在，大模型的能力是否會隨著參數量、算力、數據的增加而不斷突破當前的上限？

2、Google DeepMind 團隊的論文《Training Compute-Optimal Large Language Models》認為，實現 LLMs 計算成本的最優，模型的規模和訓練數據量（token 數）應保持成比例的增長，即模型規模翻倍時，訓練數據量也應相應翻倍。[12]

① 對於較小的模型，增加數據量以訓練較大的模型能提升性能；對於較大的模型，使用更多數據訓練較小的模型同樣能帶來改進。簡單來說，即使模型規模較小，但如果用更多的數據進行訓練，也可能達到很好的效果。

3、對 Scaling Law 的另一點質疑方向是，模型性能的提升是否存在一個「臨界點」？有一種聲音認為，當超過這個點後，繼續無限制增加模型規模，帶來的提升效果可能會變得非常有限。因為當模型達到一定的複雜度後，其泛化能力和穩定性會受到損害，更容易出現過擬合等問題。

3、按照 Scaling Law，更小參數模型的性能表現應該劣於更大參數模型。但隨著更多優質小模型工作的出現則從側面質疑了 Scaling Law 的有效性

① 來自 Meta AI 團隊的論文《LLaMA: Open and Efficient Foundation Language Models》里的表述較為直觀，「小型模型如果接受大量數據的訓練，它們的表現可以匹敵甚至超過規模更大但數據量較少的模型。」[13]