Llama 3.1 會助推這波「小模型」熱潮嗎?

機器之心PRO · 會員通訊 Week 30

—- 本週為您解讀 ③個值得細品的 AI & Robotics 業內要事 —-

1. Llama 3.1 會助推這波「小模型」熱潮嗎?

Llama 3.1 405B 訓的小模型為什麼更強?今年哪些頭部AI公司在做小模型?Meta 還提出了哪些做小模型的技巧?提到了哪些小模型相關的工作?都在做小模型,Scaling law 還重要嗎?小模型相比大模型優勢在哪?更強的小模型要如何「煉」?…

2. AI 影片生成賽道:誰有機會吃蛋糕?誰在陪跑?

今年出現了哪些 AI 影片生成工具?新工具/模型追上Sora了嗎?影片生成賽道哪些玩家拿到錢了?影片生成的 PMF 有苗頭了嗎?哪些火過的團隊沒動靜了?…

3. 一站式 LLM 指南:論文深度剖析大型語言模型全貌

Cosmo IMD 的高級研究科學家 Giorgio Roffo 的論文都盤了LLM的哪些方面?重點講了哪些內容?提升LLM性能的關鍵技術有哪些?在資源受限環境中下,如何更好地部署大模型?…

…本期完整版通訊含 3 項專題解讀 + 29 項本週 AI & Robotics 賽道要事速遞,其中技術方面 13 項,國內方面 7 項,國外方面 9 項。

本期通訊總計 26447 字,可免費試讀至 8

 消耗 99 微信豆即可兌換完整本期解讀(約合人民幣 9.9 元) 

要事解讀①  Llama 3.1 會助推這波「小模型」熱潮嗎?

日期:7 月 24 日

事件:2024年以來,OpenAI、微軟、Mistral AI 等機構開卷「小模型」賽道,陸續推出小參數規模模型。與此同時,Meta 推出開源模型 Llama 3.1 405B,朱克伯格希望基於 405B 模型的開源特性,使其成為微調和蒸餾小型模型的最佳選擇。

大小模型的分岔口?Llama 3.1 405B 「大號」模型會是未來小模型的新起點嗎?

在發佈Llama 3.1 405B 開源大模型時,朱克伯格其文章《Open Source AI Is the Path Forward》中特別提到:「較於閉源模型,這些開源模型在成本效益上顯著提升,特別是 405B 模型的開源特性,使其成為微調和蒸餾小型模型的最佳選擇。」

1、Meta 於近期發佈的 Llama 3.1 405B 因尺寸為開源模型中最大,性能媲美頂尖閉源模型等特徵而引起了業內熱議。在該模型發佈前,多家頭部機構發佈了小尺寸模型,掀起了一陣「小模型」工作的熱潮。然而,Llama 3.1 405B 雖然「龐大」,但似乎並不會阻止小模型熱潮的延展。

① 自今年以來,Meta 發佈了 350M 的 MobileLLM;微軟推出了 Phi-3 系列小模型;Google開源 Gemma 2 為 9B 和 27B 兩種參數規模;蘋果開發了 DCLM-7B;Hugging Face 推出了135M、360M 和 1.7B 規模的 SmolLM,OpenAI 推出 GPT-4o mini;Mistral AI 和英偉達共同開發了12B 參數的 Mistral NeMo。

2、Meta 發佈 Llama 3.1 405B 版本對比此前的 Llama 系列模型,在參數、預訓練數據等方面均有提升。[9]

① Llama 3.1 405B 支持多種語言,上下文長度達到 128K,在常識、可操縱性、數學、工具使用和多語言翻譯等方面可與頂級 AI 模型相媲美,其在一系列關鍵基準測試上的性能與 GPT-4o 十分接近。

② Llama 3.1 在大約 15 萬億的多語言 Token 語料庫上進行了預訓練,而 Llama 2 只使用了 1.8 萬億 Token。

③ Meta為此優化了整個訓練堆棧,預訓練採用超過 16,000 個 H100 GPU ,3.8 × 10²⁵ 次浮點運算(FLOPs),超過 Llama 2 的最大版本近 50 倍。

3、除了 Llama 3.1 405B ,Meta 還推出了 8B 和 70B 模型的升級版本,並在《The Llama 3 Herd of Models》論文中強調了在小模型上的投入,稱其對較小模型進行的訓練時間遠超了計算最優的時長。

① Meta 在論文中表示,這些較小模型在相同推理預算下的表現優於計算最優模型,他們在後訓練階段使用了 Llama 3.1 405B 進一步提高了 70B 和 8B 模型這些較小模型的質量。

② 升級後的 8B、70B 兩個版本同樣支持多種語言,上下文長度達到 128K,並與具有相似數量參數的閉源和開源模型具有競爭力。

③ Llama 3 8B 幾乎在每個任務類別中都優於競爭模型;Llama 3 70B 在大多數基準測試中都優於 Llama 2 70B。

4、Meta 還在論文中分享了數據對小模型能力的關鍵作用。

① 在後訓練中,Meta 通過多輪對齊來完善 Chat 模型,涉及監督微調(SFT)、拒絕采樣和直接偏好優化。大多數 SFT 樣本由合成數據生成。其中, 大多數 SFT 樣本均採用合成數據。

② Meta 還重點介紹了退火數據(Annealing Data)的作用。通過在少量高質量代碼和數學數據上進行退火處理,可以顯著提升預訓練模型在關鍵基準測試上的性能。該方法對 8B 小模型在邏輯代碼能力方面有明顯提升。在 15T Tokens 的預訓練中,佔比數別為知識 50%、數學 25%、代碼 17%、多語言 8%。

表:2024年以來頭部AI機構發佈的小模型彙總。[1] – [9]

「小模型」熱潮下,Scaling law 還重要嗎?

1、在 Scaling Law 的「指引」下,語言模型越訓越大。然而,對於Scaling Law是否真的有效的質疑聲在業界一直存在,大模型的能力是否會隨著參數量、算力、數據的增加而不斷突破當前的上限?

2、Google DeepMind 團隊的論文《Training Compute-Optimal Large Language Models》認為,實現 LLMs 計算成本的最優,模型的規模和訓練數據量(token 數)應保持成比例的增長,即模型規模翻倍時,訓練數據量也應相應翻倍。[12]

① 對於較小的模型,增加數據量以訓練較大的模型能提升性能;對於較大的模型,使用更多數據訓練較小的模型同樣能帶來改進。簡單來說,即使模型規模較小,但如果用更多的數據進行訓練,也可能達到很好的效果。

3、對 Scaling Law 的另一點質疑方向是,模型性能的提升是否存在一個「臨界點」?有一種聲音認為,當超過這個點後,繼續無限制增加模型規模,帶來的提升效果可能會變得非常有限。因為當模型達到一定的複雜度後,其泛化能力和穩定性會受到損害,更容易出現過擬合等問題。

3、按照 Scaling Law,更小參數模型的性能表現應該劣於更大參數模型。但隨著更多優質小模型工作的出現則從側面質疑了 Scaling Law 的有效性

① 來自 Meta AI 團隊的論文《LLaMA: Open and Efficient Foundation Language Models》里的表述較為直觀,「小型模型如果接受大量數據的訓練,它們的表現可以匹敵甚至超過規模更大但數據量較少的模型。」[13]