Others

擊敗GPT-4o的開源模型如何煉成？關於Llama 3.1 405B，Meta都寫在這篇論文里了

07月24日 13:10 新浪網 news-china-auto-hilite

Llama 3.1 將上下文長度擴展到了 128K，擁有 8B、70B 和 405B 三個版本，再次以一已之力抬高了大模型賽道的競爭標準。

對 AI 社區來說，Llama 3.1 405B 最重要的意義是刷新了開源基礎模型的能力上限，Meta 官方稱，在一系列任務中，其性能可與最好的閉源模型相媲美。

下表展示了當前 Llama 3 系列模型在關鍵基準測試上的性能。可以看出，405B 模型的性能與 GPT-4o 十分接近。

與此同時，Meta 公佈了《The Llama 3 Herd of Models》論文，揭示了 Llama 3 系列模型迄今為止的研究細節。

論文地址：https://ai.meta.com/research/publications/the-llama-3-herd-of-models/

接下來，讓我們看一下論文內容。

Llama3 論文亮點

1、在使用 8K 上下文長度進行預訓練後，Llama 3.1 405B 使用 128K 上下文長度進行連續訓練，且支持多語言和工具使用。

2、與以前的 Llama 模型相比，Meta 加強了預處理和預訓練數據的 Curation pipelines，以及後訓練數據的質量保證和過濾方法。

Meta 認為，高質量基礎模型的開發有三個關鍵槓桿：數據、規模和複雜性管理。

首先，與 Llama 的早期版本相比，Meta 在數量和質量兩方面改進了用於預訓練和後訓練的數據。Meta 在大約 15 萬億的多語言 Token 語料庫上對 Llama 3 進行了預訓練，相比之下，Llama 2 只使用了 1.8 萬億 Token。

此次訓練的模型規模遠大於以前的 Llama 模型：旗艦語言模型使用了 3.8 × 10²⁵ 次浮點運算（FLOPs）進行預訓練，超過 Llama 2 的最大版本近 50 倍。

基於 Scaling law，在 Meta 的訓練預算下，當前的旗艦模型已是近似計算最優的規模，但 Meta 對較小模型進行的訓練時間已經遠超計算最優的時長。結果表明，這些較小模型在相同推理預算下的表現優於計算最優模型。在後訓練階段，Meta 使用了 405B 的旗艦模型進一步提高了 70B 和 8B 模型這些較小模型的質量。

3、為了支持 405B 模型的大規模生產推理，Meta 將 16 位 (BF16) 量化為 8 位 (FP8)，從而降低了計算要求，並使模型能夠在單個服務器節點上運行。

4、在 15.6T token（3.8×10²⁵ FLOPs）上預訓練 405B 是一項重大挑戰，Meta 優化了整個訓練堆棧，並使用了超過 16K H100 GPU。

正如 PyTorch 創始人、Meta 傑出工程師 Soumith Chintala 所說，Llama3 論文揭示了許多很酷的細節，其中之一就是基礎設施的構建。

5、在後訓練中，Meta 通過多輪對齊來完善 Chat 模型，其中包括監督微調（SFT）、拒絕采樣和直接偏好優化。大多數 SFT 樣本由合成數據生成。

研究者在設計中做出了一些選擇，以最大化模型開發過程的可擴展性。例如，選擇標準的密集 Transformer 模型架構，只進行了少量調整，而不是採用專家混合模型，以最大限度地提高訓練的穩定性。同樣，採用相對簡單的後訓練程序，基於監督微調（SFT）、拒絕采樣（RS）和直接偏好優化（DPO），而不是更複雜的強化學習算法，因為後者往往穩定性較差且更難擴展。

6、作為 Llama 3 開發過程的一部分，Meta 團隊還開發了模型的多模態擴展，使其具備圖像識別、影片識別和語音理解的能力。這些模型仍在積極開發中，尚未準備好發佈，但論文展示了對這些多模態模型進行初步實驗的結果。

7、Meta 更新了許可證，允許開發者使用 Llama 模型的輸出結果來增強其他模型。

在這篇論文的最後，我們還看到了長長的貢獻者名單：