Meta AI 研究員：網絡上的文本基本都是「狗屎」 Llama 3 沒有使用任何人類書寫的答案全是合成數據

07月24日 20:46 新浪網 news-china-auto-hilite

概要：Meta發佈了有史以來最強大和最具能力的開源模型Llama 3-405B，該模型訓練在15T令牌上，超過了GPT-4在所有主要基準測試中的表現。Llama 3的8B和70B型號也在4月的發佈中進行了重大升級。

Latent Space採訪了 Meta AI 研究員 Thomas Scialom，他領導了 Llama2 和現在的 Llama3 訓練後工作。詳細討論了Llama 3.1預訓練（如合成數據、數據管道、縮放法則等）和後訓練（如強化學習人類反饋 (RLHF) 與指令調優、評估、工具調用）方面的內容。

據 Thomas Scialom

合成數據
- 「我的直覺是，網絡上的文本都是狗屎，在這些標記上進行訓練是在浪費計算量」。
- 「Llama 3 後期訓練沒有使用任何人類書寫的答案，而是完全依賴於Llama 2生成的純合成數據。」
合成數據的具體應用
- 代碼生成：使用三種方法生成代碼合成數據，包括代碼執行反饋、編程語言翻譯和文檔反向翻譯。
- 數學推理：借鑒了「讓我們逐步驗證」作者的研究，進行合成數據生成。
- 多語言處理：通過90%的多語言令牌繼續預訓練，收集高質量的人類註釋。
- 長文本處理：依賴於合成數據來處理長文本的問答、長文檔摘要和代碼庫推理。
- 工具使用：在Brave搜索、Wolfram Alpha和Python解釋器上訓練進行單次、嵌套、並行和多輪函數調用。
強化學習與人類反饋（RLHF）
- 廣泛使用人類偏好數據進行模型訓練。
- 強調了人類在兩者之間進行選擇（如選擇兩首詩中更喜歡哪一首）而非創作（從零開始寫一首詩）的能力。
Meta 已經在 6 月份開始訓練 Llama 4，聽起來一大重點將是圍繞智能體展開。
多模態版本將有更多參數，稍後發佈

合成數據是關鍵

Llama3 在 15 萬億 tokens 上進行了訓練，比 Llama2 多 7 倍，代碼量增加了 4 倍，涵蓋了 30 種不同的語言。正如 Thomas 所說：

Support authors and subscribe to content

This is premium stuff. Subscribe to read the entire article.

Login if you have purchased

加入會員

加入會員查看更多會員內容和教程。

超過1000+的會員內容，每天更新。