Meta AI 研究員:網絡上的文本基本都是「狗屎」 Llama 3 沒有使用任何人類書寫的答案 全是合成數據

概要:Meta發佈了有史以來最強大和最具能力的開源模型Llama 3-405B,該模型訓練在15T令牌上,超過了GPT-4在所有主要基準測試中的表現。Llama 3的8B和70B型號也在4月的發佈中進行了重大升級。

Latent Space採訪了 Meta  AI 研究員 Thomas Scialom,他領導了 Llama2 和現在的 Llama3 訓練後工作。詳細討論了Llama 3.1預訓練(如合成數據、數據管道、縮放法則等)和後訓練(如強化學習人類反饋 (RLHF) 與指令調優、評估、工具調用)方面的內容。

據 Thomas Scialom

  1. 合成數據

    • 「我的直覺是,網絡上的文本都是狗屎,在這些標記上進行訓練是在浪費計算量」。
    • 「Llama 3 後期訓練沒有使用任何人類書寫的答案,而是完全依賴於Llama 2生成的純合成數據。」
  2. 合成數據的具體應用

    • 代碼生成:使用三種方法生成代碼合成數據,包括代碼執行反饋、編程語言翻譯和文檔反向翻譯。
    • 數學推理:借鑒了「讓我們逐步驗證」作者的研究,進行合成數據生成。
    • 多語言處理:通過90%的多語言令牌繼續預訓練,收集高質量的人類註釋。
    • 長文本處理:依賴於合成數據來處理長文本的問答、長文檔摘要和代碼庫推理。
    • 工具使用:在Brave搜索、Wolfram Alpha和Python解釋器上訓練進行單次、嵌套、並行和多輪函數調用。
  3. 強化學習與人類反饋(RLHF)

    • 廣泛使用人類偏好數據進行模型訓練。
    • 強調了人類在兩者之間進行選擇(如選擇兩首詩中更喜歡哪一首)而非創作(從零開始寫一首詩)的能力。
  4. Meta 已經在 6 月份開始訓練 Llama 4,聽起來一大重點將是圍繞智能體展開。
  5. 多模態版本將有更多參數,稍後發佈

合成數據是關鍵

Llama3 在 15 萬億 tokens 上進行了訓練,比 Llama2 多 7 倍,代碼量增加了 4 倍,涵蓋了 30 種不同的語言。正如 Thomas 所說:

Support authors and subscribe to content

This is premium stuff. Subscribe to read the entire article.

Login if you have purchased

加入會員

加入會員查看更多會員內容和教程。

超過1000+的會員內容,每天更新。