英偉達開源最新大模型Nemotron 70B後,只有OpenAI o1一個對手了

機器之心報導

編輯:杜偉、陳陳

英偉達不僅要做顯卡領域的領先者,還要在大模型領域逐漸建立起自己的優勢。

今天,英偉達又開源了一個性能超級強大的模型 —— Llama-3.1-Nemotron-70B-Instruct,它擊敗了 OpenAI 的 GPT-4o 等閉源模型和 Anthropic 的 Claude-3.5 sonnet 等開源模型。

從命名來看,顯然 Llama-3.1-Nemotron-70B-Instruct 是基於 Llama-3.1-70B 打造而成。

從下圖中大模型榜單可以看到, Llama-3.1-Nemotron-70B-Instruct 的性能僅次於 OpenAI 最新 o1 大模型了。

圖源:https://x.com/itsPaulAi/status/1846565333240607148

圖源:https://x.com/itsPaulAi/status/1846565333240607148

目前,Llama-3.1-Nemotron-70B-Instruct 已經可以在線體驗了。Starwberry 中有幾個 r 這樣的題目難不倒它。

圖源:https://x.com/mrsiipa/status/1846551610199273817

圖源:https://x.com/mrsiipa/status/1846551610199273817

不過有時也一本正經地胡說八道,比如「2.11 和 2.9 哪個大」。

體驗地址:https://huggingface.co/chat/

不過英偉達也強調了,他們主要是提高模型在通用領域的性能,尚未針對數學等專業領域的表現進行調優,或許等待一段時間,模型就可以正確回答 2.11 和 2.9 哪個大了。

此外,英偉達還開源了 Nemotron 的訓練數據集 HelpSteer2,包括如下:

  • 構建了 21362 個提示響應,使模型更符合人類偏好,也更有幫助、更符合事實、更連貫,並且可以根據複雜度和詳細度進行定製;

  • 構建了 20324 個用於訓練的提示響應,1038 個用於驗證。

數據集地址:https://huggingface.co/datasets/nvidia/HelpSteer2

數據集地址:https://huggingface.co/datasets/nvidia/HelpSteer2

除了 Llama-3.1-Nemotron-70B-Instruct 之外,英偉達還開源了另一個 Llama-3.1-Nemotron-70B-Reward 模型。

模型合集地址:https://huggingface.co/collections/nvidia/llama-31-nemotron-70b-670e93cd366feea16abc13d8

模型介紹

Llama-3.1-Nemotron-70B-Instruct 是英偉達定製的大型語言模型,旨在提高 LLM 生成的響應的有用性。

Llama-3.1-Nemotron-70B-Instruct 在 Arena Hard 基準上得分為 85.0,在 AlpacaEval 2 LC 基準上得分為 57.6,在 GPT-4-Turbo MT-Bench 基準上得分為 8.98。

截至 2024 年 10 月 1 日,Llama-3.1-Nemotron-70B-Instruct 在三個自動對齊基準中均排名第一,擊敗了 GPT-4o 和 Claude 3.5 Sonnet 等強大的前沿模型。

對於這一成績,有網民表示,在 Arena Hard 基準上拿到 85.0 分,對於一個 70B 的模型來說,確實是件大事。

還有網民討論說,用相同的提示測試 GPT-4o 和英偉達模型,所有的答案都是英偉達的模型好,並且是好很多的那種。

「加大題目難度,Llama-3.1-Nemotron-70B-Instruct 照樣回答的很好。」

在訓練細節上,該模型在 Llama-3.1-70B-Instruct 基礎上使用了 RLHF 技術(主要是 REINFORCE 算法),並採用了 Llama-3.1-Nemotron-70B-Reward 和 HelpSteer2 偏好提示作為初始訓練策略。

此外,Llama-3.1-Nemotron-70B-Reward 是英偉達開發的一個大型語言模型,用於預測 LLM 生成的響應的質量。該模型使用 Llama-3.1-70B-Instruct Base 進行訓練,並結合了 Bradley Terry 和 SteerLM 回歸獎勵模型方法。

Llama-3.1-Nemotron-70B-Reward 在 RewardBench 榜單的 Overall 排名中表現最佳,並在 Chat(聊天)、Safety(安全)和 Reasoning(推理)排名中也有出色表現。

不過,想要部署該模型還需要一些先決條件,至少需要一台帶有 4 個 40GB 或 2 個 80GB NVIDIA GPU 的機器,以及 150GB 的可用磁盤空間。想要嘗試的小夥伴跟著官方給出的步驟進行部署即可。

參考鏈接:

https://huggingface.co/nvidia/Llama-3.1-Nemotron-70B-Instruct

https://huggingface.co/nvidia/Llama-3.1-Nemotron-70B-Reward

© THE END