英偉達開源最新大模型Nemotron 70B後，只有OpenAI o1一個對手了

機器之心報導

編輯：杜偉、陳陳

英偉達不僅要做顯卡領域的領先者，還要在大模型領域逐漸建立起自己的優勢。

今天，英偉達又開源了一個性能超級強大的模型 —— Llama-3.1-Nemotron-70B-Instruct，它擊敗了 OpenAI 的 GPT-4o 等閉源模型和 Anthropic 的 Claude-3.5 sonnet 等開源模型。

從命名來看，顯然 Llama-3.1-Nemotron-70B-Instruct 是基於 Llama-3.1-70B 打造而成。

從下圖中大模型榜單可以看到， Llama-3.1-Nemotron-70B-Instruct 的性能僅次於 OpenAI 最新 o1 大模型了。

圖源：https://x.com/itsPaulAi/status/1846565333240607148

目前，Llama-3.1-Nemotron-70B-Instruct 已經可以在線體驗了。Starwberry 中有幾個 r 這樣的題目難不倒它。

圖源：https://x.com/mrsiipa/status/1846551610199273817

不過有時也一本正經地胡說八道，比如「2.11 和 2.9 哪個大」。

體驗地址：https://huggingface.co/chat/

不過英偉達也強調了，他們主要是提高模型在通用領域的性能，尚未針對數學等專業領域的表現進行調優，或許等待一段時間，模型就可以正確回答 2.11 和 2.9 哪個大了。

此外，英偉達還開源了 Nemotron 的訓練數據集 HelpSteer2，包括如下：

數據集地址：https://huggingface.co/datasets/nvidia/HelpSteer2

除了 Llama-3.1-Nemotron-70B-Instruct 之外，英偉達還開源了另一個 Llama-3.1-Nemotron-70B-Reward 模型。

模型合集地址：https://huggingface.co/collections/nvidia/llama-31-nemotron-70b-670e93cd366feea16abc13d8

模型介紹

Llama-3.1-Nemotron-70B-Instruct 是英偉達定製的大型語言模型，旨在提高 LLM 生成的響應的有用性。

Llama-3.1-Nemotron-70B-Instruct 在 Arena Hard 基準上得分為 85.0，在 AlpacaEval 2 LC 基準上得分為 57.6，在 GPT-4-Turbo MT-Bench 基準上得分為 8.98。

截至 2024 年 10 月 1 日，Llama-3.1-Nemotron-70B-Instruct 在三個自動對齊基準中均排名第一，擊敗了 GPT-4o 和 Claude 3.5 Sonnet 等強大的前沿模型。

對於這一成績，有網民表示，在 Arena Hard 基準上拿到 85.0 分，對於一個 70B 的模型來說，確實是件大事。

還有網民討論說，用相同的提示測試 GPT-4o 和英偉達模型，所有的答案都是英偉達的模型好，並且是好很多的那種。

「加大題目難度，Llama-3.1-Nemotron-70B-Instruct 照樣回答的很好。」

在訓練細節上，該模型在 Llama-3.1-70B-Instruct 基礎上使用了 RLHF 技術（主要是 REINFORCE 算法），並採用了 Llama-3.1-Nemotron-70B-Reward 和 HelpSteer2 偏好提示作為初始訓練策略。

此外，Llama-3.1-Nemotron-70B-Reward 是英偉達開發的一個大型語言模型，用於預測 LLM 生成的響應的質量。該模型使用 Llama-3.1-70B-Instruct Base 進行訓練，並結合了 Bradley Terry 和 SteerLM 回歸獎勵模型方法。

Llama-3.1-Nemotron-70B-Reward 在 RewardBench 榜單的 Overall 排名中表現最佳，並在 Chat（聊天）、Safety（安全）和 Reasoning（推理）排名中也有出色表現。

不過，想要部署該模型還需要一些先決條件，至少需要一台帶有 4 個 40GB 或 2 個 80GB NVIDIA GPU 的機器，以及 150GB 的可用磁盤空間。想要嘗試的小夥伴跟著官方給出的步驟進行部署即可。

參考鏈接：

https://huggingface.co/nvidia/Llama-3.1-Nemotron-70B-Instruct

https://huggingface.co/nvidia/Llama-3.1-Nemotron-70B-Reward