阿里雲確認:李飛飛團隊 s1 模型基於 Qwen2.5-32B-Instruct 模型訓練

IT之家 2 月 6 日消息,今日,李飛飛研究團隊以不到 50 美元的雲計算費用訓練了一個名叫 s1 的人工智能推理模型,該模型在數學和編碼能力測試中的表現與 OpenAl 的 o1 和 Depsek 的 R1 等尖端推理模型類似。

不過很快,該 s1 模型被指「並非從零開始訓練」,其基座模型為「阿裡通義千問(Qwen)模型」。對此,新浪科技向阿里雲方面求證,阿里雲方面確認了這一消息

阿里雲回應稱:「他們以阿裡通義千問 Qwen2.5-32B-Instruct 開源模型為底座,在 16 塊 H100 GPU 上監督微調 26 分鐘,訓練出新模型 s1-32B,取得了與 OpenAI 的 o1 和 DeepSeek 的 R1 等尖端推理模型數學及編碼能力相當的效果,甚至在競賽數學問題上的表現比 o1-preview 高出 27%。」

據IT之家此前報導,s1 團隊透露他們通過「蒸餾」技術創建了該人工智能模型,該技術旨在通過訓練模型來學習另一個人工智能模型的答案,從而提取其「推理」能力。

s1 的論文表明,可以使用一種稱為監督微調(SFT)的方法,可以使用相對較小的數據集來蒸餾推理模型。在 SFT 中,人工智能模型會被明確指示在數據集中模仿某些行為。SFT 比 DeepSeek 用於訓練其 R1 模型的大規模強化學習方法更具成本效益。

s1 基於阿里巴巴旗下中國人工智能實驗室 Qwen 提供的一款小型、現成的免費人工智能模型。為了訓練 s1,研究人員創建了一個僅包含 1000 個精心策劃的問題的數據集,以及這些問題的答案,以及Google Gemini 2.0 Flash Thinking Experimental 給出的每個答案背後的「思考」過程。

廣告聲明:文內含有的對外跳轉鏈接(包括不限於超鏈接、二維碼、口令等形式),用於傳遞更多信息,節省甄選時間,結果僅供參考,IT之家所有文章均包含本聲明。