研究人員開源 Sky-T1 推理 AI 模型,訓練成本不到 450 美元
IT之家 1 月 12 日消息,本週,來自加州大學伯克利分校 Sky Computing 實驗室的研究團隊 NovaSky 發佈了一款名為 Sky-T1-32B-Preview 的推理模型。該模型在多項關鍵基準測試中的表現可與 OpenAI 早期版本的 o1 模型相媲美。值得注意的是,Sky-T1-32B-Preview 似乎是首個真正意義上的開源推理模型,其訓練數據集和代碼均已公開,用戶可以從零開始複現該模型。

NovaSky 團隊在博客中透露,Sky-T1-32B-Preview 的訓練成本不到 450 美元(IT之家備註:當前約 3306 元人民幣),遠低於以往同類模型的數百萬美元。這一突破得益於合成訓練數據的廣泛應用,合成數據是由其他模型生成的數據,能夠顯著降低訓練成本。例如,AI 公司 Writer 最近發佈的 Palmyra X 004 模型幾乎完全依賴合成數據訓練,開發成本僅為 70 萬美元。
與大多數 AI 模型不同,推理模型具備自我事實核查能力,能夠有效避免一些常見錯誤。儘管推理模型在解決問題時通常比非推理模型需多花費幾秒到幾分鐘,但在物理、科學和數學等領域,其可靠性更高。
NovaSky 團隊表示,Sky-T1 的訓練數據由阿里巴巴的 QwQ-32B-Preview 推理模型生成,隨後經過精心篩選,並利用 OpenAI 的 GPT-4o-mini 對數據進行重構,使其更易於處理。訓練這款擁有 320 億參數的模型僅耗時約 19 小時,使用了 8 台 Nvidia H100 GPU。(參數數量大致對應模型的解決問題能力。)
在性能方面,Sky-T1 在 MATH500(一組「競賽級」數學挑戰)上的表現優於 o1 的早期預覽版本,同時在 LiveCodeBench 的編程評估中也表現更佳。然而,在 GPQA-Diamond 測試中(包含物理學、生物學和化學領域的研究生水平問題),Sky-T1 略遜於 o1 預覽版。
需要指出的是,OpenAI 已發佈的 o1 正式版比預覽版更強大,且預計未來幾週內將推出性能更優的推理模型 o3。儘管如此,NovaSky 團隊表示,Sky-T1 只是他們開發開源推理模型的起點。
團隊在博客中寫道:「未來,我們將專注於開發更具效率的模型,同時保持強大的推理性能,並探索先進技術以進一步提升模型在測試時的效率和準確性。請繼續關注我們在這些激動人心的項目上取得的進展。」
廣告聲明:文內含有的對外跳轉鏈接(包括不限於超鏈接、二維碼、口令等形式),用於傳遞更多信息,節省甄選時間,結果僅供參考,IT之家所有文章均包含本聲明。