OpenAI發佈最新論文:提及DeepSeek和Kimi發現了o1秘密
新浪科技訊 2月12日晚間消息,在中國AI公司的影響下,OpenAI 公開了O系列強化學習的秘密。今天(2月12日),OpenAI發佈了關於推理模型在競技編程中應用的研究論文報告《Competitive Programming with Large Reasoning Models》,文中放出了OpenAI三個推理模型:o1、o1-ioi、o3在IOI(國際信息學奧林匹克競賽)和CodeForces(全球知名在線編程競賽)中的成績。
論文顯示,在IOI 2024中,o3在嚴格規則下拿到395.64分,達成金牌成就,並且在CodeForces上的表現與人類精英選手相當。論文中特別提到,中國的DeepSeek-R1和Kimi k1.5通過獨立研究顯示,利用思維鏈學習(COT)方法,可顯著提升模型在數學解題與編程挑戰中的綜合表現。R1、k1.5是DeepSeek和Kimi在1月20日同時發佈的新型推理模型。
該論文通過強化學習(RL)訓練的大型語言模型在複雜編碼和推理任務上的性能提升,比較了通用推理模型與針對特定領域優化的系統在競技編程中的表現。研究結果表明,增加強化學習訓練計算和測試時計算可顯著提升模型性能,使其接近世界頂尖人類選手,這些模型將在科學、編碼、數學等領域的AI應用中解鎖新的應用體驗。(文猛)
