OpenAI 新貨詳解:強化微調

今日發佈

強化微調

顧名思義,微調的強化版

和微調不同

用於 o1期貨

讓大模型在專業領域發揮作用

我們會對它「微調」

比如給 GPT-4 灌輸特定知識

讓其成為:很懂籃球的 GPT-4

或者成為:很懂唱跳的 GPT-4

但,這是給常規模型的

o1 不是常規模型

更偏向於 Agent

不會直接輸出結果

而是先進行推理

再對推理進行總結

這時

普通微調就不行了

強化微調

Reinforcement Fine-Tuning

RFT

效果

經過微調的 o1 mini

在領域任務上

比原始版的 o1 滿血

更有效(並且便宜很多)

評價

期貨,25年發佈

申請早用

https://openai.com/form/rft-research-program/

然後你會收到

相關名詞

微調

找一個看著不錯的模型

比如 GPT-4

通過特定接口

給它一些專業數據

格式類似

問:"你擅長唱、跳、Rap 還有什麼"答:"籃球"

之後再問

就可以獲得不錯效果

問:"唱首歌吧"答:"〜( ̄▽ ̄〜)  雞你太美~"

這種做法

叫做 微調

圖釋如下

蒸餾

如果你懶得寫問答

也可以讓 AI 幫你寫

找一個很貴,但很強的模型

叫「愛我giegie」

幫你生成很多問答

比如

問:"練習時長多久了?"答:"兩年半"
問:"為什麼打籃球?"答:"只因太美"...

拿這些數據

訓練一個不那麼聰明的模型

它也能成功出道

這種方法,叫做 蒸餾

圖示如下

以及…

仔細看圖

聲音相關(尚未發佈)

來自Google

今天是 Gemini 週年慶

Gemini-exp-1206 發佈

戰回榜首