OpenAI 新貨詳解:強化微調
今日發佈
強化微調
顧名思義,微調的強化版
和微調不同
用於 o1期貨
讓大模型在專業領域發揮作用
我們會對它「微調」
比如給 GPT-4 灌輸特定知識
讓其成為:很懂籃球的 GPT-4
或者成為:很懂唱跳的 GPT-4
但,這是給常規模型的
o1 不是常規模型
更偏向於 Agent
不會直接輸出結果
而是先進行推理
再對推理進行總結
這時
普通微調就不行了
得強化微調
Reinforcement Fine-Tuning
RFT
效果
經過微調的 o1 mini
在領域任務上
比原始版的 o1 滿血
更有效(並且便宜很多)
評價
期貨,25年發佈
申請早用
https://openai.com/form/rft-research-program/
然後你會收到
相關名詞
微調
找一個看著不錯的模型
比如 GPT-4
通過特定接口
給它一些專業數據
格式類似
問:"你擅長唱、跳、Rap 還有什麼"
答:"籃球"
之後再問
就可以獲得不錯效果
問:"唱首歌吧"
答:"〜( ̄▽ ̄〜) 雞你太美~"
這種做法
叫做 微調
圖釋如下
蒸餾
如果你懶得寫問答
也可以讓 AI 幫你寫
找一個很貴,但很強的模型
叫「愛我giegie」
幫你生成很多問答
比如
問:"練習時長多久了?"
答:"兩年半"
問:"為什麼打籃球?"
答:"只因太美"
...
拿這些數據
訓練一個不那麼聰明的模型
它也能成功出道
這種方法,叫做 蒸餾
圖示如下
以及…
仔細看圖
聲音相關(尚未發佈)
來自Google
今天是 Gemini 週年慶
Gemini-exp-1206 發佈
戰回榜首