OpenAI聖誕第9天:滿血o1 API放出,開發者大狂歡,實時API升級音頻token暴降60%

聖誕日第九天,OpenAI向第三方開發者開放了最強模型o1。

API中的o1,可支持函數調用、開發者消息、結構化輸出和視覺功能。

同時,在開發語音類App的API中,集成了更先進的GPT-4o版本,成本直降60%!

另外,用戶和開發者可根據自己的偏好,用「偏好微調」輕鬆定製模型了。

Day 9,是名副其實的「對開發者最有用的一天」。

與此同時,團隊還進行了了一場在線AMA,解答了開發者的諸多問題。

Day 9,給開發者的新功能

今天,OpenAI將正式在API中推出o1滿血版。

自從9月推出o1-preview之後,開發者們已經在API上構建出了大量很酷的應用程序,比如智能體、客戶支持、財務分析等,同時它的編程技能也很出色。

但開發者們反饋說,API中缺乏了一些核心功能,因此,OpenAI今天會一併推出這些新功能。

此外,還有一些小更新,比如推理強度參數。這是一個新的參數,告訴模型去花多少時間思考。

在解決簡單問題時,這個參數可以節省許多時間和成本,在需要更多算力的複雜問題上,就可以花費更多資源。

開發者消息,視覺輸入功能,函數調用功能

開發者消息功能,是系統消息的一種新形式,實際上是OpenAI指令層次結構工作的一部分。

它會用來教模型,按照什麼順序遵循哪種指令。因此,開發者可以完全控制開發者消息來引導模型。

此外,OpenAI還在API中推出了視覺輸入功能。

很多用戶強烈呼籲這個功能上線,可以想見,它在製造業、科學等領域,會提供非常大的幫助。

在demo中,研究者給了模型一份表格的照片掃瞄件,有若干張。

注意,研究者填寫的時候,故意填錯了一些數據。o1是否能檢測出這些錯誤呢?

在開發者消息中,研究者要求模型找出錯誤。如果要正確找出,必須其他幾張照片的掃瞄。

果然,模型注意到了某一行的算術錯誤,還注意到標準扣除額不準確這種非常細節的問題。

改正錯誤後,研究者提問道:如果我的應稅收入是這個,我要繳納多少所得稅?

可以看到,o1在右側提供了一組函數。

比如其中一個函數,就是以JSON架構呈現

這些操作都在應用程序後端完成,用戶看不到任何函數調用或來自API的響應。

此外,研究者還定義了一個JSON架構,來規範響應的格式。

在上面這個「表單修正」架構中,包含了一組修正,每個修正都包含錯誤原因等內容,這樣就可以向用戶展示哪裡出錯了。

甚至還能為PDF渲染一個用戶界面,高亮出出錯的地方。在我們不想從模型中渲染Markdown時,結構化輸出特別有用,它讓我們可以直接自動提取JSON。

最終,模型正確輸出了修正結果。

API使用場景評估

針對API用例,OpenAI研究者進行了一些評估。

首先,在函數調用功能上,新的o1模型在函數調用能力上顯著優於GPT-4。

這包含了兩個關鍵部分——在需要時調用正確的函數,以及在不需要時避免調用函數。

另外,我們還可以將函數調用與結構化輸出結合。

可以看到,o1比起GPT-4,同樣表現出色。

在結構化輸出中,o1在評估中也顯著優於其他模型。

這意味著,模型在指令遵循上的表示更佳,在給出特定條件約束時,偏離預期的可能性也更低。

在編碼方面,o1在Livebench評估中,要遠遠優於o1-preview和GPT-4o,這是一個巨大的進步。

而在AIME評估中,o1再次顯著優於o1-preview。

有趣的是,最右側是帶有結構化輸出的o1。

在構建結構化輸出時,研究者希望確保模型在使用此功能和未使用時表現同樣出色。

可以看到,即使啟動了此功能,模型的推理能力依舊保持。因此我們可以放心在應用程序中使用,不必擔心結果的準確性。

另外,模型在延遲上的變化也很有趣。

o1使用的推理Token,比o1-preview少了60%,因此對應用程序來說,它的運行速度更快、成本更低。

最後,研究者強調,抱歉暫時不會在API中推出o1 Pro,雖然此類請求非常多。

從今天起,函數調用、編碼、結構化輸出、開發者消息和圖像理解,就會向第五級用戶開放了。幾週時間內,將覆蓋到所有用戶。

實時API,Her可以自己構建了

Realtime API(實時API)在今年10月初,正式放出了公測版。

在OpenAI倫敦開發者日上,所有人或許早已對其強大的實時語音能力有所瞭解。現場,開發者體驗主管Romain Huet秀如何通過實時API訂購派。

想像一下,你可以直接通過這個API構建ChatGPT高級語音模式了!不論是訂餐AI助手,還是旅遊AI助手等等,有了它就可以實現許多非常酷炫的功能。

它能夠支持網絡傳輸協議WebSocket,因此,你可以通過服務器進行通信,發語音並接受響應。

而在今天,OpenAI正式宣佈實時API將支持WebRTC——專為互聯網而生。

我們常見的影片會議,或者低延遲的影片流傳輸,都採用了WebRTC。它能夠實時處理互聯網不斷的變化,比如動態調整比特率、進行回聲消除。

現在,實時API也能共享這些優勢了。假設你要構建一個應用程序,能省去不少功夫,可以直接運行。

接下來,OpenAI研究人員展示了一個demo,如下是HTML代碼,包含了一個音頻元素,一個對等連接(peer connection),它代表著你和實時API之間的一對一連接。

演示的重點,就是創建這個對等連接。當實時API向你發送音頻時,把它放入到音頻元素中。

緊接著,就是捕獲馬克風輸入的聲音,並將其添加到對等連接中。首先,傳輸一個音頻流到OpenAI,然後在設置好對等鏈接後,執行一個offer/answer操作。

offer/answer的作用是收集本地的所有信息。開發者通過H湯臣P POST發送這些信息,然後模型會作出響應。

然後,WebRTC 會為你處理所有細節,就不需要再去操心擁塞控制、音頻捕捉等等。

那麼,這個與之前WebSocket集成,有什麼區別?

前者代碼行數會大大拉長,達到200到250行,而且,在此基礎上還會遇到其他的問題,比如處理反壓(back pressure)等等。

接下來,運行一行代碼,來看看它實際的樣子。

音頻元素——「聖誕節還有多少天?聖誕節是12月25日,而今天是12月17日。這意味著離聖誕節還有8天」。

賸餘所做的,就是將其代碼複製黏貼12行代碼,執行腳本,就完成了。

這裏,你唯一需要修改的就是 API Token,然後你就可以下載這段代碼並運行。

OpenAI官方已經放出了所有代碼,大家都可以隨時構建。

令人驚喜的是,研究員請出了一位小夥伴——小鹿,它裡面有一個微型控製器,大小如同一枚硬幣。

插上電源之後,小鹿突然間活了,「聖誕快樂!你們在談論什麼」?

‍研究人員回覆道,「我們正在討論如何將WebRTC集成到實時API中」。

小鹿表示,「這聽起來對我來說有點複雜。我們能不能聊點更有趣的事情,比如送禮物」?

接下來,研究人員和小鹿完成一輪精彩對話,完全展現了實時API的強大應用,而這隻是所有用例的冰山一角。

這樣,你就可以將其配置在任何可以穿戴的設備上,比如眼鏡、攝像頭、馬克風等等。而且,全程也只需30-45分鐘。

此外,OpenAI還對實時API做了其他的更新。

從現在開始,GPT-4o音頻Token將比以前便宜 60%,並在API中提供了對4o-mini的支持,其音頻音頻Token成本降低到當前價格的1/10。

其次,他們還為實時API推出了對Python SDK 的支持,使集成更加簡單。

最後,還有一些API改進,讓開發者更容易使用函數編碼和安全防護機制。

偏好微調和定製化

關於微調和定製化,是開發者非常重要的一項功能,能夠針對使用場景去定製模型。

直播現場,OpenAI官宣了全新的微調方法——偏好微調(preference fine-tuning)。通過使用直接偏好優化(DPO)能幫助開發者創建更符合用戶偏好的模型。

具體來說,它是在比較不同回答中定製模型,而非使用固定的目標。

過去幾個月,OpenAI火力全開,但微調API已經發佈有一年的時間了,這次究竟有什麼不同?

目前,在API中,他們推出了監督微調、以及前幾天新推出的強化微調(RFT)。

在監督微調中,開發者需要提供模型需要的精確輸入和輸出,比如創建一個聊天機器人,就需要提供用戶的消息以及精確的回覆。

而在偏好微調中,有所不同。

你不需要提供精確的輸入和輸出,僅需要提供一對一響應,其中一個回應偏好度比另一個更強。

然後,微調過程便會優化模型,讓其學會區分這些響應之間的差異。

這些差異可能包括響應格式、風格指南,甚至是一些抽像的特質,比如有用性或創造力。

那麼,這種方法有什麼樣的特定用例場景?

客戶支持、內容創作、創意寫作等等,尤其是,適用於那些需要考慮語氣、風格和創造力的主觀任務。

如果在此過程中,開發者認為模型結果過於冗長,或者給出答案並不相關,就可以通過強化偏好的行為,並弱化不偏好的行為,來引導它生成更簡潔、更相關的響應。

另一個非常好的使用場景可能是,內容審核或內容管理。

接下來,研究人員演示了如何通過API實現簡單微調,先進入微調頁面,點擊「創建微調」選項,會看到一個新方法的下拉菜單。

選擇「直接偏好優化」方法,然後在選擇基礎模型——GPT-4o。最後,需要做的就是上傳數據。

假設需要做一個聊天機器人,讓其更具對話性。這下面這個示例這種,是向助手詢問紐約市天氣的兩組響應。

在首選的響應中,回覆更加詳細,使用的是華氏度。而在不理想的響應中,回覆更為簡潔,使用了攝氏度。

然後,將這些示例放入JSONL文件中,每個示例都包含了輸入消息、偏好/非偏好的輸出。

數據上傳之後,再提供一些超參數(選擇預設值),然後點擊「創建」。

這樣,微調過程就啟動了。根據數據集的大小,這一過程可能需要幾分鐘到幾小時不等。

一旦完成之後,我們能夠像在API中任何基礎模型一樣,從新模型中采樣。

目前,OpenAI已經向合作夥伴提供了偏好微調的早期訪問權限,並收到了不錯的反饋。

舉個栗子,Rogo AI開發了一個面向金融分析師的AI助手,通過使用OpenAI模型重寫、重構用戶查詢,以生成更相關的答案。

在使用監督微調時,他們未能使模型表現超越基礎模型。但通過偏好微調,他們在內部基準測試中的準確率從基礎模型的75%提升超80%。

鑒於GPT4o偏好微調所取得的成果,OpenAI預計很快將為GPT4o mini提供相同功能。同時,其訓練Token的定價將與監督微調相同。

總言之,今天的OpenAI發佈,對於開發者來說,是一個大禮包。

滿血版o1引入API,具備了完整的生產功能集,而且函數編碼功能,從今天起逐步推廣到Tier 5。

另外,實時API能夠支持WebRTC集成,以及token價格下降,以及偏好微調讓場景定製模型更加容易。

而這些還不是全部,OpenAI今天還在一直持續推出新功能。

首先,在提升開發者體驗和產品質量方面,OpenAI發佈了新的SDK,新增對Go和Java SDK的支持。與Python SDK和Node SDK類似,它們支持OpenAI上所有你需要的API端點。

其次,在簡化流程上,他們也推出了一個全新的登錄、註冊、獲取API密鑰的流程。現在,不需要簽署5份服務條款協議,開發者即可在幾秒鍾內獲取API密鑰。

最後還有一個小彩蛋,過去幾個月,OpenAI在世界各地舉辦了大大小小開發者日。

如今,他們將這些現場影片全部公開了,只需進入OpenAI官方YouTube頁面即可查看。

信息量有點大,接下來可以慢慢消化了。

參考資料:

https://community.openai.com/t/ama-on-the-17th-of-december-with-openais-api-team-post-your-questions-here/1057527/198

https://community.openai.com/t/all-the-questions-addressed-by-the-api-team-during-the-december-17-2024-ama/1059780

OpenAI opens up its most powerful model, o1, to third-party developers

https://openai.com/12-days/?day=9

本文來自微信公眾號「新智元」,作者:新智元,編輯:編輯部 HYZ,36氪經授權發佈。