OpenAI狂打「骨折價」的一天:暴降成本開放全新o1,實時 API 全面降價 60%

這幾日,OpenAI和Google儼然似打擂台般。就在昨天,ChatGPT搜索功能再次大升級,向全球所有用戶免費開放,有網民甚至直言「Google正式倒閉」。再往前一日,Google又放出最新版影片生成模型VEO2,實測效果被許多人認為已「超越Sora」。

今天,OpenAI則專門為開發人員推出了功能更強大的模型、新的定製工具以及可提高性能、靈活性和成本效益的升級,包括:

  • API 中的 OpenAI o1,支持函數調用、開發人員消息、結構化輸出和視覺功能。
  • 實時 API 更新,包括簡單的 WebRTC 集成、GPT-4o 音頻降價 60% 以及以以前音頻速率的十分之一支持 GPT-4o mini。
  • 偏好微調,這是一種新的模型定製技術,可根據用戶和開發人員的偏好更輕鬆地定製模型。
  • 新的 Go 和 Java SDK在 Beta 版中可用。

「對於開發者來說,這是迄今為止最有用的一天。」有網民表示。

API用戶可以完全訪問o1

從今天開始,o1 將在API的第5使用層向開發人員推出。o1 是OpenAI 的推理模型,旨在以更高的準確性處理複雜的多步驟任務,已經有開發人員在使用 o1-preview構建代理應用程序,以簡化客戶支持、優化供應鏈決策和預測複雜的金融趨勢。

作為o1-preview的後續版本,o1 具備了更多生產就緒的關鍵功能,可支持現實世界中的使用案例。其中包括,函數調用可將 o1 無縫連接到外部數據和 API;結構化輸出能夠生成可靠遵守自定義 JSON 架構的響應;開發人員消息即指定模型要遵循的說明或上下文,如定義語氣、樣式和其他行為指導;視覺功能指可以對圖像進行推理,以解鎖視覺輸入很重要的科學、製造或編碼中的更多應用。

對於給定請求,o1 比 o1-preview 平均少用 60% 的推理tokens 。並且,新增的 API 參數「reasoning_effort 」允許用戶控制模型在回答問題前的思考時間。

據介紹,OpenAI剛發佈的 o1 是兩週前在 ChatGPT 中發佈模型的新後訓練版本,在幾項基準測試中均取得了最新成果,並提高了成本效益和性能。此外,OpenAI觀察到, 其在函數調用和結構化輸出測試中明顯優於 o1-preview。

需要注意的是,開發人員要想訪問第 5 使用層的o1,必須在 OpenAI 上花費至少 1000 美元,並且擁有自首次成功付款以來超過 30 天的帳戶。

降價實時API並發佈一系列更新

兩個月前,OpenAI 發佈了實時 API (Realtime API)的公開測試版,使開發者能夠使用先進的語音到語音模型進行開發。據介紹,實時 API是語音助手、實時翻譯工具、虛擬導師、交互式客戶支持系統的理想選擇。

但當時有很多用戶對其「抽水」,「通往新時代的價格太貴了」。今天,OpenAI 宣佈降低實時 API的定價。

據介紹,由於提高了效率,實時 API的音頻token 價格降低了 60%,為 40 美元/100 萬個輸入token和 80 美元/100 萬個輸出token。緩存音頻輸入成本降低了 87.5%,降至 2.50 美元/100 萬輸入token。

OpenAI 還將 GPT-4o mini 帶入實時 API 測試版,GPT-4o mini 音頻價格為 10 美元/100 萬個輸入token,20 美元/100 萬個輸出token;文本價格為 0.60 美元/100 萬個輸入token和 2.40 美元/100 萬個輸出token;緩存音頻和文本的價格均為 0.30 美元/100 萬個 token。

並且,OpenAI 對實時 API進行了多項更新,包括直接 WebRTC 集成以及更好地控制響應。

首先,OpenAI 將為實時 API 引入 WebRTC支持。WebRTC 是一種開放標準,可以更輕鬆地跨平台構建和擴展實時語音產品,無論是基於瀏覽器的應用程序、移動客戶端、IoT 設備還是服務器到服務器的直接設置。在 12 月初,OpenAI 聘請了 WebRTC 的創建者 Justin Uberti。

據介紹,WebRTC 集成專為在現實條件下實現流暢、靈敏的交互而設計,即使在網絡質量不穩定的情況下也是如此,可以處理音頻編碼、流媒體、噪聲抑制和擁塞控制。有了 WebRTC,現在只需幾行 Javascript 就能添加實時功能。

此外,OpenAI 將向實時 API 提供以下功能,以便更輕鬆地提供卓越的語音驅動體驗:

  • 並髮帶外響應,可在不中斷用戶語音交互的情況下運行內容審核或分類等後台任務。
  • 自定義輸入上下文,用於指定將哪些對話項目作為模型輸入。例如,只對用戶的最後一句話進行審核檢查,或在不永久改變會話狀態的情況下重新使用過去的回覆。
  • 受控的響應時間,可在不自動觸發響應的情況下使用服務器端語音活動檢測(VAD)。例如,在手動啟動語音回覆之前,收集必要的數據(如賬戶詳細信息)並將其添加到模型的上下文中,從而對時間和準確性進行更多控制。
  • 增加最大會話時長,從 15 分鐘增加到 30 分鐘。

新的模型定製技術

今天,OpenAI還向有興趣微調 AI 模型的開發人員推出一種稱為「偏好微調」的新方法,以便根據用戶和開發人員的偏好輕鬆定製模型。並且,方法將以與監督微調相同的價格提供,明年初還將支持OpenAI的最新模型。

這種方法使用直接偏好優化(DPO) 來比較成對的模型響應,讓模型學會區分首選和非首選輸出。通過成對比較而不是固定目標進行學習,偏好微調對語氣、風格和創造性都很重要的主觀任務尤為有效。

經過OpenAI的測試,到目前為止已經看到偏好微調方法取得的可喜效果。據悉,Rogo AI正在為金融分析師打造一款人工智能助手,可將複雜查詢分解為子查詢。他們使用專家構建的基準Rogo-Golden發現,雖然監督微調面臨著分佈外查詢擴展的挑戰,例如在查詢 「X公司的增長速度有多快 」時缺少ARR等指標,但偏好微調解決了這些問題,將基本模型的準確率從75%提高到80%以上。

最後,除了現有的 Python、Node.js 和 .NET 官方庫(在新窗口中打開)之外,OpenAI 還將在測試版中推出 Go(在新窗口中打開)和 Java(在新窗口中打開)兩個新的官方 SDK。「我們的目標是讓 OpenAI API 易於使用,無論用戶選擇哪種編程語言。」

參考鏈接:

https://openai.com/index/o1-and-new-tools-for-developers/

本文來自微信公眾號「AI前線」,作者:華衛 ,36氪經授權發佈。