OpenAI 淩晨發佈:Realtime 實時多模態 API,及其他

中國時間淩晨 1 點多,OpenAI 召開了本年的開發者大會(舊金山場)。順道說一下,今年開發者大會一共 3 場:10月1號舊金山;10月30號倫敦,以及11月21日新加坡

本次的發佈,大體是常規更新,包括:

  • 【新東西】Realtime API

    • 可以理解為就是 GPT-4o 帶 advanced voice 的那套,支持 API 了

    • 可以在 playground 里先玩玩

    • 價格很貴很貴,音頻的話:

      • 輸入價格:100刀 每百萬 token

      • 輸出價格:200刀 每百萬 token

  • 視覺模型微調

    • 對於支持圖像的模型,比如 4o 或者 4o-mini,現在可以用圖片進行微調了

    • 利好工業/醫療等場景

    • 看了下文檔,方法挺友好的,價格也會貴一些:以 4o-0806 為例子,微調價格為 25 刀/百萬 token;之後調用是 $3.75 輸入,$15 輸出

  • 緩存摺扣

    • 如果命中緩存,5折,目前支持:gpt-4o,gpt-4o-mini,o1-preview 和 o1-mini 這四個模型

    • 具體可以看這裏:https://platform.openai.com/docs/guides/prompt-caching

  • 其他發佈

    • 模型層面,帶來了蒸餾服務:這確實是獨一份的,用來生產高質量語料。不過這東西,對普通開發者,應該用處不大

    • 調試方面,迭代了很多 playground 中的工具鏈和交互方式,比如 system prompt 的自動優化

    • 在 api 層面,支持了如 zod,pydantic 這樣的工具,方便更好的結構化輸出(疑惑:之前不就支持了?我一直在用啊)

    • 其他…

重點說說

Realtime API

這個東西,可以理解為是 4o 搭配了 advanced voice 的背後 api。

在以往,常規的帶語音的 AI 模型,在處理對話的時候,是遵循以下步驟:

  • 將語音轉換成文字(比如使用 whisper 模型)

  • 將文字傳輸給大模型,並獲得文字返回

  • 用 tts 工具,將文字讀出來

在很多情況下,這麼做是沒問題的,但總會覺得彆扭,比如我給大模型說

  • wò caò

  • wò caǒ

  • wǒ caò

  • wǒ caǒ

很顯然,這幾個意思是不一樣的。如果我通過「語音 – 文字 – 語音」的方法,並不能準確識別,還可能被認為我手裡拿了個草「握草」。但如果是語音 endend 的做法,則可以準確識別。

同時,也可以發現,這裏還有一個可行的項目方向:用語音 end – end 的方式,進行語言訓練,比如矯正口音

另需要注意的是,這個模型…很貴。讓他說一分鐘的話,需要人民幣大概 1.7 元:

這個模型的調用方法,和 gpt 系列不太一樣,也不用 openai sdk。具體不展開了,有興趣的可以看這:

https://platform.openai.com/docs/guides/realtime

官方還配了個例子(我是第4個點讚的,ahhhhh):

https://github.com/openai/openai-realtime-api-beta

另一個(console):https://github.com/openai/openai-realtime-console

最後再「抽水」下…截止到成稿的時候,這個 api 都沒有真實上線

再來談談

視覺模型微調

這個是有用的,尤其是在工業領域,比如:

  • 醫療領域:拿 CT 影像數據來微調,獲得一個看片 bot

  • 安防領域:代替部分的傳統 CV 方案,判定實時風險

  • 工業領域:讓 AI 通過一定量的樣本學習,在流水線或者類似場景中,自動檢出殘次品/報警

微調的方法極其簡單,和聊天發圖片差不多。支持 url 或者 base64 傳遞圖片,看這就行了:https://platform.openai.com/docs/guides/fine-tuning/vision

這裏有些限制,兩個方面:

  • 技術限制:最多 5 萬組訓練數據,每組最多 10 張圖,每張圖最大 10 M

  • 合規限制:不允許用人像、人臉以及驗證碼(CAPTCHAs),以及其他可能違規的數據進行訓練

眾所周知,微調貴一截,這裏是價目表:

以及,這裏還有一個限時活動:

  • GPT-4o:每天前 1M 的微調免費,後續 $25.00/1M tokens.

  • GPT-4o-mini:每天前 2M 的微調免費,後續 $3.00/1M tokens.

至於…

緩存摺扣

說白了,就之前(幾分鐘~1小時)內問過的問題,再問一遍類似的,重覆部分半價。不過,優惠力度不夠大,畢竟 Gemini 是輸入 2 折;DeepSeek 是輸入 1折:DeepSeek API 創新採用硬盤緩存,價格再降一個數量級

至於原理和步驟,大概是這樣:

  • 啟用緩存:如果 prompt 長度超過 1024 tokens,系統會自動啟用緩存,並檢查 prompt 前部分是否已存儲在緩存中

  • 如命中:如找到匹配,則會使用緩存的結果,以降低延遲並減少成本

  • 未命中:如沒找到,系統會正常處理,然後緩存當前請求,以便將來使用。

需注意:

  • 緩存啟用:無需主動聲明,自動啟用

  • 緩存時間:通常是 5~10 分鐘,高峰時段可能是 1 小時(不可控)

  • 緩存管理:同一組織下,緩存共享,且無法主動清理

  • 內容生成:緩存不會影響 API 生成的最終響應,每次生成是獨立的

  • 折扣互斥:Batch API 不享受緩存摺扣

其他

今場發佈會的主要更新,還是傳統開發者 – 拿著 API 或者模型整活的。

Realtime API 等馬上(可能就是1天內)上線後,可以多試試,找找感覺,應該有不少場景。

另外的,11 月 21 號的新加坡場作為 OpenAI 的本年度最後一場活動,應該會有一些新東西。到時候我也會去現場,帶來第一手的實時報導