OpenAI 實時 API 震撼發佈:語音應用的「ChatGPT」時刻來臨!

作者 | Eric Harrington

香港時間 10 月 2 日淩晨,OpenAI 在他們的第二次 DevDay(開發者日)上失了一顆重磅炸彈:實時 API(Realtime API),使開發者能夠使用先進的語音到語音模型進行開發。目前這項技術面向所有付費開發者開放了公共測試版,能夠幫助開發者創建低延遲、多模態的應用體驗,這些體驗幾乎可以媲美真人之間的交流。

當前 OpenAI 還沒上傳本次 DevDay 的錄播,但根據一些博主的總結,本次 Sam Altman 的對話應該也是比較有料的,比如畫餅「AGI 很快就會到來」,或是談及 ChatGPT 的高級語音模式等等,我們會在明天再發佈一篇關於這場對話的全程翻譯。

回到正題,實時 API 的音頻功能由全新的 GPT-4o 模型 gpt-4o-realtime-preview 提供支持,且將在未來幾週內集成到 Chat Completions API 中,作為一個新的模型 gpt-4o-audio-preview。通過 gpt-4o-audio-preview,開發者可以輸入文本或音頻到 GPT-4o,並接收文本、音頻或兩者結合的回應。

不過也有很多人「抽水」,「通往新時代的價格太貴了」。實時 API 和前段時間發佈的 o1 模型一樣,把不同的 Token 進行了「分類定價」,比如 o1 發佈時就創造了一個「推理 Token」的概念,而現在實時 API 則使用文本 Token音頻 Token文本輸入 Token 的價格為每 100 萬 Token / 5 美元,輸出 Token 的價格為每 100 萬 Token / 20 美元。音頻輸入的價格為每 100 萬 Token / 100 美元,輸出價格為每 100 萬 Token / 200 美元。這相當於大約每分鐘音頻輸入 0.06 美元和每分鐘音頻輸出 0.24 美元。未來 Chat Completions API 中的音頻功能也將採用相同的定價。

實時 API 這項技術的核心在於其支持自然語音對話的功能,這一點與 ChatGPT 最近終於開放的高級語音模式相仿。實時 API 提供了六種預設的聲音選項,讓開發者可以根據不同的應用場景和用戶喜好來定製自己的應用。這一進步意味著,從前需要組合多種模型才能勉強實現的自然對話,現在只需一種工具即可輕鬆搞掂。

過去的語音助手體驗充滿了各種挑戰。開發者不得不面對一系列複雜的過程,比如使用 OpenAI Whisper 這樣的自動語音識別模型來轉錄音頻,接著將轉換後的文本傳遞給文本模型進行推理或理解,最後再通過文本到語音模型生成語音回覆。這種方法不僅容易失去對話中的細微差別,比如情緒、重音和口音,而且多步驟的處理也造成了顯著的延遲,使得用戶輸入與 AI 響應之間存在明顯的時間差,破壞了對話的自然感。

而實時 API 則以一種「優雅」的方式解決了這些問題。通過與 GPT-4o 建立持久的 WebSocket 連接,實時 API 實現了無縫的通信流,可以實時處理打斷和調整,就像兩個人在面對面交談一樣。

官方給出了兩個合作案例,首先是 Healthify,這是一款營養和健身指導應用程序,它使用實時 API 實現與其 AI 教練 Ria 的自然對話,同時在需要個性化支持時讓人類營養師參與進來:

Healthify 的老闆感歎道,以前需要一週才能搞掂的配置工作現在只需要三天。

然後還有 Speak,這是一款語言學習應用程序,它使用實時 API 來支持角色扮演功能,鼓勵用戶用新語言練習對話:

隨著技術的進步,實時 API 還會在越來越多的應用中發揮作用。從提供更具同理心和響應能力的虛擬治療師,到能夠管理複雜任務的類人理解能力的個人助手,這些應用的可能性僅受限於開發者的想像力。API 還有望在語言學和認知科學等領域發揮重要作用,為人類與 AI 通信的本質提供新的見解。

實時 API 的另一大亮點就是它支持函數調用。這意味著語音助手不僅能理解用戶的指令,還能實際執行操作,或是即時獲取相關信息來個性化其回應。這種功能打破了對話式 AI 與實用性的界限,讓 AI 助手在處理日常任務時變得更加有價值。通過隱藏多個模型集成的複雜性,OpenAI 也是試圖變革過往的 AI 應用開發方式,讓曾經因技術壁壘而止步不前的開發者也能大展身手。

OpenAI 表示會在未來的更新擴展 API 的功能,包括視覺和影片等額外模態的支持,進一步模糊數字與現實世界的界限。增加的速率限制將允許更大規模的部署,而將其整合進官方的 Python 和 Node.js SDK 則會讓不同平台的開發者更容易使用。此外還有一個即將推出的賽前分析功能:提示詞緩存。這將使開發者能夠以較低成本重新處理之前的對話輪次,從而降低成本並提高 AI 互動的效率。

當然,任何革命性技術都有其需要關注的地方。和以前一樣,OpenAI 承諾會在實時 API 的安全性和隱私性方面給予高度重視,通過多層次的保護措施來防止 API 濫用的風險。這包括對模型輸入和輸出的自動化監控以及人工審查,並利用為 ChatGPT 高級語音模式構建的音頻安全基礎設施。如此先進的 AI 通信能力所帶來的倫理考量也不容忽視。隨著 AI 系統越來越擅長模擬人類對話,透明度、知情同意以及潛在的誤用問題都需要認真對待。 

不過,OpenAI 的這幾輪內部變動下來,「安全」已經成為了 Sam Altman 和幾位離職員工最大的分歧點之一……最早是數位員工因此離開 OpenAI 創立 Anthropic,從此 Claude 成為了「正經 AI」的代名詞;再到後來 Ilya 和超級對齊團隊的離去,導致 X 上從此多了「what did Ilya see」這個梗;現在連 Sam Altman 的得力助手、前首席技術官 Mira Murati 也要轉頭而走,不得不讓人對 OpenAI 後續的安全問題打個問號。

總之,OpenAI 在安全和隱私方面的努力是一個好的開始,但隨著技術的普及,或許還需要製定行業標準和規定來確保其負責任地使用。 

此外,這種自然的人工智能通信的興起可能會對社會產生深遠影響。儘管它可以消除語言障礙,提高殘疾人使用的便捷性,但同時也引發了關於依賴人類溝通技能行業的就業替代問題。隨著技術的發展,我們需要在享受其帶來的激動人心的可能性的同時,也要慎重考慮其更廣泛的社會影響。

隨著人工智能領域的飛速發展,實時 API 的推出標誌著我們在創造更自然、響應迅速且實用性強的 AI 應用方面邁出了重要一步。通過填補人類對話與 AI 能力之間的鴻溝,OpenAI 不僅在改進現有的技術,更是在為全新的應用和體驗開闢道路。未來的人工智能互動已初具雛形,它將以前所未有的流暢度進行說話、傾聽和回應。隨著開發者不斷挖掘實時 API 的潛力,我們可以期待新一代由 AI 驅動的應用程序將徹底改變我們的工作、學習和溝通方式。人類與 AI 之間的對話即將變得更加自然、細膩和強大。

大模型刷新一切,讓我們有著諸多的迷茫,AI 這股熱潮究竟會推著我們走向何方?面對時不時一夜變天,焦慮感油然而生,開發者怎麼能夠更快、更系統地擁抱大模型?《新程序員 007》以「大模型時代,開發者的成長指南」為核心,希望撥開層層迷霧,讓開發者定下心地看到及擁抱未來。

讀過本書的開發者這樣感慨道:「讓我驚喜的是,中國還有這種高質量、貼近開發者的雜誌,我感到非常激動。最吸引我的是裡面有很多人對 AI 的看法和經驗和一些採訪的內容,這些內容既真實又有價值。」