OpenAI突然推送高級語音模式,又搶了Google風頭

9月25日早,Google發佈兩款新模型Gemini-1.5-Pro-002和Gemini-1.5-Flash-002。

在Google的系列模型中,Gemini Pro屬於中號模型,付費用戶可以使用。而Gemini Flash則由Gemini Pro蒸餾而來,在今年5月的Google I/O上第一次亮相,目前用戶可以免費在Gemini中使用,開發者也有一定免費的API使用配額。

模型升級的重點主要為1.5 Pro價格降低>50%、1.5 Flash的速率限制提高了2倍,1.5 Pro的速率限制提高了約3倍、輸出速度提高2倍,延遲降低3倍;過濾器切換為選擇加入。

不過,似乎Google今天的宣傳節點再一次被OpenAI提前知曉。OpenAI同日宣佈,OpenAI的高級語音模式,將今日起開始對Plus和Team用戶推出。

5月,Google發佈Gemini模型的大更新前,OpenAI就曾提前搶開發佈會,宣佈很快會帶來高級語音模式,登上媒體頭條「個人助理Her就要來了嗎?」

接下來半年,高級語音模式的發佈一再推遲,直至今日Google更新模型,OpenAI立刻表示,本週內將推出語音模型。

除了之前已經劇透過的語音模式與人類在對話中的反應時間相近、會變換語調之外,還增加了個性化指令功能——可以直接指令模型說話說慢點,或者用一個特定的口音,同時可以記住你的名字和提前提供的信息給出更個性化的回覆。

X上有用戶不禁感歎,OpenAI已經養成了一個新愛好。等著Google發佈一個更新,幾個小時後馬上發佈一個更新。

Google Gemini Pro價格下降一半

從Gemini-1.5-Pro-002和Gemini-1.5-Flash-002的名字也可以看出,此次Google Gemini的更新,不是一個大版本的更新,更多的是一次整體模型的升級。

降低價格是一個重要的更新重點。

Gemini 1.5 Pro的輸入token價格降低64%,輸出token價格降低52%,增量緩存token價格降低64%,適用於小於128K token的提示語,自2024年10月1日起生效。再加上上下文緩存,這將繼續降低使用Gemini構建應用的成本。

此外,1.5 Flash的速率限制從1000 RPM提高到2000 RPM,1.5 Pro的速率限制從360 RPM提高到1000 RPM。在接下來的幾週內生效。

Google 1.5 Flash得到了2倍輸出速度和3倍更低延遲。

同時,Google表示,發佈的Gemini模型,預設不會有應用過濾器,開發者可以根據其用例自行決定最佳的配置。Gemini將繼續提供一系列安全過濾器,開發者可以根據需要為Google的模型應用這些過濾器。

Google還表示,此次模型在數學、長上下文窗口和視覺方面取得了一定的進步。

在更具挑戰性的MMLU-Pro基準測試中,看到大約7%的性能提升。而在數學和HiddenMath(一個內部保留的數學競賽問題集)基準測試中,兩個模型都取得了約20%的顯著進步。對於視覺和代碼使用場景,兩個模型在評估視覺理解和Python代碼生成的測試中表現也更好,提升範圍在約2—7%之間。

8月份發佈的Gemini-1.5-Flash-8B實驗模型也得到了新的更新。

Gemini模型本身的亮點包括長上下文和多模態功能。由於Gemini Flash對開發者有部分免費額度,新更新可能對於開發某些應用有著很好的效果。

X上的AshutoshSrivastava就表示,他使用Google Flash構建了一個應用,能夠在1分鐘內轉寫13分鐘的長音頻,且準確度很高(且免費)。在另一個應用中,他表示目標探測功能的表現也很不錯。

OpenAI高級語音功能今日起推出

轉頭看OpenAI這邊。

淩晨兩點,OpenAI宣佈高級語音模式今日起開始向訂閱用戶推出,周內會全量進行推送。

根據OpenAI的宣傳片,與標準語音模式進行區分(黑色旋轉球),高級語音將以藍色旋轉球表示,並增加5個新語音。

此次發佈的一個重要亮點是,OpenAI表示,高級語音模式可以提供個性化定義。

在影片中,OpenAI的研究員表示,用戶可以自定義指令,以讓模型以某種口音發音、記住事件以及用戶想要如何被稱呼等。

「你可以讓模型用特定的語速說話,也許是非常清晰地發音,慢慢地說話,用你的名字或你喜歡的稱呼來稱呼你。」研究員表示。

另一位研究員提供了一個例子,對模型輸入名字和所在城市,在向模型尋求週末的計劃時,模型會根據所在城市,進行更個性化的規劃。

高級語音對話目前僅適用於ChatGPT Plus和Team帳戶的用戶。免費用戶仍然可以訪問標準語音模式。

不過,Plus和Team用戶每天仍然有高級語音的使用限制,並且每日限制可能會發生變化。當一天的高級語音還剩15分鐘時,OpenAI會向用戶發出通知。

同時,使用高級語音模式無法使用GPTs,即用戶設計的OpenAI的智能體。

高級語音模式因為對語音反應時間更敏感,在某些嘈雜的場景下,也更容易被打斷。

最後,OpenAI還用高級語音模式搞了一個活,表示ChatGPT目前可以用五十多種語言表示「對不起,我遲到了,我不是故意讓你等這麼久的。」

一起來聽聽中文的效果。

一個很有趣的點是,此次Gemini的發佈,是由Google的Logan Kilpatrick主要負責對外溝通交流。

而Logan Kilpatrick,正是OpenAI前開發者關係負責人。2024年跳槽Google。

而轉頭,此次Google發佈新模型,OpenAI就卡點發佈高級語音模式。

OpenAI此次宣佈的時間點或許還有另外一個意義——此前外媒報導稱,Meta公司本週將在Meta AI中推知名人語調的音頻對話功能。

在矽谷,AI的戰爭還在熱火朝天的繼續。

本文來自微信公眾號:極客公園 (ID:geekpark),作者:Li Yuan