OpenAI 突然推送推送高級語音模式「Her」,又搶了Google風頭

9 月 25 日早,Google 發佈兩款新模型 Gemini-1.5-Pro-002 和 Gemini-1.5-Flash-002。

在Google的系列模型中,Gemini Pro 屬於中號模型,付費用戶可以使用。而 Gemini Flash 則由 Gemini Pro 蒸餾而來,在今年 5 月的 Google I/O 上第一次亮相,目前用戶可以免費在 Gemini 中使用,開發者也有一定免費的 api 使用配額。

模型升級的重點主要為 1.5 Pro 價格降低 >50%、1.5 Flash 的速率限制提高了 2 倍,1.5 Pro 的速率限制提高了約 3 倍、輸出速度提高 2 倍,延遲降低 3 倍;過濾器切換為選擇加入。

不過,似乎 Google 今天的宣傳節點再一次被 OpenAI 提前知曉。OpenAI 同日宣佈,OpenAI 的高級語音模式,將今日起開始對 Plus 和 Team 用戶推出。

5 月,Google 發佈 Gemini 模型的大更新前,OpenAI 就曾提前搶開發佈會,宣佈很快會帶來高級語音模式,登上媒體頭條「個人助理 Her 就要來了嗎?」

接下來半年,高級語音模式的發佈一再推遲,直至今日 Google 更新模型,OpenAI 立刻表示,本週內將推出語音模型。

除了之前已經劇透過的語音模式與人類在對話中的反應時間相近,會變換語調之外,還增加了個性化指令功能——可以直接指令模型說話說慢點,或者用一個特定的口音,同時可以記住你的名字和提前提供的信息給出更個性化的回覆。

X 上有用戶不禁感歎,OpenAI 已經養成了一個新愛好。等著 Google 發佈一個更新,幾個小時後馬上發佈一個更新。

01.Google Gemini Pro 價格下降一半

從 Gemini-1.5-Pro-002 和 Gemini-1.5-Flash-002 的名字也可以看出,此次 Google Gemini 的更新,不是一個大版本的更新,更多的是一次整體模型的升級。

降低價格是一個重要的更新重點。

Gemini 1.5 Pro 的輸入 token 價格降低 64%,輸出 token 價格降低 52%,增量緩存 token 價格降低 64%,適用於小於 128K token 的提示語,自 2024 年 10 月 1 日起生效。再加上上下文緩存,這將繼續降低使用 Gemini 構建應用的成本。

此外,1.5 Flash 的速率限制從 1000 RPM 提高到 2000 RPM,1.5 Pro 的速率限制從 360 RPM 提高到 1000 RPM。在接下來的幾週內生效。

Google 1.5 Flash 得到了 2 倍輸出速度和 3 倍更低延遲。

同時,Google 表示,發佈的 Gemini 模型,預設不會應用過濾器,開發者可以根據其用例自行決定最佳的配置。Gemini 將繼續提供一系列安全過濾器,開發者可以根據需要為 Google 的模型應用這些過濾器。

Google 還表示,此次模型在數學、長上下文窗口和視覺方面取得了一定的進步。

在更具挑戰性的 MMLU-Pro 基準測試中,看到大約 7% 的性能提升。而在數學和 HiddenMath(一個內部保留的數學競賽問題集)基準測試中,兩個模型都取得了約 20% 的顯著進步。對於視覺和代碼使用場景,兩個模型在評估視覺理解和 Python 代碼生成的測試中表現也更好,提升範圍在約 2-7% 之間。

8 月份發佈的 Gemini-1.5-Flash-8B 實驗模型也得到了新的更新。

Gemini 模型本身的亮點包括長上下文和多模態功能。由於 Gemini Flash 對開發者有部分免費額度,新更新可能對於開發某些應用有著很好的效果。

X 上的 AshutoshSrivastava 就表示,他使用 Google Flash 構建了一個應用,能夠在 1 分鐘內轉寫 13 分鐘的長音頻,且準確度很高(且免費)。在另一個應用中,他表示目標探測功能的表現也很不錯。

02.OpenAI 高級語音功能今日起推出

轉頭看 OpenAI 這邊。

淩晨兩點,OpenAI 宣佈高級語音模式今日起開始向訂閱用戶推出,周內會全量進行推送。

根據 OpenAI 的宣傳片,與標準語音模式進行區分(黑色旋轉球),高級語音將以藍色旋轉球表示,並增加 5 個新語音。

此次發佈的一個重要亮點是,OpenAI 表示,高級語音模式可以提供個性化定義。

在影片中,OpenAI的研究員表示,用戶可以自定義指令,以讓模型以某種口音發音、記住事件以及用戶想要如何被稱呼等。

「你可以讓模型用特定的語速說話,也許是非常清晰地發音,慢慢地說話,用你的名字或你喜歡的稱呼來稱呼你。」研究員表示。

另一位研究員提供了一個例子,對模型輸入名字和所在城市,在向模型尋求週末的計劃時,模型會根據所在城市,進行更個性化的規劃。

高級語音對話目前僅適用於 ChatGPT Plus 和 Team 帳戶的用戶。免費用戶仍然可以訪問標準語音模式。

不過,Plus 和 Team 用戶每天仍然有高級語音的使用限制,並且每日限制可能會發生變化。當一天的高級語音還剩 15 分鐘時,OpenAI 會向用戶發出通知。

同時,使用高級語音模式無法使用 GPTs,即用戶設計的 OpenAI 的智能體。

高級語音模式因為對語音反應時間更敏感,在某些嘈雜的場景下,也更容易被打斷。

最後,OpenAI 還用高級語音模式搞了一個活,表示 ChatGPT 目前可以用五十多種語言表示「對不起,我遲到了,我不是故意讓你等這麼久的。」

一個很有趣的點是,此次 Gemini 的發佈,是由 Google 的 Logan Kilpatrick 主要負責對外溝通交流。

而 Logan Kilpatrick,正是 OpenAI 前開發者關係負責人。2024 年跳槽 Google。

而轉頭,此次 Google 發佈新模型,OpenAI 就卡點發佈高級語音模式。

OpenAI 此次宣佈的時間點或許還有另外一個意義——此前外媒報導稱,Meta 公司本週將在 Meta AI 中推知名人語調的音頻對話功能。

在矽谷,AI 的戰爭還在熱火朝天的繼續。

本文來自微信公眾號「極客公園」(ID:geekpark),作者:Li Yuan,36氪經授權發佈。