Others

又熱鬧了，OpenAI的加強版「Her」正式開放，壓過了Gemini的大升級

09月25日 13:38 新浪網 news-china-auto-hilite

今天真是AI圈久違了的熱鬧一天啊！

昨天剛被奧特曼發的那篇AI小作文搞得一頭霧水，現在他這波操作的意圖就呼之慾出了。

奧特曼想臨門狙擊的正是宿敵Google，更確切地說，是Google今天剛剛更新的兩款升級版Gemini模型：Gemini-1.5-Pro-002和Gemini-1.5-Flash-002。

狙擊方式簡單粗暴：直接宣佈萬眾期待的GPT語音功能今天起正式開放。

兩個小時不到，就雙叒搶走了Google好不容易的高光時刻。我要是Google我得氣吐血吧。

一、GPT高級語音來了，會50多種語言

OpenAI稱，ChatGPT的高級語音模式（Advanced Voice Mode）將在本週內逐步向所有Plus和團隊用戶推出。

在人們耐性等待的同時，團隊完善了部分功能，包括新增自定義指令、記憶功能、5種新聲音，並改進了口音。

由於實在被大家念叨了太久，OpenAI特別表示了一下：「它能用50多種語言說出’抱歉，我遲到了‘。」

並且放了一個從英文切換到普通話的示例：「奶奶對不起，我遲到了。我不是故意讓您等這麼久的，我可以怎麼補償您呢？」

好傢伙，這一下子都當上GPT的奶奶輩了，硬逼著我原諒你啊。

影片中可以看到，語音模式現在以一個跳動的藍色球體表示，而不是OpenAI在5月展示技術時使用的黑色動畫點。

當獲得訪問權限時，應用內會彈出一個提示。先是對Plus和Teams層級用戶開通，下週起擴展到企業和教育用戶。

ChatGPT還添加了五種新語音以供體驗：Arbor、Maple、Sol、Spruce和Vale。至此，加上之前的Breeze、Juniper、Cove和Ember，ChatGPT的語音總數已達到了9種（Google的Gemini Live語音數量為10種）。

可能你也注意到了，這些名字都是從大自然中汲取靈感的，從「楓樹」、「微風」到「太陽」、「山穀」，也許是為了讓使用感覺更加自然。一個缺席的聲音是Sky，也是OpenAI在春季發佈會時展示的語音，因涉及與電影《Her》主演斯嘉麗·莊臣的法律爭議而下架。

OpenAI還將ChatGPT的一些定製功能擴展到了高級語音模式，包括允許用戶個性化回應的「自定義指令」功能，以及允許ChatGPT記住對話供以後參考的記憶功能。

比如下面影片里，在系統設置的自定義ChatGPT菜單中，輸入「我的名字是夏洛特，我住在舊金山灣區。」再詢問週末戶外活動時，GPT就會以夏洛特稱呼用戶，提供符合本地天氣和交通的建議。

OpenAI稱團隊改進了部分外語中的響應速度、流暢性以及口音。語音會根據對話語氣進行調整，你可以創建場景，提示它扮演不同的角色。聲音延遲非常低，理解力也更強，真的像是和另一個人自然對話。

不過OpenAI四個月前展示過的影片和屏幕共享功能此次並未更新。當時工作人員向GPT詢問紙上的數學題和電腦屏幕上的代碼，通過自然語音對話獲得了實時解答。目前，OpenAI尚未提供這項多模態功能的推出時間表。

此外高級語音模式也暫時不對歐盟、英國、瑞士、冰島、挪威和列支敦士登等地區開放。

儘管如此，終於能親自上手OpenAI版的「her」，對已經混AI圈混到審美疲勞的人們來說，確實算一件值得興奮的事了。加上才製造了一波熱潮的o1-preview，OpenAI又妥妥硬控業界一週。

這一激動也把大夥兒整得間歇性失憶了：話說Google今天是發了個什麼來著？

二、Gemini 1.5升級兩款新模型，價格減半，速率提升

Google這次的更新其實也很重磅，至少對於開發者來說。

根據Google Blog，這次他們更新了兩個生產級Gemini模型：Gemini-1.5-Pro-002和Gemini-1.5-Flash-002。所謂「生產級」，是指AI模型經過了充分的開發、測試和優化，已準備好商業化部署，能處理大量用戶請求、應用於產品服務中，而不僅僅是用於實驗或研究。

作為今年5月I/O大會亮相的Gemini 1.5系列模型的重大升級，新模型更快、更強大，也更具成本效益。

主要亮點概括為：

1. 價格大幅降低：1.5 Pro的輸入和輸出價格下降約50%，大幅降低了構建成本，尤其是對小於128K token的提示。

2. 整體質量改進：尤其在數學、代碼生成、長文本上下文和視覺任務上的性能提升顯著，包括在MATH、HiddenMath等基準測試中提高約20%，視覺和代碼應用提高2%-7%。

3. 速率限制提高：1.5 Flash和1.5 Pro的速率限制分別從每分鐘1000RPM（Requests Per Minute）和360RPM提高至每分鐘2000 RPM和1000 RPM，使開發者能夠更快構建和處理任務。

4. 更快輸出和更低延遲：輸出速度提升2倍，延遲降低3倍，為更高效的應用場景提供支持。

5. 更簡潔的響應：響應風格更簡潔、成本更低，輸出長度縮短5%-20%，同時在許多話題上減少了拒絕和迴避的次數，並保持高有用性。

6. 多模態和長上下文支持：1.5 Pro的200萬token長上下文窗口支持處理長文本和多模態任務，如1000頁PDF或長影片的內容生成。

7. 更新的過濾設置：模型的預設安全過濾器不再自動應用，開發者可以根據需要定製模型的安全設置。

開發者可以通過Google AI Studio和Gemini API免費訪問這兩個最新模型。大型組織和Google Cloud客戶也可在Vertex AI上使用新模型。

三、籠罩在GPT陰影下的Gemini

但在同行對比下，不少普通用戶對Google這次動作表達了失望，覺得這甚至算不上真正意義的「發佈」。

Abacus.AI CEO、知名博主Bindu Reddy說，「唉，OpenAI發佈了通過智商測試的o1，而Google只是對Gemini 1.5進行了一些小更新。他們擁有100倍的資源、10倍的人才和10倍的所有東西，怎麼會這樣呢？」

儘管開發者中還是有些人為Google說話，比如Reddit討論區就有網民表示：

「對於那些實際在構建應用並試圖降低成本、增加利潤的人來說，這些都是有用的東西。我正在做的應用有一個每次操作的固定成本，由token長度決定，這讓我的利潤提高了30%以上。這對大多數人來說可能沒什麼意思。我知道很多人會因為Google的這個「公告」而生氣——但實際上這對開發人員來說是一個不錯的更新。」

價格對半砍、速率提升、延遲降低，這些確實正中開發者下懷。但正如大家所說，吸引力也許僅限於開發者群體了。

甚至連一些開發者也嗤之以鼻：「我沒看到跟Claude或o1的比較，而我們馬上就要迎來下一代OpenAI和Anthropic模型。DeepMind其實擁有遠超目前的模型，但他們在走直接面向企業的路線，繞過了大眾。Gemini令人印象深刻嗎？完全不，簡直令人失望透頂。」

Google對於模型的糟糕命名也被網民群嘲，認為其冗長且易混淆。

The Information近期發佈了一篇名為《Why AI Developers Are Skipping Google’s Gemini》的文章。其中通過對多位AI公司創始人和Google內部員工的採訪，講述了Gemini如何被開發者「拋棄」，在追趕ChatGPT時遇到的阻滯和困境。

比如，相比競爭對手的技術，調用Gemini對於開發者和企業來說過於複雜。Topology創始人Aidan McLaughlin表示，他首次使用OpenAI的API僅用了30秒，而使用Gemini則花了4個小時。同時Google的大模型性能卻排在OpenAI和Anthropic之後，並不值得他跨過這些障礙。

相較於ChatGPT，Gemini在開發者中的不受歡迎似乎是現實世界公開的秘密。

企業軟件初創公司Retool在6月份對750多名科技員工進行的調查發現，僅有2.6%的受訪者表示他們最常使用Gemini來構建AI應用，超過76%的人選擇使用GPT。

Similarweb追蹤的網站流量數據顯示，6月至8月期間，OpenAI的應用開發者頁面訪問量達8280萬次，而Google的頁面訪問量為840萬次。

較小的非正式調查也提供了類似的證據。上月底，Finetune的創始人Julian Saks向他在舊金山聯合辦公空間的50名AI初創企業開發者詢問他們最常使用的對話式AI模型。幾乎所有人都表示，他們主要使用的是Anthropic或OpenAI的模型，沒有人提起Gemini。

儘管Gemini模型在分析長文檔或長代碼庫時非常有用，但許多開發者表示，Google的模型選項種類繁多，步驟複雜，開發者係統也與OpenAI的不同，更難使用。並且有時，Google提供的不同服務還會在它自己的搜索結果中互相競爭，使得人們在試圖搞清楚這些工具時很容易被「絆住」。

Gemini因此經常在X上被嘲笑。安全初創公司Xbow的AI研究員Brendan Dolan-Gavitt本月早些時候發了一條推文，詳細介紹了他通過Vertex開始使用Gemini所需的眾多步驟，迅速走紅。其他開發者紛紛評論區表示同情。

在一個「世界上領先的工程師都在使用OpenAI、Claude或Cursor」的環境中，開發者們確實沒有必要再去嘗試其他的。而反過來說，使用量的走低又無法讓Gemini獲得ChatGPT一樣多的數據反饋，致使Google在改進模型上會面臨更模糊的路線圖。

四、失望是因為人們對Google期待很高

Google正試圖改變這種看法，包括通過在X上回應對Gemini的批評，將更多OpenAI等公司的明星技術專家納入麾下、將部分重疊的開發功能合併等。他們還通過舉辦開發者活動來宣傳Gemini。

今天與Gemini-1.5-Pro-002推出同步進行的，還有一場Gemini for Work的線上活動，Google花了大量篇幅宣講Gemini目前在Best Buy、Snap、UPS Capital、Wayfair等公司的應用案例。據悉，他們正試圖通過提供一定程度的「白手套」服務來拉攏更多大企業客戶。

只是在根深蒂固的市場份額面前，Google的反擊之路可能沒那麼好走。

AI Studio的產品負責人Logan Kilpatrick今年4月加入前曾於OpenAI負責開發者關係，他表示：「實際情況是，OpenAI在LLM API開發者工具方面領先於Google。我們必須與他們當前在開發者中根深蒂固的市場份額作鬥爭。」

稍早前AI圈知名博主Rowan Cheung曾預告，自己完成了一個關於AI模型重大升級的採訪，今天開發者們將迎來一個大日子。

那篇推文下面，Logan Kilpatrick的笑臉字符表情在一大片「怎麼不是Claude Opus 3.5」的遺憾聲中略顯尷尬。

保守、爭議、滯後是今天Google這位AI巨頭給社區留下的刻板印象。Gemini-1.5-Pro-002的推出似乎也並未打破這一僵局。

人們對這家公司的失望，都是來自對它的期待很高：這麼強的實力和人才儲備，卻無法給世界更多的「替代」OpenAI的選項，誰都會感到遺憾。

本文來自微信公眾號：矽星人Pro （ID：gh_c0bb185caa8d），作者：Jessica