OpenAI版Her登場,GPT能實時影片通話了,德撲AI之父:比 o1「更受寵」的模式降臨

昨天OpenAI的風頭幾乎都被Google搶盡了,不少用戶都直接站隊Gemini 2.0 ,稱其是「GPT-5 級別的威脅」,不僅能生成文字外,還能直接生成圖片和語音。更為關鍵的是,Gemini 2.0供全球用戶使用,而且有專門的實驗版模型對所有開發者免費開放。

今天,OpenAI就帶來了高級語音模式的功能更新:實時影片通話、屏幕共享和圖像上傳。即日起,這三項功能將在接下來幾天內向所有 Team、以及大多數 ChatGPT Plus 和 Pro 用戶推出(歐盟、瑞士、冰島、挪威和列支敦士登的用戶除外),Enterprise 和 Edu 用戶將在明年 1 月獲得訪問權限。

其中,屏幕共享和圖片上傳僅在 iOS 和 Android 移動應用程序的高級語音模式中推出。

現在ChatGPT可以「看到和聽到」

高級語音模式在去年發佈的 GPT-4o 中已經預覽過,但只有音頻模式是實時的。現在,用戶可以使用手機攝像頭與 ChatGPT 聊天,大模型將會 「看到 」你所看到的一切,包括你的手機屏幕。

進行實時影片通話功能的演示時,OpenAI的首席產品官 Kevin Weil首先牽頭測試了一番ChatGPT的「記憶」能力。在OpenAI 的團隊成員依次與ChatGPT影片打過招呼並有了一定的認識後,Weil要求它回憶各位成員的特徵並說出相應的姓名。

接下來, Weil 又和其他 OpenAI 團隊成員演示了 ChatGPT 協助如何製作手衝咖啡:通過將攝像機對準動作,AVM 展示了它對咖啡機原理的理解,並引導提問者完成咖啡的整個衝泡過程。並且,在整個演示過程中,ChatGPT Advanced Voice 保持了自然而親切的聲音,還調整了它的語氣,甚至像人類一樣大笑。

有網民開玩笑道,「下一步GPT該指導人做飯了。」還有網民表示,「Her正在慢慢成為現實」,「如果這不是 AGI,我不知道什麼是。」

該團隊還展示了 ChatGPT 如何理解上傳的屏幕截圖,這對於需要ChatGPT提供技術支持或協助處理屏幕內容的情況非常有用。當選擇 「共享屏幕 」時,會彈出手機的屏幕共享選項,允許用戶將屏幕廣播給 ChatGPT;開始屏幕共享後,再次按下屏幕共享按鈕即可停止與 ChatGPT 共享屏幕。

同時,OpenAI官方提醒到,ChatGPT 可能會自動響應用戶從相機或屏幕上分享的內容。此外,在用戶停止分享後,ChatGPT 可能仍會引用其之前在對話中分享的內容。但OpenAI保證,除非用戶啟用了「為每個人改進模型」,否則他們不會使用對話中上傳的音頻或影片片段來訓練大模型。

比o1「更受歡迎」的模式來了?

高級語音模式基於原生多模態GPT-4o模型,可以直接接收和輸出音頻,提供更自然的對話節奏和情感表達。OpenAI 首席技術官 Muri Murati 表示,GPT-4o 提供了「GPT-4 級別」的智能,但改進了 GPT-4 在文本、視覺以及音頻方面的能力。

據介紹,高級語音模式支持超過50種語言,9種逼真輸出語音選項,且每種語音都有自己獨特的語氣和特徵。而其背後的GPT-4o 不僅可以將語音轉換為文本,還可以理解和標記音頻的其他功能,例如呼吸和情感。

在聖誕節期間,OpenAI還新增了Santa Mode(聖誕模式),用戶可以在ChatGPT中與聖誕老人的聲音進行實時互動,支持移動應用、桌面應用和網頁版。用戶通過點擊現在ChatGPT主屏幕上的雪花圖標,或者在設置頁面中找到並選擇聖誕老人,就你可以向聖誕老人詢問關於聖誕節的問題。

為了讓更多用戶體驗與聖誕老人對話的功能,首次與聖誕老人進行高級語音對話的用戶,其高級語音使用額度將被重置一次。即使你當天的或本月的使用額度已用完,也可以立即與聖誕老人進行語音對話。超出重置後的額度後,用戶也可以通過文字方式與聖誕老人聊天。

OpenAI高級研究科學家、德撲AI之父Noam Brown甚至稱,「我完全相信聖誕老人模式會比 o1 吸引來更多的訂閱用戶。」

結語

OpenAI直播第六天,CEO Sam Altman並沒有出現,而是由包括OpenAI的首席產品官 Kevin Weil、OpenAI產品經理Jackie Shannon、負責多模態的OpenAI技術團隊成員Michelle Qin和Rowan Zellers在內的四位員工來介紹了更新的功能。

其中,Michelle Qin是唯一的華人,入職OpenAI六個月。根據其個人主頁的介紹,Michelle Qin是史丹福大學理學士和碩士畢業生,主修人工智能領域的計算機科學。此前曾有過在蘋果和Pika工作的經歷。

然而,OpenAI第六天的更新也迎來一波網民的「抽水」。有網民評價,這次的更新很「無聊」,或許明天會「很瘋狂」。也有網民認為,「這隻是Sora上線後的一個 ‘降溫 ’功能。」

還有網民表示,「Google在正式發佈之前就向用戶發佈了 Gemini 2,並且從一開始就提供實時語音和影片聊天,OpenAI卻在發佈後花了將近半年的時間才推出。」

值得一提的是,就在昨天下午,ChatGPT 還突然宕機了近4個小時,就連新發佈的Sora也未能倖免。ChatGPT宕機之時,眾多用戶都直呼「全球學術停擺了」。而這已經不是ChatGPT第一次發生這樣的情況,上個月ChatGPT癱瘓了30分鐘,今年6月的宕機甚至持續了5小時以上。

參考鏈接:

https://help.openai.com/en/articles/8400625-voice-mode-faq

本文來自微信公眾號「AI前線」,作者:華衛,36氪經授權發佈。