剛剛,GoogleGemini Live上新功能,能看懂手機屏幕、還能實時影片

機器之心報導

編輯:陳陳、蛋醬

好消息,Google在 MWC 上關於 Project Astra 與 Gemini Live 集成的承諾兌現了。

剛剛,Google發言人 Alex Joseph 在給 The Verge 的郵件中確認,Google已經開始向 Gemini Live 推出新的 AI 功能,能夠共享用戶的手機屏幕或者通過智能手機攝像頭回答相關問題。這對於實時人工智能交互來說是一個重大進步。

這些功能的推出距離Google首次展示「Project Astra」項目已經過去一年時間。

有 Reddit 用戶表示自己已經率先體驗到了屏幕共享功能,該功能通過一個名為「Share screen with Live」的新按鈕來實現。

這位用戶還發佈了一段影片來證明。

通過影片我們可以看出 Gemini 根據用戶共享的屏幕,回答出了今天的日期、溫度等信息。

另外,Gemini Live 推出的另一項功能是實時影片功能,它可以讓 Gemini 實時解讀你手機攝像頭的畫面,並回答相關問題。

效果如何,我們通過示例來感受一下。在Google本月發佈的一段演示影片中,用戶使用該功能向 Gemini 求助,他們上釉的陶器選擇什麼顏色的顏料最合適。

只見用戶打開手機攝像頭,對準物體進行實時拍攝,然後詢問這些釉料中哪一種最適合?

幾乎是毫無延遲的 Gemini 給出了回答:

一個問題回答完畢後,你也可以繼續追問,Gemini 都能對答如流

Project Astra 是Google去年發佈的 AI 智能體項目,用戶通過攝像頭,可以與大模型進行實時的視覺與語音交互,也是Google對標 GPT-4o 的又一項重要研究。

Project Astra 有三個特點:

  • 實時對話可以進行實時音頻和影片對話,低延遲,還掌握多種語言。

  • 記憶:通過記住過去對話的關鍵細節以及當前會話中最多 10 分鐘的內容來完善其回答。

  • 工具調用:提出問題後,Project Astra 可以使用Google搜索、地圖等來提供答案。

此外,Project Astra 還可以跨設備工作,用戶可以在安卓手機或原型眼鏡上使用 Project Astra 功能。

影片對話功能並非新概念。最早公開演示 AI 影片通話的 OpenAI,則在去年 12 月底就在自家產品上線了對應能力:在 ChatGPT 的移動端應用程序 App 中,高級語音模式 Advanced Voice 提供了影片和共享屏幕功能。目前該功能還沒有免費開放,也是 Plus 用戶和 Pro 用戶才能使用。

Google此時推出這些功能,至少證明了 Gemini 在努力保持人工智能助手領域的「前排」地位。

與之形成鮮明對比的是,蘋果推遲了 Siri 的升級。彭博社前幾天報導,一份 Siri 團隊內部會議的記錄顯示,我們期待的 Apple Intelligence 仍遙遙無期。

會議由負責該部門的高級主管 Robby Walker 主持。他稱此次延遲是一個「糟糕的」情況,並同情那些可能因蘋果的決定和 Siri 仍然不佳的聲譽而感到疲憊或沮喪的員工。

Robby Walker 還表示,承諾過的 Siri 功能不一定會在今年出現在 iOS 19 中:「這是該公司目前的目標,但並不意味著我們會在那時推出。」

近幾週,蘋果一直無法擺脫有關其在 Siri 和人工智能方面進展緩慢的負面新聞。去年 6 月承諾過的高級智能功能至今無法兌現。幾個月過去了,除了更漂亮的 Siri 動畫外,幾乎沒有任何成果。

除此之外,蘋果尚未公開評論此事。當時該公司表示,高級 Siri 功能「比預期耗時更長」。但 Robby Walker 告訴員工,公司的軟件主管、人工智能主管等高管正在為這一困境承擔「個人責任」,然而這一困境引發了廣泛的、激烈的批評。

這些功能對於 Siri 的現代化、蘋果在人工智能競賽中的追趕其實非常重要。我們仍然不知道這些 Apple Intelligence 功能何時會到來。似乎,從最近這次全體會議的討論內容來看的話,蘋果本身也不知道。

參考鏈接:

https://www.theverge.com/news/634480/google-gemini-live-video-screen-sharing-astra-features-rolling-out

https://www.theverge.com/news/629940/apple-siri-robby-walker-delayed-ai-features