比OpenAI良心多了,一文總結Google發佈會的11個亮點。
就在X上一群人被草莓哥亂髮OpenAI預告,瘋狂搞心態的時候。
Google帶著MadeByGoogle ‘24發佈會來了。
OpenAI甚至為了狙擊Google,在人發佈會開始幾分鐘後,發了一個Blog,就這麼個破Blog,還讓他們的AI草莓哥當謎語人預告了兩天。
現在的OpenAI,真的跟狼來了一樣,我對他已經沒有任何期待和信任可言了。每次就差那兩個粗口罵出來了,XXX,XX!
而Google在沒有任何的預期下,還是有一些額外的驚喜的。
我總結了11個亮點,你看完了這篇文章,也算是看完發佈會了。
1. Google要根據Gemini重構Android。
他們定義了一個詞,叫AI OS,Google想把AI OS帶給所有人。
目前它們已經支持200多個國家和地區的45種語言,它可以在數十個設備製造商的數百個手機型號上使用,全球數十億台設備上得到支持。
2. 手機上Gemini的圖像識別翻車了。
他們第一個演示的是Gemini的圖像識別能力。
作為多模態AI,圖像拍攝識別似乎被捲成必須有的功能了。最能考驗照片識別能力的,就是拍攝說明書、日程表這類信息密集的內容——既要識別圖像,還得看得懂文本內容給出答案。
演示的小哥拍攝了一張紙質音樂會海報,上面巡演的日程安排。演示者讓Gemini查看自己的計劃,選擇可以去看Sabrina Carpenter演出的時間。
然而,現場演示必定會出現的失誤,它來了。
Gemini前兩次拍照都很不給面子地現場演示失敗,隔著太平洋我都感覺現場尬住了,還是兩次。。。= =
這個演示還特意提了一下,用的是三星Galaxy S24 Ultra手機,難道是三星發力了?
現場緊急換了一部設備重新嘗試,好在第三次順利識別出了圖片內容。
Gemini直接給出了很具體的日期:Sabrina會在2024年11月9日到達舊金山,並且這一天演示者沒有其他安排,可以去看演出。
現場的掌聲終於響起,哥們兒肉眼可見地鬆了一口氣啊。
3. 跨軟件交互很方便。
Gemini現在能夠在手機上直接理解並分析影片內容。
你可以一邊觀看影片,一邊呼喚出Gemini為你總結重點,或者回答你關於影片內容的問題。
比如晚上觀看油管上美食影片後,都不用你挨個識圖,自動生成影片中出現的食物清單,並添加到用戶的個人”待嘗試”列表中。
吃貨福音。
並且可以為油管上的一些旅行影片創建景點清單或行程建議。
作為一個連散步都需要出場bgm的,
你也可以要求gemini製作一個「適合在首爾散步的南韓流行音樂播放列表」,它能根據用戶描述的場景、情緒或活動類型推薦合適的音樂。
使尋找音樂變得更加直觀和個性化。
4. 寫文速度很快效果也不錯。
Gemini還可以輔助在手機端用僅數秒的時間完成郵件寫作。
小哥演示了兩個場景:第一個是給房東寫封不失禮貌的催促信,通知她來維修家裡的供電模塊。
第二個是給教授寫一封生病缺勤的道歉信(看來這種事小哥之前沒少幹)。
此外Gemini還有方便用戶潤色文本和發送郵件的交互設計。
看到Gemini沒幾秒就完成道歉信,小哥都快憋不住笑了。
5.Gemini Live實時對話效果還不錯,但只是低延遲的湯臣S。
Google推出了類似於GPT4o的可以隨時打斷的實時對話功能,他們稱為Gemini Live。
裡面有10中音色可以選擇。
演示的小姐姐跟Gemini Live聊了半天,音色效果不錯,延遲也足夠低,但是其實看著就是一個低延遲的湯臣S,而不是GPT4o那種原生的多模態大模型。
因為沒有任何情緒理解和表達的演示,按照Google的尿性,真要是有他們一定會瘋狂展示的,另外在一些長一點的回答上,還是能明顯的感覺到延時。
所以其實就是個低延時的湯臣S對話。
目前得Gemini Advanced訂閱用戶才能用,一個月20美刀,立刻上線。
6.Pixel 9 是首款搭載多模態 Gemini Nano 的手機。
這是迄今為止在手機上發佈的功能最強大的設備端 AI 模型,比之前在 Pixel 8 Pro 上用的 AI 強大了三倍。
Pixel 9 的處理器(TPU 和 Tensor G4)可以在一秒內生成多達 45 個單詞,比之前的速度快了兩倍。
普通版的 Pixel 9 有 12GB 的內存,而 Pro 版本的內存更大,達到了 16GB。而且他們最騷的是,終於也上了衛星通話的功能。。。
這裏只能說一句,遙遙領先!
這次發佈的產品包括三款直板手機和一款摺疊手機。常規系列包括一款配備 6.3 英吋顯示屏的基礎版 Pixel 9,一款配備 6.8 英吋屏幕的 Pixel 9 Pro XL,以及一款新的更小巧的 6.3 英吋 Pixel 9 Pro。
說實話,我覺得,有點醜。。。
還有個新款的摺疊屏Pixel 9 Pro Fold。
更醜了。。。
7.Call Notes在電話過程中可以幫你記錄下關鍵信息。
現在,Pixel的「通話助手」變得更強大了,增加了「Call Notes」功能。
在你打完電話後,它會為你提供一個完全私密的通話總結。這樣即使你在通話時沒有紙筆,也能輕鬆獲取電話號碼、時間、細節和其他你不想忘記的信息。
而且這個過程全部是本地跑的,基本沒有隱私問題。
小哥舉了個例子,他最近考慮換個髮型,但他的理髮師做不了他想要的髮型,所以他推薦我去另一家理髮店。
但是問題是,他忘了記下那家店的電話號碼。有了Call Notes後,就可以輕鬆回溯。
7.類似於Recall的屏幕截圖功能有點屌。
有個大家都熟悉的場景:你在手機上看到一些想記住的東西,也許你會在腦海中記下來,或者截圖保存。
但通常,你要麼忘記了要記的東西,要麼在需要的時候找不到。
然後他們就做了一個新的產品。
可以用AI快速搜索所保存的所有圖片。比如你手機里有幾十張單車的圖,你搜一下單車,就都出來了。
你還能問一下更複雜的,比如T恤價格,你可以看到Pixel截圖不僅找到了原始圖像,而且還根據圖像中的信息用自然語言為我提供了答案。
8.一個普普通通的本地AI畫圖Pixel Studio。
每部Pixel 9手機都配備了新的Pixel Studio,他們手機上的首款圖像生成器。
效果我覺得,就是普普通通,屬於能用。
比如日落時的海灘篝火坑,就感覺效果,非常的普通。
9.AI相機拍合照非常的棒。
Pixel相機,說是第一個AI相機。
大多數參數我不懂,但是這個合照的場景非常的有趣。
很多時候大家沒發拍合照,總有一個朋友要當攝影師。
它會用一個簡單的屏幕界面來引導你拍照,比如讓你把相機交給別人,這樣你們可以交換位置。然後,你可以根據第一張照片中人物的輪廓,把他們在新照片中對齊,再拍一張。最終生成的圖片會把兩張照片合成在一起,看起來就像大家同時出現在同一張照片里一樣。
非常的牛逼,解決了合照的一大痛點。
10.新的手錶和耳機。
發了一個Pixel Watch 3。
一個耳機Pixelbuds Pro 2。
耳機可以隨時喚醒Gemini跟他對話。
11.對標GPT4o的Project Aster。
Project Aster在幾個月前的Google發佈會上就亮相過了,直接對標GPT4o的原生多模態大模型。
現在,在Gemin Live中,你未來也可以用到Aster了。
比如,你可以在與Gemini對話時共享你的相機,這樣你可以直接展示自己在微積分作業中遇到的問題,或者尋求下一步傢俱組裝的幫助。
而且,還把最常用的應用程序也集成到Gemini Live中,這樣它可以在對話和消息中幫助你採取行動,並從像Google日曆這樣的應用程序中提取信息。
所以你可以直接在Gemini Live中給鄰居發短信,分享關於某個商家的詳細信息,並同時查看你的日曆,完全不需要打開其他應用程序。
有點屌,GPT4o+蘋果的集合體。
就是可惜,還是個餅。
這,就是這一次MadeByGoogle ‘24的全部內容了。
在AI方面,跟硬件的結合,還是蠻有意思的,Gemini Live至少不是期貨,今天就可以用。
比那個只會畫餅的OpenAI,還是強了很多。
希望Google越來越好,錘死OpenAI。