Nano Banana 2突然現身,能畫公式解數學題,監控畫面都能偽造

Nano Banana 2代一亮相就驚豔眾人。

下面這張圖完全是AI生成,不僅包括網頁中的內容,甚至整個瀏覽器界面和桌面都是生成的,而且沒有參考圖像。

這次Nano Banana 2以預覽版的形式出現在第三方網站Media.io上,隨後被移除,只有少數手快的網民參加了測試。

預覽版展示出的能力已遠超前代,在處理複雜提示方面的表現突出,包括精確的文本渲染、超逼真的場景以及類似完整桌面界面的精細模擬。

但GoogleDeepMind方面沒有對發佈正式時間等做出說明。

Nano Banana 2全面升級

根據測試頁面說明,這次Nano Banana 2又名GemPix2,主要在真實性、生成速度和自然交互控制上面改進。

從現有的測試結果看,Nano Banana 2能夠生成極其複雜的UI,文字渲染也看不出破綻,很多網民都會以為是一張真實截圖。

對物理常識與遵循提示詞的細節也表現很好。

可以同時準確繪製出指向特定時間的時鍾和一杯斟滿的紅酒。

甚至能偽造出逼真的監控錄像畫面,不過據推測正式版發佈時候應該會削弱這方面能力。

此外,Nano Banana 2還掌握了一定的世界知識與邏輯推理能力。

在解決數學問題的對比測試中,1代解題思路好像大致方向是對的,但最終渲染出的公式基本無法理解。

二代雖然有一些小錯誤,但結果給人印象深刻。

Nano Banana團隊:圖像生成的質量已接近上限

Nano Banana最初於2025年8月中旬匿名出現在AI模型測評平台LMArena,憑藉其出色的圖像編輯能力迅速登頂排行榜,引發社區熱議,

8月底,Google正式揭曉其身份為Gemini 2.5 Flash Image,Nano Banana的代號源於Google內部測試生成「香蕉大小的納米機器人」時效果很好。

上線不到10天,用戶編輯了超過2億張圖片,為Gemini應用帶來了1000萬新用戶,並一度幫助Gemini超越ChatGPT成為蘋果免費應用榜首。

第一代Nano Banana的核心優勢在於強大的圖像編輯和理解能力,

包括自然語言編輯與角色一致性,用戶可用日常語言進行多輪、迭代式的圖像編輯,同時解決了AI圖像編輯中常見的「身份漂移」問題,保持角色特徵在多次修改後高度一致。

與先前模型相比增加了多圖像融合與風格遷移功能,支持將多張不同圖片無縫融合成一張連貫的圖像,或將一張圖的風格應用到另一張圖的物體上,為電商、廣告等行業提高了創作效率。

以及低成本也高速度,基於GoogleTPU v5架構優化,Nano Banana平均響應時間僅為1.3秒,單張圖片生成成本約0.039美元,僅為DALL-E 3的十分之一。

此前Nano Banana核心團隊透露,圖像生成的質量已接近上限,未來的關鍵在於提升模型理解用戶「意圖」(intention)的能力。

Google自身也在加速將Nano Banana整合進其核心產品生態。除了在Gemini應用和AI Studio中提供服務外,Google已開始測試將其集成到Google Photos、搜索(Search)、智能鏡頭(Lens)和畫圈搜索(Circle to Search)中,意圖打造一個無縫的AI驅動視覺體驗閉環。

參考鏈接:

[1]https://x.com/synthwavedd/status/1987259262322749784?s=20

[2]https://www.reddit.com/r/singularity/comments/1osolhn/nano_banana_2_vs_nano_banana_comparison_output

本文來自微信公眾號「量子位」,作者:夢晨,36氪經授權發佈。