AI大模型看手相,圖片影片加持深度思考,阿里QVQ-Max「神了神了」

阿里又發了個有意思的大模型——

QVQ-Max,第一版視覺推理模型,對任意圖像或影片都可以進行深度思考。

舉個有趣的例子

,上傳一張你的手掌,再點擊Thinking,QVQ-Max就可以給你看手相

可以看到,在深度思考過後,QVQ-Max就開始逐步分析手掌上的線條和其他特徵。

包括心線、頭線、生命線等主要線條的分析,以及戒指手指上的金戒指的象徵意義。

這還只是一個比較有娛樂性的例子。

如果你一口氣給QVQ-Max「喂」多張圖片,它也可以進行深度思考:

這兩張圖片描繪了哪些風景?它們之間的關係是什麼?

在一頓思考過後,QVQ-Max準確地識別出兩張圖聯繫——都是西湖的風景,但一張是春夏時節,另一張是冬季。

再如數學推理,同樣是給它「喂」一張圖即可,連提問都省了:

在思考之後,QVQ-Max是找到了數字們之間的規律,並最終給出了正確答案:10。

以及直接上傳一個手繪簡筆畫影片,並附上一句:

分析影片,將視覺內容與文字結合,並為影片中的鏡頭創建生動有趣的字幕。

最終,QVQ-Max依舊是穩穩地完成了任務。

網民們看罷,也是麻溜地去試了試。

不過這一次,QVQ-Max有點小翻車——路飛是認對了,但這個祖巴……

以及啊,這兩天被OpenAI GPT-4o圖像生成帶火的吉卜力,網民們也是跟上了:

那麼QVQ-Max的圖像影片深度思考實力到底如何,我們這就親手嘗試一番。

實測QVQ-Max

首先,我們還是來測試一下QVQ-Max看圖解數學題的能力。

題目是這樣的:

然後我們提問:

這道題的答案是多少?

在深度思考過後,QVQ-Max不僅精準識別出了手寫的題目,而且給出了正確答案:2。

剛才Qwen官方給出了看手相的例子,這次我們再來「喂」下這張圖:

問題是這樣的:

這是什麼?

嗯,是比較全面地介紹了星盤。

接下來,我們再來測試一下影片推理,例子就用Anthropic最新發佈的一個:

若是刨去影片里的背景音,單是看內容,還是比較抽像的。

對此,QVQ-Max給出的理解是:

從觀察到推理

除了效果之外,雖然Qwen團隊沒有公佈相關論文,但對於背後的技術亮點,團隊還是簡單的介紹了一番。

首先,團隊在MathVision這個benchmark(彙集各類困難多模態數學)上進行了一番測試:

結果表明,通過調整模型thinking的最大長度,模型在MathVision上的準確率也會持續提升。

除此之外,團隊還總結了QVQ-Max的三大能力特點。

包括對圖片的解析能力非常強,無論是複雜的圖表還是日常生活中隨手拍的照片,它都能快速識別出關鍵元素。比如,它可以告訴你一張照片里有哪些物品、有什麼文字標識,甚至還能指出一些你可能忽略的小細節。

僅僅識別出圖片里的內容還不夠,QVQ-Max還能進一步分析這些信息,並結合背景知識得出結論。

例如,在一道幾何題中,它可以根據題目附帶的圖形推導出答案;在一段影片里,它能根據畫面內容推測出接下來可能發生的情節。

除了分析和推理,QVQ-Max還能做一些有趣的事情,比如幫你設計插畫、生成短影片腳本,甚至根據你的需求創作角色扮演的內容。

如果你上傳一幅草稿,它可能會幫你完善成一幅完整的作品;上傳一個日常照片,它可以化身犀利的評論家,佔卜師。

值得注意的是,QVQ-Max是免費可用的哦,感興趣的朋友快去試試吧~

體驗地址:https://chat.qwen.ai

參考鏈接:

[1]https://qwenlm.github.io/zh/blog/qvq-max-preview/

[2]https://x.com/Alibaba_Qwen/status/1905342260100956210

本文來自微信公眾號 「量子位」(ID:QbitAI),作者:金磊,36氪經授權發佈。