AI大模型看手相，圖片影片加持深度思考，阿里QVQ-Max「神了神了」

03月28日 15:27 新浪網 tech-auto-hilite

阿里又發了個有意思的大模型——

QVQ-Max，第一版視覺推理模型，對任意圖像或影片都可以進行深度思考。

舉個有趣的例子

，上傳一張你的手掌，再點擊Thinking，QVQ-Max就可以給你看手相：

可以看到，在深度思考過後，QVQ-Max就開始逐步分析手掌上的線條和其他特徵。

包括心線、頭線、生命線等主要線條的分析，以及戒指手指上的金戒指的象徵意義。

這還只是一個比較有娛樂性的例子。

如果你一口氣給QVQ-Max「喂」多張圖片，它也可以進行深度思考：

這兩張圖片描繪了哪些風景？它們之間的關係是什麼？

在一頓思考過後，QVQ-Max準確地識別出兩張圖聯繫——都是西湖的風景，但一張是春夏時節，另一張是冬季。

再如數學推理，同樣是給它「喂」一張圖即可，連提問都省了：

在思考之後，QVQ-Max是找到了數字們之間的規律，並最終給出了正確答案：10。

以及直接上傳一個手繪簡筆畫影片，並附上一句：

分析影片，將視覺內容與文字結合，並為影片中的鏡頭創建生動有趣的字幕。

最終，QVQ-Max依舊是穩穩地完成了任務。

網民們看罷，也是麻溜地去試了試。

不過這一次，QVQ-Max有點小翻車——路飛是認對了，但這個祖巴……

以及啊，這兩天被OpenAI GPT-4o圖像生成帶火的吉卜力，網民們也是跟上了：

那麼QVQ-Max的圖像影片深度思考實力到底如何，我們這就親手嘗試一番。

實測QVQ-Max

首先，我們還是來測試一下QVQ-Max看圖解數學題的能力。

題目是這樣的：

然後我們提問：

這道題的答案是多少？

在深度思考過後，QVQ-Max不僅精準識別出了手寫的題目，而且給出了正確答案：2。

剛才Qwen官方給出了看手相的例子，這次我們再來「喂」下這張圖：

問題是這樣的：

這是什麼？

嗯，是比較全面地介紹了星盤。

接下來，我們再來測試一下影片推理，例子就用Anthropic最新發佈的一個：

若是刨去影片里的背景音，單是看內容，還是比較抽像的。

對此，QVQ-Max給出的理解是：

從觀察到推理

除了效果之外，雖然Qwen團隊沒有公佈相關論文，但對於背後的技術亮點，團隊還是簡單的介紹了一番。

首先，團隊在MathVision這個benchmark（彙集各類困難多模態數學）上進行了一番測試：

結果表明，通過調整模型thinking的最大長度，模型在MathVision上的準確率也會持續提升。

除此之外，團隊還總結了QVQ-Max的三大能力特點。

包括對圖片的解析能力非常強，無論是複雜的圖表還是日常生活中隨手拍的照片，它都能快速識別出關鍵元素。比如，它可以告訴你一張照片里有哪些物品、有什麼文字標識，甚至還能指出一些你可能忽略的小細節。

僅僅識別出圖片里的內容還不夠，QVQ-Max還能進一步分析這些信息，並結合背景知識得出結論。

例如，在一道幾何題中，它可以根據題目附帶的圖形推導出答案；在一段影片里，它能根據畫面內容推測出接下來可能發生的情節。

除了分析和推理，QVQ-Max還能做一些有趣的事情，比如幫你設計插畫、生成短影片腳本，甚至根據你的需求創作角色扮演的內容。

如果你上傳一幅草稿，它可能會幫你完善成一幅完整的作品；上傳一個日常照片，它可以化身犀利的評論家，佔卜師。

值得注意的是，QVQ-Max是免費可用的哦，感興趣的朋友快去試試吧~

體驗地址：https://chat.qwen.ai

參考鏈接：

[1]https://qwenlm.github.io/zh/blog/qvq-max-preview/

[2]https://x.com/Alibaba_Qwen/status/1905342260100956210

本文來自微信公眾號「量子位」（ID：QbitAI），作者：金磊，36氪經授權發佈。