AI Agent到底哪家強?橫評五款主流Agent

最近,滿地都是AI Agent,僅最近半個月,就爆出了10多款。

來自近期在上海分享的PPT來自近期在上海分享的PPT

AI Agent,現已成為繼LLM(

Large Language Model,大語言模型)後的時尚新寵,各家廠商瘋狂推Agent猶如過江之鯽。

那麼問題來了,到底哪個Agent更勝一籌?今天,我們就來給大家橫向測評一下。

關於測評方法

我選擇了5款熱門的通用型AI Agent,分別是GensparkMiniMax AgentFlowith NeoManus扣子空間。

對於Agent來說,感知、思考、行動 、循環四個步驟中LLM都扮演了重要的角色。

如果分開每個步驟來對比,就變成了對比LLM的優劣。而Agent是一個框架,所以我們不去管它的任務處理過程如何,而是僅針對交付結果進行評判(本次測試皆為標準token投入)

每個Agent,我選了三個不同領域的任務進行統一測試:

1.檢索微信公眾號平台2025年來的熱門AI話題前5,並總結原因分別輸出為pdf、圖表和html格式。(測試任務拆解、效率與準確性、多模態輸出)

2.為我規劃一個預算不超過3000元、4天3晚的成都旅遊計劃,必須包含川劇變臉、寬窄巷子和熊貓基地。(測試邏輯嚴謹和工具調用)

3.這是我家客廳照片,推薦合適的改造風格,並輸出新風格的3D佈置草圖或改造建議圖示。(測試圖像理解、空間感知、創意輸出、圖文匹配)

橫評3個Case

1)總結熱門AI話題

先來一個最簡單的,測試最基本的任務拆解能力,同時也看下效率和準確性。

Prompt:檢索微信公眾號平台2025年來的熱門AI話題前5,並總結原因分別輸出為pdf、圖表和html格式。

  • 1.1)Genspark耗時12分43秒。

我們先來看下它輸出的網頁。

Genspark的HTML文件做得很規整,既蒐羅了5大熱門話題,還深度分析了原因,內容信息也比較準確。

可視化圖表也完成得不錯,無論是數據收集方向還是圖表種類的使用都非常豐富,排版也很好看。

PDF文件可讀性也不錯,它對顏色的處理很到位,讓人一眼就能看出每個段落或每個話題是從哪開始,到哪結束。

  • 1.2)扣子空間耗時10分15秒。

扣子空間找到的5個熱門話題跟Genspark不一樣,看來每個Agent都有自己的理解。

但是可以明顯看出,扣子空間沒有Genspark細緻,沒有對單個話題進行原因分析,只是在最後做了整體分析

圖表看起來就很樸素了,實在不知道該如何評價,如果非要說的話,只能說這也算是表。

雖說PDF只是一種格式,但如果全是文字,不知道的還以為在COS那個Word文檔呢。

還有,我提示詞里要的原因分析,扣子空間你給我幹哪去了……

  • 1.3)Manus耗時11分49秒。

整體要求達到了,既羅列了5個最熱話題,也對具體問題進行了分析,算是達標。

然後,用了三種圖表來展示各個熱門話題的熱度對比,非常直觀。

不過,PDF部分……又給我幹哪兒去了,不是說好的PDF嗎?這不跟Word文檔有什麼區別,不過好歹分析的還算細緻。

  • 1.4)MiniMax Agent耗時16分03秒。

MiniMax把這五個話題倒是列出來了,但是沒有分析原因,排版也缺點美感。

圖表…咋說呢,可能這就是MInimax Agent還是Bate版的原因吧。。。

雖然又是一版Word文檔的PDF,但是該有的內容都有。熱門話題簡介和流行原因都說的還算明白,不過讀起來,一股子AI味。

  • 1.5)Flowith Neo耗時19分27秒。

雖然耗時有點長,但是最終的結果還不錯,不僅分析了話題流行的原因,還給出了相關的數據和案例支撐,研究得非常細緻

圖表整體來說,也算中規中矩(但說實話,比起前面的有些圖表來說,普通也算優秀了

,還添加了話題關聯度分析圖,我覺得很有新意。

PDF文件依舊是純文字版,但是文字詳實,分析有理有據,讓我來寫我怕是寫不出來。

總的來說,這個任務我最喜歡的是Genspark,對於提示詞的理解到位,輸出的內容質量和形式也還不錯(包括文字優化和視覺優化),在5款Agent中算是比較突出的。

2)旅遊規劃

再來測試下邏輯嚴謹性、工具調用方面。

Prompt:為我規劃一個預算不超過3000元、4天3晚的成都旅遊計劃,必須包含川劇變臉、寬窄巷子和熊貓基地。

  • 2.1)Genspark耗時3分27秒。

整體規劃中對景點和價格比較注重,細緻羅列了各項支出,但是對遊覽時長和交通時長沒有太多交代。

  • 2.2)扣子空間耗時2分56秒。

主要的景點,一個沒有落下,但是對於預算規劃有些敷衍,各景點、各美食的價格也沒怎麼交代,交通路線也沒怎麼規劃。

  • 2.3)manus耗時3分15秒。

Manus整體的視覺效果非常好,很清晰,我想要的景點也都囊括了,而且還有詳細的交通介紹與美食價格介紹。畢竟去旅遊,有個參考價格還是蠻重要的。

  • 2.4)MiniMax Agent耗時22分45秒。

跟上一個任務的「拉跨」表現相比,MiniMax Agent在第二個任務里大為改觀,整個旅遊計劃從景點,到交通,再到價格,都給我講得明明白白的。

還給出了我想去的景點的詳細介紹、美食詳細介紹、住宿參考等。整體的風格非常小紅書,對於旅遊攻略來說,非常有用。

  • 2.5)Flowith耗時17分21秒。

Flowith的時間控制,在這幾份旅遊計劃中算是非常精細了。表格式的計劃讓人一眼就懂,還給出了很多諸如住宿、餐飲、景點等有用信息,非常不錯。

整體看來可能就是風格有點素,像是旅行團的官方文件。

總的來說,第二個任務花費時間較長的兩個Agent所做出的效果也算對得起花費的時間,非要選個我覺得結果最好的話,我認為是MiniMax Agent

3)創意設計

最後,測試下圖像理解、空間感知、創意輸出、圖文匹配。

Prompt:這是我家客廳照片,推薦合適的改造風格,並輸出新風格的3D佈置草圖或改造建議圖示。

  • 3.1)Genspark耗時5分43秒。

Genspark的識圖能力很優秀,空間感很好,它生成的圖片佈局跟我給它的圖片佈局一致。出圖效果也很好,圖片風格和文字描述匹配。

  • 3.2)扣子空間耗時3分18秒。

扣子空間給的風格圖,看起來都很好看。但是沒有一張是按照原圖的空間佈局來設計的,應該是沒有理解原圖和我的Prompt。

  • 3.3)Manus耗時5分06秒。

Manus的圖片理解也很不錯,生成的圖片空間佈局與原圖一致,效果也很不錯,就是有點太樣板間了。

  • 3.4)MiniMax Agent耗時21分17秒。

方案給得非常多,數據羅列也非常仔細,可惜就是沒有讀懂我的圖。那,所有工作不是白費嘛……

  • 3.5)Flowith耗時15分45秒。

雖然Flowith只給出了一種風格,但是我從它生的圖和文字表達來看,它讀懂了原圖的空間佈局。而且裝修方案也很細緻,各方面都有考慮到。

最後一個任務,最優秀的當屬Flowith,真的是很細緻的分析了從色彩到燈光等各個方面的選擇,可以直接拿來當裝修參考方案了。

寫在最後

從3個測試任務來看,Genspark這個Agent發揮最為穩定,每個任務的完成度都很高

Manus則是最平均的那個,每個任務都能做,而且都在及格線以上。

MiniMax Agent和扣子空間,雖然在某些任務上不盡如意,但都有自己非常擅長的地方。

Flowith Neo則稍遜Genspark、略勝Manus,但是它每個任務的時長都比較長,使用這款Agent需要點耐性。

當然,現階段這些Agent都支持大家免費體驗。所以,你不妨把一個任務放到各家Agent里都去試試。說不定,會有意想不到的事情發生

畢竟,這是AI隨機之美。