AI Agent到底哪家強?橫評五款主流Agent
最近,滿地都是AI Agent,僅最近半個月,就爆出了10多款。

AI Agent,現已成為繼LLM(
Large Language Model,大語言模型)後的時尚新寵,各家廠商瘋狂推Agent猶如過江之鯽。
那麼問題來了,到底哪個Agent更勝一籌?今天,我們就來給大家橫向測評一下。

關於測評方法
我選擇了5款熱門的通用型AI Agent,分別是Genspark、MiniMax Agent、Flowith Neo、Manus和扣子空間。
對於Agent來說,感知、思考、行動 、循環四個步驟中LLM都扮演了重要的角色。
如果分開每個步驟來對比,就變成了對比LLM的優劣。而Agent是一個框架,所以我們不去管它的任務處理過程如何,而是僅針對交付結果進行評判(本次測試皆為標準token投入)。
每個Agent,我選了三個不同領域的任務進行統一測試:
1.檢索微信公眾號平台2025年來的熱門AI話題前5,並總結原因分別輸出為pdf、圖表和html格式。(測試任務拆解、效率與準確性、多模態輸出)
2.為我規劃一個預算不超過3000元、4天3晚的成都旅遊計劃,必須包含川劇變臉、寬窄巷子和熊貓基地。(測試邏輯嚴謹和工具調用)
3.這是我家客廳照片,推薦合適的改造風格,並輸出新風格的3D佈置草圖或改造建議圖示。(測試圖像理解、空間感知、創意輸出、圖文匹配)

橫評3個Case
1)總結熱門AI話題
先來一個最簡單的,測試最基本的任務拆解能力,同時也看下效率和準確性。
Prompt:檢索微信公眾號平台2025年來的熱門AI話題前5,並總結原因分別輸出為pdf、圖表和html格式。
-
1.1)Genspark耗時12分43秒。
我們先來看下它輸出的網頁。
Genspark的HTML文件做得很規整,既蒐羅了5大熱門話題,還深度分析了原因,內容信息也比較準確。
可視化圖表也完成得不錯,無論是數據收集方向還是圖表種類的使用都非常豐富,排版也很好看。
PDF文件可讀性也不錯,它對顏色的處理很到位,讓人一眼就能看出每個段落或每個話題是從哪開始,到哪結束。
-
1.2)扣子空間耗時10分15秒。
扣子空間找到的5個熱門話題跟Genspark不一樣,看來每個Agent都有自己的理解。
但是可以明顯看出,扣子空間沒有Genspark細緻,沒有對單個話題進行原因分析,只是在最後做了整體分析。
圖表看起來就很樸素了,實在不知道該如何評價,如果非要說的話,只能說這也算是表。

雖說PDF只是一種格式,但如果全是文字,不知道的還以為在COS那個Word文檔呢。
還有,我提示詞里要的原因分析,扣子空間你給我幹哪去了……

-
1.3)Manus耗時11分49秒。
整體要求達到了,既羅列了5個最熱話題,也對具體問題進行了分析,算是達標。
然後,用了三種圖表來展示各個熱門話題的熱度對比,非常直觀。



不過,PDF部分……又給我幹哪兒去了,不是說好的PDF嗎?這不跟Word文檔有什麼區別,不過好歹分析的還算細緻。

-
1.4)MiniMax Agent耗時16分03秒。
MiniMax把這五個話題倒是列出來了,但是沒有分析原因,排版也缺點美感。

圖表…咋說呢,可能這就是MInimax Agent還是Bate版的原因吧。。。

雖然又是一版Word文檔的PDF,但是該有的內容都有。熱門話題簡介和流行原因都說的還算明白,不過讀起來,一股子AI味。
-
1.5)Flowith Neo耗時19分27秒。
雖然耗時有點長,但是最終的結果還不錯,不僅分析了話題流行的原因,還給出了相關的數據和案例支撐,研究得非常細緻。
圖表整體來說,也算中規中矩(但說實話,比起前面的有些圖表來說,普通也算優秀了

),還添加了話題關聯度分析圖,我覺得很有新意。
PDF文件依舊是純文字版,但是文字詳實,分析有理有據,讓我來寫我怕是寫不出來。
總的來說,這個任務我最喜歡的是Genspark,對於提示詞的理解到位,輸出的內容質量和形式也還不錯(包括文字優化和視覺優化),在5款Agent中算是比較突出的。
2)旅遊規劃
再來測試下邏輯嚴謹性、工具調用方面。
Prompt:為我規劃一個預算不超過3000元、4天3晚的成都旅遊計劃,必須包含川劇變臉、寬窄巷子和熊貓基地。
-
2.1)Genspark耗時3分27秒。
整體規劃中對景點和價格比較注重,細緻羅列了各項支出,但是對遊覽時長和交通時長沒有太多交代。
-
2.2)扣子空間耗時2分56秒。
主要的景點,一個沒有落下,但是對於預算規劃有些敷衍,各景點、各美食的價格也沒怎麼交代,交通路線也沒怎麼規劃。
-
2.3)manus耗時3分15秒。
Manus整體的視覺效果非常好,很清晰,我想要的景點也都囊括了,而且還有詳細的交通介紹與美食價格介紹。畢竟去旅遊,有個參考價格還是蠻重要的。
-
2.4)MiniMax Agent耗時22分45秒。
跟上一個任務的「拉跨」表現相比,MiniMax Agent在第二個任務里大為改觀,整個旅遊計劃從景點,到交通,再到價格,都給我講得明明白白的。
還給出了我想去的景點的詳細介紹、美食詳細介紹、住宿參考等。整體的風格非常小紅書,對於旅遊攻略來說,非常有用。
-
2.5)Flowith耗時17分21秒。
Flowith的時間控制,在這幾份旅遊計劃中算是非常精細了。表格式的計劃讓人一眼就懂,還給出了很多諸如住宿、餐飲、景點等有用信息,非常不錯。
整體看來可能就是風格有點素,像是旅行團的官方文件。
總的來說,第二個任務花費時間較長的兩個Agent所做出的效果也算對得起花費的時間,非要選個我覺得結果最好的話,我認為是MiniMax Agent。
3)創意設計
最後,測試下圖像理解、空間感知、創意輸出、圖文匹配。
Prompt:這是我家客廳照片,推薦合適的改造風格,並輸出新風格的3D佈置草圖或改造建議圖示。

-
3.1)Genspark耗時5分43秒。
Genspark的識圖能力很優秀,空間感很好,它生成的圖片佈局跟我給它的圖片佈局一致。出圖效果也很好,圖片風格和文字描述匹配。
-
3.2)扣子空間耗時3分18秒。
扣子空間給的風格圖,看起來都很好看。但是沒有一張是按照原圖的空間佈局來設計的,應該是沒有理解原圖和我的Prompt。
-
3.3)Manus耗時5分06秒。
Manus的圖片理解也很不錯,生成的圖片空間佈局與原圖一致,效果也很不錯,就是有點太樣板間了。



-
3.4)MiniMax Agent耗時21分17秒。
方案給得非常多,數據羅列也非常仔細,可惜就是沒有讀懂我的圖。那,所有工作不是白費嘛……
-
3.5)Flowith耗時15分45秒。
雖然Flowith只給出了一種風格,但是我從它生的圖和文字表達來看,它讀懂了原圖的空間佈局。而且裝修方案也很細緻,各方面都有考慮到。
最後一個任務,最優秀的當屬Flowith,真的是很細緻的分析了從色彩到燈光等各個方面的選擇,可以直接拿來當裝修參考方案了。

寫在最後
從3個測試任務來看,Genspark這個Agent發揮最為穩定,每個任務的完成度都很高。
Manus則是最平均的那個,每個任務都能做,而且都在及格線以上。
MiniMax Agent和扣子空間,雖然在某些任務上不盡如意,但都有自己非常擅長的地方。
Flowith Neo則稍遜Genspark、略勝Manus,但是它每個任務的時長都比較長,使用這款Agent需要點耐性。

畢竟,這是AI隨機之美。