用Manus做完3個任務後,我們發現它或許能替代實習生,但也會偷懶擺爛

自從上週初創公司 Monica 發佈通用 AI Agent —— Manus 以來,它就像野火一樣在網絡上迅速蔓延傳播。

不僅在中國如此,它在全球範圍內同樣引起了廣泛關注,其中不乏 Twitter 聯合創始人 Jack Dorsey 和 Hugging Face 的產品負責人 Victor Mustar 等在內的科技界知名人士都對其表現讚不絕口,還有人甚至將 Manus 視為「第二個 DeepSeek」。

Manus 聲稱是全球首款真正意義上的通用 AI Agent,其整合了多個 AI 模型(如Anthropic 的 Claude 3.5 Sonnet 及阿里巴巴開源的 Qwen 的微調版本)以及多種獨立運行的智能體,

Manus 不僅能生成和提供想法,更能獨立思考並採取行動,將想法付諸實踐來真正解決問題,具備從規劃到執行全流程自主完成任務的能力,比如撰寫報告、製作表格等。而這,使它區別於基於單一大型語言模型家族設計主要用於對話交互的 AI 聊天機器人。

(來源:MIT Technology Review)(來源:MIT Technology Review)

儘管備受關注,但實際上真正使用過 Manus 的人卻很少。

截至目前,在「等待名單」上只有不到 1% 的用戶收到了邀請碼(具體等待人數尚不清楚,但僅從興趣度來看,Manus 的 Discord 頻道就有超過 186,000 名粉絲)。

如今,《麻省理工科技評論》獲得了訪問 Manus 的機會。在我對其進行深度體驗後,感覺就像是在與一位高度智能且高效的人類實習生合作。儘管偶爾會誤解任務要求、做出錯誤假設,或是為了加快進度而「偷工減料」,但它能夠清晰地解釋自己的思考過程,具有很強的適應性,並在接受詳細指導或反饋後顯著提高性能。

總結來說:它是有前景的,但並非完美無缺。

與該公司早先發佈的面向全球用戶的 AI 助手 Monica 類似,Manus 預設設置也是英文界面,設計比較簡潔明了。

初次使用 Manus,用戶首先需要輸入有效的邀請碼,然後系統會引導用戶進入一個與 ChatGPT 或 DeepSeek 相似的登陸頁面,左側顯示之前的會話,中間主體部分是聊天輸入框。登陸頁面還展示了公司精選的一些示例任務,從商業策略開發,到互動學習,再到定製音頻冥想課程等。

(來源:MIT Technology Review)(來源:MIT Technology Review)

與其他基於推理的 AI 工具(如 ChatGPT DeepResearch)一樣,Manus 能夠將任務分解為多個步驟,並自主瀏覽網絡以獲取完成任務所需的信息。

與眾不同的是「Manus’s Computer」窗口,它不僅可以讓用戶觀察智能體正在做什麼,還可以在任何時候進行干預。

為了測試它的功能,我給 Manus 佈置了三項任務:1、整理一份報導中國科技領域的知名記者名單;2、搜索紐約市的兩居室房源;3、提名《麻省理工科技評論》每年評選的「35 歲以下科技創新 35 人」候選人。

以下是 Manus 的完成情況。

任務 1:Manus 給出的第一份記者名單只有區區五個名字,並在下面列出了五個「榮譽提名」。我注意到,它對某些記者的代表作進行了標註,但對其他人卻沒有這樣做。當我詢問原因時,Manus 的回答出奇地簡單:它偷懶了。

「由於試圖加快整理過程,時間限制導致部分工作做得不夠細緻。」Manus 告訴我。在我堅持要求保持一致性和完整性之後,Manus 提供了一份包含 30 名記者的詳盡名單,註明了他們目前的工作單位和代表作。(我很高興看到自己和許多敬重的同行都在名單上。)

令我印象深刻的是,我可以像指導人類實習生或助手一樣提出修改建議,而 Manus 也能夠恰當地回應。雖然最初它忽略了某些記者僱主變更的信息,但在我的要求下重新檢查後,它很快就進行了修正;另外一個不錯的功能是,輸出結果可以下載為 Word 或 Excel 文件,便於編輯或分享。

然而,當嘗試訪問付費新聞文章時,Manus 遇到了麻煩,頻繁遇到驗證碼障礙。由於我能夠一步步地進行跟進,所以可以輕鬆接手並幫助完成這些任務,畢竟有很多媒體網站以可疑活動為由阻止 Manus 訪問。我認為在這方面有很大的改進空間,如果未來的 Manus 版本能在遇到這類限制時主動尋求幫助將會進一步提高效率。

任務 2:對於房源搜索任務,我給出了一系列限制條件,包括預算、寬敞的廚房、戶外空間、曼哈頓市中心的可達性,以及距離主要火車站七分鐘步行範圍內等要求。

Manus 最初對模糊的要求,比如「某種形式的戶外空間」理解過於字面化,完全排除了沒有私人露台或陽台的房源。不過,在我進一步指導和澄清後,它生成了一個更廣泛且有用的清單,分層次提出建議,並提供了簡潔的要點概括。

它最終生成的結果看起來就像出自 Wirecutter(知名產品評測網站),包含諸如「最佳綜合選擇」、「最佳性價比」和「豪華選項」等副標題。這個任務(包括來回溝通)花費不到半小時,少於整理記者名單所需的一個多小時,這或許是由於房源信息在網上更加公開和結構化。

任務 3:這也是最具挑戰性的任務,我讓 Manus 為今年的「35 歲以下科技創新 35 人」評選提名 50 人。出於對 Manus 的表現十分好奇,我很想看看它能做到什麼程度。要知道,這項任務量巨大,我們通常每年會收到數百份報名申請。

來到 Manus 這裏,它首先將任務分解成了幾個步驟,包括回顧以往的名單以瞭解選拔標準、製定搜索策略以識別候選人、收集姓名並確保候選人的多樣性等。

製定搜索策略是整個過程最耗時的部分,雖然 Manus 沒有明確說明其方法,但從「Manus’s Computer」窗口可以看到它迅速瀏覽了大量著名研究型大學網站、科技獎項公告以及新聞。然而,就像在執行任務 1 時那樣,當 Manus 嘗試訪問學術論文和付費內容時再次遇到了障礙。

網絡搜索長達三個多小時,在此期間 Manus 多次詢問我是否可以縮小搜索範圍,但它只提供了三名具有完整背景資料的候選人。在我要求提供完整的 50 人名單時,它最終生成了一份名單,但某些學術機構和領域的局域代表性非常高,似乎反映出它的研究過程並不全面。

在我指出這個問題並要求它從中國尋找五位候選人後,它編製了一份可靠的五位候選人名單,不過這些候選人似乎都偏向於在中國媒體上備受關注的人物。最終,由於系統警告繼續輸入過多文本可能會降低 Manus 的性能,我不得不選擇放棄。

我的觀點:總體而言,我發現 Manus 是一款非常直觀的工具,即便是沒有編程背景的用戶也能輕鬆上手使用。在三項任務中,它有兩項任務提供的結果優於 ChatGPT DeepResearch,儘管完成這些任務所需的時間更長。

Manus 似乎比較適合那些需要廣泛使用開放互聯網進行研究但範圍相對有限的分析任務。換句話說,它最適用於處理類似於熟練人類實習生在一天工作時間內能夠完成的工作。

然而,並非一切都非常順利。Manus 還經常遭遇崩潰和系統不穩定的問題,在處理大量文本時可能會遇到卡頓。比如,當我嘗試啟動新請求時,「由於當前服務負載較高,無法創建任務,請幾分鐘後重試」這一消息在我屏幕上閃現了好幾次,偶爾「Manus’s Computer」也會在一個頁面上長時間凍結。

據 Manus 首席科學家季逸超(Peak Ji)所說,「它的故障率高於 ChatGPT DeepResearch,團隊目前正在著手解決這個問題。」

值得注意的是,有媒體報導,Manus 每項任務的成本約為 2 美元,僅為 DeepResearch 成本的十分之一。如果 Manus 團隊加強其服務器基礎設施,我認為該工具或將成為個人用戶的首選,尤其是白領專業人士、獨立開發者和小型團隊。

最後,我認為 Manus 的工作過程相對透明且具有協作性,這一點非常有價值。它在執行過程中會主動提問,並將關鍵指令作為「知識」存儲在其記憶中以備將來使用,從而提供了一個「易於定製的智能體」體驗。此外,每次會話都可以重播和分享,這也很方便。

我預計我會在日常生活以及工作中繼續使用 Manus 來完成各種任務。雖然我不確定將其與 DeepSeek 進行比較是否完全恰當,但這進一步證明了中國的 AI 公司並不是在追隨西方同行的腳步:不僅在基礎模型上進行創新,還在以自己的方式積極推動自主 AI 智能體的應用和發展。

原文鏈接:

https://www.technologyreview.com/2025/03/11/1113133/manus-ai-review/