【深度】從Manus到MCP：25年AI的三大新趨勢

03月15日 16:43 新浪網 tech-auto-hilite

文 | AlphaEngineer，作者 | 費斌傑（北京市青聯委員熵簡科技CEO）

25年開年以來，AI發展如火如荼，DeepSeek R1、OpenAI CUA、Manus等重要創新層出不窮，眼花繚亂。

這裏我將最近一個月以來的思考總結一下，對25年AI發展趨勢做幾點預判。

（1）Manus：Agent元年的一次搶跑

Manus推出之後，我們第一時間拿到了體驗帳號，進行了充分的體驗測評。

先說結論：雖然Manus目前還有種種不足，但它的產品設計思路創意滿滿，值得我們給予充分的肯定。

Manus的核心架構基於「虛擬機+多Agent協同」模式，通過整合多個底層大模型（如GPT-4、Claude 3等）的API，實現任務的動態分配與模型調用。

Manus突破了傳統AI助手僅生成建議的局限，實現了從「需求輸入」到「成果交付」的端到端閉環。

Manus提出「Less Structure, More Intelligence」的交互理念，通過無代碼化的自然語言接口降低用戶使用門檻。

與此同時，Manus使用一個外置的markdown文件來管理Agent的任務規劃，並且將階段性的工作成果存儲為獨立文件，這也是一個非常有趣的創新點。

（2）Manus的不足與缺陷

Manus在MultiAgent的道路上提供了一種非常有趣的思路，但現在依然存在一些顯而易見的不足之處。

首先是「幻覺累加」的問題。

Agent的本質是多次大模型問答的串並聯。如果單次大模型問答的準確率是90%，串聯10次的話，最終Agent回答準確的概率是0.9^10，只有1/3左右了。

在下面的案例中，Manus的任務是針對某上市公司進行財務數據分析。Manus很聰明的import了data_api模塊，準備從雅虎提供的接口中調取財務數據。

但是在process_financial_data函數中，manus竟然把revenue、gross_profit等數據直接「硬編碼」到了代碼中，讓人猝不及防。而且經過驗證，這裏的數據有部分是錯誤的。

如果原始數據出錯了，那麼後續無論分析得多麼深入、圖表做得多麼fancy都失去了意義。

Manus的第二個問題是可供大模型調用的工具不足。

下面這個例子中，Manus的任務是寫一篇關於「小米Su7」的市場分析報告PPT。

Manus完美的拆分了任務，並且檢索了大量新聞，但是最後它無法生成一份PPT，因為它無法調用Office軟件。

目前Manus輸出的內容形式多為純文本或者網頁，還無法和人類工作流進行完美融合。

Manus遇到的第三個挑戰是小院高牆的互聯網生態。

互聯網上有很多優質信息是存放在「圍欄」中的。

比如當我們讓Manus去分析比較市面上所有AI智能眼鏡的性價比時，它聰明的找到了對應商品的淘寶網頁。

但是當Manus想要打開具體產品頁面獲取價格性能等詳細信息時，淘寶判定它為機器人，並拒絕了Manus的訪問。

無獨有偶，當我們讓Manus為一家非上市公司進行出具商業分析報告時，Manus為了獲取公司的最新融資進展，訪問了CrunchBase數據庫。

但是Manus的訪問被CrunchBase判定為機器人，隨後被無情的拒絕了。

互聯網看似公開透明，實則存在大量類似小院高牆的情況，優質信息往往就存放在這些高牆之內，Manus無法直接獲取，這無疑阻礙了Manus的工作效果。

儘管有著種種問題和挑戰，Manus依然給大家描繪了MultiAgent的巨大前景，打響了Agent元年的第一槍，值得我們給予充分的肯定。

在Manus佔據大家視野的同時，海外AI大廠究竟做了哪些技術儲備呢？

（3）OpenAI CUA：一個會自主操作電腦的Agent

在今年的1月底，OpenAI發佈了由其新模型CUA（Computer-Using Agent）驅動的AI智能體Operator。

CUA模型融合了GPT-4o的視覺能力和通過強化學習實現的高級推理能力，能夠將任務分解為多步驟計劃，並在遇到挑戰時進行在我調整和糾正。

簡而言之，CUA就是一個會操作電腦的Agent，它的運作原理非常直白且簡潔，如下圖所示。

首先，CUA會同時接受兩種模態的輸入：其一是文本指令，其二是屏幕截圖。

首先，CUA會同時接受兩種模態的輸入：其一是文本指令，其二是屏幕截圖。

CUA會同時處理這兩種信息，並且生成一系列動作指令，比如「點擊屏幕上坐標為(300,200)的點，並且輸入XXX，按回車」。

電腦接受到指令並完成操作後，會將新的屏幕截圖與新的任務指令返回給CUA，如此循環往複，直到獲得最終答案。

那麼CUA目前操作電腦的能力達到了怎樣的水平呢？

根據OpenAI的官方測評，CUA在操作電腦和操作瀏覽器這兩個場景上，相比上一代SOTA都有了巨大的性能提升。

但是相比人類而言，依然有著較大的差距。換句話來說，目前頂級的Agent依然沒有辦法像一個成年人一樣正確的操作電腦，但我相信這個現狀在今年內就會發生質變。

（4）Anthropic MCP：AI時代下的TCP/IP協議

剛才在分析Manus的缺陷時，提到了「工具不足」的問題。

Anthropic顯然也意識到了這個問題，並在去年年底推出了MCP來從根源上解決這個問題。

MCP的全稱是Model Context Protocol，它定義了應用程序和AI模型之間交換上下文信息的方式，這使得開發者能夠以一致的方式將各種數據源、工具和功能連接到 AI 模型。

MCP之於AI，有點類似於TCP/IP之於互聯網。

MCP有三個重要特點：

當前越來越多的工具及服務開始接入MCP，呈現愈演愈烈之勢，包括Google Maps、PGSQL、ClickHouse（OLAP數據庫）、Atlassian、Stripe等等。

在Smithery平台上你可以輕鬆查找不同功能對應的工具及服務。隨著越來越多的Server接入MCP協議，未來AI能夠直接調用的工具將呈現指數級增長，這能從根源上打開Agent能力的天花板。

（5）2025年AI發展新趨勢：後訓練、RL、MultiAgent

這裏我結合最近幾個月以來的觀察和思考，總結一下25年AI發展的幾點重要趨勢。

第一，預訓練即將終結，後訓練成為重點。

這其實已經是行業共識。去年年底時，Ilya在NeurIPS大會上提到一個重要觀點：數據是AI時代的化石燃料，因為我們人類只有一個互聯網。

與此同時，在今年DeepSeek R1的論文中，提到了後訓練將成為大模型訓練管線中的重要組成部分。

第二，針對後訓練而言，強化學習將成為主流，監督學習的重要性逐漸下降。

DeepSeek R1帶來最重要的啟發是：純粹的RL可能是通向AGI的正確路徑。

隨著湯臣S的增加，大模型會自我湧現出複雜的推理行為，而無需刻意引導。

如下邊右圖所示，橫軸是大模型RL的迭代步數，縱軸是單次問答的token長度。我們可以看到，隨著大模型RL步數的增加，大模型會自主的從「快思考」變成「慢思考」，從最開始每次回答100個token，到最後每次回答接近10000個token。

DeepSeek團隊將這種現象稱為「self-evolution」，並認為它是「the emergence of sophisticated behaviors」。

具體是哪些複雜行為的湧現呢？DeepSeek也給出了答案，比如：self-verfication, reflection等。

這個發現對於我們來說有著重要的啟發。未來監督學習在AI訓練中究竟應該扮演怎樣的角色？監督學習是否反而限制了AI解決問題的能力？

是否不應該讓AI通過模仿人類的思維方式來獲得智能，而是讓AI發展出更加原生的智能？

這些問題，都有待整個AI行業通過實踐來給出答案。

第三，MutiAgent是確定性的大趨勢。

如果將AI和人腦進行類比的話，大模型就像是人腦中的「前額葉」。

眾所周知，前額葉主要負責高級認知功能，比如注意力的分配、思考推理、決策等。

但是僅僅有前額葉，大腦是無法處理複雜任務的。我們需要有顳葉來進行聽覺信號的解析，需要頂葉進行閱讀和算術，需要小腦來進行運動協調，需要海馬體來進行記憶索引。

MultiAgent的定義恰恰就是讓多個不同的模型之間互相協調，從單獨的「前額葉」走向「完整的大腦」，從而處理更加複雜的現實任務。

在這個藍圖中，MCP就起到了非常重要的作用：協調統一大模型與各工具之間的數據通信接口。

（6）結語：抓好扶手，未來已來！

2025年是AI Agent元年，Manus的出現打響了第一炮。

無論是OpenAI的CUA還是Anthropic的MCP都指向了一個共同的未來，未來2年AI的發展速度將非常陡峭。

抓好扶手，未來已來！