2025十大AI技術趨勢:具身智能、世界模型都有望迎來ChatGPT時刻|鈦媒體AGI

(圖片來源:unsplash)(圖片來源:unsplash)

鈦媒體AGI獲悉,1月8日上午,北京智源人工智能研究院(以下簡稱「智源研究院」)發佈《十大人工智能技術及應用趨勢》報告,包括「具身智能」、世界模型、合成數據等全新 AI 技術趨勢,以剖析科技演進軌跡。

智源研究院院長王仲遠表示,當前我們處在 AI 發展的新拐點,大模型的能力湧現加速通用人工智能(AGI)時代的到來,原生統一多模態、具身智能、AI for Science,將進一步深化人工智能對世界的感知、理解與推理,連接數字世界與物理世界,驅動科學研究創新突破。智源研究院作為聚焦 AU 領域的新型研發機構,希望在這個特殊的時刻以十大趨勢為出發點,為 AI 技術領域指明發展方向,攜手共進。

智源研究院副院長兼總工程師林詠華在會上表示,大家都期待 AI 能夠超越人類的智力,實現通用人工智能(AGI),並從數字世界走向物理世界,甚至在未來幫助我們去探索未知的領域(世界)。然而,隨著AGI目標的逐步推進,實現這一目標的過程中可能會出現多種路徑和方法(百花齊放),至於哪條路徑能夠通往終點,以及真正實現AGI還有多遠的路要走,這些問題目前尚無定論。

具體到智源研究院公佈的2025年十大 AI 技術趨勢中,趨勢一是 AI for Science(AI4S)驅動科學研究範式變革。據統計,2024年,科研人員使用AI的比例快速增加,接近半數的科研人員認為,AI將對其工作領域產生積極影響,而美國和印度分別只有28%和41%。這意味著,AI對科學研究方法和流程的變革效應也開始顯現。

隨著盧保獎物理學、化學獎都頒給了 AI 賽道,推動科學研究與 AI 技術不斷結合,從聚焦優化特定任務向更複雜、更動態、更交叉的問題發展。2025年,多模態大模型將進一步融入科學研究,將賦能多維數據的複雜結構挖掘,輔助科研問題綜合理解與全局分析,為生物醫學、氣象、材料發現、生命模擬、能源等基礎與應用科學研究開闢新方向。

趨勢二 「具身智能元年」,具身大小腦和本體的協同進化。2025年,「具身智能」將繼續從本體擴展到具身腦的敘事主線,我們可以從三方面有更多期待。在行業格局上,國內近100家的具身初創公司或將迎來洗牌,廠商數量開始收斂;在技術路線上,端到端模型繼續迭代,小腦大模型的嘗試或有突破;在商業變現上,我們也必將看到更多的工業場景下的具身智能應用,部分人形機器人迎來量產。

趨勢三、「下一個Token預測」:統一的多模態大模型實現更高效AI。人工智能的本質在於對人的思維的信息過程的模擬,人類對於信息的交互和處理,總是呈現多模態、跨模態的輸入輸出狀態。當前的語言大模型、拚接式的多模態大模型,在對人類思維過程的模擬,存在天然的局限性。從訓練之初就打通多模態數據,實現端到端輸入和輸出的原生多模態技術路線給出了多模態發展的新可能。基於此,訓練階段即對齊視覺、音頻、3D等模態的數據,實現多模態的統一,構建原生多模態大模型成為多模態大模型進化的重要方向。

趨勢四,Scaling Law擴展:RL(強化學習)+ LLMs,模型泛化從預訓練向後訓練、推理遷移。基於Scaling Law推動基礎模型性能提升的訓練模式「性價比」持續下降,後訓練與特定場景的Scaling law不斷被探索。強化學習作為發現後訓練、推理階段的Scaling Law的關鍵技術,也將會得到更多的應用和創新使用。

趨勢五、世界模型加速發佈,有望成為多模態大模型的下一階段。據悉,世界模型具備更注重「因果」推理作用,賦予AI更高級別的認知和更符合邏輯的推理與決策能力,這種能力不僅能推動AI在自動駕駛、機器人控制及智能製造等前沿領域的深度應用,更有望突破傳統的任務邊界,探索人機交互的新可能。

趨勢六、合成數據將成為大模型迭代與應用落地的重要催化劑。高質量數據將成為大模型進一步Scaling up的發展阻礙。合成數據已經成為基礎模型廠商補充數據的首選。合成數據可以降低人工治理和標註的成本,緩解對真實數據的依賴,不再涉及數據隱私問題;提升數據的多樣性,有助於提高模型處理長文本和複雜問題的能力。此外,合成數據可以緩解通用數據被大廠壟斷,專有數據存在獲取成本等問題,促進大模型的應用落地。

趨勢七、推理優化迭代加速,成為AI Native應用落地的必要條件。大模型硬件載體從雲端向手機、PC等端側硬件滲透,在這些資源受限(AI算力、內存等)的設備上,大模型的落地應用會面臨較大的推理側的開銷限制,對部署資源、用戶體驗、經濟成本等均帶來巨大挑戰。算法加速和硬件優化技術持續迭代,雙輪驅動加速AI Native應用落地。

在圓桌對話上,螞蟻集團大模型對齊負責人溫祖傑表示,OpenAI發佈會上曾推出現實版的「Her」,你可以跟它進行實時互動,利用大模型觀察你的行為動作,看周圍的環境,交互更自然。多模態不止是指影片生成,其實還有圖文多模態,OCR多模態等能力。比如螞蟻集團的「探一探」,不僅通過視覺能力去拍照識圖,而且還可以基於多模態能力實現多輪對話式的互動交流,這是一個更加符合真實體驗的產品感知,在這些方向上可能會比較有前景。

趨勢八、重塑產品應用形態,Agentic AI成為產品落地的重要模式。2025年,更通用、更自主的智能體將重塑產品應用形態,進一步深入工作與生活場景,成為大模型產品落地的重要應用形態,在2025年我們將看到更多智能化程度更高、對業務流程理解更深的多智能體系統在應用側的落地。

智源研究院行業研究組負責人倪賢豪表示,從Chatbot到Copilot,再到Agent與Agentic AI,行業對於AI應用形態的理解越發深入。尤其是Agent到Agentci AI,其背後標誌著從判斷產品是否屬於Agent,到探討產品的智能化程度這一更有落地意義的轉變。在未來一年時間里,未必我們能看到更多迥異的應用形態變化,也並不會出現很多完全不一樣的Agent應用模式。

趨勢九、AI應用熱度漸起,Super App(超級應用)花落誰家猶未可知。近一年時間,生成式AI模型在圖像、影片側的處理能力得到大幅提升,疊加推理優化帶來的降本,Agent/RAG框架、應用編排工具等技術的持續發展,為AI超級應用的落地積基樹本。大模型應用從功能點升級,滲透到AI原生的應用構建及AI OS的生態重塑。雖然Super APP花落誰家尚未塵埃落定,但從用戶規模、交互頻次、停留時長等維度來看,AI應用熱度持續攀升,已到應用爆發的黎明前夕。

倪賢豪表示,目前做出「超級應用」是有一定機會的。儘管移動互聯網用戶增速已經見頂,但我們在非網民用戶群體里還是能看到規模過億、具備消費能力但因代際原因無法便捷入網的用戶。這些用戶面臨非現金支付、信息獲取、線上買票掛號等剛需問題。對於這些問題的解決,我們未必需要Agent在智能化程度、自主性上做極致追求,基於較好的基礎模型,結合以上不同能力對應的廠商接口適配(PlugIn、Tools),做出一款能滿足上述用戶群體需求的Agent,對於目前來說,模型和工程能力都是可行的。

倪賢豪認為,在這個邏輯下,如何對接不同廠商完成接口適配、封裝,反而成為一個同樣重要的問題。諸如此類的對接適配,對應的反而是對廠商渠道建設和運營能力的要求。

「因此,在All in One為標誌特徵的超級應用敘事里,大廠可能更有機會,以上提及的渠道建設能力,對於大廠而言相對成熟。但對於創業公司來說,這些工作需要從0到1做起,難度極大。」倪賢豪稱。

趨勢十、模型能力提升與風險預防並重,AI安全治理體系持續完善。作為複雜系統,大模型的Scaling帶來了湧現,但複雜系統特有的湧現結果不可預測、循環反饋等特有屬性也對傳統工程的安全防護機制帶來了挑戰。基礎模型在自主決策上的持續進步帶來了潛在的失控風險,如何引入新的技術監管方法,如何在人工監管上平衡行業發展和風險管控?這對參與AI的各方來說,都是一個值得持續探討的議題。

溫祖傑表示,AI安全具有顯著的「對抗性」特徵,這是一種此消彼長的關係。也就是說,當攻擊手段增強時,防禦手段也會相應提升,因此,在大型模型的安全能力方面,我們需要不斷地提升攻防兩端的實力,而採用「大模型對抗大模型」的方法,是一個積極的發展趨勢。另外,在安全圍欄技術方面,我們必須確保輸入和輸出的安全性,降低遭受攻擊的風險,通過建立一套完整的策略系統和安全防護組合,我們可以推動AI大模型的安全應用落地。

事實上,AI 作為新質生產力的重要引擎,不僅代表了科技的前沿趨勢,更是未來經濟發展的關鍵驅動力,目前已產生明顯的經濟效益和社會效益。

研究機構IDC最新數據顯示,隨著 AI 應用持續走深向實,行業大模型在金融、醫療、教育、零售、能源等多個行業領域實現初步應用,到2025年,全球 AI 支出將達2270億美元。預計到2030年,AI 將為全球經濟貢獻19.9萬億美元(約合145.9萬億元人民幣),推動全球GDP增長3.5%。而目前,幾乎98%的企業領導者將AI視為其組織的優先事項。

對於未來展望,多位行業專家紛紛表示,他們期望在2025年能夠見證像GPT-5這樣的下一代大模型的誕生,並在大模型的安全性和理論可解釋性方面取得重大進展。「我不知道這是不是太美好了,但我希望有一個AI,可以跟人的學習效率差不多。」

(本文正選於鈦媒體App,作者|林誌佳,編輯|胡潤峰)