達摩院趙德麗:Scaling law 打破固定路徑加速 AI 變革,具身智能爆發在即
作者:達摩院首席科學家 趙德麗
我們正身處一場技術革命的歷史開端,以 ChatGPT 為標誌的這輪 AI 科技浪潮是算法和軟件誕生以來人類科技最重要的技術變革,由此開啟了以智能為核心的第四次工業革命。這次 AI 變革是由以 Scaling law 為底層邏輯的基礎模型驅動,其整體的發展脈絡由基礎模型的技術邏輯主導。
進入 2025 年,我們清晰地看到,Scaling law 本身仍然成立,但以堆算力以及一味追求擴大模型尺寸的迭代路徑已經被打破。同時,基礎模型本身的迭代趨於階段性收斂,Transformer-like 逐漸成為統一的底層架構。此外,生成模型的潛力遠遠還沒有得到釋放,其將快速深入科學研究在內的多個領域,或大放異彩…
本文以「DAMO 開發者矩陣」2025 開篇為契機,對當前 AI 的發展邏輯進行梳理,展望 2025 年的 AI 趨勢,初探未來的景象。限於篇幅,僅對於部分方向加以討論闡述。
1.通用人工智能 (AGI) 的四種路徑
目視遠方,才能更好理解我們身處的當下。實現通用人工智能 (AGI,這裏也包含常說的超級人工智能)是 AI 的發展目標,利用 AI 算法達到甚至超過人類的智能水平。在進入具體的討論之前,我們先從宏觀邏輯分析 AGI 的可能實現路徑。
第一條路徑是大模型。
目前 AI 算法還是圍繞著人類智能的逼近和模仿來開展。大模型就是利用複雜的深度神經網絡對知識的壓縮來逼近人類智能的隱函數,進而利用思維推理來挖掘智能本身,所以接下來基於基礎模型的自學習算法和模型自迭代進化將是通過大模型實現 AGI 路徑的核心。從這個角度來說,大模型的 AGI 迭代在 2024 年剛入正題,但是發展很快。
第二條路徑是智能機器人。
人類和動物等生物智能體是在開放式環境中與週遭事物以及環境中的智能體交互反饋來學習智能。最接近這種智能學習的模式是在開放式環境中活動的智能機器人,特別是和人交互的機器人。所以消費級機器人的落地將是這種 AGI 模式的開啟,機器人的自我學習和迭代算法也將是核心。
第三條路徑是腦機。
根據第一性原理,直接獲取人類思維模式的方式是讀取大腦信號,人類目前的科技水平通過腦機接口來實現。目前腦機還處在非常早期,但是腦機接口將是人機協同非常重要的路徑。
第四條路徑是數字生命。
通過算法實現從微觀尺度到宏觀尺度生命過程機理的仿真,就可以直接解鎖智能的奧秘,從而能創造出真正的超級智能。目前這個方向還在萌芽階段。
2. 2024 的4個關鍵進展
讓我們先回望 2024,從年初的 Sora 開始,幾乎每個月都有 AI 熱點新聞出現,長文本、多模態、具身智能、編程助手、思維推理、Agentic System、大模型訓練優化等,讓人目不暇接。相比 2023 年 AI 進展集中在大語言模型上,2024 年可謂是百花齊放,無論是深度和廣度都出現了飛躍。顯然,即使沒有 GPT-5 的發佈,這仍然是 AI 技術大爆發的一年。而在這麼多進展里,有四項進展值得重點關注。
2.1 影片生成
Sora 的出現意義重大,是影片生成領域的一個重要轉折點。在 Sora 之前,行業對影片生成已多有研究,但只停留在學術研究層面,效果差強人意,沒法達到商業化服務的水準。Sora 展示了利用 DiT 可擴展架構的有效性,吸引了全球同行們快速跟進,推動影片生成從學術研究到工業級應用的重大跨越,國內也出現了可靈、海螺、通義萬相、混元、豆包等優秀的影片生成模型。
影片生成模型的突破意義不僅在於推動內容生產方式的變革,也在於展現了可擴展架構的生成模型在視覺方向的巨大潛力。自然語言數據是人類知識以文字形式的數字化記錄,所以自然語言大模型是知識的壓縮,可以通過大語言模型來逼近從而超越人類的智能。同樣,圖像/影片是對環境和物體的數字化,也包含知識本身的展現。例如,球體的下落是物理規律的呈現、投籃是人類操作技能的展現等。所以不僅僅大語言模型,影片大模型也是通往 AGI 的重要組成要素。隨著圖像/影片基礎模型的性能提升,特別是 SOTA 級別開源模型的豐富,常見視覺任務大都會圍繞生成式基礎模型重新構建,大一統的視覺任務架構也會出現。另外,傳統視覺相關的仿真也逐步會和影片生成模型深入融合,從而重塑新一代的仿真鏈路,例如世界模型可以看做是其中一個方向。而基於仿真和模擬的技術方向,例如機器人,也會因為影片生成模型的成熟發展速度大大加快。在一些垂直領域,例如醫療和微觀組織研究等,數據缺乏的問題也會因為影片生成模型找到新的解決途徑,從而加快相關領域的突破。
影片生成技術的快速迭代促進各類內容工具的湧現,例如達摩院推出尋光 AI 影片創作平台,用 AI 重塑影片工作流,釋放行業創造力。

2.2 智能體 (Agent) 和系統
在 2023 年 AutoGPT 出現時,行業從業者就意識到基於大模型構建 Agent 應用的巨大潛力。進入 2024 年,Agent 相關的落地應用初步展現,如 Anthropic 發佈了 Computer use 讓 AI 可以控制電腦操作,智譜發佈了 AutoGLM 來重塑手機應用的使用方式。「一句話下單 2000 杯咖啡」,依託思維推理和自我改進機制,Agent 得以執行實現類似的自動化任務。為此,Anthropic 發佈了 MCP 協議 (Model Context Protocol),方便大模型連接數據和應用等局部和在線資源,從而可以構建起以大模型為核心、Agent 為應用的生態系統,人工智能操作系統的雛形也已經顯現。阿里巴巴通義大模型也在此深耕,通義完整的基礎模型系列、一站式大模型服務平台百煉、模型開源平台 ModelScope 和互連協議等構成新一代人工智能系統架構的基礎設施。
Agent 的重要性在於,它依託基礎模型和軟硬件互聯協議,會給人機交互方式和系統架構帶來根本性的變革。歷史上每一次人機交互的變化都帶來了系統級的變革,就像鍵盤鼠標之於 PC 互聯網、手機觸屏之於移動互聯網。
目前我們的系統設計還是基於鼠標點擊或者手指觸控交互的嵌套式圖形界面系統。這一次 AI 的突破帶來語言/語音/視覺等多模態信息為交互媒介的人機交互變革。Agent 不僅會大大豐富系統和應用的廣度,也將會在多模態交互邏輯下大大縮短應用使用的鏈路和構造邏輯,從而引發系統在 AI 時代的重構。這將是個人電腦和智能手機視窗系統誕生以來最大的一次實質性變革。傳統操作系統將在人工智能操作系統的牽引下和 AI 深度融合,從而誕生在 AI 時代更加扁平、更加連接開放、更加自動化的新型操作系統和應用範式。
2.3 編程助手
從人機交互的角度去看,AI 大模型帶來了基於語言輸入的全新交互方式。例如,可以通過語言提示輸入到大模型,調用大模型的功能來得到結果,包括回答語言相關的問題、生成代碼、生成網站、生成圖像影片等。
語言不僅僅是人類日常交流的媒介,也成了大模型時代的編程語言本身,這對於軟件來說是個突破性的進步。從機器語言、彙編語言、C/C++、Java、Python 等到現在自然語言,計算機語言經歷著由繁到簡的發展過程。但是在大模型以前,計算機編程都是需要專業學習、長期練習才能掌握。自從自然語言成為計算機編程語言本身,軟件從專業技能就變成了大眾化的工具,人人都可以成為高級程序員,這對於使用軟件是巨大的飛躍。人類利用軟件工具來提升社會生產力和效率從來都沒有像今天這麼便捷。所以基於大語言模型的編程助手的價值顯著,將成為大模型時代不可或缺的基礎工具。
過去一年編程助手發展迅速,國外像 Github Copilot、Cursor、Windsurf、Bolt,國內如阿里巴巴的通義靈碼以及字節的豆包 MarsCode 等相繼湧現。可以預料編程助手在新的一年里將會取得實質性進展,併成為最快成功商業化的 AI 產品之一。
2.4 具身智能
我們可以粗略將研究機器人智能的 AI 技術稱之為具身智能。多模態大模型可以視為是機器人的知識技能,具身智能大模型 (目前還沒有共識的範圍定義) 可以看作是機器人的操作和移動技能。
AI 驅動的機器人是物理智能體,既可以決定人類利用工具的生產力水平,又可以直接決定社會生產效率和國民生產總值,所以至關重要。特別是人形機器人,可以看作是人的物理化,他可以超越工具屬性本身,作為人類社會智能體的一員發揮作用,所以人形機器人可以拓展社會的運作模式和維度。
在具身算法上,Google、UC Berkeley、清華、字節等機構都發表了不同架構的具身智能大模型,初步驗證了 Scaling law 在機器人方向上的有效性。並為其引入多模態融合等新維度,讓業界看到了機器人技術突破的希望。仿真上,英偉達正在推動機器人仿真系統的工業化落地應用,開源仿真系統也在快速迭代,為機器人的仿真和批量數據生產打下基礎。數據上,行業內的數據生產標準和基礎設施也在發展中,智元開源的真機數據集也已經達到百萬級別的體量。計算芯片上,英偉達也會在 2025 年量產針對人形機器人的端側芯片和開發板,使 AI 在機器人的端側開發更加便利和高效。硬件上,特斯拉正在推動人形機器人的量產,這將促使機器人本體供應鏈走向成熟,從而也會使硬件本體成本大幅下降。所以綜合這幾個維度來看,具身智能已站在新一輪爆發週期的起點上。但是機器人商業化的路徑存在較大不確定性,和機器人形態以及對應的技術成熟度都有直接關係。
除了作為工具屬性,智能機器人以下特點值得突出:
一是數據採集端口。數據是模型的基礎,機器人將會是增量數據採集的端口。誰有消費級機器人數據,誰有條件做出最好的 AI。
二是應用服務新入口。和人交互場景的消費級機器人,會是繼個人電腦、手機之後的第三智能硬件形態,是各類應用服務的入口。
三是 AGI 路徑。如開篇所述,在開放式環境中自我學習和進化的智能機器人是實現 AGI 的路徑,將會使智能算法得到質的飛躍。由於機器人本身是可編程物理智能體,所以自我進化也將會帶來人類對於智能本身理解的昇華,會大大拓展人類本身智能的邊界。所以從 AI 的視角去觀察,用在固定工業產線和不與人交互場景的機器人和與人交互的消費級機器人是完全兩種機器人。消費級人形機器人是 AI 時代最重要的智能體,人類可以借助人形機器人進入一個全新的人機協作的智能時代,從而開啟人類使用工具的新紀元。

3. AI 突破的三個底層邏輯
回顧了 2024 年 AI 幾個方面的進展,我們再討論下 AI 發展的三個基本邏輯,即 Scaling law、Transformer 架構 (泛指 Transformer-like 的架構) 和生成模型。這三個方面相互交織,我們逐項討論下內在的原理和邏輯,便於把握 AI 發展的底層規律。
3.1 Scaling law 邁向縱深
Scaling law 是 GPT 等大語言模型快速發展的底層邏輯,更多的數據、更多的算力、更大的模型,得到更好的效果。Scaling law 也是 2024 年推動了 Sora 等影片生成模型的技術突破的邏輯遵循,利用更有利於規模化擴展的算法架構。雖然 Sora 並未開源或公開算法細節,但其技術報告公開了算法架構和技術路線,這使得領域內可以快速跟進,例如可靈。他們甚至實現比 Sora 更好的效果、更快的線上服務,再次在影片生成上驗證了 Scaling law 的有效性。Scaling law 也在具身智能大模型上面初步得到驗證,讓大家看到了具身智能 GPT 時刻出現的希望。在醫療方向,Nature 剛剛發表了三篇和醫療基礎模型相關的論文,標誌著醫療 AI 在快速邁向基礎模型驅動的 2.0 時代,也是 Scaling law 規律的體現。所以,Scaling law 不僅是大模型發展的底層規律,也是通向 AGI 的可靠路徑之一。
過去一年關於 Scaling law 是否遇到天花板的討論比較多,但其實,目前能夠有足夠多的資源和數據去觸摸 Scaling law 天花板的公司,全世界沒幾家。因為首先需要足夠強大的基礎設施和計算資源,其次還需要足夠多的訓練數據。關於數據,一方面是現有的互聯網相關數據,另一方面是合成數據——合成數據非常重要,但是合成數據的質量能否用於有效訓練,取決於基礎模型的生成能力和合成數據的方法,截止到 2024 年,可能只有 GPT-4 等極少數模型能達到這個水平。所以,目前還不能給 Scaling law 下個遇到天花板的結論。
3.2 Scaling law 固定路徑被打破
隨著 Scaling law 的縱深發展,其發展的固定路徑已經被打破!進入了新的 Scaling law 2.0 階段。
DeepSeek-V3 的發佈在領域內引起廣泛討論,他們用正常十分之一的算力達到目前大語言模型的 SOTA 性能。個人認為這個工作的出現標誌著 GPT-1 以來基於 Scaling law 的固定迭代路徑已經被打破了,是個模型架構和工程優化結合的突破性成果。由此也讓領域內看到模型工程優化的高度,所以模型架構在芯片計算層的優化將會是大模型訓練和推理的研發重點方向。由此路徑深入迭代,將會把模型工程引向模型架構和芯片架構深度融合的類腦芯片方向,從而突破 Scaling law 的限制,把模型訓練和推理帶入下一個階段。當然,這個方向需要時間探索。國內剛剛發佈的 MiniMax-01 模型也是這類不錯的工作。
除此之外,OpenAI o1 開啟 Test/inference-time scaling law 的階段。語言大模型可以看成是知識的壓縮,那怎麼利用知識產生更好的智能就是基於基礎模型的思維推理必然發展的方向。思維推理的發展也從一維單鏈路 CoT 模式到基於像蒙地卡羅樹搜索 MCTS 的系統化多維推理演化,從而構建更智能更體系化的思維模型。推理算法的發展也反過來影響基礎模型的 Scaling law 路徑,例如微軟 rStar-Math 算法無需從大模型蒸餾也能用 60 塊 A100 訓練的 7B 模型在數學推理上媲美達到 OpenAI o1 性能。上海 AI 實驗室的書生·浦語 3.0 的 InternLM3-8B-Instruct 模型通過提升數據質量和數據工程,只用 15% 的算力達到 SOTA 性能。過去半年這類工作有不少,就不一一列舉。
總結來說,無論數據維度、模型尺寸維度、還是算力維度,Scaling law 在模型上的體現已經過了粗狂式的發展階段,進入追求更有效的數據使用方式、更合理的架構設計、更極致的工程優化、更體系化的思維推理的 2.0 階段。
3.3 底層架構趨向統一
這裏所說的架構可以分為兩個層面,一個是指生成架構,例如自回歸模型、擴散模型、流模型、生成對抗網絡等;另外一個層面就是逼近函數通用的網絡結構,例如卷積神經網絡、LSTM、U-Net、Transformer 等。Transformer 架構因其對 Scaling law 的優良適配性,正在成為多種算法統一的底層架構。自然語言處理領域的自回歸模型、擅長視覺任務的擴散模型和常用於 AI for Science 方向的圖神經網絡模型,都呈現了逐步收斂到 Transformer 架構之上的發展趨勢。

在過去的一年,Sora 的出現不僅僅是影片生成的突破,也改變了視覺方向的底層架構設計,DiT(Diffusion Transformer) 迅速成為視覺方向業界公認的基礎架構,算法的設計都往這種架構收斂,這就是算法發展的不可預料性和強大活力。Transformer 問世於 2017 年,當時在 NLP 領域只用了兩三年時間迅速替代當時的主流框架 LSTM。在 Transformer 沒有誕生之前,LSTM 在 NLP 領域佔有絕對的主導地位,無人能預料到這麼快會被邊緣化——但就是這麼發生了,這種不可預料性也是算法研究的樂趣所在。
在多模態方向上,理解、生成、理解和生成的統一等任務和模態的統一架構研究也非常活躍。業內期待能有一個大一統的架構可以把不同模態和任務統一,有代表性的例如智源研究院基於自回歸架構的 Emu3 和 Meta 的 MetaMorph 模型。
架構趨於統一對於 AI 發展來說很有意義。首先,統一的架構可以顯著地增強 AI 系統的互操作性,深度探索不同模態、不同語義、不同尺度數據的深層次關聯性,這對人類通過 AI 認知和理解世界有決定性意義。達摩院在這個方向有跨領域跨學科的項目在開展中。另外,統一的架構也將大幅提升研發和部署效率,不僅使 AI 底層基礎設施的模型系統架構更加簡潔,也使推理的軟硬件架構可以在不同領域快速泛化使用,這將大大加速 AI 研發效率、產品的落地速度、和普惠化程度。
自回歸模型會是生成模型的最終答案嗎?目前只能說,可能性是存在的。但是同時我們也要看到擴散模型除了在視覺方向的廣泛應用以外,在 AI for Science 方向也正在被普遍使用。Transformer 會是 AI 的終極底層架構嗎?終極答案是否定的,但在一定時間內 Transformer 還會是大多數 AI 算法設計的最優選擇。尤其是隨著 AI 的廣泛應用,深入千行百業,會強化 Transformer 的主導地位,因為無論工程和系統方面,還是芯片等硬件層面,目前都是圍繞 Transformer 架構進行的。除非有一個突破性的新架構出現,否則 Transformer 很難在短期內被顛覆。
3.4 生成模型是 AI 算法的第一性原理
深度學習解決了複雜函數的通用逼近問題,而生成模型解決了概率論里的古老問題——高維數據分佈 (或是非線性結構) 的擬合。我們上大學時學習概率論,核心就是估計概率密度函數、擬合數據分佈。為什麼擬合數據分佈重要?因為 AI 處理的就是數據,一旦擬合了數據分佈,尋找到數據結構的機理,就能通過直接采樣生成新的數據。因此,絕大多數 AI 要解決的任務,本質上都可以簡化成對數據分佈的擬合和對數據分佈的修正這兩個很基礎的問題。所以生成模型是非常本質的,它成為 AI 的基礎模型是符闔第一性原理的。
生成模型一定程度上可以突破互聯網數據階段性見頂和各個領域內數據缺乏的困境,對推動 AI 發展的作用遠超作為算法應用本身。例如基礎模型性能發展最成熟的 NLP 領域,生成數據用於訓練模型已經是常態,是解決 NLP 數據困境的有效途徑。除了影片方向的 Sora,自動駕駛領域也在用生成數據來解決 corner case 的問題。Tripo 和 Rodin 三維生成模型也展現了令人鼓舞的前景。科學方向基於擴散模型的 RFDiffusion 和 Chroma 算法可以用於蛋白質設計。微軟發佈了可以快速生成不同類型無機材料的基礎模型 MatterGen。醫療方向也在用生成模型解決醫療數據稀缺的問題。隨著各個模態生成基礎模型性能的成熟,其它方向也會如此。
更重要的是,基於生成模型的思維推理是構建智能的關鍵。目前生成模型的發展和使用還在初期階段。基於生成模型對於知識的建模、結構的擬合、智能的構建才剛剛開始,新的思維範式也將會在未來幾年里出現。從點線的低維度推理模式到高維度體系化思維能力的演化,不僅會促使模型能力的極大提升,也會讓研究員重新審視模型架構的設計本身,從而加速 AGI 時代的到來。

4. AI產業進入百花齊放階段
前面重點討論了技術方向,接下來,讓我們展望 AI 的產業影響。人類有幾個基本的特點:血肉之軀的能力限制,所以物理工具是必需品,而最極致的工具是物理化的人——機器人;知識無法遺傳,所以教育不可或缺;肉體衰老死亡,所以醫療是人類社會的剛需服務;活動受到物理環境的限制,所以數字仿真必將成為 AI 的基礎設施。我們就聚焦在硬件、教育、醫療、和數字仿真這幾個題目進行簡要討論。
4.1 智能硬件具備爆發條件
2024 年像Google的 Gemini、OpenAI 的 GPT 系列、阿里巴巴的通義 Qwen-VL、智譜的 GLM-Realtimes、和麵壁智能的「小鋼炮」MiniCPM-o 2.6 端側模型都在多模態和視覺理解能力上取得了顯著進步。人類本來就是利用視覺、語言、聽覺、觸覺等不同模態的信息來進行和環境感知和交互的,所以多模態是人機交互的關鍵。多模態基礎模型能力的成熟會促使兩個方向的進步:一個就是數字智能體,也就是現在說的 Agent;一個是物理智能體,也就是包括機器人在內的智能硬件。所以按照技術演化的邏輯,2025 年智能硬件會迎來高速發展期。
在人機交互的信息媒介中,語言和語音是其中兩個最重要的兩個基礎模態。對於語音,除了智能手機之外,智能耳機會是自然的人機交互的指令入口,所以會在 AI 驅動的智能硬件中佔有核心的地位。國內字節和訊飛都在消費級智能耳機方向上率正選力。另外,輕量級的腦機接口設備也在 CES 2025 上出現,例如美國初創公司發佈的 Omi 的 AI 可穿戴設備。這種類似的智能硬件雖然輕量,但是都是不同模態人機交互入口級別的智能硬件,值得關注。
另外一個大的方向就是機器人,剛才在具身智能章節中從技術的角度闡述了關於機器人的看法。但是從產業落地的角度去觀察,是不同的路徑。目前業內認為率先落地的是工業場景,如汽車總裝線,這個場景下機器人的目標是替換高級技工並帶來產能的提升。另外一個就是家庭智能玩具,它基於輕機器人本體路線,但帶來多模態的人機交互。
和主流看法有點差異,我們認為對於未來機會的把握這兩個都不是當下落地的理想路徑。而二者的結合:一個低自由度,結構簡單穩定,能夠帶來「輕、靜、快」的物理交互,又能結合 AI 提供多模態感知交互的機器人,很可能會更早地形成可以持續的商業生態。在 2025 年,除了大家都熟知的人形機器人,我們更期待一款可落地的消費級機器人新品類出現。
4.2 醫療 2.0 時代開啟
在 AlphaFold 榮獲 2024 年盧保獎後,幾乎所有人都意識到了 AI 解決基礎科學問題的巨大力量,AI for Science 已成為毋庸置疑的重要趨勢。其中,生命科學和醫療是關乎人類福祉的方向。AlphaFold 發明人之一、DeepMind CEO Demis Hassabis 也預測人類有可能在未來十年內治癒大部分疾病。這一預測如果成為現實,那將是醫藥誕生以來的歷史性進步。

在過去幾個月裡,Nature 正刊上接連發表了病理學基礎模型 CHIEF、精準腫瘤學多模態基礎模型 MUSK、人類細胞類型的轉錄基礎模型 GET,還有 Nature Medicine 上解決醫療圖像合成的生成基礎模型 MINIM,多模態醫療基礎模型 BioMedGPT 等。這些基礎模型工作的接連出現,標誌著醫療技術 2.0 時代的到來。醫療方向正在從針對單病種單類型的技術時代快速向基於基礎模型加具體任務微調的大模型範式轉換。另外,完整週期的大隊列數據對於疾病治療至關重要,但是獲取完整隊列數據非常困難而且週期很長。借助生成模型,有望解決醫療週期數據缺失的問題,這對醫療領域取得實質性進步意義重大。
達摩院在醫療 AI 方向成果顯著,在 Nature Medicine 上發表了基於平掃 CT 影像的胰腺癌檢測算法 DAMO PANDA,是業內首次借助平掃 CT 進行胰腺癌篩查的方法,為大規模低代價進行胰腺癌篩查開闢了新的路徑。這項工作被史丹福大學發佈的 2024 年 AI 指數報告列為「年度亮點研究」,是國內唯一入選的工作。目前達摩院正在進行中的多病種統一算法架構、醫療多模態基礎模型和腫瘤動力學等相關研究,也有望在今年取得重要進展。
4.3 AI 驅動的教育
無論孔子時代的問答式教學、還是柏拉圖時代開啟的思辯,教育至今都延續老師和學生物理互動的模式。學生學業的高度很大程度上取決於老師水平的高低和資源的多少,因此,受限於不同地域和文明發達程度的不一,人類離教育普惠一直遙不可及。令人欣喜的是,這種狀況要在 AI 時代終結了。
在Google的 Gemini 多模態模型和 OpenAI 的多模態模型發佈會上,都不約而同地展示了多模態大模型在教育場景的應用示例,這足以說明 AI 公司對於利用 AI 技術解決教育問題的期待和重視程度。AI 將人類沉澱的知識壓縮到模型中,從而利用記憶和組合生成可以創造出比人類更加智慧聰明的數字智能體。所以在不遠的將來,利用多模態大模型的能力,虛擬老師的水平將會超過幾乎所有的真實老師的水平,從而使教育提高到一個全新的高度。只要有可以運行 AI 軟件的硬件終端,人人都可以獲取最好的教育。這會在未來五年內發生,將是人類教育事業全新的開始。
但是教育本身也包含物理互動的過程,而且這是數字智能體沒法完全取代的,所以教育方向將有適應 AI 時代的各種智能硬件出現。
4.4 數字仿真 2.0
2024 年對於 AI 發生的其中有一個轉折就是算法到物理世界的轉場。AI 為了更好地適配物理世界並實現落地,各類數字化仿真將會成為不可或缺的基礎設施。世界模型就是其中一個備受關注的方向,還有現象級討論的 Genesis 物理仿真平台等。但是這裏談到的數字仿真遠不止現在學術界研究的世界模型覆蓋的範疇,這是一個涵蓋從微觀尺度到宏觀尺度的數字技術和物理世界映射的範式變化。
英偉達在數字仿真領域上進行了系統化的深入佈局。NVIDIA Isaac、Omniverse 和 Cosmos 等平台正構建一個完整的仿真生態系統,重塑工業研發鏈路和範式。在 CES 2025 上,英偉達演示了在自動駕駛仿真、飛機制造、機器人研發以及工業場景的數字孿生等方面的應用,展現了廣闊的前景。
不僅在工業場景,數字仿真在生命科學上也展現了巨大的潛力。2024 年 DeepMind 和哈佛大學在 Nature 上發表了由 AI 生成的數字生命體——虛擬老鼠,使用命名為 MIMIC 的算法能夠模擬囓齒動物的大腦活動和行為表現,在生物動力學方向取得重要突破。國內智源研究院提出了 BAAIWorm 天寶,實現了秀麗隱杆線蟲的神經系統、身體 和環境的交互仿真。基於真實物理世界機理的生物動力學仿真,將會開啟一個全新的生命科學研究範式,有著深遠的意義。
在數字化時代,原則上幾乎每個物理世界的場景都可以進行仿真。從核聚變研究到細胞活動模擬,從機器人研發到數字生命體建模,從機械動力學到生物動力學,從微觀到宏觀的自然界都將會在仿真系統中被重建。

5. 結語
這輪 AI 浪潮會把人類社會帶入全新的智能時代,人類認知世界、改造世界的能力將得到空前的提高。可以預料到的是,三十年後我們將身處一個與現在完全不同的嶄新世界。作為 AI 從業人員,我們非常榮幸可以參與這一歷史進程,也希望本文能夠為 AI 同仁探索未來提供一些啟發。未盡之處,歡迎關注「DAMO 開發者矩陣」,我們將在後續文章中持續探討 AI 的前沿趨勢與應用展望。