21專訪|小米陳龍:陪小米智駕長到十八歲
人類不是一生下來就學習開車的,大模型也一樣。
21世紀經濟報導記者 何煦陽
4月1日,《21汽車·一見Auto》與小米汽車智能駕駛基座大模型負責人陳龍進行了一次面對面訪談。
“小時候,我們學說話和認字。隨著慢慢成長,我們會經常摸、拿、抓、取一些東西。等到我們具備了強大的語言能力和對空間的理解和推理能力,差不多十八歲以後,我們再去學習。這樣才能將我們習得的一切融入駕駛之中,不僅開得更快,還開得更好。XLA 大模型也一樣。”在訪談時,陳龍對我們說。

3月份,小米剛發佈了新一代SU7,並宣佈輔助駕駛升級到 XLA 認知大模型架構。小米集團董事長雷軍在新一代SU7發佈會上稱,之所以命名為 “XLA” 而非業內俗稱的 “VLA(Vision-Language-Action Model,視覺 – 語言 – 動作)”大模型,是因為模型具備“多模態的認知輸入”:小米還融入了聲音、機器人數據等模態。
雷軍介紹小米 XLA 認知大模型陳龍就是開發 XLA 認知大模型的負責人。童年時,他喜歡美劇《霹靂遊俠》里的智能跑車 KITT,這台跑車有鮮明的自我意識,通過自動駕駛多次幫助主角化險為夷。長大後,他曾在英國劍橋大學孵化的自動駕駛公司 Wayve 任職,是將 VLA 模型引入輔助駕駛領域的先行者,致力於令大模型的駕駛決策過程更加透明。一年之前,他加入小米,擔任輔助駕駛 VLA 技術負責人。
彼時的小米輔助駕駛架構還處於 “端到端(End-to-End,一種深度學習模型範式,直接從原始輸入映射到最終輸出) + VLM(視覺 – 語言模型,Vision-Language Model) ” 階段。陳龍將這一階段的核心,提煉為“數據驅動”。端到端拆掉了傳統輔助駕駛的“感知”“規劃”“決策”模塊,通過直接灌入大量駕駛場景數據,直接讓模型學習並輸出駕駛行為。2024年,國內車企及供應商集體切換到端到端架構,輔助駕駛的整體水平均得到了質的提升。
但進入2025年,端到端架構的缺陷開始顯現。通俗來說,大模型雖然靠“死記硬背”海量的駕駛數據提升了自己的駕駛水平,但現實世界總會出現更多元、更複雜的駕駛場景。大模型需要真正理解和認知人類社會和現實世界,才不會在現實世界中遇到新的場景時“傻眼”,像老司機一樣思考,做到“舉一反三”。——陳龍將新階段的核心,提煉為“認知驅動”。
先讓大模型長到十八歲
可是如何才能讓大模型學會“認知”?
端到端時代,大模型被灌入了海量的駕駛數據,但這些數據還不夠。陳龍需要打造一個更龐大的具身基座大模型,這個模型中不僅需要駕駛數據,還需要有機器人數據、多模態數據(圖片、文字、視頻)。
加入機器人數據,是為了讓模型如同人類從孩童開始一般“與各種物體進行交互”,更理解“物體與物體之間的邏輯關係”。而加入海量的多模態數據,是要讓模型如同人類從孩童開始一般識字,慢慢發展視覺和語言能力,具備對人類社會和現實世界的通識。整個過程,相當於“先讓大模型長到十八歲”。
2025年11月21日,小米正式發佈並開源小米具身大模型 “Xiaomi MiMo-Embodied ”。為了將小米的具身基座大模型撫養成人,陳龍團隊花了八個月的時間,但趟過的彎路卻遠不只八次。
在這個過程中,曾在阿里巴巴達摩院、幻方量化及DeepSeek(深度求索)任職,如今擔任小米集團 AI 實驗室 MiMo 大模型團隊負責人的羅福莉,給予了他們很多幫助。“羅福莉和他們團隊,不僅給我們提供了一個很強的基座模型Xiaomi MiMo-VL系列,還與我們共享了一套訓練框架。”陳龍告訴我們。
2025年5月30日,小米發佈並開源了多模態大模型 “Xiaomi MiMo-VL”。陳龍團隊採用了 Xiaomi MiMo-VL 中的 “視覺編碼器”,能將高解像度的畫面編碼成機器能理解的視覺 Token,並直接 “繼承了其成熟的視覺-語言對齊機制和強大的推理能力” 。這意味著陳龍團隊不用從零開始訓練自己的基座模型,大大縮短了Xiaomi MiMo-Embodied “成年”的時間。
小米具身大模型MiMo-Embodied技術報告節選陳龍告訴我們,Xiaomi MiMo-Embodied 的 AI Infra(人工智能基礎設施,常簡稱為 “AI基建”), 很大一部分也是複用羅福莉團隊的。
不過,將大模型混入如此多元的數據,對陳龍團隊來講也是第一次,所以他們搞錯了很多次灌輸數據的順序。
“因為之前也沒人探索過,所以我們錯了很多次。一開始我們就想直接將數據混在一起訓練,後來發現不太work。”之後,陳龍團隊開始思考應該讓模型先具有什麼能力,再具有什麼樣的能力,才發現要先灌輸通用的多模態與空間數據,再灌輸機器人與輔助駕駛數據。——這很像人類先成人再開車的邏輯。
數據的配比也是關鍵。與駕駛場景相比,機器人面對的場景更多元也更複雜,因為存在不同的機器人本體,所以又存在不同種類的機器人數據,這都導致機器人的數據更稀少。陳龍團隊在互聯網上儘可能地搜索並加入了大量開源的機器人數據,花了大量的時間做實驗來驗證機器人、駕駛與多模態數據具體應該怎麼配比。
除了配比,還要將數據相融。“我們標註了很多 CoT(Chain of Thought,思維鏈)數據。”陳龍告訴我們,這相當於將兩個大任務分解成很多小任務,告訴大模型要先識別具體的物體,再理解物體的狀態,最後明白未來該怎麼做。
端到端時代,大模型具備Scaling Law(縮放定律,指大模型性能會隨著參數、數據和算力的提升而提升)。但陳龍告訴我們,到了後期,模型輔助駕駛水平提升的邊際效應遞減得越來越明顯。切換成 VLA 架構之後,模型需要加入更多的、嶄新的三模態(視覺-語言-行動)輔助駕駛數據,才會開始新的一輪Scaling Law。
這意味著陳龍團隊需要重新標註駕駛數據,重新思考如何構造不同的駕駛任務。比如,“你需要構造很多種問題,然後讓模型描述不同的駕駛片段,生成一段文字回答。”陳龍告訴我們,“一個問題、一段畫面、一個回答”,這在 VLA 時代只能算 “一種數據”。
顯然,單靠人力是無法完成如此龐大的數據構造工作的。此時,羅福莉團隊又發揮了重要的作用。關於駕駛片段數據,陳龍團隊可以複用羅福莉團隊的AI Infra去蒐集,然後設置問題讓XLA回答。至於回答是否準確,陳龍團隊可以利用Xiaomi MiMo-VL系列大模型來進行監督,再人工 “精篩” 一遍。
陳龍告訴我們,他們和羅福莉團隊是“兄弟團隊”。
教會大模型如何 “思考”
將Xiaomi MiMo-Embodied “撫養成人”並不意味著結束,進入到量產部署階段,新的問題也隨之浮現。
“模型太大了。”陳龍告訴我們,去年年底,他們已經利用內部數據,做了一個尺寸更小的、閉源的Xiaomi MiMo-Embodied,但與量產團隊一起放到車端之後,發現車上的算力實在有限。
VLA架構在去年快速被行業採用的原因,除了能夠提升輔助駕駛水平以外,還因為其具備可解釋性與可追溯性。端到端架構只有“輸入”與“輸出”兩端,中間模型通過海量駕駛數據自己學習,但到底是怎麼學習的,在實際的輔助駕駛中是怎麼決策的,哪怕對於模型提出者本人也是一個“黑箱”。
但VLA架構不同。VLA 自動駕駛模型架構可以在輸入視覺信息(Vision)時,一併輸入語言(Language,地圖指令、駕駛規則、自然語言提示、人類駕駛解說等)進行訓練。實際推理時,VLA可以利用大語言模型(LLM)的語義理解和因果推理能力,將“V”與“L”結合起來做決策,思考力更強。因此最後輸出駕駛動作(Action)時,也可以將模型內部的思考過程通過人類語言展現出來。
但利用人類語言,消耗的算力和時間實在太多了。如何讓 XLA 認知大模型推理時更迅速且更高效,成為了陳龍思考的主題。
潛空間推理(Latent CoT)應運而生。陳龍在 XLA 認知大模型宣傳視頻中介紹:“簡單來說,系統不再需要把思考過程翻譯成語言,而是在潛空間中直接使用高維機器語言進行極速推理”,這樣就大幅提升了 XLA 面對複雜駕駛場景時的推理速度。如果事後需要,陳龍稱小米團隊也可以將其思考過程解碼,保證其“可解釋與可追溯性”。
直接命令 XLA 大模型用自己的機器語言進行思考的確更高效,但 XLA 模型究竟應該怎麼思考呢?如果沒有人類指導,XLA 在推理時 “雖然中間多了很多步,但他不知道要用這幾步來幹什麼。所以最終肯定還是需要人類指導的。”
陳龍說,在每一次開車時,他都“無時無刻不在留意自己是怎麼開車的”。他覺得大概人類在開車時的思考方式大致分三種:
第一種,運用直覺。因為大量的駕駛經驗與對世界的理解已經沉澱在人類的潛意識里,所以在開車時人類可以“腦袋放空”。“這更像端到端駕駛的方式”。
第二種,運用語言和推理能力。比如,人類需要讀取標識牌、導航的信息,判斷一下往哪裡開。
XLA 大模型也一樣。以超車為例:給 XLA 一段車輛跟在前方慢車後的畫面,讓 XLA 自己思考,再把自己的機器語言翻譯成人類語言思維鏈,如果能還原出“前方慢車擋路一確認安全一打燈變道超車一回原車道”的人類語言,說明它正確理解了人類駕駛的思考邏輯。在模型訓練階段,陳龍團隊會引入人工質檢員和利用Xiaomi MiMo-VL大模型強大的視覺語言能力進行監督。
第三種方式,運用想像。還是以超車為例,人類會判斷自車與前車的距離,變道的距離是否合適,這種對空間和未來的想像力,其實就來自自動駕駛的另一個範式——“世界模型(World Model)”的能力。
陳龍告訴我們,世界模型其實有兩種:
· 一種是“世界仿真模型(World Simulator Model,WSM)”,能夠生成無數接近真實世界的虛擬駕駛場景,包括各種罕見的長尾場景(Corner case)。XLA 能在裡面進行無數次駕駛訓練,“再結合強化學習,進一步對齊人類偏好”。
· 另一種則是“世界動作模型(World Action Model)”,通過喂海量的駕駛數據,模型能想像出未來的行車畫面,並通過預判作出駕駛決策。“如果你能想像出未來是什麼樣的,其實你就知道應該怎麼開車了”,陳龍說。
在訓練階段,陳龍團隊會要求其將思考過程解碼成其想像的畫面,之後讓XLA將自己解碼出來的畫面與真實記錄的未來畫面進行比對,如果算出不同,XLA會自行通過反向傳播算法優化網絡。

大量訓練後,XLA 在駕駛時已經學會了如何正確地思考,因此實際的輔助駕駛推理過程中,XLA 就沒有必要將每次推理解碼成人類語言或者未來圖像了,這樣就可以保證車端推理的極速。
通過多種訓練練就的 XLA 認知大模型,此後進行潛空間思考時,三種方式都可以靈活運用。“潛空間思考的優勢,就是我不限制你去想什麼,也不限制你用什麼方式思考。我們最終的目的是讓模型學會駕駛”,陳龍告訴我們。
先保下限,再談上限
2025年,國內最熱門的輔助駕駛話題就是 VLA 與世界模型的路線之爭。理想在國內最早採取 VLA 架構,隨後小鵬等車企與智駕供應商跟進;而蔚來、華為則更強調世界模型,推出了各自的 NWM(NIO World Model) 與 WEWA(雲端世界引擎、世界行為模型) 方案。
去年8月,華為智能汽車解決方案 BU CEO 靳玉誌公開表示,不會採取 VLA 這樣的 “取巧” 方案:“我們更看重 WA ,中間省掉 Language 這個環節,通過信息輸入直接控車,而不是把視覺信息轉成語言,通過語言大模型再來控制車。”
但在陳龍看來,VLA 沒有將視覺信息“轉成” 語言, “L” 也不是“中間環節” ,而是增量信息。“ VLA 模型是在推理出來 ‘L’ 後,與 ‘V’ 一起進行決策(Action)”。
簡而言之,不是 “V → L → A”,而是“( V + L )→ A ”。陳龍團隊決定將下一篇論文命名為“OneVL”,意為在潛空間思考融合了 VLA 與世界模型。
而在今年,國內智駕路線也開始收斂,“VLA + 世界模型”被行業預設為可以同時採用的方案。華為車 BU 負責前瞻研發的2030實驗室,也接連發表了DriveVLA-W0、DynVLA等論文。
“去年大家講 VLA、世界模型的概念多一些,但可能最終發現,還是需要用戶體驗好才行”。陳龍說。
但切換到 XLA 認知大模型架構的小米汽車,眼下還有實際量產的關要過。
去年國內更早切換到 VLA 或者世界模型架構的車企,進行 OTA (遠程升級)後,用戶體驗的實際效果都發生了波動,也引發了一系列的人事震盪。小鵬集團自動駕駛團隊負責人由李力耘變更為劉先明;理想汽車智駕團隊的賈鵬、夏中譜、王佳佳相繼離職,今年2月,自動駕駛研發高級副總裁郎鹹朋離職;蔚來汽車智駕團隊的白宇利、馬寧寧、黃鑫等多位核心高管離職。
今年,小鵬集團發佈“第二代VLA”輔助駕駛架構後,其董事長兼CEO何小鵬在兩會後的小範圍媒體溝通會中向《21汽車 · 一見Auto》表示,第二代VLA是他們拆掉了輔助駕駛中大量的規則,用自有的算力、更大的模型重建之後的結果。”如果說原來輔助駕駛的上限是100分,今天的輔助駕駛可以做到一萬分到數萬分的規模,也就是上限特別高”。
但陳龍現在採取的策略是,目前推送的第一個版本,“調教會相對保守一些,會利用一些規則的限制進行安全性兜底”,並持續進行數據迭代,逐漸放開全模型的能力,“到時候用戶體驗會更加絲滑”。
“輔助駕駛,安全是第一位的,能不能去掉規則,取決於你能不能做到絕對的安全。先保下限,再談上限”,陳龍告訴我們。
出品|21智能汽車工作室聯合21財經工作室、21創意工作室
編輯丨吳曉宇



















