人類快到用嘴開車的時候了

21世紀經濟報導記者何煦陽 報導

艙駕一體的風颳了四五年,如今已經從硬件層刮到了模型層。

2025年7月10日,馬斯克在X(推特)上宣佈,Grok即將登陸Tesla。兩天之後,Tesla官方賬號發帖,告訴車主現在只需要按住方向盤上的語言按鈕,就能激活Grok。

Grok是馬斯克旗下xAI 公司全棧自研的多模態通用人工智能大模型。2025年7月xAI發佈Grok-4系列以來,Grok 的綜合能力與GPT-5.2、Claude 4.6 Opus、Gemini 3.1 Pro 共同處於全球第一梯隊。

Grok上車Tesla後,Tesla的FSD(完全無人駕駛)能力得到了極大提升。用戶體驗到的最新功能是,只需要動動嘴巴就能開車——“導航至機場,沿途添加一家咖啡店,並在電池電量低於 20% 時提醒我”——Grok就能自動規劃好路線,並通過自動駕駛將乘客送到途經點和目的地,並到點主動為車主提示電池電量。英偉達機器人技術總監Jim Fan在2025年12月發推表示,Tesla更新到FSD V14後已經通過了“物理圖靈測試”。他已經分不清開車的到底是AI,還是真人了。

這是“艙駕一體”帶來的新功能。以往車圈內所講的艙駕一體,是在硬件層面,即用一顆芯片同時幹完座艙和智駕的所有活兒。國內首先量產L2+硬件艙駕一體方案的是北汽極狐阿爾法T5,只用了一顆高通 SA8775 芯片。

這樣的好處是能壓縮整車成本,拉滿算力利用率,降低跨域延遲。但目前能實現艙駕一體的芯片算力較低,平均在100TOPS左右,對於追求更高級別的自動駕駛與智能座艙功能的車企而言,這樣的算力只能算杯水車薪。

但Tesla將Grok與FSD融合,是數據和模型層面的艙駕一體。這要求打通座艙域的人機交互、用戶行為、多模態感知域智駕域的環境感知、駕駛行為、場景決策數據的壁壘,實現全量數據的閉環共享與聯合訓練。同時實現座艙側多模態大模型域智駕側端到端自動駕駛大模型的深度協同,讓整車智能系統從“分立的功能執行”,升級為具備場景理解、意圖推理、全域融合的整車智能體。

國內車企很快跟進。2026年1月28日,理想汽車將自動駕駛團隊併入軟件本體團隊,由勾曉菲統籌智能座艙與智能駕駛研發。2月3日,小鵬汽車的自動駕駛、智能座艙中心合併,新成立通用智能中心,由劉先明負責。剛過去的25年Q4財報會議上,李斌雖然沒有明確命令兩個部門合併,但也提到“蔚來已經為這樣跨部門的融合與數據的打通,以更快地感知、決策和執行,打好了基礎。”

車企到底為什麼要推動艙駕融合?這給車企帶來的主要收益是什麼,用戶又能感知到哪些顯性的變化?

給自動駕駛裝上“通用大腦”

對於這個問題的答案,李想表示,是因為打造具身智能,為了“應對新一輪的 AI 競爭”。何小鵬則在2026年年會上認為,是因為“這兩者的技術會合流,組成超級智能體”。

但他們都沒有解釋融合的底層原理,答案反倒要從目前沒有官宣組織合併的小米,其智駕VLA技術負責人陳龍的專訪中尋找。

在陳龍看來,艙駕融合的本質,是要推動座艙側的多模態大模型與自動駕駛大模型融合,提升自動駕駛的推理能力。

小米在去年11月21日發佈了由陳龍領銜的具身基座大模型 MiMo-Embodied。如果仔細閱讀 MiMo-Embodied 的論文,就會發現陳龍團隊為了訓練這個具身基座模型,還動用了小米的MiMo-VL(Vision-Language Model,視覺 – 語言大模型)。

去年5月30日, MiMo-VL正式發佈時,小米表示其能理解、推理和回答圖片、視頻、語言等多個任務,大幅領先國內同尺寸標杆多模態模型。MiMo-VL不僅能看懂圖像重點,還能將視覺信息翻譯成語言,進一步理解因果關係和進行邏輯推理,這部分能力被 MiMo-Embodied 直接拿來繼承。

除此之外,論文還專門提到MiMo-Embodied架構由三個主要組件構成,其中之一就是“負責文本理解與推理的大語言模型”。雖然不清楚該模型是否是羅福莉主導開發的MiMo-V2-Flash,但加入大語言模型後, MiMo-Embodied 對語言、代碼和邏輯明顯更加熟悉,同時具備了語言模型獨有的認知和推理能力。

小米具身大模型 MiMo-Embodied 技術報告節選小米具身大模型 MiMo-Embodied 技術報告節選

 MiMo-Embodied 發佈後一天,陳龍接受了媒體的專訪。在MiMo-VL和大語言模型的基礎上,陳龍在採訪中表示,他還往 MiMo-Embodied 加入了許多機器人與駕駛場景數據進行訓練,所以MiMo-Embodied 其實是一個“通用具身大腦,處於VLM階段”。到真正要用於自動駕駛中時,小米會再往“大腦”接上“小腦”,也就是“action expert”(動作專家模型)。

小米的MiMo-VL,對小鵬來說,就是其“XNGP靈犀大模型”;對理想來說,則是其“理想同學Mind GPT 3.1”。車企訓練的多模態大模型都不同,但之所以與自動駕駛大模型融合,都是為了同一個理由:讓智駕大模型更具備人類的通識、價值觀和推理能力,更明白在物理世界駕駛時“為什麼”要這麼開,提高自動駕駛水平。

將Grok與FSD融合後,FSD V14.2 極大地解決了此前版本中困擾用戶的微製動和突兀刹車問題,駕駛感更加平順,被很多國外媒體評價為“絲滑”且具有“人類感”。

但Grok上車的好處還不止於此,現在Grok除了能幫助FSD更好地理解和推理人類駕駛環境外,還能夠理解人類模糊的自然語言、結合車主需求與網絡實時信息,最後都將其轉譯為可執行的導航規劃:

  • 一位YouTuber @Chrisitian Moyer上傳的視頻顯示,他在上車喚醒Grok之後首先表示自己“頭疼的厲害”,隨後Grok就為他自動規劃了可購買能量飲料的最近酒吧,“距離0.7英里,大約4分鐘”;
  • 隨後Moyer又故意表示自己想先洗車,Grok停頓了一兩秒,又迅速規劃好一條新的路線:“沒問題。那就先去穆倫路上的阿拉斯加洗車店,再去酒吧。總共約1.5英里,大約7分鐘”;
  • 最後Moyer又表示喝完紅牛之後他肯定會餓,所以之後他想去吃漢堡,Grok迅速將上面的所有信息都組織起來,並規劃了一條最優路線:“沒問題,那就先去阿拉斯加洗車場,然後去布朗酒吧喝紅牛,最後去西104大道上的 Smashburger 漢堡店。”,還提醒:“現在離到洗車場還有7分鐘”。

注意,Moyer全程沒有提具體的導航地點,只提出了喝飲料、洗車和吃飯三個需求,但Grok能自主為其規劃最優地點和路線,還在車主兩次更改需求後繼續自主規劃。

這種從“自己開車”到“用嘴開車”的轉變,是以往車機系統很難做到的。

這跟何小鵬對把智能座艙與自動駕駛合併的回應一致:“這是為了讓行車決策與人機交互不再分家。以後車在路上怎麼開、人與車怎麼聊,共享同一套 AI 基座模型。可以想像, 不久的將來, 你可以對它說‘帶我去星巴克點杯咖啡’。這樣的交互才更有溫度、更擬人, 才是 AI 時代真正的高階智能。”

小鵬汽車2026年開工信小鵬汽車2026年開工信

管家和伴侶

雖然都做艙駕融合,但車企對模型自研的側重不同。

對多模態大模型,理想從一開始就選擇自研,現在理想同學Mind GPT 3.1具備極速響應、深度推理、多端互聯等能力,與其自動駕駛大模型融合後,或許能迅速提升其智駕水平。

但小鵬在自動駕駛的物理大模型上投入更多,其第二代VLA是拆掉規則、從頭研發、國內參數和數據量最大的自動駕駛模型。對小鵬來說,自動駕駛的能力得到驗證之後,他們更關注自動駕駛如何反哺智能座艙。第二代VLA媒體體驗日後的群訪上,小鵬通用智能中心負責人劉先明表示,有信心將在自動駕駛上驗證過的 AI 能力大規模遷移到座艙上。

何小鵬直言,相信汽車很快會迎來跨域融合。“汽車行業正在進入新階段:自動駕駛是整車運動,智能座艙是整車大腦,再加上動力、底盤,我認為這四個域都在進行跨域融合中。今年8月,小鵬將推出劃時代座艙產品。”

之後的智能座艙,將越來越從“被動服務”走向“主動服務”。最近小鵬在G6上更新的天璣6.0,能夠通過記錄面容ID,根據乘客信息,預先提供定製化的座艙服務——針對性調節車內環境、建議導航線路、推薦媒體內容,甚至在低電量時為車主推薦附近的充電站。

但當自動駕駛與智能座艙融合更深,更多具備想像力的場景正在出現:比如最近某位Cybertruck車主的FSD出現了報錯,Grok不僅向車主解釋了原因,還指導車主通過屏幕操作重啟了FSD。

在不久後的將來,座艙能獲取到的車輛信息,調動的汽車能力將越來越多。它可能會通知你:“今天可能因為天氣冷,左後輪胎氣壓低了8磅/平方英吋,但我已經自動調整好了”;並結合對車主越來越深的瞭解,更針對性地給出建議:“根據您的駕駛習慣和里程數,您的刹車油大約需要在三週後更換, 需要我安排上門服務嗎?

把駕駛交給AI之後,汽車不僅越來越成為車主的管家,還有可能成為你的情感伴侶。

在國內,座艙的擬人化情感交互做得較好的是蔚來。每輛蔚來車型駕駛台的中間都標配 NOMI Halo 物理交互組件,支援 240 度旋轉,能精準轉向說話的駕乘人員,配合數十種動態擬人表情,實現 “眼神交流” 式的交互,打破了語音助手 “只聞其聲不見其人” 的冰冷感。

而Tesla目前上車的Grok,擁有“助理”、“講故事的人”、“精神錯亂的人”三種人格,車主可以在旅行途中與Grok聊天放鬆,甚至讓Grok扮演不同影視劇中的角色。Grok則可以通過車主的語音、面部表情、駕駛行為等多模態數據,判斷車主情緒,調整交互風格。

Grok還可以為車主閱讀新聞報導,介紹Tesla軟件更新帶來的變化,甚至通過關聯車主的X賬號,根據車主的日常和社交偏好,在長途行駛中自動播放音樂,或為車主總結其關注博主最新發表的文章。

“用嘴開車”的前夜

目前,Grok上車之後只是一個導航助手和對話夥伴——它不能生成或改變FSD的駕駛策略。它讓“用戶與汽車對話規劃路線”成為現實,但它不能控制FSD的變道、刹車等操作,也不能解釋駕駛決策。

就在不遠的幾個月,這或許將迎來改變。

2月21日,Google Deepmind 工程師 Cristian Garcia 發推表示:“FSD最大的缺點在於它無法通過語言指令控制。如果你能告訴他‘就在門口附近找個停車位’或者‘過一個街區後右轉’,車主和汽車就都不用猜來猜去了”。

馬斯克在下面評論:“就要來了”。

 何小鵬在2026年的開工信里給出了同樣的判斷:“你(可以)對它說‘走前面的那條小路,繞開前面的幾個紅燈’”,而且他表示要在今年把Robotaxi、人形機器人、飛行汽車三大前沿物理AI業務全面落地,所以該功能或許在今年就將實現。

人類快到真正的“用嘴開車”的時候了。相比之下,現在的Grok只能叫作“用嘴導航”。

不過,自動駕駛的出現除了為瞭解放人類雙手,還為了以優於人類司機數千甚至上萬倍的水平,讓駕駛過程本身更加安全。如果“用嘴開車”是為了追求智能與時尚,而非讓駕駛更輕鬆與安全,這就本末倒置。

在自動駕駛技術真正到達人類能直接通過語言干預汽車自動駕駛策略的階段之前,法規需要先劃分基本的安全底線,明確哪些汽車功能能夠放權給人類語音控制,而哪些功能不行。

2月25日,一位領克車主在無路燈高速路段發出“關閉閱讀燈”指令,卻被其Flyme Auo 2.0.0系統誤判為“關閉全部照明”,大燈瞬間熄滅。車主多次語音重啟未果,最後因視線受阻撞擊護欄,所幸無人員傷亡。

去年11月,公安部主導的《機動車運行安全技術條件(徵求意見稿)》發佈,其中要求“汽車行駛過程中保障運行安全相關的操縱件(例如:擋位、燈光、喇叭、前風窗玻璃除霜除霧、前風窗玻璃刮水器、車窗升降、輔助製動裝置和組合駕駛輔助系統激活等),應裝備實體操縱件。”自動化控制的燈光,虛擬按鍵也要顯示在屏幕首頁。

今年1月,上述意見已經結束徵求意見,最早可能會在今年年中正式發佈,明年開始生效。

這是人類“用嘴開車”的前夜。在一片濃重的墨色里,人類還需要繼續研究如何讓技術、法律甚至駕駛員自身充分地為安全負責。但到了黎明,或許這也是具身智能機器人的元年在汽車上正式開啟的第一天。