杭州「六小龍」開源新模型SpatialLM,登HuggingFace趨勢榜第二位
杭州「六小龍」之一的群核科技近日在GTC2025全球大會上低調開源了一款空間理解模型SpatialLM。
SpatialLM是一個基於大語言模型的3D場景語義生成框架。通過一段影片輸入,就能準確認知和理解此影片對應的空間點雲數據,並對點雲數據進行推理和場景描述,最終將提取的信息以自然語言的形式呈現。

SpatialLM運行原理
這款中國公司低調開源的模型一經推出,在國外LinkedIn、Twitter和技術圈受到熱捧。在最新HuggingFace趨勢榜上,群核科技SpatialLM登上趨勢榜第二位,有意思的是趨勢榜前三家均是杭州公司,分別為Deepseek、群核科技SpatialLM、通義千問Qwen2.5-Omni,領先於英偉達、Google等公司模型。

群核科技創始人黃曉煌接受國際媒體彭博社採訪時直言:「開源是為了推動具身智能技術奇點到來。」

海外平台用戶對SpatialLM的自發分享
不同於傳統大語言模型,SpatialLM突破了對物理世界幾何與空間關係的理解局限,賦予機器類人的空間認知和解析能力。
目前,SpatialLM已在HuggingFace、GitHub、魔搭社區等平檯面向全球開發者開源。
雖然行業已有對圖像、影片進行參數化描述模型,比如Meta此前發佈的SceneScript模型。但SpatialLM的獨特之處在於:
1、相比Meta需要依賴其眼鏡的定製化模式,SpatialLM設定於面向普通相機、手機的影片作為輸入,因此更具通用性。
2、不同於傳感器對物理世界的感知,SpatialLM使用大語言模型,最終輸出是對3D場景的自然語言描述,未來還將支持原生自然語言與場景數據交互。
3、更重要的是,SpatialLM支持對物理世界中空間信息的認知理解,和結構化描述。群核科技本身便專注於物理空間模擬的技術場景,過去十餘年中積累了海量的三維數據和空間認知數據;基於此數據訓練的模型,亦具備創建物理正確的空間場景的能力。
SpatialLM模型開源後,將為像具身智能領域的企業或機構科研團隊提供一個空間認知理解的基礎訓練框架。尤其是對那些不具備模型開發能力的具身智能企業,可以基於SpatialLM模型進行微調,降低具身智能訓練門檻。
同時,SpatialLM模型與去年群核科技發佈的空間智能解決方案SpatialVerse之間,形成從空間認知理解到空間行動交互的具身智能訓練閉環。SpatialLM模型負責空間認知理解上的基礎訓練,SpatialVerse負責機器人在仿真環境中的行動交互訓練。
另一方面,SpatialLM模型使SpatialVerse的數據來源更開放。通過從影片到結構化場景的轉化,將現實世界的數據轉化為虛擬環境中的豐富場景。而基於SpatialVerse的合成數據引擎,這些基於SpatialLM模型生成的一個個結構化場景又可泛化生成億萬級新場景。相當於形成一條 “現實 – 虛擬 – 現實” 的閉環路徑,讓現實世界成為「數字道場」的原料來源,這不僅讓SpatialVerse的數據更多樣,同時還能縮小仿真與現實之間的「差距」。
鈦媒體App此前報導過,這家目前備受關注的空間智能公司,今年2月向港交所提交了上市申請,聯席保薦人為摩根大通、建銀國際。招股書顯示,群核科技營業收入由2022年的6億元增加10.5%至2023年的6.64億元;2024年前9個月經調整淨虧損為9361萬元。
更早4個月前,群核科技對外公開兩大技術引擎:群核科技啟真(渲染)引擎和群核矩陣(CAD)引擎,並首次介紹其技術底層核心:基於GPU高性能計算的物理世界模擬器。現場,群核科技還推出了群核空間智能平台SpatialVerse,面向AIGC、具身智能、AR/VR 等企業開放物理正確的3D空間數據資產、空間認知解決方案以及空間智能訓練相關服務。
據悉,目前該平台擁有全球最大的室內場景認知深度學習數據集,此前還與英特爾、慕尼黑工業大學推出全球首個高視覺與物理逼真度環境數據合成與訓練仿真平台SPEAR SIM。
群核科技聯合創始人兼CEO陳航表示,群核科技是一家以GPU集群和AI技術為底座的科技公司,在過去數年的技術沉澱中構建了一套物理正確的世界模擬器,並將之運用在基於空間的實時設計渲染、工業生產製造,以及虛擬物理世界訓練等場景中。據悉,2024年群核科技全平台平均月活躍訪客數為8630萬名,旗下酷家樂是全球最大的空間設計平台,在十年發展中沉澱了超過3.6億的3D模型。(本文正選於鈦媒體APP,作者 | 秦聰慧)